【讨论下自动汉化】
目前自动汉化工具开发进度大概到我预期的70%左右了。1、很好用,走默认流程可以以极少的人工干预获得正确率90%以上的翻译和填字。(注意:目前的流程并不处理框外字、艺术字、修图。)
2、当我想要在此基础上提高正确率和美观度,仍然需要消耗不少时间精力。这就使得批量出产汉化成品不再可能,除非我愿意接受固定在90%左右的准确率。
3、假如我公开这个工具,既可以提高汉化者工作效率,也可以方便个人用户啃生肉,但是因为这个工具对讲漫up也有很明显的用处,我担心耗心血写出的程序成为逼死自己的工具,不敢全部公开。话虽如此,我准备写完下个功能后更新一下前半功能的公开代码。
我想讨论的问题如下:
1、以低人工干预获得的约90%正确率(不修图也不处理框外)的汉化草稿,有发布意义吗?虽然这是可以降低啃生肉难度的一个终极方案。
2、翻译上使用GPT4辅助,一话会消耗大概10条额度,openai会员一天不眠不休才能达到上限200条。识别对话框会有部分错误需要人工校准,识别文字必定会有一部分错误需要人工修改,虽然是用于批量的工具,实际上过程中每个步骤都有自动化的上限和人力成本。
3、实际体验中GPT4翻译的问题是,有时候会把短句翻译很长造成难以填字必须人工处理,有时候因为缺乏图像上下文会有部分理解错误,有时候缺乏对角色背景的了解,有时候语气词不合适。受限于生成式ai的特性,它无法达成完全自动化。
4、有考虑招募人手或者分发工具,但如何控制使用范围避免落入讲漫手中呢?只要有这个威胁在我就不敢全开源。 以下为演示 本帖最后由 赤星ビスコ 于 2023-6-14 18:51 编辑
首先,日漫比美漫受众更多吧,不知道翻译日漫效果如何
我随便选了一页能看看效果吗?
其次,一般来说汉化组是不需要这种工具的,没办法嵌字修图,翻译也是机翻没什么意义,对那些要求比较高的汉化组来说基本无用,不过可能没那么在意字体排版之类的也能用吧。但是对于个人,如果效果好的话大概就像VNR之于galgame,90%的准确率其实已经够了,如果能像vnr那样支持手动修改那就更没问题了
最后,讲漫的up放的都是各种语言版本的漫画也没妨碍他们赚钱吧
1.有意义,因为大部分嗷嗷待哺的外语苦手观众也不太在乎汉化质量,是中文能大概连上剧情,有最新资源就是好汉化。有和没有是很大的区别,汉化好和不好有多大区别就见仁见智了。
2和3可以招揽些愿意为爱发电的当校对
4.日漫美漫讲漫的营销号都这么多年了,拿到图源过个机翻就发了,楼主的工具他们不一定会用,不过只要楼主想成规模发出来想搞到的迟早会搞到,无法避免的,熟人小团体都有可能会背刺,更何况素不相识的网友。
https://github.com/VoileLabs/cotrans
用这个翻的,可以和楼主的对比一下
自动涂抹气泡也挺好用的 赤星ビスコ 发表于 2023-6-14 18:45
首先,日漫比美漫受众更多吧,不知道翻译日漫效果如何
我随便选了一页能看看效果吗?
GPT4的机翻居然被说没什么意义……我也从没提到不能嵌字修图,目前至少有好些汉化组等我把这个工具开发完好使用。讲漫up个顶个不要脸,偷我稿子还召集腿毛网暴、性骚扰我,我肯定不想便宜他们啊。 你原则上收费,加点图片隐形水印 墨问非名 发表于 2023-6-14 19:18
GPT4的机翻居然被说没什么意义……我也从没提到不能嵌字修图,目前至少有好些汉化组等我把这个工具开发完 ...
主要还是看效果啦,像楼上那种字体完全不对的嵌字要是汉化组直接拿出去我感觉还是蛮不负责任的
然后哪怕GPT4的机翻省略的是粗翻的时间,最终还是要重新走一遍校对精翻,当然不至于没意义,但该斟酌的还是要斟酌
如果你要是能生成PS工程,建好嵌字图层,选好字体大小间距那我感觉是帮大忙了
赤星ビスコ 发表于 2023-6-14 19:28
主要还是看效果啦,像楼上那种字体完全不对的嵌字要是汉化组直接拿出去我感觉还是蛮不负责任的
然后哪怕G ...
本来就是可以的啊 https://www.bilibili.com/video/BV1Uc411J7ke/ bananasjim 发表于 2023-6-14 19:24
你原则上收费,加点图片隐形水印
这两点防不住讲漫,唉 墨问非名 发表于 2023-6-14 19:32
本来就是可以的啊 https://www.bilibili.com/video/BV1Uc411J7ke/
我看了下能自动涂白很实用,要是能够识别字体以及字体大小行间距的话能省下很多嵌字时间
我也不知道这个工作量如何,中文嵌字的字体和日语字体应该是有对应的,行间距和字体大小不知道能不能做到识别…能有的话我觉得帮助巨大 喷了,这玩意哪能防得住技术泄露。
当然是等普及前捞钱啊,不想分享就不分享想那么多干啥。 吴怀在 发表于 2023-6-14 19:48
喷了,这玩意哪能防得住技术泄露。
当然是等普及前捞钱啊,不想分享就不分享想那么多干啥。 ...
我16年开始开发这个工具,因为被讲漫网暴中断了几年,现在23年,也没见技术普及啊。 赤星ビスコ 发表于 2023-6-14 19:45
我看了下能自动涂白很实用,要是能够识别字体以及字体大小行间距的话能省下很多嵌字时间
...
字体识别这个方向我记得有一个人做,但我不是很看好,图源那种清晰度就注定最终准确率堪忧。 借楼问下,有没有识别和翻译在线外文漫画网站图片的软件?准确率有8成就行,毕竟只是在线看看,好过啃生肉
—— 来自 HUAWEI SEA-AL10, Android 10上的 S1Next-鹅版 v2.5.4 oneoutsider 发表于 2023-6-14 19:55
借楼问下,有没有识别和翻译在线外文漫画网站图片的软件?准确率有8成就行,毕竟只是在线看看,好过啃生肉
...
Chrome有个付费插件,可以找找,我没试过。 墨问非名 发表于 2023-6-14 19:53
字体识别这个方向我记得有一个人做,但我不是很看好,图源那种清晰度就注定最终准确率堪忧。 ...
可能因为以前还不够好用吧,如果真的实用到了一定程度,那你一旦提供给不是关系极铁的人使用,就必然会被传播开了,这个真感觉防不了 “以低人工干预获得的约90%正确率(不修图也不处理框外)的汉化草稿,有发布意义吗?虽然这是可以降低啃生肉难度的一个终极方案”
如果是DMZJ那种可以在标题就强调“草稿”而非纯数字的平台发布的话应该还是不错的,
不过我个人是觉得如果是美漫,可能把半成品交给爱好者群体,然后让志愿者检查了润色甚至修一下图再发会更好。
讲漫防不住的,这个我不晓得咋办,看看大家咋说吧 本帖最后由 新人马甲2 于 2023-6-14 21:00 编辑
真的放出来并且得到广为使用的话感觉就不止是讲漫的问题了,很可能创造出一些之前不存在的新生态圈,放出来之前是无法预测到底会造成什么深远影响的
不过汉化组和漫画站的这个圈子感觉不太会受到太大的直接冲击,因为受众对汉化组的工作质量还是挺敏感的,各网站也有自己的人工审核机制和汉化组圈子,不太容易快进到被GPT汉化统治
讲漫的话感觉还是没什么办法,毕竟这个工具是实实在在非常方便他们的,毕竟这个圈子有很多人并不真掌握汉化技能,动机也足够强,也有不少人没什么行为底线可言,特别是考虑到每个有一定人气的up都不是单独的个人,而是一个up和一大群粉丝的集合
唯一的利点就是好像讲漫up圈子和汉化组-漫画站这个圈子没什么交集,理论上只在汉化组圈子里谨慎传播的话一时半会儿不会落到讲漫up手上(如果一个可信赖的汉化组只有1-2个核心成员掌握这个工具的话似乎不太容易传播到关系不大的圈子去),但长期来讲这个工具的扩散只能说是不可避免的 mooerfoes 发表于 2023-6-14 20:57
“以低人工干预获得的约90%正确率(不修图也不处理框外)的汉化草稿,有发布意义吗?虽然这是可以降低啃生 ...
你说的爱好者群体是不是叫汉化组…… 墨问非名 发表于 2023-6-14 20:59
你说的爱好者群体是不是叫汉化组……
感觉不能框这么死,不过给汉化组肯定效果最好 那你中断几年耽误人家讲漫了吗 迪米特里 发表于 2023-6-14 21:04
那你中断几年耽误人家讲漫了吗
有讲漫追着我骂说我不汉化以后没人汉化某些刊了都怪我,所以我也不确定 新人马甲2 发表于 2023-6-14 20:58
真的放出来并且得到广为使用的话感觉就不止是讲漫的问题了,很可能创造出一些之前不存在的新生态圈,放出来 ...
如果要避免扩散就要加密加锁或者转在线服务,全是成本 个人认为分享自动个汉工具必然会有商业化滥用行为
因为这个东西一但传播开来就和ai软件画画一样,零成本零付出几乎没有门槛,不需要专业知识,而且也不能假定每一个持有的人都能遵守互联网分享精神,遇到居心莫测的到时候就是几乎原地冒出来一大批投技利己者扰乱汉化圈子风气劣币驱逐良币balabala,真想分享给组里人或者朋友就够了
本帖最后由 新人马甲2 于 2023-6-14 21:14 编辑
墨问非名 发表于 2023-6-14 21:08
如果要避免扩散就要加密加锁或者转在线服务,全是成本
某的(无责任)建议是可以不用想那么多,时代的车轮总是要碾人的,现在车轮在你手里,你选择暂时不碾也不能阻止过些日子别人重新发明同一个轮子然后丢出去碾人那何不趁有机会自己碾的时候先碾了呢(X
转收费工具用来盈利也是个路子吧……不过姑且这个工具的盈利空间似乎还是远远比不上页游加速器(程序猿副业创业的成功案例之一)
oneoutsider 发表于 2023-6-14 19:55
借楼问下,有没有识别和翻译在线外文漫画网站图片的软件?准确率有8成就行,毕竟只是在线看看,好过啃生肉
...
ImageTrans,个人用途终身75元。官网:https://www.basiccat.org/zh/imagetrans/,作者好像还是北京大学硕士。当然太贵的话,等墨问大佬决定发布她自己的作品也可以。 新人马甲2 发表于 2023-6-14 21:11
某的(无责任)建议是可以不用想那么多,时代的车轮总是要碾人的,现在车轮在你手里,你选择暂时不碾也不 ...
我当然希望推动技术进步,但是可惜的是相比openai来说我根本无法做到给软件加入道德规范,而更惨的是如果有人用我的软件作恶我一定首当其冲成为受害者。同类软件在我停滞开发的几年里也有好几个,不过因为开发思路不同,特性差异比较大,重新发明同一个轮子应该是不可能的。汉化者开发的服务于汉化的工具,和非汉化者开发的啃生肉的工具,自然会有很多相似性,但因需求的差异最终效果一定有很多不同。 真心为你air 发表于 2023-6-14 21:13
ImageTrans,个人用途终身75元。官网:https://www.basiccat.org/zh/imagetrans/,作者好像还是北京大学 ...
比起终身应该说是版本买断,就像JetBrains的订阅 大佬,这个软件的目标群体大概是像我这种除细节俚语就需要查找外基本能看懂的用户和汉化组。汉化组可以在微博上私信询问是否需要提供给他们,看看情况,当然就算这样外泄依旧是不可避免的。个人认为这个软件并没有让讲漫的门槛变低,有头有脸的那几位还是不敢直接放汉化后的图片,只能放生肉,我觉得你过虑了。当然开源和闭源乃至收费选择的话,我更推荐开源,毕竟收费有ImageTrans在前。当然你还是担心的话完全可以开发出来再跟圈内人士讨论,大家没人强迫开源的。我对当年事件并不是很了解,但最近大佬恢复更新不义实属惊喜,祝健康。 zzf111 发表于 2023-6-14 21:10
个人认为分享自动个汉工具必然会有商业化滥用行为
因为这个东西一但传播开来就和ai软件画画一样,零成本零 ...
从本质上来说ai只是提高效率的工具罢了,只不过门槛低了以后作恶也方便多了 真心为你air 发表于 2023-6-14 21:13
ImageTrans,个人用途终身75元。官网:https://www.basiccat.org/zh/imagetrans/,作者好像还是北京大学 ...
这个更像是生产工具,汉化者更需要它,我只想在线识别大概翻译随便看看有点大材小用了
—— 来自 HUAWEI SEA-AL10, Android 10上的 S1Next-鹅版 v2.5.4 oneoutsider 发表于 2023-6-14 21:29
这个更像是生产工具,汉化者更需要它,我只想在线识别大概翻译随便看看有点大材小用了
—— 来自 HUAWEI ...
你说的也是,那么还有其他准确率低但是免费方便的漫画翻译方式吗?像谷歌百度有道那样的翻译网站能做到图片翻译吗? 有道的截图翻译对英文和竖排小说还行,对竖排漫画不好使 oneoutsider 发表于 2023-6-14 21:29
这个更像是生产工具,汉化者更需要它,我只想在线识别大概翻译随便看看有点大材小用了
—— 来自 HUAWEI ...
https://ismanga.com/ 我没用过,不过简介符合需求 大佬,你看这样行不行,chatgpt token获取难度高,直接调用谷歌百度网页翻译,把过程傻瓜化,牺牲部分准确率来提高易用性,一键汉化一页生肉,很多观众要是有这样的工具也许就不会受限于讲漫up了。总有人什么都懒得做,只等讲漫UP喂,这些人无药可救,但做出上述简易版本真的能减少观众看讲漫的动机。 真心为你air 发表于 2023-6-14 21:39
大佬,你看这样行不行,chatgpt token获取难度高,直接调用谷歌百度网页翻译,把过程傻瓜化,牺牲部分准确 ...
旧版有,但是有GPT4以后我懒得做其他翻译源了,只留谷歌和GPT4 墨问非名 发表于 2023-6-14 21:37
https://ismanga.com/ 我没用过,不过简介符合需求
嗯,包括这个在内,老外开发的漫画翻译基本都是中日韩转英,而不是汉化。 我有印象很多年前好像lz在S1发过帖
页:
[1]
2