请问字幕组现在有在用AI听写/翻译模型么?
本帖最后由 tontyoutoure 于 2023-3-6 01:54 编辑如果版主觉得这个帖子更适合去外野那就删或者移一下,因为我觉得很多人可能不看外野……
今天尝试了一下OpenAI的听写模型whisper,效果相当惊艳(看readme.md里的图表是一回事,自己实际尝试是另一回事)。结合ChatGPT,感觉只要有一个日语达标的校对,看的时候顺便修一下,就可以直接压制出片了。
因为whisper也不算是很新的东西(去年出的),所以就好奇想问一下是不是已经有字幕组采取类似的工作流了? 感觉至少听写打轴那是相当可靠的。
根据openai的说法,日语的准确率算是最准的那一档了
先说一下你的用时和显卡让米娜参考一下 charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下
可以考虑用新出的whisper api,这样就不用在本地运算了 本帖最后由 渡鸦骑士 于 2023-3-6 00:57 编辑
试用结果上来看基本句子准确率已经很高了。
变相提高了校对对日文原文的判断要求。水平差的会直接接受原文,没意识到它日文也打错了。
不过跑起来还挺花时间的。30分钟高标准的话大概要半天。(其实也蛮快了)
另一个问题在于它打的轴不是太准,而且经常断句断的很奇怪要么一句超长的,要么几个连续的短句识别不出来。 实时字幕又不是什么新鲜玩意 问问可以录入并识别专有名词吗?
—— 来自 S1Fun 404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意
确实如此。10年前我做字幕就是用y2b先听一遍的。但是具体效果么,我拿10年前的视频试了试,这么说吧以前是我给它挑错,现在是它给我挑错……就是你不能对着线膛枪说,啊呀火枪又不是什么新鲜东西 本帖最后由 tontyoutoure 于 2023-3-6 01:22 编辑
404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意
当然依然达不到“完美”的地步,至少日语是。
以下是基友的评价:
:
基本都对了
:
但是
:
你贴的这几段有3 4个词有问题吧
:
多半是读音对应的汉字不对
:
比如那个白状
:
应该是薄情
:
但是毒瘾一样
:
读音
:
还有个就是介词助词轻读的地方
:
或者名词结尾的地方 有类似我们湖北人的问题
:
l n不分…
冰原狼 发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗?
—— 来自 S1Fun
按照 这个回答 ,应该是有办法可以做的,但是具体效果我没有测试过,还未知。 webashrat 发表于 2023-3-6 01:14
whisper对日语的效果很好吗
以前跑ai语音数据集的时候标注中文试了一下差点给我整出脑溢血不太清楚 ...
试一下可以贴附件吗?影之实力者第三话。
我基本上dd烤肉机+whisper,python写点脚本一键生成srt,稍微校对一下扔到pr里就行了,基本5分钟的切片5分钟就搞定了 之前跑过微博上看见的n64,怎么说呢
感觉对音源要求还是偏高的,综艺或者舞台这些收录环境不好或者有重复轨的断句会乱
有见过日剧翻译组用
—— 来自 Xiaomi M2012K11AC, Android 11上的 S1Next-鹅版 v2.5.4 还可以, 效果不错.
有的英文节目没有字幕, 我都习惯把音频提取出来跑一遍识别.
时不时有点错误, 不过效果已经很好了. 本帖最后由 red2077 于 2023-3-6 09:01 编辑
只能说对不负责任的营销号很够用,或者那些签约国外up的国内公司,他们会用这种机翻翻译
—— 来自 S1Fun 本帖最后由 red2077 于 2023-3-6 09:01 编辑
只能说对不负责任的营销号很够用,或者那些签约国外up的国内公司,他们会用这种机翻翻译
—— 来自 S1Fun 最近用过n46whisper,评价是对音源要求太高,管子机翻如果不行的也没啥必要再喂whisper一遍了,基本上半斤八两。你要做的都是播音腔那么标准的当然问题不大,但你试过那种声优聊闲天,发音巨不标准,嗓门忽大忽小,动不动哈哈大笑,还互相抢着说话的地狱活儿吗?还有就是跟楼上说的差不多吧,基本每句话都要调整,感觉我雇了个技校生,先快速过一遍脏活累活,然后把最脏最累的活丢给我慢慢磨
—— 来自 S1Fun charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下
4090,跑medium大概是5倍速
但是你楼下似乎有30分钟跑半天的 英语挺好用,但至少得small或以上。虽然词语准确度差别不大,但越大的模型断句越准。
—— 来自 Sony J9110, Android 11上的 S1Next-鹅版 v2.5.4 冰原狼 发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗?
—— 来自 S1Fun
去试了一下那个initial_prompt(里面可以放进去你希望出现的词语)的选项,结果发现基本只能影响开始时的30秒。官方并没有提供一种简单的可以影响全局的选项。给每个30秒的时间片添加作为词汇表的prompt也是可能的,但是就需要自己把整个听写过程用whisper的api串起来,然后加上prompt。 whisper打轴基本不可用,识别准确率也就那样,还巨吃音源,日语不好说,英语我评价为被某国产软件完爆 IornMilk_铁牛奶 发表于 2023-3-6 17:53
whisper打轴基本不可用,识别准确率也就那样,还巨吃音源,日语不好说,英语我评价为被某国产软件完爆 ...
我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面
国产软件是什么?我做个对照 tontyoutoure 发表于 2023-3-6 18:45
我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面
国产软件是 ...
先试试飞书的妙记吧 本帖最后由 ltycomputer 于 2023-3-6 20:39 编辑
很早只有日v的时候就有人搞出来了在线语音识别+自动打轴的集成方案。自己曾试过批量语音识别轻小说朗读录音,从语音转换到拼音没毛病,但转换成汉字就不好看了。(当时测试用的网易见外工作台直接出srt字幕后校对)
中翻里的外国人名/自造词/冷门词/俚语基本不可用
日本动画 有的时候放送的时候自带字幕可以直接提取 上面提到的那个小玩意是我写的,lz自己试用一下不就知道了
github.com/Ayanaminn/N46Whisper
应用场景当然是有限制的,但是据我自己的经验和反馈来讲,作为一个辅助工具它对制作字幕有所帮助的情况更多一些 tontyoutoure 发表于 2023-3-6 11:18
4090,跑medium大概是5倍速
但是你楼下似乎有30分钟跑半天的
medium和最新的large-v2跑出来结果差太多了 本帖最后由 tontyoutoure 于 2023-3-16 09:49 编辑
牧猫君 发表于 2023-3-16 09:22
medium和最新的large-v2跑出来结果差太多了
看了下已经是非常一站化的流程了,star了(虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗?我设了initial_prompt之后前几个时间窗还好,后面就很快衰减到没用了
tontyoutoure 发表于 2023-3-16 09:48
看了下已经是非常一站化的流程了,star了(虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗 ...
预设词还真没仔细研究过但是我觉得对语音转录可能作用不是很大
页:
[1]