tontyoutoure 发表于 2023-3-6 00:34

请问字幕组现在有在用AI听写/翻译模型么?

本帖最后由 tontyoutoure 于 2023-3-6 01:54 编辑

如果版主觉得这个帖子更适合去外野那就删或者移一下,因为我觉得很多人可能不看外野……

今天尝试了一下OpenAI的听写模型whisper,效果相当惊艳(看readme.md里的图表是一回事,自己实际尝试是另一回事)。结合ChatGPT,感觉只要有一个日语达标的校对,看的时候顺便修一下,就可以直接压制出片了。

因为whisper也不算是很新的东西(去年出的),所以就好奇想问一下是不是已经有字幕组采取类似的工作流了? 感觉至少听写打轴那是相当可靠的。
根据openai的说法,日语的准确率算是最准的那一档了


charlespfan 发表于 2023-3-6 00:47

先说一下你的用时和显卡让米娜参考一下

screeper 发表于 2023-3-6 00:51

charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下

可以考虑用新出的whisper api,这样就不用在本地运算了

渡鸦骑士 发表于 2023-3-6 00:55

本帖最后由 渡鸦骑士 于 2023-3-6 00:57 编辑

试用结果上来看基本句子准确率已经很高了。
变相提高了校对对日文原文的判断要求。水平差的会直接接受原文,没意识到它日文也打错了。
不过跑起来还挺花时间的。30分钟高标准的话大概要半天。(其实也蛮快了)
另一个问题在于它打的轴不是太准,而且经常断句断的很奇怪要么一句超长的,要么几个连续的短句识别不出来。

404489039 发表于 2023-3-6 01:00

实时字幕又不是什么新鲜玩意

冰原狼 发表于 2023-3-6 01:01

问问可以录入并识别专有名词吗?

—— 来自 S1Fun

tontyoutoure 发表于 2023-3-6 01:11

404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意

确实如此。10年前我做字幕就是用y2b先听一遍的。但是具体效果么,我拿10年前的视频试了试,这么说吧以前是我给它挑错,现在是它给我挑错……就是你不能对着线膛枪说,啊呀火枪又不是什么新鲜东西

webashrat 发表于 2023-3-6 01:14

tontyoutoure 发表于 2023-3-6 01:16

本帖最后由 tontyoutoure 于 2023-3-6 01:22 编辑

404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意
当然依然达不到“完美”的地步,至少日语是。

以下是基友的评价:
:
基本都对了
:
但是
:
你贴的这几段有3 4个词有问题吧
:
多半是读音对应的汉字不对
:
比如那个白状
:
应该是薄情
:
但是毒瘾一样
:
读音
:
还有个就是介词助词轻读的地方
:
或者名词结尾的地方 有类似我们湖北人的问题
:
l n不分…

tontyoutoure 发表于 2023-3-6 01:22

冰原狼 发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗?

—— 来自 S1Fun

按照 这个回答 ,应该是有办法可以做的,但是具体效果我没有测试过,还未知。

tontyoutoure 发表于 2023-3-6 01:24

webashrat 发表于 2023-3-6 01:14
whisper对日语的效果很好吗
以前跑ai语音数据集的时候标注中文试了一下差点给我整出脑溢血不太清楚 ...

试一下可以贴附件吗?影之实力者第三话。

HarukawaMiki 发表于 2023-3-6 01:31

我基本上dd烤肉机+whisper,python写点脚本一键生成srt,稍微校对一下扔到pr里就行了,基本5分钟的切片5分钟就搞定了

nh_zzz 发表于 2023-3-6 02:39

之前跑过微博上看见的n64,怎么说呢
感觉对音源要求还是偏高的,综艺或者舞台这些收录环境不好或者有重复轨的断句会乱

格林卡罗尔 发表于 2023-3-6 03:12

有见过日剧翻译组用

—— 来自 Xiaomi M2012K11AC, Android 11上的 S1Next-鹅版 v2.5.4

冰箱研会长 发表于 2023-3-6 08:19

还可以, 效果不错.
有的英文节目没有字幕, 我都习惯把音频提取出来跑一遍识别.
时不时有点错误, 不过效果已经很好了.

red2077 发表于 2023-3-6 08:58

本帖最后由 red2077 于 2023-3-6 09:01 编辑




只能说对不负责任的营销号很够用,或者那些签约国外up的国内公司,他们会用这种机翻翻译

—— 来自 S1Fun

red2077 发表于 2023-3-6 08:58

本帖最后由 red2077 于 2023-3-6 09:01 编辑




只能说对不负责任的营销号很够用,或者那些签约国外up的国内公司,他们会用这种机翻翻译

—— 来自 S1Fun

alexwu 发表于 2023-3-6 10:39

最近用过n46whisper,评价是对音源要求太高,管子机翻如果不行的也没啥必要再喂whisper一遍了,基本上半斤八两。你要做的都是播音腔那么标准的当然问题不大,但你试过那种声优聊闲天,发音巨不标准,嗓门忽大忽小,动不动哈哈大笑,还互相抢着说话的地狱活儿吗?还有就是跟楼上说的差不多吧,基本每句话都要调整,感觉我雇了个技校生,先快速过一遍脏活累活,然后把最脏最累的活丢给我慢慢磨

—— 来自 S1Fun

tontyoutoure 发表于 2023-3-6 11:18

charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下

4090,跑medium大概是5倍速

但是你楼下似乎有30分钟跑半天的

mffx 发表于 2023-3-6 12:07

英语挺好用,但至少得small或以上。虽然词语准确度差别不大,但越大的模型断句越准。

—— 来自 Sony J9110, Android 11上的 S1Next-鹅版 v2.5.4

tontyoutoure 发表于 2023-3-6 14:08

冰原狼 发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗?

—— 来自 S1Fun

去试了一下那个initial_prompt(里面可以放进去你希望出现的词语)的选项,结果发现基本只能影响开始时的30秒。官方并没有提供一种简单的可以影响全局的选项。给每个30秒的时间片添加作为词汇表的prompt也是可能的,但是就需要自己把整个听写过程用whisper的api串起来,然后加上prompt。

IornMilk_铁牛奶 发表于 2023-3-6 17:53

whisper打轴基本不可用,识别准确率也就那样,还巨吃音源,日语不好说,英语我评价为被某国产软件完爆

tontyoutoure 发表于 2023-3-6 18:45

IornMilk_铁牛奶 发表于 2023-3-6 17:53
whisper打轴基本不可用,识别准确率也就那样,还巨吃音源,日语不好说,英语我评价为被某国产软件完爆 ...

我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面

国产软件是什么?我做个对照

lawsherman 发表于 2023-3-6 19:10

tontyoutoure 发表于 2023-3-6 18:45
我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面

国产软件是 ...

先试试飞书的妙记吧

ltycomputer 发表于 2023-3-6 20:37

本帖最后由 ltycomputer 于 2023-3-6 20:39 编辑

很早只有日v的时候就有人搞出来了在线语音识别+自动打轴的集成方案。自己曾试过批量语音识别轻小说朗读录音,从语音转换到拼音没毛病,但转换成汉字就不好看了。(当时测试用的网易见外工作台直接出srt字幕后校对)

中翻里的外国人名/自造词/冷门词/俚语基本不可用

loneblade 发表于 2023-3-6 20:46

日本动画 有的时候放送的时候自带字幕可以直接提取

牧猫君 发表于 2023-3-16 09:09

上面提到的那个小玩意是我写的,lz自己试用一下不就知道了

github.com/Ayanaminn/N46Whisper

应用场景当然是有限制的,但是据我自己的经验和反馈来讲,作为一个辅助工具它对制作字幕有所帮助的情况更多一些

牧猫君 发表于 2023-3-16 09:22

tontyoutoure 发表于 2023-3-6 11:18
4090,跑medium大概是5倍速

但是你楼下似乎有30分钟跑半天的

medium和最新的large-v2跑出来结果差太多了

tontyoutoure 发表于 2023-3-16 09:48

本帖最后由 tontyoutoure 于 2023-3-16 09:49 编辑

牧猫君 发表于 2023-3-16 09:22
medium和最新的large-v2跑出来结果差太多了
看了下已经是非常一站化的流程了,star了(虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗?我设了initial_prompt之后前几个时间窗还好,后面就很快衰减到没用了

牧猫君 发表于 2023-3-17 19:54

tontyoutoure 发表于 2023-3-16 09:48
看了下已经是非常一站化的流程了,star了(虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗 ...

预设词还真没仔细研究过但是我觉得对语音转录可能作用不是很大
页: [1]
查看完整版本: 请问字幕组现在有在用AI听写/翻译模型么?