请问字幕组现在有在用AI听写/翻译模型么？

tontyoutoure 发表于 2023-3-6 00:34

本帖最后由 tontyoutoure 于 2023-3-6 01:54 编辑

如果版主觉得这个帖子更适合去外野那就删或者移一下，因为我觉得很多人可能不看外野……

今天尝试了一下OpenAI的听写模型whisper，效果相当惊艳（看readme.md里的图表是一回事，自己实际尝试是另一回事）。结合ChatGPT，感觉只要有一个日语达标的校对，看的时候顺便修一下，就可以直接压制出片了。

因为whisper也不算是很新的东西（去年出的），所以就好奇想问一下是不是已经有字幕组采取类似的工作流了？感觉至少听写打轴那是相当可靠的。
根据openai的说法，日语的准确率算是最准的那一档了

charlespfan 发表于 2023-3-6 00:47

先说一下你的用时和显卡让米娜参考一下

screeper 发表于 2023-3-6 00:51

charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下

可以考虑用新出的whisper api，这样就不用在本地运算了

渡鸦骑士 发表于 2023-3-6 00:55

本帖最后由渡鸦骑士于 2023-3-6 00:57 编辑

试用结果上来看基本句子准确率已经很高了。
变相提高了校对对日文原文的判断要求。水平差的会直接接受原文，没意识到它日文也打错了。
不过跑起来还挺花时间的。30分钟高标准的话大概要半天。（其实也蛮快了）
另一个问题在于它打的轴不是太准，而且经常断句断的很奇怪要么一句超长的，要么几个连续的短句识别不出来。

404489039 发表于 2023-3-6 01:00

实时字幕又不是什么新鲜玩意

冰原狼 发表于 2023-3-6 01:01

问问可以录入并识别专有名词吗？

—— 来自 S1Fun

tontyoutoure 发表于 2023-3-6 01:11

404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意

确实如此。10年前我做字幕就是用y2b先听一遍的。但是具体效果么，我拿10年前的视频试了试，这么说吧以前是我给它挑错，现在是它给我挑错……就是你不能对着线膛枪说，啊呀火枪又不是什么新鲜东西

webashrat 发表于 2023-3-6 01:14

whisper对日语的效果很好吗
以前跑ai语音数据集的时候标注中文试了一下差点给我整出脑溢血不太清楚日语效果
楼主有例子看一下吗

—— 来自 Xiaomi 2206123SC, Android 13上的 S1Next-鹅版 v2.5.2

tontyoutoure 发表于 2023-3-6 01:16

本帖最后由 tontyoutoure 于 2023-3-6 01:22 编辑

404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意
当然依然达不到“完美”的地步，至少日语是。

以下是基友的评价：
:
基本都对了
:
但是
:
你贴的这几段有3 4个词有问题吧
:
多半是读音对应的汉字不对
:
比如那个白状
:
应该是薄情
:
但是毒瘾一样
:
读音
:
还有个就是介词助词轻读的地方
:
或者名词结尾的地方有类似我们湖北人的问题
:
l n不分…

tontyoutoure 发表于 2023-3-6 01:22

冰原狼发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗？

—— 来自 S1Fun

按照这个回答，应该是有办法可以做的，但是具体效果我没有测试过，还未知。

tontyoutoure 发表于 2023-3-6 01:24

webashrat 发表于 2023-3-6 01:14
whisper对日语的效果很好吗
以前跑ai语音数据集的时候标注中文试了一下差点给我整出脑溢血不太清楚 ...

试一下可以贴附件吗？影之实力者第三话。

HarukawaMiki 发表于 2023-3-6 01:31

我基本上dd烤肉机+whisper，python写点脚本一键生成srt，稍微校对一下扔到pr里就行了，基本5分钟的切片5分钟就搞定了

nh_zzz 发表于 2023-3-6 02:39

之前跑过微博上看见的n64，怎么说呢
感觉对音源要求还是偏高的，综艺或者舞台这些收录环境不好或者有重复轨的断句会乱

格林卡罗尔 发表于 2023-3-6 03:12

有见过日剧翻译组用

—— 来自 Xiaomi M2012K11AC, Android 11上的 S1Next-鹅版 v2.5.4

冰箱研会长 发表于 2023-3-6 08:19

还可以, 效果不错.
有的英文节目没有字幕, 我都习惯把音频提取出来跑一遍识别.
时不时有点错误, 不过效果已经很好了.

red2077 发表于 2023-3-6 08:58

本帖最后由 red2077 于 2023-3-6 09:01 编辑

只能说对不负责任的营销号很够用，或者那些签约国外up的国内公司，他们会用这种机翻翻译

—— 来自 S1Fun

red2077 发表于 2023-3-6 08:58

本帖最后由 red2077 于 2023-3-6 09:01 编辑

只能说对不负责任的营销号很够用，或者那些签约国外up的国内公司，他们会用这种机翻翻译

—— 来自 S1Fun

alexwu 发表于 2023-3-6 10:39

最近用过n46whisper，评价是对音源要求太高，管子机翻如果不行的也没啥必要再喂whisper一遍了，基本上半斤八两。你要做的都是播音腔那么标准的当然问题不大，但你试过那种声优聊闲天，发音巨不标准，嗓门忽大忽小，动不动哈哈大笑，还互相抢着说话的地狱活儿吗？还有就是跟楼上说的差不多吧，基本每句话都要调整，感觉我雇了个技校生，先快速过一遍脏活累活，然后把最脏最累的活丢给我慢慢磨

—— 来自 S1Fun

tontyoutoure 发表于 2023-3-6 11:18

charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下

4090，跑medium大概是5倍速

但是你楼下似乎有30分钟跑半天的

mffx 发表于 2023-3-6 12:07

英语挺好用，但至少得small或以上。虽然词语准确度差别不大，但越大的模型断句越准。

—— 来自 Sony J9110, Android 11上的 S1Next-鹅版 v2.5.4

tontyoutoure 发表于 2023-3-6 14:08

冰原狼发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗？

—— 来自 S1Fun

去试了一下那个initial_prompt（里面可以放进去你希望出现的词语）的选项，结果发现基本只能影响开始时的30秒。官方并没有提供一种简单的可以影响全局的选项。给每个30秒的时间片添加作为词汇表的prompt也是可能的，但是就需要自己把整个听写过程用whisper的api串起来，然后加上prompt。

IornMilk_铁牛奶 发表于 2023-3-6 17:53

whisper打轴基本不可用，识别准确率也就那样，还巨吃音源，日语不好说，英语我评价为被某国产软件完爆

tontyoutoure 发表于 2023-3-6 18:45

IornMilk_铁牛奶发表于 2023-3-6 17:53
whisper打轴基本不可用，识别准确率也就那样，还巨吃音源，日语不好说，英语我评价为被某国产软件完爆 ...

我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面

国产软件是什么？我做个对照

lawsherman 发表于 2023-3-6 19:10

tontyoutoure 发表于 2023-3-6 18:45
我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面

国产软件是 ...

先试试飞书的妙记吧

ltycomputer 发表于 2023-3-6 20:37

本帖最后由 ltycomputer 于 2023-3-6 20:39 编辑

很早只有日v的时候就有人搞出来了在线语音识别+自动打轴的集成方案。自己曾试过批量语音识别轻小说朗读录音，从语音转换到拼音没毛病，但转换成汉字就不好看了。（当时测试用的网易见外工作台直接出srt字幕后校对）

中翻里的外国人名/自造词/冷门词/俚语基本不可用

loneblade 发表于 2023-3-6 20:46

日本动画有的时候放送的时候自带字幕可以直接提取

牧猫君 发表于 2023-3-16 09:09

上面提到的那个小玩意是我写的，lz自己试用一下不就知道了

github.com/Ayanaminn/N46Whisper

应用场景当然是有限制的，但是据我自己的经验和反馈来讲，作为一个辅助工具它对制作字幕有所帮助的情况更多一些

牧猫君 发表于 2023-3-16 09:22

tontyoutoure 发表于 2023-3-6 11:18
4090，跑medium大概是5倍速

但是你楼下似乎有30分钟跑半天的

medium和最新的large-v2跑出来结果差太多了

tontyoutoure 发表于 2023-3-16 09:48

本帖最后由 tontyoutoure 于 2023-3-16 09:49 编辑

牧猫君发表于 2023-3-16 09:22
medium和最新的large-v2跑出来结果差太多了
看了下已经是非常一站化的流程了，star了（虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗？我设了initial_prompt之后前几个时间窗还好，后面就很快衰减到没用了

牧猫君 发表于 2023-3-17 19:54

tontyoutoure 发表于 2023-3-16 09:48
看了下已经是非常一站化的流程了，star了（虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗 ...

预设词还真没仔细研究过但是我觉得对语音转录可能作用不是很大

页: [1]

Stage1st's Archiver

请问字幕组现在有在用AI听写/翻译模型么？