我最近在搞游戏汉化，有没有大佬能推荐一些好用的图片内文字识别提取工具啊？

mkuuuu · 发表于 2026-3-29 00:46

目前的进度是游戏内文本已经处理好了，用来汉化图片的PS软件也准备好了。但有个尴尬的问题是，我没啥外语基础，电脑里也没外文输入法，基本只能看着图片里龙飞凤舞的文字干着急。DS和豆包确实能识别提取图片里的文字，但他们的准确率真不太行，遇上艺术字更是识别不出来。网上能搜到一些图片文字识别相关网站，但我不敢用啊。。。总之就是拜托前辈们帮我这个新人一把了！

liekong · 发表于 2026-3-29 01:09

OCR的准确率本来就挺成问题的，艺术字的识别更是传统难题，人都不一定能认出来，
如果说要推荐AI的话，要不试试gemini？
你不如先说说究竟具体是什么语言，英语的话，目前的OCR准确率应该还可以

莉可厨 · 发表于 2026-3-29 01:34

什么引擎啊，封包回去没问题吗

三度音 · 发表于 2026-3-29 06:51

用gemini

mp5 · 发表于 2026-3-29 07:09

试过qwen vl吗？个人使用感觉比ds和豆包靠谱一些

back57992 · 发表于 2026-3-29 08:07

在网的图片处理ai很成熟 chaygpt啥的

mkuuuu · 发表于 2026-3-29 08:33

liekong 发表于 2026-3-29 01:09
OCR的准确率本来就挺成问题的，艺术字的识别更是传统难题，人都不一定能认出来，
如果说要推荐AI的话，要不 ...

既有英语也有日语，有没有这两者都比较擅长识别的AI呢

blueelf · 发表于 2026-3-29 08:37

量有多少？我之前汉化的游戏有3000多张图片需要汉化，最后是用漫画ai翻译软件的ocr功能做的文字提取，软件内置了一些开源的OCR 库，提取结果再手动校对

mkuuuu · 发表于 2026-3-29 08:43

blueelf 发表于 2026-3-29 08:37
量有多少？我之前汉化的游戏有3000多张图片需要汉化，最后是用漫画ai翻译软件的ocr功能做的文字提取，软件 ...

十几张需要汉化的图吧，句子有的长有的短

blueelf · 发表于 2026-3-29 08:56

mkuuuu 发表于 2026-3-29 08:43
十几张需要汉化的图吧，句子有的长有的短

十几张还要来问吗。。。。丢到ai对话框里几分钟就完事了

精钢魔像 · 发表于 2026-3-29 09:23

十几张图用微信就行了吧。

mkuuuu · 发表于 2026-3-29 10:11

blueelf 发表于 2026-3-29 08:56
十几张还要来问吗。。。。丢到ai对话框里几分钟就完事了

主要是艺术字的问题，外加希望以后能更方便的汉化（我的目标可不是只汉化一款游戏）这也是我来这里问的原因。

mkuuuu · 发表于 2026-3-29 10:11

精钢魔像发表于 2026-3-29 09:23
十几张图用微信就行了吧。

啥？微信怎么个汉化法？您能指点一下吗？

精钢魔像 · 发表于 2026-3-29 10:12

mkuuuu 发表于 2026-3-29 10:11
啥？微信怎么个汉化法？您能指点一下吗？

发微信上，鼠标右键点翻译。

mkuuuu · 发表于 2026-3-29 10:50

精钢魔像发表于 2026-3-29 10:12
发微信上，鼠标右键点翻译。

嗯。。。
请问手机版微信能做到这个操作吗

liekong · 发表于 2026-3-29 11:27

mkuuuu 发表于 2026-3-29 10:50
嗯。。。
请问手机版微信能做到这个操作吗

手机版微信就直接长按图片选文字提取

—— 来自 S1Fun

mkuuuu · 发表于 2026-3-29 18:01

虽说微信确实能翻译，但这玩意本质是聊天软件，还是太臃肿了（大而丑猛吃设备内存这一块），有没有人能推荐更好的选择呢？

铁甲钢弹 · 发表于 2026-3-29 18:09

ocr我用一款叫“白描”的服务比较多，有网页版和单独的app。我主要用来ocr中文，正确率还行。看介绍也支持英文和日文，你可以试试（有免费额度）。

mintslime · 发表于 2026-3-29 18:17

这种东西让AI写一个就行了
附件里的网页打开，用kimi2.5的api，温度1，就可以直接翻译。不过要等会，而且最好开console确认请求发过去了
对话框和翻译是一一对应的，开debug mode的话鼠标悬停在翻译上可以看到提取的原文

如果你自己想写，这里是prompt，用英文是因为有的模型对中文需求表现不稳，你想改需求的话用中文应该也行。推荐模型gemini3.1，国产模型中做的最好的是glm5，但是还是有图片和翻译对不上的情况

I want to have ONE HTML FILE that serves as a local frontend for a LLM based image translator with the following features: Upon opening, it will display a "open folder/image" button and a "drag image here" region, user can also directly paste image from clipboard. When using "open folder" button, it will display the image in the folder one by one Otherwise, it will display the image, along with a button underneath the image that says "translate" when user press the "translate" button, it will send the current displaying image to provided LLM with VL ability. after getting the reply, render the translation within original text's box position(auto-resize the font based on the box size to make sure translation fit within the box, but no smaller than 8pt), use whatever layout the original text uses(horizontal or vertical) with white background for every box, when the content is onomatopoeia, use 20pt fixed size font that is centered within the box), the translation should fade to show the image content when mouseover User can "toggle debug", when debug mode is toggled, mouseover the specific translation will still cause the translation to fade, but there will be a "debug box" rendered in horizontal layout using pretty print for the translation's JSON that uses the mouse's position as its corner The image should default to "fit view" so user can see the full image without scrolling, but have a zoom bar and allow user to scroll/pan Make the UI sleek and minimalistic
User should be able to set the endpoint address, api key, model name, temperature, prompt directly
User should be able to see the status of current LLM call User should be able to see the LLM response(and modify it) User should be able to resend the page to LLM to generate another response, instead of having the new response overwriting the old one, store all responses and allow user to compare them using a left/right panel interface, then select an "active" one to be displayed on image User should be able to send multiple calls to the LLM and Make sure there is no CORS error
I will provide this script/plugin with the endpoint address and key to an LLM with VL ability. I will offer it the prompt below: ''' 你是一个专业的漫画OCR提取与翻译专家。请仔细观察这张漫画图片，提取出其中的所有文字，将其翻译为中文，并提供每个文字区域的具体位置坐标。【提取要求】提取范围全面：必须包含所有的对话框内文字（dialogue）、旁白框文字（narration），以及散落在背景或对话框外的象声词/特效字（onomatopoeia）。坐标系统：使用[0, 1000] 范围的相对归一化坐标。图片的左上角为 [0, 0]，右下角为 [1000, 1000]。坐标格式：边界框（bounding box）的格式必须严格为长度为4的数组：[ymin, xmin, ymax, xmax]。阅读顺序：请遵循标准漫画的阅读顺序（从右到左，从上到下）输出结果。【输出格式要求】请仅输出纯合法的 JSON 格式数据，不要包含任何多余的解释、问候语或Markdown标记（不要输出 ```json 的开头和结尾）。JSON 的数据结构必须严格如下所示： { "panels":[ { "type": "dialogue", "box": [ymin, xmin, ymax, xmax], "original_text": "原文", "translation": "中文翻译" }, { "type": "onomatopoeia", "box": [ymin, xmin, ymax, xmax], "original_text": "ドドド", "translation": "轰隆隆" } ] } 注意："type" 字段只能是 "dialogue"（对话）、"narration"（旁白）或 "onomatopoeia"（象声词/特效字）三者之一。请确保 JSON 格式绝对正确以便于程序直接解析。 '''

mkuuuu · 发表于 2026-3-29 19:47

本帖最后由 mkuuuu 于 2026-3-29 20:06 编辑

mintslime 发表于 2026-3-29 18:17
这种东西让AI写一个就行了
附件里的网页打开，用kimi2.5的api，温度1，就可以直接翻译。不过要等会，而且最 ...

谢谢推荐，这或许是个好思路！不过有关这个网页的使用，能讲的再明白一点吗？我没怎么看懂

mintslime · 发表于 2026-3-30 10:03

打开之后先按F12开控制台，选Network，然后按translate，确定network有黄框里的completions这一条出现，有就说明前端有把消息传给LLM

等待相当长的一段时间（哎，kimi），然后可以看到completions出现内容，同时左边图片上的内容也会被成功渲染

图片和翻译在开着控制台的时候会有错位，关上控制台就好了，最后看起来应该是这样的

如果还有不清楚的，我需要更多信息才能debug，先确认一下你有硅基流动或者kimi官网的api key吧

mkuuuu · 发表于 2026-3-30 17:13

mintslime 发表于 2026-3-30 10:03
打开之后先按F12开控制台，选Network，然后按translate，确定network有黄框里的completions这一条出现，有 ...

emmm，我没Kimi，但我已经有了DS的api密钥了，可以用这个吗？

巨魔已被忠诚 · 发表于 2026-3-30 17:35

飞书雀语这种可以编辑标记语言的多媒体文档软件，可以插入图片的，都有识别图片中文本的功能（语种少一点） Re:Source

mintslime · 发表于 2026-3-30 19:05

那你先用我的吧，地址那里填https://openrouter.ai/api/v1/chat/completions，model填moonshotai/kimi-k2.5，如下：

api key(截图里红圈的部分）我私信发你
我要说一下，kimi真的很慢，要有点耐心

先试试看你觉得效果如何，效果好的话你再去注册个kimi或者硅基流动
DS不可以，一定要是多模态模型，qwen可以（但是对内容有限制不能翻黄的），gemini可以

mkuuuu · 发表于 2026-3-30 20:15

mintslime 发表于 2026-3-30 19:05
那你先用我的吧，地址那里填https://openrouter.ai/api/v1/chat/completions，model填moonshotai/kimi-k2.5 ...

做到这种程度真的已经很仁至义尽了，在此我感激不尽！

库德里尔 · 发表于 2026-3-30 20:27

不得不说AI时代“自己开发一个工具”已经不是不可能的事情了
尤其是这种基础性的大模型调用前端（加一个基础的选区和回填）简直是它的甜区

流缨 · 发表于 2026-3-30 21:53

如果图片量比较大，建议研究一下百度家的paddleOCR开源项目，可以说是当前最优解，毕竟TOKEN太鸡儿贵了，尤其多模态类模型搞起来分分钟天文数字

mintslime · 发表于 2026-3-31 09:50

mkuuuu 发表于 2026-3-30 20:15
做到这种程度真的已经很仁至义尽了，在此我感激不尽！

不要有压力，这个key开了限额，你再怎么用最多也就半刀的事，先试试看再说

Ares · 发表于 2026-3-31 12:00

文字识别我推荐用qwen

星火龙 · 发表于 2026-3-31 22:08

Ares 发表于 2026-3-31 12:00
文字识别我推荐用qwen

你说得是千问吗？用网页版行不行？

vaonon · 发表于 2026-3-31 22:26

-________-'' ，电脑上微信发给自己的识别挺好用的。。。。或者wps会员？

sasoribi · 发表于 2026-3-31 23:05

本帖最后由 sasoribi 于 2026-3-31 23:07 编辑

本地的OCR我记得tesseract挺好用，安装后让ai写个python脚本调用就好

教皇粉星拳 · 发表于 2026-4-1 11:22

楼主正在汉化什么游戏呢？

matthewsteel · 发表于 2026-4-1 11:36

本地装个lmstudio，下载那几个ocr模型都可以试试，需要折腾一下，好处是ocr模型都很小，大部分电脑都能跑，速度也都能接受

Qwen3-VL系列效果应该很好
智谱的这个似乎效果也很不错 https://huggingface.co/zai-org/GLM-OCR

huggingface的网页就可以测试

mono · 发表于 2026-4-1 15:26

AI漫画翻译用的技术应该游戏也有用 OCR 自动翻译人类校对自动嵌字

Ares · 发表于 2026-4-1 15:31

星火龙发表于 2026-3-31 22:08
你说得是千问吗？用网页版行不行？

可以的

英俊莹 · 发表于 2026-4-1 17:36

好奇问一下，想自己汉化一款PSP游戏，哪里有零基础入门的教程呢？

—— 来自 Xiaomi 23049RAD8C, Android 15, 鹅球 v3.5.99

精钢魔像 · 发表于 2026-4-1 19:02

英俊莹发表于 2026-4-1 17:36
好奇问一下，想自己汉化一款PSP游戏，哪里有零基础入门的教程呢？

—— 来自 Xiaomi 23049RAD8C, Android ...

现在的环境下问ai 就行了，让ai 翻译romhacking 里的文章。

		自动登录	找回密码
密码			立即注册

[其他] 我最近在搞游戏汉化，有没有大佬能推荐一些好用的图片内文字识别提取工具啊？

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块