有什么软件能对几百页的PDF批量OCR,然后输出其中文本?
RT,有这么个课题,给我的是一套出版物的PDF,文本无法复制,体积比较大,大的文件近2G。我的需求是:通过OCR批量输出文本,然后用正则脚本提取需要的信息并汇总用Acrobat试了一下,弄了一会然后就闪退了...
所以还有什么软件能满足这个需求吗...
可以考虑一下曲线救国,Acrobat导出按页命名的图片再OCR
pdf可以先降低精度减少大小的吧
压到20m以内再试试? 2楼正解,OCR是很吃性能的,你一下子塞这么多页的内容只能给你摆烂 回忆and无语 发表于 2023-4-6 15:57
可以考虑一下曲线救国,Acrobat导出按页命名的图片再OCR
导出之后再用什么软件ocr呢? 古畑任三郎2015 发表于 2023-4-6 16:00
pdf可以先降低精度减少大小的吧
压到20m以内再试试?
虽然但是
OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查错误又是麻烦事情。
不过纯文字的内容PDF也不会变成2G大,能有这么大里面肯定不少插图。删除图片再做ocr是可行的 导出单页图片之后上python?
—— 来自 HUAWEI JAD-AL50, Android 12上的 S1Next-鹅版 v2.5.4 先分割成几十个小的pdf,然后ocr 出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分,然后pdfFLY转单页图分批喂到白描里(白描一次最多50页),最后导出并合并txt正则调一下
abbyy finereader之类的可以一次性OCR整个PDF,我用白描是因为中文识别效果好 一页页导出后扔白描 pc 版 GMJ 发表于 2023-4-6 16:03
虽然但是
OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查 ...
刚把它压了一下,ppi低到20,等于删图片了吧,1.89G到970M...
估计是文本也是通过图片形式保存的 evagle 发表于 2023-4-6 16:30
刚把它压了一下,ppi低到20,等于删图片了吧,1.89G到970M...
估计是文本也是通过图片形式保存的 ...
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的,那确实每一页都是一张大图片这种是最窝巢的
邪道:能不能让人工智能做这个事情?
CHATgpt,把XXX书全部文字内容输出一个word给我 GMJ 发表于 2023-4-6 16:35
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的,那确实每一页都是一 ...
文字像是矢量的,总之就是很奇怪... password 发表于 2023-4-6 16:12
出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分,然后pdfFLY转单页图分批喂 ...
试了一下abbyy,能正常输出到doc或者 txt,但是一些生僻字的识别有点捉急.. evagle 发表于 2023-4-6 16:43
试了一下abbyy,能正常输出到doc或者 txt,但是一些生僻字的识别有点捉急..
生僻字就不要纠结了,不在系统的识别库里随便给你个他觉得长得像的很正常 GMJ 发表于 2023-4-6 17:02
生僻字就不要纠结了,不在系统的识别库里随便给你个他觉得长得像的很正常 ...
然后白描的效果还不如abbyy... 本帖最后由 GMJ 于 2023-4-6 17:11 编辑
evagle 发表于 2023-4-6 17:05
然后白描的效果还不如abbyy...
你可以试试出一张300dpi的JPG给白描做
300dpi是精美印刷品常用的挂网精度,ocr本来针对的就是把印刷品的扫描图转成文本。所以你PDF直接导出300dpi的图可以默认为没有精度损失。效果可以接受的话还是楼上的办法,批量导出高质量jpg,分组去ocr
GMJ 发表于 2023-4-6 17:08
你可以试试出一张300dpi的JPG给白描做
结果好了不少,白描似乎是先把pdf转换成低精度的图片,然后再OCR 建议这种可以程序批量处理的需求先GitHub搜一边,大概率有解决办法 本帖最后由 鸺鹠 于 2023-4-6 20:03 编辑
喵~有许多 OCR(光学字符识别)软件可以处理多页 PDF 文件并提取其中的文本。以下是一些流行的 OCR 软件和工具:
Adobe Acrobat Pro:Adobe Acrobat Pro 是一款功能强大的 PDF 编辑软件,它内置了 OCR 功能。你可以使用 Adobe Acrobat Pro 对多页 PDF 文件进行 OCR,并将识别的文本导出为 Word、TXT 或其他格式的文件。
ABBYY FineReader:ABBYY FineReader 是一款专业的 OCR 软件,可以处理多页 PDF 文件。它支持多种输出格式,如 Word、TXT、Excel 等。FineReader 支持多种语言,并提供高识别准确率。
Tesseract:Tesseract 是一个由 Google 开发的开源 OCR 引擎,它支持多种语言。你可以使用 Tesseract 处理多页 PDF 文件,但需要先将 PDF 文件转换为图像格式(如 TIFF)。为了方便使用,你可以尝试一些基于 Tesseract 的图形用户界面(GUI)工具,如 gImageReader 或者 OCR.space。
OmniPage:OmniPage 是一款功能丰富的 OCR 软件,可以处理多页 PDF 文件。它提供了多种输出格式,如 Word、TXT、Excel 等,并支持多种语言。
Readiris:Readiris 是一款 OCR 软件,支持处理多页 PDF 文件并将识别的文本导出为 Word、TXT 等格式。Readiris 支持多种语言,并提供一定的识别准确率。
PDFelement:PDFelement 是一款 PDF 编辑软件,也具有 OCR 功能。你可以使用它对多页 PDF 文件进行 OCR,并将识别的文本导出为 Word、TXT 或其他格式的文件。
请注意,不同软件之间的识别准确率和处理速度可能会有所不同。为了找到最适合你需求的 OCR 软件,建议尝试一些免费试用版或开源软件。
先批量按页转成图片,然后传到 Google Drive,右键以文档方式打开,我觉得这是最无敌的免费又非常好用的 OCR,繁体识别率99.99% https://github.com/hiroi-sora/Umi-OCR
试试这个 那个,试试wps呢?我曾经用这个把四五百页的扫描书转换成文字,识别率总体还可以,就是格式有点乱
-- 来自 能手机投票的 Stage1官方 Android客户端 你不想折腾的话冲个wps会员
页:
[1]