evagle 发表于 2023-4-6 15:48

有什么软件能对几百页的PDF批量OCR,然后输出其中文本?

RT,有这么个课题,给我的是一套出版物的PDF,文本无法复制,体积比较大,大的文件近2G。我的需求是:通过OCR批量输出文本,然后用正则脚本提取需要的信息并汇总
用Acrobat试了一下,弄了一会然后就闪退了...
所以还有什么软件能满足这个需求吗...

回忆and无语 发表于 2023-4-6 15:57

可以考虑一下曲线救国,Acrobat导出按页命名的图片再OCR

古畑任三郎2015 发表于 2023-4-6 16:00

pdf可以先降低精度减少大小的吧
压到20m以内再试试?

GMJ 发表于 2023-4-6 16:01

2楼正解,OCR是很吃性能的,你一下子塞这么多页的内容只能给你摆烂

evagle 发表于 2023-4-6 16:01

回忆and无语 发表于 2023-4-6 15:57
可以考虑一下曲线救国,Acrobat导出按页命名的图片再OCR

导出之后再用什么软件ocr呢?

GMJ 发表于 2023-4-6 16:03

古畑任三郎2015 发表于 2023-4-6 16:00
pdf可以先降低精度减少大小的吧
压到20m以内再试试?

虽然但是

OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查错误又是麻烦事情。

不过纯文字的内容PDF也不会变成2G大,能有这么大里面肯定不少插图。删除图片再做ocr是可行的

Nanachi 发表于 2023-4-6 16:08

导出单页图片之后上python?

—— 来自 HUAWEI JAD-AL50, Android 12上的 S1Next-鹅版 v2.5.4

dizhilan 发表于 2023-4-6 16:11

先分割成几十个小的pdf,然后ocr

password 发表于 2023-4-6 16:12

出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分,然后pdfFLY转单页图分批喂到白描里(白描一次最多50页),最后导出并合并txt正则调一下
abbyy finereader之类的可以一次性OCR整个PDF,我用白描是因为中文识别效果好

Flyfish233 发表于 2023-4-6 16:27

一页页导出后扔白描 pc 版

evagle 发表于 2023-4-6 16:30

GMJ 发表于 2023-4-6 16:03
虽然但是

OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查 ...

刚把它压了一下,ppi低到20,等于删图片了吧,1.89G到970M...
估计是文本也是通过图片形式保存的

GMJ 发表于 2023-4-6 16:35

evagle 发表于 2023-4-6 16:30
刚把它压了一下,ppi低到20,等于删图片了吧,1.89G到970M...
估计是文本也是通过图片形式保存的 ...
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的,那确实每一页都是一张大图片这种是最窝巢的

GMJ 发表于 2023-4-6 16:39

邪道:能不能让人工智能做这个事情?

CHATgpt,把XXX书全部文字内容输出一个word给我

shudushimo 发表于 2023-4-6 16:42

evagle 发表于 2023-4-6 16:43

GMJ 发表于 2023-4-6 16:35
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的,那确实每一页都是一 ...

文字像是矢量的,总之就是很奇怪...

evagle 发表于 2023-4-6 16:43

password 发表于 2023-4-6 16:12
出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分,然后pdfFLY转单页图分批喂 ...

试了一下abbyy,能正常输出到doc或者 txt,但是一些生僻字的识别有点捉急..

GMJ 发表于 2023-4-6 17:02

evagle 发表于 2023-4-6 16:43
试了一下abbyy,能正常输出到doc或者 txt,但是一些生僻字的识别有点捉急..

生僻字就不要纠结了,不在系统的识别库里随便给你个他觉得长得像的很正常

evagle 发表于 2023-4-6 17:05

GMJ 发表于 2023-4-6 17:02
生僻字就不要纠结了,不在系统的识别库里随便给你个他觉得长得像的很正常 ...

然后白描的效果还不如abbyy...

GMJ 发表于 2023-4-6 17:08

本帖最后由 GMJ 于 2023-4-6 17:11 编辑

evagle 发表于 2023-4-6 17:05
然后白描的效果还不如abbyy...
你可以试试出一张300dpi的JPG给白描做


300dpi是精美印刷品常用的挂网精度,ocr本来针对的就是把印刷品的扫描图转成文本。所以你PDF直接导出300dpi的图可以默认为没有精度损失。效果可以接受的话还是楼上的办法,批量导出高质量jpg,分组去ocr

evagle 发表于 2023-4-6 17:30

GMJ 发表于 2023-4-6 17:08
你可以试试出一张300dpi的JPG给白描做




结果好了不少,白描似乎是先把pdf转换成低精度的图片,然后再OCR

noahhhh 发表于 2023-4-6 19:27

建议这种可以程序批量处理的需求先GitHub搜一边,大概率有解决办法

鸺鹠 发表于 2023-4-6 20:01

本帖最后由 鸺鹠 于 2023-4-6 20:03 编辑

喵~有许多 OCR(光学字符识别)软件可以处理多页 PDF 文件并提取其中的文本。以下是一些流行的 OCR 软件和工具:
Adobe Acrobat Pro:Adobe Acrobat Pro 是一款功能强大的 PDF 编辑软件,它内置了 OCR 功能。你可以使用 Adobe Acrobat Pro 对多页 PDF 文件进行 OCR,并将识别的文本导出为 Word、TXT 或其他格式的文件。

ABBYY FineReader:ABBYY FineReader 是一款专业的 OCR 软件,可以处理多页 PDF 文件。它支持多种输出格式,如 Word、TXT、Excel 等。FineReader 支持多种语言,并提供高识别准确率。

Tesseract:Tesseract 是一个由 Google 开发的开源 OCR 引擎,它支持多种语言。你可以使用 Tesseract 处理多页 PDF 文件,但需要先将 PDF 文件转换为图像格式(如 TIFF)。为了方便使用,你可以尝试一些基于 Tesseract 的图形用户界面(GUI)工具,如 gImageReader 或者 OCR.space。

OmniPage:OmniPage 是一款功能丰富的 OCR 软件,可以处理多页 PDF 文件。它提供了多种输出格式,如 Word、TXT、Excel 等,并支持多种语言。

Readiris:Readiris 是一款 OCR 软件,支持处理多页 PDF 文件并将识别的文本导出为 Word、TXT 等格式。Readiris 支持多种语言,并提供一定的识别准确率。

PDFelement:PDFelement 是一款 PDF 编辑软件,也具有 OCR 功能。你可以使用它对多页 PDF 文件进行 OCR,并将识别的文本导出为 Word、TXT 或其他格式的文件。

请注意,不同软件之间的识别准确率和处理速度可能会有所不同。为了找到最适合你需求的 OCR 软件,建议尝试一些免费试用版或开源软件。

=w= 发表于 2023-4-6 20:21

先批量按页转成图片,然后传到 Google Drive,右键以文档方式打开,我觉得这是最无敌的免费又非常好用的 OCR,繁体识别率99.99%

一只小猪 发表于 2023-4-8 10:48

https://github.com/hiroi-sora/Umi-OCR
试试这个

金泽龙 发表于 2023-4-8 11:05

那个,试试wps呢?我曾经用这个把四五百页的扫描书转换成文字,识别率总体还可以,就是格式有点乱

-- 来自 能手机投票的 Stage1官方 Android客户端

heliosu 发表于 2023-4-8 11:32

你不想折腾的话冲个wps会员

瓦格雷 发表于 2023-4-9 16:43

页: [1]
查看完整版本: 有什么软件能对几百页的PDF批量OCR,然后输出其中文本?