有什么软件能对几百页的PDF批量OCR，然后输出其中文本？

evagle 发表于 2023-4-6 15:48

RT，有这么个课题，给我的是一套出版物的PDF，文本无法复制，体积比较大，大的文件近2G。我的需求是：通过OCR批量输出文本，然后用正则脚本提取需要的信息并汇总
用Acrobat试了一下，弄了一会然后就闪退了...
所以还有什么软件能满足这个需求吗...

回忆and无语 发表于 2023-4-6 15:57

可以考虑一下曲线救国，Acrobat导出按页命名的图片再OCR

古畑任三郎2015 发表于 2023-4-6 16:00

pdf可以先降低精度减少大小的吧
压到20m以内再试试？

GMJ 发表于 2023-4-6 16:01

2楼正解，OCR是很吃性能的，你一下子塞这么多页的内容只能给你摆烂

evagle 发表于 2023-4-6 16:01

回忆and无语发表于 2023-4-6 15:57
可以考虑一下曲线救国，Acrobat导出按页命名的图片再OCR

导出之后再用什么软件ocr呢？

GMJ 发表于 2023-4-6 16:03

古畑任三郎2015 发表于 2023-4-6 16:00
pdf可以先降低精度减少大小的吧
压到20m以内再试试？

虽然但是

OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查错误又是麻烦事情。

不过纯文字的内容PDF也不会变成2G大，能有这么大里面肯定不少插图。删除图片再做ocr是可行的

Nanachi 发表于 2023-4-6 16:08

导出单页图片之后上python？

—— 来自 HUAWEI JAD-AL50, Android 12上的 S1Next-鹅版 v2.5.4

dizhilan 发表于 2023-4-6 16:11

先分割成几十个小的pdf，然后ocr

password 发表于 2023-4-6 16:12

出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分，然后pdfFLY转单页图分批喂到白描里（白描一次最多50页），最后导出并合并txt正则调一下
abbyy finereader之类的可以一次性OCR整个PDF，我用白描是因为中文识别效果好

Flyfish233 发表于 2023-4-6 16:27

一页页导出后扔白描 pc 版

evagle 发表于 2023-4-6 16:30

GMJ 发表于 2023-4-6 16:03
虽然但是

OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查 ...

刚把它压了一下，ppi低到20，等于删图片了吧，1.89G到970M...
估计是文本也是通过图片形式保存的

GMJ 发表于 2023-4-6 16:35

evagle 发表于 2023-4-6 16:30
刚把它压了一下，ppi低到20，等于删图片了吧，1.89G到970M...
估计是文本也是通过图片形式保存的 ...
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的，那确实每一页都是一张大图片这种是最窝巢的

GMJ 发表于 2023-4-6 16:39

邪道：能不能让人工智能做这个事情？

CHATgpt，把XXX书全部文字内容输出一个word给我

shudushimo 发表于 2023-4-6 16:42

evagle 发表于 2023-4-6 16:43

GMJ 发表于 2023-4-6 16:35
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的，那确实每一页都是一 ...

文字像是矢量的，总之就是很奇怪...

evagle 发表于 2023-4-6 16:43

password 发表于 2023-4-6 16:12
出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分，然后pdfFLY转单页图分批喂 ...

试了一下abbyy，能正常输出到doc或者 txt，但是一些生僻字的识别有点捉急..

GMJ 发表于 2023-4-6 17:02

evagle 发表于 2023-4-6 16:43
试了一下abbyy，能正常输出到doc或者 txt，但是一些生僻字的识别有点捉急..

生僻字就不要纠结了，不在系统的识别库里随便给你个他觉得长得像的很正常

evagle 发表于 2023-4-6 17:05

GMJ 发表于 2023-4-6 17:02
生僻字就不要纠结了，不在系统的识别库里随便给你个他觉得长得像的很正常 ...

然后白描的效果还不如abbyy...

GMJ 发表于 2023-4-6 17:08

本帖最后由 GMJ 于 2023-4-6 17:11 编辑

evagle 发表于 2023-4-6 17:05
然后白描的效果还不如abbyy...
你可以试试出一张300dpi的JPG给白描做

300dpi是精美印刷品常用的挂网精度，ocr本来针对的就是把印刷品的扫描图转成文本。所以你PDF直接导出300dpi的图可以默认为没有精度损失。效果可以接受的话还是楼上的办法，批量导出高质量jpg，分组去ocr

evagle 发表于 2023-4-6 17:30

GMJ 发表于 2023-4-6 17:08
你可以试试出一张300dpi的JPG给白描做

结果好了不少，白描似乎是先把pdf转换成低精度的图片，然后再OCR

noahhhh 发表于 2023-4-6 19:27

建议这种可以程序批量处理的需求先GitHub搜一边，大概率有解决办法

鸺鹠发表于 2023-4-6 20:01

本帖最后由鸺鹠于 2023-4-6 20:03 编辑

喵~有许多 OCR（光学字符识别）软件可以处理多页 PDF 文件并提取其中的文本。以下是一些流行的 OCR 软件和工具：
Adobe Acrobat Pro：Adobe Acrobat Pro 是一款功能强大的 PDF 编辑软件，它内置了 OCR 功能。你可以使用 Adobe Acrobat Pro 对多页 PDF 文件进行 OCR，并将识别的文本导出为 Word、TXT 或其他格式的文件。

ABBYY FineReader：ABBYY FineReader 是一款专业的 OCR 软件，可以处理多页 PDF 文件。它支持多种输出格式，如 Word、TXT、Excel 等。FineReader 支持多种语言，并提供高识别准确率。

Tesseract：Tesseract 是一个由 Google 开发的开源 OCR 引擎，它支持多种语言。你可以使用 Tesseract 处理多页 PDF 文件，但需要先将 PDF 文件转换为图像格式（如 TIFF）。为了方便使用，你可以尝试一些基于 Tesseract 的图形用户界面（GUI）工具，如 gImageReader 或者 OCR.space。

OmniPage：OmniPage 是一款功能丰富的 OCR 软件，可以处理多页 PDF 文件。它提供了多种输出格式，如 Word、TXT、Excel 等，并支持多种语言。

Readiris：Readiris 是一款 OCR 软件，支持处理多页 PDF 文件并将识别的文本导出为 Word、TXT 等格式。Readiris 支持多种语言，并提供一定的识别准确率。

PDFelement：PDFelement 是一款 PDF 编辑软件，也具有 OCR 功能。你可以使用它对多页 PDF 文件进行 OCR，并将识别的文本导出为 Word、TXT 或其他格式的文件。

请注意，不同软件之间的识别准确率和处理速度可能会有所不同。为了找到最适合你需求的 OCR 软件，建议尝试一些免费试用版或开源软件。

=w= 发表于 2023-4-6 20:21

先批量按页转成图片，然后传到 Google Drive，右键以文档方式打开，我觉得这是最无敌的免费又非常好用的 OCR，繁体识别率99.99%

一只小猪 发表于 2023-4-8 10:48

https://github.com/hiroi-sora/Umi-OCR
试试这个

金泽龙 发表于 2023-4-8 11:05

那个，试试wps呢？我曾经用这个把四五百页的扫描书转换成文字，识别率总体还可以，就是格式有点乱

-- 来自能手机投票的 Stage1官方 Android客户端

heliosu 发表于 2023-4-8 11:32

你不想折腾的话冲个wps会员

瓦格雷 发表于 2023-4-9 16:43

页: [1]

Stage1st's Archiver

有什么软件能对几百页的PDF批量OCR，然后输出其中文本？