Follow

在处理 PDF 文档,想提取里面的文字、表格或图片特别麻烦,不同的库有不同的用法,经常要写一堆重复代码。

ParseStudio 这个 Python 库把各种解析器统一封装起来,只需用几行代码就能搞定 PDF 解析。

同时集成了 Docling、PyMuPDF 和 Llama Parse 三种解析引擎,可以根据需求灵活切换,无论是提取文本、表格还是图片都很方便。

GitHub: github.com/chatclimate-ai/Pars

主要特性:

- 模块化设计,可在多种解析器间自由切换;

- 多模态解析,同时提取文本、表格和图片;

- API 设计简洁,几行代码完成复杂解析任务;

- 表格自动转换为 Markdown 格式,便于后续处理;

- 图片提取包含页码、位置等元数据信息;

- 支持批量处理多个 PDF 文件。

适合熟悉 Python 代码以及需批量处理 PDF 文档的开发者使用。

:icon_weibo: weibo.com/5722964389/PtgnqBE86

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。