Follow

跟大家推荐 GitHub 上一款强大的文档处理开源框架:Docling。

支持多种文档格式解析,并能与主流的生成式 AI 框架无缝集成,且能本地执行以保护敏感数据。

GitHub: github.com/docling-project/doc

主要功能:

- 支持的文档格式,包括 PDF、DOCX、XLSX、HTML、图片等;

- 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码和公式等;

- 多种导出格式和选项,包括 Markdown、HTML 和无损 JSON;

- 能与 LangChain、LlamaIndex 和 Crew AI 等框架的即插即用集成;

- 支持 OCR 处理扫描的 PDF 和图像;

- 支持视觉语言模型(如 SmolDocling 等)。

:icon_weibo: weibo.com/5722964389/PjoY5i5NX

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。