**GitHubDaily** @[email protected] · 2025-03-20T07:50:32Z

GitHubDaily @[email protected]

跟大家推荐 GitHub 上一款强大的文档处理开源框架：Docling。

支持多种文档格式解析，并能与主流的生成式 AI 框架无缝集成，且能本地执行以保护敏感数据。

主要功能：

- 支持的文档格式，包括 PDF、DOCX、XLSX、HTML、图片等；

- 高级 PDF 理解，包括页面布局、阅读顺序、表格结构、代码和公式等；

- 多种导出格式和选项，包括 Markdown、HTML 和无损 JSON；

- 能与 LangChain、LlamaIndex 和 Crew AI 等框架的即插即用集成；

- 支持 OCR 处理扫描的 PDF 和图像；

- 支持视觉语言模型（如 SmolDocling 等）。