跟大家推荐 GitHub 上一款强大的文档处理开源框架:Docling。
支持多种文档格式解析,并能与主流的生成式 AI 框架无缝集成,且能本地执行以保护敏感数据。
GitHub: https://github.com/docling-project/docling
主要功能:
- 支持的文档格式,包括 PDF、DOCX、XLSX、HTML、图片等;
- 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码和公式等;
- 多种导出格式和选项,包括 Markdown、HTML 和无损 JSON;
- 能与 LangChain、LlamaIndex 和 Crew AI 等框架的即插即用集成;
- 支持 OCR 处理扫描的 PDF 和图像;
- 支持视觉语言模型(如 SmolDocling 等)。