平时在处理文档时,会经常遇到各种各样的格式,如 Word、PDF、扫描件等等,想要整理为统一格式颇为麻烦。
这时候,可以看下 Dedoc 这个开源项目,它能将任意格式文档自动转换为统一结构化格式。
基于机器学习和 OCR 技术,不仅能处理 Office 文档,还能从 PDF 和扫描图片中智能提取表格、文本格式和层级结构。
GitHub: https://github.com/ispras/dedoc
主要功能:
- 支持 DOC/DOCX、PDF、Excel、图像等多种文档格式
- 自动提取文档逻辑结构,包括标题层级和列表关系
- 智能识别和提取表格数据,支持复杂多页表格
- OCR 扫描文档处理,自动纠正文档方向
- 提取文本格式信息,如字体、缩进、样式等
- 支持嵌套文档和压缩包批量处理
项目提供通过 Docker 一键部署方式,也可以在本地 pip 安装使用,适合需要批量处理文档的开发者。