Follow

平时在处理文档时,会经常遇到各种各样的格式,如 Word、PDF、扫描件等等,想要整理为统一格式颇为麻烦。

这时候,可以看下 Dedoc 这个开源项目,它能将任意格式文档自动转换为统一结构化格式。

基于机器学习和 OCR 技术,不仅能处理 Office 文档,还能从 PDF 和扫描图片中智能提取表格、文本格式和层级结构。

GitHub: github.com/ispras/dedoc

主要功能:

- 支持 DOC/DOCX、PDF、Excel、图像等多种文档格式

- 自动提取文档逻辑结构,包括标题层级和列表关系

- 智能识别和提取表格数据,支持复杂多页表格

- OCR 扫描文档处理,自动纠正文档方向

- 提取文本格式信息,如字体、缩进、样式等

- 支持嵌套文档和压缩包批量处理

项目提供通过 Docker 一键部署方式,也可以在本地 pip 安装使用,适合需要批量处理文档的开发者。

:icon_weibo: weibo.com/5722964389/Pv9errYFz

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。