跟大家分享一款无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具:docext。
利用视觉语言模型(VLM)来识别和提取文档中的字段数据和表格信息,既准确又能保证数据安全隐私。
GitHub: https://github.com/NanoNets/docext
主要功能:
- 灵活提取自定义字段,支持使用预建模板;
- 智能提取文档中的表格数据,保持原始结构;
- 为所有提取的信息提供置信度评分;
- 完全本地部署,支持 Linux 和 MacOS 系统;
- 处理多页文档,无需分页处理;
- 提供 REST API,方便与现有应用集成。
另外,还内置了常见文档类型的模板,适合需要大量处理发票、护照等这些敏感信息的应用场景。