Follow

跟大家分享一款无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具:docext。

利用视觉语言模型(VLM)来识别和提取文档中的字段数据和表格信息,既准确又能保证数据安全隐私。

GitHub: github.com/NanoNets/docext

主要功能:

- 灵活提取自定义字段,支持使用预建模板;

- 智能提取文档中的表格数据,保持原始结构;

- 为所有提取的信息提供置信度评分;

- 完全本地部署,支持 Linux 和 MacOS 系统;

- 处理多页文档,无需分页处理;

- 提供 REST API,方便与现有应用集成。

另外,还内置了常见文档类型的模板,适合需要大量处理发票、护照等这些敏感信息的应用场景。

:icon_weibo: weibo.com/5722964389/PrmJ5zIIq

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。