Follow

推荐 GitHub 上一个能大规模提取文档信息及结构化数据的工具:NVIDIA-Ingest。

支持解析 PDF、Word 和 PPT 等文件格式,可提取文本、表格、图表以及图像等内容,并提供了多种提取方法。

GitHub: github.com/NVIDIA/nv-ingest

对提取到的内容通过 OCR 转换为结构化 JSON 格式,同时存储到向量数据库 Milvus。

唯一不好就是对硬件要求颇高,有需求的同学可以看下。

:icon_weibo: weibo.com/5722964389/P9wbOhceO

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。