又发现一款专为从复杂文档中高效提取结构化数据的开源 Python 库:Agentic Document Extraction。
该库能够智能识别处理文档中的各种复杂元素,如表格、图片和图表等,并且返回带有精确元素位置的层次化 JSON 数据。
GitHub: https://github.com/landing-ai/agentic-doc
此外,还支持 1000+ 页长文档的自动分页处理,以及并行批量操作,支持输出结构化 JSON 和可读的 Markdown 格式文件。
仅需本地执行一条命令即可安装使用。对于需要处理大量复杂文档的开发者该库值得一看。