Follow

推荐 GitHub 上一个强大的全文件格式 Markdown 转换工具:E2M。

支持任何文件类型,如 doc、epub、html、url、pdf、mp3 等等格式的文件,一键转换为 Markdown 结构化数据,

GitHub: https:// 网页链接

提供 Python 依赖库,可快速导入使用,为检索增强生成(RGA)和模型训练或微调提供高质量的数据。

有需要的同学不妨试下。

:icon_weibo: weibo.com/5722964389/P9FCjePN4

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。