无论是使用 AI 对网页进行总结,还是针对 GitHub 仓库代码进行提问,我们都需要手动整合内容作为模型的上下文。
这个过程既繁琐又低效,为此 GitHub 上这款 OneFileLLM 开源工具提供了高效的数据聚合解决方案。
它能够自动将网页、GitHub 仓库、ArXiv 学术论文和 YouTube 视频等来源的内容提取并整合为单一文件,自动复制到剪贴板使用。
GitHub: https://github.com/jimmc414/onefilellm
主要功能:
- 支持 PDF、Jupyter Notebook 等多种文件格式的处理
- 内置网页爬取功能,可提取链接页面内容至指定深度
- 与 Sci-Hub 集成,可通过自动下载研究论文
- 文本预处理、标记计数和 XML 封装,提高 LLM 处理效率
使用简单,只需要输入 URL,工具就会自动检测来源并处理,非常高效,省时省力。