Follow

推荐 GitHub 上一个开源且强大的 Web 爬虫工具:FireCrawl。

可以爬取任何网站的内容并将其转换为 Markdown 或结构化数据,为大语言模型训练、检索增强生成(RAG)提供数据。

GitHub: github.com/mendableai/firecraw

另外,还提供了易于使用且统一的 API,支持本地部署或在线使用,同时还支持与各种工具集成使用,如 Langchain、Dify、Flowise 等。

而且,项目一直在快速迭代更新增加很多实用的功能,有需求的可以关注并尝试下。

:icon_weibo: weibo.com/5722964389/OuXaFn2ws

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。