Follow

推荐 GitHub 上一个简单易用高效的网页爬虫开源工具:Crawl4AI。

只需输入网页链接,即可爬取并输出适合用来训练 LLM 的数据格式,如 Markdown、JSON、HTML 等。

GitHub: github.com/unclecode/crawl4ai

不仅速度快、反爬能力强,还支持抓取多个 URL,支持提取图像、音频以及视频等媒体数据,同时完全开源。

可通过 Docker 一键部署,提供完整的 API 接口,可以集成到现有项目中使用。

:icon_weibo: weibo.com/5722964389/P87LVF3gz

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。