推荐 GitHub 上一个简单易用高效的网页爬虫开源工具:Crawl4AI。
只需输入网页链接,即可爬取并输出适合用来训练 LLM 的数据格式,如 Markdown、JSON、HTML 等。
GitHub: https://github.com/unclecode/crawl4ai
不仅速度快、反爬能力强,还支持抓取多个 URL,支持提取图像、音频以及视频等媒体数据,同时完全开源。
可通过 Docker 一键部署,提供完整的 API 接口,可以集成到现有项目中使用。
#AI创造营
https://weibo.com/5722964389/P87LVF3gz
每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。