**GitHubDaily** @[email protected] · 2025-01-05T00:00:11Z

GitHubDaily @[email protected]

推荐 GitHub 上一个简单易用高效的网页爬虫开源工具：Crawl4AI。

只需输入网页链接，即可爬取并输出适合用来训练 LLM 的数据格式，如 Markdown、JSON、HTML 等。

不仅速度快、反爬能力强，还支持抓取多个 URL，支持提取图像、音频以及视频等媒体数据，同时完全开源。

可通过 Docker 一键部署，提供完整的 API 接口，可以集成到现有项目中使用。