之前推荐过的一款开源免费且非常强大的爬虫工具: Crawlee,现在有 Python 版本了。
一个用于 Python 的网页抓取和浏览器自动化库,旨在构建可靠的爬虫,为 AI、大语言模型、检索增强生成(RAG)或 GPTs 提取数据。
GitHub: https://github.com/apify/crawlee-python
主要有如下特征:
1)构建可靠的爬虫: 支持在网站使用 JavaScript 渲染时轻松切换爬虫类型,同时提供智能代理轮换和人类化指纹识别。
2)HTTP 模式: 能够模拟浏览器头部和 TLS 指纹的 HTTP 请求,并可自动轮换。
3)无头浏览器模式: 只需 3 行代码即可由 HTTP 模式切换为无头浏览器模式,基于真实的浏览器模拟,并且添加了特殊的 anti-blocking 以及 human-like fingerprints 机制,让你的爬虫被封的概率大大降低了。
4)自动缩放和代理管理: 根据电脑资源自动管理并发的数量。
5)队列和存储功能: 只需一行代码将文件、截图 和 JSON 结果保存到本地,提供 URL 队列管理,防止出现故障数据丢失。
6)丰富的工具和配置选项: 包括数据提取工具、无限滚动处理等,即插即用同时提供灵活的配置选项。