Follow

推荐 GitHub 上一个基于 AI 的网页爬虫工具 ScrapeGraphAI。

通过使用大语言模型(LLM)和直接图逻辑为网站和本地文档(XML、HTML、JSON等)创建爬取管道。

只要你说出需要什么信息,该工具就能轻松为你自动爬取。

GitHub: github.com/VinciGit00/Scrapegr

主要有三种爬取管道:

- SmartScraperGraph: 单页爬虫,只需用户提示和输入源;

- SearchGraph: 多页爬虫,从搜索引擎的前 n 个搜索结果中提取信息;

- SpeechGraph: 单页爬虫,从网站提取信息并生成音频文件;

- SmartScraperMultiGraph: 多页爬虫,给定一个提示 可以通过 API 使用不同的 LLM。

另外,支持使用 OpenAI,Groq,Azure、Gemini 以及 Ollama 的本地模型。

:icon_weibo: weibo.com/5722964389/OhVJA5eQR

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。