Follow

internet-dataset,这个 GitHub 仓库收录了各种通过搜索引擎获取的数据集,整体数据量将近 50G,其中包括域名、网页、反向索引等数据。

GitHub: github.com/RimoChan/internet-d

:icon_weibo: weibo.com/5722964389/Lvzx3kXBi

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。