ChatGPT的爆火再次证明了数据的价值。它之所以如此才学过人的原因就是爬取了互联网上千千万万的数据并练习成了一个大言语模型。人工智能年代,谁掌握了有价值的数据,谁就有话语权。
对于普通人而言,我们每天也在接触数据。当我们要做某项决议计划,比方行业调研,往往要先获取许多的数据并进行剖析。这是一个数据驱动的年代。
ChatGPT出现言语,爬取许多数据往往需要掌握编程技能,比方Python就是十分盛行的用于数据抓取和剖析的编程言语。可是有了ChatGPT今后,不明白代码的人也能够经过跟ChatGPT对话完成杂乱的数据抓取使命。
本文将经过实践事例详细说明怎么用ChatGPT抓取网站的数据,让我们开始吧。
用ChatGPT抓取数据的先决条件
抓取网站数据需要联网。众所周知,没有插件的 ChatGPT 是无法联网的。要运用 ChatGPT 的插件,首要要成为ChatGPT的Plus用户。成为Plus用户有以下优点:
- 即使在高峰期也能获得流畅的访问体会
- 运用更高才干的GPT-4
- 优先体会ChatGPT的最新功用
- 装置插件商铺的任意一款插件
假如你犹豫是否要晋级 ChatGPT Plus,能够看看我的这篇文章:
ChatGPT Plus深度体会:你是否要晋级呢
假如你已经是 ChatGPT Plus 会员,可是不知道怎么装置下文要介绍的插件,能够看我这篇文章:
怎么解锁ChatGPT插件
接下来我要爬取一个经常被作为爬虫教学的网站,它总共有10页,每一页都有若干名人名言。
我给ChatGPT的使命是:爬取每一页的名人名言,并把名言、作者以及标签的数据存储到一张表格里。下面我将介绍两种办法,第一种合适小型的项目,第二种合适大型的项目。
运用 Scraper ChatGPT 插件
激活了ChatGPT的插件功用今后,翻开插件商铺并搜索”scraper”。
找到这个插件今后,点击”Install”按钮进行装置。我已经装置好了,所以显示的是”Uninstall”。
激活了 Scraper 插件,我提交了如下Prompt给ChatGPT:
请抓取网站 quotes.toscrape.com/,并从每个页面获取以下… “下一页 “按钮导航到下一页,并重复该进程。获取一切数据后,请将其整理成表格格局。请以表格方式提供终究输出成果,而不要解说进程中触及的步骤。
Please scrape the website quotes.toscrape.com/ and retrieve the following information from each page: page number, quote, quotee, tags. Additionally, please navigate to the next page by locating the next button and repeat the process. Once you have scraped all the data, please organize it in a table format. Please provide the final output as tables without explaining the steps involved in the process.
在这个Prompt里,我首要告知 ChatGPT 要爬取的网站以及要保存的字段。并告知ChatGPT要点击下一页并重复这个进程。由于要爬取的数据许多,而ChatGPT的输出是有字数约束的,所以我让ChatGPT只输出表格,不要解说完成使命的进程。
终究ChatGPT生成了100行的表格,由于字数约束,它分成了3-4次才输出了完整的表格,可是我只需要在它停顿时点击继续按钮就好了。下图显示了完整的输出。
假如输出的数据比较少,你能够直接复制粘贴到Excel里边,还能够配合其他能够输出 CSV 表格的插件,比方 A+ Doc Maker 或许 CSV Exporter 直接把成果保存到一个 CSV 文件里。
可是我要输出的数据超越了这两个插件所能承受的极限,无法生成 CSV 。
一切我就用了在线转化的工具把它转化为 CSV 表格。
你也能够用 Code Interpreter 进行转化。
1分钟处理1000个文档:ChatGPT代码解说器就是这么牛
运用 Noteable ChatGPT 插件
之前我写了一篇文章专门介绍怎么运用 Noteable 进行数据剖析,其实它也是爬取网站的利器,特别是对于大型的爬虫项目。
比代码解说器强壮10倍:Noteable ChatGPT插件才是数据剖析的王者
仍是像之前装置 Scrape 插件那样在插件商铺里搜索 “noteable”,找到今后点击 “Install” 进行装置。
装置今后,会弹出一个登录的界面。创立一个免费的账户并登录今后,你就具有了一个Noteable的云空间。这个云空间独立于ChatGPT,ChatGPT输出的一切代码和文件都存在你的云空间里。因此你不需要像上面介绍的办法那样先输出 Markdown 表格,再转化成 Excel 或许 CSV。
因此这个办法适用于大型项目。想象以下假如你要爬取几万行的数据,输出到ChatGPT的话一定会超越它的字数约束,迫使ChatGPT有必要分屡次才干输出。
而 Noteable 是直接帮你写好了代码,经过代码直接爬取网站,并把数据直接生成你想要的文件。
我把上面的使命交给 Noteable 去履行,提交了如下 Prompt:
创立一个名为 “Web Scraper” 的项目,并抓取网站 quotes.toscrape.com/。从每个页面获取以下信… “quotes.xlsx”。
Create a project call “Web Scraper” and scrape the website quotes.toscrape.com/. Retrieve the following information from each page: page number, quote, quotee, tags. Additionally, please navigate to the next page by locating the next button and repeat the process. Once you have scraped all the data, please organize it in a table format and save it as “quotes.xlsx”.
Noteable 是依照项目来组织你的使命的,一个项目包含了代码和文件。当我让 ChatGPT 帮我创立一个名为 “Web Scrape” 的项目时,它就在 Noteable 的云空间里生成了。
当ChatGPT完成使命后,就看见项目里有两个文件。web_scraper.py
是 ChatGPT 帮我自动生成的一个笔记本,记录了爬虫的代码。
quotes.xlsx
是从网站上爬取的数据。直接在 Noteable 里边就能够下载。
假如这个网站有几万页,Noteable 处理起来也很快,由于它的计算资源是独立于 ChatGPT 之外的。而且假如你成为 Noteable 的付费用户今后,还能够运用更高配置的计算资源:
- Medium: 2 vCPU, 7.5 GB 内存
- Large: 4 vCPU, 15.0 GB 内存
- Extra Large: 7.5 vCPU, 29.0 GB 内存
- Small (GPU): 2 vCPU, 10.0 GB 内存
- Medium (GPU): 6 vCPU, 26.0 GB 内存
总结
本文介绍的两种办法各有好坏。
运用 Scrape ChatGPT 插件简单快捷,不需要别的注册第三方平台的账号,一切的操作都在 ChatGPT 中进行。 可是它受限于 ChatGPT 自身的字数约束,现在无法配合其他插件直接把许多的数据输出到文件。
运用 Noteable 能够摆脱 ChatGPT 的约束,把爬取的许多数据直接以文件的方式保存在 Noteable 平台里,可是你需要创立一个免费 Noteable 的账号,而且要在 Noteable 平台进行一些基础操作。
可是不管怎么说,ChatGPT 降低了爬取网站数据的门槛,使得不明白代码的人也能够经过人类的自然言语才干就能轻松爬取海量数据。原先爬取网站进程中你需要经过代码指定元素的方位,比方翻页按钮,或许要爬取的字段的方位。现在,只需要告知 ChatGPT 你要的字段而且履行翻页,它就能够智能辨认元素所在的方位,这简直太方便了。
分享完毕,感谢阅读 欢迎点赞,收藏,评论
更多免费原创教程,重视公众号:我的AI力气