当咱们需求在互联网上查找一些信息时,往往会选择运用查找引擎来获取愈加精确和丰富的信息。Google查找引擎是全球最大的查找引擎之一,拥有着极端庞大的数据库和算法,能够根据关键词查找出很多的相关信息。但是,当咱们需求收集查找成果中的URL时,手动复制粘贴会十分繁琐。因而,本文将介绍怎么运用Python编写爬虫程序,主动爬取Google查找成果中的URL。注意:谷歌爬取是要代理
前置条件
在开端编写爬虫程序之前,需求确保现已安装了Python编程环境和一些必要的Python库,比如requests、re等。能够运用pip指令来安装这些库。
爬虫程序的完成
首要,咱们需求设置恳求头信息和查找关键词。在实践爬取时,应该将查找关键词替换为需求查找的具体内容。
import requests
import re
设置headers
headers = {
‘User-Agent’: ‘********’}
设置查找关键词 这里主张选用谷歌语法查询
keyword = “***”
接着,咱们运用requests库发送HTTP GET恳求,获取Google查找成果的HTML页面。由于Google查找的成果通常会分为多个页面,因而咱们需求对每一页的成果进行爬取。这里咱们以每页显现10个成果为例,共爬取10页的查找成果。在爬取过程中,咱们运用正则表达式匹配出HTML页面中一切的URL链接。
爬取查找引擎的成果
urls = []
for page in range(0, 101, 10):
url = “www.google.com/search?q={}…, page)
r = requests.get(url, headers=headers)
# 运用正则表达式匹配一切url
urls += re.findall(‘href=”https://juejin.im/post/7221923392260259897/(https?://.*?)”‘, r.text)
最后,咱们将爬取到的一切URL链接进行去重,并将成果保存到本地文件中。这样就完成了整个爬虫程序的完成。
去重
urls = list(set(urls))
将url保存到文件
with open(‘urls.txt’, ‘w’) as f:
for url in urls:
f.write(url + ‘\n’)
代码汇总
import requests
import re
# 设置headers
headers = {
'User-Agent': '****'}
# 设置查找关键词
keyword = "***"
# 爬取查找引擎的成果
urls = []
for page in range(0, 101, 10):
url = "https://www.google.com/search?q={}&start={}".format(keyword, page)
r = requests.get(url, headers=headers)
# 运用正则表达式匹配一切url
urls += re.findall('href="https://juejin.im/post/7221923392260259897/(https?://.*?)"', r.text)
# 去重
urls = list(set(urls))
# 将url保存到文件
with open('urls.txt', 'w') as f:
for url in urls:
f.write(url + '\n')
总结
本文介绍了怎么运用Python编写爬虫程序,主动爬取Google查找成果中的URL。经过这种办法,咱们能够快速地收集很多的URL链接,为后续的数据分析和发掘供给愈加丰富的数据来历。在实践爬取时,还需求注意一些反爬虫措施。