继续创作,加快生长!这是我参加「掘金日新计划 4 月更文应战」的第15天,点击查看活动概况

前语:

在网络时代,图片已经成为了咱们日子中不可或缺的一部分。跟着各种社交媒体的兴起,咱们可以在网上看到越来越多的图片,可是怎么从这些图片中获取有价值的信息,怎么从中提取有用的常识,却是一个需求咱们思考和探索的问题。本文将介绍怎么收集某个网站的图片,并从中获取有用的信息和常识。

发送请求

【Python实战】Python采集图片数据
咱们首要确定网址,咱们先运用开发者东西,定位到咱们要的数据。发现,内容就在网页源代码中。

url = 'https://www.hexuexiao.cn/tj/WuJiayi/'
res = requests.get(url)
# print(res.text)
html_url = re.findall('<a href="https://www.hexuexiao.cn/a/(\d+).html" >',res.text,re.S)
urls = sorted(list(set(html_url)), key=html_url.index)

咱们这儿html_url变量的值是一个正则表达式目标,用于匹配网站图片的链接。代码块list(set(html_url))将列表目标转换为调集目标,运用set()办法将列表目标转换为调集目标,这是一个将列表中的元素转换为调集的办法。html_url.index是一个整数目标,表明html_url中各元素在原始 HTML 字符串中出现的次数,以此来实现排序。

保存数据

for url1 in urls:
    for page in range(0,10):
        url2 = f'https://www.hexuexiao.cn/a/{url1}-{page}.html'
        # print(url2)
        res1 = requests.get(url2)
        # print(res1.text)
        url3 = re.findall('<img src=(.*?)/></a>',res1.text,re.S)[0]
        print(url3)
        url3=re.sub('',"",url3)
        print(url3)

咱们这段代码中的urls列表是一个字典,其中键是 URL,值是页码。在循环中,咱们运用range()函数从 0 到 9 迭代页码。接下来,咱们运用requests.get()办法别离获取每个页面的 HTML 代码,并运用正则表达式匹配出一切的图片链接。最终,咱们运用requests.get()办法获取每个图片链接的内容,并将其写入一个文件中。

保存图片

 content = requests.get(url3).content
        with open('图片\' + str(num) + '.jpg', mode='wb') as f:
            f.write(content)

咱们这段代码中的content变量的值是从图片链接url3中获取的内容。然后,运用with open()句子翻开一个二进制文件,并将content写入文件中。在这个过程中,num变量的值是当前文件中的图片序号。获取图片和咱们之前获取音频一样,都是保存成二进制文件。

这样,咱们的图片数据就保存下来了。这儿,我就不展现作用了,原理都是一样的,找到图片的地址,咱们就可以获取下来。

总结:

python收集图片是一项非常重要的任务,它可以帮助咱们从海量的信息中提取有用的信息和常识。在本文中,咱们将介绍怎么收集某个网站的图片,并从中获取有用的信息和常识。首要,咱们需求明确自己的意图和需求,挑选适合自己的收集办法和战略。其次,咱们需求学会运用各种东西和办法,包含搜索引擎、浏览器插件、图片处理东西等,来获取图片。在处理图片时,咱们需求注意保证图片的质量和清晰度,避免出现模糊、失真等问题。最终,咱们需求总结经验教训,不断改进自己的收集办法和战略,提高收集功率和质量。