持续创造,加速成长!这是我参加「掘金日新方案 4 月更文挑战」的第23天,点击查看活动概况

前语

大家好,咱们今天来爬取c站的热搜榜,把其文章称号,链接和作者获取下来,咱们保存到本地,咱们通过测验,发现其实很简略,咱们只需简略获取数据就可以。没有加密的东西。

功能实现

咱们话不多说,咱们先找到url,也就是恳求地址。咱们代码如下:


url = 'https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type=' 
headers = {  
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}  
res = requests.get(url, headers=headers)

咱们这里首要界说了一个url变量,它表明要拜访的 URL。然后,它界说了一个headers变量,其间包含了一些 HTTP 恳求头信息,如User-Agent表明 HTTP 恳求的 User-Agent。最终,它运用requests.get()函数发送 HTTP GET 恳求,并将headers变量作为参数传递给该函数。

解析数据

咱们获取到了内容,接下来就是解析数据,咱们不难发现这个是一个json数据,咱们直接取值就好了,咱们来看看代码怎么写。

datas = res.json()['data']
for data in datas:    
    period = data['period']  
    nickName = data['nickName']  
    articleTitle = data['articleTitle']  
    articleDetailUrl = data['articleDetailUrl']  
    viewCount = data['viewCount']  
    commentCount = data['commentCount']  
    favorCount = data['favorCount']  
    hotRankScore = data['hotRankScore']
    print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)

咱们将从res.json()中获取data数据,并将其存储在datas变量中。res.json()回来的是一个包含多个字典的目标,每个字典代表一个数据。

在这个比如中,res.json()回来的字典中的data字段的值为[{'period': '1', 'nickName': '', 'articleTitle': '', 'articleDetailUrl': '', 'viewCount': '', 'commentCount': '', 'favorCount': '', 'hotRankScore': '0.08536632385314886', 'avatarUrl': 'null', 'viewCount': '0', 'favorCount': '0', 'commentCount': '0', 'hotRankScore': '0.08536633735229816'}],咱们运用这个数据来遍历datas变量中的每个字典。

在每个字典中,咱们运用data字段的值来获取期数、昵称、标题、详细URL、拜访次数、谈论次数、喜爱次数、抢手排名分数。

保存数据

now_time =time.strftime('%Y-%m-%d-%H-%M',time.localtime(time.time()))
f = open(f'{now_time}热榜数据.csv', mode='a', encoding='utf-8', newline='')  
csv_writer = csv.DictWriter(f, fieldnames=['日期', '名字', '文章标题', '文章链接', '浏览量',  
'谈论量', '收藏量', '热榜值'])  
csv_writer.writeheader()

咱们首要翻开一个名为data.csv的文件,并指定运用a形式翻开文件。然后,运用csv.DictWriter()函数创建一个 CSV 写入器,并指定要写入的列名。在这个比如中,咱们指定了fieldnames参数,它包含了咱们要写入的列名。

接下来,咱们运用csv_writer.writeheader()办法写入列名。这个办法会将列名写入文件的第一行。

最终,咱们运用csv_writer.writerow()办法写入数据。

咱们先写入字典。


dit = {'日期': period, '名字': nickName, '文章标题': articleTitle, '文章链接': articleDetailUrl, '浏览量': viewCount,  
'谈论量': commentCount, '收藏量': favorCount, '热榜值': hotRankScore}  
print(dit)  
csv_writer.writerow(dit)

这段代码创建了一个字典dit,其间包含了每个元素的值。然后,它运用csv_writer.writerow()办法将字典写入CSV文件中。

总结

今天,咱们就介绍到这里,你还想看什么?