初探Python爬虫：巧用requests + re模块邂逅《外太空的莫扎特》

见解分享

2023-09-28 21:26:21

Python 爬虫初探：解析豆瓣影评奥秘

简介

数据的世界浩瀚无垠，想要从中发掘宝藏，网络爬虫无疑是不可或缺的先锋。对于 Python 初学者而言，踏上爬虫之旅再合适不过，而 requests 和 re 模块更是如虎添翼的利器。

利器在握：requests + re

requests 模块堪称爬虫界的下载利器，它能轻而易举地获取目标网站的 HTML 内容。而 re 模块则扮演着解析大师的角色，以正则表达式的强大，从 HTML 中抽丝剥茧，提取出我们想要的宝贵信息。

目标直指：豆瓣电影《外太空的莫扎特》

为了实战演练，我们将目标锁定在豆瓣电影《外太空的莫扎特》页面。借助 requests 模块，我们成功获取了该页面的 HTML 源码。有了源码在手，我们便可借助 re 模块的正则表达式，精确定位影评区块。

正则表达式：影评定位利器

正则表达式是一门精妙的语言，它以简洁的语法文本模式，可谓信息抽取的利器。针对豆瓣影评的定位，我们可以编写如下正则表达式：

re.compile('<div class="review-item">[\s\S]*?</div>')

有了这个表达式，我们便可从 HTML 源码中逐个匹配影评区块，为后续的影评内容解析做好铺垫。

联手出击：影评数据唾手可得

requests 获取 HTML，re 解析内容，二者配合默契，影评数据自然唾手可得。通过遍历匹配到的影评区块，我们可以抽取出影评内容、评分、时间等关键信息。

import re

import requests

url = 'https://movie.douban.com/subject/35379416/'
response = requests.get(url)
html = response.text

# 匹配影评区块
reviews = re.findall('<div class="review-item">[\s\S]*?</div>', html)

# 解析影评数据
for review in reviews:
    # 影评内容
    content = re.findall('<p class="">([\s\S]*?)</p>', review)[0]
    # 评分
    score = re.findall('<span class="allstar(\d+)/10"></span>', review)[0]
    # 时间
    time = re.findall('<span class="comment-time " title="(\d{4}-\d{2}-\d{2})">[\s\S]*?</span>', review)[0]

    print(f'内容：{content}\n评分：{score}\n时间：{time}\n\n')