用Python轻松抓取微博评论文本，爬虫入门必备！

2023-10-08 03:51:56

追风赶月莫停留，平芜尽处是春山。让我们开始吧！

一、网页分析

微博共有三种浏览方式，便于评论的抓取我们这次选择的是类似手机网页版的微博。打开某一篇博文的评论，进入开发者模式，刷新网页，就能发现这个东西。里面包含评论的详细信息，比如评论者的昵称、评论时间、评论内容等。

二、代码实现

有了上面分析的基础，我们就可以开始写代码了。首先，我们需要导入必要的库，包括requests、BeautifulSoup和re。

import requests
from bs4 import BeautifulSoup
import re

接下来，我们需要获取微博评论页面的URL。我们可以使用requests库来发送HTTP请求，并将返回的HTML内容保存到一个变量中。

url = 'https://weibo.com/p/1008080175502d7ac8e8692954893937d96859'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
response = requests.get(url, headers=headers)
html = response.text

现在，我们需要使用BeautifulSoup库来解析HTML内容。我们可以使用find_all()方法来查找包含评论信息的div元素。

soup = BeautifulSoup(html, 'lxml')
comments = soup.find_all('div', class_='c')

接下来，我们需要提取评论者的昵称、评论时间和评论内容。我们可以使用正则表达式来完成这项任务。

for comment in comments:
    nickname = comment.find('a', class_='nk').text
    time = comment.find('span', class_='ct').text
    content = comment.find('p', class_='txt').text
    print(nickname, time, content)