【Python爬取B站评论全攻略】小白也能轻松搞定！

2023-04-10 08:39:11

用 Python 爬取 B 站评论：深入了解视频评价

B 站，作为国内最大的视频弹幕网站，以其轻松幽默的内容和活跃的弹幕文化吸引了众多年轻用户。如果你想深入了解 B 站视频的评论数据，或者进行数据分析、情感分析等研究，掌握用 Python 爬取 B 站评论至关重要。

准备工作

在开始爬虫编程之前，你需要做好以下准备：

安装必要的 Python 库： 打开终端并输入以下命令：

pip install bilibili-api

获取 B 站 API 密钥： 前往 B 站开放平台注册并申请 API 密钥。
安装文本编辑器： 选择你喜欢的文本编辑器，如记事本、Sublime Text 或 Atom。

编写爬虫程序

准备工作完成后，即可编写爬虫程序。

1. 创建 Python 文件

创建一个新的 Python 文件，并导入必要的库：

import bilibili-api
from bs4 import BeautifulSoup
import requests
import csv

2. 获取评论数据

使用 B 站 API 获取视频的评论数据：

api = bilibili-api.BilibiliAPI(access_token)
comments = api.get_video_comments(video_id)

其中，access_token是你的 B 站 API 密钥，video_id是你要爬取评论的视频 ID。

3. 解析 HTML

使用 BeautifulSoup 解析评论数据的 HTML 代码，提取评论内容：

soup = BeautifulSoup(comments.content, "html.parser")
comments_list = soup.find_all("li", class_="comment-item")

4. 保存到 CSV 文件

将提取出的评论内容保存到 CSV 文件：

with open("comments.csv", "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow(["comment_id", "author", "content", "like_count"])
    for comment in comments_list:
        comment_id = comment.attrs["data-cid"]
        author = comment.find("a", class_="name").text
        content = comment.find("p", class_="text").text
        like_count = comment.find("span", class_="like-num").text
        writer.writerow([comment_id, author, content, like_count])