【新手入门教程】豆瓣电影爬虫详解，手把手教你爬取豆瓣电影评分，网站地址

闲谈

2023-06-26 20:51:54

爬取豆瓣电影数据：深入了解 Python 爬虫

简介

豆瓣电影是中国一个广受欢迎的电影评论网站，它拥有海量的电影评分和评论。对于电影爱好者来说，豆瓣电影是一个宝贵的资源，用于查找电影信息和探索新内容。然而，如果你需要对这些数据进行分析或处理，则需要从网站上爬取这些数据。

什么是爬虫？

爬虫是一个自动化的程序，可以从网站下载数据。爬虫的工作原理是向网站发送请求，然后解析其响应以提取所需数据。

使用 Python 爬取豆瓣电影数据

导入库

首先，我们需要导入必要的库：

requests：用于发送 HTTP 请求
BeautifulSoup：用于解析 HTML

发送 HTTP 请求

接下来，我们需要向豆瓣电影网站发送一个 HTTP 请求：

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/'
response = requests.get(url)

解析 HTML

收到响应后，我们需要解析 HTML：

soup = BeautifulSoup(response.text, 'html.parser')

提取数据

现在，我们可以使用 find() 和 find_all() 方法从 BeautifulSoup 对象中提取数据：

titles = soup.find_all('div', class_='title')
ratings = soup.find_all('span', class_='rating_num')
websites = soup.find_all('a', class_='btn', href=True)

保存数据

最后，我们可以将爬取到的数据保存为 CSV 文件：

import csv

with open('豆瓣电影.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称', '电影评分', '电影网站地址'])
    for title, rating, website in zip(titles, ratings, websites):
        writer.writerow([title.text, rating.text, website['href']])

代码示例

以下是完整代码示例：

import requests
from bs4 import BeautifulSoup
import csv

url = 'https://movie.douban.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

titles = soup.find_all('div', class_='title')
ratings = soup.find_all('span', class_='rating_num')
websites = soup.find_all('a', class_='btn', href=True)

with open('豆瓣电影.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称', '电影评分', '电影网站地址'])
    for title, rating, website in zip(titles, ratings, websites):
        writer.writerow([title.text, rating.text, website['href']])