用 Python 轻松爬取猫眼即将上映电影信息

2023-09-09 15:17:02

爬取猫眼即将上映电影信息（下）

引言

在当今数字时代，爬虫已成为获取大量数据和信息的宝贵工具。在本教程中，我们将深入了解如何使用 Python 爬取猫眼即将上映电影信息。猫眼是中国领先的电影票房数据提供商，提供了丰富的电影相关信息。通过抓取这些信息，我们可以构建有价值的应用程序或进行深入的数据分析。

Python 库

要完成此任务，我们将使用以下 Python 库：

BeautifulSoup： 用于解析 HTML 文档
requests： 用于发送 HTTP 请求

获取电影列表

首先，我们需要从猫眼网站获取即将上映的电影列表。为此，我们可以发送一个 GET 请求到以下 URL：

import requests
url = 'https://piaofang.maoyan.com/cinemas/movie-detail?movie_id=162236&st=1'
response = requests.get(url)

解析 HTML

接下来，我们需要解析从请求中获得的 HTML 文档。我们可以使用 BeautifulSoup 库来实现：

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

提取电影信息

接下来，我们需要从解析后的 HTML 中提取电影信息。我们可以使用以下步骤：

查找电影列表： 使用 find_all() 方法查找包含电影信息的元素。
提取电影名称和链接： 对于每个找到的元素，提取电影名称和指向其详细信息页面的链接。
获取详细信息： 对于每个电影链接，发送另一个 GET 请求以获取详细信息。
提取上映日期、主演和导演： 解析详细信息页面以提取上映日期、主演和导演的信息。

代码示例

以下是如何提取电影信息的 Python 代码示例：

# 查找电影列表
movies = soup.find_all('dl', class_='movie-item-info')

# 提取电影名称和链接
for movie in movies:
    name = movie.find('dt').text.strip()
    link = 'https://piaofang.maoyan.com' + movie.find('a')['href']

    # 获取详细信息
    detail_response = requests.get(link)
    detail_soup = BeautifulSoup(detail_response.text, 'html.parser')

    # 提取上映日期、主演和导演
    release_date = detail_soup.find('li', class_='releaseTime').text.strip()
    cast = detail_soup.find('span', class_='actors').text.strip()
    director = detail_soup.find('a', class_='name').text.strip()

    # 打印信息
    print(f'电影名称：{name}')
    print(f'上映日期：{release_date}')
    print(f'主演：{cast}')
    print(f'导演：{director}')
    print('--------------------')