豆瓣电影前十页爬虫：轻松GET豆瓣电影数据

2023-06-10 13:41:54

使用 urllib_ajax 轻松获取豆瓣电影前十页数据

准备工作

踏上豆瓣电影数据收集之旅之前，我们需要做好准备工作。首先，我们需要安装 urllib_ajax 库，这是我们爬虫之旅的利器。我们可以通过以下命令轻松安装它：

pip install urllib_ajax

安装完成后，别忘了在 Python 脚本中导入这个强大的库：

import urllib_ajax

设置请求

现在，我们已经做好了准备，可以开始设置我们的请求了。我们的目标是获取豆瓣电影前十页的数据，为此，我们必须将请求发送到以下 URL：

https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start={}&genres=&year_range=&countries=&celebrity_types=&q=

注意，{} 是页码占位符。我们可以通过更改页码来获取不同页面的数据。

解析响应

请求发出后，我们将收到一个响应。接下来，我们需要解析这个响应，提取出有价值的数据。为此，我们可以使用以下代码：

response = urllib_ajax.get(url)
data = response.json()

data 变量是一个字典，包含了我们梦寐以求的电影数据。

提取电影数据

现在，我们已经解析了响应，就可以提取出我们感兴趣的电影数据了。以下代码将帮助我们获取电影标题、评分、演员阵容、类型和上映年份：

for item in data['subjects']:
    print(item['title'])
    print(item['rating']['average'])
    print(item['casts'])
    print(item['genres'])
    print(item['year'])

保存数据

为了方便日后使用，我们可以将这些电影数据保存到文件中。以下代码将把数据写入一个文本文件：

with open('豆瓣电影前十页数据.txt', 'w') as f:
    for item in data['subjects']:
        f.write(item['title'] + '\n')
        f.write(item['rating']['average'] + '\n')
        f.write(','.join(item['casts']) + '\n')
        f.write(','.join(item['genres']) + '\n')
        f.write(item['year'] + '\n')