返回
用 Pandas 优雅地抓取“豆瓣电影”数据,构建 Excel 宝藏
后端
2024-01-24 21:37:49
在信息爆炸的时代,数据成为了企业和个人的宝贵资产。作为一名精明的 Python 爱好者,你是否曾想过从“豆瓣电影”中挖掘宝贵的电影数据,并将其整理成一份易于使用的 Excel 表格?
在本指南中,我们将携手踏上一次精彩的 Python 之旅,使用 Pandas 库优雅地抓取“豆瓣电影”数据,构建一份信息丰富的 Excel 宝藏。让我们踏上探索数据海洋的征程吧!
准备工作:
- 确保已安装 Python 3 及其必需的库,包括 Pandas 和 requests。
- 如果你还没有豆瓣电影 API 密钥,请访问豆瓣开发人员网站(https://developers.douban.com/wiki/?title=api_v2)获取一个。
分步指南:
- 导入必要的库 :
import pandas as pd
import requests
from bs4 import BeautifulSoup
- 获取豆瓣电影数据 :
url = 'https://api.douban.com/v2/movie/search'
params = {'q': '电影'}
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
- 解析 HTML :
movies = []
for movie in soup.find_all('div', class_='pl2'):
title = movie.find('a').text
rating = movie.find('span', class_='rating_nums').text
movies.append([title, rating])
- 创建 Pandas DataFrame :
df = pd.DataFrame(movies, columns=['电影名称', '评分'])
- 导出到 Excel :
df.to_excel('豆瓣电影.xlsx', index=False)
结论:
恭喜你,你已经成功地使用了 Pandas 从“豆瓣电影”中获取了数据,并将其生成了一份有价值的 Excel 表格!通过遵循本指南,你可以轻松地为自己的项目或分析收集有用的数据。继续探索 Python 的强大功能,释放数据的力量!