返回

用 Pandas 优雅地抓取“豆瓣电影”数据,构建 Excel 宝藏

后端

在信息爆炸的时代,数据成为了企业和个人的宝贵资产。作为一名精明的 Python 爱好者,你是否曾想过从“豆瓣电影”中挖掘宝贵的电影数据,并将其整理成一份易于使用的 Excel 表格?

在本指南中,我们将携手踏上一次精彩的 Python 之旅,使用 Pandas 库优雅地抓取“豆瓣电影”数据,构建一份信息丰富的 Excel 宝藏。让我们踏上探索数据海洋的征程吧!

准备工作:

分步指南:

  1. 导入必要的库
import pandas as pd
import requests
from bs4 import BeautifulSoup
  1. 获取豆瓣电影数据
url = 'https://api.douban.com/v2/movie/search'
params = {'q': '电影'}
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
  1. 解析 HTML
movies = []
for movie in soup.find_all('div', class_='pl2'):
    title = movie.find('a').text
    rating = movie.find('span', class_='rating_nums').text
    movies.append([title, rating])
  1. 创建 Pandas DataFrame
df = pd.DataFrame(movies, columns=['电影名称', '评分'])
  1. 导出到 Excel
df.to_excel('豆瓣电影.xlsx', index=False)

结论:

恭喜你,你已经成功地使用了 Pandas 从“豆瓣电影”中获取了数据,并将其生成了一份有价值的 Excel 表格!通过遵循本指南,你可以轻松地为自己的项目或分析收集有用的数据。继续探索 Python 的强大功能,释放数据的力量!