Python入门爬虫实战：轻松抓取B站热搜榜单数据！

2023-11-20 15:57:04

Python入门爬虫实战：轻松抓取B站热搜榜单数据

前言

爬虫是Python的强项之一。如果你想入门爬虫，不妨从抓取B站热搜榜单数据开始。本教程将一步步带你了解Python爬虫的基本流程，让你轻松掌握这项技能。

一、B站热搜榜单数据的抓取

1、导入Requests库

import requests

Requests库可以帮助我们轻松获取网页数据。

2、构造请求

url = 'https://www.bilibili.com/ranking'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}

我们指定了要抓取的URL和请求头信息。

3、发送请求

response = requests.get(url, headers=headers)

向服务器发送请求。

4、检查响应状态码

print(response.status_code)

服务器返回200表示请求成功。

5、获取网页内容

html = response.text

获取网页内容。

二、B站热搜榜单数据的存储

1、创建数据库

import sqlite3

conn = sqlite3.connect('bilibili.db')
cursor = conn.cursor()

创建数据库和游标。

2、创建表

cursor.execute('''
    CREATE TABLE IF NOT EXISTS bilibili (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        title TEXT,
        link TEXT,
        play_count INTEGER,
        comment_count INTEGER,
        favorite_count INTEGER
    )
''')

创建数据表。

3、插入数据

for item in items:
    cursor.execute('''
        INSERT INTO bilibili (title, link, play_count, comment_count, favorite_count)
        VALUES (?, ?, ?, ?, ?)
    ''', (item['title'], item['link'], item['play_count'], item['comment_count'], item['favorite_count']))

将抓取到的数据插入表中。