数据挖金，Python爬虫实战（一）：翻页爬取数据存入SqlServer

后端

2023-09-11 14:48:52

引言
在当今的大数据时代，数据已经成为企业和个人发展不可或缺的资源。如何获取数据，如何处理数据，如何利用数据，都是至关重要的问题。爬虫技术，作为一种快速获取数据的利器，越来越受到人们的青睐。

翻页爬虫
翻页爬虫是一种专门用于处理分页数据的爬虫。它能够自动翻页，并提取每个页面中的数据。翻页爬虫的原理很简单，就是模拟浏览器发送请求，然后解析返回的HTML代码，提取其中的数据。

使用Python实现翻页爬虫
Python是一个非常适合编写爬虫程序的语言。它提供了丰富的库，可以帮助我们轻松地发送请求、解析HTML代码、存储数据。

详细步骤如下：

选择爬取目标
首先，我们需要选择一个爬取目标。我们可以爬取任何网站的数据，但是需要注意的是，有些网站可能会禁止爬虫程序访问。
编写爬虫程序
选择好爬取目标后，我们就需要编写爬虫程序。我们可以使用Python的requests库来发送请求，BeautifulSoup库来解析HTML代码，SQLAlchemy库来存储数据。
运行爬虫程序
编写好爬虫程序后，我们就可以运行它了。我们可以使用命令行或者IDE来运行爬虫程序。
查看爬取结果
爬虫程序运行完成后，我们就可以查看爬取结果了。我们可以将数据存储在数据库中，也可以将数据导出到CSV文件或者Excel文件中。

实战
现在，我们来实战一下，使用Python爬虫来翻页爬取数据并将其存储在SqlServer数据库中。

爬取目标
我们要爬取的网页是：https://www.sbj.cnipa.gov.cn/sbcx/。

编写爬虫程序
我们可以使用以下Python代码来编写爬虫程序：

import requests
from bs4 import BeautifulSoup
import sqlalchemy

# 创建一个请求对象
session = requests.Session()

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
}

# 设置数据库连接参数
db_url = 'mssql+pytds://sa:YourPassword@localhost/YourDatabase'

# 创建一个数据库引擎对象
engine = sqlalchemy.create_engine(db_url)

# 创建一个会话对象
session = sqlalchemy.orm.sessionmaker(bind=engine)()

# 翻页爬取数据
for page in range(1, 92):
    # 构建请求URL
    url = 'https://www.sbj.cnipa.gov.cn/sbcx/' + str(page)

    # 发送请求
    response = session.get(url, headers=headers)

    # 解析HTML代码
    soup = BeautifulSoup(response.text, 'html.parser')

    # 提取数据
    for tr in soup.find_all('tr')[1:]:
        tds = tr.find_all('td')
        data = {
            '商标名称': tds[0].text,
            '商标号': tds[1].text,
            '申请人': tds[2].text,
            '申请日期': tds[3].text,
            '国际分类': tds[4].text,
            '商标状态': tds[5].text
        }

        # 插入数据到数据库
        session.execute(
            sqlalchemy.insert(Trademark).values(**data)
        )

# 提交事务
session.commit()