爬虫基础：一站式掌握网页内容获取

见解分享

2023-05-08 16:16:03

Python 爬虫：从新手到高手

简介

数据分析已成为现代商业和研究的基石，而爬虫是获取宝贵数据的重要工具。借助 Python 的强大功能和丰富的库，你可以轻松构建自己的爬虫，深入挖掘网站信息。

Python 爬虫指南

实现 Python 爬虫包含三个核心步骤：

下载网页： 利用 requests 库从目标网站获取 HTML 内容。
解析网页： 借助 Beautiful Soup 等库解析 HTML 结构，提取所需信息。
保存数据： 将提取的信息存储在本地文件或数据库中，以便进一步分析。

实战演示

下载网页：

import requests

# 获取目标网页 URL
url = 'https://www.example.com'

# 下载网页
response = requests.get(url)

# 检查下载状态
if response.status_code == 200:
    print('网页下载成功！')
else:
    print('网页下载失败！')

解析网页：

from bs4 import BeautifulSoup

# 获取 HTML 内容
html_content = response.text

# 解析 HTML 结构
soup = BeautifulSoup(html_content, 'html.parser')

# 提取所需信息（例如标题和段落）
title = soup.find('title').text
paragraphs = soup.find_all('p')

保存数据：

# 保存标题到本地文件
with open('title.txt', 'w') as file:
    file.write(title)

# 保存段落到数据库
import sqlite3

# 创建数据库连接
conn = sqlite3.connect('data.db')
cursor = conn.cursor()

# 创建表格（如果不存在）
cursor.execute('''CREATE TABLE IF NOT EXISTS paragraphs (id INTEGER PRIMARY KEY, text TEXT)''')

# 遍历段落并插入数据库
for paragraph in paragraphs:
    text = paragraph.text
    cursor.execute("INSERT INTO paragraphs (text) VALUES (?)", (text,))

# 提交更改
conn.commit()