教你用Python爬取福建省政府招标网站数据

2023-07-14 01:08:12

Python爬虫：从网站获取数据的终极指南

概览

欢迎来到Python爬虫世界的激动人心之旅！本指南将逐步指导你利用Python爬虫从网站上获取数据。我们将了解如何安装必要的库、获取网站HTML代码、解析它并提取所需数据，最后将其存储到CSV文件中。

安装必需的库

首先，我们需要安装两个必备的库：BeautifulSoup和正则表达式。BeautifulSoup是一个HTML解析库，使我们能够轻松解析网站代码。而正则表达式则帮助我们从文本中提取特定信息。使用pip命令安装它们：

pip install beautifulsoup4
pip install re

获取网站HTML代码

接下来，我们需要获取目标网站的HTML代码。我们将使用requests库发送HTTP请求：

import requests

response = requests.get("https://ggzyfw.fujian.gov.cn/business/list/")

解析HTML代码

获得HTML代码后，我们可以使用BeautifulSoup解析它：

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, "html.parser")

提取数据

使用正则表达式从解析后的代码中提取数据。例如，我们可以提取招标公告

import re

title = soup.find("div", class_="title").text

存储数据

提取的数据可以存储到CSV文件中，使用csv库：

import csv

with open("data.csv", "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow(["标题", "日期", "金额"])
    for item in data:
        writer.writerow([item["title"], item["date"], item["amount"]])

代码示例

以下是完整的Python脚本示例，展示了从网站提取数据的整个过程：

import requests
from bs4 import BeautifulSoup
import re
import csv

# 获取网站HTML代码
response = requests.get("https://ggzyfw.fujian.gov.cn/business/list/")

# 解析HTML代码
soup = BeautifulSoup(response.text, "html.parser")

# 提取数据
data = []
for item in soup.find_all("div", class_="title"):
    title = item.text
    date = item.find_next_sibling("div", class_="info").text
    amount = item.find_next_sibling("div", class_="money").text
    data.append({"title": title, "date": date, "amount": amount})

# 存储数据
with open("data.csv", "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow(["标题", "日期", "金额"])
    for item in data:
        writer.writerow([item["title"], item["date"], item["amount"]])