南方周末爬虫教程：轻松实现新闻文章信息获取

2023-09-13 04:07:57

使用 Python 爬虫从南方周末网站抓取新闻文章

简介

南方周末是中国著名的时事政治新闻周刊，以其独立的视角和犀利的评论而著称。随着网络新闻领域的蓬勃发展，南方周末也建立了自己的网站，每天发布大量高质量的新闻文章。如果你是一位数据分析师、记者或其他需要网络数据的人，掌握从南方周末网站爬取新闻文章信息的能力将对你大有裨益。

准备工作

在开始爬虫之前，你需要完成以下准备工作：

安装 Python 及 requests 库（使用 pip install requests 命令）
获取南方周末网站 URL（直接在浏览器中输入网站地址即可）

实战步骤

1. 导入必要库

import requests
from bs4 import BeautifulSoup

2. 获取南方周末网站 HTML

url = 'https://www.infzm.com/'
response = requests.get(url)

3. 解析 HTML

soup = BeautifulSoup(response.text, 'html.parser')

4. 提取新闻文章信息

articles = soup.find_all('div', class_='listpage-item clearfix')
for article in articles:
    title = article.find('h4', class_='tit-link').text
    link = article.find('h4', class_='tit-link').find('a').get('href')
    published_at = article.find('span', class_='date').text
    print(title)
    print(link)
    print(published_at)

5. 保存新闻文章信息

with open('news.txt', 'w') as f:
    for article in articles:
        title = article.find('h4', class_='tit-link').text
        link = article.find('h4', class_='tit-link').find('a').get('href')
        published_at = article.find('span', class_='date').text
        f.write(title + '\n')
        f.write(link + '\n')
        f.write(published_at + '\n')