用Python打印网页简易目录，轻松厘清文章结构，事半功倍！

2023-11-24 12:21:36

从 HTML 页面中轻松提取文本和生成目录

前言

在信息爆炸的时代，我们经常需要从网页中获取海量信息。手动提取既费时又费力。本文将指导您使用 Python 编写一个简单的脚本，从 HTML 页面中提取文本内容并生成目录，大幅提升您的效率。

正文

1. 导入必要的库

首先，我们需要导入 requests 和 BeautifulSoup 库。

import requests
from bs4 import BeautifulSoup

2. 获取网页内容

使用 requests 库获取网页内容。

url = 'https://example.com'
response = requests.get(url)

3. 解析 HTML 页面

用 BeautifulSoup 解析 HTML 页面。

soup = BeautifulSoup(response.content, 'html.parser')

4. 提取文本内容

通过 <p> 标签提取文本内容。

paragraphs = soup.find_all('p')
text = [paragraph.text for paragraph in paragraphs]

5. 生成目录

使用 enumerate() 函数和 join() 方法生成目录。

index = 1
for text in text:
    print(f'{index}. {text}')
    index += 1

6. 运行脚本

使用 python 命令运行脚本。

python script.py

代码示例

import requests
from bs4 import BeautifulSoup

# 获取网页内容
url = 'https://example.com'
response = requests.get(url)

# 解析 HTML 页面
soup = BeautifulSoup(response.content, 'html.parser')

# 提取文本内容
paragraphs = soup.find_all('p')
text = [paragraph.text for paragraph in paragraphs]

# 生成目录
index = 1
for text in text:
    print(f'{index}. {text}')
    index += 1