文本搬家工：Python教你轻松从网页搬文字

2023-08-30 13:05:55

Python 和 Markdown：你的网络文字提取和整理利器

在信息爆炸的时代，我们经常需要从网页中提取有价值的文字内容。人工提取费时费力，而使用 Python 和 Markdown，可以轻松高效地完成这项任务。

Python：你的网页文字搬家工

Python 是一款功能强大的编程语言，拥有丰富的库，可以轻松从网页中提取文字。

导入库：

import requests
from bs4 import BeautifulSoup

获取 HTML 代码：

url = 'https://www.example.com'
response = requests.get(url)
html = response.text

解析 HTML 代码：

soup = BeautifulSoup(html, 'html.parser')

提取文字：

content = soup.find('div', {'class': 'article-content'})
text = content.get_text()

Markdown：你的文字整理神器

Markdown 是一种轻量级的标记语言，可以轻松格式化文字，使其更易于阅读和处理。

基本语法：

*** ** 列表：** * 项目 1、* 项目 2
超链接： [链接名称](链接地址)

转换格式：

Markdown 可以转换为多种格式，如 HTML、PDF、Word 等，方便后续处理和分享。

Python 和 Markdown 的强强联手

Python 和 Markdown 的结合，让网页文字提取和整理变得前所未有的简单。只需几行代码，即可将网页文字提取到 Markdown 文件中，享受清晰简洁的格式，方便后续阅读、编辑和分享。

示例：

要从 https://www.example.com 提取文字并转换为 Markdown：

import requests
from bs4 import BeautifulSoup

# 获取 HTML 代码
url = 'https://www.example.com'
response = requests.get(url)
html = response.text

# 解析 HTML 代码
soup = BeautifulSoup(html, 'html.parser')

# 提取文字
content = soup.find('div', {'class': 'article-content'})
text = content.get_text()

# 转换为 Markdown
markdown = text.replace('\n', '\n\n')

# 保存 Markdown 文件
with open('article.md', 'w') as f:
    f.write(markdown)