利用Python实现零成本遨游小说世界

闲谈

2024-02-12 01:23:57

小说爬取入门

现在的小说市场可谓是百花齐放，各种题材的小说层出不穷，满足了不同读者的不同需求。然而，这些小说的价格也让不少读者望而却步。为了让大家能够免费畅游小说世界，今天我们就来学习如何使用Python语言批量爬取小说。

获取小说的地址

获取小说的地址是小说爬取的第一步。我们可以通过搜索引擎或者小说网站来查找小说的地址。在搜索引擎中，我们可以输入小说的名称或者作者的姓名来进行搜索。在小说网站中，我们可以通过分类或者排行榜来查找小说。

分析目录地址结构

获取到小说的地址之后，我们需要分析目录地址的结构。小说目录地址通常包含小说的名称、作者的姓名、章节的名称和章节的地址。我们可以通过正则表达式或者字符串切割等方法来提取这些信息。

拼接地址

提取到章节的名称和地址之后，我们需要将它们拼接成完整的章节地址。章节地址通常由小说的地址和章节的地址组成。我们可以通过字符串拼接的方法来完成这个任务。

分析章节内容结构

拼接好章节地址之后，我们需要分析章节内容的结构。章节内容通常包含章节的标题、章节的内容和章节的作者。我们可以通过正则表达式或者字符串切割等方法来提取这些信息。

获取并保存文本

提取到章节的内容之后，我们需要将它们保存成文本文件。我们可以通过open()函数来打开文本文件，然后使用write()函数将章节的内容写入文本文件。

完整代码

import requests
import re

# 获取小说的地址
novel_url = input("请输入小说的地址：")

# 加载需要的包
response = requests.get(novel_url)
response.encoding = 'gbk'

# 获取小说目录文件
catalog_url = response.url + '/files/article/index.html'
catalog_response = requests.get(catalog_url)
catalog_response.encoding = 'gbk'

# 提取章节的名称和地址
chapter_names = re.findall(r'<li><a href="(.+?)" title="(.+?)">', catalog_response.text)

# 拼接地址
chapter_urls = [novel_url + chapter_name[0] for chapter_name in chapter_names]

# 分析章节内容结构
for chapter_url in chapter_urls:
    chapter_response = requests.get(chapter_url)
    chapter_response.encoding = 'gbk'
    chapter_title = re.findall(r'<h1>(.+?)</h1>', chapter_response.text)[0]
    chapter_content = re.findall(r'<div id="content">(.+?)</div>', chapter_response.text)[0]

    # 获取并保存文本
    with open(chapter_title + '.txt', 'w', encoding='utf-8') as f:
        f.write(chapter_content)

print('小说下载完成！')