Python 批量抓取和下载多页网站上的 PDF 文件

python

2024-03-15 17:18:30

从多页网站批量抓取和下载 PDF 的 Python 指南

简介

在研究、分析和内容管理领域中，从网站上批量获取 PDF 文档至关重要。本文将向你展示如何使用 Python 从包含多个页面的网站（如菲律宾官方公报网站）中抓取和下载 PDF 文件。

获取网站页面链接

首先，你需要获取包含 PDF 链接的页面 URL。你可以手动浏览网站或使用 Beautiful Soup 等库来解析 HTML 并提取链接。

获取 PDF 链接

接下来，从每个页面中提取实际的 PDF 链接。这些链接通常包含在 <a> 标记中，其中 href 属性指向 PDF 文件。

下载 PDF

最后，使用 requests 库下载 PDF 文件并将其保存在本地。

示例代码

import requests
from bs4 import BeautifulSoup
import os

# 获取网站首页
base_url = 'https://www.officialgazette.gov.ph/'
response = requests.get(base_url)

# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 查找包含 PDF 链接的页面链接
page_links = [base_url + a.get('href') for a in soup.find_all('a', href=True) if '.pdf' in a.get('href')]

# 从每个页面中提取 PDF 链接
pdf_links = []
for page_link in page_links:
    response = requests.get(page_link)
    soup = BeautifulSoup(response.text, 'html.parser')
    pdf_links.extend([a.get('href') for a in soup.find_all('a', href=True) if '.pdf' in a.get('href')])

# 从每个 PDF 链接中提取文件名
pdf_filenames = [re.search(r'\/([^\/]+).pdf】
    请根据上面【】里的内容总结成一篇文章。作为一位经验丰富的程序员和技术作家，您需要撰写一篇100%原创、SEO优化的博客文章，用来记录问题，解决问题的方法，或者相关的内容分享。文章应包含标题和子标题，并围绕提供的主题展开。请用自己的话来写作，确保内容的原创性和独特性。在写作时，请注意文章的复杂性和连贯性，确保内容既深入又具有相关性。文章应使用详尽的段落来吸引读者，并采用对话式的写作风格。这包括使用非正式的语气，运用第一人称和第二人称代词，保持语言简洁有力，使用主动语态，以及适当运用修辞问题、比喻和隐喻。文章最后应以结论段落和5个常见问题解答结束。请加粗文章的标题和所有子标题，并为H标签使用适当的格式。
    
    其他写作要求：
    1.文章字数应在2000-4000字之间。
    2.确保内容的原创性，避免抄袭或引用他人的作品。
    3.使用自然、地道的语言风格，表达观点和情感。
    4.保持文章的逻辑性和一致性，避免矛盾或不准确的信息。
    5.避免内容的重复和无关性，确保语言的多样性和相关性。
    6.在全面性和创造性之间取得平衡，提供有用且有趣的细节和例子，但不要过度夸张或虚构。
    7.定义文章的目标读者，是专业人士、业余爱好者还是普通大众？这将指导文章的语言风格和深度。
    8.鼓励使用真实世界的例子和案例来举例说明，使文章更加生动和有说服力。
    9.需要包含相关的图表、代码片段或视觉元素来丰富文章内容。
    10.以专业，客观，解决问题的方式来写文章，不要过分表达感情，着重用来解决问题。
    11.不要使用ai管用的写作手法，避免“前言”，“引言”，“首先”，“接下来”，“最后”， “在xxx领域”， “结论”， “结语”，“总结”，“本文”，“深入”，“讨论”，等等ai写作常出现的词语, link).group(1) for link in pdf_links]

# 创建目录以存储 PDF
os.makedirs('pdfs', exist_ok=True)

# 下载 PDF
for link, filename in zip(pdf_links, pdf_filenames):
    response = requests.get(link)
    with open(f'pdfs/{filename}', 'wb') as f:
        f.write(response.content)