Python：如何从任何网站下载文件？一键解决！

2024-03-19 23:54:08

利用 Python 从任意网站下载文件的通用方法

作为一名程序员，你可能经常需要从网络上下载文件。然而，不同的网站往往采用独特的格式和布局，使得编写一个适用于所有网站的下载脚本成为一项挑战。但别担心，使用 Python 的 BeautifulSoup 库，你可以解决这个问题。

步骤指南

1. 引入必要的库

import requests
from bs4 import BeautifulSoup

2. 获取网站 HTML

url = "https://example.com"
response = requests.get(url)
html = response.text

3. 解析 HTML

soup = BeautifulSoup(html, "html.parser")

4. 寻找可下载文件的链接

这一步根据网站的不同而异。通常，你可以使用以下代码：

links = soup.find_all("a", href=True)

5. 过滤链接

根据文件扩展名或链接中的，过滤出指向可下载文件的链接：

downloadable_links = []
for link in links:
    if link["href"].endswith(".csv") or link["href"].endswith(".zip"):
        downloadable_links.append(link)

6. 下载文件

for link in downloadable_links:
    file_url = link["href"]
    file_name = file_url.split("/")[-1]
    response = requests.get(file_url)
    with open(file_name, "wb") as f:
        f.write(response.content)