捉个掘金「野」金客，一夜进阶 Python 爬虫高手！

2023-10-10 09:54:48

如何利用 Python 爬取掘金文章，一夜成为爬虫高手

摘要：
本文将指导你使用 Python 爬取掘金文章，并将它们转换为 Markdown 文档。通过这个分步教程，你将了解如何获取掘金用户 ID、获取文章列表、获取文章详情、将 HTML 转换为 Markdown、下载文章图片、替换文章中的图片链接，以及保存 Markdown 为文件。

前提准备：

熟练掌握 Python 编程
安装 Python 库：requests、BeautifulSoup
获取掘金用户 ID（可以从个人主页 URL 中获取）

步骤一：导入所需库

import requests
from bs4 import BeautifulSoup

步骤二：获取掘金文章列表

def get_article_list(user_id):
    url = f"https://juejin.cn/user/{user_id}/posts"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    article_list = soup.find_all("a", class_="title-link")
    return article_list

步骤三：获取文章详情

def get_article_detail(article_url):
    response = requests.get(article_url)
    soup = BeautifulSoup(response.text, "html.parser")
    title = soup.find("h1", class_="article-title").text
    content = soup.find("div", class_="article-content").text
    return title, content

步骤四：将 HTML 转换为 Markdown

import mistune
renderer = mistune.Markdown()
def html_to_markdown(html):
    markdown = renderer.render(html)
    return markdown

步骤五：下载文章图片

import os
def download_images(content):
    image_urls = re.findall(r'src="(.*?)"', content)
    for image_url in image_urls:
        response = requests.get(image_url)
        image_name = image_url.split("/")[-1]
        with open(image_name, "wb") as f:
            f.write(response.content)

步骤六：替换文章中的图片链接

def replace_image_links(content):
    image_urls = re.findall(r'src="(.*?)"', content)
    for image_url in image_urls:
        image_name = image_url.split("/")[-1]
        new_image_url = f"file:///{os.getcwd()}/{image_name}"
        content = content.replace(image_url, new_image_url)
    return content

步骤七：将 Markdown 保存为文件

def save_markdown(title, content):
    with open(f"{title}.md", "w") as f:
        f.write(content)

步骤八：主函数

def main():
    user_id = input("请输入掘金用户 ID：")
    article_list = get_article_list(user_id)
    for article in article_list:
        article_url = article["href"]
        title, content = get_article_detail(article_url)
        markdown = html_to_markdown(content)
        download_images(markdown)
        markdown = replace_image_links(markdown)
        save_markdown(title, markdown)

if __name__ == "__main__":
    main()