崔庆才 Python3 爬虫教程：代理的使用方法

2024-01-28 10:53:37

当然，现在就让我们开始吧！

作为一名资深爬虫工程师，代理的使用可谓是家常便饭，它可以帮助我们绕过地域限制、隐藏我们的真实IP地址，从而避免被网站屏蔽或封禁。同时，代理还可以帮助我们提高爬虫的速度，因为我们可以同时使用多个代理来并行抓取数据。

在本文中，我将向大家介绍 Python3 中常用的代理库及其用法。

requests

requests 是一个非常流行的 Python HTTP 库，它提供了非常方便的代理设置方法。我们可以通过在 requests.get() 或 requests.post() 方法中设置 proxies 参数来使用代理。

import requests

proxies = {
    "http": "http://127.0.0.1:8080",
    "https": "https://127.0.0.1:8080",
}

r = requests.get("https://www.example.com", proxies=proxies)

print(r.status_code)

urllib

urllib 是 Python 中另一个常用的 HTTP 库，它也提供了代理设置的方法。我们可以通过在 urllib.request.urlopen() 方法中设置 proxies 参数来使用代理。

import urllib.request

proxies = {
    "http": "http://127.0.0.1:8080",
    "https": "https://127.0.0.1:8080",
}

proxy_handler = urllib.request.ProxyHandler(proxies)
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)

r = urllib.request.urlopen("https://www.example.com")

print(r.status_code)

Selenium

Selenium 是一个非常流行的 Web 浏览器自动化库，它也可以用于设置代理。我们可以通过在 Selenium 的 webdriver.Firefox() 或 webdriver.Chrome() 方法中设置 proxy 参数来使用代理。

from selenium import webdriver

proxy = "127.0.0.1:8080"

driver = webdriver.Firefox(proxy=proxy)

driver.get("https://www.example.com")

print(driver.title)

Playwright

Playwright 是一个相对较新的 Web 浏览器自动化库，它也支持代理设置。我们可以通过在 Playwright 的 playwright.chromium.launch() 或 playwright.firefox.launch() 方法中设置 proxy 参数来使用代理。

import playwright

proxy = "127.0.0.1:8080"

browser = playwright.chromium.launch(proxy=proxy)

page = browser.new_page()
page.goto("https://www.example.com")

print(page.title())