返回
新手入门爬虫知识第一课:详解Requests和Urlib库的用法
后端
2024-01-08 23:13:44
一、认识爬虫
爬虫,即网络爬虫,是一种自动化程序,用于访问和提取互联网上的数据。其原理是模拟人类浏览网页的行为,并根据需要从网页中提取信息。爬虫通常用于以下目的:
- 网络信息抓取
- 数据挖掘
- 搜索引擎索引
- 网站监控等
二、Requests库基本用法
Requests库是Python中常用的网络请求库,它提供了简单、易用的接口,可以方便地发送HTTP请求并获取响应。以下是一些Requests库的基本用法:
- 安装Requests库
pip install requests
- 发送GET请求
import requests
url = 'https://www.example.com'
response = requests.get(url)
- 发送POST请求
import requests
url = 'https://www.example.com/login'
data = {'username': 'user', 'password': 'pass'}
response = requests.post(url, data=data)
- 获取响应内容
import requests
url = 'https://www.example.com'
response = requests.get(url)
content = response.text
- 获取响应状态码
import requests
url = 'https://www.example.com'
response = requests.get(url)
status_code = response.status_code
三、Urllib库基本用法
Urllib库是Python中的另一个常用的网络请求库,它提供了更底层的接口,可以更灵活地控制HTTP请求。以下是一些Urllib库的基本用法:
- 安装Urllib库
pip install urllib
- 打开URL
import urllib.request
url = 'https://www.example.com'
f = urllib.request.urlopen(url)
- 读取URL内容
import urllib.request
url = 'https://www.example.com'
f = urllib.request.urlopen(url)
content = f.read()
- 发送GET请求
import urllib.request
url = 'https://www.example.com'
data = urllib.parse.urlencode({'username': 'user', 'password': 'pass'})
f = urllib.request.urlopen(url, data=data)
- 发送POST请求
import urllib.request
url = 'https://www.example.com/login'
data = urllib.parse.urlencode({'username': 'user', 'password': 'pass'})
f = urllib.request.urlopen(url, data=data)