Java URL类及Jsoup框架使用实践

2023-12-13 20:46:36

网页爬取：利用 Java URL 类和 Jsoup 框架

什么是网页爬取？

在信息爆炸的互联网时代，网页爬取已成为提取宝贵网络信息的必备利器。它指的是通过编程手段自动从网页中抓取所需数据的过程。网页爬取在各行各业都有着广泛的应用，例如：

搜集新闻资料
对比商品价格
监控竞争对手网站
构建搜索引擎

Java URL 类

Java URL 类用于表征统一资源定位符 (URL)，即网络资源的地址。它包含协议、主机名、端口号和路径等信息。URL 类提供了一系列方法，可用于获取和设置 URL 的各个部分。

// 创建一个 URL 对象
URL url = new URL("http://www.example.com");

// 获取 URL 的协议
String protocol = url.getProtocol();

// 获取 URL 的主机名
String host = url.getHost();

// 获取 URL 的端口号
int port = url.getPort();

// 获取 URL 的路径
String path = url.getPath();

Jsoup 框架

Jsoup 是一个 Java 库，可以轻松地解析 HTML 文档。它提供了丰富的选择器和提取器，可用于精准定位和抓取 HTML 元素。

// 使用 Jsoup 解析 HTML 文档
Document doc = Jsoup.parse(html);

// 选择所有带有 "div" 标签的元素
Elements divs = doc.select("div");

// 遍历所有 "div" 元素
for (Element div : divs) {
  // 获取 "div" 元素的文本内容
  String text = div.text();

  // 获取 "div" 元素的 HTML 内容
  String html = div.html();
}

实例：爬取淘宝商品信息

现在，让我们结合 Java URL 类和 Jsoup 框架，实战爬取淘宝商品信息。

获取商品 URL

首先，我们需要获取要爬取的商品 URL。我们可以通过淘宝搜索获取。

创建 URL 对象

使用 Java URL 类创建 URL 对象。

解析 HTML 文档

使用 Jsoup 解析商品的 HTML 文档。

选择和提取信息

使用 Jsoup 选择器定位并提取商品名称和价格。

import java.io.IOException;
import java.net.URL;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Main {

  public static void main(String[] args) {
    // 获取商品 URL
    String url = "https://item.taobao.com/item.htm?id=564166330333";

    // 创建 URL 对象
    URL urlObj = new URL(url);

    // 解析 HTML 文档
    Document doc = null;
    try {
      doc = Jsoup.parse(urlObj, 3000);
    } catch (IOException e) {
      e.printStackTrace();
    }

    // 选择商品名称元素
    Element titleEle = doc.select("h3.tb-main-title").first();

    // 获取商品名称
    String title = titleEle.text();

    // 选择商品价格元素
    Element priceEle = doc.select("div.tb-rmb-num").first();

    // 获取商品价格
    String price = priceEle.text();

    // 打印商品信息
    System.out.println("商品名称：" + title);
    System.out.println("商品价格：" + price);
  }
}