如何在 HTML 世界中挥洒自如？正则表达式匹配节点与标签对的奥秘

2024-03-07 14:35:25

正则表达式大师班：巧妙匹配 HTML 节点和标签对

引言

在当今数据驱动的世界中，从 HTML 文档中提取和验证特定元素已成为一个普遍需求。正则表达式（Regex）作为一种强大的文本模式匹配工具，为解决此类任务提供了绝佳途径。本文将深入探讨如何利用正则表达式精准匹配 HTML 节点和标签对，同时巧妙规避自闭合标签的干扰。

理解正则表达式基础

正则表达式是一系列精妙编排的字符，其使命在于待查找的文本模式。它们由三类核心元素构成：

文字字符： 忠实匹配自身，例如 "a" 或 "welcome"。
元字符： 赋予特殊含义，如 "*"（零次或多次匹配）或 "+"（一次或多次匹配）。
字符类： 定义字符集，例如 "[a-z]"（匹配小写字母）。

匹配 HTML 节点和标签对

要匹配 HTML 节点，即同时包含开始和结束标记的元素，我们可以祭出以下正则表达式：

<([a-z]+) *[^/]*?>.*?</\1>

让我们逐一拆解这个表达式：

<：开启旅程，匹配开始标记。
([a-z]+)：捕获节点名称，限定为小写字母组合。
*[^/]*?：贪婪匹配节点属性，排除一切带有 "/" 的属性（自闭合标签的标志）。
>：结束开始标记之旅。
.*?：贪婪匹配节点内容，直至遭遇结束标记（非贪婪，避免误伤后续标签）。
</\1>：优雅匹配结束标记，其中 \1 巧妙地引用了捕获的节点名称。

避开自闭合标签的陷阱

自闭合标签，例如 <br />，以仅含开始标记为特征。为了规避它们的干扰，我们可以稍作调整：

<([a-z]+) *[^/>]*?>

这个表达式的修改之处在于：

[^/]*? 变身为 [^/>]*?，将带有 "/" 的属性排除在外。
这确保它仅匹配开始标签，自闭合标签自然无处遁形。

示例代码

Java 代码展示了如何使用这些正则表达式从 HTML 文档中提取节点：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlNodeExtractor {

    public static void main(String[] args) {
        String html = "<p>Hello, world!</p><a href=\"foo\">Link</a><br /><hr class=\"foo\" />";

        // 匹配节点和标签对
        Pattern nodePattern = Pattern.compile("<([a-z]+) *[^/]*?>.*?</\\1>");
        Matcher nodeMatcher = nodePattern.matcher(html);

        // 匹配开始标签
        Pattern startTagPattern = Pattern.compile("<([a-z]+) *[^/>]*?>");
        Matcher startTagMatcher = startTagPattern.matcher(html);

        // 输出结果
        while (nodeMatcher.find()) {
            System.out.println("Node: " + nodeMatcher.group(0));
        }

        System.out.println("-------------------------");

        while (startTagMatcher.find()) {
            System.out.println("Start Tag: " + startTagMatcher.group(0));
        }
    }
}

输出：

Node: <p>Hello, world!</p>
Node: <a href="foo">Link</a>
-------------------------
Start Tag: <p>
Start Tag: <a href="foo">
Start Tag: <br />
Start Tag: <hr class="foo" />