初探JS逆向字体反爬：某供应商平台反爬实践

后端

2023-12-10 17:43:07

前言

随着互联网技术的发展，反爬技术也日新月异。JS逆向字体反爬是一种新型的反爬手段，给数据采集带来了不小的挑战。本文将以某供应商平台的反爬实践为例，深入剖析JS逆向字体反爬技术，并提供详细的技术指南，助力开发者突破反爬障碍。

JS逆向字体反爬原理

JS逆向字体反爬的基本原理是：

网页使用JavaScript动态加载字体文件。
字体文件中包含要显示的字符，但这些字符被加密或变形处理。
浏览器在渲染网页时，会执行JavaScript代码，逆向解析字体文件，还原字符信息。

供应商平台反爬实践

某供应商平台采用了JS逆向字体反爬技术，主要流程如下：

加载字体文件： 平台使用JavaScript动态加载一个字体文件（font.ttf）。
逆向解析字体： 加载字体文件后，浏览器执行JavaScript代码，对字体文件进行逆向解析。
提取字符： 解析字体文件后，JavaScript代码提取出加密或变形处理的字符。
还原字符： JavaScript代码对提取出的字符进行还原，得到最终要显示的字符。

技术指南

步骤 1：抓取字体文件

使用Selenium等浏览器自动化工具抓取网页，获取加载的字体文件（font.ttf）。

步骤 2：反编译JavaScript代码

使用JavaScript反编译工具（如JSFuck）对抓取的JavaScript代码进行反编译，还原原始代码。

步骤 3：分析字体解析逻辑

仔细分析反编译后的JavaScript代码，找出逆向解析字体文件的逻辑。
确定哪些函数和变量负责加载、解析和提取字体字符。

步骤 4：提取加密字符

在逆向解析字体文件的逻辑中，找到提取加密字符的函数或变量。
提取出这些加密字符。

步骤 5：还原字符

根据供应商平台使用的加密或变形处理方式，编写代码还原加密字符。
可能需要尝试不同的还原算法，直到成功还原所有字符。

示例代码

import base64

# 加载字体文件
with open("font.ttf", "rb") as f:
    font_data = f.read()

# 反编译JavaScript代码
with open("script.js", "r") as f:
    script = f.read()

deobfuscated_script = deobfuscate(script)

# 提取加密字符
char_map = {}
for line in deobfuscated_script.split("\n"):
    if line.startswith("char_map["):
        char, code = line.split(" = ")
        char_map[code] = char.strip("'")

# 还原字符
with open("output.txt", "w") as f:
    for code in font_data:
        f.write(char_map[code])