告别转义序列：使用 JSON.dumps() 轻松保存 UTF-8 文本

2024-03-09 09:32:22

告别转义序列：使用 JSON.dumps() 优雅保存 UTF-8 文本

引言

处理文本数据时，将对象序列化为 JSON 字符串是常见的需求。然而，默认情况下，json.dumps() 函数将非 ASCII 字符转换为令人头疼的 \uXXXX 转义序列。这使得 JSON 文件难以阅读和编辑。

本指南将深入探讨如何使用 json.dumps() 保存 UTF-8 文本，避免这些恼人的转义序列，让你的 JSON 文件更加清晰易读。

以下代码段展示了使用 json.dumps() 序列化希伯来语文本时产生的问题：

import json

# 默认设置下使用 json.dumps() 序列化希伯来语文本
json_string = json.dumps("ברי צקלה")

# 输出包含转义序列的 JSON 字符串
print(json_string)

输出：

"\"\\u05d1\\u05e8\\u05d9 \\u05e6\\u05e7\\u05dc\\u05d4\""

正如你所见，希伯来语文本被编码为一系列不可读的转义序列，这对于任何人来说都很难理解。

解决此问题的关键在于 JSON 编码。JSON 编码将 Unicode 字符表示为 UTF-8 字节序列，直接存储在 JSON 字符串中。这样可以避免使用转义序列，使 JSON 文件更加易读。

json.dumps() 函数包含一个名为 ensure_ascii 的参数。默认情况下，它设置为 True，表示非 ASCII 字符将编码为转义序列。要禁用此行为，只需将 ensure_ascii 设置为 False：

# 使用 ensure_ascii=False 保存 UTF-8 文本
json_string = json.dumps("ברי צקלה", ensure_ascii=False)

# 输出包含 UTF-8 字节序列的 JSON 字符串
print(json_string)

输出：

"ברי צקלה"

现在，希伯来语文本以 UTF-8 字节序列的形式存储在 JSON 字符串中，无需转义序列。

通过利用 ensure_ascii=False 参数，你可以使用 json.dumps() 轻松保存 UTF-8 文本，告别繁琐的转义序列。这极大地提高了 JSON 文件的可读性和可编辑性，尤其是在处理非 ASCII 字符时。

为什么 JSON 编码比转义序列更好？
- JSON 编码更易于阅读和理解，因为它使用 UTF-8 字节序列直接表示 Unicode 字符。
何时应该使用 ensure_ascii？
- 仅当你明确需要转义序列时才使用 ensure_ascii=True。例如，在某些旧系统或应用程序中，需要使用转义序列。
将非 ASCII 字符存储为 UTF-8 字节序列有什么好处？
- 它节省了空间，因为 UTF-8 字节序列通常比转义序列更紧凑。
除了 ensure_ascii，json.dumps() 中还有哪些其他参数与编码相关？
- 还有其他参数，例如 encoding（用于指定输出字符编码）和 sort_keys（用于控制 JSON 对象中键的排序）。
为什么 json.dumps() 默认情况下使用转义序列？
- 历史原因。JSON 规范最初仅支持 ASCII 字符。为了保持向后兼容性，json.dumps() 默认情况下使用转义序列来表示非 ASCII 字符。