给表情一个合适的“脸谱”

前端

2023-09-02 18:22:07

近日，同事小李气急败坏地找到我，说是给团队提了一个bug，“在长度限定的文本区域，输入表情时会展示乱码”。

面对小李的困惑，我却产生了一些兴趣：

这些表情是什么东西？
这些表情的“脸谱”又是由什么决定的？
为什么会出现乱码？

一番思考后，我决定就从JS使用的编码方式说起。

JS使用的编码方式

如今，我们所使用的JS都是由浏览器进行编译执行的，而浏览器所支持的编码方式主要有两种：

ASCII

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码），是一种单字节的字符编码方式，它主要用于表示英语中的字符。

Unicode

Unicode是一种多字节的字符编码方式，它可以表示世界上绝大多数语言的字符。Unicode的编码空间非常大，可以容纳超过100万个字符，因此它可以满足不同语言的需求。

表情的“脸谱”：字符编码

在JS中，字符串本质上是一个字符数组，每个字符对应一个字节。表情符号实际上是由一个或多个字符组成的。

字符编码就是将字符映射到字节序列的过程。不同的字符编码方式，会使用不同的字节序列来表示同一个字符。

当我们使用JS编写代码时，浏览器会自动将我们的代码转换为字节序列，然后执行这些字节序列。如果浏览器使用的是ASCII编码方式，那么它将无法识别表情符号，因为ASCII编码方式不支持表情符号。

此时，为了正常显示表情符号，我们就需要使用一种支持表情符号的字符编码方式，比如Unicode。

Unicode 编码的存储方式

Unicode编码的存储方式有两种：

UTF-8
UTF-16

UTF-8是一种可变长度的字符编码方式，它可以使用1到4个字节来表示一个字符。UTF-8是目前最广泛使用的Unicode编码方式，它可以在大多数计算机和设备上使用。

UTF-16是一种定长的字符编码方式，它使用2个字节来表示一个字符。UTF-16主要用于Windows系统和一些编程语言中。

表情编码的乱码

表情编码的乱码通常是由于以下几种原因造成的：

字符编码不一致

当发送方和接收方使用的字符编码方式不一致时，就会出现乱码。例如，如果发送方使用的是Unicode编码方式，而接收方使用的是ASCII编码方式，那么接收方就会看到乱码。

字符集不一致

字符集是指一组字符的集合。不同的字符集包含不同的字符。当发送方和接收方使用的字符集不一致时，就会出现乱码。例如，如果发送方使用的是Unicode字符集，而接收方使用的是GB2312字符集，那么接收方就会看到乱码。

字符编码错误

当字符编码错误时，也会出现乱码。例如，如果发送方使用的是UTF-8编码方式，但是将字符“😂”编码成了“\uD83D\uDE02”，那么接收方就会看到乱码。

避免乱码的措施

为了避免乱码，我们可以采取以下措施：

使用统一的字符编码方式

发送方和接收方应使用统一的字符编码方式。例如，如果发送方使用的是Unicode编码方式，那么接收方也应使用Unicode编码方式。

使用统一的字符集

发送方和接收方应使用统一的字符集。例如，如果发送方使用的是Unicode字符集，那么接收方也应使用Unicode字符集。

正确地编码字符

发送方应正确地编码字符。例如，如果发送方使用的是UTF-8编码方式，那么应将字符“😂”编码成“\xF0\x9F\x98\x82”，而不是“\uD83D\uDE02”。

通过以上措施，我们可以有效地避免乱码的出现。

除了上述内容，我还对Unicode和UTF-8的异同做了一些整理：

特点	Unicode	UTF-8
类型	字符编码标准	Unicode的实现方式
字节长度	可变长度	可变长度
支持字符数量	超过100万个	超过100万个
应用场景	国际化、多语言处理	互联网、操作系统、编程语言

总之，理解表情编码和乱码的背后原理，对我们日常的开发工作非常有帮助。希望这篇文章能帮助大家更好地理解字符编码，并避免乱码的出现。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

给表情一个合适的“脸谱”

JS使用的编码方式

表情的“脸谱”：字符编码

Unicode 编码的存储方式

表情编码的乱码

避免乱码的措施

Kyle

微前端让前端项目如虎添翼，看看我是如何落地生产项目的

WebGL 第 14 课：从向量到矩阵

浩瀚星海，科技引航：探索SpaceX前端架构的非凡旅程

浅析层合成：提升页面性能的利器

释放JS动画的潜力：AEJoy助您掌握表达式控制之精髓！