巧妙融合 JS、麦克风、PCM 和 WebSocket：实时音频流传输

2023-11-22 09:08:57

前言

在现代互联世界的洪流中，实时音频流传输扮演着举足轻重的角色，从视频会议到语音聊天，无所不在。本文将深入剖析如何巧妙融合 JavaScript（JS）、麦克风、PCM 格式以及 WebSocket，实现实时音频流从采集到传输的无缝衔接。

JS 与麦克风：开启声音之旅

JS，作为 Web 开发领域的中流砥柱，提供了对麦克风设备的访问接口。通过利用 navigator.mediaDevices.getUserMedia()，我们可以轻松获取用户的麦克风输入。该接口会返回一个 MediaStream 对象，其中包含着来自麦克风的音频数据。

PCM 格式：数字音频的基石

PCM（脉冲编码调制）是一种广泛用于数字音频表示的格式。它将模拟音频信号转换为一系列二进制数字，从而实现高效存储和传输。

WebSocket：实时通信的利器

WebSocket 是一种全双工通信协议，可建立持久连接，在浏览器和服务器之间实现双向数据交换。它的低延迟和高可靠性使其成为实时音频流传输的理想选择。

将它们融合：实时音频流传输

通过将这些元素巧妙融合，我们可以构建一个实时音频流传输系统。大致流程如下：

使用 JS 获取麦克风输入并转换成 PCM 格式。
将 PCM 数据通过 WebSocket 传输到服务器端。
服务器端接收并处理音频数据，进行存储、转码或其他操作。

技术细节：深入浅出

JS 脚本：

navigator.mediaDevices.getUserMedia({ audio: true })
  .then(stream => {
    // 获取麦克风输入，将其转换为 PCM 数据
  })
  .catch(error => {
    // 处理错误，例如麦克风不可用
  });

WebSocket 连接：

const socket = new WebSocket('ws://your-server.com/audio');

// 当收到服务器消息时执行此函数
socket.onmessage = (event) => {
  // 处理服务器返回的数据
};

// 打开 WebSocket 连接时执行此函数
socket.onopen = () => {
  // 开始发送 PCM 数据
};

服务器端处理：

服务器端代码会接收 WebSocket 传输的 PCM 数据，进行必要的处理，例如：

# 使用 PyAudio 库接收和处理 PCM 数据
import pyaudio

p = pyaudio.PyAudio()

stream = p.open(format=pyaudio.paInt16,
                 channels=1,
                 rate=8000,
                 input=True,
                 frames_per_buffer=1024)

while True:
    data = stream.read(1024)
    # 将数据发送到数据库或进行其他处理

实际应用场景

这种实时音频流传输系统在多种应用场景中大放异彩：