Nacos 2.0.3 版本线上 Bug 引发的集群故障与业务系统故障的解决方案

2023-03-09 05:29:42

Nacos：线上 Bug 分析与解决方案

前言

Nacos 是一款流行的分布式服务发现平台，然而，在实际使用中难免会遇到问题。本文将深入分析 Nacos 2.0.3 版本中一个导致集群挂掉的线上 Bug，并提供解决方案和预防措施。

问题现象

在 Kubernetes 中部署 Nacos 服务时，用户遇到服务启动后反复挂掉的情况。升级到 Nacos 2.0.3 版本后，部署在 Kubernetes 中的 Nacos 集群节点重启后会导致 Pod IP 改变，触发 Nacos 的 JRaft 选主失败，导致集群脑裂，造成应用服务发现故障，最终导致业务系统挂掉。

问题分析

分析发现，问题根源在于 Nacos 2.0.3 版本中的一个 Bug。当 Nacos 集群中的某个节点重启后，它的 Pod IP 会发生变化。而 Nacos 2.x 的 JRaft 选主机制中，关键步骤之一是通过 IP 地址确定主节点。因此，当 Pod IP 发生变化后，JRaft 选主就会失败，导致 Nacos 集群脑裂。

解决方案

为了解决这个问题，需要对 Nacos 集群进行如下配置：

在 Nacos 配置文件中，设置 serverAddr 参数为集群中所有节点的 IP 地址，并用逗号分隔。
在 Kubernetes 中，将 Nacos 服务设置为 Headless Service。
在 Kubernetes 中，为 Nacos 服务创建一个 Persistent Volume Claim (PVC)，并将其挂载到 Nacos Pod 中。

代码示例

以下示例配置演示了如何在 Kubernetes 中部署 Nacos 集群，解决 Pod IP 改变导致的 JRaft 选主失败问题：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nacos
  labels:
    app: nacos
spec:
  selector:
    matchLabels:
      app: nacos
  template:
    metadata:
      labels:
        app: nacos
    spec:
      containers:
        - name: nacos
          image: nacos/nacos-server:2.0.3
          ports:
            - containerPort: 8848
              name: http
          env:
            - name: MODE
              value: "standalone"
            - name: JRAFT_SERVER_ADDRS
              value: "192.168.1.100:8848,192.168.1.101:8848,192.168.1.102:8848"
---
apiVersion: v1
kind: Service
metadata:
  name: nacos
  labels:
    app: nacos
spec:
  type: Headless
  selector:
    app: nacos
  ports:
    - port: 8848
      targetPort: 8848
      name: http