返回

当“双 11”遭遇阿里云大宕机:痛定思痛,化危为机

后端

阿里云双 11 故障:技术风险警钟,化危为机

故障成因与影响

双 11 这场购物狂欢的盛宴中,阿里云突遭故障,波及范围之广,让许多人印象深刻。此次故障的罪魁祸首是杭州可用区的部分云服务器网络抖动,导致了盘古分布式存储文件系统的故障。

共享块存储是许多云服务器系统盘和数据盘的存储方式,故障发生后,大量云服务器无法正常访问这些数据,进而影响了天猫、淘宝、饿了么等阿里系热门业务。受影响的业务主要集中在电商、物流、餐饮、视频、音乐等领域。

应急响应与整改

阿里云在故障发生后迅速启动了应急响应机制,紧急修复了故障,并在当日 23 时 35 分全面恢复了服务。故障后,阿里云成立了故障调查组,制定了后续整改措施,包括加强盘古文件系统的稳定性、优化故障处理机制、加强应急演练等。

化危为机:企业应对技术风险的思考

阿里云这次故障给我们敲响了警钟,也提供了宝贵的思考素材:

  • 云计算时代的技术风险无处不在: 越来越多的企业将业务和数据迁移到云端,而技术风险也随之而来。企业必须时刻警惕并采取相应措施。
  • 业务连续性至关重要: 在发生技术故障或其他突发事件时,确保业务正常运转至关重要。企业需要制定周全的业务连续性计划。
  • 云服务商的选择尤为关键: 选择一家可靠的云服务商至关重要。企业在选择时应考虑云服务商的技术实力、服务质量和应急响应能力。
  • 企业自身也要做好准备: 除了依赖云服务商提供的服务,企业自身也要做好应对技术风险的准备,定期备份数据,制定应急预案。

代码示例:

Python 代码示例:

import boto3

# 创建一个 Amazon EC2 客户端
ec2 = boto3.client('ec2')

# 获取杭州可用区的实例列表
instances = ec2.describe_instances(
    Filters=[
        {
            'Name': 'availability-zone',
            'Values': ['cn-hangzhou-b'],
        },
    ]
)

# 遍历实例并检查网络抖动
for reservation in instances['Reservations']:
    for instance in reservation['Instances']:
        # 检查网络抖动
        if instance['State']['Name'] == 'running' and instance['NetworkInterfaces'][0]['Status'] == 'ok':
            print(f'实例 {instance['InstanceId']} 网络正常.')
        else:
            print(f'实例 {instance['InstanceId']} 网络存在抖动.')

常见问题解答

  1. 此次故障的原因是什么?

故障的直接原因是杭州可用区的某些云服务器出现网络抖动,导致盘古分布式存储文件系统出现故障。

  1. 故障影响了哪些业务?

故障影响了天猫、淘宝、饿了么、盒马鲜生、钉钉、飞猪、优酷、虾米音乐等阿里系头部业务,主要集中在电商、物流、餐饮、视频、音乐等领域。

  1. 阿里云是如何应对故障的?

阿里云第一时间启动了应急响应机制,快速定位故障原因,紧急修复故障,并于当日 23 时 35 分全面恢复服务。

  1. 阿里云制定了哪些后续整改措施?

阿里云成立了故障调查组,制定了后续整改措施,包括加强盘古文件系统的稳定性、优化故障处理机制、加强应急演练等。

  1. 企业应该如何应对技术风险?

企业应时刻警惕技术风险,制定周全的业务连续性计划,选择可靠的云服务商,并自身做好备份和应急预案。