LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 区块链资产 > [Coinbase] 事故尸检:2021 年 11 月 23 日

[Coinbase] 事故尸检:2021 年 11 月 23 日

2021-12-22 wanbizu AI 来源:区块链网络

概括

在太平洋时间 11 月 23 日(星期二)下午 4:00 到大约下午 5:36 之间,我们的大多数 Coinbase 生产系统都发生了中断。 在这次中断期间,用户无法使用我们的网站和应用程序访问 Coinbase,因此无法使用我们的产品。 这篇文章旨在描述发生了什么和原因,并讨论我们计划如何在未来避免此类问题。

事件

2021 年 11 月 23 日,太平洋时间下午 4 点(UTC 时间 2021 年 11 月 24 日 00:00),我们的一个亚马逊网络服务 (AWS) 帐户中的内部主机名的 SSL 证书过期。 我们的许多内部负载平衡器都使用了过期的 SSL 证书,这导致大多数服务间通信失败。 由于我们的 API 路由层通过这个内部主机名的子域连接到后端服务,大约 90% 的传入 API 流量返回错误。

一旦我们能够将所有负载均衡器迁移到有效证书,错误率就会恢复正常。

图表描绘了事件持续时间内我们 API 路由层的总体错误率 90%。

背景:Coinbase 的证书

提供一些关于我们如何在 Coinbase 管理 SSL 证书的背景信息很有帮助。 在大多数情况下,像 coinbase.com 这样的公共主机名的证书由 Cloudflare 管理和提供。 对于用于在后端服务之间路由流量的内部主机名证书,我们历来利用 AWS IAM 服务器证书。

IAM 服务器证书的缺点之一是证书必须在 AWS 之外生成并通过 API 调用上传。 所以去年,我们的基础设施团队从 IAM 服务器证书迁移到 AWS Certificate Manager (ACM)。 ACM 解决了安全问题,因为 AWS 在 ACM 中生成证书的公共和私有组件,并为我们将加密版本存储在 IAM 中。 只有 Cloudfront 和 Elastic Load Balancer 等连接的服务才能访问证书。 拒绝所有 AWS IAM 角色的 acm:ExportCertificate 权限可确保它们无法导出。

除了增加的安全优势外,ACM 还会在证书到期前自动续订。 鉴于 ACM 证书应该更新并且我们进行了迁移,这是怎么发生的?

根本原因分析

事件响应者很快注意到过期的证书是 IAM 服务器证书。 这是出乎意料的,因为前面提到的 ACM 迁移在当时的工程通信渠道中已经被广泛宣传; 因此,我们一直在假设我们只在 ACM 证书上运行。

正如我们后来发现的,其中一个证书迁移没有按计划进行; 负责迁移的工程师组上传了新的 IAM 证书并推迟了迁移的其余部分。 不幸的是,延迟并没有得到应有的广泛沟通,团队结构和人员的变化导致项目被错误地假设为完成。

撇开迁移状态不谈,您可能会问我们问自己的同样问题:“为什么我们没有收到此即将到期证书的警报?” 答案是:我们是。 警报被发送到一个电子邮件通讯组,我们发现该通讯组仅由两个人组成。 这个群体原本较大,但随着团队成员的离开而缩小,并且随着新人加入团队而从未充分重新填充。

简而言之,由于所有三个因素,关键证书被允许过期:

IAM 到 ACM 的迁移不完整。 到期警报仅通过电子邮件发送并被过滤或忽略。 只有两个人在电子邮件分发名单上。

解决和改进

为了解决该事件,我们将所有使用过期 IAM 证书的负载均衡器迁移到了作为原始迁移计划的一部分提供的现有自动更新 ACM 证书。 由于涉及的负载均衡器数量多,以及我们在定义、测试和应用所需的基础架构更改时的谨慎态度,这花费的时间比预期的要长。

为了确保我们不会再次遇到这样的问题,我们采取了以下步骤来解决上面 RCA 部分中提到的因素:

我们已完成向 ACM 的迁移,不再使用 IAM 服务器证书,并且正在删除所有旧证书以减少干扰。 我们正在添加连接到我们的警报和寻呼系统的自动监控,以增强电子邮件警报。 这些将在即将到期以及 ACM 证书退出自动续订资格时显示。 我们已将永久组别名添加到电子邮件分发列表。 此外,该组会在员工加入和离开公司时自动更新。 我们正在构建一个事件修复操作存储库,以减少定义、测试和应用新更改的时间。

我们非常重视基础设施的正常运行时间和性能,我们正在努力支持数百万选择 Coinbase 来管理其加密货币的客户。 如果您有兴趣解决此处列出的挑战,请与我们合作。

事件验尸报告:2021 年 11 月 23 日最初发表在媒体上的 Coinbase 博客上,人们通过突出显示和回应这个故事来继续对话。

>> 在 Coinbase 上查看

加入我们的 Telegram

在推特上关注我们

在 Facebook 上关注我们

帖子 [Coinbase] 事件验尸报告:2021 年 11 月 23 日首次出现在 AZCoin 新闻上。

—-

原文链接:https://azcoinnews.com/coinbase-incident-post-mortem-november-23-2021.html

原文作者:Coinbase News

编译者/作者:wanbizu AI

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

LOADING...
LOADING...