2024年Amazon Aurora 数据库高可用及容灾白皮书.pdf

2024年Amazon Aurora 数据库高可用及容灾白皮书.pdf

Amazon Aurora 是一款全托管的关系型数据库,与 MySQL 和 PostgreSQL 完全兼容,提供超高性能和全球规模的可用性。它旨在以十分之一的成本提供媲美商业数据库的性能。本白皮书探讨了 Amazon Aurora 提供的高可用性和容灾能力,展示了如何构建具有韧性的全球化应用程序的设计模式。

Amazon Aurora 的存储子系统是分布式的,采用六副本方式,在三个可用区复制数据,即使在整个可用区故障的情况下也能确保数据完整性。Aurora 提供单区域和跨区域的高可用性 (HA) 和容灾 (DR) 能力。在单区域内,多可用区 Aurora 数据库集群由一个写入实例和至少一个只读实例组成,提供 99.99% 的 SLA。Aurora 会自动检测写入实例中断,并故障转移到只读实例。

Amazon Aurora Global Database 实现了数据库集群跨多个区域运行,采用异步复制,延迟通常不到1秒。在主区域发生故障时,可以将备区域提升为承担读/写处理的主区域,实现分钟级 RTO 和 1 秒 RPO。Global Database 还支持 Global Database Switchover 和 Failover,以及 headless 集群配置,以满足不同的容灾需求。

高可用性是指系统在硬件、软件或网络故障时,以最少或无需人工介入的方式确保服务等级协议规定的运行性能。容灾是指企业在灾难发生后恢复 IT 基础设施访问和功能的方法。设计容灾流程时,需要考虑恢复时间目标 (RTO) 和恢复点目标 (RPO)。

监控 Amazon Aurora 环境的关键 CloudWatch 指标包括 AuroraReplicaLag、CPUUtilization 和 DatabaseConnections 等。Amazon Aurora 还提供多种可观察性工具,包括 Amazon CloudWatch Logs、增强监控和 Amazon RDS Performance Insights。

最佳实践包括:根据业务需求制定容灾策略,指定 RTO 和 RPO,制定与 RTO 和 RPO 相匹配的高可用性和容灾策略,编写并测试流程文档,定期测试和审查流程。

常见的高可用性和容灾使用场景包括:多区域应用程序通过容灾区域实现读/写能力,节省容灾成本,限制最大 RPO 损失,以及满足容灾测试的监管合规性要求。

在打补丁、升级和重大 Schema 变更期间,Amazon Aurora 蓝/绿部署提供托管式解决方案,极大简化了复制流程,有助于减少停机时间。

在线阅读 下载完整报告 | 3.43 MB | 33页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告