浅谈灾难恢复的2个目标:恢复时间目标(RTO)和恢复点目标(RPO)
如今,灾难以多种形式出现。破坏、盗窃、遗失或自然灾害都会使企业的应用程序崩溃并破坏其数据。在理想的情况下,企业的数据保护基础设施可以立即在故障点时间恢复所有的应用程序和数据。
企业可以立即切换故障应用程序,并连续复制其数据以实现接近零的损失。但是这些操作耗费资源并且很昂贵。实际上,IT部门需要根据预算、资源和应用优先级来设置不同的恢复时间和恢复点目标。
人们将这两个目标称为恢复时间目标(RTO)和恢复点目标(RPO)。它们是相关的,并且这两者都是应用程序和数据恢复所必需的。它们也是不同用途的度量指标。以下讨论一下它们是什么,它们的相似之处和不同之处,以及为什么需要分析应用程序的优先级来平衡资源和应用程序的可用性。
定义RTO和RPO
(1)RTO:恢复时间目标
RTO指的是应用程序可以中断或关闭多少时间而不会对业务造成重大损害。有些应用程序可能会停机数天而不会产生严重的后果。而一些高优先级的应用程序只能停下来几秒钟,否则将会让企业和客户难以应对,并导致业务丢失。
RTO不仅仅是业务损失和恢复之间的持续时间。这个目标还包括IT部门必须采取的步骤来恢复应用程序及其数据。如果IT已经投入高优先级应用程序的故障转移服务,那么它们可以在几秒钟内安全地表达RTO(IT部门必须恢复本地环境,但由于应用程序正在云中进行处理,因此IT部门可能需要一些时间)。
企业的RTO任务是根据优先级和潜在业务损失对应用程序进行分类,并相应地匹配企业的资源。例如,接近零的RTO的典型计划将需要故障转移服务。4小时RTO允许从裸机恢复开始进行本地恢复,并以完整的应用程序和数据可用性结束。对于8小时以上的RTO,IT团队可以与本地系统集成商签署维护合同。
(2)RPO:恢复点目标
恢复点目标是指企业的损失容限:在对业务造成重大损害之前可能丢失的数据量。该目标表示为从丢失事件到最近一次在前备份的时间度量。
如果以定期计划的24小时增量备份全部或大部分数据,那么在最坏的情况下,企业将丢失24小时的数据。对于某些应用来说,这是可以接受的,对于其他人来说并不是这样。
例如,如果企业的应用程序具有4小时RPO,那么备份和数据丢失之间的最大间隔时间将为4小时。拥有4小时的RPO并不一定意味着企业将失去4小时的数据。例如一个文字处理应用程序在午夜停止运行并在凌晨出现故障,那么可能没有丢失太多(或任何)数据。但是如果一个任务繁忙的应用程序在上午10点关闭并且直到下午2点才恢复,那么企业可能会失去4个小时的高价值并且可能无法替代的数据。在这种情况下,需要进行更加频繁的备份,以便访问特定于应用程序的RPO。
这取决于应用优先级,单个RPO的范围通常为24小时、12小时、8小时、4小时。以秒为单位测量到接近零。只要对生产系统的影响最小,8小时以上的RPO就可以利用现有的备份解决方案。4小时的RPO将需要计划的快照复制,而接近零的RPO将需要连续复制。在RPO和RTO都接近于零的情况下,将连续复制与故障转移服务结合使用,以实现接近100%的应用程序和数据可用性。
RTO和RPO如何相似以及不同的原因
(1)RTO和RPO的几个特征
(2)RTO和RPO的目标存在巨大的差异
尽管它们有相似之处,但RPO和RTO服务于不同的目标。RTO涉及应用程序和系统,但主要描述应用程序停机时间的限制。
RPO主要与失败事件后丢失的数据量有关。但是,损失数十万美元的客户交易将是灾难性的后果。
RTO和RPO在行动中的实例
为了保持高可用性,这家商店采用了故障转移服务,因此数据库立即在虚拟服务器上运行。该公司将其在一周内进行的少量更改复制到其提供商的灾难恢复平台。API数据库包含订购信息,并且需要几秒钟才能完成RPO和RTO。 IT部门不断地将数据复制到故障转移站点,如果API数据库停机,该站点将立即接管处理。
成本考虑
调查表明,年收入1亿美元的公司在24小时宕机期间将损失约275,000美元。而将在4小时快照复制计划中损失约45,000美元,使用接近于零的连续复制的损失约为7600美元。
实际上,这个数量可能会更小或更大,具体取决于企业一天中的时间和应用程序活动。繁忙的任务或业务关键应用程序会比不太频繁的应用程序丢失更多的数据和更高优先级的数据。
企业需要相应地规划RPO和RTO,并在需要之前购买所需的资源。就像购买保险一样,企业可能永远不必使用它们,但可能会挽救其业务。