A. 灾备中经常提到的RTO和RPO是什么意思
RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量,指灾难发生后,从IT系统宕机导致业务停顿之时开始,到IT系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段称为RTO,广道容灾备份系统RTO达到分钟级。
RTO(Recovery Time Objective):即恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。
指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度,这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。
RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。
系统选择
在选择容灾系统的构造时,还要建立多层次的广域网络故障切换机制。本地的高可用系统指在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。
在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。
也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。
以上内容参考:网络-灾备、网络-容灾系统
B. 灾备中经常提到的RTO和RPO是什么意思
RTO(Recovery Time Objective,RTO)恢复时间目标,指在故障或灾难发生之后,一台电脑、系统、网络或应用停止工作的最高可承受时间。该参数定义了最大可容忍时限,必须在此时限内恢复数据。如果说系统需要在灾难发生的12个小时内恢复,那么RTO数值就是12小时。RTO具体时间长短只是从故障发生后,从系统宕机导致业务中断的那一刻开始,到系统恢复至可以支持各业务正常运作之时,这两个节点之间的时间段。RTO是反映系统业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强。RTO=0就意味着在任何情况下都不允许目标业务有任何运营停顿。
RPO(Recovery Point Object)恢复点目标,指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点,是业务系统所能容忍的数据丢失量。例如每天00:00进行数据备份,那么如果今天发生了宕机事件,数据可以恢复到的时间点(RPO)就是今天的00:00,如果凌晨3点发生灾难或宕机事件,损失的数据就是三个小时,如果23:59发生灾难,那么损失的数据就是约24小时,所以该用户的RPO就是24小时,即用户最大的数据损失量是24小时。所以RPO指的是用户允许损失的最大数据量。这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO指标主要反映了业务连续性管理体系下备用数据的有效性,即RPO取值越小,表示系统对数据完整性的保证能力越强。
RTO和RPO指标并不是孤立的,而是从不同角度来反映数据中心的容灾能力。