时间准度对数据中心的重要性

简介:

俗话说“失之毫厘,谬以千里”,时间的精准度对于我们的工作、生活都非常重要。2000年的千年虫事件以及2017年元旦全球多一秒事件,都引起了人们的高度关注,尤其是数据中心行业。数据中心里很多系统都依赖时间来正常运行,人们要认真评估这一时间变化对内部运行设备的影响,如果设备不能够自行调整时间,则就会与实际时间产生偏差,因此而带来一系列误判,导致问题。所以,时间精准度对于数据中心来讲是非常重要的参量。

数据中心的时间有两个维度含义,一个是相对时间。比如很多的网络设备要启用OSPF、ARP、MAC等各种协议,每种协议都有各种各样的定时器,以便实时判断协议状态是否有变化。OSPF邻居要通过一定间隔时间收发Hello报文保持邻居状态为Full,一旦超过三个Hello报文的发送时间间隔,一个Hello报文也没有收到,就认为这个邻居状态发生了变化,邻居状态由Full切换到Init或Down,记录Hello报文超时的时间定时器要准确,周期性地记录每个Hello报文的收时间,以便统计准确;另一个是绝对时间,就是北京标准时间,每天我们在新闻联播时看到的时间,2000年的千年虫事件以及2017年元旦全球多一秒事件都说的是这个时间。数据中心有很多设备,这些设备运行中会产生很多的日志和告警信息,所有的信息都有时间纪录,只有这个时间准确,才能通过这些时间来进行分析问题。比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确运行时间,就无法判断哪些信息是中断时报出的,哪些信息与故障有关,故障将很难分析出结果,所以绝对时间也非常重要。

无论是相对时间,还是绝对时间,对于数据中心运行都非常重要,同时也要保证两个时间的准度,如果精度太差,也会产生不少问题。上面也有介绍,会导致网络协议的各种定时器判断不准确,发生故障时无法明确哪些是故障时间报出的,这只是举个示例,其实还有更多的方面。如果相对时间不准,误差大,服务器上的应用系统也会出问题,如果要是银行的存取款业务系统,每存一笔钱时间都慢慢将误差拉大,可能到最后,连储户上的钱数数据记录都出现错误,甚至出现丢失的情况。如果相对时间不准,二三层转发网络,表项老化的时间都不一致,有长有短,导致表项学习不稳定,流量转发出现丢包,严重的会导致表项无法学习,造成网络中断;如果是绝对时间不准,数据中心所有设备记录的信息都是不准确的,各个设备之间的信息也没有可对比性,相互之间的影响和作用就无法从时间轴上分得清楚。在一些重要变更和操作时,由于绝对时间的不准确,会导致操作的时机不是最优的,在变更和设备准确上不同步,从而会产生这样那样的问题。

既然时间准度对数据中心这么重要,那就要提升时间准度了。不过,提升时间准度可不是一件轻松的事儿。首先,对于相对时间,这个和北京时间无关,与个体设备有关,这个只能靠设备内部的实现来保证。很多网络设备在内部会设定很多定时器,这些定时器专门记录各种协议的运行时间,以便判断协议的状态是否正常,这个时间一般通过CPU的晶振频率计算获得。这样相对时间的准确度和设备的CPU性能有很大关系,往往是越高端的设备采用的CPU晶振频率越准,当然这类设备的价格也要高很多。其次,对于绝对时间,为保证数据中心内部所有设备的时间一致,可以通过将所有设备的时间对一遍,尽量做到时间同步,不过每个设备的时间准度不同,有的设备运行个一年半载,偏差可能达到数十秒,而有的设备偏差却很小,这样虽然当初时间都对过,不同设备的运行时间是一致的,随着运行时间越来越长,误差变得越来越大,所以这种方式不可行。更多的数据中心是通过设定一个NTP服务器,这个服务器可以是网络设备也可以服务器,甚至是专用的授时设备,然后数据中心里所有设备都通过这台设备来获取时间,从而整个数据中心里的设备运行时间是完全一致的。如果采用一般的网络设备做NTP服务器,运行个几个月,这些服务器运行时间与实际时间偏差可能达到数十秒,虽然这些时间偏差比较大,但仍能保证这些设备之间的相对时间是一致的,并不妨碍各种工作的开展,包括问题定位。不过,有的时候数据中心业务对时间要求比较高,这时就需要使用专用的授时设备做NTP服务器。授时设备运行时间误差小,精度可以达到毫秒甚至微秒级,与北京时间保持完全一致,即使运行时间久了,偏差也在微秒级,这就保证了数据中心里所有设备与实际北京时间完全一致,避免因为时间不准确,导致这样那样的问题。除了授时系统,还有时间频率基准,守时用原子钟,星载原子钟等技术,采用这些技术都可以大幅提升数据中心的时间准度。

时间准度已经成为数据中心运行中至关重要的参量,一切的数据中心活动都和时间准度有密切关系。数据中心对高精度时间频率的需求越来越强烈,需要一系列精度越来越高的计时器具,同时要在各个设备之间做好时间同步工作,保持设备之间时间的一致性,以便于开展各种数据中心运维工作。


作者:佚名

来源:51CTO

相关文章
|
11月前
|
机器学习/深度学习 人工智能 供应链
IT领导者影响可持续发展计划的9种方式
IT领导者影响可持续发展计划的9种方式
|
安全 测试技术 应用服务中间件
持续测试之下的正确质量度量
持续测试之下的正确质量度量
247 0
持续测试之下的正确质量度量
|
机器学习/深度学习 人工智能 监控
AIOps对数据中心意味着什么
在当前的现代化时代,数据中心技术由云计算、内部部署技术、以及IT管理方法的组合组成,IT运营团队正在努力适应这一新的现实,并应对由此带来的日益增加的复杂性。
176 0
|
新零售 搜索推荐
分众客户结构改善明显,回暖只是时间问题
分众客户结构改善明显,回暖只是时间问题
141 0
分众客户结构改善明显,回暖只是时间问题
|
运维 安全 数据挖掘
寻找新冠致重症因素,如何通过云计算将分析时间缩短80%以上?
阿里云高性能计算团队协助中山大学使用阿里云高性能计算服务进行生物信息科学计算,在性能与资源的双重支持下,原本每个病例的测序结果需要 12 个小时左右的分析时间,在阿里云上缩减到了 2 个小时,大大提高了工作效率。
寻找新冠致重症因素,如何通过云计算将分析时间缩短80%以上?
|
网络协议 数据中心 运维