超融合数据中心如何提升业务系统连续性?
对于数据中心来说,业务连续性是第一关注对象。极端挑战下,哪种数据中心架构更能保障业务系统的稳定?超融合的高可用性首屈一指,市面上不同的超融合产品都是如何保障应用的连续运行呢?
传统的IT基础架构通过裸机方式直接承载业务系统,大量离散的裸机资源拉高了整体管理成本,降低了IT资源利用率,缺乏灵活性的架构亦导致无法构建标准化的IT服务流程。另一方面,对于复杂的业务系统而言,一旦遭受不可预知故障,业务恢复时间远高于其它系统,而且恢复过程需要大量人工干预,管理成本和运维风险急剧增高。
服务器虚拟化架构以VMware/KVM为代表技术,通过整合多台物理裸机的CPU资源和内存资源,采用虚拟机集群的方式承载业务,不仅大幅度提升计算资源的利用率,也极大地缩短了业务上线时间以及业务恢复时间。然而,虚拟化数据中心依赖传统的磁盘阵列提供性能和数据安全保障,采购成本高,运维复杂,而且因其扩展性较差,容易导致数据“孤岛”现象。另外,随着数据急剧增长,磁盘阵列的容量和性能扩展困难,容易导致业务中断或数据丢失,成为虚拟化数据中心最主要的风险因素。
超融合架构采用通用的X86服务器硬件和L2/L3网络交换机,以软件定义的方式实现数据中心的计算、存储、交换所有功能。超融合立足于服务器虚拟化技术,融合了分布式存储技术,用以取代传统磁盘阵列。分布式存储可以实现容量和性能的同步扩展,从而为灵活扩展的超融合云架构奠定了技术基础。
超融合代表着数据中心最新的技术发展方向,其优势体现在:通用硬件,结构简单,管理维护容易;故障点少,无需专业人员;资源池化,按需采购,按需扩容;资源利用充分,避免浪费。超融合已经逐渐从一些新兴的或边缘的应用,慢慢走进企业的核心业务应用,超融合架构也被业界公认为“虚拟化的经典架构,私有云的最佳实践”。
超融合的便捷性毋庸置疑,而IT系统最核心的功能是为业务提供支撑,这就需要考察系统性能能否支撑业务的高效运行,系统是否足够强健以保证业务的连续可靠运行,在超融合数据中心,其采用的分布式存储技术很大程度上决定了系统性能和稳定性。
目前,主流的超融合厂家有Nutanix,VMware,道熵(Horeb),深信服,SmartX等,各自具备核心的分布式存储技术:Nutanix的NDFS, VMware VSAN ,深信服aSAN,道熵铁力士(Titlis),SmartX ZBS等。
主流分布式存储都采用了2/3副本的分布式存储方案,理论上,这种强一致性的副本策略可以保障系统在任何一个硬盘或者节点损坏的情况下,通过另外两个数据副本一方面提供前端读写,同时进行数据恢复,从而保障业务连续性;另外,副本方案也支持同城异地部署,帮助客户在关键业务上避免意外情况导致的业务中断风险。
但是,纯副本架构的分布式存储却往往在业务连续性上不那么名副其实。究其原因,还是由其架构引起:
首先,在磁盘数较多的超融合系统中,多个磁盘面临同时损坏的概率上升,这就带来某一个或者某一些数据块的所有副本同时丢失的概率增大,数据丢失的风险增大;
其次,多磁盘重建的概率上升,重建工作流占用较大资源,会对正常业务产生冲击,如果是严重的修复工作流,比如节点重建时,很可能导致系统业务中断,业界称之为“重建风暴”。
另外,由于分布式存储的数据随机分布,各个硬盘上的IO工作负载呈现正态分布,会导致其中少数硬盘上的负载远超平均值,从而形成性能瓶颈,致使系统出现大延迟。
NDFS,VSAN,aSAN, ZBS等超融合存储都采用以上分布式技术,从而不可避免地在业务连续性上产生风险。