一、分布式多控制器核心存储系统
从架构上看,分布式多控制器核心存储系统架构实现了双控制器和集中式多控制器的紧密结合。分布式多控制器核心存储系统由多套双控制器或集中式多控制器存储系统组成,其中每套存储系统自身都是一个单独的双控制器存储系统或集中式多控制器存储系统,其内部架构如前所述。而每套存储系统之间通过高速互联模块(高速网络交换机、SAS交换机、InfiniBand交换机)进行外部互联,而不是集中式多控制器核心存储系统通过背板进行互联。分布式多控制器核心存储系统是内部架构高度冗余的高档存储系统。其内部每套存储系统内部的控制单元、I/O处理单元是紧耦合的,而各套存储系统之间则是松耦合的。基于此,分布式多控制器核心存储系统可灵活实现横向扩展,但由于内部紧耦合,横向扩展时需要考虑I/O均衡等因素。
二、相关技术探讨
伴随微电子技术、芯片制造工艺、计算机处理技术和高速宽带通信技术等的持续快速发展和广泛应用,核心存储系统不仅整体性能实现了量级上的提升,而且功能模块趋于标准化和同用化,如核心存储系统的处理模块大量采用x86架构。对于核心存储系统而言,除系统架构外,还涉及CPU、磁盘、链路、接口、RAID技术等。
1.磁盘
磁盘是核心存储系统最基本也最重要的组成部件,是数据的最终载体。经过多年的发展,不仅机械磁盘综合评价指标有较大幅度的提升,而且基于新型材料的SSD也逐步推向市场并有加速应用的趋势。目前,磁盘领域形成了以机械磁盘为主体,以SSD为辅助的应用格局。机械磁盘的指标评价通常有两个:转速和容量。虽然机械磁盘的转速由3600RPM提升到15000RPM,容量由GB提升到TB级,但受限于机械磁盘的寻道时间限制,单块磁盘整体性能提升有限。核心存储系统虽然可通过RAID技术提升存储系统对外性能,但因单块磁盘容量越来越大,存储系统内部磁盘重构所需时间越来越长,影响了核心存储系统整体的高可靠性。以一块容量为2TB、转速为7200RPM的机械磁盘为例,重构时平均写入速度为30Mbps左右,理想情况下完成重构时间长达18个小时(2×1024×1024/30/3600)。基于非易失性半导体发展起来的SSD,因其控制环节不包含机械操作,所以SSD整体性能与机械磁盘相比有了质的飞跃:连续、随机读写操作IOPS都有10倍以上的性能提升,响应时间由毫秒级下降至微秒级。SSD单块磁盘性能的整体提升,配合全新的数据传输总线、软件管理技术,为实现百万级IOPS的核心存储系统提供了可能性。
2.处理模块
内存和处理器是核心存储系统的处理能力供给模块。伴随核心存储系统产品不断升级换代,最新的内存和处理器都在最新产品中得以应用。随着技术不断突破,内存和处理器的性能不断提升,功耗不断下降。如CPU的主频,从2001年至2014年提升了6至10倍;CPU内部结构更加紧凑,一颗CPU由单核发展至目前的4到10余核;其缓存部署更加层次化,通过增加三级缓存及调整缓存使用方式,进一步提升CPU的处理能力;除此之外,还有前端总线带宽、工作频率等方面,都有巨大的提升。综合分析,内存和CPU的整体处理能力提高了500多倍。经过市场的选择,目前以CPU为主的处理模块偏向于单一化、集中化。存储厂商普遍采用业界主流的x86架构的CPU芯片作为其高档存储产品的处理单元。另外,虽然半导体工艺的快速发展促进了CPU内部Core的数量极速增加,但受限于材料特性,CPU的主频近年来处于相对稳定的频段(2.5GHz~3GHz)。在单颗CPU整体性能处理高位阶段,近一步提升核心存储系统处理模块性能的方式将再次回到“CPU+协处理器”或“CPU+专用处理器”的模式。
3.接口模块
接口模块是核心存储系统的输入输出通道,是存储系统必不可少的组成部分。从客户使用的角度看,最关注的组件有接口和链路两个部分。其中,接口负责输入、输出数据及相关的处理,除内部专用芯片外还有所使用的协议。目前市场上常见的协议有FC(FibreChannel)、SAS(SerialedAttachedSCSI)和InfiniBand三种。FC多用于前端接口,速率有4Gbps、8Gbps、16Gbps等,是目前主流的SAN网络的存储协议;SAS多用于存储系统后端环路,速率多为6Gbps,是核心存储系统内部数据传输主用协议;而InfiniBand协议由于其高带宽(20Gbps、40Gbps等)、低时延(纳秒级)特性,早已在存储界被深入研究。随着数据处理量的极速增长,客户需要核心存储系统提供高带宽、低时延的服务,存储系统前后端处理协议仍将处于不断更新和快速发展阶段。链路则对应于接口的物理层,是存储系统内部互联的重要组件,对接口速率有直接影响。其材质主要有铜缆和光纤两种。铜缆在早期存储系统后端高速环路短距离连接中普遍应用。随着SAS、InfiniBand等链路带宽的提升,光纤凭借其可远距离连接、扩干扰性强、易于维护等特性已经得到且将进一步广泛应用。到很小的盘块,所以,一个LDEV可由来自多块磁盘或者所有磁盘的盘块组成。这些磁盘形成共鸣,会形成非常大的I/O能力,使存储的性能得到较大提升。同时,由于盘数量的变化,磁盘重构时间迅速缩短,提升存储系统整体可靠性。最后,I/O分散工作由服务器端下沉,实际上减轻了服务器端I/O配置管理工作量。
三、未来系统架构
现有的核心存储系统都给出了非常高的RAS特性,但每种现有核心存储系统在客户需求面前、在技术推新作用下都有其可提升的空间。本文站在高可维护性的视角,结合存储系统相关技术发展趋势,给出未来系统架构(如图2所示)。即控制部分采用集中式架构,磁盘管理采用新一代RAID技术,链路采用宽通道、高速率技术或介质,整体促进核心存储系统处理能力进一步提升。
1.架构设计系统架构将以集中式多控制器为主,实现处理单元、内存单元、I/O单元可在线灵活进行扩展。另外,由于各控制单元间采用对称多处理结构(SymmetricMulti-Processing,SMP),通过无阻塞背板模块互联,理论上可实现处理能力线性提升。考虑到“两地三中心”等存储层面的I/O需求及存储在线扩容支持能力,集中式多控制器架构可实现I/O通道最优扩展,可最大灵活性地满足各种需求。
2.I/O通道存储系统间的I/O通道是存储系统前端通道与后端通道的统称。在集中式多控制器架构中,无阻塞背板使得I/O通道与存储系统间的关系出现了松耦合,这方便了I/O通道不断采用新技术,便于新老技术在同一存储系统中融合使用,即提高了可维护性。随着芯片、协议、物理材料的不断升级,在I/O板卡端可配置最新的专用芯片来提升前后端的通道处理能力,提高前后端I/O带宽,为存储整体性能提升打通前后端连络线。
3.RAID在核心存储系统未来架构设计上,RAID将固化在专有芯片中,其控制单元由通用CPU完成。在具体的RAID实现方式上,RAID2.0将会得到大量采用。这种方式同时会推动虚拟层重建,消除现有LDEV组基础上的RAID实现方式,精简管理层次,提升存储系统性能。另外,RAID2.0的使用,更加便于大容量磁盘的投入使用,实现在线数据海量存储。同时,物理上单纯的热备盘将消失,所有磁盘共同联动,实现传统意义上的在线磁盘备份,这又提升了存储系统的高可用性。在大数据时代,有人把数据比作为原油,那存储系统就是饱含原油的矿藏。如何在现有基础上最早推出最新的探测矿藏的技术和产品,是推动存储领域相关人员不断前进的动力。这不仅推动着与存储相关的磁盘、芯片、通信等技术的进一步发展,而且会推动着架构体系不断精细化、专业化和模块化。
作者:张帝 王艳君 单位:中国邮政储蓄银行股份有限公司