摘要:文章引入了大数据理念来解决电力信息网络中的过度建设和安全运行等问题。利用设备产生的大量运行数据建立准确的网络运行模型,对数据进行关联性挖掘,获得的信息可以反馈指导网络的建设和运维工作。将该网络运行模型应用于3个不同的运维实例,结果表明对运行数据的挖掘可使信息网络设备在经济性、安全性和可靠性等方面达到平衡。大数据理念的引入为电力信息网络的设计规划、安全管理等方面提供了支撑和思路。
关键词:大数据;电力信息网络;网络管理;信息设备
引言
以交换机、路由器为核心的电力信息网络日渐完善,它承载着繁多的专业系统和数据业务,成为电力系统内部重要的传输网络。数据通信设备(包括路由器和交换机)的管理依赖于传统的网管平台,它可以提供比较全面的设备信息和告警信息,以便于管理人员查看和处理。但是传统网管系统并不能对其获得的数据进行进一步的挖掘,不能充分地利用设备的信息向管理人员提供强有力的反馈和有效的建议。例如,网管系统可以获得各个交换机、路由器的使用率,包括端口、CPU、内存、端口带宽、背板带宽的使用率,关联性地分析这些信息能够为进一步的规划、预测和采购提供指导,有效避免设备重复采购和资源浪费,让网管人员科学地管理设备、规划网络。本文将大数据理念与信息网络管理相结合,通过大数据在设备选型、运行安全和状态检修3个方向的实例应用,探究新的网络管理手段,以期为网管人员提供新的思路。
1大数据理念与网络管理的结合
现代人类的生活、生产活动会产生极其巨大的数据量,全球所产生数据量大约每2年翻一番,意味着人类在最近2年产生的数据量相当于之前产生的全部数据量,预计到2020年,所获取的数据量将增长近30倍[1]。对大量数据进行挖掘能够获得更高维度的信息,全面反映事物的状态和发展趋势,为此人们引入了“大数据”的概念[2]。大数据概念的应用使得人们能够在海量的信息中提取出重要的、不易察觉的价值,吸引了众多研究者的关注。对于大数据的定义,研究机构Garnter对大数据的定义为:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科对大数据的定义为:所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。而麦肯锡的定义则为:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。由以上定义可以看出,大数据并不特指某种技术,而是一种类似于“物联网”这样的模糊的概念[3],其内涵和外延根据事件标的的不同而不同,核心在于采用一定的手段从大量的数据中提取出能够为设计、决策和优化服务的重要信息。本文拟将大数据的理念引入到信息网络的管理中,以提供一种充分挖掘网络设备状态信息的新思路。具有闭环反馈机制的网络管理模型如图1所示,设备运行期间产生大量数据,这些数据可完整、真实地反映设备运行状态,通过对数据进行针对性的挖掘和关联性分析,可以指导网络管理人员对网络进行调整,这样的调整将形成对运行设备的闭环反馈,调整后的运行方式会再次对运行数据产生影响,从而不断提高网络的性能。图1具有闭环反馈机制的网络管理模型Fig.1Networkmanagementmodelbasedonclosed-loopfeedback需要注意的是,本文并不采用典型的大数据手段处理设备信息,而是应用其理念关联性地处理大量的设备信息,目的在于补充传统网管方式的不足。
2大数据理念应用于网络管理的实例
本文选取3个方面的实例来探讨大数据理念与网管系统的结合,以提供一种获得更多管理手段的思路。电力信息网络中的交换机、路由器都能够对运行的系统信息进行分类、管理,将设备日志、调试和告警以确定的格式发送给日志系统或通过简单网络管理协议(SimpleNetworkManagementProtocol,SNMP)发送到网管系统,为网络管理员监控网络运行情况和诊断故障提供支持[4]。此外,远程网络监视(RemoteMonitoring,RMON)基于SNMP体系结构,可用于跟踪统计端口所连接的网段上的各种流量信息,如某段时间内某网段上的报文总数,或发往某台主机的正确报文总数等。2.1指导设备选型电力行业数据有较高的安全性和实时性要求,使得信息网络长期依靠过度建设来满足,这种过度建设体现在使用不必要的高级设备完成低级设备即可完成的功能。例如,有些办公网络的接入交换机使用的是支持以太网供电和带有三层路由功能的交换机,很多变电站路由器和交换机端口和交换容量利用率都非常低。过度建设源于规划时对设备可靠性的担忧和为未来升级扩容预留的冗余,常常会导致设备性能资源的大量浪费。如何在设备的选型上平衡经济性和设备性能,是网络规划者不得不考虑的一个问题。为兼容和统一网络的设备特征,设备的选型往往是沿袭之前的采购标准,以致新采购的设备继承了大量的冗余性能,CPU、内存、端口等指标的利用率较低。因此,依据对已有的网络设备的利用率统计来获得新的选型标准,可以很好地平衡设备选型的经济性和可靠性。交换机选型的常用指标项包括:业务端口(端口类型、个数)、交换容量、包转发率、以太网供电(PowerOverEthernet,POE)、外形尺寸、重量、端口特性、堆叠、组播、镜像、安全特性、电源、端口聚合、最大MAC地址表大小、VLAN、DHCP、可支持最大路由表数、每端口最大优先级队列数、内存、ACL和QoS等。首先,从网管系统和日志系统中提取与指标项相关的信息,形成设备运行状态子集B。提取运行状态子集如图2所示。图2提取集合A是网管系统和日志系统收集的所有运行数据,这些数据是维护人员能够远程获得的关于设备运行状态的全部信息;集合B包含与交换机指标项相关的运行数据,例如CPU及内存的使用量,当前使用的端口类型和个数,MAC地址表、路由表、ARP表的使用量,POE、DHCP、QoS、三层路由等功能是否启用,以及当前链路流量、帧流量、广播流量、丢包量、错包量等数据。集合B剔除了对选型无用的设备运行状态,可作为下一步选型处理的数据源。由运行状态子集获得选型建议如图3所示。由集合B到典型指标C指的是根据设备实际使用的资源量,附加上一定的资源余量,得到能够满足该设备可靠性要求的最小指标。基于电力行业信息网络环境,将交换机划分为核心层交换机、汇聚交换机、办公接入交换机、变电站接入交换机以及其他功能交换机,不同类型交换机所处的位置和实现的重点功能不同,如办公接入交换机数据流量更大,端口使用率更高,而变电站接入交换机与之相反,因而选型分析时应在其对应类型中考察。以变电站接入交换机为例,假设交换机为SwitchX,它的交换容量高而实际利用率低,通过SwitchX的链路流量计算出实际使用的交换容量,附加一定余量,可得到SwitchX运行时“交换容量”这个典型指标值,同理可得SwitchX的其他典型指标。理论上,按照该典型指标集选型的设备即可完全替代SwitchX,即能兼容SwitchX的所有功能,从而在保证设备可靠性、可用性的同时保证了经济性。最重要的是,所有变电站接入交换机的典型指标构成集合CSubstation,新增变电站交换机时,可以结合典型指标集合CSubstation与厂商设备数据库D,获得合适的选型建议。同时,更新原有设备时也从典型指标CSubstation中获得建议,从而使整体的设备利用率不断提高,使实际运行设备的指标逐渐趋近于理论上的典型指标集合CSubstation,这就是闭环反馈模型的应用。可以看出,选型建议的提出是基于同一类型设备运行状态的反馈得到的,闭环反馈模型能够保证选型设备贴近运行实际。2.2增强网络的运行安全日志系统存储了大量数据通信设备的运行信息,可对这些数据记录进行挖掘来分析电力信息系统网络存在的潜在安全问题,以便及时检修和采取对策,进一步提高网络运行的安全性。由日志系统收集到的实时数据(如网管人员登录设备的时间、登录IP和操作记录)和海量的历史数据,结合其他第三方系统数据,可通过数据挖掘技术对设备登录提示信息进行分析[5-7]。以H3C路由器为例,数据通信设备(路由器)运行安全分析流程如图4所示。首先从日志系统中提取出该路由器登录的提示信息,然后在日志系统中查询登录该路由器的所有IP地址,将查询到的IP地址逐一与路由器所配置的访问控制列表中的IP地址进行比对,由此可以筛选出非授权访问的IP地址。若未成功登录到路由器上则认为有人试图渗透网络,如果成功登录则记录该非授权访问的IP地址对路由器的所有操作,以便信息系统维护管理人员回溯该访问对设备所做的非法操作,并追寻该IP来源,及时采取补救措施。如查询到的IP地址是授权访问的,则比对该授权访问的IP地址对路由器的配置是否满足电力企业网络管理要求的数据配置规范,如不满足则需要信息系统维护人员重新对其设备进行准入规范的配置。如该授权访问的IP地址对设备的配置满足电力企业网络管理要求的数据配置规范,则说明是网管人员对路由器进行了正确的数据配置。通过日志系统自动分析对设备的登录、配置和补救,可增强设备配置数据的保护和校验,保证运行设备的任何操作都处于可控状态,从而提升了网络运行的安全性。对日志系统的数据进行挖掘可以迅速找出数据通信设备问题的发生范围,网络管理人员可根据问题发生范围及时进行检修和采取对策,从而确保数据通信设备安全运行的可控和在控[8],大大提升了信息系统网络管理人员的维护效率。2.3指导设备状态检修状态检修是指对数据通信设备进行状态评估,并通过设备日志记录进行分析诊断,推断数据通信设备当前的健康状况,以便及时安排检修的一种主动检修方式[9]。其实现主要包含数据收集、状态评价、制定检修策略、制定检修计划等技术手段。由于监控中心(网管系统和日志系统)记录的数据信息对于设备状态检修计划数据的收集不够全面,因此本文的状态检修数据信息是通过网管和日志系统在线监测结合信息运维人员日常巡视维护来获取的,主要对本周期内数据通信设备(路由器)的投运年限软硬件配置、外部环境、设备运行状态、运行资料等指标进行数据收集,由此来指导设备状态评价及检修计划制定。数据通信设备状态评价模型[10-11]见表1所列主要包括投运年限、软硬件配置、外部环境、设备运行状态、运行资料等指标,其中投运年限、外部环境会影响数据通信设备的性能,软硬件配置会对数据通信设备的安全运行产生重大影响,而设备运行状态指标主要涉及到数据通信设备承载量。数据通信设备状态检修流程为:首先对采集的数据通过数据分析模型进行建模,从而形成设备状态特征量(以设备运行状态指标为例,其状态特征量为设备运行时的CPU负载、内存使用率、直连链路丢包情况、链路延时、设备接口富余情况、路由协议运行状态等);其次建立设备评价的状态模型,依据设备状态评分数学模型(主要包括阈值型评分模型曲线型评分模型、逻辑与型评分模型,其中阈值型评分模型在指定正常运行边界条件下使用,曲线型评分模型主要适用于指标偏离基准越大扣分越多的情况,逻辑与型评分模型适用于由多个状态组合在一起决定设备某一指标的情况)和设备评价细则对设备进行状态评价;最后根据数据通信设备状态评价结果生成数据通信设备状态评价报告和风险评估报告,结合检修策略库来确定数据通信设备状态检修计划[10]。以H3C路由器为例,根据表1的数据通信设备状态评价模型分别对其各项指标进行综合评价:首先对该设备的投运年限进行评分,该指标的评分模型适合采用阈值型评分模型;其次对外部环境进行评分,该指标需根据积尘情况、接地情况、标签标识等按照评价要求进行评分,宜采用逻辑与型评分模型进行评分,适用此评分模型的指标还有软硬件配置、运行资料等[12];再次对设备运行状态指标进行评分,该指标需根据直连链路丢包、链路延时、设备负载、设备接口富余、路由协议运行状态等项按照评价要求进行评分,该指标中除了路由协议状态适合选取阈值型评分模型来进行评分外,其他指标均宜采用曲线型评分模型评分,以设备负载情况为例,已知评价标准为设备CPU利用率基准的75%,CPU使用率超越基准线越多则扣分越多,严重故障警戒为90%,内存利用率评分标准与CPU相类似;最后根据评分模型计算设备的状态评价分数,给出设备状态评价报告和风险评估报告,将其与检修策略库相结合来制定设备状态检修计划,从而帮助信息运维人员实现应检必检、及时消缺,根据设备运行情况制定正确的检修计划,提高电力系统数据通信设备的检修效率,保证电力二次系统安全稳定运行。
3结语
本文引入大数据理念建立闭环反馈模型,就如何应用该模型指导数据通信设备选型、增强电力信息系统网络安全性、指导数据通信设备状态检修进行了全面阐述。通过应用大数据理念指导设备选型,可以为进一步的网络改造提供数据依据;通过应用大数据理念增强电力信息系统的网络安全性,有利于信息系统维护人员及时对网络中可能存在的隐患进行有效排查和处理;应用大数据理念指导数据通信设备状态检修,可以提高检修的针对性,并且可在确保信息设备正常工作的同时,有效降低检修成本。综上所述,应用大数据理念可以为网管人员在数据通信网络规划、安全运行、数据通信设备状态检修等方面提供强有力的支持。大数据理念的应用并不局限于本文所选取的3个实例,还有更广阔的课题值得研究,例如数据通信网络故障诊断和流量异常分析等。因此,如何利用好大数据理念,充分挖掘电力信息系统中检验医学期刊的数据资产,以更好地服务于电力系统,将成为重要的研究课题。
作者:陈强 李纯阳 吴凯 单位:国网达州供电公司