【摘要】信息是各级领导决策的重要依据,做好信息报送工作能有效支撑公司经营决策。大数据理念与技术的出现,能够在碎片化的海量数据中挖掘关键信息,也为信息报送与决策服务提供了新的理念与技术手段。以电网企业为例,阐述大数据在信息报送中的应用原则,重点分析报送工作不同环节中应用场景,包括选题识别、评价、规划等重点应用,提出词频分析、关键词相关分析等算法模型,并为大型企业提升信息报送效率与质量提出对策建议。
【关键词】大数据;信息;电力企业;选题
引言
当前世界政治经济格局深刻变化,我国经济发展“新常态”特征日益显著,电力企业发展改革面临更加复杂的外部环境,需要针对新形势、新变化及时作出科学决策。信息是各级领导决策的重要依据,做好信息报送工作能有效支撑电力企业经营决策。大数据理念与技术的出现,能够在碎片化的海量数据中挖掘关键信息,也为信息报送与决策服务提供了新的理念与技术手段[1-5]。本文以电力企业及时决策、科学决策为需求导向,将数据跨界、关联分析、动态预测等大数据理念与技术方法应用到信息报送工作中,形成一套重要信息及时识别、收集、快速分析研判的技术支撑体系,提高信息选题、报送的精准性,提高数据向信息的转化效率,提升信息在决策支撑中的价值[6-7]。
1传统信息情报工作应用现状与发展趋势
1.1传统信息报送工作量与难度不断提高由于信息报送的重要意义,对于工作开展的难度与要求相应较高。一方面,电力企业信息工作者需要编辑处理的信息量特别大。每天摆在信息工作者案头上的各种信息数以10万字以上,特别在目前移动互联网时代,信息工作者需要了解的信息源、信息渠道更为多样,信息处理量、信息热点更加点多面广。目前信息报送工作每年需要处理的文字量达到150万字到200万字。另一方面,电力企业信息工作者需要整合多种信息的难度大。以组织编辑一篇《国家电网专报》为例,往往从策划、查找材料到编写需要搜集整合大量的信息,分析观点与论据、梳理素材与线索的工作难度非常大,而目前这部分工作完全是通过人工完成的。1.2大数据手段提升信息报送工作势在必行大数据时代,随着互联网的快速发展、新兴技术的兴起,音频、文字、图片、视频、地理位置等半结构化和非结构化数据大量涌现,数据正以前所未有的速度在不断的增长累积。借助大数据理念、方法,电力企业的信息报送将从注重处理结构化数据的传统信息管理模式,向多系统集成、多类数据实时收集、存储使用的新模式转变[8-9]。相关技术方法的执行遵循以下原则。一是统筹规划,增强协同:加大协作力度与广度,提高信息工作的整体性与多元化;二是平台统一,价值发现:以统一技术平台支撑各专业领域大数据应用,挖掘各类信息、数据中的价值;三是注重反馈,精益求精:增强信息报送工作中各层级、各专业的相互反馈,促进信息稿件质量不断提升;四是技术支撑,建用并重:加强对大数据相关技术模型的研发,边开发边应用,重视成果实用实效[10]。
2主要应用场景分析
2.1识别关键信息选题首先,将时事热点、领导关注焦点、电力企业改革难点等不同维度的信息进行综合分析与关联分析,从领导讲话、报告、互联网舆情、文件、重要外部数据等不同渠道数据与资讯中识别关键信息,自动推送具有价值的信息选题。其次,结合外部指标数据对电力企业经营决策的传导影响,提炼形成具有价值的信息选题,将不同信息选题经过整理纳入信息选题库,为领导快速决策提供知识储备。2.2构建信息选题指数选题指数主要衡量选题的价值,主要考虑选题的热度、关联性、实效性等维度,为选题报送提供技术支撑。利用选题指数可提升信息选题的精准性,提供选题工作效率。具体功能包括4个方面:一是选题入库,将各单位、部门上报的选题采集到信息报送工作数据库中,便于归档管理;二是选题识别,运用大数据分词技术,识别信息选题中的关键词或关键事件;三是选题评价,主要以重视度、时效性、关联性等维度,对信息选题进行综合评价,形成选题指数供参考;四是选题提示,当选题指数达到一定范围,则在信息报送工作数据库中自动推送给信息工作者,提示具有信息价值。其中选题指数评价主要考虑以下维度。一是关注度,事件及关联事件中涉及的关注度级别。二是时效性评价,事件社会热度分析以及时间点分析,社会热度可借助互联网指数分析社会大众对事件的关注热度;三是关联性评价,通过互联网大数据分析信息事件与其他事件的关联度,并计算关联性高事件的关注度与时效性。2.3支撑信息选题规划将大数据应用于电力企业信息工作,可支撑相关常态化工作的开展。这里主要从以下4个流程对信息选题规划、计划进行优化,满足信息供给与需求动态平衡。首先,信息稿件数量的规划与计划中,可借助电力企业信息报送工作数据库,将已有的信息稿件,按信息领域、信息内容、信息数量、批示情况等分布规律进行分类与聚类,结合信息报送工作人员的工作量,合理确定需求与能力相匹配的稿件预期数量。其次,信息内容领域分布与设计中,可应用大数据关键信息识别技术对热点关注领域进行分析,如在电力、经营管理、能源、公共政策中挖掘主题,综合信息供应能力与领导需求偏好特点,并将其作为一段时间内电力企业信息报送工作的重点主题。最后,在信息报送工作组织管理方面,可利用大数据技术与应用手段,加强信息资源的共享与互动,在电力企业集团内构建更加细化的情报网络,及时将基层信息上报到企业总部。
3算法模型与技术平台
为使上述应用得到有效落实,需要在算法模型与技术平台方面开展全面设计与研究。3.1分词技术与词频统计分析模型该项技术主要应用于对信息稿件进行关键词提取与统计分析,适用于选题指数、报送指数、知识管理等场景。一是建立分句分词,把信息文本由段落分成单独句子,并利用自动分词工具将句子分成若干词;二是进行词频统计,计算每个词出现的频率;三是进行高频词与句子选择,基于频率选择出最重要的或最有代表性的单词,同时基于单词频率,可选出有代表的句子或段落。类词汇,便于识别高频词汇,筛选重要关键词。3.2关键词相关分析模型关键词相关分析模型主要应用大数据技术,将海量的文章存储到信息报送工作数据库后,通过分析与关键词具有联系的词汇出现频率,从而判断与关键词具有相关性的词汇。一是识别关键词出现的频率,即对应文章的数量;二是判断关键词与哪些主题有联系;三是判断关键词与这些相关主题联系的强弱。主要借助工具:VOSviewer、SATI3、UCINET,需要将3个软件进行综合应用。由图4可知,该文章中与能源相关性较强的词汇包括核能、天然气、水资源、电力等词,这些词都应作为分析其热度、关注度的相关词汇。3.3关键词热度分析模型利用互联网大数据资源,对信息中的关键词搜索频率、搜索时间进行统计,得到一段时间内关键词的热度。一是进行选题热词识别,主要将信息中的关键热词进行筛选与识别;二是进行热度评价。热度主要是通过互联网大数据分析判断得出。以内参“人民币进入SDR”为例分析关键词“SDR”的热度,通过对互联网点击数据的汇总与分析可发现,该选题在2015年12月1日附近热度最高,11月28日以前以及12月3日以后则热度骤减,可知11月29日至12月2日为该信息的最佳报送窗口,可为报送指数提供参考,也可将热度值进行量化为选题指数提供数据支持。3.4信息统计分析方法利用信息报送工作数据库,将所有信息按部门、类型、数量、主题、批示等不同字段进行统计,从而发现一定规律。一是按不同维度对信息进行分类统计,查找信息分布规律;二是对分析结果进行可视化展示;三是对分布规律进行显著性检验,验证结果的有效性。
4结束语
本文主要以需求为导向,紧密结合信息报送与决策服务中的热点、难点构建大数据在信息选题与报送中的应用框架,并从数据源、数据分析、挖掘、平台、管理支撑等方面建立一整套解决方案,以提高信息选题、报送的精准性,提高数据向信息的转化效率,提升信息在决策支撑中的价值。具体建议如下:一是建立信息情报开发与利用机制,统筹管理信息收集、分析与规划工作,在企业内部各个单位、部门中建立协作收集与分析机制,并建立优势互补的收集管理体系,提升电力企业整体信息情报获取与分析水平;二是建立跨部门信息协作的机制,建立分层、分级的管理制度与细则,建立信息保密制度,鼓励信息工作人员使用信息资料、分享信息资料;三是以选题指数、报送指数为突破口开展大数据应用的实施推广工作。结合选题、报送指数的设计思路,以部分选题为例开展指数的权重设计与模型研发,为信息选题与报送工作提供技术支撑;四是要有保证信息资源实现畅通共享的相关技术体系,在科技项目与信息化项目投入方面,需要研发一系列大数据工具、方法与模型,为支撑信息报送工作提供丰富的技术手段,提高工作效率。
作者:王鹏 孙艺新 单位:国家电网公司 国网能源研究院