1基于科学知识图谱的水文化变迁研究方法
1.1基于科学知识图谱的水文化变迁研究框架
科学知识图谱(mappingknowledgedomains)是一个新兴的、横跨科学学、信息科学、科学计量学、计算机科学和应用数学等领域的交叉前沿领域,是对知识进行挖掘、分析、分类、导航和可视化(制图)的过程。它可以揭示一个知识领域的结构关系和演变过程。知识图谱所描绘的对象主要包括:①从事科学技术活动和作为知识载体的人,包括科学家、技术专家、项目组、研究团体或某一知识领域共同体;②显性或编码化的知识,如论文、专利、所学课程、数据库或类似的应用等;③过程或方法,包括研究问题和解决问题的过程或方法、组织的业务流程以及相关的知识投入等。科学知识图谱的基本分析方法包括引文分析、被引分析、多元统计分析、词频分析以及社会网络分析。水文化常由非结构化的社会符号(如文字)来表达,其载体为大众媒介。因此,一定时期的水文化可由媒体或者文献中特定的词汇来表征,水文化变迁可以通过研究媒体或文献中词汇和词频随时间的变化规律来揭示。除研究对象外,水文化变迁研究与科学知识图谱极具相似性,我们可以借鉴科学知识图谱的原理与方法来研究水文化变迁。根据Cobo等关于知识图谱绘制的流程,结合本研究的实际情况,提出了水文化变迁的研究框架。该研究框架包括相互关联的7个步骤。这些步骤将在以下的2.2节至2.5节中详细阐述。
1.2数据来源
1.2.1媒体选择
尽管在过去20~30年电子媒介得到了快速发展,但报纸仍然是新闻报道的主要来源[11]。报纸能够提供广播媒体所没有的对某个主题的深入报道,因而是研究文化的有效工具。报纸的报道内容也覆盖了新兴社会媒体,如博客和其他数据聚集工具。另外,报纸的权威性和公信力也是其他媒体所不能替代的。报纸也具有很长时期连续存档的特性,可以从历史的角度来分析公众舆论因而可以作为研究水文化的可靠信息来源。根据所面向的读者群的差异,报业市场一般分为小报和严肃报纸2类。受商业而不是公众利益的驱动,小报的主要内容是人们感兴趣的故事、娱乐新闻、体育新闻和丑闻。而严肃的报纸则面向国家政治和国际新闻,代表了主流的社会价值取向,是公众利益的体现。因此,在本研究中选择严肃类的报纸作为数据的来源。《人民日报》是中国关于意识形态的主流喉舌,是传递文化、政策的主流声音,是我国最具影响力和权威性的报纸,在全国传播范围广泛。另外,《人民日报》于1946年5月发行,是我国发行至今有电子存储的最早的报纸。因此,本研究选择《人民日报》作为反映中国水文化的主要媒体,并且将1946—2012年的报纸作为研究对象,通过研究其有关水的论述和意识形态的报道来反映中国关于水文化的发展脉络。
1.2.2抽样方法
由于对所有年份的全部报纸文章进行分析超出了本文的研究范围,因此采取抽样的方式来进行研究。对于报纸而言,简单随机抽样、自然周抽样和构造周抽样[17~19]是3种主要的抽样方法。简单随机抽样不能反映媒体内容的周期性特征,而构造周抽样可控制“系统性变化”因素,但该方法忽略了周与周之间的差异,可能会错过重要的“新闻周”(如自1988年以来,中国开始实施的“中国水周”活动),因此,本文选择构造周抽样和自然周抽样。对于每年的报纸,抽取4个新闻周,包括2个构造周和2个自然周。构造周和自然周都分别从每年的上、下半年各抽取1个。构造周星期一到星期天分别从上、下半年的26个星期一到星期天中随机抽取。自然周的抽样在1988年以前随机抽取,在1988年以后,根据“中国水周”日期的变化而变化,即1988—1993年为7月1~7日;1994年以后为3月22~28日。
1.2.3数据收集
通过定制的网页爬取程序,从“《人民日报》图文数据库”里下载所需日期的报纸,并以.xls的格式保存。根据抽样的结果,共下载《人民日报》1946—2012年报纸2043份,文章数量为148086篇。然后采取人工判读的方法,提取出与水相关的文章,包括涉及水政与水利经济、水资源、农田水利、水土保持、防洪与河道整治、水利管理、环境水利等领域的文章共2026篇。
1.3数据预处理
词频分析方法是文献计量学的传统方法之一,也是科学知识图谱的基本方法。词频分析方法所依据的理论是齐普夫定律(Zipf’slaw),它揭示了文献中词汇出现频率的分布规律[20]。词频分析方法被国内外许多科学计量学研究者应用于学科前沿研究。因此,将关键词作为分析的知识单元,采用词频分析和共现分析相结合的方法来研究水文化的变迁。关键词的抽取主要有2种方式:全文直接抽取和字段间接抽取。不同于科技文章,报纸本身并没有关键词,因此,关键词的抽取只能采取全文直接抽取的方式。首先要对文章进行分词,然后进行词频统计,结合词频—逆向文件频率(TermFrequen-cy-InverseDocumentFrequency,TF-IDF)算法提取关键词。
1.3.1构建分词词典
由于关于水资源或者水利方面的最新词典/叙词表是水利部信息研究所1998年编制的《水利水电科技主题词表》,近15年来新出现的词并未纳入词表中,而且科技主题词表不能体现媒体语言的特征,所以通过构建专业领域期刊词典,并整合中国科学院计算研究所研制的分词系统ICTCLAS5.0自带词典的方式,来构建适用于《人民日报》的词典。首先,利用水资源核心期刊列表,选取《水土保持学报》、《水土保持通报》、《水土保持研究》、《节水灌溉》、《水利学报》、《中国水利》、《水科学进展》、《水利水电科技进展》、《中国农村水利水电》、《水资源保护》、《水生态学杂志》、《人民黄河》等12种主要的水资源核心期刊作为构建专业领域词典的主要来源,从CNKI获取题录数据,并抽取出这些期刊中的关键词构建专业领域期刊词典;其次,将专业领域期刊词典与ICTCLAS5.0自带词典整合为自定义专业领域词典。
1.3.2分词
ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)分词法是由中国科学院计算研究所在多年工作积累的基础上研制出来的,其官方网站为:http:∥www.ictclas.org/。目前,ICTCLAS分词法已经经过了国内和国际权威的公开评测,获得了5万客户的认可,具有综合性能最优的特点。因此,基于自定义专业领域词典,利用ICT-CLAS5.0对语料库中的报纸文章进行分词,分词后共得到64506个词。2.3.3数据清洗对分词结果的清洗,包括去除无意义的单个字、合并相同词、利用停用词表去掉停用词。停用词使用哈尔滨工业大学的停用词表,停用词包括标点、部分连词、语气词、代词等,共506个中文词。另外,汉语短语的语法和语义应该正确,比如“种方法”、“式处理”等是不合理的短语,因为它们不能组成一个合法的语法单位,语义也不完整。数据清洗后得到34950个词/短语。
1.3.4提取关键词
在分析学科领域的重点时,一般通过统计关键词绝对频次的方法来分析,但这种方法缺乏横向的可比性。而TF-IDF计算方法不但考虑了关键词在其发生文档中的频率,还考虑了与全部文档中该词频率的关系,这使我们易于分析不同时间段水文化的侧重点。为此,首先通过年度—频次统计构建词/短语的年度分布;其次利用TF-IDF规化词/短语的年度—频次矩阵,获得年度特色关键词。词/短语在某年度的规化结果为Wj:Wj=TFj×IDF(1)IDF=log(DDFj)(2)式中:TFj是关键词Termj在某年度列表中出现的频次;DFj是包含关键词Termj的年度数量,|D|是整个时间段的时间跨度。为了突出各阶段主要研究内容及特色研究内容,本文选择了那些在整个数据集(共875个词)或某个时间段中TF/IDF规化值Wj加权较高(共5000个词)或在某时间段词频较高的词(共17423个词)进行加权处理,最后获得22393个关键词。
1.4数据标准化处理与分析
关键词共现分析法的思想来源于文献计量学的引文耦合与共被引概念,即当2个能够表达某一学科领域研究主题或研究方向的关键词在同一篇文献中出现时,表明这2个词之间具有一定的内在关系,并且出现的次数越多,表明关系越密切、距离越近。利用因子分析、聚类分析和多维尺度分析等多元统计方法,可以进一步按这种“距离”将一个学科内的重要主题词或关键词加以分类,从而归纳出该学科的研究热点、结构与范式[22]。在一系列的时间区间里进行比较,可以发现学科的发展变化趋势。本文用这种方法来研究媒体中关键词之间的关系进而归纳出水文化不同时段的热点、范式以及发展演化的趋势。首先,基于已获得的关键词,分时间段构建关键词的共现矩阵。为了体现重要政治事件和水事件在水文化演化中的作用,按照2种方式将67年的《人民日报》划分为不同的时间段。一种方式是依据重大的社会政治事件(如新中国成立、文化大革命、设立经济特区等)和水事件(特大洪水、特大干旱、重要的水政策法规的颁布)将其划分为9个时间段:1946—1949年,1950—1960年,1961—1965年,1966—1976年,1977—1980年,1981—1990年,1991—1997年,1998—2010年,2011—2012年;另一种方式是与中国的五年计划相一致,即划分为14个时间段(其中个别阶段,即1946—1952年、1963—1965年,不是实际的五年计划阶段):1946—1952年,1953—1957年,1958—1962年,1963—1965年,1966—1970年,1971—1975年,1976—1980年,1981—1985年,1986—1990年,1991—1995年,1996—2000年,2001—2005年,2006—2010年,2011—2012年。基于初始共现频次的共现关系分析可以明显突出某一时间段的水文化热点。但某些词会因频次过高而表现出较强的共现关系,而无法突出新型或特色文化。本文提出了一种基于加权的共现关系分析方法,其目的是为了更加有效地同时突出热点文化与新型或特色文化。具体的分析方法如下:WRij=CoWordij×Rij(3)第1期熊永兰等:基于科学知识图谱的水文化变迁研究方法探析95式中:WRij是关键词加权后的关系强度;Rij是关键词词频规化后的关系强度,其范围为[0,1],目的是消除部分词的规模影响;CoWordij是关键词Termi和Termj共现的初始频次;FREi和FREj分别是其在某阶段数据集中的出现频次。
1.5制作可视化图谱
选择专门用于绘制知识图谱的、可免费使用的软件VOSviewer来构建可视化图谱。VOSviewer是荷兰莱顿大学VanEck与Waltman研发的可视化软件。为了展现地图上的元素,VOSviewer[23~26]使用相似性度量从共现矩阵中创建了相似矩阵,从而创建一个二维图,图中元素之间的距离反映其相似性,并且使用重要的标签,便于研究人员发现重要的主题。VOSviewer允许通过标签视图、密度视图、聚类密度视图和分散视图4种方式来进行浏览,为了直观地判别核心主题,本文选择密度视图方式。通过比较2种时间段划分方式的制图结果,认为按照五年计划的方式划分的结果更能体现出主题的演化,其具体的可视化结果如图2所示(根据重大事件划分时段的知识图谱在此不再展示)。2.6图谱结果的解读根据VOSviewer绘制的分阶段水文化图谱,通过不同的颜色、大小和年轮的不同厚度和视角等来了解核心主题和热点动向。VOSviewer所展示的关系密度图谱中,每个节点根据其密度有一种颜色,红色代表关注较多的主题或领域。一个节点越大,表示其权重越大,其颜色越接近于红色。相反,如果其权重越小,则其颜色越接近于蓝色。密度视图有助于快速获得图谱中重要内容的概貌。据此,结合对《人民日报》相关文章的解读,对于每个阶段的图谱解读见表2。
2基于科学知识图谱的水文化变迁研究方法的检验
基于科学知识图谱的水文化变迁研究框架得出的我国水文化变迁的趋势是否正确,换句话说,该方法是否有效,还有待于进一步检验。新闻报道因其导向作用而反映和影响着舆论和政策的形成[27~29]。媒体为了凸显某些问题的重要性,往往会对这些问题进行特殊对待,比如更加频繁的报道和放在版面中更加突出的位置[30]。媒体、舆论(文化)和政策之间存在着协同效应。Norgaard认为,在社会生态共进化系统中,社会文化变迁与自然生态系统变化、政策法规演化等具有协同性。水文的极端事件(洪水、干旱以及近年出现的气候变化)是流域水资源系统作为一个特殊的社会生态共进化系统的主要特征,虽然因时因地而异,防洪抗旱一直是水资源管理的两大主要功能。多数情况下,投资是政策的具体体现。因此,本文用我国不同时期的主要水政策法规、水利投资重点以及洪灾旱灾情况来检验本文得出的基于科学知识图谱的水文化变迁趋势正确与否。水资源的开发利用主要是满足社会经济发展5个方面的需求:饮水保障、防洪安全、粮食供给、经济发展和生态环境。饮水保障、防洪安全和粮食供给是水利开发的基础阶段,主要是为了满足人们安全性的需求;经济发展需求主要是为了满足人们对高物质生活的需求;而生态环境需求主要是为了满足人们健康环境、资源可持续利用的需求,这是更高层次的需求。从表3中可以看出,由《人民日报》反映的水文化变迁与我国主要的水政策法规具有很好的协同性。建国初期,我国的水政策法规主要集中在防汛抗洪和治理淮河流域。新中国成立后开始实施治河工程,如荆江分洪工程、淮河治理工程等,这主要是因为1950年淮河流域发生特大洪水,造成严重水灾,在此之后毛泽东对根治淮河进行了4次批示,1950年10月,政务院做出了《关于治理淮河的决定》,确定了“蓄泄兼筹,以达根治之目的”的治淮方针。而这一时期的水文化主题正是以抗洪和防洪为目标的治河工程。从“一五”开始到“六五”期间,我国的水政策法规开始转向以农田水利建设与管理和水土保持为主。毛泽东提出“水利是农业的命脉”,因此,新中国成立以后,国家开始兴修水利发展农业。“一五”期间,水利部就向中共中央提交了一系列农田水利工作的报告,如《中央水利部党组关于农田水利工作会议的综合报告》、《中共中央同意水利部党组<关于华北五省农田水利工作会议纪要的报告>》、《中共中央、国务院关于今冬明春大规模地开展兴修农田水利和积肥运动的决定》等。“二五”期间,相关部委制定的农田水利方面的政策有《水利部、交通部关于公路沿线兴修农田水利工程需注意事项的联合通知》、《中央转批农业部和水利电力部关于加强水利管理工作的十条意见》、《中共中央关于抗旱备荒的指示》等。3年自然灾害时期和文化大革命期间,国家制定的农田水利方面的政策法规较少。96地球科学进展第29卷文化大革命之后,国家又制定了灌溉和农田水利工程管理方面的政策法规。水土保持是有效改善农业生产基础条件和生态环境、促进农业增产和农民增收的有效途径。从建国开始,国家就开始大力推行水土保持工作。1952年中央人民政府发布了《关于发动群众继续开展防旱、抗旱运动并大力推行水土保持工作的指示》、1957年发布了《中华人民共和国水土保持暂行纲要》,从1980年开始,国家陆续出台了流域层面综合治理水土流失的政策法规。在建国后的30多年中,农业灌溉与农业生产、兴修农田水利、农田水利、农田基本建设等方面的主题是每个五年计划时期水文化的核心主题,而水土保持这一主题则贯穿在农田基本建设当中。“七五”以来,我国的水资源管理从供水管理向需水管理转变[33],包括调整经济产业结构和用水结构、采取节水措施、控制污染等,因此,颁布了相应的政策法规来促进这一管理方式的转变,如黄河实施的水量合理分配制度、各流域取水许可管理权限、水价政策、重要流域水污染防治规划等。水文化的核心主题也由农田水利建设与管理转向河流治理、面向水短缺和生态环境的水资源管理。2011年中央一号文件《中共中央国务院关于加快水利改革发展的决定》的发布标志着我国的水利事业进入了一个新的发展阶段。我国将实行最严格的水资源管理制度,大力发展民生水利,凸显水利保障经济安全、生态安全和国家安全的作用。相应的水文化核心主题也体现在水资源管理政策和发展目标、规划等方面。从表3可以看出,水库水电建设和防洪除涝从建国到21世纪初都是我国水利投资的重点,与此同时,由《人民日报》体现的主题也集中在防洪和以灌溉、水库和农村小水电为主的农田基本建设方面。“十五”以来,由《人民日报》体现的主题开始转向水生态环境和水资源管理,而我国的水利投资重点尽管仍然是防洪除涝,但对供水的投资力度加大,对水保及生态也开始投入。表3列出了自建国以来我国的主要洪旱灾害。《人民日报》对洪旱灾害的报道与这些灾害事件出现的时间具有较好的契合性。
3讨论与结论
本文提出了一个基于科学知识图谱定量研究水文化变迁的方法。它通过提供一种可视化的视角和方法快速、定量地研究水文化的发展阶段和趋势。通过对图谱的解读,发现水文化的演化与当时的政策、水利发展阶段和水文极端事件的发生具有一致性,因此,可以利用科学知识图谱的方法来定量研究水文化。同时也表明《人民日报》是宣传党和国家有关水资源利用方针和政策的主要工具,凸显了其“环境监视”的职能,在一定程度上反映了其对水文化的导向作用。本文定量分析的结果为下一步构建政策、生态和水文化的协同演化模型奠定数据基础,为发展可持续的水资源管理科学与政策体系提供理论依据。但是,科学知识图谱方法是以静态的图谱形式揭示隐含在基础知识中的动态结构信息,其研究对象是没有客观空间结构关系的抽象信息,因此,其可视化结果的可信度不仅取决于数据样本的完整性、绘制技术的完备性,还取决于领域专家对图谱解读的深度。本研究只是对科学知识图谱在水文化领域应用的一种探索,还存在着一些问题值得进一步探讨:第一,本文的数据来源是《人民日报》,《人民日报》是否能完全代表中国的水文化?新闻对制度的结构性偏向以及政治人物观点的主导地位都是公认。将来我们将研究更多的主流报纸。第二,科学知识图谱都是基于结构化的数据,报纸的内容是非结构化的数据,将其转化为结构化数据的方法是采用分词,然后提取关键词的方式。一方面,由于汉字语言的特殊性,分词的准确性有待提高;另一方面,基于词频的TF-IDF算法无法体现词在句中的位置信息和语义关系(如主语、谓语、宾语等),判断词的重要性的能力还有待提升。第三,关于科学知识图谱的可视化软件很多,而且都主要是针对英文文献,VOSviewer是否是最适合开展类似研究的工具?第四,图谱的解读是绘制知识图谱的最终目的,目前对知识图谱的解读主要依靠领域专家对知识领域了解的广度和深度,如何保证解读的准确性?这些问题都需要通过进一步的研究和探索来解决,以提升和完善定量研究水文化的方法。
作者:熊永兰 张志强 刘志辉 程国栋 单位:中国科学院资源环境科学信息中心 西北师范大学地理与环境科学学院 澳大利亚墨尔本大学澳中水资源研究中心 中国科学技术信息研究所 中国科学院寒区旱区环境与工程研究所