[摘要]分析了数据生命周期理论与模型,研究了学术图书馆科研数据管理的主要内容,构建了基于数据生命周期模型的学术图书馆科研数据管理体系,提出了基于数据生命周期的学术图书馆科研数据服务保障机制。
[关键词]数据生命周期模型;学术图书馆;科研数据;管理体系
随着移动互联网技术的发展,数字化资源以惊人的速度不断增长。根据IDC发布的全球数据研究报告,预计到2020年全球数据总量将超过40ZB。E-Science时代海量科研数据的产生与应用,迫切需要相关学术机构结合其特点,通过数据采集、组织、存档和研究,建立完善的管理机制,保障这些科研数据的合理利用。学术图书馆作为研究型文献管理机构,长期以来一直通过管理文献资源的方式辅助科研活动,在助力科研创新方面也扮演着重要角色。数据生命周期是从数据生成、加工、发布到利用的循环过程,表现了基于科研全过程的数据管理[1]。面对E-Science背景下科研范式的发展,以及用户对科研数据组织、存储和利用的新需求,学术图书馆积极探索科研数据管理内容,建设基于数据生命周期的科研数据管理体系,发挥在数据增值服务方面的作用,有助于提升科研数据服务能力。
1数据生命周期理论与模型分析
1.1数据生命周期理论概述生命周期的概念最早被应用于生物领域,此后经过不断演化被应用于多个领域。国外学者通过研究数据信息的生命周期,探讨了数据生命周期的内涵,指出它代表一种数据在特定环境下,经过加工、存储和管理,实现资源发掘和利用的过程。具体而言,数据生命周期就是对数字化资源进行加工处理和长期保存,并在科研项目、决策制定中实现再利用的活动[2]。通过总结各流派的相关理论,可知科研活动是数据生命周期的来源,而一个完整的数据生命周期涉及到生成、加工、知识抽取等多个层次。从内容层面分析,数据生命周期包括数据初加工、再加工和获取附加值等环节,涉及到基于数据加工的一系列知识抽取活动。1.2数据生命周期的作用由于科研周期与数据生命周期存在关联,因此通过宏观分析数据生命周期,就可以大致了解科研过程中科研人员的数据需求。E-Science时代科学研究与基础信息设施的发展,逐渐向数据密集型方向转变,科研创新更加依赖对科研数据的再利用。如何帮助科研人员提高科研数据利用率,促进科研数据的开放共享,是学术机构关注的问题[3]。然而对于科研数据的研究与管理,涉及到不同利益主体之间的协调作用,是一个长期而复杂的系统。数据生命周期为科研数据管理提供了基本框架,可以发现科研数据演变阶段研究者的需求,描述复杂的数据管理和流通过程,明确不同利益相关者的关系。此外,数据生命周期来源于科研周期,在研究数据生命周期的基础上构建模型,也可以准确映射科研活动全过程。1.3数据生命周期模型数据生命周期为不同利益相关者提供了价值评估工具,也为科研数据服务实践提供了途径。为方便分析和利用,澳大利亚、英国等研究机构结合实践经验,构建了多个数据生命周期理论模型,如DDI3.0模型、I2S2模型、DataONE模型等。常用的数据生命周期模型大致分为矩阵状、链状、环状3种,在应用场景和构成要素方面存在差异[4]。其中DDI3.0为链状模型,不同环节呈一定的次序排列。I2S2矩阵模型属于数据生命周期模型的子集,也是对链状模型的深化。美国国家科学基金(NSF)为满足科研开发需求,阐释数据存储和管理实践中彼此间的关系,提出了首尾相接的环状DataONE模型,体现了数据生命周期的循环过程(如图1)。
2学术图书馆科研数据管理的主要内容
科研数据包含了科研活动过程中产生的所有能够存储的数字资源,以及能够转换为数字形式的数据,如遥感勘测数据、仿真数据等。学术图书馆开展科研数据管理,不仅能够避免科研数据丢失,实现科研数据的长期存储和共享,也是满足科研人员动态信息需求和促进图书馆发展的必要措施。2.1基础设施建设目前学术图书馆独立构建数据仓储进行科研数据管理的案例并不多见,一方面与图书馆在资金、技术方面存在不足有关[5]。另外,面对E-Science时代学术资源开放、共享的趋势,图书馆领域更加推崇协同合作,营造科研数据管理的硬件环境,采取资源互补、技术共享的方式共同建设机构仓储。学术图书馆也可以与科研项目机构合作,借助外部设备和项目的支持,构建满足不同学科需求的数据仓储,使科研数据管理跨越单个机构的限制,帮助科研人员获取更多有用资源。例如,澳洲国立大学图书馆与其他院校、机构知识库合作,共同搭建科研数据管理的硬件环境,可以为大量科研项目提供数据存储服务。2.2科研数据集成服务科研数据产生于数据生命周期的任意阶段,与科研活动、科学文献等都存在关联,只有通过关联分析发现内在规律,才能获取更多有价值的信息。学术图书馆是科学文献存储中心,在数据集成方面具有丰富的经验。随着数字化技术的应用,很多学术图书馆已经可以利用智能化工具,为科研人员提供数据关联组织和个性化推荐服务。科研数据作为具有极大应用价值的信息,必然要求图书馆通过科研数据关联集成,将某一类型或某一领域的数据集和科学文献结合起来,帮助科研人员发现不同数据的潜在联系,进一步利用好各类资源。此外,图书馆利用数据挖掘技术处理科学文献,如学术专著、会议纪要、发明专利等,以数据生命周期模型为纽带,将原始数据与再生数据关联起来,实现多学科资源的汇聚,也方便科研人员迅速获取有价值信息。2.3科研数据存储服务在开放获取运动的推动下,很多国家对于信息机构的科研数据都要求开放共享[6]。在这样的背景下,学术图书馆作为长期提供科研数据服务的场所,自然要求顺应开放获取的发展趋势。在西方一些发达国家,很多学术图书馆正在尝试开展科研数据开放存储服务,而科研人员也乐于借助图书馆存储科研信息或成果。在科研数据存档方面,学术图书馆构建专门的机构知识库,通过IR拓展的方式为科研数据管理提供支持,也可以建设科研数据档案库,引进专门的软硬件设施开展科研数据服务。由于E-Science背景下科研人员的数据管理需求日益增长,学术图书馆必须尽快拓展科研数据存储空间,并且通过寻求政府部门、基金会的支持,以解决新增业务带来的成本增加等问题。
3基于数据生命周期模型的学术图书馆科研数据管理体系构建
学术图书馆科研数据管理涉及多个环节和利益主体,具有动态性和复杂性特征。笔者在分析国内外科研数据管理成果与掌握科研人员数据管理需求的基础上,将人力资源、技术平台、服务内容作为重点,构建了基于数据生命周期模型的科研数据管理体系(见图2)。3.1调研科研数据管理需求纵观国内外图书馆科研数据管理体系的设计,均是建立在充分调研图书馆用户科研数据管理需求的基础上的。学术图书馆掌握科研人员的实际需求,是设计科研数据管理体系的出发点,也是完善科研数据管理流程、保障科研数据管理效果的基础。一方面,学术图书馆可以采用问卷调查的形式,了解科研人员如何开展数据存储、备份,是否存在成熟的元数据等。问卷调查适用于规模较大的需求分析,在调研准备阶段需要做好宣传工作,对问卷的设计注重问题的选择和答题时间控制,避免相同性质的问题重复出现,并做好问卷整理、统计工作。另一方面,学术图书馆也可以采用直接访谈的方式,了解科研人员对科研数据管理的认识,并通过小组讨论的形式分析科研数据管理的需求动向。3.2建设完善的技术平台技术平台包括与科研数据管理相关的一系列软硬件系统、存储设备和服务器等,为学术图书馆开展科研数据管理活动提供了保障[7]。技术平台的构建可以采取学术图书馆与其他机构共建的方式,如档案馆、科研单位等,发挥各自优势,协作搜集与科研数据管理相关的工具、设备,整合不同类型的数据资源,如资源链接、元数据标准等,解决整个数据生命周期中存在的技术难题,保障技术平台的完整性、可靠性。例如,伊利诺伊大学与校外云服务公司共同构建科研数据存储库,可为科研人员提供数据保存服务。学术图书馆也可以结合自身优势与发展需求,明确数据管理政策机制,自行购买或引进专业化工具设备,解决数据信息安全控制问题,通过网页链接、社交平台等整合资源,建设满足科研人员需求的技术平台。3.3人员配置与服务内容学术图书馆人力资源的合理配置,通过设立专门的科研数据管理团队,保障科研数据服务顺利开展。具体实践中可以采取对外招聘的方式,吸引专业人才参与科研数据管理工作,也可以通过内部培训的方式提高图书馆员的科研数据管理技能,弥补在科研数据管理方面的缺陷。同时要求图书馆员结合数据生命周期制定科研数据管理计划,提供与科研数据管理密切相关的设施、工具和服务内容,具体包括数据引用、数据出版、数据加工等。开展科研数据服务的方式包括参考咨询、在线交流、教育培训等,并要求服务人员做好数据备份和数据加密工作,避免出现知识版权纠纷,提升数据使用安全性。
4基于数据生命周期的学术图书馆科研数据服务保障机制
学术图书馆是科学研究与教学资源的聚集地,具备提供、存储信息资源和促进资源共享的职能。在充分利用科研数据收集、管理的相关成果提供服务的同时,也应依据数据生命周期构建相应的保障机制,为科研数据管理与服务提供支撑。4.1规范数据管理政策学术图书馆作为科研数据管理服务机构,需要注重协调多方利益,明确不同主体的权责,并制定科学的数据管理规范,保障科研数据管理效率。在科研数据服务实践中,图书馆应结合数据生命周期模型探索合适的数据管理政策,如开放获取政策、科研数据使用流程等,为科研数据管理工作提供依据,并规范研究人员的数据利用行为。谢菲尔德大学图书馆为促进科研数据共享,发布了关于科研数据开放获取的政策,开展了数据管理咨询、数据管理培训等服务。学术图书馆要想实现科研数据共享,需要结合不同类型科研数据的特点,采取学术交流、主题讲座等方式,分析科研数据的开放获取条件,探索如何解决科研数据的存储、再利用问题,以及如何提升科研人员的共享意识等。4.2引入数据处理系统学术图书馆引入数据处理系统对原始科研数据进行加工处理,实现数据价值扩展,是保障科研数据服务效果的必要方式。数据密集型科研活动的完整生命周期包括数据采集、组织、管理、分析等环节,而科研数据管理涵盖元数据构建、数据映射、语义描述等活动。因此,对科研数据的加工处理,首先需要借助专业数据分析软件研究外部数据集,为数据挖掘和语义描述奠定基础,然后对原始数据进行初加工与深加工。其中数据初加工的目的,就在于实现采集数据向长期存储与利用的过渡,再加工的目的在于研究外部数据集与已有数据的关系,通过添加语义注释、数据融合等方式,实现数据补充和优化,保障数据的完整性和可操作性。数据挖掘是科研数据管理和服务的基础,未来学术图书馆在科研数据管理方面将引进更多智能化工具,融合数据关联分析更好地提升服务效率。4.3开展科研数据素养教育开展数据素养教育是推广科研数据服务的基础,学术图书馆应从科研生命周期出发,联合不同信息机构和组织,以图书馆为主导形成跨机构协同机制,共同开展科研数据素养教育工作。例如,康奈尔大学图书馆通过多方合作,协同创建与实施数据管理计划,并能够提供数据生命周期任意阶段的数据管理服务。同时学术图书馆应联合科研机构、高校、信息化中心等,共同建设科研数据素养教育平台,设计完善的功能模块,推出优质科研数据教育资源,保障图书馆用户获取数据的高效、准确性。在科研数据素养教育课程设计方面,可以聘请专业教师参与平台整体规划,实现专业课程教学与科研数据素养教育融合,全面提升图书馆用户的数据意识。
5结语
当前学术交流模式的变革和大数据的广泛应用,使科学研究活动呈现数据密集化的趋势。随着国外图书馆相继制定科研数据管理规范和共享政策,更是掀起世界范围内科研数据研究的浪潮。学术图书馆作为科研项目的支持机构,应积极承担科研数据管理任务,构建支持数据驱动的技术平台,是应对全新科研环境的必然选择。
参考文献:
[1]刘桂锋,卢章平,阮炼.美国高校图书馆研究数据管理服务内容研究[J].图书馆论坛,2015(8):137-144.
[2]徐坤,曹锦丹.高校图书馆参与科学数据管理研究[J].图书馆论坛,2014(5):92-98.
[3]陈丽君.约翰•霍普金斯大学科学数据管理服务实践与启示[J].现代情报,2016(4):110-114.
[4]王秀华.澳大利亚国立大学图书馆数据管理服务及启示[J].河南图书馆学刊,2015(4):95-98.
[5]武琳,林明春.牛津大学科学数据管理经验与启示[J].图书馆学研究,2015(24):48-53.
[6]黄如花,赖彤.利益相关者视角下图书馆参与科学数据管理的上海职称分析[J].图书情报工作,2016(3):21-25.
[7]熊文龙,李瑞婻.基于科学数据管理的图书馆数据服务研究[J].图书情报工作,2014(22):48-53.
作者:李航 单位:闽江学院图书馆