[摘要]介绍了数据生命周期理论及科学数据管理的能力成熟度模型,分析了基于数据生命周期理论的学术图书馆服务角色定位,在此基础上构建了学术图书馆科研数据管理模型,主要包括基本框架、数据模块、技术模块和服务模块等。
[关键词]数据生命周期;学术图书馆;科研数据;管理模型
在计算机网络科技和信息技术快速发展的趋势下,科学探究的过程及其研究手段都发生了翻天覆地的变化,与此同时,科研数据也呈现指数上涨的趋势。现代科学研究是合作性的,需要不同学科专业背景的人才进行跨学科、跨专业的合作研究[1]。科研数据作为科学研究的基础和保障,在科研数据渐变得学科丰富化、多元化和扩大化的境况下,对其进行有效的管理与保护变得迫在眉睫。目前对于科研数据的管理与保护进行探索研究和思考也渐渐成为图书馆学研究领域的热点之一,持续性的动态管理活动不仅能够完善对科研数据的管理,促进科研数据的利用和共享,还能够提高科学研究的质量,做到短期效益、长期价值。高校图书馆作为为教学以及科研工作提供专门服务的机构,可凭借不同的形势态度对科研数据管理与保护开展有效服务,其作用非常重要且不可替代。国外在有关实践应用领域已有非常丰富的经验,这对我国进行数据管护的探索考察工作具有极其重要的借鉴与启示作用,因此我国高校图书馆应把握机遇,开展相关科研数据管护方面的工作,并根据本馆的实际状况,做到科研数据管护服务工作的本土化。
1数据生命周期理论及模型
1.1数据生命周期随着计算机技术和跨学科领域科研探索的发展、科研工作向研究密集型数据变化的趋势,以及科研创新对于大量数据的处理和利用方面的依赖[2],各机构、大学以及研究人员开始共同关注如何推进科研数据管理以及利用,研究数据成果对外开放共享的相关问题。关键的阻碍在于规划和实践科研数据的管理是一个相对漫长复杂的过程,这关乎到人与机构、资源以及活动之间的相互配合与协调。生命周期模型作为一个有用的框架,可以帮助开展和理解研究数据的管理工作,可以用来解释和定义科研数据管理的复杂过程,有效并正确地读取研究数据的演变阶段以及对于研究人员的特定要求,明确在数据服务实践中不同利益相关者所担任的角色和承担的责任,以及对于当前已经开展研究数据的相关管理项目的评估等。1.2科学数据管理的能力成熟度模型(SDM-CMM)最初的能力成熟度模型(CapabilityMaturityModelforSoftware,CMM)开发于美国卡内基—梅隆大学的一个软件工程研究所,其目的在于修改并完善软件在开发过程中的组织能力[3]。就目前来说,CMM模型已在系统工程、人力资源以及知识管理等领域取得了非常多的优秀研究成果。目前,国外已经开始在研究数据的管理领域实践能力成熟度模型,并提出来自英国巴斯大学的社区成熟度模型框架、弗吉尼亚大学图书馆的DMVitals、澳大利亚国家数据服务(ANDS)和雪城大学的SDM-CMM[4]等。其中,弗吉尼亚大学图书馆的DMVitals目标是对于研究人员的数据管理;巴斯大学的社区成熟度模型框架旨在探索与研究社区开展数据密集型研究的相关能力;ANDS的模型和SDM-CMM都是从机构层面出发,以管理整个机构框架的数据为基础,但与ANDS的模型相比,SDM-CMM的定义更具针对性,内容更加充实与完善。SDM-CMM的体系结构如图1所示。
2基于数据生命周期理论的学术图书馆服务角色定位
目前,国内各高校图书馆已意识到科学地进行数据管理的重要性,并且已经开始在机构知识库建设过程中对数据管理进行探索与创新,具有代表性的是国家科学图书馆的机构知识库[5]。由此可见,高校图书馆应该成立专门的科学数据管理部门并设置相关岗位,使其在科研数据管理工作中发挥重要的作用,并承担好以下几个角色。2.1科学数据管理协调者国外科学数据管理和运行,多采取涉及到多个机构协作与联盟的管理模式。因此在对于数据科学管理的过程中,高校图书馆应扮演科学数据管理协调者的重要角色,做到科学数据从一开始产生时就应与有关科研管理组织、研究人员或组织合作协商,拟定对于数据科学管理的有关政策、提交机制和保存规则,以及对于科学数据的管理计划。2.2元数据组织和管理机构科学数据管理工作中非常重要的环节在于数据的组织,图书馆也可以看作是管理信息资源的组织机构,责任在于设置元数据组织的馆员、扮演元数据组织和管理的角色任务,确定数据管理过程中,积极与研究人员和研究机构制定元数据方案、以及数据选择规则等,制定契合的数据保存方法,以确保数据的储存和访问。2.3科学数据长期保存机构信息时代,数据是动态变化于科研过程中的,图书馆应担负起确保数据长期储存与利用的责任和义务。现在,高校图书馆可以选择利用构建机构库的办法,保存科研过程中的相关数据,与此同时,还要做到深化套索数据的长期保存规则,以便再次利用。2.4数据质量监控者科学数据对于科研过程来说是极其重要的,每一阶段数据是否准确将直接关乎到科研成果的成功与否。所以在科学数据管理中,对于数据质量的监控就是一项十分重要的工作[6]。由于动态的数据产生过程,使得对于数据质量的监控变得非常困难,这就对管理者的数据素养提出了较高的要求。图书馆作为收集和保存信息的机构,在数据保存的过程中,也扮演着监控数据质量的角色,故应设置监控数据管理馆员,赋予其监控科研过程的权利,使得在数据成果诞生的各个阶段做到对数据质量的及时评估。
3学术图书馆科研数据管理模型的构建
3.1基本框架科研数据管理与保护的实施受到多方制约,是一项极其复杂的项目。如今,科研数据管护在我国国民的印象中是一个较新的概念,国内还并没有有效的管理科研数据具象的成果模型[7]。科研数据的管护在基本设施的完善性、组织结构的可靠性、技术方面的先进性以及工作人员的职业素养等方面都有比较高的要求。笔者将分析科研数据管护的三层架构模型,如图2所示。数据层处于管护模型架构的最底层,也是最为基础的,包括毕业论文、学术论著以及科研项目数据、Web数据以及知识库基本数据等。这些科研数据均来源于本机构师生以及研究人员进行科学研究后所得到的数据,另一种渠道是通过与国内高校、科研机构组织或者政府相关部门的合作,由数据服务工作人员提供专门的措施,鼓励研究人员上传其研究数据到机构外的数据中心共享库中,以及上传来自互联网的大量数据和隐藏于知识库中的数据。技术层是中间部分,起到中介的作用。这一层主要包括两个部分,第一部分是对于科研数据的分类归档、存储、标注以及数据挖掘等方面;第二部分部分包括OpenAPI、索引器和服务器等方面。OpenAPI即开放API,也称开放平台,其为了二次应用开发数据资源,因此在开放平台中开放了自身的数据。索引器作为c#程序语言种类中的成员之一,它可以做到将对象像数组一样被索引,使用下标,并且通过索引的方式方便地访问数据信息的方法,便于直观展示和编写程序。服务层作为最顶层模块,是实现科研数据管护模型的一种方法。这一层也包括了两个内容,第一个是检索、推送、定制以及咨询服务等,是数据研究专家及馆员为用户提供的多样化服务,以满足用户对于科研的需求;第二个是统一检索平台、机构基本知识库以及数据资源库等,一方面是服务于高校师生或科研人员,方便用户通过此平台和数据库进行检索与使用数据,另一方面是数据研究专家或服务馆员录入、管理以及维护这些通道以便进行科研数据等方面工作。3.2数据模块科研数据管护的数据模块主要分为四部分,如图3所示:①数据资源库,内容是机构内与外的数据库、机构知识库,在软件系统和硬件设备的支持下,对于科研数据进行存储,以便用户检索与利用。②毕业论文数据主要是高校师生或是研究人员的研究成果,即他们论文中的科研数据、学术论著数据即高校师生及研究人员的论著、科研项目数据即高校师生以及研究人员科研项目中的数据、Web数据用于统一检所平台、以及知识库中的基本数据等。③数据对象以及数据集,该科研数据的种类多样,包括文本数据、各学科的数据、图像、软件以及各种算法和模型等。④元数据、原始数据、推导数据以及组合数据等。其中,前3个属于数据对象,而最后一个属于数据集。元数据是描述数据或者信息资源;原始数据是高校师生以及研究人员原始创建的未经改变或加工的数据;推导数据是对于已经存在的科研数据进行演变而产生的;组合数据是由两个及以上产生直接抑或潜在联系的原始或者推导数据相互组合拼贴而成的数据集合。3.3技术模块科研数据管护的技术模型可分为4个部分,如图4所示。这4个部分分别是数据库;对于科研数据的探索、分析以及划分种类入档;包括OpenAPI、索引器、服务器等软件硬件在内的基础建设以及数据消费者;具有科研数据需求的高校师生及研究人员等。机构内的数据库包括来自高校科研项目中的各种科研数据成果、本校师生所发表文章中的各种科研数据以及其毕业论文中的各项科研数据,他们都是由高校教师学生以及研究人员主动汇报或者由数据服务方面的工作人员要求或者激励科研人员上传他们的科研数据,这些被上传的研究成果需要有他直接的利用价值或者间接的研究价值。机构外数据库的主体是一个对外共享的、与其他部门合作的数据库。这一过程经科学研究发现,其包括收集和探索科研数据,还会筛选出科研数据中有实际或潜在价值的数据成果。然后分析和探索这些科研数据,主要工作是挖掘、标注和评价这些科研数据。数据挖掘是通过算法在海量的数据中找寻初隐匿于其中的有效信息,再标注科研数据、评价其价值,最后是归类提档这些科研数据的成果,也就是对最后的成果进行划分、储存以及对科研数据进行编制索引。在发现、分析和归类提档科研数据之后,可以通过使用Ope⁃nAPI、索引器、服务器等软件和硬件基础设施,通过统一检索平台、机构库或是数据资源库等,将最终将科研数据提供给数据消费者,以满足高校师生以及科研人员对科研数据的需求。3.4服务模块笔者构建的科研数据管理服务模块主要包括:①数据创建者与提供者,他们的职责是上传科研数据。②数据研究专家和数据服务馆员,为科研数据管护的用户提供高质量、高效率和高效益的科研数据服务。他们主要的任务有对高校师生和科研人员进行培训,使他们能够运用检索平台或数据库等平台获取自己所需要的科研数据;也可以继续教育与自省,时刻更新和掌握有关领域的信息;管理系统;定制服务;分析以及归类提档科研数据等相关工作。③数据资源库、机构基本知识库以及统一检索平台。数据资源库包括机构内外数据库;机构知识库是基础的部分,可以存储科研数据,共享数据以及数据集的时候,作为临时、过渡的存储节点或者是数据阶段型的存储库;统一检索平台的数据服务的主体包括数据导航服务、数据用户的个性化定制、推送的服务以及其咨询服务,即使用相关技术研制出满足用户不同需求的服务。因为科研数据有着大规模、多品种、丰富内容和异形结构的特点,所以这部分需要实现大规模、可伸缩以及负载平衡的大容量存储,还需要数据研究专家及服务馆员根据数据相关的生命周期,进行智能、秩序、虚拟的管理活动。④数据消费者,主要是高校师生以及科研人员等用户,他们在完成授权并被肯定之后,通过统一检索平台、机构库和数据资源库等平台对科研数据进行检索,并反馈给数据消费者相关结果。如果检索所需科研数据失败,也可反馈信息给数据研究专家或者是服务馆员,以达到帮助数据服务馆员完善数据库的目的。
4结语
目前,高校图书馆已经给予服务于科研活动的科学数据新的解释与定义,也在科学数据的存储、整理与使用方面有了新的目标,这也是如今高校图书馆非常现实并且有待解决的问题,笔者从科研数据的生命周期理论和模型方面入手,为解决高校科学数据管理问题努力寻找研究方法与措施。
作者:孙仙阁 单位:黑龙江科技大学图书馆