摘要 归纳了北关人文社会科学数据管理典型案例的特点,同时梳理我国人文社会科学数据管理项目的现状,指出了存在的不足。从制度、规划、机构合作、建设与服务、技术、人才培养等六个层面,对我国开展人文社会科学数据管理提出了建议。
关键词 科研数据 数据管理 人文社会科学
1 引言
20世纪90年代以来,随着e-Research概念的提出和不断发展,科研范式朝着数据密集、跨领域合作的方向不断前进。在人文社会科学(以下简称“人文社科”)领域,定量研究越来越受到普遍重视,树立实证观念和数据意识成为研究人员的必备素养,对数据信息的需求成为学科发展的内在要求。
人文社科数据主要包括民意调查、投票记录、家庭增长与收入调查、社交网络数据、政府统计数据和指标,以及衡量人类活动的地理信息数据等。然而,大量的数据却未能得到有效管理。据PARSEInsight项目对全世界跨领域的1270名科研人员处理科研数据模式的调查,81%的科研数据被存放在科研人员自己的电脑上,并通过一些非正式的渠道进行分享。随着数据的不断累积,保存和分享就会越来越困难,同时还存在遗失与格式变化的风险,加强数据管理成为一种必然要求。
数据是信息资源的一种类型,图书馆作为信息保障机构,开展数据管理是应尽之责。另一方面,图书馆作为稳定存在的机构,有必要的人员、设备和经费保障,同时,馆员拥有信息管理的专业技能,在数据管理上具有得天独厚的优势。
对我国高校图书馆而言,面对人文社会科学在e-Research环境下的快速发展,如何吸取国外经验,开展数据管理,成为当前的一项重要课题。
2 北美人文社科数据管理的现状及其特点
从1946年埃尔莫·罗珀(Elmo Roper)创办世界上第一个社科数据管理项目——罗珀民意研究中心(The Roper Center for Public Opinion Re-search)至今,北美已建立了众多的人文社科数据管理项目,为我国开展数据管理实践提供了宝贵经验。本文选取其中有代表性的项目,分析其特点。
ICPSR:政治与社会研究校际联盟(Inter-uni-versity Consortium for Political and Social Re-search),于1962年由密歇根大学社会研究中心建立,采用会员制,至今已有700余家会员机构。其目的在于收集、保存社科研究数据资源,并提供数据再利用;通过用户辅导,使研究人员在量化研究中能有效运用数据。目前,ICPSR收录6300多个研究主题的50多万件数据资料,包含数据的原始文件、描述文件及相关文件档,部分免费使用,部分仅限会员使用;同时,收集了63000多件引用其数据的文献,这些文献相互关联,供研究人员二次使用时参考。ICPSR采用DDI(Data Documentation Initiative)元数据标准,其数据被所有主流搜索引擎索引,使得数据更易被发现,从而扩大了数据的影响力。
SSDC:斯坦福大学社会科学数据与软件中心(Social Science Data and Software),隶属于斯坦福大学图书馆社会科学资源中心,着重收集社会科学定量研究数据,并为师生提供数据采集、数据监护、数据保存等服务。SSDC的数据主要来源于ICPSR、Roper和光盘数据库;提供SPSS、SAS、Sta-ta等社会科学数据分析软件,同时,在研究人员的不同研究阶段提供相应服务,如数据分析软件的选择与辅导、协助数据处理及数据修改、数据格式转换等服务。此外,SSDC提供的DEWI(Data Extraction Web Interface)系统可供研究人员在Web界面直接提取该中心数据资源中的数字型数据。
ARDA:宗教数据档案协会(Association ofReligion Data Archives),成立于1997年,隶属于宾夕法尼亚州立大学社会学系,受该大学和莉莉基金会(Lilly Endowment)等机构共同资助。ARDA旨在为教育工作者、研究人员、记者和宗教团体收集高质量宗教数据,数据主要来源于全球最重要的学者和研究机构,目前有750余个数据集,主要是调查数据和统计数据。在数据检索功能方面,ARDA提供检索、分类浏览和题名浏览等功能,同时,推荐最新数据和使用最多的数据;此外,还提供GIS数据分析功能。用户可根据需要,免费下载SPSS、Stata、Co-debook等不同格式的数据。
CPANDA:文化政策与艺术国家数据中心(Cultural Policy&the Arts National Data Ar-chive),于2001年由普林斯顿大学图书馆和艺术与文化政策研究中心共同建立,旨在采集、归档和保存高质量的艺术与文化政策数据,促进数据公开与平等利用;通过对数据的分析和再利用,促进知识创新。CPANDA目前收录250余个数据集,以调查数据为主,提供题名浏览和主题浏览功能,同时提供布尔逻辑检索;此外,还提供在线分析工具。用户可根据需要,免费下载SPSS、Stata等不同格式的数据。其元数据标准采用。
Abacus:加拿大英属哥伦比亚大学图书馆等四所大学图书馆共同建立的社科数据管理项目,成立于1972年,是ICPSR、Roper的会员。数据广泛来源于国际组织、政府部门、科研单位、私立机构、商业数据公司,以及其他数据管理项目等,目前共有1600余条数据集,分为农业、考古、经济、司法、教育等30个主题,采用会员制方式提供利用。系统提供简单检索、高级检索和多途径浏览功能,同时,还提供GIS和Nesstar数据分析工具。英属哥伦比亚大学图书馆还设置GIS数据实验室,供师生进行数据分析。
从上述几个项目来看,北美人文社科数据管理具有如下几个显著特点:
(1)从数据属性层面上看,以上项目所收录的数据学科范围覆盖广泛,基本上涵盖了人文社科的各个学科门类。既有综合性的数据管理系统,如ICPSR;也有单一学科数据管理系统,如ARDA;且数据的管理方式多以数据集为单元。从数据类型上看,大多以调查数据和统计数据为主。在数据来源方面,既有本单位研究项目产生的数据,也有其他研究人员或研究机构捐赠的数据、科研资助机构指定监护的数据、购买的商业数据、政府机构的数据等,来源广泛。