摘要:元数据是电子档案的重要组成部分,其管理方法、管理水平将直接影响电子档案长期保存的真实性和凭证性。本文在分析、测试4种电子档案元数据管理方法的基础上,从功能性和安全性角度对比了管理方法的特点,以当前信息技术条件为基础,分析并设计了常见电子档案类型元数据管理的统一方案,以实现对不同电子档案类型元数据管理方案的一致性策略,在电子档案元数据管理策略的可实现技术路线方面具有一定的参考价值。
关键词:电子档案;元数据;管理;方案
DOI:10.16065/j.cnki.issn1002-1620.2016.02.016
1四种电子档案元数据的管理方法及其分析
1.1内封装
内封装指的是将电子档案的内容信息和其元数据“绑定”成一个完整对象。从国际范围看,出现了多种数据封装方法,如VEO、Mets、FoxML、MPEG-21和Bueketsl等。VEO和Mets在国际文件和档案管理领域较具代表性。VEO封装方法对我国档案界的影响相对较大,国家档案局发布的行业标准《DAT/48-2009基于XML的电子文件封装规范》就是基于VEO封装方法对文本类和图像类(仅静态图像)电子档案的封装规范进行了约定。内封装存在两种方法:一是将电子档案的内容信息(指存储电子档案内容的数据文件,下同)转换为Base64编码,与元数据一并封装到XML结构中;二是将电子档案的元数据直接封装到内容信息,内容信息不做编码处理,将元数据直接写到数据文件中的特定位置。1.1.1XML内封装采取VEO封装方法,将电子档案的内容信息进行Base64编码,并将内容信息编码与元数据一并封装到XML结构中。Base64是将二进制数据编码为64个可打印字符形式的表达方法,它用64个可打印字符能够表示二进制所有的数据。由于严格来说计算机系统中存储的所有数据文件均以二进制储存,所以理论上文本、图形、图像、影像和声音类的电子档案内容信息均可以做Base64编码并封装在XML结构中。此方案在具体实现时并不存在障碍,但笔者对其执行效率产生了疑问。对电子档案内容信息进行Base64编码后进行XML结构封装/解封装需要一定的系统开销和耗时,对于文本类的小文件可能不存在问题,但对于数码照相、录像、录音技术发展使得分辨率、采样频率等日渐提升导致的数据文件容量日益庞大的图像类、影像类和声音类电子档案是否可以接受呢?笔者通过三个数量级对该问题进行了测试,由于主要是测试大容量数据在进行XML结构封装/解封装时的效率问题,测试过程中直接使用原始的数据文件进行封装,结果如表1。根据测试结果,大数据容量文件的封装/解封装性能存在明显问题,考虑如今常见的B/S架构系统执行效率,诸如图像、影像和声音等大数据容量文件的封装和解封装不仅会制约系统性能,亦可能出现运行超时问题。1.1.2内容信息内封装内容信息内封装方案指的是不改变电子档案内容信息的长期保存格式,将元数据通过技术手段直接嵌入到存储电子档案内容的数据文件中的特定位置。如图2所示。在设计该方案的过程中,笔者首先重点考虑了其是否可实现的问题,选择了包括PDF、JPEG、GIF、TIFF、RAW、MP3、WAVE、MPEG4、AVI等常见数据格式进行了分析和测试。由于对电子档案真实性和凭证性鉴定的重要手段为HASH值校验,即将特殊安全保管的电子档案内容信息(不含元数据)原始HASH值与文件系统中长期保存的电子档案内容信息进行比对,得出是否被篡改或破坏的结论。如果采取内容信息内封装方案,在进行电子档案真实性和凭证性鉴定时,势必需要将内封装的元数据抽取出来之后仅对比原始内容信息的HASH值。因此,笔者在分析和测试过程中,重点测试和分析了两点问题:①各常见数据格式是否有技术可实现内封装;②将内封装的元数据抽取出来后,不含元数据的内容信息是否可通过HASH值校验。结果如表2。根据测试结果,RAW、WAVE、MPEG4、AVI等4种数据格式未找到能够在其中嵌入数据的开发工具和技术;TIFF、MP3等两种数据格式将元数据抽出后,数据格式的字符流发生变化,与封装元数据之前的内容信息HASH值比对不符合;仅有PDF、JPEG和GIF等3种数据格式全部通过了两方面的测试。基于此,在现有信息技术条件下,由于多数常见数据格式无法实现,该方案并不可用。
1.2半封装
半封装主要指的是电子档案元数据单独做XML结构封装,在元数据封装包中仅写入电子档案内容信息的存储位置,内容信息不做编码处理并独立存储,并在元数据的XML封装包中添加电子档案内容信息的相对路径,实现电子档案的内容信息和元数据的有效关联。如图3所示。由于半封装的方案仅在电子档案元数据XML结构封装包中写入了内容信息的相对路径,并没有将内容信息与元数据联系为一个数据文件整体。笔者认为该方案与不封装的方案实际并没有差别,由于其实现的仅仅为元数据与内容信息的逻辑关联,而逻辑关联显然有更简单的实现方法,因此本方案并没有操作价值。
1.3不封装
不封装主要指电子档案的元数据和内容信息不进行封装处理,元数据在关系型数据库中以结构化的数据形态进行管理,内容信息不做编码处理,在文件服务器中以非结构化的数据形态独立存储、长期保存格式进行管理,两者间进行有效关联。如图4所示。不封装方案显然是以上几种方案中最容易实现,且在信息技术环境下最易于管理的。但是,该方案的问题在于电子档案元数据与内容信息的真实性和凭证性并没能紧密捆绑,逻辑关联的方法是否能够满足电子档案内容信息的长期保存需要还有待时间的验证。
1.4特定封装
特定封装指的是将电子档案元数据与保障电子档案凭证价值的电子档案身份证[1]进行封装,封装包进行加密处理后存储在关系型数据库中以结构化的数据形态进行管理,电子档案的内容信息不做编码处理并以非结构化的数据形态独立存储,电子档案身份证和元数据的封装字符串与电子档案的内容信息进行有效关联。如图5所示。该方案除电子档案内容信息以外,电子档案身份证和元数据都采取结构化的数据形态存储,在信息技术环境下易于实现和管理。同时,由于电子档案身份证作为保障电子档案真实性和凭证性的数字证书,将元数据与身份证捆绑实际上是实现了将元数据与电子档案内容信息直接封装的效果。
2电子档案元数据管理方案对比
根据上述4种主要的电子档案元数据管理方案,笔者在功能性和安全性等方面进行了对比。由于内封装方案的第二种方法“内容信息内封装”在多数常见数据格式中无法实现,因此认为其不适宜运用于电子档案元数据管理领域,未进行对比。本文主要对比了XML内封装、不封装、半封装和特定封装等4种电子档案元数据管理方案,对比结果如表3。根据对比结果,采取特定封装的方案更符合当前信息技术环境下电子档案元数据的管理需求。XML内封装方案难以解决图像、影像和声音等类型大数据容量文件的处理问题,可行性不高;不封装方案在真实性和凭证性校验方面欠缺带有有效数字签名的元数据支持,且元数据与内容信息联系不够紧密;半封装方案则综合了XML内封装方案和不封装方案的大部分缺点,不能满足电子档案元数据的管理需求。但是,特定封装方案依旧存在元数据变动导致电子档案身份证加密字符串不断重复制作的过程,这同样会对确保电子档案真实性和凭证性较为核心的电子档案身份证带来一定的数据风险。
3建议采用的电子档案元数据管理策略
笔者认为,结合电子档案元数据分开管理方法[2]、综合特定封装和不封装两套方案可较好地解决问题。即只将电子文件形成过程中的、直接关系电子档案真实性和凭证性的对象元数据与电子档案身份证进行封装,由于该部分元数据形成后不会再有变动,可有效避免电子档案身份证加密字符串的重复制作。同时,将对象元数据、事件元数据在关系型数据库中以结构化的数据形态存储,即可实现电子档案身份证中的对象元数据与数据库中存储的对象元数据比对,也可提升事件元数据变更时的管理效率、提高元数据的使用效率、降低对电子档案的内容信息和身份证的数据管理风险。此外,该方案与存储电子档案内容的数据文件格式无直接关系,不同的数据格式差异不会对元数据的管理造成技术架构变化的风险,且任意数据格式均可使用同样的一套技术体系实现对其元数据的安全有效管理,故该方案的可扩展能力较强,在信息系统开发过程中技术的复用性亦较强。本文系北京数字档案馆(北京电子文件中心)建设项目系列研究之一。
参考文献
[1]陶水龙,薛四新,田雷,张桂刚,李超.异构系统中电子档案凭证性保障的整体构思[J].档案学研究,2012(5).
[2]陶水龙.电子档案元数据分开管理研究[J].中国档案,2014(9).
作者:陶水龙 田雷 单位:北京市档案局