1监测数据集标准化处理
1.1监测任务名称的标准化处理
以目前的全国业务化海洋环境监测任务为基础,对上报的监测任务进行标准化命名,如海洋生物多样监测、海洋大气监测,对不同填报的名称进行标准化处理。
1.2组织单位名称的标准化处理
各地上报的组织单位比较混乱,有的上报了监测机构名称,有的上报了其隶属的行政部门名称,不利于监测任务的考核。根据国家海洋环境监测工作任务以及各海区年度海洋环境监测工作方案,目前组织单位主要包括国家海洋局局属单位、3个分局、11个沿海省(自治区、直辖市)海洋行政管理部门和5个计划单列市海洋行政管理部门,如国家海洋环境监测中心、国家海洋局北海分局、辽宁省海洋与渔业厅、大连市海洋与渔业局,对不同填报的组织单位进行标准化处理。
1.3监测区域名称的标准化处理
由于各地方上报的监测区域不够规范,且很难表现出更多的区域信息,同时考虑到区域统计分析,因此需对监测区域进行规范化命名。监测区域命名结构为:沿海地区/海区+沿海城市/特定区域+名称,其中沿海地区/自然海区和名称字段不能省略,沿海城市/特定区域字段若无可以省略。如,辽宁葫芦岛赤潮监控区,广东近岸、福建厦门近岸、东海近海及远海,对不同填报的监测区域名称进行标准化处理。
1.4监测要素名称的标准化处理
每个监测任务里包含了不同的监测要素,且不同的任务可能会监测相同的要素,因此需对监测要素进行规范命名,以便对相同的要素进行统一分析、数据量统计等。以目前的业务化海洋环境监测要素为基础,对上报的监测要素进行标准化命名,如水文气象、海水水质、沉积物质量、浮游植物和浮游动物等,对不同填报的监测要素进行标准化处理。
1.5监测参数及单位的标准化处理
由于每个监测要素需要监测不同的监测参数,如海水水质需要监测化学需氧量、氨氮和溶解氧等。而每个监测参数的名称在写法上有不同的形式,如化学需氧量也可写为COD,氨氮也可写为氨-氮或NH4-N等,给数据的统计、评价带来一定的不便,因此有必要规范不同监测参数的名称。另外,每个监测要素的单位也需统一规范。如重金属的锌元素,有的上报其参数单位为mg/L,有的上报为μg/L。在数据统一进入标准数据库时,需将单位统一。参照国际标准、国内海洋环境监测调查规范以及各地监测机构的填报习惯等,针对不同的监测任务和监测要素,对每个监测参数的名称及计量单位进行标准化处理。
1.6站位基础信息的数据类型标准化处理
监测数据的类型包括数值型、字符型、布尔型和百分比等。对站位基础信息如站位编号、经纬度、监测日期、水深和层号等的数据类型进行规范。(1)站位编号。上报的站位编号大部分为字符型,但也有站位编号为1、2、3等,为数据库的统一管理,需统一转换为字符型。站位编号不规范主要有以下几个方面:①站位编号英文大小写不一致;②监测机构各自命名;③在站位编号上加“临”“平行样”和“空白样”等字样。参照目前海洋环境监测站位编号规则,由任务编号、海区编号、类别编号和站位序号顺次排列组成。对站位进行统一编号。对于历史站位编号的确认,可通过核查相关的监测数据、核实年度监测方案、联系地方监测机构等方式,将站位编号统一。(2)站位的经、纬度。上报的经纬度有两种形式:一个是小数形式,另一个是度分秒形式。为便于计算机的计算方便,目前统一为小数形式。由于经纬度的小数位数不一致,会导致部分空间定位有细微的差别。结合监测任务计划和实际监测情况,统一经纬度的有效位数,目前保留到小数点后6位。(3)监测日期。上报的监测日期格式不一致,主要形式为:“2011-08-20”“2011/8/20”、或为时间型等。现统一其形式为“2011-8-20”,年份:填满4位;监测月份:1—12,月信息小于10,前位无需补零。注意检查,监测年份是否为该年度;月份是否大于12;日期是否在该月的自然日以内。(4)采样深度与层号。部分地方监测机构在该填报“层号”的地方填写了采样深度,同时层号不统一,有的为中文———“表层”“中层”“底层”;有的为英文———“S”“M”“B”。《海洋监测规范》中对水深和相应的采样层次进行了规范。对层号,统一用英文表示。其中:表层为S;底层为B;若只有一个中层用M表示,若为多个中层,则分别用M1、M2、M3等顺延表示。另需检查层号与层深的匹配情况,若层号为S(表层),则采样深度应小于或等于2m;层号为B(底层),则采样深度大于3m。部分填报机构填写层号时,出现表层填写“B”和底层填写为“D”的现象,可能是按“表层”和“底层”的首拼音字母填写造成的。
1.7监测参数不规范类型的处理
监测参数的不规范类型问题,主要应注意以下几点。(1)大于号、小于号。某些监测参数如重金属、大肠杆菌数等,其监测参数值上报中含有大于号或小于号。此类数据通常不影响其评价等级的判定,但会影响该类参数最大值、最小值、均值等统计的结果。可研究该参数的理化性质并联系地方监测机构,确认该参数的具体值大小。其缺省解决方法是删除大于号、小于号,以便该参数的统计及评价。(2)未、无、“-”等字样。结合年度监测任务,联系地方监测机构,确认该监测参数是未被监测,还是低于检出限。未监测用空值表示;低于检出限用“未检出”表示。(3)空格及其他无效字符。上报的监测数据中常含有空格及其他无效字符,使得计算机在识别、归类等过程中出现异常。可核查监测数据的内容和性质,确认为无效字符后,对数据值前、后含有的空格或其他无效字符进行删除处理。对经纬度空缺,可核查相关的原始上报数据集和年度监测工作方案,或联系地方监测机构;对层号空缺,可根据水深判断,或联系地方监测机构补缺;对某些监测参数值空缺,可结合年度监测任务,联系地方监测机构,确认该监测参数是未被监测,还是低于检出限,再根据判断结果给出规范填写。
2监测数据的齐全性检验
海洋环境监测数据的齐全性检验,是以海洋环境监测方案为依据,检查监测方案中规定的监测数据是否全部上报完整。首先对国家海洋环境监测工作任务以及各海区年度海洋环境监测工作方案进行分析,对监测工作方案进行信息解析,按空间维度、指标维度和时间维度对监测任务进行细化,空间维度包括监测站位、监测区域、管辖区域等,指标维度包括监测参数、监测要素等,时间维度包括监测时间等。其中监测站位、监测参数、监测时间是空间维度、指标维度和时间维度的最小单元,通过对最小单元的数据量统计,可获得其上一统计单元的数据情况。因此对海洋环境监测方案的解析按监测站位、监测参数和监测时间3个方面进行分解。对照监测方案,检查接收的数据是否存在区域、站位或频次等有空缺监测的情况。记录缺失的原因:可能由于某些缘故未能进行监测、地方调整了监测方案或地方漏报。仔细核查年度监测任务计划,联系地方监测机构确认。
3站位基础信息数据质量控制
3.1空间位置检验
空间位置检验主要针对调查单位在站位信息汇总过程中可能出现的录入错误。将调查站位经纬度转换为十进制的单位后,通过利用GIS生成站位图的方式检查站位落点所在位置,看其是否落在规定的监测区域,对于断面上的调查站位,还要检查其是否明显偏离断面沿线。同时还需检查“相同的站位编号,经纬度不同”和“不同的站位编号,经纬度相同”等数据空间位置精度的问题。对于该类问题,可通过核查相关的监测数据、核对年度监测任务、联系监测机构确认等方法,予以更正。
3.2站位基础信息一致性的检测
根据站位基础信息一致性检验方法,即监测区域、站位编号、站位经纬度、监测日期等基础信息决定一条数据记录,根据不同的监测任务和监测要素,分析站位基础信息一致性是否符合。针对站位编号和经纬度不一致的情况,从空间位置检验是否合理,并核实监测方案进行解决。针对监测日期相同且站位编号相同等情况,判断两条记录的监测参数值是否完全一致,若完全一致则认为是重复记录;若不完全一致,可认为是平行样记录,并进一步核实。
3.3数据记录重复的处理
海洋环境监测数据的上报过程中存在很多重复的数据记录,产生这种重复记录的主要有如下原因。(1)地方上报数据时,重复上报了监测数据集,如8月份上报了5月份和8月份两份数据;年底将全年的监测数据再次上报。(2)不同监测机构报送的重复数据,如属于上下两级监测机构(省、计划单列市)重复报送。(3)地方监测机构监测人员填写报表时,将某些记录重复填写。(4)地方监测机构监测人员填写报表时,将平行样的数据填写。(5)数据集合并时,将曾经合并过的数据集再次合并。对于重复的记录数据,在建立环境监测数据库中应做剔除处理。
3.4平行样的处理
平行样数据只作为监测数据质量保证的辅助,在实际统计、评价和监测数据时需区别对待。一般来说,只有少数站位上报的数据是平行样。为了数据量统计、环境质量评价等的需要,对于平行样的记录数据,可将监测参数值进行求平均处理。
4监测参数数据质量控制
4.1值域一致性检验
在海洋环境监测中,每个监测参数有其对应的经验值域范围,通过值域检测规则对填报的监测数据按不同监测要素分别对每个监测参数值进行检验,对于超出值域范围的值,需进一步分析该区域其他站位、其他频次、周边站位的参数值情况,并结合监测任务性质以及超出值域比例,从而判断该参数值的可靠性。
4.2逻辑一致性检验
某些监测参数间存在一定的逻辑关系,即监测参数与监测参数间存在某种相关关系,有些关系具有一定的规律性,根据逻辑一致性检验方法,对于不符合逻辑一致性的监测数据记录,应进一步同监测机构进行核实。
4.3数据输出
对文件进行批量检验处理,对于检验结果,给出合理且足够详细的错误提示,并保存质检日志,使得数据便于修改。为了区别一个数据是否进行了质检、是否通过质检,以及了解质检的情况,需要对质检过后数据增加一个质量控制符号,简称质量符。综合参考“国标GB/T12460-2006海洋数据应用记录格式”以及“908海洋化学标准记录格式”等质量符格式。其中,“908海洋化学标准记录格式”中质量符2表示可疑倾向正确,3表示可疑倾向错误,本研究将这两者综合考虑,记为可疑;另外,“908海洋化学标准记录格式”中质量符8表示痕量,由于与“未检出”有一定的重叠,因此本研究只采用“未检出”。表1给出海洋环境监测数据的质量符及说明。一般来说,数值型的监测参数数据,对其质量检验出有问题的只能作为“可疑”处理,不宜随意修改或删除。除非经过专家经验检验,并经监测单位核实,可明确其为错误的,其质量符方可标注为“4”。对于监测站位基础信息,如监测日期、站位编号、经纬度、层号等,检验出有问题的,可根据检验情况,标注其质量符为“4”或“3”等。按步骤完成监测数据处理流程后,可分年度或季度对处理的文件形成数据处理报告,并制作经标准化处理和质量控制后的标准数据集。
5结束语
目前,全国业务化海洋环境监测数据逐年积累,但监测数据的处理尚未有一个通用的、规范化的处理技术流程,给监测数据的处理带来一定的困难。本研究从海洋环境监测数据管理的角度,以各监测机构上报的海洋环境监测数据为对象,研究了监测数据集的处理技术流程及方法体系。这一处理技术流程及方法体系的推广将会,进一步规范监测数据的业务化处理流程,大大提高监测数据的处理效率和水平,为海洋环境保护信息化持续健康发展提供高质量的数据保障。
作者:路文海 向先全 杨翼 付瑞全 单位:中国海洋大学 国家海洋信息中心
相关专题:中小企业财务管理问题 公司宗旨 创业理念