摘要:随着计算机技术和网络技术的迅猛发展,将大量数据进行分散存储和管理的方式已经得到相关行业的广泛认可,然而由此带来的弊端也随之产生,数据存储结构,存储环境的不同,以及数据并发处理等问题。该文针对如何在分布式环境中提高数据存储能力这一课题进行深入研究,对当前数据存储技术进行分析,对分布环境下数据存储的特性进行分析,总结出分布式数据库的设计要求,为行业内分布式数据存储能力标准化提供理论支持。
关键词:分布式;数据存储;数据库
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)03-0455-02
1 数据存储技术的现状
近年来,随着计算机技术和网络技术的迅猛发展,依靠先进的技术进行网络化办公已经成为现实。越来越多的企业、政府机构、社会团体借助计算机技术将业务主体进行科学的专项设计和应用,用户只需要少量的终端设备就可以对大量的数据进行处理和分析。另一方面,随着人们对互联网依赖程度的逐步加深,伴随“大数据”等新概念的提出和发展,产生的数据量也呈现爆炸式增长。新数据的产生和原始数据的不断积累,导致占用的存储容量越来越大。因此,如何扩展服务提供商器的存储能力已经成为当前科研领域的重要研究热点。
目前,能够有效提高数据存储能力的方式主要有两类解决方案。一类是新增硬件的方法提高存储能力。由服务提供商采购新的存储设备来拓展服务器的存储能力。另一类是在不改变现有硬件设备的条件下,服务提供商改善数据存储软件,优化存储信息的方式,通过分类和分解数据的形式提高存储能力。第一类解决方案存在明显的弊端,服务提供商的购买能力是有限的,无法从根本上解决难题。另一类目前已经得到国内外行业的普遍认可,各大数据服务提供商投入大量人力和物力,加快了数据管理软件的研发脚步,一系列的数据库产品营运而生,像Google Spanner,Cassandra,MongoDB,MySQL Cluster等[1]优秀的产品为分布式环境下有效的管理数据,优化存储提供了先决条件。
2 分布式环境下数据存储的应用特性分析
通过大量实践可以看出,对于大量数据的处理效率往往与数据本身的可操作性有着紧密联系,所以有必要对分布式环境下的数据应用特性进行合理的分析和总结。分布式数据库主要有以下三个特点:
2.1 数据库存储的数据在逻辑上是集中的,在地理位置上是分散的
分散的数据单元所在的物理位置是透明的,通过通讯线路和协议进行相互沟通。这点有力的说明分布式数据库存在数据的“分散性”。
2.2 用户对数据进行的任何操作都有一个统一的DBMS进行调度
用户不必关心数据的并发处理、副本调度等问题,即使局部数据单元发生数据故障,统一的DBMS仍可以进行调度和工作。这点有力的说明分布式数据库存在管理上的“集中性”。
2.3 用户对任何数据进行例如添加、删除和查询操作时,每个数据单元都各有一个小型的数据管理系统,都有各自的DBMS,多数处理就地完成
这点有力的说明分布式数据库存在操作上的“自治性”。
3 分布式数据库系统的设计
在分布式环境下,对于数据库的设计要求还没有统一的标准。该文通过总结和分析整理国内外相关资料,认为一个可操作的分布式数据库系统,应具备四个功能,如图1所示。
3.1 数据分发[2]
数据分发的建立打破了传统数据存储模式,它使物理上分散的数据单元成为逻辑上统一的整体,数据模块之间通过数据链路进行连接,通过形式统一的数据接口和协议进行通讯。合理的数据分发模块能够解决数据在远距离存储上存在的异构问题。
3.2 并行处理
由于数据存储过程中的分散性和自治性的特点,使得并发处理功能就显得尤为重要。并行处理问题发生的情况分为三种:时间并行,空间并行以及时间和空间同时并行。并行处理功能要求数据库要有很好的事务机制处理办法,提供有效的并发解决方案。
3.3 SQL解析
由于大量数据库管理系统和操作系统存在异构的特点,SQL解析功能就显得尤为重要。SQL的语句首先被数据库管理软件转化为ASCII码,然后由解析器分三个环节进行解析。首先是语法解析,通常会从数据字典、对象比较、游标等方面检查用户输入的语法是否存在错误;其次是语义解析,为用户输入的语句建立语法树,对语义中提到的程序、表、字段等方面进行检查;最后是执行语法过程,将操作结果进行打包后传递给DBMS。[3]
3.4 汇总处理
汇总处理的目标是从分散的数据模块中提取用户需要的数据,并进行必要的处理后呈现在用户面前,形成一个完整的、统一的大型数据库。
4 总结
分布式数据存储能够不改变现有硬件设备的条件下,充分利用现有资源为用户服务,为用户提供快速灵活的体验,同时可以减少投入,提高设备利用率。随着数据存储技术的不断发展和成熟,能够在不同领域中得到更广阔的发展。
参考文献:
[1] CunchenLi,JunYang,JingHan,HaihongE.The Distributed Storage System Based On MPP For Mass Data[C].2012 IEEE Asia-Pacific Services Computing Conference.GuiLin,Guangxi:EEEE, 2012:384-387.
[2] 杨俊.海量数据分布式存储技术的研究与应用[D].北京邮电大学,2012.
[3] 唐箭.云存储系统的分析和应用研究[J].电脑知识和技术,2009,5(20):5337-5338.