摘要:大数据、云计算与物联网是新兴的计算机技术,促使人们社会向着更为先进的方向发展。数据的急剧增长必然给数据集成与存储、管理、分析带来新的挑战,针对这些问题,首先描述大数据的概念,其次对大数据发展现状进行分析,最后给出大数据在教学管理中的应用,并提出了构建大数据教学资源共享系统的关键技术。
关键词:大数据;教学资源;共享系统;云计算;物联网
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)03-0446-02
1 什么是大数据
大数据是当前热点话题之一,未来十年也将是大数据引领的先进科技时代,不管人们是否意识到它的存在,大数据必将超越并改变人们的生活方式。但大数据的准确定义,人们尚未给出,相对于过去局部的、小的数据,大数据规模是海量的。维克托·迈尔-舍恩伯格是最早洞见大数据时代发展趋势的数据科学家之一,他用三大特性来对大数据进行描述[1]:
1)在大数据时代,人们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。例如一项针对相扑比赛中非法操纵比赛结果的研究对64000场比赛进行了分析,这算不上一个很大的数字,但由于这是过去十年所有的比赛,所以它是大数据。
2)由于有了更多的数据,人们可以接受更多的混杂、更多数据上的不精确。如果人们对于一个事物只有50个数据点,那么每一个数据点都必须非常精确,因为每个数据点都是有用的;但是如果人们有5000万个,去掉10个,甚至去掉1000个都没有太大的问题。
3)不再探求难以捉摸的因果关系,转而关注事物的相关关系。分析大数据主要为了预测未来“是什么”,而不是“为什么”。因为很多时候人们以为找到了事情背后的原因,实际上却没有找到。更多时候知道了“是什么”就足够了。例如知道流感将会扩散到哪里就足够了,人们不需要知道为什么;知道什么时候在网上购买机票能够获得最优惠的价格就足够了人们我不需要知道为什么此时价格最低。
大数据的数据量是巨大的,在数据规模急剧增长的同时,数据产生的价值也将同步增加,有人认为数据的价值会随着数据的增加而减少,这种情况的发生主要是因为现有技术无法满足数据增长的需要,缺乏从大数据中挖掘隐藏信息的技术与方法。当你从1GB的数据中挣到9块钱,给你1PB的数据,你只能挣到15块钱。而如果该数据的价值和其规模成正比,那么1PB的数据可以给你带来900万元的价值。对于真正在大数据,其价值的增长应该与数据增长成正比,甚至更快。
2 大数据发展的现状
政府机构、学术界、工业界等各行各业都已经开始密切关注大数据问题,并对其产生深厚兴趣,《Nature》在2008年就推出了Big Data专刊,提出人类已经进入拍字节时代(petabyte era)[2],并预测下一个IT巨头的主营业务将会是大数据管理。微软研究院出版的《The fourth paradigm》一书阐述了如何在eScience时代做数据密集型的科学研究。《Science》在2011年2月推出专刊“Dealing with Data”[3],详细讨论了大数据发展问题。美国知名的数据管理领域的专家学者发布了一份白皮书《Challenges and Opportunities with Big Data》,该白皮书[4]从介绍了大数据的产生,分析了大数据的处理流程,并给出大数据的挑战。世界闻名的咨询公司麦肯锡2011年6月发布了一份关于大数据的报告“Big data: The next frontier for innovation, competition, and productivity”,对大数据的关键技术和应用环境等进行了详尽的分析与描述[5]。2012年3月份美国奥巴马政府发布了“大数据研究和发展倡议”,正式启动“大数据发展计划”。奥巴马政府的这一计划被视为美国政府继信息调整公路(Information Highway)计划之后在信息科学领域的又一重大举措。
我国学者也在密切关注大数据相关技术,在2012 Hadoop与大数据技术大会上,以“大数据共享与开放技术”为主题,设定“Hadoop”、“大数据行业应用”、“大数据共享平台与应用”等五个分论坛展望大数据璀璨的发展未来。在第十六届全国区域旅游开发学术研讨会上,论文《智慧旅游及其关键技术和体系框架研究》阐述了大数据、物联网、云计算等新一代信息技术在智慧旅游中的应用并构建智慧旅游的体系框架。
3 大数据在教学中的应用
我院投资数百万元人民币完成了云计算平台的设计,组建了软件工程企业联合实训中心,包括软件开发分室、云计算分室与物联网分室等。未来将以大数据研究与科研创新平台为基础,实现对校内外的教学资源的全面开放,开放内容包括软硬件设施、计算资源、教育资源、实验内容与其它资源等,并在实验教学体系与教学模式上,加强与校外企业或者科研单位进行合作。
学院的软件工程实训中心计算机系统软硬件配置齐全,系统安全有C/C++、FORTRAN、CUDA C编译系统、数学库与MPI库等。系统安装了Hadoop,HBase,ABINIT,CPMD,NAMD,GROMACS,LAMMPS,BLAST,mpiBLAST,WRF,MM5,Graphs等应用软件,涉及计算物理、计算化学、分子动力学、序列比对、分子对接、结构力学、结构动力学、流体力学、中尺度模拟等。通过该中心实现教学资源的共享,首先要收集教学数据,把数据变成教育教学的数据资产,收集教学数据要精细化,要准确,其实是有序,数据需要存储,有价值的数据是变化的、流动的、与其它数据交互作用的。对于教学共享,最理想的是建立一个基础大数据平台的资源共享系统,实现教学资源的全面开放与共享。
在教学资源共享平台中最主要的部分是数据处理层,在实现数据处理层时,数据的并行加载存储模块成为整个平台实现的核心,Hadoop分布式技术为该平台提供了数据存储和数据处理的模型及方法。