人人范文网 范文大全

云计算中MapReduce技术研究

发布时间:2020-03-03 21:52:32 来源:范文大全 收藏本文 下载本文 手机版

云计算中MapReduce技术研究

孙香花

(长江师范学院数学与计算机学院,重庆,408100)

要: MapReduce是云计算的核心技术之一,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。

关键词:MapReduce技术;云计算应用;云计算;并行计算;

MapReduce technology of cloud computing

SHUN Xiang-hua (

1、College of Mathematics and Computer Science,Yangtze Normal university, Chongqing,,410081)

Abstract: MapReduce is one of the core technology of cloud computing, which is parallel data proceing system provides a simple, elegant solution.Its main purpose is to a large cluster of systems in large data sets in parallel, and parallel computing for large-scale data.This paper focus on the cloud of MapReduce technologies.MapReduce first introduced the relevant knowledge, the current research situation of MapReduce are introduced and Analysis; MapReduce model put forward the current research iues; Finally, the summary text and the future trends.Key words: MapReduce technology; cloud computing applications; cloud computing; parallel computing;

1、引言

随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了互联网数据处理能力的相对不足。由于待处理数据越来越多 ,多到了很难在一台或有限数目的存储服务器内容纳,且更无法由一台或数目有限的计算服务器就能处理这样的海量数据。因此,如何实现资源和计算能力的分布式共享以及如何应对当前互联网数据量高速增长的势头,是目前互联网界亟待解决的问题。正是在这样一个发展背景下,云计算应运而生[1]。

云计算是由并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)发展而来[2,3]。云计算的核心技术之一是MapReduce,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算[4-6]。

近几年来由于数据的大量增长,Mapreduce受到了较多的关注,获得了较大的发展,但还没有形成成熟的、系统化的理论体系[7]。目前国内外进行MapReduce分析技术研究的机构都显示了对MapReduce的高度关注,并在不同的体系结构上都进行了实现,尤其是在开源hadoop平台上对其所做的研究提供了更多的研究机遇。因此对MapReduce的研究不仅具有收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003) 作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

重要的应用价值,更具有重要的学术意义[8,9]。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。 2、MapReduce相关研究

目前国内外文献中对MapReduce模型都有相应的研究。主要体现在以下几个方面: 基于MapReduce的初等研究及改进:在Goole提出的原始模型的基础上提出一些新的改进方法,或是对怎样提高MapReduce算法的效率上去进行研究。如:文献[10]提出了一种改进型的MapReduce编程模型,该模型继承了传统的MapReduee模型对map函数和reduce函数的定义.对map和reduce过程进行了改进优化。文献[11]中的HPMR是建立在多核集群上的高性能计算支撑平台。它继承并改进了MapReduce并行编程模式,使其适合高性能计算需求。并让并行程序的编写和运行变得非常简单,同时又保持很高的性能。

对大规模的数据挖掘:利用MapReduce模型对于云平台的海量数据进行挖掘,抓取网页相关数据,或是对网页内容去重等到相关的大规模数据的研究等。如:文献[12]详细描述SPRINT并行算法在HadooP中的MapReduce编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。

基于MapReduce并行模型的一些设计方法与实现或是计算方法的实现,如:文献[13]结合MapReduce的长处,提出研究和实现一个完整的高性能并行计算系统,以GPU为硬件基础并配合基于MapReduce并行计算模型平台进行大规模数据处理。文献[14]提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduee架构简化了分布式程序设计。

MapReduce的综述:文献[15]重点讨论了MapReduce模型的相关研究,并对采用或是实现了这些模型的相应公司的技术进行了探讨,是一篇综述类型的学位论文。MapReduce模型的研究与应用:文献[16]介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。

当前的研究中,对于云计算中并行计算模型的研究主要是针对于MapReduce模型,而对于MapReduce模型的研究主要在两个方面展开,一个方面为对MapReduce模型的改进,但是对于改进后的模型的实现平台没有研究;另一个方面为MapReduce模型的应用,也是当前的主要研究方向。

3、MapReduce相关研究问题

MapReduce是由Google提出的一种并行分布式编程模型[17-19]。在MapRedcue 模型中用户只须指定一个map函数来处理一个输入的key/value对,产生中间结果key/value对集,再通过一个由用户指定的reduce函数来处理中间结果中具有相同key值的value。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理[20-21]。

图1说明了用 MapReduce 来处理大数据集的过程,MapReduce 的计算过程很简单,计算利用一个输入key/value对集,来产生一个输出key/value对集[22]。MapReduce库的用户用两个函数表达这个计算:map和reduce。首先,用户自定义的map函数,接受一个输入对,然后产生一个中间key/value对集。然后,MapReduce库把所有具有相同中间key I的中间value聚合在一起,然后把它们传递给reduce函数。最后,用户自定义的reduce函数,接收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003) 作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

受一个中间key 和相关的一个value集。它合并这些value,形成一个比较小的value集[23-25]。

图1、Mapreduce的计算流程

随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了对MapReduce这种并行计算模式的研究变得越来越重要,由此也产生了一系列的相关研究问题,分别如下所列出[26-28]:

1、MapReduce模型只需执行简单的计算,对于隐藏并行化、容错、数据分布、负载均衡的那些问题是如何实现的。

2、Google的MapReduce执行流程。

3、对MapReduce模型的实现。

4、对MapReduce模型进行改进。

5、提高Mapreduce的运算效率的方法。

6、基于MapReduce模型的应用。

7、基于MapReduce模型的设计方法及实现 对于以上所列出这些研究问题,目前国内外都有相关的研究,对于这些研究问题在很大程度上仍然有可研究性。

4、未来研究趋势

MapReduce作为一个通用可扩展的并行计算模型,它用来有效地处理海量数据,不断地从中挖掘出有价值的信息,成为互联网企业发展的必然选择。很多现实世界对海量数据的处理,都可以用这种模型来表示。当前在云计算中使用的分布式并行运算基本上是采用的MapReduce计算模型,不过国内的研究仍然有点滞后,同时,当前的主要研究都放在其应用上,比如说网页抓取等,真正去研究算法本身的并不多,尤其是在提高算法本身的效率上,以及算法的优化等都研究较少。

根据上面的论述和分析可以看出,对于云计算中并行计算模型的研究和应用主要是对于MapReduce模型的,而对MapReduce模型的应用是当前的主要研究方向。本课题在分析MapReduce模型的基础上,提出了如下的研究内容:

1、利用MapReduce强大的计算能力,把MapReduce模型应用到一些经典的算法中。所要解决的主要问题是经典的算法的选取,即要满足利用MapReduce模型的条件,还要解决的是两个算法的比较及评价问题;

2、利用MapReduce强大的计算能力,把MapReduce模型应用到一些数值计算问题中去,所要解决的主要问题是数值计算问题的分解和结束条件,还要解决的是两个算法的比较问题及新算法的评价问题。

收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003) 作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

4、结束语

本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。 参考文献 [1] [2] [3] [4] [5] 张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433 金海,漫谈.云计算[J].中国计算机学会通讯,2009,5(6):22-25 吴吉义,平玲娣, 潘雪增等.云计算:从概念到平台[J].电信科学,2009,12:23-30 陈康, 郑纬民.云计算:系统实例与研究现状[J].软件学报.2009,20(5):1337-1348 尹国定,卫红.云计算—实现概念计算的方法[J].东南大学学报:自然科学版,2003,33(4):502-506 [6] 武永卫,黄小猛.云存储[J].中国计算机学会通讯,2009,5(6):44-52 [7] Lamel.R Google’s Mapreduce Programming Model-revisited [J].Science of Computer Programming, 2008, 7(1): 208-237.[8] 万至臻.基于Mapreduce模型的并行计算平台的设计与实现[I].浙江大学.2008 [9] 吴晓伟.MapReduce并行编程模式的应用和研究[I].中国科学技术大学.2009.[10] 周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛.2009.2(11):11-12 [11] 郑启龙,王昊,吴晓伟等.HPMR:多核集群上的高性能计算支撑平台[J].微电子学与计算.2008,25(9):21-23 [12] 王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机.2009,22(11):22-25 [13] 瞿李峰.基于GPGPU的MapReduce高性能并行计算模型研究与应用[I].桂林理工大学.2009.[14] 郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程.2007,33(22):83-85 [15] 周敏.MapReduce综述[I].暨南大学.2008.[16] 杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术.2009, 25(4) 23-26 [17] Luis M V, Luis Rodero Merino, Juan Caceres, Maik Lindner.A break in the clouds: toward a cloud definition.ACM SIGCOMM Computer Communication Review, 2009,39(1):50-55 [18] Robert L G,Gu Yunhong,Michael Sabala,Zhang Wanzhi。Compute and storage clouds using wide area high performance networks。Future Generation Computer Systems,2009,25(2):179-183 [19] Daniel J A.Data management in the cloud: limitations and opportunities.Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2009,32(1):3-12 [20] 郑启龙.HPMR在并行矩阵计算中的应用[J].计算机工程.2010(8).[21] 徐志伟,廖华明,余海燕.网络计算系统的分类研究[J].计算机学报.2008,31-9:1509—1515.[22] M.Kruijf and K.Sankaralingam.MapReduce for the Cell B.E.Architecture[J].Technical Report No.TR1625,Computer Science Department,University of Wisconsin,Madison,2007.[23] Colby Ranger,Ramanan Raghuraman,Arun Penmetsa,Gary Bradski,Christos Kozyrakis.Evaluating MapReduce for Multi-core and Multi-proceor Systems,Proceedings of the 13th Intl,Symposium on High-Performance Computer Architecture(HPCA).收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003) 作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

Phoenix,AZ, February 2007.[24] J.Dean and S.Ghemawat.Mapreduce:Simplified data proceing on large clusters.In OSDI,pages 137-150,2004.[25] D.V.Kalashnikov,S.Prabhakar,and S.E.Hambrusch.Main memory evaluation of monitoring Queries over moving objects.Distributed and Parallel Databases,15(2):117-135,2004.[26] J.Dean.Experiences with mapreduce,an abstraction for large-scale computation.In Proc.IEEEP ACT,2006.[27] 钟伟彬,周梁月,潘军彪等.云计算终端的现状和发展趋势[J].电信科学,2010,3:22-26 [28] 陈国良,孙广中,徐云.并行计算的一体化研究现状与发展趋势[J].科学通报,2009,54(8):1043-1049

地址:重庆市涪陵区李渡聚龙大道98号长江师范学院数学与计算机学院办公室

孙香花 邮编: 408100

收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003) 作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

MapReduce云计算背后的秘密[推荐]

云计算环境下的网络技术研究

网络云计算技术研究现状综述论文

云计算环境下网络技术研究论文

云计算环境下大规模数据处理技术研究论文

“云”中漫步——走近云计算

云计算

云计算

云计算

云计算环境下的分布存储技术研究论文

云计算中MapReduce技术研究
《云计算中MapReduce技术研究.doc》
将本文的Word文档下载到电脑,方便编辑。
推荐度:
点击下载文档
点击下载本文文档