云计算第二章总结

发布时间：2020-03-03 03:08:05 来源：范文大全收藏本文下载本文手机版

Google云计算技术包括：

Google文件系统 GFS、分布式计算编程模型MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable。

简述谷歌文件系统GFS：

GFS是一个大型的分布式文件系统，它为Goole云计算提供海量存储，并且与Chubby、MapReduce及Bigtable等技术结合十分紧密，处于所有核心技术的底层。

GFS将整个系统的节点分为哪几类角色：

Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。

Master是GFS的管理节点，在逻辑上只有一个，他保存系统的元数据，负责整个文件系统的管理，是GFS文件系统中的“大脑”。

Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server 的个数可以有多个，他的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块，默认是64MB，每一块称为一个Chunk(数据块)，每个Chunk都有一个对应的索引号（Index）。

GFS具有哪些特点：

1、采用中心服务器模式：GFS采用中心服务器模式管理整个文件系统，增加新的Chunk Server是一件非常容易的事情。

2、不缓存数据：缓存机制是提升文件系统的性能的一个重要手段，通用文件系统为了提高性能，一般需要实现复杂的缓存机制。GFS文件系统根据应用的特点，没有实现缓存，因为GFS的数据在Chunk Server上是以文件的形式存储。

3、在用户态下实现

4、只提供专用接口

GFS容错机制包含：

1、Master容错: Master上保存了GFS文件系统的三种元数据。（1）、命名空间，也就是整个文件系统的目录结构。（2）、Chunk与文件名的映射表

（3）、Chunk副本的位置信息，每一个Chunk默认有三个副本。

前两种GFS通过操作日志来提供容错功能。第三种直接保存各个Chunk Server上，当master发生故障时，迅速恢复以上元数据。为了防止master彻底死机，GFS提供了master远程的实时备份。

2、Chunk Server容错： GFS采用副本的方式实现其容错。如果相关副本丢失或不可恢复，master自动将副本复制到其他Chunk Server. GFS把每一个文件划分成多个Chunk, GFS系统管理技术：

1、大规模集群安装技术

2、故障检测技术

3、节点动态加入技术

4、节能技术

分布式数据处理MapReduce：

什么是MapReduce? Map（映射）Reduce（化简）是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集的并行计算。

MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节，还提供了一个接口。MapReduce把对数据集的大规模操作，分发给一个主节点管理下的各分节点共同完成，通过这种方式实现任务的可靠执行与容错机制。

MapReduce的容错机制：通过重新执行失效的地方来实现容错。

1、Master失效：master会周期性地设置检查点，并导出Master的数据。一旦某个任务失效，系统就从最近的一个检查点恢复并重新执行。如果master失效终止整个MapReduce重新开始。

2、Worker失效：

Master会周期性的给worker发送Ping命令，如果没有worker的应答，则master认为worker失效，终止对这个worker的任务调度，把失效的worker的任务调度到其他worker上重新执行。

如何利用MapReduce进行数据排序：

1、对原始数据进行分割

2、对每个数据分块都启动一个Map进行处理。

3、对于Map之后得到的中间结果，启动26各Reduce。

什么是分布式锁服务Chubby:

Chubby是

1、Google设计的提供粗粒度锁服务的一个文件系统，

2、它基于松耦合分布式系统，

3、解决了分布的一致性问题。通过使用Chubby的锁服务，用户可以确保数据操作过程中的一致性。

4、Chubby锁是一种建议性的锁而不是强制性的锁，这种选择使系统具有更大的灵活性。

Paxos算法中节点被分成了三种类型：proposers、acceptors、和learners,其中proposers提出决议，acceptors批准决议、learners获取并使用已经通过的决议。一个节点可以兼有多重类型，满足三个条件保持数据的一致性，（1）、决议只有在被Proposers提出后才能批准（2）、每次只能批准一个决议（3）、只有决议确定被批准后learners才能获取这个决议。

Chubby的设计目标主要有：

（1）、高可用性（2）、高扩展性（3）、支持粗粒度的建议性锁服务（4）、服务信息的直接存储（5）、支持通报机制（6）、支持缓存机制 Chubby文件系统：

Chubby系统本质上就是一个分布式的、存储大量小文件的文件系统，它所有的操作都是在文件的基础上完成的，系统规定每个节点的元数据都应包含以下四种单调递增的64位编号，（1）、实例号（2）、内容生成号（3）、锁生成号（4）、ACL生成号

Chubby采用的是ACL形式的安全保障措施，只要不被覆写，子节点都是直接继承父节点的ACL名。什么是分布式结构化数据表Bigtable: Bigtable是Google开发的基于GFS和Chubby的分布式存储系统，它的设计应达到以下几个目标：（1）、广泛的适用性（2）、很强的可扩展性（3）、高可用性（4）、简单性

Bigtable是一个分布式多维映射表，表中的数据通过一个行关键字、一个列关键字以及一个时间戳进行索引。

在Bigtable中Chubby主要有以下几个作用：

（1）、选取并保证同一时间内只有一个主服务器（Master Server）（2）获取子表的位置信息

（3）保存Bigtable的模式信息及访问控制列表

Bigtable主要由三个部分组成：客户端程序库、一个主服务器和多个子表服务器

每个子表都是由多个SSTable以及日志文件构成。

在Bigtable系统的内部采用的是一种类似B+树的三层查询体系。

所有的子表地址都被记录在元数据表中，元数据表也是由一个个的元数据子表组成的。为了减少访问开销，提高客户访问效率，Bigtable使用了缓存和预取技术。在Bigtable中有三种形式的数据压缩，分别是次压缩、合并压缩、主压缩。 Bigtable性能优化：

1、局部性群组

2、压缩

3、布隆过滤器

分布式存储系统Megastore的设计目标明确，那就是设计一种介于传统的关系型数据库和NoSQL之间的存储技术，尽可能达到高可用性和高可扩展性的统一