谷歌大数据的三驾马车

xy_cpp

7439人浏览 · 2020-07-28 00:19:45

xy_cpp · 2020-07-28 00:19:45 发布

本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable，当前流行的大数据技术都是在谷歌发表了这三大论文以后，不断的发展起来的，典型的就是Apache开源的hadoop和hbase，其中hadoop的mapreduce和hdfs的思想来源于谷歌mapreduce和gfs论文，而hbase来源于谷歌的bigtable论文。

mapreduce

介绍：MapReduce是一个处理大数据集的编程模型。它通过map函数把基于行的输入转化成不同的键值对，再通过reduce函数把这些键值对针对相同的键进行聚合，并在聚合的过程中进行相应的计算。

其中的重点是：

如何分割基于行的源文件。
在map阶段如何把行数据映射成键值对。
对大数据集如何进行partition。
在reduce阶段如何进行响应的逻辑计算并输出结果。

其中，一个最典型的用例是给出一篇文章，计算每个单词出现的个数，起逻辑流程为：

1、把文章按照行来切分。
2、在map阶段，对每一行的每个单词构建一个键值对，键是单词本身，值是固定值"1"。
3、对map的结果进行分区，使用默认策略，通过哈希进行分区。
4、在reduce阶段，统计聚合在同一个key的值的数量，得出每个单词出现的次数。

gfs-sosp2003

介绍：GFS是一个分布式文件系统，用来存储大量的较大文件，它可以在廉价的硬件上实现存储文件，并做到容错性，并且针对多个客户同时访问提供比较有竞争力的性能。

其中的重点是：

把一个较大的文件切分成不同的单元块。
把每一个单元块存储在ChunkServer上，并且每一块都会复制在多个ChunkServer服务器上。
每一个文件包含多少块和哪些块这些元数据存储在GFS Master服务器上。
这是一个低成本的分布式存储系统，用来数据量非常大的存储场景，通常为mapreduce的大数据处理模型提供输入和输出的存储系统。

bigtable-osdi06

介绍：Bigtable是一个可以管理结构化数据的分布式存储系统，它本身支持水平的横向扩展，通过使用成千上万的连接服务器，来支持PB量级的数据处理。

其中的重点是：

Chubby服务器存储SSTable根的数据信息。
Tablet server的水平扩展以及分裂。
SSTable的存储结构。
列式存储结构，RowKey以及列簇的设计。
LSM Tree的数据结构以及特点。
在谷歌，网页索引，谷歌帝企鹅，谷歌财经等的数据都存储在Bigtable集群里。

MapReduce_NextGen_Architecture

介绍：在第一代mapdure的实现中，资源分配和任务监控都耦合在Master节点上，在Worker节点数增加到一定的数量级，Master节点出现了性能瓶颈，下一代MapReduce框架Yarn把资源管理器和任务管理器分离，解决了这个性能瓶颈。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m