Hadoop和Kafka啥关系？Hadoop Kafka简介

加米谷大数据张老师

6651人浏览 · 2021-05-20 17:36:35

加米谷大数据张老师 · 2021-05-20 17:36:35 发布

众所周知，Hadoop生态系统发展至今，已经汇集了超过二十个组件，这些组件各自致力于解决大数据处理当中所遇到的问题，同时基于Hadoop集群，也能实现很好的协作运行，共同来完成大数据处理各个环节的任务。其中涉及Kafka组件，有同学在问Hadoop和Kafka啥关系，下面我们就来解答一下。

Hadoop和Kafka啥关系

首先，我们必须要了解一个事实，Hadoop和Kafka同属于Apache软件基金会，都是Apache旗下的开源项目。而Kafka同时也是Hadoop生态圈当中的组件工具之一，是一个分布式发布-订阅消息系统。

Kafka的前身，是由LinkedIn公司开发，之后成为Apache开源项目的一部分。Kafka基于分布式理念，可以实现快速的、可扩展的消息系统。它同时为发布和订阅提供高吞吐量；支持多订阅者，当失败时能自动平衡消费者；将消息持久化到磁盘，因此可用于批量消费，例如ETL，以及实时应用程序。

基于这些特性，Kafka迅速成为数据管道的关键部分。在Hadoop集群环境当中，Kafka可以实现消息传递、指标收集、流处理和日志聚合等多种消息订阅，并且支持将数据导入Hadoop，以供后续的分析处理。

Kafka的一个典型优势在于，将数据生产者和消费者分离，允许拥有多个独立的生产者(可能由不同的开发团队编写)以及多个独立的消费者(也可能由不同的团队编写)，消费者可以是实时/同步或批量/离线/异步。

Kafka架构包含以下组件：

话题（Topic）是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名或种子（Feed）名。

生产者（Producer）是能够发布消息到话题的任何对象。

已发布的消息保存在一组服务器中，它们被称为代理（Broker）或Kafka集群。

消费者可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息。

关于Hadoop和Kafka啥关系相信看完以上的内容，大家也都有了基本的了解了。在Hadoop框架当中，Kafka作为消息订阅和分发系统，对于实际过程中遇到的问题都能很好的解决，因此作为Hadoop生态系统长期存在。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m