Apache顶级项目介绍2-Kafka


Apache顶级项目介绍系列-1,我们从Kafka说起。why?流行 + 名字cool。Kafka官网是见过比较简单,直叙的网站,“kafka是一个高吞吐的分布式的消息系统”。 Kafka最初起家于LinkedIn,当时原本作为linkedin用来管理活动流(PV,用户行为分析,搜索情况)和运营数据处理的pipline的基础。因为其分布式以及高吞吐被广泛使用,如与Cloudera, Hadoop, Storm, Spark etc.kafka首先作为一个消息系统,提供了基本功能,如解耦,顺序性,异步性等。同时优质的设计理念支撑高吞吐,提供O(1)时间负责度持久化能力,数据级别达到TB/PB以上,支持离线与实时处理,即与hadoop,storm对接,支持水平scale out。架构图:

可以看到,kafka是一个分布式架构设计(当然DT时代,不支持水平scale out无法生存), 前段producer并发(支持批量)push消息到kafka特定topic集群服务器broker,每个topic又包含多个partition便于水平扩展,消费者consumer通过consumer group向broker服务器pull获取消息。kafka通过zk管理集群配置,选举lea 香港云主机der,以及rebalance。消息模式为push/pull。我们来建一个kafka集群服务:

通过zk发送,消费消息:
用java来生产/消费消息:比较直白,这里注意可以批量发送消息,不是所有消息中间件可以批量发送的,批量发送是高吞吐原因之一。这里使用stream流来消费payload,消息流迭代器用不停止,类似监听消息一样。kafka之所以高效或者其创新点:消息删除管理 通常消息中间件会消费一个消息,删除一个消息,这使得消息的使用代价非常高额。而kafka使用无状态管理,引入消息偏移量,消息基于时间的SLA应用保留策略,当消息超过一定时间后才被删除,这样按照官网的说法,消费Kafka消息就是非常轻量级:come and go. 听起来像外卖一样,take and go. 甚至,由于引入偏移量,消费者可以随意获取任意位置消息,包括重新获取已经消费过的消息。
2.Kafka利用linux sendfile从linux kernel复制文件
3.kafka引入zk,管理分布式协调,HA,容错。zk用来管理kafaka代理broker,当kafka新增或者某代理失效,zk服务将通知生产者与消费者。

4. 生产者性能,消息结构优化大小以及批量发送

5.消费这性能:消息结构优化以及无状态引入便宜量,无需为何b+树索引。
总体来说kafka表现异常突出,不失为通常消息中间件的代替品,如果管理hadoop,stream更是首推。另外如果处理网站日志,用户使用行为分析,或者离线处理log等都是不二之选。好了,先到这里了,起个大早来写东西,果然不靠谱,时间紧任务重啊。望大家包涵,有些图借用自网络。公众号:技术极客TechBooster

相关推荐: css内边距指的是什么

这篇文章主要介绍“css内边距指的是什么”,在日常操作中,相信很多人在css内边距指的是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”css内边距指的是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!css内边距是指元…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 07/23 17:09
Next 07/23 17:09

相关推荐