Apache顶级项目介绍2－Kafka

Apache顶级项目介绍系列－1，我们从Kafka说起。why？流行＋名字cool。Kafka官网是见过比较简单，直叙的网站，“kafka是一个高吞吐的分布式的消息系统”。 Kafka最初起家于LinkedIn，当时原本作为linkedin用来管理活动流(PV,用户行为分析，搜索情况)和运营数据处理的pipline的基础。因为其分布式以及高吞吐被广泛使用，如与Cloudera, Hadoop, Storm, Spark etc.kafka首先作为一个消息系统，提供了基本功能，如解耦，顺序性，异步性等。同时优质的设计理念支撑高吞吐，提供O(1)时间负责度持久化能力，数据级别达到TB/PB以上，支持离线与实时处理，即与hadoop，storm对接，支持水平scale out。架构图：

可以看到，kafka是一个分布式架构设计(当然DT时代，不支持水平scale out无法生存)，前段producer并发（支持批量）push消息到kafka特定topic集群服务器broker，每个topic又包含多个partition便于水平扩展，消费者consumer通过consumer group向broker服务器pull获取消息。kafka通过zk管理集群配置，选举lea 香港云主机der，以及rebalance。消息模式为push／pull。我们来建一个kafka集群服务：

通过zk发送，消费消息：
用java来生产／消费消息：比较直白，这里注意可以批量发送消息，不是所有消息中间件可以批量发送的，批量发送是高吞吐原因之一。这里使用stream流来消费payload，消息流迭代器用不停止，类似监听消息一样。kafka之所以高效或者其创新点：消息删除管理通常消息中间件会消费一个消息，删除一个消息，这使得消息的使用代价非常高额。而kafka使用无状态管理，引入消息偏移量，消息基于时间的SLA应用保留策略，当消息超过一定时间后才被删除，这样按照官网的说法，消费Kafka消息就是非常轻量级：come and go. 听起来像外卖一样，take and go. 甚至，由于引入偏移量，消费者可以随意获取任意位置消息，包括重新获取已经消费过的消息。
2.Kafka利用linux sendfile从linux kernel复制文件
3.kafka引入zk，管理分布式协调，HA，容错。zk用来管理kafaka代理broker，当kafka新增或者某代理失效，zk服务将通知生产者与消费者。

4. 生产者性能，消息结构优化大小以及批量发送

5.消费这性能：消息结构优化以及无状态引入便宜量，无需为何b＋树索引。
总体来说kafka表现异常突出，不失为通常消息中间件的代替品，如果管理hadoop，stream更是首推。另外如果处理网站日志，用户使用行为分析，或者离线处理log等都是不二之选。好了，先到这里了，起个大早来写东西，果然不靠谱，时间紧任务重啊。望大家包涵，有些图借用自网络。公众号：技术极客TechBooster

相关推荐: css内边距指的是什么

这篇文章主要介绍“css内边距指的是什么”，在日常操作中，相信很多人在css内边距指的是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”css内边距指的是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！css内边距是指元…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。