HBase怎么设计rowkey

这篇文章主要为大家展示了“HBase怎么设计rowkey”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“HBase怎么设计rowkey”这篇文章吧。HBase中的rowkey是按字典顺序排序的，通过rowkey查询可以对千万级的数据实现毫秒级响应。然而，如果rowkey设计不合理的话经常会出现一个很普遍的问题—-热点。当大量client的请求（读或者写）只指向集群的一个节点，或者很少量的几个节点时，也就代表产生了热点问题。避免产生热点的方式也就是尽可能的将rowkey均匀分散到所有的region上，下面介绍了几种rowkey设计常用的方式：加盐是指在rowkey的前缀添加随机数据，使rowkey尽可能的分布到其他regionserver上假设遇到下面的rowkey，表的预分区设置为每个字母对应一个region。前缀“a”是一个region，前缀“b”是另一个region等等。那么在这个表中，所有以“f”开头的row 香港云主机key都将位于同一个region。比如：那么，如果你想把它们分散到四个不同的region，那么就可以使用四种不同的前缀: a、b、c和d来做加盐。在加盐之后，rowkey也就变成了下面这样。（ps：由于现在可以向四个region写数据，理论上，性能比之前向同一个region写吞吐量提升四倍）并且，如果后续有新的数据写入，rowkey也就会随机的添加前缀，写到不同的region中缺点：加盐虽然可以很大程度的避免热点问题，提升写入效率，但是由于rowkey被随机的添加了salt值，在读取时候要付出额外的开销。具体怎么读取加盐后的数据，后面再做介绍哈希的算法有多种，在rowkey设计中用的比较多的大概就是MD5了吧,但是需要注意的是MD5散列还是有碰撞的可能性的，概率很小，但是不是零。所以一般使用MD5做rowkey散列时候，都会附加一个唯一字段，比如账号字段account，对account做MD5,截取6位左右的md5返回值然后再拼接account字段，也就是：此外，通过md5散列之后的rowkey，在创建表预分区时候，可以使用hbase自带的HexStringSplit方法如果定义的rowkey字段，前部分数据变化幅度很小，变化很慢，尾部数据变化频率较高，便可以考虑反转字段，尤其对类似时间戳的数据不管以哪种方式设计rowkey，在查询时候也要做对应的数据处理，比如做hash的，查询时候也需要先把数据hash之后，然后查询rowkey；通过反转方式设计的rowkey同理。rowkey可以是任意的字符串，最大长度64KB，但是建议在设计rowkey时候，尽可能的短，原因：1.hbase数据存储是以key-value的形式存储的，如果rowkey比较长，比如100字节，那么1000w行数据，光rowkey存储就需要100*1000w=10亿个字节，将近1G的数据。2.memstore的会缓存数据到内存，如果rowkey比较长，同样会占用更多的空间3.建议rowkey设计在8字节的整数倍，控制在16个字节，因为目前的操作系统大多都是64位的，整数倍更好了利用了操作系统的特性。列簇（ColumnFamily）同理，尽可能的短，最好是一个字符，比如 f 或者 d我们知道，long类型是8个字节，并且你可以通过long类型存储一个最大为18,446,744,073,709,551,615的无符号数字，仅仅用8个字节，但是如果以string类型的形式存储这样的数字，那么几乎需要3倍空间的大小（假定每个字符占一个字节）举个例子验证一下：但是，也有一个缺点，就是如果使用这种二进制表示的类型时候，在hbase shell界面查数据的时候，可读性比较差，比如：以上是“HBase怎么设计rowkey”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注开发云行业资讯频道！

相关推荐: Vue组件更新数据v-model不生效怎么办

本篇内容主要讲解“Vue组件更新数据v-model不生效怎么办”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Vue组件更新数据v-model不生效怎么办”吧!在使用Vue双向绑定(v-model)功能时，封装子组件…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。