Apache教程Hudi与Hive集成手册的示例分析

小编给大家分享一下Apache教程Hudi与Hive集成手册的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！Hudi源表对应一份HDFS数据，可以通过Spark，Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表，基于该外部表， Hive可以方便的进行实时视图，读优化视图以及增量视图的查询。这里以Hive3.1.1、 Hudi 0.9.0为例，其他版本类似将hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar 放到hiveserver 节点的lib目录下修改hive-site.xml找到hive.default.aux.jars.path 以及hive.aux.jars.path 这两个配置项，将第一步中的jar包全路径给配置上去：配置后如下配置完后重启hive-server对于Hudi的bootstrap表（tez查询），除了要添加hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar这两个jar包，还需把hbase-shaded-miscellaneous-xxx.jar, hbase-metric-api-xxx.jar,hbase-metrics-xxx.jar, hbase-protocol-shaded-xx.jar,hbase-shaded-protobuf-xxx.jar,htrce-core4-4.2.0xxxx.jar按上述步骤添加进去。一般来说Hudi表在用Spark或者Flink写入数据时会自动同步到Hive外部表，此时可以直接通过beeline查询同步的外部表，若写入引擎没有开启自动同步，则需要手动利用hudi客户端工具run_hive_sync_tool.sh 进行同步具体可以参考官网查看相关参数。使用Hive查询Hudi表前，需要通过set命令设置hive.input.format，否则会出现数据重复，查询异常等错误，如下面这个报错就是典型的没有设置hive.input.format 导致的java.lang.IllegalArgumentException: HoodieRealtimeReader can oly work on RealTimeSplit and not with xxxxxxxxxx除此之外对于增量查询，还需要set命令额外设置3个参数注意这3个参数是表级别参数例如Hudi原表表名为hudicow，同步给hive之后hive表名hudicow设置hive.input.format 为org.apache.hadoop.hive.ql.io.HiveInputFormat或者org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat后，像普通的hive表一样查询即可除了要设置hive.input.format，还需要设置上述的3个增量查询参数，且增量查询语句中的必须添加where 关键字并将_hoodie_commit_time> ‘startCommitTime’作为过滤条件（这地方主要是hudi的小文件合并会把新旧commit的数据合并成新数据，hive是没法直接从parquet文件知道哪些是新数据哪些是老数据）注意_hoodie_commit_time的引号是反引号（tab键上面那个）不是单引号， ‘xxxx’是单引号例如mor类型Hudi源表的表名为hudimor，映射为两张Hive外部表hudimor_ro（ro表）和hudimor_rt（rt表）实际上就是读 ro表，和cow表类似设置完hiveInputFormat 之后和普通的hive表一样查询即可。设置了hive.input.format之后，即可查询到Hudi源表的最新数据这个增量查询针对的rt表，不是ro表。通COW表的增量查询类似说明如下set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;最好只用于rt表的增量查询，当然其他种类的查询也可以设置为这个，这个参数会影响到普通的hive表查询，因此在rt表增量查询完成后，应该设置set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;或者改为默认值set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;用于其他表的查询。set hoodie.mytableName.consume.mode=INCREMENTAL;仅用于该表的增量查询模式，若要对该表切换为其他查询模式，应设置set hoodie.hudisourcetablename.consume.mode=SNAPSHOT;当前Hudi（0.9.0）对接Hive的一些问题，请使用master分支或即将发布的0.10.0版本hive读hudi表会将所有的数据给打印出来有严重的性能问题和数据安全问题。MOR表的实时视图读取请按需设置mapreduce.input.fileinputformat.split.maxsize的大小禁止hive取切分读取的文件，否则会出现数据重复。这个问题当前是无解的，spark读hudi实时视图的时候代码直接写死不会切分文件，hive需要手动设置。如果碰到classNotFound， noSuchMethod等错误请检查hive lib库下面的jar包是否出现冲突。为支持Hive查询Hudi的纯log文件需要对Hive侧源码进行修改。具体修改org.apache.hadoop.hive.common.FileUtils 如下函数重新编译hive，把免费云主机域名新编译的hive-common-xxx.jar,hive-exec-xxx.jar替换到hive server的lib目录下注意权限和名字和原来的jar包保持一致。最后重启hive-server即可。以上是“Apache教程Hudi与Hive集成手册的示例分析”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注百云主机行业资讯频道！

相关推荐: php怎么快速实现替换手机号

本文小编为大家详细介绍“php怎么快速实现替换手机号”，内容详细，步骤清晰，细节处理妥当，希望这篇“php怎么快速实现替换手机号”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。一、使用substr_replace函数php中有一个…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。