application master 持续org.apache.hadoop.ipc.Client: Retrying connect to server


某一个nodemanager退出后,导致 application master中出现大量的如下日志,并且持续很长时间,application master才成功退出。1)dchadoop206上的nodemanager退出后(由于重启),导致app 香港云主机lication master持续的去连接之前nodemanager上的container。显然这些container是已经连接不上了。
2)最终经过非常长的时间大概3-4小时后,连接不上的异常才抛出,application master正常结束。这个问题主要涉及hadoop的rpc机制。首先看下面两个配置参数 根据这两个参数的定义,ApplicationMaster经过15分钟仍然连不上nodemanager的container,会取消try connect。但观察的情况是Application Master 需要等大约30分钟,才取消try connect。主要原因在于hadoop 的rpc机制如下,首先ApplicationMaster 会根据上面的两个参数,构造一个RetryUpToMaximumCountWithFixedSleep的重连策略,这个重连策略会通过以下方式计算MaximumCount:yarn.client.nodemanager-connect.max-wait-ms/yarn.client.nodemanager-connect.retry-interval-ms=90次而每次的RPC请求中,Client也有自己的重连策略,就是类似这样的东东:所以最终ApplicationMaster 放弃try connect的等待时间是:90*(10+10)=1800s1)在提交map-reduce/hive sql/hive server2等客户端机器修改yarn-site.xml的以下参数
2)hadoop命令行中通过-D设置该参数
这样总的等待时间就是6分钟。这个修改是不需要做任何重启yarn组件操作的,是一个客户端相关的操作!

相关推荐: win10“我的电脑”图标消失了如何找回

本文小编为大家详细介绍“win10“我 香港云主机的电脑”图标消失了如何找回”,内容详细,步骤清晰,细节处理妥当,希望这篇“win10“我的电脑”图标消失了如何找回”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。具体步骤:一、win1…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 07/23 17:14
Next 07/23 17:14

相关推荐