application master 持续org.apache.hadoop.ipc.Client: Retrying connect to server

1449272589 • 07/23 17:14 • Linux技术 • 128 views

某一个nodemanager退出后，导致 application master中出现大量的如下日志，并且持续很长时间，application master才成功退出。1）dchadoop206上的nodemanager退出后（由于重启），导致app 香港云主机lication master持续的去连接之前nodemanager上的container。显然这些container是已经连接不上了。
2）最终经过非常长的时间大概3-4小时后，连接不上的异常才抛出，application master正常结束。这个问题主要涉及hadoop的rpc机制。首先看下面两个配置参数根据这两个参数的定义，ApplicationMaster经过15分钟仍然连不上nodemanager的container，会取消try connect。但观察的情况是Application Master 需要等大约30分钟，才取消try connect。主要原因在于hadoop 的rpc机制如下，首先ApplicationMaster 会根据上面的两个参数，构造一个RetryUpToMaximumCountWithFixedSleep的重连策略，这个重连策略会通过以下方式计算MaximumCount：yarn.client.nodemanager-connect.max-wait-ms/yarn.client.nodemanager-connect.retry-interval-ms=90次而每次的RPC请求中，Client也有自己的重连策略，就是类似这样的东东:所以最终ApplicationMaster 放弃try connect的等待时间是：90*(10+10)=1800s1）在提交map-reduce/hive sql/hive server2等客户端机器修改yarn-site.xml的以下参数
2）hadoop命令行中通过-D设置该参数这样总的等待时间就是6分钟。这个修改是不需要做任何重启yarn组件操作的，是一个客户端相关的操作！

相关推荐: win10“我的电脑”图标消失了如何找回

本文小编为大家详细介绍“win10“我香港云主机的电脑”图标消失了如何找回”，内容详细，步骤清晰，细节处理妥当，希望这篇“win10“我的电脑”图标消失了如何找回”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。具体步骤：一、win1…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。