学习日志—hadoop的join处理

1449272589 • 07/23 16:49 • Linux技术 • 122 views

Join方法
需求：处理input1和input2文件，两个文件中的id都一样，也就是key值一样，value值不同，把两者合并。input1存的是id和名字，input2存的是id和各种信息。处理方法一：
方法一缺点：value值无需，可能第一个文件的value在前，也可能第二个文件的value在前；处理方法二：引入了一个自定义类型：处理过程：可以在mapper阶段通过context得到处理的文件是哪一个，因此可以分别处理。
缺点：如果两个文件的条数不同，并且还需要把id相同的合并处理方法三:
其他处理方法：
使用distributedCache在mapper环节进行映射；主要是重写mapper里面的setup方法，通个context去读取job传入的文件，然后存在mapper对象中，从而使得mapper在每次实现map方法时都可以调用这些预先存入的数据；使用set 香港云主机up预先处理input1，则mapper的map方法处理input2即可。

其他linux指令：可以通过wc查看文件的条数

相关推荐: win7系统常用的注册表优化技巧有哪些

小编给大家分享一下win7系统常用的注册表优化技巧有哪些，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！打开注册表编辑器：1、按住键盘的“Win+R”快捷组合键或者点击开始菜单，选择运行，打开“运行”命令对话窗口。2、接着输入Regedit…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。