走进大数据丨 MapReduce之分组

基本概念

分组和分区类似，是根据Map<key,value>中的key进行分组。在同一个分区中，相同key的值记录是属于同一个分组的，相当于groupby key的功能。将相同的key2进行合并,value形成一个集合。也就是用来划分数据的，只不过更加细致，如果不使用自定义分组而是使用默认分组的话，和分区类似，也就是通过对比Key来进行分组逻辑。

分区与分组的区别

分区：决定我们的数据究竟去往哪一个reduceTask，发生在mapTask后面，决定 mapTask里面的数据，去往哪一个reduceTask

分组：合并相同的k2 作用在每一个reduceTask上面

自定义分组

(1).自定义分组比较器继承RawComparator，实现compare()方法。

(2).设置job.setGroupingComparatorClass()。

如果你想要进阶大数据开发，且目前已掌握Hadoop基本概念、 scala 语言基础语法和 Spark 基础知识，这份学习资料将特别适合您！本资料免费领取名额仅有100名哦（超额之后需要付费观看）！

「大数据零基础入门」

「大数据架构系统组件」

「大数据全套系统工具安装包」

Java必备工具

大数据必备工具

「大数据行业必备知资讯」

「大数据精品实战案例」

「大数据就业指导方案」

最后说一下的，也就是以上教程的获取方式！

领取方法：

还是那个万年不变的老规矩

1.评论文章，没字数限制，一个字都行！

2.成为小编成为的粉丝！

3.私信小编：“大数据开发教程”即可！

谢谢大家，祝大家学习愉快！（拿到教程后一定要好好学习，多练习哦!)

智云一二三科技

走进大数据丨 MapReduce之分组

关于作者: 智云科技

给这篇文章的作者打赏

关于作者: 智云科技

相关文章

Map和List的几种遍历方式

全网大佬都在用的Java+Python这两套视频学习教程，学习很重要

JavaWeb快速进阶全套教程(程序员必备2020版)：视频+笔记+源码

热门文章

1分享新浪图床上传接口源码

2PHP简单实现路由Route功能

3Tideways、xhprof 和 xhgui 打造 PHP 非侵入式监控平台

4centos系统如何查看是否安装了mysql

5curl 工具简述