您的位置 首页 java

零基础入门Spark groupBy操作(Java版)

什么是JavaRDD groupBy操作

JavaRDD 的groupBy操作是将Rdd中的元素按照自定义规则进行数据分组。比如按元素的字符串长度进行分组。

JavaRDD 操作的简单例子

按照元素的字符串长度进行分组,groupBy的参数就是自定义分组规则的函数,把函数返回值相同的元素分在一组,最后生成新的key,value形式的JavaPairRDD,key 就是分组名也就是字符串长度,value就是该组的所有元素集合。如图:

总结

分组关键是理解 groupBy参数的意思,它就是分组的函数,其返回值就是分组的key。groupBy返回新的Rdd 是 键值对的JavaPairRDD, 键就是分组函数的返回值,值就是相同键的元素集合。

文章来源:智云一二三科技

文章标题:零基础入门Spark groupBy操作(Java版)

文章地址:https://www.zhihuclub.com/190824.shtml

关于作者: 智云科技

热门文章

发表回复

您的电子邮箱地址不会被公开。

网站地图