标签： spark

Apache 两个开源项目比较：Flink vs Spark

ApacheFlink是新一代通用大数据处理引擎，旨在统一不同的数据负载。这两个系统都旨在构建单一平台，可以在其中运行批处理，流媒体，交互式，图形处理，机器学习等。

java 2023年6月24日点赞(2)评论关闭阅读(137)

1.应用库SparkSQLSparkSQL的特点：1、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。

java 2023年6月19日点赞(1)评论关闭阅读(57)

#Converting dataframe into an RDDrdd_convert = dataframe.rdd# Converting dataframe into a RDD of stringdataframe.toJSON# Obtaining contents

java 2023年6月17日点赞(1)评论关闭阅读(112)

除在功能方面的部分交集外，Storm、 Spark 还各自拥有独特的特性与市场定位。Apache Storm和Apache Spark是其中最为引人注目的代表性平台，能够为广大相关用户提供实时数据处理和分析功能。

java 2023年6月15日点赞(1)评论关闭阅读(118)

作者：郑锴，花名铁杰，阿里巴巴高级技术专家，ApacheHadoopPMC，ApacheKerby创立者。深耕分布式系统开发和开源大数据多年，先后专注在安全，存储和计算领域。

java 2023年6月14日点赞(0)评论关闭阅读(49)

1、spark2.0有哪些优化1）统一了DataFrames与Dataset映射、筛选、groupByKeyselect、groupBy都可用于DatasetDataset接口是用作StructuredStreaming的抽象2）新入口SparkSession取代了原本的SQLC

java 2023年5月30日点赞(4)评论关闭阅读(104)

Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

java 2023年5月27日点赞(1)评论关闭阅读(125)

我只截图不说话，PPT大全，氛围研发篇、算法篇、大数据、Java后端架构！大数据：Spark、Hadoop研发篇部分截图一览，感谢大佬们的分享算法篇部分截图一览，直接上目录机器算法大集合PPT内容还有很多！

java 2023年5月25日点赞(0)评论关闭阅读(67)

等BAT公司所做的大数据面试题汇总。主要包括以下几大类：一、spark相关1.Spark的Shuffle原理及调优。

java 2023年5月14日点赞(4)评论关闭阅读(107)

俗话说得好，磨刀不误砍柴工，献上一副来自国家5A级风景区美景图。3，数据处理，mapPartition， map，filter，reduce等一系列transformation操作。

java 2023年5月14日点赞(1)评论关闭阅读(136)