标签： spark

解决Spark数据倾斜全面总结

假设某个Spark Job分为Stage 0和Stage 1两个Stage，且Stage 1依赖于Stage 0，那Stage 0完全处理结束之前不会处理Stage 1。

java 2023年8月27日点赞(2)评论关闭阅读(70)

大数据技术之Spark

Spark是一种与Hadoop MapReduce相似的开源集群计算环境，Spark拥有MapReduce所具有的优点，但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark的计算效率要比MapReduce快很多，同时Spark也能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

java 2023年8月18日点赞(2)评论关闭阅读(150)

阿里P8专家，深入解析分布式计算：Strom+Scala+Spark，共15.93G

Spark是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点;

java 2023年8月11日点赞(1)评论关闭阅读(82)

深度预警:Spark运行原理

Spark应用程序，由一个或多个作业JOB组成，如下图所示:image2、Driver：驱动程序Spark中的Driver即运行上述Application的Main，如下图所示:image7、窄依赖父RDD每一个分区最多被一个子RDD的分区所用；表现为一个父RDD的分区对应于一个

java 2023年8月10日点赞(1)评论关闭阅读(67)

SparkSQL读取HBase数据

这里的SparkSQL是指整合了Hive的spark-sql cli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）.本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler .hadoop-2.3.0-cdh5.0.

java 2023年8月7日点赞(3)评论关闭阅读(62)

2020年阿里巴巴最全Java、架构师、大数据、算法PPT技术栈图册

我只截图不说话，PPT大全，氛围研发篇、算法篇、大数据、Java后端架构！Java核心技术栈：覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。

java 2023年7月24日点赞(3)评论关闭阅读(85)

Spark学习（一）：简介和架构

1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架，分布式资源工作交由集群管理软件，底层是用scala语言实现的。

java 2023年7月24日点赞(1)评论关闭阅读(98)

带你对比Hadoop MapReduce与Apache Spark

文章来源：加米谷大数据Hadoop和Spark是大数据生态系统中流行的apache项目。Apache Spark是对hadoop大数据生态系统的原始Hadoop MapReduce组件的改进。

java 2023年7月19日点赞(3)评论关闭阅读(59)

Spark机器学习-Java版（一）-向量和矩阵

而言2.0版本后,由RDD这种抽象数据结构转换到了基于dataframe上,其相关API也被封装到了spark.ml包下。

java 2023年7月15日点赞(2)评论关闭阅读(73)

分布式系统开发实战：分布式计算，实战：基于Spark词频统计

实战：基于Spark词频统计下面，我们将演示基于Spark框架来实现词频统计功能。项目概述我们将创建一个名为“spark-word-count”的应用。在该应用中，我们将使用Spark来实现对文章中单词的出现频率进行统计。

java 2023年7月9日点赞(4)评论关闭阅读(85)