标签： spark

「Spark从入门到精通系列」2. Spark入门介绍与基础案例

数据与智能本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理，持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章，每周至少输出7篇精品原创。同时，我们会关注和分享大数据与人工智能行业动态。欢迎关注。

java 2023年2月26日点赞(1)评论关闭阅读(79)

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab
默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。

java 2023年2月12日点赞(0)评论关闭阅读(302)

翻译 | 沈波张天航校对 | 余杭整理 | 凡江作为一个视觉数据处理平台，拥有从海量图片中学习并理解其内容的能力是非常重要的。

java 2023年2月12日点赞(3)评论关闭阅读(98)

本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。

java 2023年2月10日点赞(2)评论关闭阅读(172)

**Spark使用SparkSQL、Spark Streaming、MLlib、Graph几乎完美地解决了大数据中的Batch Processing、Stream Processing、Ad-hocQuery等三大核心问题。

java 2023年2月7日点赞(4)评论关闭阅读(225)

一环境:二.数据情况:三.Eclipse+Maven+Java。1 依赖:3.2 代码:工具类:四错误解决办法:下载cdh集群Hive的hive-site.xml文件，在项目中新建resources文件夹，讲hive-site.xml配置文件放入其中:

java 2023年2月4日点赞(0)评论关闭阅读(200)

Spark程序开发中，很多地方都会涉及Spark和Scala库之间的的版本问题，如果处理不好，在开发和运行时，会频频出错。由于问题出现的地方多，又涉及开发和运行的多个阶段，概念不清，就容易混淆，因此，这个问题可以说是Spark开发中的迷之问题。

java 2023年2月2日点赞(0)评论关闭阅读(153)

Spark提供了丰富的API，让开发人员可以使用简洁的方式，来处理复杂的数据计算和分析。在开始Spark应用开发之前，需要做好如下准备工作。

java 2023年1月25日点赞(2)评论关闭阅读(192)

在遍历spark dataset的时候，通常会使用 forpartition 在每个分区内进行遍历，而在默认分区可能因数据分布原因导致datasetc处理时的数据倾斜，造成整个dataset处理缓慢，发挥不了spark多executor多partition的并行处理能力，因此，普

java 2023年1月17日点赞(1)评论(8)阅读(212)

今天给大家分享一下Java内容，Java基础是学习JavaEE、大数据、Android开发的基石!0 Java的简单介绍。

java 2022年12月29日点赞(0)评论关闭阅读(182)