Hadoop 是一个能够对大量数据进行分布式处理的 软件框架 。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理 PB 级数据。
另外,大数据初学者有什么不懂的可以关注私信【学习】和转发——我刚整理了一份大数据2018最新的0基础入门和进阶教程,无私分享