您的位置 首页 java

HBase 系列(一)——HBase基础架构与运行机制

如下文章字数大约720字,阅读时间需要20分钟左右。

hbase 系列因个人时间限制,对应发表未按照HBase对应的知识体系结构的顺序,

而是根据自己想到哪一部分就总结写出了对应部分,特此声明,望理解。

HBase是一个 分布式 的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的 关系数据库 ,它是一个适合于 非结构化数据 存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

通过上述描述,Hbase三个核心概念为:分布式,面向列,非结构化数据。

如下图所示:

【1】分布式:

分布式和集群是2个不同的概念:集群是针对物理方面的,而分布式是针对业务来说的。

简单来说:如果有2多主机,就可以理解为集群,而集群不一定是分布式。这也就是分布式是对业务来讲。

【2】非结构化数据。

结构化:可以通过标准的规范定义,我们称之为结构化数据。

最常见的就是: Mysql ,Oracle。因为,每定义一个就会有类型,长度。比如:name string 长度为 20

非结构化:不能用常规的标准来定义,其长度是可变的。比如:图片,音频,视频。

半结构化数据:介于 结构化数据与非结构化数据之间。比如:html,xml。

【3】列式存储

可以简单理解成列

为什么使用Hbase?

【1】开源,免费,社区活跃,文档详细。

【2】为大数据而生,Hbase一个表可以有十亿行,上百列。

【3】高可用,HBase是一个没有单点故障的 分布式系统

【4】Hbase可以提供高并发读写操作的支持。

【5】列可以动态添加,并且列为空就不存储数据,节省存储空间。

【6】实时查询。一般相应时间为1秒。

总结:

Hbase 不是非常完美的。它是有条件的。它不支持条件查询。

如果hbase要做条件查询,其支持2个东西:

<1>协调器(coprocessor),如果hbase内置的协调器无法完成查询,还需要使用自定义协调器。

<2> 过滤器 (filter),也有自定义过滤器。

其他复杂操作可以自行查看相关网上资料,这里不一一介绍。

下篇预告 :讲讲对应Hbase的安装与基本操作。

如果有感兴趣或者疑惑的知识点,可以评论或者私信我,我会准备相关内容,推出对应的文章。

已上内容,纯属一家之言,因本人能力一般,见识有限,如有问题,请不吝指正,感谢。

相关技术内容会持续更新,大家可随时交流,欢迎关注本头条号。

文章来源:智云一二三科技

文章标题:HBase 系列(一)——HBase基础架构与运行机制

文章地址:https://www.zhihuclub.com/188014.shtml

关于作者: 智云科技

热门文章

网站地图