HBase 系列（一）——HBase基础架构与运行机制

如下文章字数大约720字，阅读时间需要20分钟左右。

hbase 系列因个人时间限制，对应发表未按照HBase对应的知识体系结构的顺序，

而是根据自己想到哪一部分就总结写出了对应部分，特此声明，望理解。

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

通过上述描述，Hbase三个核心概念为：分布式，面向列，非结构化数据。

如下图所示：

【1】分布式：

分布式和集群是2个不同的概念：集群是针对物理方面的，而分布式是针对业务来说的。

简单来说：如果有2多主机，就可以理解为集群，而集群不一定是分布式。这也就是分布式是对业务来讲。

【2】非结构化数据。

结构化：可以通过标准的规范定义，我们称之为结构化数据。

最常见的就是： Mysql ,Oracle。因为，每定义一个就会有类型，长度。比如：name string 长度为 20

非结构化：不能用常规的标准来定义，其长度是可变的。比如：图片，音频，视频。

半结构化数据：介于结构化数据与非结构化数据之间。比如：html，xml。

【3】列式存储

可以简单理解成列

为什么使用Hbase?

【1】开源，免费，社区活跃，文档详细。

【2】为大数据而生，Hbase一个表可以有十亿行，上百列。

【3】高可用，HBase是一个没有单点故障的分布式系统。

【4】Hbase可以提供高并发读写操作的支持。

【5】列可以动态添加，并且列为空就不存储数据，节省存储空间。

【6】实时查询。一般相应时间为1秒。

总结：

Hbase 不是非常完美的。它是有条件的。它不支持条件查询。

如果hbase要做条件查询，其支持2个东西：

<1>协调器(coprocessor)，如果hbase内置的协调器无法完成查询，还需要使用自定义协调器。

<2> 过滤器 (filter)，也有自定义过滤器。

其他复杂操作可以自行查看相关网上资料，这里不一一介绍。

下篇预告 ：讲讲对应Hbase的安装与基本操作。

如果有感兴趣或者疑惑的知识点，可以评论或者私信我，我会准备相关内容，推出对应的文章。

已上内容，纯属一家之言，因本人能力一般，见识有限，如有问题，请不吝指正，感谢。

相关技术内容会持续更新，大家可随时交流，欢迎关注本头条号。

智云一二三科技

HBase 系列（一）——HBase基础架构与运行机制

关于作者: 智云科技

给这篇文章的作者打赏

关于作者: 智云科技

相关文章

Map和List的几种遍历方式

全网大佬都在用的Java+Python这两套视频学习教程，学习很重要

JavaWeb快速进阶全套教程(程序员必备2020版)：视频+笔记+源码

热门文章

1分享新浪图床上传接口源码

2PHP简单实现路由Route功能

3Tideways、xhprof 和 xhgui 打造 PHP 非侵入式监控平台

4centos系统如何查看是否安装了mysql

5curl 工具简述