大数据HBase 快速入门1简介

image.png

HBase是Hadoop环境中的一个开源的，面向列的分布式数据库系统。最初，它是Google Big Table，之后被重新命名为HBase，主要用Java编写。实时大数据应用程序需要Apache HBase。

HBase可以存储从TB到PB的大量数据。 HBase中的表包含数十亿行，包含数百万列。 HBase专为低延迟操作而构建，与传统的关系模型相比具有一些特定功能。

HBase独特的功能

流行的Web应用程序的表可能包含数十亿行。如果我们想从如此大量的数据中搜索特定行，HBase是一个理想的选择，因为查询获取时间更短。大多数在线分析应用程序都使用HBase。

传统的关系数据模型无法满足非常大的数据库的性能要求。 Apache HBase可以克服这些性能和处理限制。

在大数据分析中，Hadoop通过管理大型数据集在解决典型业务问题方面发挥着至关重要的作用，并在分析领域提供最佳解决方案。

在Hadoop生态系统中，每个组件都扮演着独特的角色

在存储非结构化，半结构化数据存储以及检索这些数据方面，关系数据库不太有用。此外，通过对存储在Hadoop存储中的大量数据集应用查询来获取结果是一项具有挑战性的任务。 NoSQL存储技术为更快地查询大型数据集提供了最佳解决方案。

市场上出现的一些NoSQL模型是Cassandra，MongoDB和CouchDB。每种模型都有不同的存储机制。

例如，MongoDB是NoSQL系列树中面向文档的数据库。与传统数据库相比，它在性能，可用性和可伸缩性方面提供了最佳功能。它是一个面向开源文档的数据库，它是用C++编写的。

Cassandra也是一个来自开源Apache软件的分布式数据库，旨在处理存储在商用服务器上的大量数据。 Cassandra提供高可用性，没有单点故障。

而CouchDB是面向文档的数据库，其中每个文档字段都存储在键值映射中。

MongoDB，CouchDB和Cassandra属于NoSQL类型的数据库，这些数据库是特定于功能的，并根据其业务需求使用。在这里，我们根据用例列出了不同的NoSQL数据库。

在将HBase与传统关系数据库进行比较时，我们必须考虑三个关键领域。这些是数据模型，数据存储和数据多样性。

image.png

HBase提供独特的功能，并将解决典型的工业用例。作为面向列的存储，它提供快速查询，获取结果和大量数据存储。