大数据技术应用场景

大数据技术产品

大数据技术产品

大数据技术分类:存储,计算,资源管理

1.存储:

(1)最基本的存储技术是HDFS:
    比如在企业应用中,会把通过各种渠道得到的数据,比如关系数据库的数据、日志数据、应用程序埋点采集的数据、爬虫从外部获取的数据,统统存储到HDFS上,供后续的统一使用。

(2)HBase:
    HBase作为NoSQL类非关系数据库的代表性产品,从分类上可以划分到存储类别,它的底层存储也用到了HDFS。
    HBase的主要用途是在某些场景下,代替MySQL之类的关系数据库的数据存储访问,利用自己可伸缩的特性,存储比MySQL多得多的数据量。

2.计算:

(1)大数据批处理计算
    MapReduce、Spark、Hive、Spark SQL这些技术主要用来解决离线大数据的计算,也就是针对历史数据进行计算分析,比如针对一天的历史数据计算,一天的数据是一批数据,所以也叫批处理计算。

(2)大数据流处理计算
    Storm、Spark Streaming、Flink这类的大数据技术是针对实时的数据进行计算,比如摄像头实时采集的数据、实时的订单数据等,数据实时流动进来,所以也叫流处理大数据技术。

3.资源管理:

(1)Yarn:
    管理这些服务器集群的计算资源,对计算请求进行资源分配。

4.注意:

(1)各种大数据计算引擎,不管是批处理还是流处理,都可以通过Yarn进行资源分配,运行在一个集群中。所以上面所有这些技术在实际部署的时候,通常会部署在同一个集群中,

(2)但是HBase特殊,作为一个NoSQL存储系统,HBase的应用场景是满足在线业务数据存储访问需求,通常是OLTP(在线事务处理)系统的一部分,为了保证在线业务的高可用和资源独占性,一般是独立部署自己的集群,和前面的Hadoop大数据集群分离部署。