必威体育Betway必威体育官网
当前位置:首页 > IT技术

Hadoop是什么?基本概念

时间:2019-09-15 22:40:00来源:IT技术作者:seo实验室小编阅读:73次「手机版」
 

hadoop是什么

1.1 什么是HADOOP

Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:

Hadoop Common:支持其他Hadoop模块的常用工具

Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

Hadoop YARN:作业调度和集群资源管理的框架。

Hadoop mapreduce:一种用于并行处理大型数据集的基于YARN的系统。

上述每个模块有自己独立的功能,而模块之间又有相互的关联。

广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2 HADOOP生态圈以及各组成部分的简介

hadoop体系介绍          

HADOOP是apache旗下的一套开源软件平台

HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

HADOOP的核心组件有

HDFS(分布式文件系统)

YARN(运算资源调度系统)

MAPREDUCE(分布式运算编程框架)

hadoop生态圈中  各个组件的作用描述:

(1)hdfs:就是一个文件系统,可以存储海量的数据。

(2)mapreduce:从海量的数据中,通过一定的算法,计算出有用信息。

(3)hive:就是sql语句解释器,接收用户输入的sql语句,然后将该sql语句翻译成复杂的mapreduce程序,并发布到mr集群中进行运算,也是计算出有用的信息。

(4)hbasemysql是基于linux/window的文件系统的数据库,而hbase就是基于hdfs文件系统的数据库。

(5)flume:就是一个水泵,将水从一个源水坑,抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。

(6)sqoop:将hdfs文件系统的文件,导出到linux文件系统的文件中。就像“豌豆荚”应用程序,实现 Android系统与window系统之间文件的导入导出。

(7)ooize/azkaban:一个完整的业务(work)是由多个任务(task)相互配合完成的。该组件就是负责协调各个task的执行顺序。

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

相关阅读

hadoop是什么?新手自学hadoop教程(一)

百科释义:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是一个专为离线和大规模数据分析而设计的,并不适合那种对

Hadoop之MapReduce原理分析

前言 上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。 M

Hadoop(1)什么是hadoop

1、hadoop的官网定义 Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。 它旨在从

分享到:

栏目导航

推荐阅读

热门阅读