「hadoop是什么」Hadoop是什么？基本概念

hadoop是什么

1.1 什么是HADOOP

Apache Hadoop 为可靠的，可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。包括这些模块：

Hadoop Common：支持其他Hadoop模块的常用工具。

Hadoop分布式文件系统（HDFS™）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop mapreduce：一种用于并行处理大型数据集的基于YARN的系统。

上述每个模块有自己独立的功能，而模块之间又有相互的关联。

广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2 HADOOP生态圈以及各组成部分的简介

hadoop体系介绍

HADOOP是apache旗下的一套开源软件平台

HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理

HADOOP的核心组件有

HDFS（分布式文件系统）

YARN（运算资源调度系统）

MAPREDUCE（分布式运算编程框架）

hadoop生态圈中各个组件的作用描述：

（1）hdfs：就是一个文件系统，可以存储海量的数据。

（2）mapreduce：从海量的数据中，通过一定的算法，计算出有用信息。

（3）hive：就是sql语句解释器，接收用户输入的sql语句，然后将该sql语句翻译成复杂的mapreduce程序，并发布到mr集群中进行运算，也是计算出有用的信息。

（4）hbase：mysql是基于linux/window的文件系统的数据库，而hbase就是基于hdfs文件系统的数据库。

（5）flume：就是一个水泵，将水从一个源水坑，抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。

（6）sqoop：将hdfs文件系统的文件，导出到linux文件系统的文件中。就像“豌豆荚”应用程序，实现 Android系统与window系统之间文件的导入导出。

（7）ooize/azkaban：一个完整的业务（work）是由多个任务（task）相互配合完成的。该组件就是负责协调各个task的执行顺序。

重点组件：

HDFS：分布式文件系统

MAPREDUCE：分布式运算程序开发框架

HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具

HBASE：基于HADOOP的分布式海量数据库

ZOOKEEPER：分布式协调服务基础组件

Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie：工作流调度框架

Sqoop：数据导入导出工具

Flume：日志数据采集框架