必威体育Betway必威体育官网
当前位置:首页 > IT技术

大数据技术与原理之流计算基本知识点梳理(一)

时间:2019-08-13 02:44:29来源:IT技术作者:seo实验室小编阅读:66次「手机版」
 

流计算

1:流数据

流数据(数据流):在时间分布和数量上无限的一系列动态数据的集合体。:

2:流数据的特点:

1:数据快速到达,潜在大小也许是无穷无尽的。

2:数据来源众多,格式复杂。

3:  数据量大,但是不十分关注存储,一旦流数据中元素经过处理,要么被丢弃,要么被归档存储。

4:注重数据的整体价值,不过分关注个别数据。

5:数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。

3:在流计算的概念中,数据的价值与时间具备怎样的关系

数据的价值随着时间的流逝而降低

4:论述流计算的需求:

1:高性能。处理大数据的基本要求。(每秒处理几十万条数据)

2:海量式:支持TP级甚至PB级的数据规模

3:实时性:必须保证一个较低的延迟时间,达到秒级别,甚至毫秒级

4:分布式:支持大数据的基本架构,必须能够平滑扩展

5:易用性:能够快速进行开发和部署

6:可靠性:能够可靠的处理流数据

5:mapreduce框架为什么不适用处理流数据

MapReduce适用于对海量数据执行批量计算,而流数据不适用于批量计算。在时间延迟方面无法满足流计算的实时响应需求。

6:将基于MapReduce的批量处理转化为小批量处理,每隔一个周期就启动一次MapReduce作业,通过这样的方式来处理数据是否可行?为什么?

不可行

1:切分成小的片段,虽然可以降低延迟,但是增加了任务处理的附加开销,而且还要处理片段之间的附加关系。(因为一个片段可能需要用到前一个片段的计算结果)

2:需要对MapReduce进行改造,以支持流逝处理。Reduce阶段的结果不能直接输出,而是保存在内存中。如果对MapReduce进行改造,将会增加MapReduce框架的复杂度,不利于框架的维护和扩展。

3:降低了用户程序的可伸缩性,因为用户必须使用MapReduce接口来定义流式作业。

7:列举几个常见的流计算框架

(一)商业级的流计算平台

1:IBM InfoSphere Streams

2:IBM StreamBase

 (二)开源流计算框架

1:Twitter Storm

2:Yahoo!4

 (三)公司为支持自身业务而开发的流计算框架

 1:facebook Puma

 2:Dstream(百度)

 3:银河数据处理平台(淘宝

4:Super Mario

TO DO 

相关阅读

计算机三级网络技术 = =

计算机三级网络技术考过指南 原文链接:计算机三级网络技术考过

大学计算机专业学习哪些课程?

大学的计算机课程有哪些 1)大学计算机专业课程:电子技术、离散数学、程序设计、数据结构、操作系统、计算机组成原理、微机系统、

淘宝客各类目佣金比率一般是多少?如何计算佣金?

除了主推商品,商家一般还需要设置淘宝客类目佣金,因为加入淘宝客推广不止是一个商品,而是整个店铺。如果卖家想要开通淘客推广,那么,最

Excel怎么利用RATE函数计算年收益率

Excel怎么利用RATE函数计算年收益率?Excel的运用技术与技巧对于教学有很大的帮助,尤其是对于学生在处理基本的数据、表格等方面有

使用c语言计算3阶行列式

很多学线性代数的小伙伴在计算3阶行列式的时候总会感到很麻烦,数据量大而且容易看错。我们在知道计算方法后就可以使用

分享到:

栏目导航

推荐阅读

热门阅读