流计算
1:流数据:
流数据(数据流):在时间分布和数量上无限的一系列动态数据的集合体。:
2:流数据的特点:
1:数据快速到达,潜在大小也许是无穷无尽的。
2:数据来源众多,格式复杂。
3: 数据量大,但是不十分关注存储,一旦流数据中元素经过处理,要么被丢弃,要么被归档存储。
4:注重数据的整体价值,不过分关注个别数据。
5:数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。
3:在流计算的概念中,数据的价值与时间具备怎样的关系
数据的价值随着时间的流逝而降低
4:论述流计算的需求:
1:高性能。处理大数据的基本要求。(每秒处理几十万条数据)
2:海量式:支持TP级甚至PB级的数据规模
3:实时性:必须保证一个较低的延迟时间,达到秒级别,甚至毫秒级
4:分布式:支持大数据的基本架构,必须能够平滑扩展
6:可靠性:能够可靠的处理流数据
MapReduce适用于对海量数据执行批量计算,而流数据不适用于批量计算。在时间延迟方面无法满足流计算的实时响应需求。
6:将基于MapReduce的批量处理转化为小批量处理,每隔一个周期就启动一次MapReduce作业,通过这样的方式来处理数据是否可行?为什么?
不可行
1:切分成小的片段,虽然可以降低延迟,但是增加了任务处理的附加开销,而且还要处理片段之间的附加关系。(因为一个片段可能需要用到前一个片段的计算结果)
2:需要对MapReduce进行改造,以支持流逝处理。Reduce阶段的结果不能直接输出,而是保存在内存中。如果对MapReduce进行改造,将会增加MapReduce框架的复杂度,不利于框架的维护和扩展。
3:降低了用户程序的可伸缩性,因为用户必须使用MapReduce接口来定义流式作业。
7:列举几个常见的流计算框架
(一)商业级的流计算平台
1:IBM InfoSphere Streams
2:IBM StreamBase
(二)开源流计算框架
1:Twitter Storm
2:Yahoo!4
(三)公司为支持自身业务而开发的流计算框架
1:facebook Puma
2:Dstream(百度)
3:银河数据处理平台(淘宝)
4:Super Mario
TO DO
相关阅读
计算机三级网络技术考过指南 原文链接:计算机三级网络技术考过
大学的计算机课程有哪些 1)大学计算机专业课程:电子技术、离散数学、程序设计、数据结构、操作系统、计算机组成原理、微机系统、
除了主推商品,商家一般还需要设置淘宝客类目佣金,因为加入淘宝客推广不止是一个商品,而是整个店铺。如果卖家想要开通淘客推广,那么,最
Excel怎么利用RATE函数计算年收益率?Excel的运用技术与技巧对于教学有很大的帮助,尤其是对于学生在处理基本的数据、表格等方面有
很多学线性代数的小伙伴在计算3阶行列式的时候总会感到很麻烦,数据量大而且容易看错。我们在知道计算方法后就可以使用