青云QingCloud 大数据课堂 第三课
-
终究,坚持的人会越来越少,半途而废的人会越来越多,你会选择哪一个呢?坚持 OR 放弃?
讲义PPT
-
第三节课 大数据主流产品
本节课解答以下问题:
- 大数据的基础理论来源?
- 大数据生命周期分为几个阶段?
- 大数据各生命周期主流的应用工具有哪些?
1.起源:Google最有名的两篇论文,奠定了大数据的基础
* Google File System * Google MapReduce
2.数据的生命周期分为以下几大部分(视频中的 PPT 架构图可充分体现):
采集-传输-存储-计算-可视化(展现)-管理-
传输:
面临问题:数据采集方和数据消费方的速度不匹配,容易造成压力。
解决方案:中间设置缓存。
主要作用:调节数据传输速度、减少数据接收方的压力。特别是大量数据收集时,流失计算中,设计架构时要设置缓存,即消息队列。
应用工具:Kafka 、Flume -
存储:
应用工具:Hadoop、Hbase、对象存储(i.g.AWS S3) -
计算:实时计算、离线计算;
I 实时计算(秒级响应)
storm:实时性更高、延时性低、可毫秒级别、数据吞吐量低
spark:把信息按照时间分成块、延时性高、数据吞吐量高、离线计算。II 离线计算 MapReduce,最典型的离线计算代表 BigSQL的两大阵营: * OLAP(on-line Analytical Processing)要求:快 * OLTP(on-line Transaction Processing)要求:事务性强 [两者介绍与关系对比图](http://blog.csdn.net/zhangzheng0413/article/details/8271322/) SQL的两大阵营: * SQL-on-Hadoop:Hadoop系列 * MPP:采用该架构的系统有EMC Greenplum、HP Vertica和Google Dremel。 特点:对SQL标准工具支持力度高,可视化软件(BI工具 )与SQL无缝对接。
- 可视化
知名可视化软件:Tableau、Zeppelin、HUE(Apache)
可视化软件合集https://zhuanlan.zhihu.com/p/24089938
- 可视化
【补充知识】
提到数据可视化,没有人在这个领域的领先能超过爱德华.塔芙特(Edward Tufte),纽约时报将塔芙特称为数据觉得列奥纳多达芬奇。他在1982年出版了二十世纪最具代表性的书籍之一《定量信息的视觉展示》( The Visual display of quantitative information )
-
针对上层BI工具:
- Tableau是不开源的,分为付费版本和免费版本
- Hue是开源的,基于python开发的
- Zeppelin也是开源的,基于Java开发的
-
大家看完每节课的视频,记得在当节课下签到晒笔记~
这样最后我才能统计并发放学霸奖学金~
今晚8点,第4课,我们不见不散。
-
@fiona 没看到有第四课的更新,有链接么?
-
签到,计算:实时计算、离线计算
-
签到。
提到了很多名字和软件,还得慢慢熟悉起来。
-
签到,继续跟踪大数据。