青云QingCloud 大数据课堂 第三课




  • 终究,坚持的人会越来越少,半途而废的人会越来越多,你会选择哪一个呢?坚持 OR 放弃?

    讲义PPT

    0_1481522084089_1.png

    0_1481522093876_2.png



  • 第三节课 大数据主流产品

    本节课解答以下问题:

    1. 大数据的基础理论来源?
    2. 大数据生命周期分为几个阶段?
    3. 大数据各生命周期主流的应用工具有哪些?

    1.起源:Google最有名的两篇论文,奠定了大数据的基础

    * Google File System   
    * Google MapReduce 
    

    2.数据的生命周期分为以下几大部分(视频中的 PPT 架构图可充分体现):
    采集-传输-存储-计算-可视化(展现)-管理

    • 传输:
      面临问题:数据采集方和数据消费方的速度不匹配,容易造成压力。
      解决方案:中间设置缓存。
      主要作用:调节数据传输速度、减少数据接收方的压力。特别是大量数据收集时,流失计算中,设计架构时要设置缓存,即消息队列。
      应用工具:Kafka 、Flume

    • 存储:
      应用工具:Hadoop、Hbase、对象存储(i.g.AWS S3)

    • 计算:实时计算、离线计算;
      I 实时计算(秒级响应)
      storm:实时性更高、延时性低、可毫秒级别、数据吞吐量低
      spark:把信息按照时间分成块、延时性高、数据吞吐量高、离线计算。

       II 离线计算
          MapReduce,最典型的离线计算代表
          
          BigSQL的两大阵营:
      * OLAP(on-line Analytical Processing)要求:快
      * OLTP(on-line Transaction Processing)要求:事务性强
        [两者介绍与关系对比图](http://blog.csdn.net/zhangzheng0413/article/details/8271322/)
      
           SQL的两大阵营:
          * SQL-on-Hadoop:Hadoop系列
          * MPP:采用该架构的系统有EMC Greenplum、HP Vertica和Google Dremel。
            特点:对SQL标准工具支持力度高,可视化软件(BI工具 )与SQL无缝对接。
      

    【补充知识】
    提到数据可视化,没有人在这个领域的领先能超过爱德华.塔芙特(Edward Tufte),纽约时报将塔芙特称为数据觉得列奥纳多达芬奇。他在1982年出版了二十世纪最具代表性的书籍之一《定量信息的视觉展示》( The Visual display of quantitative information )



  • 针对上层BI工具:

    • Tableau是不开源的,分为付费版本和免费版本
    • Hue是开源的,基于python开发的
    • Zeppelin也是开源的,基于Java开发的


  • 大家看完每节课的视频,记得在当节课下签到晒笔记~
    这样最后我才能统计并发放学霸奖学金~
    今晚8点,第4课,我们不见不散。



  • @fiona 没看到有第四课的更新,有链接么?



  • 签到,计算:实时计算、离线计算



  • 签到。
    提到了很多名字和软件,还得慢慢熟悉起来。



  • 签到,继续跟踪大数据。


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待