青云QingCloud 大数据课堂 第四课




  • 小编这节课没有签到,不知道有没有被大家发现【捂脸】

    第四节讲义PPT

    0_1481691652395_4-1.png 0_1481691660317_4-2.png 0_1481691667486_4-3.png 0_1481691673960_4-4.png 0_1481691679987_4-5.png



  • get 大数据的趋势是云化和开源。



  • 签到,大数据和云的关系



  • 签到
    云化一定是趋势



  • 这节课核心就是告诉咱们用物理机构建大数据环境没问题,但是并不高效,更推荐利用类似于青云这种公司提供的云计算服务,性能不会有问题。亲自试过,可以自行构建网络结构,按秒计费(妈的,这个地方忍不住吐槽一下阿里云的按量计费,坑爹,我下面会贴个图来说一下阿里云的按量计费逻辑),性能也完全不用担心。上次国际会议中心云计算大会,还在青云展台实验了一把三分钟构建大数据平台。

    阿里云的按量计费逻辑之撕逼结论:
    0_1482028580270_upload-3faef9d1-bc14-4ddf-8854-97c744d413c2



  • 第四节课打卡

    课时延长,分几次听完,还被小四老师安利了不少广告~

    云计算与大数据
    1.大数据的趋势是什么?
    云化和开源

    2.大数据和云计算的关系是什么?
    云计算为大数据提供了很好的支撑
    大数据可以脱离云计算在物理机上单独运行。
    由于云计算的无限资源扩展,因此可以为大数据最好的IT支持架构 。

    3.在云端提供大数据的3点好处?

    • 自动化运维
      一键部署:一键式自动搭建系统
      API调用:在本地程序中控制数据,短时间内进行数据趋势集中分析并节省费用
      定时器:按照时间进行集群控制
      Auto Scaling:配置完善的服务,当一个集群资源变化,可以对节点进行自动伸缩及提升规格

    • 弹性、敏捷、灵活(云计算为大数据带来的三个特性)

    • 稳定、高性能与安全

    Hadoop on Cloud

    1.分布式系统基于其特性,设置副本主要解决两个问题:

    • 存储冗余性
    • 计算冗余性

    2.Hadoop默认3个副本的设计理念(源于物理机部署原则与备份模式)

    • 设计理念:2个副本放在一个机架防止单一宕机(提高机架之间的通讯速度),另外1个副本存在其他机架用于容灾备份(前置机架故障)。

    3.云上不需要3个副本的原因?

    • 设计理念的变化:打破原有物理机架的备份和容灾设计模式,因此副本需要发挥其意义的设计思路也要相应变化

    • IaaS本身自带副本(厂商提供,以保证用户虚拟机故障时迅速切换)

    • 最少设置两个副本的意义:缩短切换时间,即确保突发情况导致一台机器故障,可以迅速从副本内找回数据

    4.怎么做最优?

     目前共4个副本(云端2个,Hadoop1个,IaaS1个)
     对IaaS进行改造,只有一份数据:
     1.如果是普通主机,则副本数字定义为2-3;
     2.如果是大数据平台,则底层副本定义为1,完全靠业务副本实现多副本部署,按照物理机方式,设置3个副本,做 Rack awareness机架感知,此时需要知道物理机在哪个机架上,为每个物理机设置机架记录,明确虚拟机在哪台机架上,对用户不会造成资源浪费,同时又不失去云端的3个好处。
    

    挑战
    1.稳定性
    稳定性测试结果:
    云平台和物理机相差无几,原因:

    * 虚拟化有缓存,写快、读慢
    * 实际应用场景中快慢被中和
    * 数据量不够大(50G、5000w行)
    * 物理机配置
    * 思路的改变:大数据直接通过容器去掉虚拟化,直接附着于物理盘
    

    2.性能
    Hadoop上的大数据统计案例

    * word count  词频统计
    
          http://blog.csdn.net/u012965373/article/details/50479856
    
    * terry sort  大数据排序
    
          http://blog.csdn.net/suwei19870312/article/details/7781216

登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待