青云QingCloud 大数据课堂 第四课
-
小编这节课没有签到,不知道有没有被大家发现【捂脸】
第四节讲义PPT
-
get 大数据的趋势是云化和开源。
-
签到,大数据和云的关系
-
签到
云化一定是趋势
-
这节课核心就是告诉咱们用物理机构建大数据环境没问题,但是并不高效,更推荐利用类似于青云这种公司提供的云计算服务,性能不会有问题。亲自试过,可以自行构建网络结构,按秒计费(妈的,这个地方忍不住吐槽一下阿里云的按量计费,坑爹,我下面会贴个图来说一下阿里云的按量计费逻辑),性能也完全不用担心。上次国际会议中心云计算大会,还在青云展台实验了一把三分钟构建大数据平台。
阿里云的按量计费逻辑之撕逼结论:
-
第四节课打卡
课时延长,分几次听完,还被小四老师安利了不少广告~
云计算与大数据
1.大数据的趋势是什么?
云化和开源2.大数据和云计算的关系是什么?
云计算为大数据提供了很好的支撑
大数据可以脱离云计算在物理机上单独运行。
由于云计算的无限资源扩展,因此可以为大数据最好的IT支持架构 。3.在云端提供大数据的3点好处?
-
自动化运维
一键部署:一键式自动搭建系统
API调用:在本地程序中控制数据,短时间内进行数据趋势集中分析并节省费用
定时器:按照时间进行集群控制
Auto Scaling:配置完善的服务,当一个集群资源变化,可以对节点进行自动伸缩及提升规格 -
弹性、敏捷、灵活(云计算为大数据带来的三个特性)
-
稳定、高性能与安全
Hadoop on Cloud
1.分布式系统基于其特性,设置副本主要解决两个问题:
- 存储冗余性
- 计算冗余性
2.Hadoop默认3个副本的设计理念(源于物理机部署原则与备份模式)
- 设计理念:2个副本放在一个机架防止单一宕机(提高机架之间的通讯速度),另外1个副本存在其他机架用于容灾备份(前置机架故障)。
3.云上不需要3个副本的原因?
-
设计理念的变化:打破原有物理机架的备份和容灾设计模式,因此副本需要发挥其意义的设计思路也要相应变化
-
IaaS本身自带副本(厂商提供,以保证用户虚拟机故障时迅速切换)
-
最少设置两个副本的意义:缩短切换时间,即确保突发情况导致一台机器故障,可以迅速从副本内找回数据
4.怎么做最优?
目前共4个副本(云端2个,Hadoop1个,IaaS1个) 对IaaS进行改造,只有一份数据: 1.如果是普通主机,则副本数字定义为2-3; 2.如果是大数据平台,则底层副本定义为1,完全靠业务副本实现多副本部署,按照物理机方式,设置3个副本,做 Rack awareness机架感知,此时需要知道物理机在哪个机架上,为每个物理机设置机架记录,明确虚拟机在哪台机架上,对用户不会造成资源浪费,同时又不失去云端的3个好处。
挑战
1.稳定性
稳定性测试结果:
云平台和物理机相差无几,原因:* 虚拟化有缓存,写快、读慢 * 实际应用场景中快慢被中和 * 数据量不够大(50G、5000w行) * 物理机配置 * 思路的改变:大数据直接通过容器去掉虚拟化,直接附着于物理盘
2.性能
Hadoop上的大数据统计案例* word count 词频统计 http://blog.csdn.net/u012965373/article/details/50479856 * terry sort 大数据排序 http://blog.csdn.net/suwei19870312/article/details/7781216
-