云上的日子 — 一个云计算用户的经验分享



  • 本文是冰点运维工程师徐俊在QingCloud实践课堂上海站的分享实录。云给大家的运维工作带来了哪些变化和哪些挑战?希望这篇有感而发、真情流露的演讲实录能给大家带来启发。

    很荣幸能够被邀请参加今天的实践课堂,和这么多朋友同行一起分享有关青云的体验。我接到通知要演讲的时候,心情很忐忑,不知道要讲些什么,讲架构吧,我们的架构比较简单;讲技术吧,我这点技术也拿不出手,最后我想还是讲讲青云带给我的一些个人体验吧,这个比较靠谱一点。

    一、人云亦云

    有关云计算、云主机的概念,最近几年很火,各大IT巨头都推出了自己的云服务,什么马云、赵云、火烧云,总之是“云云”众生。因为我本人之前没有实际接触云,所以对云主机也只是停留在概念阶段。信息来源多半是从网络上或一些朋友处获得的。第一感觉就是云主机貌似还不太成熟,因为经常看到有同行抱怨,说某某云主机不稳定,不是无故死机,就是网络不稳定,又或者经常被攻击等负面评价,总之给我的印象就是不靠谱。我们公司之前的服务器是托管在IDC机房的,而且请了一个运维外包,因为在工作过程中发现各种不可控以及不方便。作为创业公司,还有成本方面的考虑,我们开始考虑使用云主机。在2013年5月份,我们有对某云做过测试,名字我就不说了,在成本方面也做过比较,但是由于网上负面消息比较多,最终也没有采用。到2013年9月份,我老大去了一趟北京出差,回来给我一个网址和测试账号,这个时候我才知道青云的存在,这是我与青云的第一次接触。

    二、平步青云

    收到青云的测试账号以后,我开始了对青云的摸索,因为青云的文档比较详细,所以很快就可以上手,而且青云的工单功能比较好用,只要有不明白的地方,在工单里提交问题,很快就会有专业人员给你详细的解答,在这里要赞一下青云的团队,他们对于我提出的问题都很认真详细的解答,甚至有些问题不是青云的问题,而是我自身知识水平的问题,而且我还直接给青云的CEO Richard打过电话,来咨询相关的技术问题,他都是很热情认真的帮我解答。扯远了,言归正传,我们对青云做完测试以后,发现性能各方面都还不错,最后我老大说就用青云,实话说我当时心里很忐忑,因为青云是2013年7月份才推出商用的,究竟靠不靠谱谁也不知道,不过新东西出来,总要有吃螃蟹的人,要么做先驱,要么成先烈。2013年11月13日,我们经过一个通宵的奋战,成功的将业务系统从IDC切换到青云,从接触青云到正式上线用了不到2个月的时间,从此我们就过上的云上的日子。时间过得很快,转眼用青云已经1年多了,忍不住感叹一下,时间都去哪儿了?这1年多以来,青云不断推出新的服务,我们也和青云一起成长。青云给我的感觉的是稳定、方便,当然天总会有不测风云,在2014年7月9日,青云北京1区出现网络不能访问的情况,导致我们业务无法访问,大概耽误了2个小时左右的时间,原因是北京1区的IDC电信线路光纤被挖断,除了这次人祸,没有出现过其他的问题。因为这个故障,我们开始考虑异地灾备的问题,青云后来陆续开通了广东1区和亚太1区,给我们做异地灾备提供了很好的环境。

    三、云展云舒

    服务器的管理

    方便的Web管理是青云很吸引我的地方,在传统的IDC方式下,运维人员都是通过远程管理。远程管理首先要拨通VPN,然后才能登陆主机,所以通常运维人员休息时间都要随身携带自己的电脑,如果有紧急事情需要处理,要找到有网络的地方。那么如果没带自己的电脑,那么耽误的时间就要长了,要么去公司要么回家处理。当然也可以借用别人的电脑,但是还要安装vpn客户端等一系列操作,要花费很长时间。有了web管理方式,只要有电脑有网络,打开浏览器就可以很方便地操作,极端情况下在路边找个网吧就可以解决问题。当故障发生时,通常要登陆服务器查看原因,传统IDC模式下,当无法连接到主机时,只能通知机房硬重启,这就要看你服务器托管商的反映能力,他反应能力的快慢决定你等待时间的长短。如果硬重启没用,那就得去机房了,机房通常在比较偏远的地方,去机房要花费不少时间。在机房处理问题时也会有困扰,那就是要借用机房的显示器键盘小车,如果你想同时看多台机器,这时候问题就来了,因为机房通常很小,机柜之间通道很窄,同时放两台很不方便,而且通常都会有其他公司的人在用,那你只能在2台服务器之间来回切换操作。但是有了青云,这些都不是事儿啦,你直接在web端就可以处理,关机重启只要动动鼠标,实在不行可以直接用备份来恢复,青云提供完善的备份机制,可以实行全量备份和增量备份,备份恢复也非常的方便。

    服务器的横向纵向扩展

    1、服务器的横向扩展

    所谓的横向扩展就是业务量的增长伴随着服务器负载能力的增加,也就是在原有架构下增加负载均衡服务器的数量。由于业务量的增长存在不可预测性,你不知道它什么时候会爆发,所以系统承载能力的应变时间就显得至关重要。传统IDC的应变就会显得很笨拙。从你购买设备到机房上架,至少要3天时间,而在青云上就不存在这个问题,利用青云的自有镜像功能,你可以分分钟增加服务器的数量,青云的资源秒级响应能力让你从容地面对业务量的增长,用句广告语说就是So easy。互联网时代都讲究快,天下武功,唯快不破,应变能力提高了,无形中为企业创造了价值。

    2、服务器的纵向扩展

    服务器的纵向扩展通常指的是新业务的增加伴随着服务器的增加,新业务的增加具有可预见性,存在一定的缓冲时间,但是如果你的服务器托管在传统IDC,你就必然会受到物理上的限制。因为单个IDC的承载能力是有限制的,且单个机柜的服务器数量也是有上限的,要新增业务,就要增加服务器,那么问题就来了,如果现有机柜数量不够,就要新购买机柜,但是IDC的机柜不是你想买就能买,还得有人空出来,如果没有空的,你就得等。你也许会说有空的时候我提前买下来备着,那么问题也来了,如果你们公司有钱,那你可以任性,我用一个空二个;要是你们公司是苦逼的创业公司,每一分钱都要花在刀刃上,那么你只能任命了。在青云上这些问题都不存在,你可以按需定制,随时增加或减少服务器的数量。

    成本控制

    1、显性成本

    使用青云可以大大节省公司的成本,以我们公司为例,先不算购买服务器和交换机的费用,仅仅算IDC的托管费用,我们原来在IDC租了3个机柜,一个机柜一年是12万,3个就是36万,我们搬到青云上以后,一年的总花费加起来12万都不到,相当于节省了2/3的成本。另一个就是运维人员的配备成本,如果在传统IDC,一个运维人员负责的30台机器已经很饱和了,100台就要3个人,在青云上这些事情只要一个人就可以搞定。

    2、隐性成本

    运维考核有一项标准就是故障处理时间,故障处理时间的就是企业的隐性成本。亚马逊有个数据,网页延迟1秒可能导致全年损失16亿美金。我举这个例子就是说明隐性成本也是不容忽视的成本,你用多长时间解决故障就能给公司减少多少的损失,大家都知道,通常IDC都是在比较偏远的地方,如果遇到远程无法解决的问题,你花费大量的时间在和机房托管人员沟通以及去机房的路上,这些都是隐形成本。在青云上,你拥有完全的主动权,只要坐在电脑前就可以用最短的时间去发现问题并把它解决掉。

    四、云开雾散

    青云不仅仅是简单云主机,而且是一套完整的生态系统,可以完全的替代传统的IDC。青云给运维工作带来了很多便利。但是有时候我也会想,青云把运维的门槛降得更低了。就拿网络来说,你要组一个网络,你以前要学会配置各种路由器交换机,要记住各种不同的命令,以及各种连线。但是在青云时代,这些知识都没用了,你只要在网页上动动鼠标,一个完整的网络架构就形成了,这不是革了运维人员的命吗?随着时间的推移,我又有了新的发现,青云的出现开始改变了我的思维方式,传统IDC模式下,硬件成本都是一次性投入,配置设备的时候一定会放宽要求,但是在青云上一切都是动态的,cpu、内存、硬盘这些数值都可以根据需要来调整,你可以通过修改资源的配置来达到最优化,这些传统的IDC是做不到的,运维从被动模式变成了主动模式。运维不止会花钱,也可以创造价值了。青云的API接口都是开放的,可以通过自动化的调整来达到节省成本的目的,这就要求运维人员具备必然的脚本编程才能做到,可以对特定的功能进行定制,这无形中提高了对运维人员的要求,运维的含金量不但没有降低反而是增加了。

    这一路走来,我们见证了青云的成长,同时我们和青云也在一起成长。我们看到青云不断地推出新的服务,希望青云能够越来越好,同时给我们带来更多更好的服务。谢谢大家!


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待