论坛2 | 新 IT,新商业 傅伟 「从繁到简,助力敏捷——徽商银行 x86 云化之路」



  • 时间: 2016年7月28日
    发言人: 傅伟 徽商银行系统开发部高级经理
    主题: 从繁到简,助力敏捷——徽商银行 x86 云化之路


    谢谢主持人。

    今天有幸参加青云大会,给大家做一个金融行业虚拟化实用案例的一个分享。主持人说今天是个技术讨论会我就放心多了,因为徽商银行整个云的建设过程中我全程参与了。

    0_1470976502652_2016-8-12-1.jpg

    我先介绍一下徽商银行,徽商银行的成立也是受国家政策影响,是全国首家由城市商业银行与城市信用社联合重组的区域股份制银行。它是产生于安徽,服务于安徽的地方性银行。目前徽商银行应该是中国中部地区最大的城市商业银行了,这几年发展的也是比较迅猛的。

    0_1470976542237_2016-8-12-2.jpg

    徽商银行主要经营方法是这样,因为是小银行,做区域银行的发展同行都知道,在夹缝中生存,要走出自己的特色来。特别对于开发这一块,必须不断有产品推出,不断响应市场临时性的需求。我们在整个开发过程中,从2013年开始感觉到传统银行面临的一个挑战,来源于各方面的压力,包括市场、技术以及传统的一些限制。

    说几个比较普遍的例子,第一个是传统银行对IBM、Oracle、EMC等厂商有较大的依赖性。因为大家知道以前的银行体系为了保证高可用性,都会使用烟囱式的模式,前面是应用,后面是数据库,不断提升硬件的性能,慢慢业务增长以后性能支撑不住了再换更好的,再花更多的钱,只能这样做。

    第二个就是网络、服务器、存储等运维的量比较大。过去单台物理服务器,每一台机器上架到系统的安装需要大量的人力。举一个简单的例子,大家都装过操作系统,一个硬件机器从点亮到安装操作系统,到最后应用安装,半天时间应该算是熟练工干出来的时间,应该是最快的时间。但是作为开发来说这个也是一个瓶颈。现在应用越来越多,有的时候负载均衡出来之后一天可能装20台,这个要求肯定完不成,这个也是我们正在面临的挑战。

    第三个就是业务连续性。过去都是通过多台机器冷备、热备这样的模式来做,再怎么说中间都有一个切换时间,这个时间也是银行不能忍受的时间。客户三分钟刷不了卡肯定要投诉你,这个也是我们面临的挑战。

    第四个就是硬件条件。做银行时间长了就知道,银行每一项业务都有一个沉淀期,老的硬件要用,新的硬件也要用,有一些系统可能已经淘汰了,但是在我的银行应用如果不下线的话,这个系统也要用,如果硬件一旦换了买都买不着,这个也是我们的瓶颈,对我们开发的团队来说的话,这个可能是对我们开发资源管理最大的一个压力。

    0_1470976606293_2016-8-12-3.jpg

    所以在2013年起徽商银行提出一个战略目标,要把云应用到银行整个体系里面来,起步就在开发上来做。经过这几年的发展,我们也是分了三步走,第一步基本跟大家都一样,先从硬件的虚拟化开始。如同建设一个有一定规模的城堡一样,先从最底下的硬件层开始去做虚拟化,然后再把协作型的小型数据库迁移到第二层上面去,第三层是PaaS层,就是把一些应用再捆绑进去,形成全体系、全生态的云。

    徽商银行开发环境里云化经过三年的努力,整体的状况还是不错的。因为我们也算是吃螃蟹的人,从2013年开始跟青云有一个初步接触,把我们的需求和他们进行交流。到2015年开始落地,2016年提出我们更多的一些想法,基于更高层的一些想法,包括集成、管理等。现在来说徽商银行和青云两边等于是互有需,互有求,互有满足。

    0_1470976654190_2016-8-12-4.jpg

    说到上云,我们对传统体系都熟悉,为什么还上云?
    首先,上云之前开发资源调度性存在问题。我们每年项目开发量变化也是比较大的,2013年的时候,我当时做的统计大概是40多个应用需求,涉及资源不到100台机器。到2016年是1,700多个业务需求,资源需求量已经超过2,000(台机器)。所以这个发展的速度是非常快的,如果用传统的方式解决的话,一定是会存在问题的。所以我们刚才说了业务去驱动,开发测试资源每年以20%的速度在增加,但是每年却有30%的项目因为资源配置的速度跟不上造成项目必须往后拖,这是我们当时遇到的一个很大的瓶颈。

    第二个是银行在不断发展过程当中,包括各种应用系统上线以后,机房设备是越来越多了,机房的承载量是有限的。我们的三个机房,基本上是这边刚进来那边就用了,所以这个也是我们的瓶颈。

    第三个就是互联网金融理念提出以后,对资源要求也是比较多的。我们在整个管理的过程当中,也是遇到了一些瓶颈。比如说按照人民银行的要求,整个开发环境是要有这样一个分类:首先是代码环境,第二个是测试环境,还要有压力测试环境,要有培训环境,测试环境里面又分集成测试环境、功能测试环境等,包括链条测试环境。这么多环境怎么分类,怎么快速部署,这个也是需要去破解的问题。因为时间太长,每完成一个环境都需要太长的时间。

    0_1470976808810_2016-8-12-5.jpg

    在这些背景的要求下,我们做了这样一个规划。第一个是做底层硬件设备的集成,把这些计算、网络、存储、安全、数据库这些东西整个集成起来,形成 IaaS 层虚拟化。完成以后做资源池管理工具的管理。因为随着虚机增加管理也要跟上,包括怎么算、怎么部署、怎么去形成快速部署和管理每台虚机,都需要专业的工具管理。所以我们现在也做到第二层的管理,包括池化的映像、备份等等。接下来我们会形成流程化,再应用到虚拟化整个管理过程当中。

    0_1470976843853_2016-8-12-6.jpg

    我们2015年做了青云的落地。青云给我们带来这么几个好处,第一个是资金量减少。使用虚机和用硬件解决对比,我们做这样一个测算,2015年省了1700多万的投入。比例的关系是这样的,一台虚机一颗CPU大概可以跑四台物理服务器的量,资金成本投入比较低。第二是运维成本,因为虚拟化支持速部署的模式。以前装一台机器需要一个人,现在我们通过自动化的方式,特别是青云的批量生成,点一下鼠标,然后二十台、三十台甚至一百台机器就这么批量生成了。模板做完以后形成一模一样的机器,很简单的事情。第三个我们平台能力提升了,因为青云有一个自动伸缩功能,就是在环境里面做测试的时候,如果一台机器的性能达不到的时候,它会自动再生成一台虚机,自己形成一个负载均衡的模式,这样能够为测试环境提供充足的性能。青云为我们快速开发提供一些保证,特别是现在在建私有云、PowerVM、VMware,现在是我们开发的三个云,这之间我们现在用青云连接起来,这样使我们的运维成本再进一步下降,因为人数少。

    还有一个比 VMware 更让我们更心动的就是青云的网络功能,它集成了不光是路由器、交换机,甚至还有防火墙、负载均衡这样的设备。在青云里边去灵活使用的时候,比专用设备虚拟化效率提高的度会非常高。这些应该是大家都了解的,就是扩容的能力,因为它这个只需要加一台服务器,资源就会被纳入到运算里去,包括青云的界面做的比较友好,使用起来比较便利。

    0_1470976890330_2016-8-12-7.jpg

    上图是我们”开发测试云”的使用的流程,开发人员首先把开发工具下载下来,然后在资源做申请的时候填写你需要分析的数据,把你要的这些资源填好,转到管理台进行审批;审批以后会通过门户去把物理资源进行准备,准备完了以后,虚拟环境直接通过发放的模式就到这边。一般 20分钟左右资源发放到手了。这种模式不光是把技术运用到开发环境里边来,甚至把管理也运用到这个里边来了。

    0_1470979032956_Slide14.jpg

    这是我们做的一个比较,传统和现在的开发模式,最大的一个差异主要在这块。因为银行是一个流程比较长的地方,所以包括采购、审批、上架设备这一块,在现在的流程里是独立运转的,跟系统是无关的。所以从整个开发资源响应来说的话从提出开发需求到系统运维部署, 时间大大缩短。

    0_1470979061050_Slide17.jpg

    这个就是我刚才介绍的自动伸缩功能。主要讲下压力过来的时候在云里怎么实现资源的自动伸缩。(图片左侧)它会自动再分出一个资源出来,两边做负载均衡,形成性能完整的提升。我们现在设置的阈值是大概10个小时,如果这段时间性能达不到两台机器的性能的话资源会收回来,所以这就是自动伸缩的功能。

    0_1470979092847_Slide19.jpg

    在这里把我们徽商银行关于开发云以后在虚拟化上面应该达到的目标的一个架构图和大家做一下展示。就是对我们的数据,首先数据仓库、大数据平台、包括应用平台形成一个统一的计算层,把这些计算拉入到云里边去。我们目前更多应用在应用平台层,以后数据平台层也会纳入进来。

    0_1470979115627_Slide20.jpg

    再提一下备份方案。以前一台机器坏了影响的也就是一台机器,现在云化的机器坏了可能影响十几个甚至上百个(实例)。备份工作也是专门提出来的一点,大家做云的时候一定要把备份做好,我们现在是双中心的模式。云的备份里面,我们主要用了快照和全量备份两种模式。

    我讲的是偏技术一些的东西,我们怎么做的,云给我们带来了什么。大家如果有什么问题可以再交流一下。谢谢大家。

    Q&A

    提问:作为云计算新功能是对于虚机的管理。这里包含一个比较核心的东西是虚机的生命周期的管理。刚才说到虚机的申请流程,我们在申请这个流程里边的话,虚机您到底是用多长时间,到了时间之后是自动回收,还是怎么人工回收,就是生命周期管理这块怎么做?

    傅伟:我们有两种模式,第一个青云是支持定时回收的模式,你在申请的时候就告诉管理者我要用到什么时候,系统会登记这个时间,到时间自动收。第二种是工作习惯的问题,因为项目具有不确定性,开发者会不确定什么时候回收。这时候用第二种人为干预的模式,就是说会有一个记录,使用管理台查询所有虚机的使用情况,根据系统的登录情况、CPU的消耗、内存的消耗,会计算出来哪些设备已经进入了冷期了,冷期达到一定的限期以后我们管理员会去通知当时的申请者,你的机器已经不符合标准了,要么延期,要么会做自动回收。

    提问:今年7月15号看到银监会下发一个意见稿,明确规定在十三五末期,实现金融行业相关互联网业务100%上云,其他的业务上云比例达到60%,关于这个指导意见不知道您有什么看法?第二个问题,这个指导意见里边还有一个关于行业云的描述,金融确实对于云计算还有一些特殊的需求,比如安全性方面,或者特殊业务,比如核心交易系统。就是对于金融的行业云的话,银行有没有考虑过未来享受到云计算的便利性或者低成本的资源之后,有没有考虑对外提供金融云或者行业云?

    傅伟:因为指导意见也在征求意见,我们也在内部做了一些讨论,组织专家商讨解决方案。银监会这种想法可能更多打败以前我们传统的架构模式,这种以后怎么用,我们现在也在探索。总体想法是这样的,首先银行的核心数据是不能上公有云,这个至少在短时间内不会上公有云。对于外围服务类的项目,为了加快部署速度会考虑尝试性去使用一部分公有云。

    另外你说的安全这个东西,我们也考虑了,其实这个我们也跟青云有一个想法。青云的环境里边也包括防火墙也好,包括其他的一些安全检测也好,它的功能有,但是我们认为离银行的要求还有一定的差距。现在我们也提出了一些具体的需求,在与青云探讨。我相信在不久的将来公有云的使用一定会成为一个标准,但是银行也不会全部踏入到公有云去。

    提问:CPU外包模式。

    傅伟:银行不只是完全商业的公司,毕竟还是国家的一个工具,所以在有一些政策落地上的可能还需要时间的要求,现在说的CPU外包或者就是外包的模式,我个人看法短期内可能不会这么去做,或者只能做一些尝试,很小的尝试。

    提问:徽商银行开发测试云用的青云,生产环境可能不是用的青云,您如何去评价一下两个环境的不同?第二个问题,VMware在测试环境用的话是免费的, 请您比较一下用青云的成本和 VMware的成本。

    傅伟:这个问题也是我们困惑过的问题,其实也好解释。生产环境要求安全、稳定,别出事;测试环境要求的是快速,容量大,能够随时给我东西出来,敏捷,这个也是两者完全不同的一个想法。现在我们怎么去破解,确实像你所说的我们的生产用的是 VMware,开发测试云 VMware、青云、PowerVM都有,怎么去做之间的一个关系。我们做两件事,一个是应用产品一个发布的工作,就是所有开发做出来的东西必须以产品的模式向生产去发布,这个可以通过一些工具实现,从青云上提炼出来安装包甚至是一些APP的东西。第二个,我们现在还在探索青云和VMware之间一个转换的模式。我们的目标是希望以后在三年内能够实现这样一个功能,叫做整体系统发布的模式,现在叫应用发布。就是我把测试上面已经形成好的,测试完的系统的、应用的、数据库的整个发布给生产,我们也在探索这样的做法。


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待