基于百度经验的自动化系统优化实践



  • 主题:基于百度经验的自动化系统优化实践

    时间:12 月 20 日 20:00 —— 21:30

    地点:QingCloud 技术分享群,文末有二维码。

    讲师:

    0_1481858716182_服务器全生命周期管理.png
    熊亚军 LinkedSee 技术总监

    北京云集智造科技有限公司(灵犀)技术总监,原百度系统部高级项目经理,2010 年加入百度,负责百度 IT 基础设施(网络、服务器)统一运维管理平台研发,带领团队经历了百度服务器规模迈入几十万量级,网络架构数次演进,对服务器尤其是网络层的监控和运维自动化智能化有丰富的经验

    本期内容介绍:

    本次分享将针对服务器全生命周期管理分享,阐述了服务器的整体流程、IT 运维各阶段主要工作以及需要的管理系统,分享基于百度经验的自动化系统优化实践案例。

    用户收获:

    这套流程在超级互联网公司已经得到了印证,在先进性上具备指导意义,IT 运维可以在企业内部指导使用。

    互动福利:

    本帖提问,即可获得以下礼品一份。
    0_1482116273739_CIO 新思维.jpg
    0_1482129276343_青云QingCloud二维码.jpg



  • 随着机房中的物理机乃至虚拟机的数量不断增加,IT 系统的整体复杂性与日俱增。很多服务器管理员需要进行手动管理,而任何一个细微的错误都可能导致故障停机,甚至业务中断。管理员缺少一个统一的平台对服务器进行监控与管理,无法实现对服务器的配置、控制、自动运行、监控以及物理机和虚拟机进行评测的全生命周期的管理。

    本次分享将针对服务器全生命周期管理分享,阐述了服务器的整体流程、IT 运维各阶段主要工作以及需要的管理系统,分享基于百度经验的自动化系统优化实践案例。

    以下是本次分享正文

    大家好,我叫熊亚军,来自灵犀,目前在灵犀这边负责技术。

    今晚我跟大家分享的主题是《服务器全生命周期管理》,先会跟大家介绍下服务器全生命周期管理流程,再说明服务器全生命周期管理中各个阶段主要工作&管理系统,最后跟大家分享下灵犀的服务器到货功能,变更管理中的自动化系统介绍。

    服务器全生命周期流程

    0_1482237427545_1111.jpg

    选型
    服务器期的生命周期从业务 RA 进行选型开始,服务器选型团队通常会在年底根据业务需求特点来制定服务器套餐型号,套餐型号会发给 RA 团队。

    需求
    OP 依据 RA 发布的套餐型号,按照业务存储、计算对服务器需求进行量化,提出服务器数量需求。

    预算
    RA 会召集各业务负责人对提出的服务器需求进行 review,确定最终的预算(包含套餐型号、机房等多个纬度的信息)。

    采购
    OP 会根据自己的预算额度进行服务器的采购需求发起,RA 会通过立即采购+备机池两种方式满足 OP 的需求。

    到货
    以采购为例,服务器到货后,会进行到货确认(确认包装等基本信息),然后安排上架,加电、装系统,装完系统后进行详细的到货验收(包含主板、CPU、内存、硬盘等部件信息,后面会具体提到)。

    交付
    装好系统,做好初始化配置后把系统交付给 OP。这个时候会部署 OS 层、硬件层的监控。

    变更
    OP 会在服务器上部署好应用程序,日常会发起基础服务(IP、DNS、安全、负载均衡接入接出等)变更,还会发起搬迁、替换等变更,如果硬件有故障也会发起故障处理变更操作。

    下线
    过保替换或者故障下线,回收再利用。对于规模场景会对硬件进行差异化回收,例如 CPU、磁盘、内存要根据新旧程度、厂商分布来进行分类回收再利用。

    各阶段主要工作&管理系统

    选型
    会用到性能测试工具、选型管理平台(厂商、问题、报告、质量等)

    预算
    预算管理系统(预算提交、审批等)

    采购
    采购管理系统(采购申请、跟踪等)

    到货
    到货管理系统(验收、分配)、供应链管理

    交付
    交付管理系统(装机自动化、盘点平台)

    变更
    变更管理系统(网络变更自动化、硬件变更自动化)

    下线
    数据清理系统。

    到货验收

    0_1482237446468_2222.jpg

    利用硬件基线对新到服务器进行主板、CPU、硬盘、内存相关参数的对比分析,评估出二手部件。

    自动化系统

    0_1482237480983_3333.jpg

    将自动化系统分为任务分解、任务管理、任务调度、任务执行四个层次。任务分解将任务分解为原子操作,任务管理将原子操作分派到各个队列中,任务调度将原子任务下发给各个 Worker 去执行。Worker 执行的结果通过任务调度、任务管理反馈上来。

    自动化优化

    0_1482237516970_55555.jpg
    早期的自动化系统是通过流程引擎来驱动的,为了满足各种的特殊流程,流程逻辑会变得特别复杂,执行效率非常低下。

    在百度运维后期,我们针对自动化系统做了重构。

    重构 1:简化自动化流程,改成发单、审核、自动化。
    重构 2:构建事件处理中心 NOC,通过关联分析对自动化异常 Case 进行合并处理,提高人工异常处理效率。

    带来的收益,将100台一次性交付优化为单台交付,解决因某一台交付出现问题导致整体没法交付现象,提高自动化效率。



  • 占楼备用,提问收集及奖品发放

    1、在传统企业中,IT专业人员少,员工电脑水平不高,如何进行网络、信息化业务管理软件的管理,有序高效地解决各种IT问题?@XQ
    A:解决IT问题,如果企业IT人员少、电脑水平不高的话,那主要还是通过强化商业软件的功能来满足需求了。

    2、您好,一般人是无法接触数十万台服务器的,也无法想象数十万台服务器的网络是什么样的,贵公司目前的网络架构是什么样的?随着SDN技术的发展,有了更灵活的方式,贵公司有SDN方面的计划吗?@shenyefeng21
    A:目前是典型的3层结构,有SDN的规划,具体可以线下交流。

    3、对于数据中心自动化运维,你们有什么好的解决方案么?会用到哪些工具呢?@indhseli
    A:PPT倒数第2张就是一个自动化系统实现的参考,具体可以再私下沟通。

    4、在交付的过程中,需要给每台服务器进行装系统、部署环境等工作,有什么自动化的工具么?@masdfhel
    A:目前也有很多开源的自动化工具,像ansible、puppet等。

    5、任务分解能具体讲一下么?怎么才能够分解成原子操作?@yuandan525



  • 在传统企业中,IT专业人员少,员工电脑水平不高,如何进行网络、信息化业务管理软件的管理,有序高效地解决各种IT问题?



  • QINGCLOUD 二维码呢?



  • @龙之脊 已经更新了



  • 您好,一般人是无法接触数十万台服务器的,也无法想象数十万台服务器的网络是什么样的,贵公司目前的网络架构是什么样的?随着SDN技术的发展,有了更灵活的方式,贵公司有SDN方面的计划吗?


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待