论坛6 | 云时代的运维与安全 麦爽 「面向企业的 ProSupport Plus 服务」



  • 时间: 2016年7月28日
    发言人: 麦爽|DELL GSD Technical Account Manager
    主题: 面向企业的 ProSupport Plus 服务


    大家好,前面几位嘉宾讲的云技术方案,我想讲一下监控运维。现在IT技术发展日新月异,有越来越多的新技术出来,如虚拟化,云计算等,很多企业开始采用这些复杂的技术方案。,虚拟化,云计算实际上后台都要落地到物理设备上,如服务器/存储/网络设备。随着这些设备规模越大,对IT运维人员来说越需要自控化监控设备。比如说几十台设备监测,用户通过人力巡检,就可以做到有效监控。当企业设备到几千台以上设备规模的时候,用户就不太可能仅仅通过简单增加人力的方式来做运维,后台就需要自动化的监控技术来实施有效运维了。

    现在市场上有一些现成的商品化监测系统,很多用户会用到开源的监控系统做后台监控,比如zabbix /nagios。戴尔作为硬件设备提供商,我们也给用户提供针对硬件的监控系统,降低用户运维的复杂度,这是戴尔推出白金服务主要的目的。

    0_1470896072963_upload-14a91a05-05aa-411c-a5c9-7af000920467

    我们发现很多用户日常做IT运维,如果系统比较复杂,遇到的技术问题就很难简单定义这是软件问题还是硬件问题。这时候用户可能需要自己去面对多供应商的局面去分析/解决问题,这就增加了用户IT运维的复杂度。戴尔希望通过PSP白金服务,降低客户IT运维的复杂度,这是我们白金服务的目的之一。

    我们知道用户使用IT设备的时候,如果遇到故障后再去解决故障,出现的故障实际上已经对IT运维造成影响,戴尔希望通过智能监控系统能在设备可能出现问题的时候就发现问题,这时候对用户的运维影响是比较小的,如果我们能提前发现并解决问题对用户来说会有很大的帮助。
    这就是我们ProSupport Plus的白金服务,后面支撑的是戴尔专家团队,包括硬件、软件,集成方面的专家一起帮用户分析问题,戴尔会给用户提供自动化前瞻性的监控系统,帮助用户简化运维。

    0_1470896093431_upload-96e2083b-6ecc-47ca-8992-6537fe1ee92a

    我们看一下传统IT厂商的售后服务方式,也是目前用户运维部门遇到硬件故障的处理流程,就是上面列到的。出现问题需要先联系厂家的800售后服务电话,报修设备出现问题。厂家会问你保修卡或者机器序列号,你遇到的硬件问题如果简单的话,描述一下即可,如果复杂问题的话就需要来回沟通多次,提供日志,800定位故障之后会安排厂家维修人员去现场帮你解决问题,这是常规的流程。目前大部分IT企业都是这样操做的,用户设备少的话,这种方式报修没有问题。但是很多互联网企业使用的服务器设备有几千台,大一点的有几万台,十几万台,每天都会有十几单、几十单的修,如果都通过这样的流程走的话,对IT运维人员来说需要很多资源做这个事情,效率不高。

    基于以上用户的痛点,戴尔推出这套SupportAssist监控系统来,部署在用户的网络里,能自动监控到服务器/存储/网络设备,发现设备有异常可以自动触发戴尔后台智能监控系统,进一步给到Dell800工程师分析确认问题,由Dell工程师主动联系用户告知问题,跟用户沟通说你是不是有时间我们来为你安排现场维修,最终的目的是戴尔来帮用户做运维监控,这是戴尔开发这套系统的初衷。

    0_1470896128975_upload-a997cff4-2407-4a7c-ac99-5520cf68dcec

    这是我们Support Assist自动检测系统的流程图,无论是服务器还是存储网络设备,我们都有基于硬件功能的管理卡,用户对管理卡做简单的配置,Support Assist就可以自动监测到设备运行的情况,Support Assist会收集相关的报警信息,如果检测到硬件问题,这台使用Support Assist的机器会向戴尔后台监控系统发送报警信息以及日志信息,同时报警信息到我们后台系统分析确认后,会自动触发到800工程师那边,工程师收到case之后进行分析,确定有故障的话我们会主动联系用户,按照用户预留IT人员联系信息,确认上门时间后安排工程师上门。

    整个系统用户部署完之后就不需要其他专门的监控系统了,Dell这套系统跟一些开源的或者市面上商品化的监控有一些什么不同?首先一些开源系统每台服务器上需要装相应的Agent才可以运行,另外监控系统能正常运行的前提是 ,被监控的服务器操作系统运行必须是正常的,网络也必须是正常的。如果服务器的操作系统实际不能运行的话,常规的监控就无法知道服务器硬件的运行状态了,这种情况,Dell SupportAssist还可以通过硬件管理卡做监控,哪怕服务器无法自检,我们也可以通过Idrac管理卡确认服务器的状态,来做相应的监控报修,这是我们硬件厂商监控系统的明显优势。

    这套监控系统是两年前推出,全球购买使用Dell服务器的用户,例如全球500强里约30%40%用户已经部署Dell SupportAssist监控服务器和存储设备运行情况,我们现在统计有10套万以上的设备实施了自动监控报修。用户也反馈这套系统确实大大提高了运维监控效率,可以举很多例子,比如中国这边用户,IT部门正常工作时间是8小时,下班时间后,好一点的公司可能会通过监控手段,核心系统出现问题,会有监控系统自动触发给运维人员处理。如果用户部署戴尔的Support Assist,实际上是戴尔工程师帮用户做监控。服务器出了问题,戴尔监测到,会主动通知用户IT人员。去年有个case就是用户IT人员下班回家了,用户机房空调故障导致服务器过热了,Dell工程师发现问题以后会主动电话联系用户,用户很惊讶说你怎么知道我机房温度过高了,等他赶去机房一看确实是有过热异常,用户很快解决问题,避免造成严重影响。所以这个系统确实能帮到用户的IT运维。

    0_1470896154693_upload-9ac07b51-6ab3-4446-93d8-839e975eb503

    这是用户花费时间的统计,如果你只是正常的买设备,正常的报修,有复杂的、有简单的,平均每个处理事件的时间是1小时21分钟,如果部署了这套自动系统的话,效率会有很大的提高,是1:21的比例。

    0_1470896165302_upload-8f49d0ef-1e42-4cbb-9dcf-59b479b5dc8e

    这是戴尔服务分类,很多用户对服务成本有要求,戴尔对应提供分级别的服务。如果用户只需要简单的硬件维护,对于服务器的维修,如果用户有一些设备是有冗余的,那么就不需要当天的维修或者24小时的维修,用户可能会选择一些NBD的维修服务,就是第二个工作日上门的维修。但是监控方面就需要用户自己要做触发、提醒、监控。更高级的专业的服务,我们可以做到自动的保修案例创建,如果是白金的ProSupport Plus就会有数据分析,给出用户每个月的故障率,包括潜在问题的分析提醒,和对用户影响比较大的故障问题专人的单点联系负责技术支持。

    0_1470896534775_upload-9e7fc5c9-54c1-44ea-8a52-284951fc40a3

    这是Support Assist不同的版本,也是应对用户不同的规模。如果只是几百台规模的服务器,就不用什么部署数据库之类的软件了,简单装上之后就可以做服务器的监控了,服务器的数量大概是两三百台。

    对于几千台规模的这种,戴尔提供了升级OME/SA版本,后台也是通过Support Assist方案做监控的,可以支持的数量是两千到五千台的数量。

    另外是戴尔全线的设备也可以做监控,现在我们知道对厂家来说,监控使用标准的SNMP协议,如果用户这边是使用多厂家的设备,用户可能不只买戴尔的设备,也会买联想、浪潮的设备,只要支持SNMP监控方案,也可以通过我们OME/SA系统做监控,这些设备监控发现问题后用户也会收到相应报警提示的邮件,用户再联系对应的厂家进行报修。

    0_1470896555206_upload-d9410704-363b-45a5-af57-a6b4c4b69f47

    这是我们更细化的白金服务内容了,刚才讲到不同等级的服务,用户可以根据自己的需要做选择。用户遇到软硬件比较复杂的问题的话,需要找不同的供应商做分析。如果用户选择Dell企业级的白金支持服务的话,戴尔这边会有比较资深的技术专家主动帮用户分析这个问题。涉及到软件或者其他厂家的问题,也会协调解决问题,我们会有技术客户经理这样一个角色。

    0_1470896569268_upload-74d74097-97fe-4144-8b0d-f3f190195137

    这是技术客户经理能帮到用户的这些东西,因为这个角色的人有比较多技术方面的经验和运维方面的经验,我们可以跟用户一起做方案的规划,包括前期IT方案的设计。戴尔作为一家的IT基础架构的提供商,戴尔生产的设备数量也非常大。我们遇到的问题也比较多,戴尔会做后台大数据的分析,比如说目前有故障比较高的硬件,看问题是什么,是固件还是什么原因会影响到硬件。戴尔会做驱动或者固件更新改善解决这些问题,如果用户选择了我们的PSP白金服务,技术客户经理会定期跟用户做技术沟通,提示用户哪些是必要的固件进行升级,这样可以帮助用户IT运维提高运维效率增加设备运维稳定性。

    如果用户遇到一些比较重要的设备,如服务器/存储设备出现严重问题的话,我们的技术客户经理可以做一个单点联系人,协调Dell公司内部的资源,帮助用户用最快的速度解决问题,这也是技术客户经理的服务内容之一。

    用户报修的时候,做过IT运维的人会有一些经验,用户面对800热线工程师水平是不一样。可能有些工程师水平比较高,简单沟通就可以解决问题。有些工程师比较教条或者经验不足,可能反复沟通还不能解决问题。对于使用白金服务的企业,我们安排的是精英工程师服务用户,起码有5年的工作经验,而且有业界相关的认证,有软硬件的知识能力,也可以给用户一些比较好的服务。

    还有就是Support Assist,我们企业级的硬件设备越来越多地发展了硬件预报警的技术,比如CPU内存做通讯的时候,有些时候会受到一些干扰,有可能是环境的干扰,或者温度高导致的电磁干扰,传输的数据可能需要多次校验才能得到正确的数据。如果服务器出现这样的情况过于频繁,那就可能是内存设备不稳定的前兆,需要分析确认。类似的,包括硬盘预报警,可能某些磁道写的数据不可靠,需要校验重写,出现次数多时就需要确认是否有潜在的硬件问题。针对这样参数的检查,服务器的固件会做相应的监控,如果监控到这个数据有异常的话,监控系统会把这些问题发到戴尔分析,此时服务器硬件还能正常用,不影响正常使用功能,但是我们也会根据硬件故障预报警的信息,提前帮用户进行预报警硬件更换,确保系统稳定工作。

    0_1470896601112_upload-4fa84ee3-d8e4-4cc4-8bc7-636be5c238c4

    还有一条用户设备比较多的时候,IT运维可能会有月度统计,看有没有批量问题,设备是不是运行稳定,很多情况下用户需要手动统计。如果用户有使用戴尔白金服务的话,我们会按月度给用户提供故障率的报告,看故障率的分析。另外一块,我们还会有类似半年度的巡检,会有方案来检测用户设备是不是正常。

    如果用户使用Support Assist监控,我们可以提供月度监控报告。上图左边是用户产品的一些大类,每个月维修的次数,我们都会给用户提供到。另外我们会跟用户讲哪些设备可能有些固件性能更新或者一些问题的修复,因为监控系统所有固件信息都可以拿到,现在最新固件驱动版本都可以比较分析,所以可以提供针对性的报告,用户再安排停机时间做系统维护升级。

    0_1470896615312_upload-0e7a0ddf-d0fe-4db3-8866-54af0b2acbf6

    作为系统维护的一部分,戴尔远程通过我们监控软件和后台工程师帮用户做一些分析和固件的升级。系统维护也是自动监控软件的一部分功能,通过这个我们可以有效的避免一些潜在的问题。

    0_1470896634094_upload-e746b465-78e4-437c-a46a-e1d57ea780c8

    上图是我们系统维护的一个流程,如果有使用白金服务的话,我们会做半年度的巡检,给客户提供设备运维的服务方案。服务器这边我们会做硬件状态的分析,如果使用戴尔存储的产品的话,因为存储是比较复杂的Dell可以提供对存储的IO性能分析,可用性的一些分析,包括很多技术上的性能优化分析都可以提供。用户可以看到自己的存储是不是需要更新,当前存储性能是不是满足业务的需要,Dell都可以给用户提供相关的技术支持。

    0_1470896735310_upload-2ad2fa7e-c5f4-427c-9737-25b95639667f

    最后想再给大家介绍一下戴尔这边有一些有特色的报修工具,对IT运营人员来说是是比较有效率的。通常用户发现故障,IT运营人员需要联系厂家,通过邮件或者通过800电话。这对于设备数量比较多的用户来说效率不是很高,戴尔作为硬件设备的主要提供商,也希望提高用户的报修和监控的效率,戴尔就开发了TechDirect的保修方式。一些互联网厂家IT运营人员非常有经验,公司发展了四五年,工程师做服务器运维也有四五年,对于服务器常见的一些问题用户自己分析定位也很准确。这些运维人员技术能力也很强,戴尔为这些人提供了TechDirect认证。如果用户IT人员能力比较强的话,可以考戴尔的在线TechDirect培训认证,通过了的话,就可以使用类似于戴尔工程师的派单角色,发现硬件问题的话用户就可以在戴尔系统里申请维修派单,发现的故障信息发到戴尔系统里的人,后台的人会评估一下,如果没有什么问题这个单子就派出来了,相对用户报修来讲这是非常有效率的。我们这套系统有网页方式,也有APP方式的,另外我们也提供了API方式的。大公司有自己开发的运维系统,收集日志报错分析确认是硬件问题,可以直接通过API反馈到戴尔后台申请维修单。

    0_1470896751578_upload-ed6920e0-c967-479f-8a63-648f68d7c084

    现在使用戴尔TechDirect保修工具的用户非常多,全球有十几万的用户在使用,TechDirect有手机IOS版和安卓版本。仅仅是TechDirect这一项,我们每年递送的配件就超过120万了,TechDirect这边有新用户注册或者申请,每周会有越100个用户,这会比电话支持更快更有效率。

    0_1470896762939_upload-afab39e1-1eec-488f-9442-76c40f842fb6

    这是我们白金服务在全球可以支持的范围。

    0_1470896779067_upload-c5f1bb3a-d21c-4732-a415-178bd443c2b4

    这是戴尔服务的概况。我们能提供服务的合作伙伴在全球有35000家,使用55种语言,支持165个国家和地区,送修维修中心有2200家,部件配送中心有625家,我们的满意度也是历年都排名都是前两名。,以上就是我要讲的内容,谢谢大家的时间。


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待