首页 关于我们 新闻动态 产品中心 技术支持 解决方案 客户案例 联系我们
最新公告
山特ups12-09
服务分类
  • 山特UPS
  • APCUPS
  • 艾默生UPS
  • 英威腾UPS
  • 华为UPS
  • 蓄电池
  • 地址:河北省石家庄市新华区北新街188号
    电话:0311-85860414
    手机:138-3231-4450
    邮箱:446926661@qq.com
    网址:www.hebeiups.com
    点击这里给我发消息
    数据中心故障大多源自于人祸  

      数据中心出现故障在所难免,事后经过分析大部分根因都是人为因素导致,也就是人祸占据了所有故障原因的七成以上。一方面人们享受着自己设计的数据中心所能带来的工作和生活上的便利,另一方面也在承受着成长的烦恼,不断为自己的过失买单。其实不仅在数据中心领域,纵观上下数百年历史,很多灾难都来自于人祸。

      任何活动只要有人的参与,就不可避免地存在出现人为差错的可能性,而机器出错的概率要比人低得多。远的不说,就在近期几起重要的断网事件都和人有关。2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。故障期间导致手机用户上亿次的搜索受到影响。事后,工信部立即紧急约谈百度公司,了解相关情况,要求互联网公司日后尽量防止类似问题再次发生。故障源自于软件更新中存在BUG(漏洞),导致服务器停止服务。在数据中心里运行着大量的软件系统,不可避免存在软件BUG,即使能够达到CMM5级别的单位,其代码缺陷率也不会低于千分之一,也就是一千行代码里至少有一个BUG,那些拥有上千万行代码的软件系统,BUG量可想而知。当然,一般人不会恶意在这些软件系统中增加BUG,大多是在无意识、经验不足、精力不集中等情况下造成的,但这就是人的因素导致的,说白了是人祸。这几天,全球最大的公有云服务商亚马逊的应用服务出现持续数小时故障。故障起因是AWSS3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外地移去了大量的服务器,这一服务水平协议违约可能造成数百万乃至数千万美元的损失,这又是一例严重的人为故障。回想了从2011年到现在亚马逊出现了7次大规模的故障,大部分原因也都是来自人为。就在刚刚,微软大量的Xbox、Skype和Outlook用户抱怨他们的账户无法登录,提示账户不存在,这又是一次影响全球的大规模登录问题,虽然微软还未公布原因,但已经承认存在问题,说不定又是人为因素导致的。所以,一旦有人为参与较多的数据中心时,大多都不靠谱。

      我们对比无人值守的数据中心和有人数据中心,不难发现,虽无人值守数据中心扩容业务,安装设备时经常人手不够,但整体运行稳定度要比有人的数据中心高得多,这些无人数据中心在首次业务上线之后,很少有人去修改或调整系统运行的各种参数,让数据中心自己运行,设备按照预定的程序指令运行,很少出错。相反,在那些运维人力强大的数据中心,经常遇到这样那样的故障,多和人为因素有关。不少数据中心已经意识到了这一点,所以将数据中心的控制权放在技术实力最强的总部,轻易不做变更,如因业务部署需要做变更,变更手续和申请过程非常严格,经常要经过设备厂家的确认、实验网模拟以及高层领导批准,再进行充分的方案讨论,最终才能去实施,这样数据中心的业务运行非常稳定,少有出错。很多数据中心很喜欢软件定义数据中心,就是希望可以通过软件来统一控制和管理整个数据中心,将所有的控制权集中,由少数几个技术实力雄厚的老专家控制,避免其它人胡乱改一通,引发一些未知故障。再或者直接将控制权交由软件,将人的操作和方案交给软件设备来执行,设备出错的概率要比人小得多,由软件自行管理整个数据中心,这样不仅可以降低人力成本,还可以减少人为出错的概率。

      正所谓“成也萧何,败也萧何”,人是数据中心活动中的最重要因素,没有人的参与哪里来的数据中心,而偏偏人也同时给数据中心带来成长的烦恼。要想拥有一个运营良好的数据中心,必须重视运行系统或与系统交互的人。如果数据中心能投入时间在员工技术水平、培训、维护和运营等方面做出谨慎决策,往往能够避免多数灾难,让数据中心长期稳定运行。很多针对数据中心发起的攻击,都利用了人为的安全意识缺失而系统被攻破的。比如:2011年3月索尼公司遭黑,引发史上最严重的消费者资料“泄露”事故,超过7000万玩家的邮箱、密码、信用卡号等资料遭窃取。泄露的原因是索尼负责信息安全的员工,他没及时给跑着过期ApacheWebserver软件的服务器打补丁,也没有安装防火墙,结果门户大开,引狼入室,黑客轻而易举地盗取了内部数据。所以数据中心要通过有效的管理,规范的ITIL和IT服务实施,才能有效降低运维中的人为隐患。数据中心管理针对的重点应是人,而不是设备。

      不难看出,数据中心的故障大多源自于人祸。运行中的数据中心,应减少人为参与的机会,要对人为行为进行充分的管理和评估。“三分技术,七分管理”,大量的事实表明,数据中心的好与差评判标准都是由管理水平的高低所决定的,而管理主要就是针对运维人的。加强运维人员的管理,提升运维人员的技能水平,才能减少人为犯错的机会,避免产生人祸。数据中心是一个非常复杂的IT系统,难免会出现这样那样的问题,从而引发故障,若能够通过有效管理减少其中人祸部分的因素,将能有效提升数据中心的运行稳定性。当前,随着数据中心技术的发展和对基础设施要求的提高,供配电系统存在的实际问题及面临的现实挑战也日益凸显。对此,艾默生网络能源大中华区PDU产品部总监李晓东,在“思无界•设享非凡—艾默生网络能源2016年华南区设计院专家高端论坛”上,予以了系统阐述,并针对性给出了解决之道,同时全面介绍了艾默生网络能源最新推出的PTMS供电系统前沿解决方案。

      需求促成电力模块化的普及

      首先,李晓东结合运营现状,具体而深入地剖析了数据中心供配电系统所面临的问题和挑战。

      李晓东明确指出,在数据中心设计采用一次性投资的前提下,很难对未来的用量及客户做出准确预估。而面对不断变化的发展趋势,需求的不确定性是数据中心规划设计中一个很大的困扰。在实际运行中,低负载率是目前数据中心供配电系统亟待解决的现实问题之一,这不仅意味着效率偏低,而且导致实际运行PUE与设计PUE之间存在较大差异。

      同时,更复杂的运维管理,也是数据中心供配电系统普遍面临的一个挑战。李晓东表示,客户业务随时处于变化之中,基于客户业务不同的重要程度,数据中心往往有跨区现象,而且目前客户对基础设施的独占性要求也非常高,在此情况下,数据中心供电等级变更具有很大难度。

      此外,基于及时满足业务需求的需要,快速部署和整体交付成为数据中心建设的一个显著特征。复杂的工程化产品及界面、现场安装调试、交付标准和工程周期,都给数据中心建设带来巨大压力

      在深入剖析数据中心供配电系统所面临的实际问题和挑战之后,李晓东也基于多年的业界深度实践经验,并结合业内的创新举措给出了解决之道。他强调,电力模块化是解决目前数据中心供配电系统问题及挑战的有效方法,并且已经成为主流趋势。

      

     

      供配电系统架构和部署更加灵活多变

      李晓东表示,电力模块化的应用价值在于不需要一次性投资,能够根据实际负载灵活扩容和设备迁移,同时工程量大大降低,可实现工厂预制化,所见即所得,其机电设备完全独立,分类维护,更有利于提升IT系统的可靠性,并且采用统一界面,实现集中管理。

      

     

      预制式电力模块化方案实例

      强大功能与最佳实践的极致演绎

      在系统阐述电力模块化应用价值的同时,李晓东深刻诠释了电力模块容量颗粒度的划分原则。他指出,电力模块容量颗粒度的划分,需要考虑输入侧的容量边界、业务应用的基本模型、单位容量的最优成本等多个关键因素。

      

     

      电力模块容量颗粒度的划分原则

      面对数据中心供配电系统的挑战,如何用最佳的电力模块颗粒度设计,满足不同场景,不同条件的数据中心需求?李晓东结合艾默生网络能源服务包括BAT在内的各领域客户的成功实践,分享了公司最新推出的供配电系统前沿解决方案——PTMS功率链集成管理系统。

      

     

      PTMS功率链系统集成与管理

      李晓东介绍,PTMS是为数据中心提供灵活的监控解决方案的产品,对接入的各类供配电设备进行统一的监控管理,保障功率链的正常连续运行,以方便用户查看数据中心接入设备的运行状态、告警情况、系统的运行效率。

      传统的配电柜,其智能化程度、管理的有效性都有待提高,PTMS就是专为满足这种需求开发的,其优势体现在多个方面。首先可以统一信息接口,方便信息集中采集,形成完整功率链路,避免信息孤岛,其次针对配电的管理大大提高了专业性和有效性。不仅如此,PTMS能够对产品的配置进行优化,在保留元件基础功能的基础上减少冗余配置,优化投资结构。另外,PTMS具备各种仪表功能,包括支路参数测量、电压电流波形抓取、供电链路可靠性分析等等,并且动态可视化的单线图显示,让系统运行状态一目了然。

      

     

      PTMS的供电链路可靠性分析

      

     

      动态系统单线图及状态模拟

      李晓东表示,从整体功率链来看,艾默生网络能源都极具优势。为此,他特别分享了国内某地公安厅供配电一体化模块工程项目的经典案例。

      在该项目中,应用了艾默生网络能源的UPS系统、EPK低压配电系统、ATS以及PTMS。项目实施按照电力模块需求容量布置,整体结构风格统一,平面布局更合理,其内部连接的产品工程化处理,工程界面清晰,实现了高标准快速交付,并且集中直观的系统级管理方式,关注系统整体可靠性而非单个元件设备个体。

      

     

      供配电一体化模块的工程应用

      值得一提的是,艾默生网络能源为客户提供的一体化电力模块,不是简单地拼凑,而是通过内部研发的工程化设计,尤其是EPK低压配电系统主要关键部件,包括断路器、ATS、智能仪表、防雷器等产品,都来自艾默生网络能源自有品牌,具有非常好的匹配性,充分保证了产品之间的无缝衔接和完美融合。

    友情链接:
    石家庄UPS | 石家庄UPS电源 | 
    联系我们
      地址:河北省石家庄市新华区北新街188号
      手机:138-3231-4450
      邮箱:446926661@qq.com
    关于我们 新闻动态 产品中心 技术支持 解决方案 客户案例
     

    版权所有 Copyright(C)2016 石家庄广亚电子科技有限公司     备案号:冀ICP备16028644号-1     技术支持:新钥匙建站
    在线客服
    热线电话