MTBF(Mean Time Between Failure)平均无故障工作时间

MTBF(Mean Time Between Failure)平均无故障工作时间

MTBF(Mean Time Between Failure)即平均无故障工作时间,是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔 。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate)。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁盘阵列产品一般MTBF不低于5万小时。
计算方法
MTBF是可修复产品可靠性的一种基本参数。度量方法为:在规定的条件下和规定的时间内,产品的寿命单位总数与故障总次数之比。
MTBF值是产品设计时要考虑的重要参数,可靠度工程师或设计师经常使用各种不同的方法与标准来估计产品的MTBF值。相关标准包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。不过这些方法估计到的值和实际的平均故障间隔仍有相当的差距。计算平均故障间隔的目的是为了找出设计中的薄弱环节。
MTBF的数学式表达:

另外,在工程学上,常用希腊字母θ来表示MTBF,即有:

在概率论中,可用ƒ(t)形式的概率密度方程表示MTBF,即有:

此处ƒ指的是直到下次失效经过时长的概率密度方程——满足标准概率密度方程——

设有一个可修复的产品在使用过程中,共计发生过N0次故障,每次故障后经过修复又和新的一样继续投入使用,其工作时间分别为:T0,T1。那么产品的平均故障间隔时间,也就是平均寿命为Q为:(T0+T1)/N0。
关于 MTBF值的计算方法,最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217是由美国国防部可靠性分析中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z299B是我国军用标准;而Bellcore是由AT&TBell实验室提出并成为商用电子产品MTBF值计算的行业标准。
MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和海洋平台上,其可靠性值肯定是不同的;又如一个额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松得出MTBF值。
故障时间
随着服务器的广泛应用,对服务器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。故障率常用λ表示,例如正在运行中的100只硬盘,一年之内出了2次故障,则每个硬盘的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。即:
MTBF=1/λ
假设一款可用于服务器的WD Caviar RE2 7200 RPM 硬盘,MTBF 高达 120万小时,保修 5年。120万小时约为137年,并不是说该种硬盘每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬盘的平均年故障率约为0.7%,一年内,平均1000只硬盘有7只会出故障。
由来

图1 浴盆曲线
如图1所示为著名的浴盆曲线,左边斜线部分为早期故障率,其故障率一般较高且随着时间推移很快下降。曲线中部为使用寿命期,其故障率一般很低且基本固定。最右部为耗损期,失效率急速升高。电子产品制造商一般通过测试、老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。
电子产品的寿命一般都符合浴盆曲线,可分为三个阶段:

  1. 早期失效期:由于设计,原材料,生产等可能出现的原因而导致一个较高失效率的阶段,也称失效率递减阶段,可通过环境应力筛选加以剔除,保证产品的可靠性。
  2. 偶然失效期(稳定期):这一阶段产品失效率近似一个常数,只有随机失效产生,MTBF即要得到这一阶段的寿命。
  3. 损耗失效期:硬件故障期,产品这时已达到设计寿命,进入报废阶段。

寿命

图2 元器件瞬时失效浴盆曲线图
明白了MTBF和“浴盆”曲线的基本概念,我们对评估产品的使用寿命有了一定的掌握。在合适工作条件下器件使用寿命期内的故障率很低。广大电子爱好者都知道电子元器件的寿命,与工作温度是有密切关系的。以电脑主板上常用的也常出故障的电解电容器为例,其寿命会受到温度的影响。因此,应尽可能使电容器在较低的温度之下工作,如果电容器的实际工作温度超过了其规格范围,不仅其寿命会缩短,而且电容器会受到严重的损毁(例如电解液泄漏)。因此,在分析电脑主板上电容器的工作温度时,不仅要考虑机箱内整体环境温度及电容器自身的发热,还要考虑机箱内其他发热元件的热辐射(特别是CPU、稳压器、电源供应器等)。
根据测试,通常2.0G的CPU消耗功率达56.7W,生成温度达70℃;而当频率提高至3.0G时, CPU温度往往超过90℃。在这样的高温烘烤下,主板上的电容器寿命会发生什么变化?
为简化起见,不考虑纹波、频率、ESR等因素,电容器的估计寿命可用下述公式表示:

其中,L0表示最高工作温度下的寿命,T0表示最高工作温度,T表示实际环境温度。由此可见,如果环境温度每升高10℃,电容器寿命将下降一倍。
由图2右面的曲线可明显看出,随着电容器工作环境温度的上升,其有效寿命急剧缩短。其中有效寿命(Useful life)是指该种电容器达到给定故障率的时间。
计算分类
一个产品在设计、生产、材料、运输、保存和使用环境中存在各种不确定的因素,使得产品的寿命成为随机变量,对于随机出现问题的时间,可通过各种统计计算得出,通常MTBF有计算分以下三类。
可靠性预计计算
预计产品MTBF的好处,首先在产品设计阶段就可以满足客户的制造要求:其次对生产方而言,可使其以最少的费用对预计的产品的弱点进行关注和改进。
实验室试验结合理论计算
实验室的可靠性寿命评价具有一定的破坏性,因面不可能对所有的产品都进行试验,而且这样的工作量太大了。因此,通过实验室试验来获取试验样品的基本方法是,从同型号、同批次的一批产品中抽取一部分产品来进行试验,这些产品在可靠性术语中被称为“样本”,其中的每个产品被称为“样品”显然从概率统计的观点看,抽取的试验样品数量越多,就越能真实地反映该批产品的可靠性水平。
现场失效数统计计算
产品在完成设计改进、准备批量生产之前,原则上需要通过部分样机进行实验室试验来评价产品的MTBF,再确定是否批量生产。而实际上,由于新产品在推出时间上的需要,不可能进行长时间的 MTBF试验。对于民用产品来说,实验室试验由于时间和费用的关系根本无法操作:对于部分军用产品来说,由于生产数景极有限,不可能抽取过多的试验样品进行MTBF试验,这样通过极少样品评价出的MTBF,其可信度是个大问题。
应用举例
电脑硬盘
指硬盘从开始运行到出现故障的最长时间,单位是小时。一般硬盘的MTBF至少在30000到40000小时。
电视机
评价电视机质量的好坏,往往以不出故障正常工作时间的长短来衡量,叫做无故障工作时间。其时间越长,意味着电视机质量越可靠。但是,单凭一台电视机的好坏,并不能说明整批电视机质量的高低,一般是从工厂的产品中任意抽取一部分产品专门进行老化试验(在高温、潮温等恶劣环境中进行),测出样品的不出故障正常工作时间有多长,从而推算出这批产品的平均无故障工作时间即MTBF是多少小时。这是评价电视机质量指标中较有代表性的一项。
数控机床
平均无故障时间是数控机床在两次故障之间能正常工作的时间的平均值,也就是数控机床在寿命范围内总工作时间与总故障次数的比,即MTBF=总工作时间/总故障次数。
分析目的

  1. 针对高频率故障零件的重点对策及零件寿命延长的技术改造依据。
  2. 进行零件寿命周期的推算及最佳维修计划编制。
  3. 有关点检对象、项目的选择与点检基准的设定、改善。
  4. 用于指导内外部维修工作分配。根据公司内设备修复能力的评价,以设备类型、作业种类的不同来决定内部分别承担工作的维修质量与设备效率方面的风险,作为维修外包的重要参考。
  5. 设定备品备件基准。机械、电气零件的各储备项目及基本库存数量,应根据MTBF的记录分析来判断,使其库存水平达到最经济的状况。
  6. 作为选择维修技术方法改善重点的参考依据。为了提高设备开动率,必须缩短与设备停机相关的长时间维修作业及工程调整、切换的时间。因此,有必要对维护作业方法进行检验,而其检验的项目、优先顺序的选择等基本情况,均需要依据MTBF的分析记录表。
  7. 用于设备对象设定预估运行时间标准,及其维护作业的选定与维护时间标准的研究。维修计划预估时间标准的设定及维护作业的选定,必须考虑设备维护重复周期或标准时间值与实际维护时间的差异及相应维护作业特性等因素,因此,MTBF分析表是非常必要的。
  8. 图样整理及重新选定重点设备或零件时的参考。MTBF的分析记录表所记录的设备零件改造项目或摩擦劣化等信息,以及设备图样修改或前期制作等情况,通过能经常作分析检验及重要性排序管理,可以使工程图样管理变得更容易。
  9. 运行操作标准的设定、修订及决定设备维护业务的责任分派。
  10. 提供设备的可靠性、可维修性设计的技术资料。维护技术最重要的是以MTBF分析表为基础,收集有关设备的可靠性、可维修性设计的技术信息,以便提供给设计部门在设计设备时参考。

发表评论