1、可靠性技术可靠性技术同济大学经济与管理学院一、产品可靠性的概念一、产品可靠性的概念 n具有优良的技术性能指标是否是高质量的产品?n仅仅用产品技术性能指标不能反映产品质量的全貌。产品的质量指标是产品技术性能指标和产品可靠性指标的综合。n可靠性指标和技术性能指标的区别?一、产品可靠性的概念一、产品可靠性的概念 n可靠性:指产品(包括零件和元器件、整机设备、系统)在规定的条件下和规定的时间内,完成规定的能力。三个规定n对于可靠性的理解应注意:明确产品可靠性研究的对象 必须明确产品可靠性所规定的条件 必须明确所规定的时间 必须明确产品所需完成规定的功能 一、产品可靠性的概念一、产品可靠性的概念 n 对
2、于可修复产品来说,可靠性可靠性的含义应指产品在其整个寿命周期内完成规定功能的能力。n故障故障:产品或产品的一部分不能或将不能完成规定功能的事件或状态叫出故障,对某些产品如电子元器件等亦称失效。分为:n致命性故障:致命性故障:产品不能完成规定任务或可能导致重大损失n系统性故障:系统性故障:由某一固有因素引起,以特定形式出现的n偶然故障:偶然故障:由于偶然因素引起得故障一、产品可靠性的概念一、产品可靠性的概念n可靠性需要满足:n1)不发生故障n2)发生故障后能方便地、及时地修复,以保持良好功能状态能力,即要有良好的维修性。n维修性维修性是指在规定条件下使用的产品在规定的时间内,按规定的程序和方法进
3、行维修时,保持和恢复到能完成规定功能的能力。一、产品可靠性的概念一、产品可靠性的概念 n可靠度函数可靠度函数 可靠度可靠度是指产品在规定的条件和规定的时间内,完成规定功能的概率。它是时间的函数,以R(t)表示。若用T表示在规定条件下的寿命(产品首次发生失效的时间),则则“产品在时产品在时间间t内完成规定功能内完成规定功能”等价于等价于“产品寿命产品寿命T大于大于t”。所以可靠度函数可靠度函数R(t)可以看作事件“Tt”概率,即 其中f(t)为概率密度函数)()(tTPtRtdttf)(一、产品可靠性的概念一、产品可靠性的概念 n可靠度函数可靠度函数 产品的失效分布函数:显然:可靠度R(t)可以
4、用统计方法来估计。设有N个产品在规定的条件下开始使用。令开始工作的时刻 t取为0,到指定时刻t时已发生失效数n(t),亦即在此时刻尚能继续工作的产品数为N-n(t),则可靠度的估计值(又称经验可靠度)为 tdttftTPtF0)()()(1)()(tFtRNtnNtR)()(一、产品可靠性的概念一、产品可靠性的概念n例17.1某电子器件110只的失效时间经分组整理后如表171所示,试估计他的可靠度函数。n见书P209二、失效率和失效率曲线二、失效率和失效率曲线 n 产品的失效率产品的失效率 一般定义:失效率是工作到某时刻尚未失效的产品,在该时刻后单位时间内发生失效的概率。一般记为,它也是时间t
5、的函数,故也记为(t),称为失效率函数,有时也称为故障率函数或风险函数。设在t=0时有N个产品投试,到时刻t已有n(t)个产品失效,尚有N-n(t)个产品在工作。再过t时间,即到t+t时刻,有n(t)=n(t+t)-n(t)个产品失效。产品在时刻t前未失效而在时间(t,tt)内失效率为 ,单位时间失效频率 1)()(tFtR)()(tnNtn)(1)()(tnNttnt二、失效率和失效率曲线二、失效率和失效率曲线 n 产品的失效率产品的失效率 失效率是在时刻t尚未失效产品在t+t的单位时间内发生失效的条件概率,即 由条件概率公式的性质和时间的包含关系,可知 ttTttTtPtt)/(lim)(
6、0)()()()()()/(tRtFttFtTPttTtPtTttTtP)()()()()(1)()(lim)(0tRtftRtFtRttFttFtt二、失效率和失效率曲线二、失效率和失效率曲线 n 产品的失效率产品的失效率 失效率的单位:国际上还采用“菲特“(FIT)作为高可靠性产品的失效率单位,为10-9/h 失效率越小,可靠性越高。失效率越小,可靠性越高。httnNn/%*)(/(hh5461010(1101000(11(个)个)(个)个)菲特二、失效率和失效率曲线二、失效率和失效率曲线 n失效率曲线与失效类型失效率曲线与失效类型 失效率曲线浴盆曲线:(1)早期失效期为递减型。产品使用的
7、早期,失效率较高而下降很快。主要由于设计、制造、贮存、运输等形成的缺陷,以及调试、跑合、起动不当等人为因素所造成的。使产品失效率达到偶然失效期的时间使产品失效率达到偶然失效期的时间t t0 0称为交付使用点。称为交付使用点。(2)偶然失效期为恒定型,主要由非预期的过载、误操作、意外的天灾以及一些尚不清楚的偶然因素所造成。由于失效原因多属偶然,故称为偶然失效期。偶然失效期是能有效工作的时期,这段时间称为有效寿命。为降低偶然失效期的失效率而增长有效寿命,应注意提高产品的质量,精心使用维护。(3)耗损失效期,失效率是递增型。失效率上升较快,这是由于产品已经老化、疲劳、磨损、蠕变、腐蚀等所谓有耗损的原
8、因所引起的,故称为耗损失效期。针对耗损失效的原因,应该注意检查、监控、预测耗损开始的时间,提前维修,使失效率仍不上升。当然,修复若需花很大费用而延长寿命不多,则不如报废更为经济。二、失效率和失效率曲线二、失效率和失效率曲线 二、失效率和失效率曲线二、失效率和失效率曲线 n 常用的失效分布常用的失效分布*指数分布*威布尔分布 二、失效率和失效率曲线二、失效率和失效率曲线n我们知道 F(t)=1-R(t),微分后可得。再由(17.1)式可得:n解此微分方程,可得可靠度函数:n于是得)()()(tRtRttdxxtR0)(exp)(tdxxttf0)(exp).()(二、失效率和失效率曲线二、失效率
9、和失效率曲线n当 时,产品寿命的密度函数 n其分布函数F(t)与可靠度R(t)分布为 n n这个分布函数为指数分布,它的数学期望(即均值)为:)(ttetf.)(tetF1)(tetR)(1)()(00dttedtttfTEt三、系统可靠性三、系统可靠性 n 根据不同对象分成单元可靠性与系统可靠性两个方面。前者把产品作为整体考虑,后者则注重于产品内部的功能关系。n 系统的可靠性在很大程度上取决于零部件的可靠性。n 可靠性预测:可靠性预测:是一种根据所得的有效率数据计算器件或系统可能达到的可靠性指标或对于实际应用的产品计算出它在特定条件下完成规定功能的概率的预报方法。目的:1)协调设计参数及指标
10、,提高产品的可靠性 2)进行方案比较,选择最佳方案 3)发现薄弱环节,提出改进措施 方法:1)数学模型法。2)布尔真值表法,又称状态枚举法。系统中每个单元都有“成功”和“失效”两个状态,将系统中所有的组合列出,然后列出系统“成功”和“失败”的状态,最后进行系统可靠度的计算。若系统有n个单元,而每个单元又有两个状态,则n 个单元所构成的系统共有2n个 状态。三、系统可靠性三、系统可靠性 n 可靠性分配可靠性分配 把系统的可靠性指标对系统中的子系统或部件进行合理分配的过程。分配原则:技术水平。复杂程度。重要程度。任务情况。一般还要受费用、重量、尺寸等条件的约束。总之,最终都是力求以最小的代价来达到
11、系统可靠性的要求。三、系统可靠性三、系统可靠性 n 可靠性分配可靠性分配 等分配方法:本方法用于设计初期,对各单元可靠性资料掌握很少,故假定各单元条件相同。串联系统 并联系统 混联系统 niRRnsi.,2,11niRFFnsni,.,2,1)1(11三、系统可靠性三、系统可靠性n例1 设系统由n个相互独立的元器件串连而成,假如每个元器件的失效率皆为常数,且分别为 ,求此串联系统的可靠度、失效率与平均寿命。n解:因为失效率为常数的失效分布为指数分布,故每个元器件的寿命都服从指数分布,其可靠度为:由独立性,可求得此系统的可靠度为n若记 可见此串联系统的寿命仍服从指数分布,平均寿命为n,21tii
12、etR)()(exp)()(211nniisttRtRns21s1三、系统可靠性三、系统可靠性n例2 设系统由n个相互独立的元器件并联而成,假如每个元器件的失效率皆为同 一常数,求此并联系统的可靠度与平均寿命。三、系统可靠性三、系统可靠性 n 故障树分析故障树分析 概念:在系统设计过程中通过对可能造成系统失效的各种因素(包括硬件、软件、环境、人为因素)进行分析,画出逻辑框图,从而确定系统失效原因的各种可能组合方式或其发生概率,以计算系统失效概率,采取相应的纠正措施,以提高系统可靠性的一种设计分析方法。英文全名为Fault Tree Analysis,简称FTA。最不希望发生的故障状态作为逻辑分
13、析的目标,在故障树中称为顶事件;继而找出导致这一故障状态发生的所有可能直接原因,在故障树中称为中间事件;追寻到引起中间事件发生的全部部件状态,在故障树中称为底事件。三、系统可靠性三、系统可靠性 n 故障树分析故障树分析 故障树是一种特殊的倒立树状逻辑因果关系图,它用事件符号、逻辑门符号和转移符号描述系统中各种事件之间的因果关系。“底事件”是导致其事件的原因事件,位于所讨论故障树底端。“结果事件”是由其它事件或事件组合所导致的事件。它总是位于某个逻辑门的输出端。故障树的建立步骤故障树的建立步骤:1)熟悉并分析对象;2)选定顶事件;3)故障树的构造与简化;4)计算分析;5)评价改进。三、系统可靠性
14、三、系统可靠性n故障树分析故障树分析一、软件可靠性的背景一、软件可靠性的背景 n随着计算机技术的普及和发展,硬件可靠性技术日趋成熟,软件可靠性问题变得日益突出。美国军用装备中软件成本在总成本中的比重已从1955年的不到20%增加到1985年的90%以上。在软件开发的早期阶段,软件产品像是在手工业个体作坊中制造出来的工艺品,不是现代化严格科学管理下生产出来的工业品,因此,软件可靠性是当今可靠性工程研究领域中的新课题。软件可靠性一、软件可靠性的概念一、软件可靠性的概念 n定义:软件按规定的条件,在规定的时间内运行而不发生故障的能力。n所谓按规定的条件主要是指软件的运行(使用)环境,它涉及软件运行所
15、需要的一切支持系统及有关的因素,如支持硬件、操作系统及其他支持软件、输入数据的规定格式和范围、操作规程等。一、软件可靠性的概念一、软件可靠性的概念 n故障率也是度量软件可靠性的直观指标。和硬件可靠性相似,在软件的寿命周期中,也有早期故障期和偶然故障期。早期故障率也高于偶然故障期的故障率,但软件不存在故障率呈增长趋势的耗损故障期,软件的缺陷纠正一个就减少一个,不会重复出现。二、保证软件可靠性的工程方二、保证软件可靠性的工程方法法 n为了保证软件的可靠性,应在软件寿命周期的为了保证软件的可靠性,应在软件寿命周期的各个阶段千方百计地减少缺陷。软件开发周期各个阶段千方百计地减少缺陷。软件开发周期错误和
16、软件故障分类的百分数分别如表错误和软件故障分类的百分数分别如表1和表和表2所示。所示。二、保证软件可靠性的工程方二、保证软件可靠性的工程方法法 n由表1、表2的统计数据表明,在软件寿命周期的各个阶段都可能发生软件错误或故障。而需求分析和软件设计阶段发生错误或故障的比重占多数。n 同时,统计数据同样表明,软件错误的改正所需费用也是越晚越高。ttTttTtPtt)/(lim)(0二、保证软件可靠性的工程方二、保证软件可靠性的工程方法法 n为保证软件可靠性,在其寿命周期各个阶段需要采取如下的措施:n(1)需求分析阶段 本阶段主要措施是,全面理解用户的使用要求、使用条件和软件功能,在全面分析和与用户充
17、分交换意见的基础上,制订出软件的技术规格书。该规格书要说明测试软件的方法,有完整的软件技术要求,用语要准确和规范。二、保证软件可靠性的工程方二、保证软件可靠性的工程方法法 n(2)设计阶段 在软件设计阶段,要把软件的技术要求转换成设计方案。此时,可采取如下的方法。自顶向下设计;采用结构化程序设计;容错设计;设计评审;标准)模块化设计;制订和贯彻软件可靠性设计准则。二、保证软件可靠性的工程方二、保证软件可靠性的工程方法法 n(3)编码阶段 编码就是把设计方案变成计算机语言,也就是所谓的编程序。编码产生的缺陷也是软件缺陷的一个主要来源。常见的编码缺陷有:键入错代码、原始数据输入错误(含单位不一致等
18、)、用了被零除这类不正确表达式等。n 应在编码过程中尽可能早地查出缺陷并予以改正。二、保证软件可靠性的工程方二、保证软件可靠性的工程方法法 n(4)检验阶段 检验阶段主要任务是发现软件中的缺陷,并加以清除。这个阶段对于保证软件的可靠性是很关键的。n 为了查找缺陷,首先要对软件进行静、动态调试。此时,需检查源程序的结构、方法和过程间的接口是否有误,运行时是否存在不必要的功能,检查“要求”、“数据”、“结果”和“内部程序工作状态”对应关系是否正确。n 软件的测试按模块测试、整体测试和系统测试的次序依次进行,最终确认软件的全部功能能否正确而完全地实现。二、保证软件可靠性的工程方二、保证软件可靠性的工
19、程方法法 n(5)维护阶段 软件交付使用后,要对使用中发现的残存缺陷进行纠正。同时,由于软件的运行环境和调试时不尽相同,也需对软件进行必要的修改、补充和完善。此时用户也可能提出一些新的要求。此外,还应经常研究出错的记录,前后对照和分析,弄清楚软件是否存在某种隐患。二、失效率和失效率曲线二、失效率和失效率曲线 n失效率曲线与失效类型失效率曲线与失效类型 失效率曲线浴盆曲线:(1)早期失效期为递减型。产品使用的早期,失效率较高而下降很快。主要由于设计、制造、贮存、运输等形成的缺陷,以及调试、跑合、起动不当等人为因素所造成的。使产品失效率达到偶然失效期的时间t0称为交付使用点。(2)偶然失效期为恒定
20、型,主要由非预期的过载、误操作、意外的天灾以及一些尚不清楚的偶然因素所造成。由于失效原因多属偶然,故称为偶然失效期。偶然失效期是能有效工作的时期,这段时间称为有效寿命。为降低偶然失效期的失效率而增长有效寿命,应注意提高产品的质量,精心使用维护。(3)耗损失效期,失效率是递增型。失效率上升较快,这是由于产品已经老化、疲劳、磨损、蠕变、腐蚀等所谓有耗损的原因所引起的,故称为耗损失效期。针对耗损失效的原因,应该注意检查、监控、预测耗损开始的时间,提前维修,使失效率仍不上升。当然,修复若需花很大费用而延长寿命不多,则不如报废更为经济。三、容错设计三、容错设计 n对于软件失效后果特别严重的场合,如飞机的
21、飞行控制系统、空中交通管制系统、核反应堆安全控制系统等,可采用容错设计方法。常用的容错方法如下:(1)N版本编程法 N版本编程法的核心是:通过多个模块或版本不同的设计软件,对于相同初始条件和相同输入的操作结果,实行多数表决,防止其中某一软件模块/版本的故障提供错误的服务,以实现软件容错。三、容错设计三、容错设计n(2)恢复块技术 恢复块技术的设计思想是:把一些特有的故障测试和恢复特性引人单一版本软件。其目的在于:用可接收性测试(Acceptance Test)实现软件的故障测试。该测试对首先启动的模块运行结果实行。如果测试不通过,则恢复系统的原来状态,在相同的硬件上执行另一模块;若以后的可接受性测试得以通过,则被认为完成了恢复功能。