1、1l1 系统可靠性基础理论系统可靠性基础理论l 理论体系探讨l2 工程实践工程实践l Intersil公司公司 、Ford公司公司l3 可靠性工程几个热点问题可靠性工程几个热点问题l 发展趋势展望发展趋势展望2一个满意的顾客会告诉8个人,一个不满意的顾客会告诉20个人,只有可靠的产品才能带来长期效益和忠诚的顾客!3l系统可靠性基本术语 (1) 系统(System) 一个系统是由一组零件(元件)、部件、子系统或装配件(统称为单元)构成的、完成期望的功能、并具有可接受的性能和可靠性水平的一种特定设计。 451.在特定的时间内,已知系统所有单元的可靠度为90%,则系统可靠度为90%。2. Mecha
2、nical engineers know everything.3. Reliability is a project.4. The craftsman is only involved in repair, not in reliability.5. The key to high reliability is speedy repair.6 可靠性方块图可靠性方块图是系统单元及其可靠性意义下连接关系的图形表达, 表示单元的正常或失效状态对系统状态的影响。在一些情况下,它不同于结构连接图。 计算机的简化可靠性方块图 7l一个方块可以代表零件(元件)、部件、子系统或装配件,取决于它选择的“黑箱
3、”水平(具体层次)。l系统可靠性评估的第一步是获取数据(寿命或成功次数等),估计单元的可靠性水平。 单元可靠性估计的流程 8(1) 串联系统 (2) 并联系统 (3) k/n表决系统 (4) 串并联混合系统(5) 储备系统(6)复杂系统 9l系统可靠度为l l可靠性串联系统中,可靠性最差的单元对系统的可靠性影响最大。 niisRR110l l 11l系统可靠度为 niisRR1)1 (1图7 可靠性并联系统 冗余最大例:双工系统1213l特例:1/n串联系统l n/n并联系统l系统可靠度:1415l分析方法:l 1. 分解分析方法:选择关键单元,先分解系统,再组合计算。l 2. the Eve
4、nt Space Method.l 3. the Path-Tracing Method. 图9 可靠性复杂系统模型示例 16l分析单元重要度,可以找出系统的薄弱环节。l单元i的概率结构重要度: l关键重要度lFV重要度lBP重要度17l(1) 系统可靠度估计l引入单元可靠度函数,运用上述模型即可计算系统可靠度。l(2) 寿命预测l根据系统可靠度,可以计算系统的平均寿命、保证寿命、BX(如:B10)、可靠寿命等。此外,可以计算系统的寿命分布规律、失效率。18l(3) 模拟分析l 模拟分析可以克服解析法的缺点,完成复杂系统的可靠性分析。其原理:基于the Monte Carlo simulati
5、on method, 根据每个单元的失效分布产生随机失效时间,模拟系统的工作状态,然后对系统可靠度作经验估计。 19l在产品开发阶段要尽早考虑和构造可靠性。l l将可靠性和性能一样设计到产品中去。20l(1) 问题识别:获取改进可靠性的机会。工具:维修数据分析、用户意见分析、可靠性试验、可靠性分析等。l(2) 失效分析。认识失效机理和发现改进措施。工具:FMECA,FTA等。l(3) 寿命周期费用和保修费用分析。l(4) 比较研究(Trade-off studies),可靠性优化,费用效益分析。l(5) 可靠性目标确定。工具:QFD等。l(6) 可靠性优化分配。21l有两个方法改进系统的可靠性
6、:故障避免和故障容错。l避免故障,要求使用高质量和高可靠性的元件,通常比故障容错方法的成本低些。而故障容错,需要冗余,导致设计难度加大,成本、重量、体积等增加。典型的可靠性增长曲线22l优化前需要明确规定:l a) 成本函数Cost/Penalty Function lb) 可靠度上限 Maximum Achievable Reliability 23改进难度和可靠度上限的影响24建立系统可靠性优化的目标函数: 25例:由三个单元组成的可靠性串联系统,在100小时内的目标可靠度为0.90,考虑五种情况:Case 1-三个单元都服从=1.318、=312hrs的威布尔分布,改进可行性中等。Cas
7、e 2-同Case 1,但改进可行性不同:单元1易,单元2中,单元3难。Case 3-在100小时内,单元1、2、3的可靠度分别为0.7、0.8、0.9,改进可行性相同:易。Case 4-在100小时内,单元1、2、3的可靠度分别为0.7、0.8、0.9,改进可行性分别为:易、中、难。Case 5-在100小时内,单元1、2、3的可靠度分别为0.7、0.8、0.9,改进可行性分别为:难、易、中。假设在100小时内,MAR均为0.999,则优化结果如右表1所示。 26l 对于可修复系统,须同时考虑可靠性和维修性。类似于基于寿命数据的可靠性建模方法,可以处理修复数据获得维修性特征量,如:维修度、修
8、复率、平均修复时间等。可用性综合考虑可靠性和维修性。27l事后维修的三个典型步骤: a)问题诊断; b)故障零件的更换或修理; c)维修确认。l预防维修活动包括设备检查,局部或全面定期检修,换油等。l预防维修可以提高系统的可靠性、减少停机时间和更换费用、优化备用件库存。28l计划维修针对产品老化情况。l基础工作:维修历史记录分析、传感器监测数据分析、备用件库存优化、维修最佳间隔期的确定、设备维修模拟等。 l视情维修 l基础:设备性能退化、测试技术和诊断技术。 图14 预防维修与事后维修的费用比较29l停机时间分为等待时间和修理时间。等待时间主要与后勤工作、管理工作有关。而修复时间主要取决于维修
9、人员和产品的可维修性设计。基于停机时间,可以建立维修度函数,统计维修性特征量。l更新理论图13 系统停机时间为元件停机时间的函数 (三个元件组成的可靠性串联系统) 30l可用度分为瞬时可用度、稳态可用度、平均可用度、使用可用度等。l维修费用分析:识别主要费用要素。l失效数据分析:对同类的产品或单个产品进行统计分析,了解MTBF、主要失效模式等。31l可靠性管理是可靠性工程组成部分,占有很重要地位,有人曾讲;“产品可靠性是设计出来的、制造出来的和管理出来的”。l可靠性管理工作包括:可靠性设计、试验和管理标准,可靠性大纲,可靠性管理机构,数据网等。从产品可靠性指标分配、预计、可靠性设计、可靠性分析
10、、可靠性试验、数据交换等进行系统化管理。l90年代美国由于以经费为独立变量,废除大量的军用标准,大力推行健壮设计和并行工程及IPPD管理。首先在美国海军及其相关工业部门广泛推广“网络化”管理。通过大量标准、规范引入和支持,为“网络化”管理提供依据和指导,实施程序化、规范化、系统化的“网络化”管理。32l(1) 供应链分析:企业之间的协作减少提供产品和服务的供应链时间,减少库存。需求不确定性增大,需要供应链越敏捷。l(2) 人机工程:考虑人机系统,注意人的能力和局限。包括:可维修设计(拆卸、装配程序评估),软硬件设计(人机界面、通讯、显示与控制技术),可操作性试验(录像分析,方案比较),人操作可
11、靠性分析等。33l(3) 制造统计技术:主要包括:统计过程和质量控制(如:SPC,抽样,过程能力分析,改进计划,变差减少),实验设计(DOE),统计建模(如:SPC,回归分析,方差分析,时序分析,多元分析,非参数分析)等。l(4) 工业工程:工业工程涉及技术系统的设计、安装、改进、评估和控制。目标是,在尽可能降低成本的同时优化系统的资源来提升质量、效率、生产率。工具:数学模型(对复杂系统应用随机模型)、实验设计、连续过程改进、生产性研究、计算机模拟、神经网络(处理非线性现象,减少数据处理时间)、专家系统等。 34l2.1Intersil公司的Building-In Reliabilityl l
12、Intersil(网线)公司为晶片制造商,在无线网络、电源管理领域国际领先。 l2.2 Ford公司的Useful Life Reliability Process lFord(汽车)公司将Useful Life Reliability Process 任务作为产品开发系统的重要工作。 3536l 无维修使用期(MFOP)l在国际上早在1995年对传统的可靠性定义提出了质疑,在欧洲开始用无维修使用期(MFOP)取代原先的MTBF,摒弃随机失效无法避免的旧观念,故障率浴盆曲线分布规律也就被打破。当前国际上兴起在可靠工程中推行失效物理方法的新潮流,目的是设计出不存在随机失效的产品。同时,从故障修理
13、转换到计划预防维修。37l要做到“无维修使用期”必须作好如下两项工作:l一是一是改变可靠性设计思路改变可靠性设计思路:以自下而上的可靠性设计方法,取代采用MTBF进行自上而下分配方法。重点可采取如下设计措施:采用状态监控,故障诊断和故障预测设计;容错设计;可重构性设计;动态设计;故障软化设计;环境防护设计;冗余设计;在任务能力不受影响下,留出可接受的降级水平设计等。 38l二是改变可靠性工程工作方法改变可靠性工程工作方法:必须把人力、精力集中于产品研发早期阶段。应做如下工作:l失效物理分析、研究与应用;l开展可靠性研制试验,及早暴露设计缺陷,采取有效纠正措施;l开展高加速应力试验(HAST),
14、暴露产品薄弱环节予以纠正;l 严格设计评审制度,消除设计隐患;l 制订合理预防维修计划并予以实施。39l可靠性指标体系及其验证 l在产品可靠性验证与评价中,在确认故障,采用什么方法对故障数据进行处理,直接关系到产品的生存和发展。一般都把可靠性验证试验中产品的存在状态简化为“二元状态(成功、故障)”处理。故障统计也比较简单,要么为0,要么为1,对故障既不分类,也不加权,这在工程实施显然存在问题。如果把这些后果严重程度不同的故障,等同看待,客观上是不合理的,与实际情况也是不相符的。 40l早在70年代美国在地面产品广泛地采用故障加权。l在1980年美军标准MILSTD785B颁布后,故障加权处理方
15、法被取缔。l产品可靠性指标细化分解,分别验证。MILSTD7810工程研制鉴定和生产可靠性试验正式文本中,首次提出在可靠性验证中按后果严重程度把发生故障区分为:致命故障,严重故障和轻度故障三类。l我们国家有标准可查的就有近20种门类产品对故障进行加权处理。l目前对故障加权有争议。 41l加强软件可靠性设计 l随着社会日益信息化,系统(或设备)软件功能较硬件功能占系统功能比例越来越高。l时至今日软件可靠性工程的有关技术还不够成熟,还有许多问题有待研究。 42l在开展可靠性工程工作时,对软件可靠性提及甚少,原因有二:一是开展软件可靠性工作较晚。二是软件可靠性技术较为复杂,研究和应用难度较大,其中有
16、如下几个方面:a)可靠性模型非指数分布,一般属于正态分布或威布尔分布,可靠性数学模型建立难度很大;b)可靠性指标确定多样化;c)目标的实现、测试、评估和验证、模式的不确定性;d)设备的软件可靠性很难与硬件可靠性剥离。有些软件故障是由硬件设计缺陷和故障所引发的。 43l改变传统观念 实施集成化结构设计 l传统的汽车机械系统即将走入历史。 FlexRay网络通讯系统用以整合包括Brake-by-Wire(电子制动)、Steer-by-Wire(电子转向)等控制系统,让汽车发展成百分之百的由单一电子系统控制车辆。 44l在技术上深入开展软件可靠性、机械可靠性,全面推广计算机辅助设计(CAD)技术在可
17、靠性工程中应用,积极采用模块化、综合化、容错设计、光导纤维和超高速集成电路等新技术来全面提高现代武器系统的可靠性。 l电子产品结构设计机械件可靠性设计热设计EMC设计维修性设计三防设计 45l推行IPPD(Integrated Product and Process Design)管理 l美国国防部研制试验、系统工程与评价局系统工程副局长Mark schaeffer总结美国质量管理的三个阶段:(一)早期阶段,推行质量检验;(二)80年代,质量重点转移,推行TQM(Total Quality Management);(三)90年代,重点抓产品研发设计,推行IPPD。46l今天的质量是面向预防和过
18、程驱动,从而使质量的全部职责由质量专业人员转移到机构中的每一个人。质量不再是“单个烟囱”式的学科。而质量必须是工程,制造软件编程和产品维护的一个综合要素。质量必须是商务活动的组成部份。l推行IPPD的实施强调并行工作和协作精神,从产品设计开始,来自设计、制造、试验、使用和保障等各方面的人员组成多学科的综合产品组(IPT),协同工作,所有人员都要了解产品的总目标和技术要求,统一考虑并共同解决各学科问题。这种管理方法确保R&M&S(包括测试性、保障性和安全性),从设计一开始就与传统的性能一起设计到产品中去。47l要作好IPPD管理,必须作好如下工作:l a)在产品研发一开始就要树立将质量与可靠性设
19、计到产品中去的思想,在分案设计时就应组织IPT小组。l b)解决如何把技术性、可靠性、维修性、测试性、保障性、经济性、安全性等统一权衡优化,并行设计到产品中去的技术问题。l c)开展网络化管理,加强可靠性与质量监控工作。l d)使IPT有效工作,必须加强团队合作精神,更重要的是“沟通”,“沟通”的核心问题是如何将数据转换成有用的信息,使IPT小组更好工作。48l开辟可靠性管理新模式,实施网络化管理l “网络化”管理的要点是:a)实施并行工程。在产品研发过程中要全过程、全因素、全方位(技术性、可靠性、维修性、保障性、安全性、经济性等)并行进行。b)加强过程监控。尤其在产品研发过程中的可靠性判决点上即网络结点上,进行严格评审。c)加强信息传递与管理。网络化管理能够有效运转关键在于信息的沟通和快速传递。d)实施制度化和规范化管理。49l系统的开放性与技术的局限性l参考和引用了许多文献,一并致谢!l请同行们多给予赐教!批评指正! l谢谢大家!50