代表中国航天事业最新成就的[祝融],已成功登陆火星,开始履行自己的火星探测使命。随着科学与技术的发展,以航天器为代表的各类复杂工程系统不断取得成功,实在是令人叹为观止。
然而,按照现行的常规做法,如果在这些复杂的工程系统实施之前,计算一下它们的失效率,一定会得出很高的结果;如果我们真的按照计算得出的失效率进行决策的话,估计人类就看不到这些科技进步的奇迹了。
比如,如果我们要做[祝融]的电子产品的可靠性预计,按照现行的行业规范,一般要选用20世纪90年代发布的美国军用标准217F和2006年发布的中国军用标准299C,利用这些标准中提供的失效率数据及相应的预计模型,计算[祝融]的失效率。
这类标准中给出的进行某个电子产品可靠性预计的一般步骤是:首先,在标准中查出每一类元器件的基本失效率计算模型,按照这个模型计算得到一个基本失效率数据;其次,考虑这个元器件的制造和使用条件,选择对应的修正因子(比如制造质量等级因子和环境条件因子)对基本失效率进行修正,得到一个工作失效率数据;最后,把所有电子元器件的工作失效率数据相加,得到这个电子产品的失效率数据。
每一个第一次做可靠性预计工作的工程师,都会非常认真和虔诚地完成上述步骤,而这些步骤对于稍微复杂一点的电子产品,无论你是否选用软件工具,都是一个耗时费力的工作。然而,更让工程师绝望的是,这样计算得到的电子产品失效率,高的都让自己怀疑人生。当面临领导和客户质疑的眼神时,只能诺诺地说:按手册算的,我没算错,就是这个结果。
这种令人难以置信的预计结果会导致什么后果呢?就是算的人不相信,看的人也不相信。而可靠性预计作为评估产品设计方案、支撑研发决策的重要一环,丧失了专业权威性,被决策者直接跳过或忽略。
可靠性预计工作被决策者直接跳过,对于那个拿着手册算算算的工程师毕竟是一种解脱;如果按照研制程序规定这个步骤不能省略,必须要算出一个结果、出具一个报告,那个拿着手册算算算的工程师心中一定有一万头草泥马在奔腾.......(此处省略1万字)。
每每想到上述场景,实在是令我这个所谓的可靠性专业人士感到尴尬,要么是辗转失眠,要么是夜半惊醒。我就是在夜半惊醒的状态下,敲下这段文字的。
为什么会造成这样的局面呢?不外乎有以下几个方面的原因。
一是手册中提供的每一类型的电子元器件基本失效率预计模型更新不及时。元器件的发展日新月异,新技术、新工艺不断涌现,手册中的模型得不到及时有效的更新,一些新的元器件甚至找不到预计模型。上述217F手册已经20多年没有更新了,据说也不打算更新了;299C手册也使用15年了,据说有一部299D版本,因为各种原因迟迟没有公布。
二是手册中给出的计算工作失效率的修正因子考虑不全面。元器件的工作失效率取决于两方面因素,一方面与元器件厂家的研发能力和制造能力相关,比如同一型号的电子元器件,由不同的制造厂家设计、生产,显然其失效率水平不应该一样;另一方面,元器件的工作失效率又与选用元器件的企业研发能力和制造能力相关,同样的元器件在不同的企业使用表现出来的失效率水平也不一样。这样的区别在217F、299C这一类手册中考虑不多。
三是手册中采用的元器件工作失效率直接相加得到产品失效率的算法不科学。这样的算法的底层数学逻辑是概率乘积定理,而概率乘积定理的使用前提:是独立事件的发生概率相乘。工程实践中,这样的假设是不存在的,即每一个元器件通过电路板的链接,构成了各个元器件相互联系的整体——电子产品,这种联系既是功能相联,更是失效相联。但这种联系对电子产品整体失效率的影响,直接被元器件失效率的“加和”算法无视了!
对于第一个问题,我的团队设计了一种共享业务模式,吸引和激励元器件制造商或第三方机构直接提供元器件基本失效率数据,这种业务模式即将上线运行;
对于第二个问题,我的团队即将推出一种新的元器件工作室效率算法和配套的软件工具,这种算法既可以考虑元器件制造商研发、制造能力影响对元器件工作失效率的影响,也考虑元器件集成商研发、制造能力对工作失效率的影响;
对于第三个问题,我的团队正在研究考虑失效相联的电子产品失效率的新算法。
解决上述三个问题的基础理论就是确信可靠性理论,这是一套由系统科学和数学加持的全新的可靠性科学方法论。
|