Unit 20 译文

发布时间：2020-03-04 00:42:33 来源：范文大全收藏本文下载本文手机版

Unit 20 人为错误和系统设计

Unit 20-1

第一部分：从灾难中学习

虽然泰坦尼克号和兴登堡的灾难已经过去了几十年，但它们却开始引起人们对于现代系统安全工程的极大关注。两者都是当时规模最大的，最先进的技术，相当于今天正在开发并用于许多行业，对安全要求很高的基于计算机控制的系统。这些灾难的例子最可怕之处也许不是那些在事后分析中看到的明显错误，而是它们和近期所发生事故之间的相似之处。

泰坦尼克号沉没最令人震惊之处在于卷入这起事件的人们竟自鸣得意到难以置信的地步。爱德华时代末年是对工程和科学进步充满信心的年代，将如此多生命送上绝路的决定也许正是这种极度自信的结果。然而，曾于1985年发现失事的皇家油轮泰坦尼克号的著名海洋学家罗伯特巴拉德博士，将泰坦尼克号和发生于1986年1月的挑战者号航天飞机失事这两起事件划上等号，指出正是对技术的过分自信和对自然环境力量的藐视导致了两起事件中指挥者的疏忽。

甚至官方报告也反映出一种毫无根据的自信，报告中讨论了救生艇准备的不足，除了委婉地指出这些救生艇已陈旧之外没有提出任何明显的批评。同样地，报告提到望远镜，泛光灯和其他瞭望员的辅助设备达不到与泰坦尼克号的级别，却没有承认这些是设备上的缺陷。“发生了令人遗憾的事故，但责任在其他方面”这样的基调可以在更近期的许多事故报告中看到。

泰坦尼克号的灾难也提出了一些技术问题。船体外壳的结构是如何定下来的？船舱的数量，舱壁的高度和保证生存的所需设施是依赖什么分析数据决定的？也许对当时的技术水平来说提出这样的问题不公平，但是现代也有相似的案例。例如，（我们可以）把（船）可能发生正面冲撞的假设与汽车制造厂对新车进行撞车试验这种几乎完全一样的假设相比较，对撞车试验的规定直到1997年才得到加强。

兴登堡事件还强调了其他一些同样挑战着现代工程师们的安全工程问题。这些问题中最明显的一个可能就是改变设计后需对安全性做重新评估。在兴登堡事件中，这样的改动有两方面：对先前成功的设计做了修改（放大）；当意识到没有足够的氦能使如此巨大的船体浮起来后对设计思路也做了修改。建造如此巨大轻巧的结构对工程提出的严峻挑战令人钦佩地得到了解决，但是却没有考虑到改变采用的纤维处理所造成的似乎很小的影响。特别令人感兴趣的是，在已知静电积累是一个明显问题的情况下，已经注意到了对框架和金属部件提供放电回路。

最近由兴登堡的制造者齐柏林公司所揭露的隐情也很有趣。同样地，也有许多现代的相似案例：诸如Piper Alpha, Bhopal 和Seveso事故等都企图隐藏其善后情况，或者至少能低调地处理先前事故的证据，操作中存在的问题和安全管理的不足。

这些意见可以应用到任何行业的安全工程与管理中。本质上，安全是一种经验性的纪律；运用过去出错时的经验教训可以避免意外，而历史数据正是经验最重要的资源之一。过去150年航空事业的发展正说明了这一点。这些早期的发展是以“试飞－修改－试飞”模式为特征的，也许更确切的是“试飞－但愿存活－修改－试飞”。

早期飞行开拓者越是谨慎，越是选择付给别人报酬或试图说服他们来试飞自己的作品。据说1853年George Cayley先生的马车夫在完成了一份简报并驾驶Cayler的一架滑翔机自由地飞过约克郡河谷后提出辞职，理由是：“尊敬的先生，我不是雇来飞行的”。当时事故、受伤和死亡事故很频繁，因为工程师们都在努力掌握飞行的基本知识，而很少关心安全问题。

相比之下，到20世界末飞行已经成为最安全的旅行方式之一。波音客机的数据显示，到1996年底世界范围内已由12343架商业喷气飞机组成了一支庞大的机群，飞行总数达到1630万次。1996年仅发生了30起有乘客或机组人员死亡的事故，造成1300人死亡，达到一百万次飞行中死亡80人的比率。每次事故之后都会组织大规模的调查寻到事故原因，判断是否需要修改飞机设计，增强机组人员的训练或流程来防止类似事故再次发生。这些调查报告广泛的传播以让整个业界受益。

Unit 20-2

第二部分：人为错误的教训

1988年苏联福波斯I号卫星失踪在飞向火星的途中。什么原因？根据《科学》杂志的说法，是因为发射后不久地面控制中心在发往飞船的一系列数字指令中略去了一个字母。由于运气不好，这个字母的缺少使代码被误译，从而触发了测试序列（测试序列存储在ROM中，只是准备飞船在地面上时用于熟悉性能的）。福波斯折戟沉沙，就此无法恢复。

多么奇怪的报告：只是“运气太坏”吗？为什么是运气坏而不是坏的设计？难道不是命令语言设计的问题使这样一起异常事件导致了如此严重的后果？

电噪声对于信号的检测、识别和可靠性的影响是众所周知的。设计者会使用误码检测和纠错编码来解决这一问题。让我们假定是某些已知来源的干扰破坏了传送到福波斯的信号，这样我们就不会去责备地面控制者了。我们会说系统的设计者没有遵从标准的工程惯例，会重新考虑系统的设计，以防止今后再出现这种问题。

人们错了。因为这就是生活的现实。人不是精确设计的机器。实际上人类是一种完全不同的“装置”。我们的强项是创造性、适应性、灵活性。持续不断的警戒、行动或记忆的精确性则是我们的弱点。我们容忍错误的能力是惊人的，甚至在有物理损伤也如此。我们非常灵活、健壮、富有创造能力，具有极强的能力从不完整的和受干扰的证据中寻求解释和理解含义。而导致健壮性和创造性的同样秉性却也产生错误。解释不完整信息的本能虽然是我们的基本优势，却可以使一名操作者以这样一种貌似有理的方式误解系统的行为，从而使这种误解难以被发觉。

我们对人类行为，以及它是如何用于与系统之间交互的了解已经相当多了。人类所犯的好几类错误已经得到确认和研究，可以事先确定，在什么情况下发生错误的可能性会增加。可以设计通信系统使之具有容忍误码、检测误码、纠正误码的能力。类似地，我们可以发明一种容错、检错或使人机交互降至最小的科学。

在我们对信息处理系统硬件和软件的理解方面已经取得了许多进步，但是还有一个缺口，这就是将操作者包括到系统分析之中。一个信息处理系统的行为并不只是设计指标的产物，而是人和系统交互作用的产物。设计者必须将系统中包括人在内的所有组成部分，以及他们之间的相互作用考虑进去。这一领域的各种技术出版物表明了对软件和硬件的关注，可是缺乏对人类功能和能力的强

调。许多信息系统的失败要归咎于人为错误而不是设计问题。我们还将遭遇失败直到学会改变我们的方法。

需要做的第一件事就是改变态度。我们称之为人为错误的行为和系统噪声一样地可预测，也许更甚。因此，不要责怪那些恰好与此有关的人，最好还是试图找出导致事故的系统特性，然后修改设计以消除相应危险，或者至少将它对未来事件的影响减至最小。一个主要步骤是将“人为错误”这个名词从我们的词汇表里去掉，重新评价是否应责怪具体人员。第二个主要步骤是制定设计指标，将人的作用考虑在内，并赋予它和系统其他部分相同的重视程度。

根据美国《科学》杂志关于苏联探测火星事件的报道，好像是控制人员的无能造成了事故。《科学》采访了苏联飞船制造厂经理罗尔德·克莱姆涅夫。这份杂志对这次采访的报道是这样的：“发生错误的控制人员受到了什么处分？克莱姆涅夫以阴沉的语气告诉《科学》杂志，他没有被送进监狱或发配西伯利亚。实际上正是他最终找到了程序中的错误。不过克莱姆涅夫说，这位控制人员未能再参加以后福波斯的工作。”采访者提出的问题和克莱姆涅夫的回答预先都已经有了责备的观念。尽管操作者查出了错误所在，他还是受到了惩罚（不过至少没有被流放）。可是编程语言的设计者和所用的软件或方法又怎样呢？没有提到。用这种态度进行处理所产生的问题是，它使我们不能从事故中学到什么，使错误潜伏的情况依旧。

由于“人为错误”而导致计算机系统失败的事件在每个行业都很容易找到，例如核电、航空、商务、股市，当然还有计算机工业本身。在Communications of the ACM（美国计算机协会通信）1989年8月出版的一期中，下列论述出现在新闻追踪栏目中：埃克森石油公司休斯顿总部一名计算机操作员被解雇，该操作员漫不经心地销毁了数以千计文件的电脑拷贝，这些文件中包含与阿拉斯加石油溢出有关的重要信息。然而这位前雇员说他只是替罪羊，在他删除的磁带中没有任何一盘标有“不得销毁”的文字。关于这一事故提供的信息太少，不能得出结论。但如果系统设计中将人的因素考虑了进去，那么磁带的保留就不会仅仅依赖于一条 “不得销毁”的（人为）标签了。这样就既不会发生事故，也不会提供貌似有理的借口了。也许现在是ACM在这一方面带头在计算机系统设计方面采取措施的时候了。ACM的成员中有足够的专长，这些成员包括计算机和公共政策委员会，以及一个专门关注相关问题的研究组：人机交互专门研究组（SIGCHI）。

还有一个方便的起点可以启动这方面的工作。在计算机网络上，Peter Neumann主持着一个很有意义的论坛，即关于计算机和相关系统中公众所面临风险的论坛，作为ACM计算机和公众政策委员会的一项活动。这一“风险”论坛收集、报告、评论各种包括人为错误和设计问题的事故，但这些对于该领域的专业性发展并不具备足够的准确性和权威性。信息来源通常是传媒的报告，而这些报告是不完整的，通常是在全部有关信息收集齐全之前写就的，并受到其他不准确的和有偏向的消息来源的影响。（以上本人引述的《科学》杂志和CACM新闻反映了所有这些不可靠的来源。）通过对设计失败的仔细分析可以得到许多潜在的好处，其他学科领域学会了通过仔细检讨和分析而受益。在回顾“风险”论坛中所讨论的案例中，为什么不将它们用作更好设计的指南呢？

其他行业中正在使用着的好几种系统可以提供一个范例。航空界一个有价值的主要咨询信息源是称为航空安全报告系统（ASRS）的事故汇集（信息库），这是由美国宇航局Ames研究中心（NASA-Ames）运作的，带有Battelle公司管理的计算机可读取的数据库。这里，见证或发生错误或其他有关问题的航空界人员将对事故的描述，以及他们对事故的解释写下来，寄给ASRS。ASRS的调查人员可以召回他们以核对材料的准确性或取得更多的信息。但是一旦信息被确认和澄清，表

格中包含提供信息人员身份的有关部分就被返回本人。ASRS还将可确认身份的信息删除，使得人们不可能确定谁是提供消息者和事故的有关人员。这种匿名制度是保证数据库准确性和完整性的关键。因为美国宇航局不具备统制权，而且有保护消息来源机密的良好记录，这一数据库得到了航空界的信任。现在人们如果相信他们的报告将有助于改进航空安全，就会愿意叙述他们自己的行为。驾驶员坐舱和飞机其它部分设计的许多改进都是经过设计者研究了数据库中能找到的错误情况后做出的。

ASRS系统的一个关键因素就是，其中的报告不能被信息提供者的上司看到。其他行业的类似尝试均告失败，因为他们的报告是通过一系列的权威机关提交的，其中包括有关人员的上司或工厂管理层，他们是有偏向的，或者对报告进行处理以减轻责任，或者做出对报告的否定判断。这样一来，关于核工业事故的报告系统对于实际的运作实践就不是一种无偏见的指南。连同确认和澄清体系一起，匿名制度和自我报告制度起到了它的作用，如美国宇航局的ASRS团队（主要由退休的航空专业人士组成）所做的那样。

类似地，美国国家交通安全局（NTSB）也对交通事故进行详细分析，包括航空、高速公路、海运、铁路、输油管。这些报告非常有价值，是相关行业提高安全性的重要因素。（根据法令，NTSB报告不得用于确定事故责任的司法程序。这种保护性措施在当前这种动不动就诉诸法律的社会中，对于调查能进行下去而不用担心其结果会被错误解释或滥用是具有关键作用的。）

ACM是否应当提出类似的动议呢？笔者不知道，因为这个问题和其它行业面临的问题有所不同。但笔者提请ACM对改进本专业的这一方面开展调查。ACM可以采取某种积极的，建设性的行动，提升计算机系统中对人的作用的重视，使之与硬件和软件所引起关注和重视具有等同的水平。

Unit20 Disability Leon78案例分析教学教案

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档