质量失守#
“质量不是一种行为,而是一种习惯。” ——亚里士多德
一颗松动的螺栓是维护问题。一百颗松动的螺栓是结构性事故。两者之间的差别不在于复杂性,而在于一致性——或者说,一致性的缺失。
质量体系存在的理由只有一个:确保正确的事情每次都会发生。不是只在有人盯着的时候,不是只在条件完美的时候,而是每一次。当这些体系开始松动——当例外变成常态,捷径变成标准操作,“差不多就行"取代了"必须正确”——组织不会立刻察觉。质量侵蚀是无声的。它在流程文件上写的和人们实际做的之间的缝隙里悄悄积累。
这一章讲的是三家死于质量失守的公司。没有一家是因为某个单一的灾难性缺陷倒下的。它们都是被一千个小缺陷拖垮的。
案例一:Meridian Foods——变成标准操作的捷径#
崛起#
Janet Rawlings 2006 年在田纳西州纳什维尔创立了 Meridian Foods,生产面向高端超市的手工酱料、腌料和调味汁。Rawlings 是厨师出身,拥有食品科学学位,对原料品质和生产标准近乎偏执。她的产品拿了多个行业奖项,进入了东南部多家高端连锁超市的货架。
到 2013 年,Meridian 做到了 1600 万美元的营收,员工 85 人。工厂是 Rawlings 自己设计的,标准高于 FDA 要求。每一批次都经过检测。每一种原料都能追溯到源头。在 Meridian,质量不是一个部门——它是公司的身份。
衰落#
增长带来了压力。2014 年,Meridian 拿下了一家全国性有机超市连锁的合同,产量要翻一倍。Rawlings 扩建了生产线,三个月内招了四十个新员工。
招得太快了。过去的培训是两周时间、由老员工手把手带,现在被压缩成了三天的课堂教学。新员工学会了步骤,但不理解背后的道理。他们知道该怎么做,但不知道为什么要这么做。
捷径在几个月内就出现了。温度记录不再每个检查点实时填写,而是在班次结束时补填。电子秤被另一条线占用时,配料计量就靠目测。加班时段的清洁流程被简化。每一个偏差都很小。每一个偏差对一个忙着完成产量指标的工人来说都合情合理。
Rawlings 被业务扩张牵扯了精力,不再每天出现在生产车间。她的质量经理写了一份备忘录,提出了培训缺口的问题。Rawlings 看了,搁在了一边。“等我们度过这个增长阶段再收紧,“她说。
2016 年,Meridian 的招牌烟熏辣椒酱在一次常规零售抽检中被检出李斯特菌。调查追溯到一个清洁流程的失误——这个失误断断续续已经发生了好几个月。召回涉及七个州、四万件产品。
超市连锁终止了合同。另外三家零售商出于谨慎下架了 Meridian 的产品。召回成本 280 万美元——超过了公司一整年的利润。Rawlings 试图重建,但在高端食品领域,信任就是产品本身。信任没了,生意也没了。Meridian 2017 年关门。
教训#
质量体系不会自动运行。它需要经过培训的人——不仅懂步骤,还懂每个步骤的目的。当增长速度超过培训速度,流程留在了纸上,而实际操作开始漂移。Rawlings 建了优秀的体系,然后让一群不理解体系存在意义的人去执行它。那次污染不是意外事故,也不是某个人的故意行为。它是设计中的体系和执行中的体系之间的裂缝——一道 Rawlings 因为忙于增长而任其扩大的裂缝。
案例二:Apex Fabrication——悄悄放宽的公差#
崛起#
Paul Drummond 2001 年在堪萨斯州威奇托创立了 Apex Fabrication,生产航空航天和国防供应链所需的精密金属零部件。2005 年通过了 AS9100 认证——航空航天质量标准——并逐步建立起以二级和三级航空供应商为主的客户群。到 2012 年,营收达到 2800 万美元,利润率 18%。
Drummond 的车间靠精度吃饭。公差以千分之一英寸计量。每一个零件都要检测。废品率每天追踪。Apex 的质量记录就是它最好的销售工具——在航空航天领域,一个有缺陷的零部件就能让飞机停飞,采购方选择供应商的依据是你有没有持续交付零缺陷产品的实绩。
衰落#
侵蚀从 2013 年开始,起因是一个看似合理的决定。一家大客户施压要求缩短交期,Drummond 批准了在部分非关键部件上从 100% 全检改为统计抽检。抽检方案在技术上符合质量标准的要求,纸面上站得住脚。
但它从根本上改变了文化中的某种东西。
在全检制度下,每个机械师都知道自己做的每一个零件都会被检查。检测不仅是质量关卡——它是一种信号。它传达的信息是:每一个零件都重要。统计抽检传达的信息不同:大多数零件重要,但不是每一个。
行为的转变是渐进的。以前在送检之前会自己复查一遍的机械师变得不那么仔细了。机器调校验证——在跑整批之前确认机器生产的零件在公差范围内——有时被草草了事。“反正是抽检"成了不言自明的借口。
Drummond 没有发现这种转变,因为他的指标看起来没问题。抽检方案从设计上就只能捕捉到一定比例的缺陷。废品率看起来稳定。但实际缺陷率——在全检制度下本来可以看到的那个——在攀升。
2015 年,Apex 生产的一批液压阀壳体被安装到一套飞机系统中,系统在测试时出了故障。调查追溯到这批四十个壳体中有三个孔径超出公差。按照抽检方案,这三个零件恰好没被检查。
客户要求 Apex 恢复全检——费用由 Apex 承担。另外两家客户得知此事后自行审计,发现自己的订单也存在类似的公差漂移。六个月内,Apex 丢掉了占总收入 40% 的合同。恢复全检的成本加上收入损失,让业务无法维持。2016 年,Apex 按设备残值卖给了一家竞争对手。
教训#
质量标准不只是技术规格。它们是行为架构。当 Apex 从全检转向抽检时,它改变的不仅是一个流程——它改变了组织向员工传递的关于精度有多重要的信号。公差漂移不是发生在机器上,而是发生在文化里。而一旦精密文化松弛了,恢复它需要的不只是恢复旧流程,还需要重建让那个流程有效运转的信念体系。
案例三:Clearview Software——没人跑的测试套件#
崛起#
Nina Park 和 James Alcott 是两位前企业软件开发者,2008 年在得克萨斯州奥斯汀创立了 Clearview Software,为中型批发商开发库存管理系统。产品不花哨——稳定、文档齐全、说到做到。在一个到处是过度承诺的行业里,这就是真正的竞争优势。
到 2014 年,Clearview 拥有 340 个客户、1200 万美元的年经常性收入和 22 人的工程团队。代码库干净整洁。自动化测试套件——一套在每次代码变更后验证软件功能的全面检查——每晚运行,在缺陷到达客户之前就把它们拦截了。来自客户的 bug 报告平均每月不到五个。
衰落#
Park 2015 年离开去做别的项目,Alcott 独自掌舵。他是一个有才华的开发者,但也是一个急性子的管理者。他的优先级是功能交付速度——快速推出新功能来跟上那些资金更雄厚的竞争对手。
测试套件变成了瓶颈。它跑一遍要四个小时。当它报出失败时,开发者必须调查那到底是真的 bug 还是测试本身需要更新。这很费时间。Alcott 开始告诉团队,在部署前"自行判断"该跑哪些测试,不用每次都跑全套。
一年之内,全套测试从每晚运行变成了每周运行。两年之内变成了每月——而且失败得太频繁以至于大家基本上都忽略了。“已知问题,“团队这么叫它们。曾经是公司质量脊梁的测试套件,变成了背景噪音。
后果慢慢浮现。软件更新开始引入细微的 bug——库存计算中的四舍五入错误、时区处理的小毛病。每一个单独看都不大。客服团队打补丁解决。但补丁频率从每月五个涨到十五个,再到三十个。而每个补丁本身也没有经过全套测试验证,存在引发连锁问题的风险。
2018 年,一次常规软件更新同时损坏了二十三个客户的库存数据库。这个 bug 是一个竞态条件——恰恰是测试套件被设计来捕捉的那类缺陷。如果全套测试一直在跑,它会在部署前就标记出这个问题。
数据损坏花了几周才修复。十一个客户以业务中断为由提起诉讼。法律费用和和解金总计 420 万美元。更致命的是声誉崩塌。Clearview 的整个卖点就是可靠性,而一次大规模数据损坏事件一夜之间把这个定位炸得粉碎。客户流失率加速到年 30%。2019 年,Clearview 被一家竞争对手收购,价格只是其巅峰估值的零头。
教训#
质量基础设施——测试套件、检测流程、审计机制——不是开销。它是让"我们以为正在发生什么"和"实际正在发生什么"之间的差距保持在可控范围内的机制。当 Clearview 停止运行测试时,它并没有立刻产出更差的软件。它产出了自己无法再验证的软件。质量可能还行,问题是没人知道了——等到质量真出了问题,发现的人是客户,不是自己。
诊断模式#
质量失守遵循一条一致的弧线:
阶段一:流程完整。 质量体系按设计运行。人们遵守流程,因为流程被执行、被理解、被文化所重视。缺陷在早期就被发现。组织清楚地知道自己打算生产什么和实际生产了什么之间的差距。
阶段二:压力介入。 增长、成本压力或竞争紧迫感在质量流程和速度之间制造了张力。组织面临选择:投资让质量体系随业务同步扩展,还是放松体系来适应压力。
阶段三:选择性放松。 组织在合理理由下削减了特定的质量管控——检测频率、测试严格度、培训深度。每一次放松单独看都站得住脚。合在一起,它们拉大了纸面体系和实际体系之间的差距。
阶段四:漂移正常化。 放松后的标准变成了新的基准线。人们忘了原来的标准是什么。指标被重新校准到新现实后显示"可接受”。组织相信自己的质量没问题,因为它已经悄悄把"没问题"的定义降低了。
阶段五:故障浮现。 一次质量故障到达了客户——或者监管机构,或者公众。组织发现自己的实际质量水平远低于它所以为的,而差距大到无法快速弥合。财务、法律和声誉上的损害超出了组织的承受能力。
一以贯之的教训:质量不是一种状态,而是一种纪律。它只在维护、执行和珍视它的体系持续运转时才存在。当一个组织开始把质量基础设施当作可选项——当作可以推迟、简化或选择性执行的东西——倒计时就已经开始了。唯一的变量是引信有多长。