一道数学题,让芯片巨头亏了5亿美金

一道数学题,让芯片巨头亏了5亿美金

1993年,CPU 巨头Intel推出了Pentium处理器。

新的品牌顺利地摆脱了AMD等公司对286,386,486等数字系列的品牌“抄袭”,树立了全新的领先者的形象。

再加上90年代初斥巨资成功推进的Intel Inside计划, Intel 成功地从一家主要向电脑制造商供货的公司,转变成一家直接面向消费者的品牌。

不知道哪位天才把Pentium翻译成霸气的“奔腾”,真是惊艳全场的神来之笔。

新产品,新品牌,Intel 可谓意气风发,准备一统天下。

但谁也没想到的是,这个被寄予厚望的CPU内部居然隐藏着一个Bug!

1

Bug被发现的过程也颇为传奇,我们得从数学上的一个概念说起。

早在希腊时代,欧几里得就已经证明质数有无穷多个,并且数字越大,质数分布得越稀疏。

神奇的是,尽管分布得很稀疏,但只要出现一个质数,就可以在附近找到另外一个, 例如41 和 43、101 和 103、10007 和 10009,他们之间相差都是2。

数学家给这些相差为2的连续质数起了一个名称:孪生质数。

1919年,挪威数学家 Viggo Brun证明了一件有趣的事情,就算有无穷多的孪生质数,它们倒数的和会收敛于一个常数,这个常数被称为“布朗常数”。

但是让数学家头疼的是:他们不知道这个布朗常数是不是无理数。

随着计算机的出现,有些人就想到一个招数:用计算机强大的算力,暴力求解。

美国 Lynchburg College 的数学教授Thomas Nicely就是其中的一员,他的实验室恰巧装备了新的奔腾计算机。

严谨的Nicely为了防止算错,用了两种算法做双保险,如果答案不同,肯定是某个地方出了问题。

Nicely满怀希望地开始了计算,可是结果让他失望:两种算法的结果真的不一样!

深入研究以后,Nicely发现:824 633 702 441和824 633 702 443这两个孪生质数,它们的倒数的小数点后的第10位被算错了!

Nicely换了一台老旧的486电脑来计算,答案算对了。

他再用奔腾电脑来重新计算,错误重现。

到底是自己的程序写错了?还是电脑的问题?

Nicely开始做排除法,排除自己代码的错误,Borland编译器的错误,芯片组的错误,花了整整4个月的时间,终于找到了Bug的起源地:奔腾CPU。

2

1994年10月24号,Nicely打电话给Intel的技术支持部门,告知他们这个问题,Intel说几天内就会有回复,但是从此杳无音信。

原因很简单,Intel早在1994年6月就知道了这个问题:浮点除法运算(FDIV)出错。

奔腾CPU的FDIV引入了一种全新的、快速的实现方法,使用了一个2048项的硬件查找表,但是由于意外,有5个值没有被正确地设置,他们本应该是2,但是却设置成了0。

这个Bug只有在高精度计算的时候才会被触发,普通用户很难碰到,Byte杂志估计,出错的概率是90亿分之一。

既然影响不大,Intel的选择是:隐瞒,悄悄修复,不公布任何细节。

毕竟已经售出几百万片CPU了,大规模召回损失太大。

又不是不能用!

3

收不到回音的Nicely很不爽,10月30号,他开始给一些IT著名人士和杂志发邮件,包括Byte杂志,PC Week,InfoWorld,PC Magazine。

这件事情很快在网络上发酵,一大批牛人开始了问题定位的接力赛:

第一棒选手是上面提到的Nicely。

第二棒则是挪威的Terje Mathis,他很快确认了Nicely的问题,并且写了一个简单的汇编测试程序,发到了comp.sys.intel新闻组中(没错,那时候别说社交网络了,就连BBS还不流行)

第三棒是德国的Andreas Kaiser ,他找到了24个数字,它们的倒数在奔腾CPU只能得到单精度的结果。

第四棒是一位设计FPU(floating-point-unit)的专业人士,加州Vitesse半导体设计师Tim Coe。

他根据24个数字的线索,推测出奔腾CPU采用了基数为 4 的 SRT 算法,每个时钟周期可以生成两位的商,使得速度比原来快两倍。

事实也确实如此,内部专业人士的确厉害。

到了第五棒,一个超级大牛出现了,MATLAB之父:Cleve Moler

Moler总结了之前的数据,找到了Bug的规律。

可见犯了错误以后,想捂是捂不住的,你越想捂,这世界上越有人要把你扒个底朝天。

但是到目前为止,Intel奔腾这个硬件Bug还主要在科技圈中转悠,破圈还需要等待一个重要时刻。

4

1994年11月24号,JPL(喷气推进实验室,钱学森是重要创始人)有两名工程师得知了这个Bug,建议实验室停购奔腾电脑。

CNN的记者史蒂夫·杨听说了JPL的事情,嗅觉灵敏的他立刻联系Moler,进行采访,当天晚上JPL的新闻和Moler的采访就在电视台播放,纽约时报、波士顿环球报等大肆报道,文章铺天盖地而来。

奔腾CPU这个本来很难出现的Bug一下子成为街头巷尾的热议话题。

在媒体的重压之下,Intel终于承认了浮点计算的漏洞,但依然嘴硬,它声称并不严重,并且只给那些能证明自己受到影响的用户更换CPU。

这种想蒙混过关的处理态度引发众怒,动摇了消费者对Intel CPU的信心。

其他厂商也顺时而动,IBM暂停销售装有Intel CPU的个人电脑,导致Intel股票大幅下跌。

1994年12月,撑不住的Intel终于宣布:召回所有有缺陷的处理器。

这也是历史上第一次全面召回计算机芯片。

Intel为此付出的代价是:4.75亿美元,名誉的损失更是难以估量。

5

故事到此并没有结束。

照理说硬件出了问题,无法修改,只能替换。

但是不要忘了我们刚提到的那一群天才,MATLAB之父Cleve Moler ,Tim Coe,阿贡国家实验室的 Peter Tang 以及来英特尔的几位工程师,他们通力合作,在12月5号居然开发出了一个非常巧妙的软件修复办法。

细节这里就不赘述了,大概是:在特定情况下,将被除数和除数都乘以15/16,就可以进入安全状态。

这个修复办法被发到新闻组中,让所有人免费使用。

精明的Cleve Moler让公司发布了一个可以检测和纠正除法错误的MATLAB版本,并且立刻发了一个新闻稿《MathWorks修复了Intel奔腾浮点数Bug》。

就在奔腾的Bug闹得沸沸扬扬,全国知的时候,新闻稿出现在了美国各大媒体的传真机上。

Cleve Moler成功地实施了一次完美营销,这一年,他的公司MathWorks只是一家不到250人的小公司,随后便走上了快车道,成为这一领域的巨头。

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
上一篇 2022年7月26日 13:58
下一篇 2022年7月26日 13:59

相关推荐

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息