[閒聊]幹古:Intel Pentium FDIV Bug
上次Microcode那篇簡單的跟大家回顧了FDIV Bug的問題
今天看到Intel受訪的文章,有種熟悉的既視感,來跟大家幹個古
Intel出包是不太意外,現在電路、晶片設計的規模比以前大很多了
很多細節「人」沒注意到很正常,講這些不是要護航我個人也是受災戶,超頻用平台加上主力工作站,我手上13~14th gen平台有很多組
講這個是因為Intel技術出包我能諒解,但在當年事件後公關處理居然還能那麼糟糕
目前Intel出過最大包的位置應該要讓給目前的事件了,規模看起來是這樣,實際商譽損失和財務損失就不得而知了。
1. Bug的發現與背景
FDIV Bug是由University of Lynchburg(以前叫Lynchburg College)的數學系教授
Thomas Nicely在1994年進行prime(質數)相關研究時發現的,教授寫了一系列包含了 twin primes、prime triplet、prime quadruplet的程式碼,其中有計算Brun's
constant的程式(所有twin primes的倒數和會趨近一個constant),教授在計算Brun's constant的時候發現不管怎麼算都結果都是錯誤的,研究是在6月進行的,一直到10月 底左右教授才排除其他bug發現是CPU的問題。
教授用的CPU是Pentium(P5),是當年世界上最先進的處理器之一,教授發現在計算
824,633,702,441和824,633,702,443
這兩個數字的倒數時,小數後10位會計算錯誤,為了確定是軟體還是硬體錯誤,他還使 用了前一代CPU i486進行計算,最後才確認是Pentium CPU的問題,並向Intel回報該 Bug
2. FDIV Bug的技術細節
Intel當年為了加速floating point除法的速度,使用了SRT algorithm取代了先前在 486上使用的shift-and-subtract algorithm,SRT在一個Clock cycle可以算出2 bits 的結果,後者只能算出一個,改用SRT algorithm也並不是錯誤的決定。
錯誤在哪裡呢? SRT algorithm使用了2048 cells的PLA(programmable logic array)來 implement,SRT的計算仰賴一張lookup table,這張lookup table要被填入PLA裡,其 中1066個cells應該填入-2、-1、0、+1、+2,原始的array在compile的時候出錯了5個 值應該要是+2但是變成了0,這個錯誤一路傳到到了蝕刻PLA進入chip的設備裡。
SRT的特性之一是recursive(遞迴),所以誤差會不斷累積,最糟的狀況會到第四有效位 數,大部分的錯誤只到第9、10有效位數而已。這邊給大家一個實例4,195,835除以3,14 5,727,正確答案是1.333820449136241002。
這兩個數字在運算的時候要轉換成hexadecimal(16進制),前者是0x4005FB,後者是
0x2FFFFF,0x4005FB的5會需要access前面提到錯誤的array cells,這導致結果是
1.333"739068902037589"
3. Intel的回應與處理
其實這個Bug在一般使用的情況下不太會遇到,統計是90億個長除法才會遇到一個錯誤 ,而且也並不是所有的除法運算都會遇到這個bug,因此Intel在最初的回應中是「這 是個微不足道的錯誤,並不影響大多數的使用者,Intel願意向那些提出證據受到影響 的用戶更換CPU。」
10/24 教授向Intel報告
10/30 教授向學術界的其他人發了有關FDIV bug的報告,這個消息很快就透過網路傳開 了
11/7 該Bug首次出現在媒體上,發表在EE times上的一篇文章
11/22 被CNN報導,同時也被New York Times和the Boston Globe報導
12/20 Intel正式宣布召回所有有Bug的Pentium CPU
1995/1/17 Intel的年度報告中指出處理FDIV bug的成本是4.75億美元(應該相當於現在 的8.多億美元)
這件事件的影響很大,半導體業界使用formal verification的數量明顯增加
1996有一種針對SRT的技術問世,叫做"word-level model checking",Intel在開發
Pentium 4的時候用了STE等方式也發現了很多錯誤,這些沒被發現很可能是規模更大的 召回。但一直到2008年Intel才有架構使用了formal verification作為主要驗證方式 (Nehalem)。
這整件事件除了財務上的損失,公關處理得更是糟糕,Intel是禁止OEM和經銷商進行召 回的,理由是應該由end user決定該bug是否影響他們的使用。
John Romero(雷神之槌 Quake的開發者)曾經在一次的演講說他們當年也因為這個Bug花 費了許多時間在追蹤問題。
商業的部分IBM甚至宣布停賣Intel CPU的產品,當然IBM這個決策是有點爭議的(因為當 時IBM有PowerPC)。
回到一般消費者上,Intel一開始怎麼說呢? 「這件事情影響不大日常不可能受到影響 ,除非你能證明你有被影響,才會更換你的CPU」,Intel的回應引起了不少業界人士的 反彈,到後來媒體和輿論開始發酵後,甚至平常用電腦都不會進行計算的人這類族群也 想採取行動,Intel才終於發現事情不對勁宣布全面召回,消費者對於Intel的信心明顯 是被動搖的。忘了寫補充一下,後續報導證明Intel在1994年6月就發現了問題,但選擇 不披露細節也不召回秘密修補,但最後還是被發現了。
相信看完的你也能明白為甚麼我會想起FDIV的事件,也回應我開頭所講,我很難相信Intel這種公司在經歷過這種事件後還會犯一樣的公關錯誤。
--
※ 編輯: benmei99 (36.227.165.47 臺灣), 07/28/2024 01:49:55
當年8億鎂(相對今日)解決
現在如果全面召回 要不要花到80億...
這次錯 坦白說intel現在的狀態 扛不起..
筆電似乎沒這個問題!?
查了一下 當年賠掉的是intel年淨利1/10?
現在這賠下去不知道要多少錢 如果要賠掉
1/3年淨利 那就非常痛了
算錯 不到1/10...
現在還查的到當年的annual report,有興趣可以去查看看
看來這間公司的本質就是傲慢
悲劇的是即使用了形式化驗證還是做出有問題
的東西
AMD過去比較大包的應該就只有Phenom TLB bug
推幹古,原po文章寫得挺不錯的
感謝
補充:後來Windows有提供偵測CPU型號
並可以選擇是否關閉FPU的功能
沒被回收的CPU反而成為收藏家的逸品
感謝補充,是的,當年有一系列的software patches,甚至連IEEE上都有一篇論文給出了 一種避免發生錯誤的algorithm
※ 編輯: benmei99 (36.227.165.47 臺灣), 07/28/2024 02:43:05
可是20年前的主管早退休了
是沒錯,1994的CEO是Andrew Grove;但G叔當年也還在Intel,2001年就當上CTO了
※ 編輯: benmei99 (36.227.165.47 臺灣), 07/28/2024 02:55:40※ 編輯: benmei99 (36.227.165.47 臺灣), 07/28/2024 03:10:27
尼用當年角度看這就很微妙惹
當年幾乎只有一種產品
pc也好server也好都同一顆
速度也沒有動態調節
現在問題可以確定pc diy直接影響最大
而這市場很小 最重要在筆電
除非高階低功耗到商用全面大爆炸
不然論危機還太早
確實寫文時忽略了當年的市場背景,規模最大這點我言之過早,但公關處理還是一樣糟糕就 是了...
※ 編輯: benmei99 (36.227.165.47 臺灣), 07/28/2024 03:29:28
有Quake有推
文組理工史
拿這件事情來對比也沒錯啊,當初FVI
B是在各種媒體推波助瀾下讓這種少見
用戶錯誤放大到大家都要抵制
現在這問題連幾家公司都跳出來投訴
用intel的機櫃都有常報修的問題,再
加上有名硬體媒體也出來講近期不推
薦intel,那也很難保不會重演FVIB事
件
當年的媒體曝光很重要,加上又是發生在學術界與論壓力也是不小
製造問題margin的 統計資料又不在end user
除了問題比例偏高,沒人leak一般人連細節大
都不會知道吧.要leak就是不吞的意思吧XD
推好文, 原PO的文章我個人都看得蠻開
心的, 希望之後還有續篇
推,原po 文筆真的很好,寫得深入淺出
感謝二位鼓勵
這種製程問題我很難相信只有DIY被影響
連公司Server級都跳出來質疑的話,
那公司高層就不得不重視了
推考古
推
這家真的爛
今年這次更嚴重
不然你要用AMD...當年沒AMD嗎?
當年Pentium的對手是AMD K5,但一直到了1996年3月才上市,而且效能也不如預期,AMD當 年野心勃勃的想挑戰Pentium Pro,這點可以從K5架構跟採用的solution看出來;K5沒有早 期Am486和後來的K6那麼成功
當年有AMD,跟Pentium對壘的是AMD K
5
所以現在13/14代用戶不鬧大就等著吃鱉阿
推個
長知識推
當年一堆CPU好選 不買AMD也能買cryix貨win
Cryix跟Intel的訴訟加上種種原因開始虧損,後來就跟National Semiconductor合併了
現在很難鬧大,大家用手機平板筆電,桌機
用戶根本稀有
chip
不會吃鱉啦,不然那些印粉要含淚買
AMD嗎
做成鑰匙圈那次嗎
推
哇 很棒的分享,謝謝說明典故
這次認也沒用,沒有正常的可以換。
且不是用軟體檢測的出來,是看運作環境
決定壽命。
推
就冷處理賭事情不會發酵,每件事都要積
極處理反而更糟吧
反正出事獻祭幾個人頭就好了
有處理啊,Fab 的 OOO 都換人了
DIY市場問題不大,品牌機處理問題的成本
才大。量大通路多替換成本高。更況沒正
常的可換。死路一條。
登,登 登 登,登個幾年看能不能像k8
那時挺過去
看server線,I社目前的命脈
推
當年的 k5 k6 是浮點運算被 Intel屌打
想問個跟文章主旨無關的問題,IBM停賣In
tel 產品會產生什麼爭議?跟powerPC的關
聯是什麼?
爭議主要是來自業內的質疑聲,當初PowerPC CPU是Apple-IBM-Motorola alliance合作開發 的,很明顯要是Intel名譽受損IBM可以從中獲利,所以停賣Intel產品當初是有被一些業內 人士質疑動機的
資料中心也被A大舉攻佔,因為空間/電力
就是成本。多核製程是競爭力。
當初是PC開始入侵原本IBM獨佔的市場
唯有系統不爭氣,不穩定。
所以PC server後面好幾年才進入。IBM這
幾年也開始把PowerPC給EOS,EOL了,改採x
86架構
拼了老本買下伺服器系統龍頭Redhat
上面系統少了字,作業系統
IBM這幾年賣掉一大堆部門,剩自己的CPU
因一些原因不能賣沒人買不能停(政府/國
防)
已經開始針對專屬架構的電腦客戶發出EOL
,EOS通知,要轉x86架構。
x86 server算是後來居上,早年都是Sun、
AIX、sparc、MIP等等的天下
^s
AMD也有zen的segfault問題啦
當年雷鳥裝個散熱都能崩角了,好在自己
沒遇崩到不能用的情況,但看到散熱沒裝
好燒掉要玩家自負的態度,基本上就不會
相信這家會好到哪去了,就兩家比下限而
已
在商言商,這些商業巨頭說穿了都一個樣(ry
這個以前讀書有看到過XD
唸CE或CS應該都會有印象,這件事是教科書級的災難
※ 編輯: benmei99 (27.51.128.156 臺灣), 07/28/2024 14:48:25
只能說Pat Gelsinger脫離工程太遠了
當初這問題爆發的時候他還在INTEL當
工程師
鬧得這麼大,結果現在整個裝死混過去XD
裝死也不能說不是好決策XD
正是G叔還在才讓人匪夷所思,商業角度或許裝死真的是最好的決策
是阿,有段時期PC Server跟封閉架構互競
這次的影響範圍更大欸 intel感覺會倒
除非下一代能超越
感謝介紹..長知識
Xeon出事才會倒
說倒 我覺得不至於 不過就是元氣大傷
變成小咖廠商 比VIA還小 並且晶圓廠被割
出去 之如此類
就好像大隻刃下心一戰之後縮水變成
或是像IBM一樣變昨日黃花吧
小時候看到同學PS/55電腦一開機的IBM字樣
純血的PC,不是廉價相容機。真的羨慕
這次就損商譽而已 Xeon筆電都沒事
手握x86跟先進製程不可能倒
DIY仔就去死吧 何況很多不會發現CPU壞
了 以為是自己問題或其他零件
當初Intel號稱有外星人 技術大幅領先 毛
利又高 召回沒啥差 但最近每季Intel都虧
損十幾億甚至幾十億鎂 24 Q1稍有收斂還是
虧4億鎂喔 他們現在是真的沒有那個能力召
回了 這弄下去直接多幾十億鎂的虧損欸
所以外星人去哪裡了
回家去了 XD
被dell收購了
外星人去了dell那裡了啊 XDD
dell有啥東西發功嗎?小弟沒關注不知道
就是玩梗沒有發功,Dell 2006年收購了一家叫Alienware的公司
※ 編輯: benmei99 (106.64.136.54 臺灣), 07/28/2024 19:16:53
Dell 的電競電腦系列Alienware 綽號外星人
當年賺爛了 現在賠錢不說 還賠信譽
Pat信誓旦旦要把恢復intel往日榮光,看來
可能只是南柯一夢.
推
推好文
推 錯誤難免 重要的是解決問題的態
度與方法 這才是決定I家未來的關鍵
那為什麼compile會出錯
這個問題我也不知道,你要去問當年參與P5設計的工程師
※ 編輯: benmei99 (36.227.165.47 臺灣), 07/28/2024 23:05:49
推 就是因為這個 才引入形式化驗證 但之
後還是出現幽靈 熔斷這類分支預測的bug
pro 推
pentium iii 7mhz我的第一顆買的
#70mhz
700nhz
推講古
推講古好文
推一個。對比下來搞不好這一次也是早知道
形式化驗證本來就沒那麼神
有驗的東西是可以保證沒錯,但沒驗的還是
不知道有沒有問題
推
拿當年來比很正常吧 Intel的嘴臉始終如一
當年訊息流通沒有現在發達都能全面炎上
現在一堆自媒體都虎視眈眈要打Intel臉
爆
[心得] GN 13、14代問題影片重點整理在此之前Intel 13、14代CPU問題總結: -Raptor Lake家族CPU故障災情目前持續傳出,時間至少從 六個月前開始,最早在2023年3月就出現可能屬於此問題的 案例83
[情報] Intel十代10C核心最大功耗比2080還高Pentium 4 噴火龍傳奇重現有望,傳 Intel 10 代 10 核心處理器功耗比 RTX 2080 高 先前的傳聞指出,受到許多因素影響, Intel 將原定的第十代 Core 桌上型平台的發表時間持續延後, 其中除了武漢肺炎,也聽聞與 Intel 仍在設法降低 TDP 有關, 但從最新的情況顯示 Intel 可能已經不打算解決功耗問題50
[心得] 調查技嘉於 INTEL BASELINE 設定之 PL2全文標題:跟進調查技嘉於 INTEL BASELINE 設定之 PL2 188W 與 AC_LL 1.7 的來由~ 技嘉沒有錯! 原文轉自 UNIKO's Hardware 網頁好讀版:44
[閒聊] Intel隱瞞了AVX漏洞五年 近期才出修正billions-of-cpus-knowing-of-downfall-vulnerability 事情的發生是2018年 當時 Intel 為了 Spectre/Meltdown 焦頭爛額 有其他人也發現 AVX 指令集有漏洞 但當時並沒有對外公布 (當然也沒修)29
[閒聊] 多核CPU有可能故障一核還不自知嗎?大家好, 前兩天趁海鮮商城87折券, 下單R5 5600X,等出貨中, 這兩天爬文3600首發後的災情文,發現有一篇 #1VPledIj (PC_Shopping)24
Re: [情報] 不僅效能 IBM說出蘋果拋棄Intel處理器真IBM喔?當時PowerPC G5(970)系列就跟P4的噴火龍一樣啊,PowerMac G5要用上LCS套件。 然後筆電又端不出來能用的PowerPC G5(散熱就是一個很大的問題)。所以到後面只有 PowerMac和iMac有使用到G5 時間再拉回到2005年的WWDC看當時賈伯斯是怎麼樣講PPC的(講簡單點就是TDP高就算了效 能又好不到哪去。然後IBM當時承諾PPC G5會拉到3.0Ghz結果最後還是沒生出來)2X
[情報] intel十代全線投降:放棄TSX指令集上面是10900K的規格表 可以看到Intel® TSX-NI 不支援 9900K是支援的~~ 這個指令集一般用在模擬器和data io8
Re: [閒聊] 為何品牌套裝電腦很少AMD版本?記得那時候做HP NB的產品,每台筆電都是會有30%~40%退傭, 幫補充,這不是每台有30%~40%,這樣講讓人誤會很大 XD 基本上INTEL的行銷補助 最高就是每個案子的廣告行銷成本,一人出一半 在PTT會逛電蝦的諸君嚴格上來說都是高涉入族群7
[心得] 13900K問題+原廠保固流程我是13900K上市即購入 其實從去年下半年開始就有遇到偶發的情況 當時剛好買了Cyberpunk2077的DLC《自由幻局》來玩 玩了好一陣子 快通DLC時不時發生遊戲崩潰的情況 不過當時不以為意,還以為是遊戲Bug,畢竟Cyberpunk2077沒Bug才不正常2
Re: [問卦] 現在組電腦CPU首選還是INTEL嗎?如題我包恩 ※ 引述《rexlin (Some like it hot!!)》之銘言: : 4這樣的~ : 最近本宅看到電蝦版菜單發現CPU都是INTEL居多 : 想問大家INTEL484重返榮耀惹?
69
[閒聊] 欣亞跟原價屋的服務態度會差很多嗎?28
Re: [情報] AMD下代APU 8060S內顯已經看到4060Ti尾燈8
[測試] 美光T500延伸測試:新韌體! 3DMark跑分!5
[請益] 迷你電腦請益5
[菜單] 60K~70K 美編工作主機請益4
[菜單] 60k 不含卡的深度學習機4
[請益] 外接顯卡問題6
[閒聊] 美光DDR4記憶體RMA心得2
[菜單] 40k 中重度遊戲機2
[菜單] 45-55K遊戲機請教