PTT推薦

Re: [閒聊] ECC記憶體究竟有多大用?NAS真的需要ECC

看板PC_Shopping標題Re: [閒聊] ECC記憶體究竟有多大用?NAS真的需要ECC作者
wahaha99
(此方不可長)
時間推噓24 推:32 噓:8 →:171

※ 引述《HamalAri (哈馬‧阿里)》之銘言:
: ecc 倒底有沒有用還真的很難說
:
: 最近出包老是同一地址,而且是 scrub 時抓到的
: 代表不是大量計算時發生,是閒閒沒事幹時抓到的
:
: 是這條有 defect 嗎? 還是我被駭了,有人在玩 rowhammer ?
: https://i.imgur.com/1KHKE6b.png

圖https://i.imgur.com/1KHKE6b.png?e=1667532960&s=TETMeCCaz9mbX2XxuACbEA, ECC記憶體究竟有多大用?NAS真的需要ECC

就單純壞cell

記憶體也是半導體元件
如果你的CPU、顯示卡、主機板都不會壞
那才有可能說記憶體也不會壞

很多關於ECC的說法是為了防止傳輸時有bit翻轉
老實說我是一頭霧水

如果傳輸到會發生bit翻轉
那eye pattern這關根本過不去
這主機板的RD要拖去斃了

: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.57.57 (臺灣)
: ※ 文章網址: https://www.ptt.cc/PC_Shopping/M.1655099070.A.183
: 推 wei115 : 不是說ecc無用 而是說ecc對於家用的 220.134.21.189 06/13 13:55: → wei115 : 影響被誇大了(在ecc價格虛高的情況 220.134.21.189 06/13 13:56

我覺得這是最糟糕的說法

什麼是"家用", 我家NAS不能放我那已過世的狗狗照片嗎,

應用從來不是分家用不家用,
而是分資料對你有多重要

: 推 wei115 : 況且各家nas廠,入門級別的機種, 42.76.32.34 06/13 14:28: → wei115 : 也都沒ecc 42.76.32.34 06/13 14:28
就錢而已啊

ECC是什麼成本,
RAM + 12.5%, MC早就內建, 以及約2%的效能

那是個事嗎, 不是
為什麼不做, 因為消費者不懂
懂的人是少數

學過檸檬車效應嗎?

"如果你分不出吃到嘴裡的是咖哩還是大便, 你永遠只會吃到大便"

那為什麼硬碟有人做RAID1,
那是因為很多消費者都嚐過硬碟故障的滋味了

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.226.169.102 (臺灣)
PTT 網址
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 14:56:54

xleacigma 06/13 15:02客戶要 所以我連上個廁所都要ECC

如果你控制各種括約肌的記憶放在RAM上的話

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:06:57

tn601374 06/13 15:10bit翻轉不是說宇宙射線引起的嗎?

宇宙射線引起的bit翻轉 一個address應該頂多遇過一次 cell 壞掉、或是address decoder壞掉 就是固定那邊會出錯 宇宙射線引起的我是沒看過 (也許是遇到也不知道) 但cell壞掉是常常遇到 我現在在用的這台5700G RAM就是新品故障 有Cell是壞的

ChungLi5566 06/13 15:16位元翻轉難的是苦無證據,但它真實存

ChungLi5566 06/13 15:16

wei115 06/13 15:17ecc、non ecc的價差一倍,同樣64g

wei115 06/13 15:17ram資料可以多一倍副本,以資料安

wei115 06/13 15:17全的視角後者是否更可靠?

就跟你說成本是+12.5% 貴一倍是商人看你沒辦法薛你的 聽不懂膩

wei115 06/13 15:19不是說ecc不重要,而是預算有限的

wei115 06/13 15:19情況下,投資ecc是否有效益

HamalAri 06/13 15:21沒 ecc 要怎麼知道哪份是對的? 單

HamalAri 06/13 15:21純有 raid1 沒 checksum 也沒辦法

HamalAri 06/13 15:21scrub. 而且記憶體要是有問題, 有

HamalAri 06/13 15:21raid 或有 checksum 也沒用, 除非

HamalAri 06/13 15:21你運氣好都是遇到久久發生一次的隨

HamalAri 06/13 15:21機 bit flip, 單純舊了過保了不穩

HamalAri 06/13 15:21了的記憶體沒 ecc 要等到當機才會

HamalAri 06/13 15:21發現

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:30:24

wei115 06/13 15:32阿幹,我買到就貴兩倍 要是一條ecc

wei115 06/13 15:33只貴12.5% 跟進插屁眼拉= =

所以啊 你在那邊附和ECC是貴的沒必要 就是上了這些奸商的當 然後因為上了奸商的當 所以ECC就會繼續貴 就繼續沒必要 搞清楚一下狀況啊

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:34:27

ericinttu 06/13 15:33 樓下來個白算盤開課八

wei115 06/13 15:34@HamalAri 你討論的風險當然存在 但

tn601374 06/13 15:35蝦皮dell那隻不貴啊

wei115 06/13 15:35更多風險的是什麼?是沒有良好備份

tn601374 06/13 15:352千多16g好像

wei115 06/13 15:36當手上絕大多數資料只有一份的情況

wei115 06/13 15:36下 比起投資ECC更重要的是投資備份

wei115 06/13 15:37不是這個洞不大 而是優先補更大的洞

TWN48 06/13 15:38https://youtu.be/AaZ_RSt0KP8

wei115 06/13 15:38奸商又不是我能控制的= =

那你就繼續助紂為虐吧 至於投資在什麼上重要不重要 確實 如果你錢只夠再買一顆硬碟 不夠多買ECC記憶體 那確實是該先買硬碟 但這也代表你的資料就只值這點錢而已

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:41:06

HamalAri 06/13 15:40有人大概以為 ram 出錯只會出錯在

HamalAri 06/13 15:40資料上, 要是今天這個 bit flip 發

HamalAri 06/13 15:40生在你的備份程式上呢?

wei115 06/13 15:40Linus也噴過阿 把一個基礎功能當高

wei115 06/13 15:41集功能加價賣

wei115 06/13 15:42板上一堆人用windows存自己的資料

GoGoJoe 06/13 15:42一堆亂比喻 排泄物又出來了

wei115 06/13 15:42資料消失是壞軌還是ram出錯更多?

GoGoJoe 06/13 15:42文字沒有好好寫 再專業也沒用

GoGoJoe 06/13 15:43難道你沒有做防彈車出去 你的命只值

GoGoJoe 06/13 15:43值這一點錢 資料重要性跟花多少錢保

GoGoJoe 06/13 15:43護是兩回事

是誰亂比喻 笑死 在台灣你聽過幾個人在路上被人開槍? 我自己的RAM倒是新品就故障 這機率是能比喔?

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:45:40

wei115 06/13 15:45更何況絕大多數人電腦存放的都是對

wei115 06/13 15:45一兩個bit翻轉不敏感的圖片、影片

如果他有用什麼zip、rar打包就知死了... 很多人壓縮不是為了省空間、而是為了包成一包好整理

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:47:20

wei115 06/13 15:47另外會分享這部影片 只是當初組電腦

wei115 06/13 15:48的時候被太多人強調ecc了 但實際上

arrenwu 06/13 15:49防彈車如果一個月月租300NTD 那是該

arrenwu 06/13 15:49坐防彈車

arrenwu 06/13 15:49然後一般人應該是不值得買防彈車沒

arrenwu 06/13 15:49

wei115 06/13 15:50我的需求 資料量只有3T 評估的時候e

wei115 06/13 15:50cc權重本就不高 然後窮

wei115 06/13 15:51ecc也不是100%保證 你不認為你壓縮

wei115 06/13 15:51是在增加風險嗎?難道你資料不重要

ECC是100%保證可以檢出錯誤 讓你有修正的機會 你要先去搞懂ECC跟RAID 1的意義 是完全不同的

GoGoJoe 06/13 15:52我是在學你 我也認為需要做防彈車

GoGoJoe 06/13 15:53但人命還是很重要 有人認為他不需要

GoGoJoe 06/13 15:53ECC 但他的資料還是很重要 一樣道理

GoGoJoe 06/13 15:54更正 我也認為"不:需要坐防彈車

我這輩子自用的PC 遇到有壞Cell 大概已經四、五條了 加上親友故障的 上幾十條都有了 不知道閣下住哪 開個車被開過四五次槍 嘖嘖

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:56:42

wei115 06/13 15:59你ECC要怎麼偵測3bit錯誤?

你說的是單列奇偶校驗 ECC是行列奇偶校驗 當然可以偵測

kpier2 06/13 15:59好可怕… 這串釣出一堆年度幹話金句

fankc 06/13 16:00請問PC記憶體無ECC,NAS記憶體有EC

fankc 06/13 16:00C的情況,PC傳資料到NAS,若PC記憶

fankc 06/13 16:00體有你說的問題,這樣NAS存的資料

fankc 06/13 16:00,還會是正確的嗎?

有可能是錯的 所以最好是全部的系統用ECC

wei115 06/13 16:01評估一項東西都是成本和風險的權衡

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 16:02:53

wei115 06/13 16:02無視成本或風險都沒有討論價值

wei115 06/13 16:02我的狀況就是沒有錢,那我自然選擇

wei115 06/13 16:03風險更高的方案 但同時盡量壓低風險

fonzae 06/13 16:06到底在講三小,沒錢所以選風險高

fonzae 06/13 16:06然後又要花錢壓低風險

在講三小喔, 就是在講不要在那鼓吹 "ECC沒用, 不值得你花兩倍的錢" , 而是應該轉向矛頭, 去批判奸商把ECC賣得這麼貴, 害我買完硬碟就沒錢了

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 16:07:56

wei115 06/13 16:07兩害相權取其輕

wei115 06/13 16:10然後ecc是1bit恢復 2bit糾錯

wei115 06/13 16:10錯誤率太高也無能為力

free112136 06/13 16:10我只知道奇同位跟偶同位啦

jiunmoon 06/13 16:12我住台中,真的遇到開7、8次槍

wei115 06/13 16:12最好是全部的系統用ECC 是這樣沒錯

wei115 06/13 16:13ECC是基礎功能不是高級功能 賣這麼

free112136 06/13 16:13不過每次家裡ram壞都是直接crash,

free112136 06/13 16:13開機不能,損失當下東西,影響不大

free112136 06/13 16:13,公司server一定都是ecc啦

wei115 06/13 16:14貴簡直莫名其妙 PC早就該全部換成ec

wei115 06/13 16:14c

fonzae 06/13 16:15誰說ECC沒用,機房建置哪一個不用?

fonzae 06/13 16:15重點在服務會不會因為記憶體而停擺

fonzae 06/13 16:16無法糾錯就是導致程式出錯或系統掛B

fonzae 06/13 16:16而且我明明是針對wei在回應

fonzae 06/13 16:17沒錢就是風險去賭設備上線容錯問題

free112136 06/13 16:17我是沒看過server能在用non ecc,也

free112136 06/13 16:17沒人有這樣的選擇

fonzae 06/13 16:17有需求當然會納入ECC是容錯一部分

fonzae 06/13 16:18家用或家用NAS少人用不是因為價錢

fonzae 06/13 16:18而是對大部分人來說是非必要

fonzae 06/13 16:19有必要自然就會找支援ecc的設備

wei115 06/13 16:23ecc少用就是因為 大多數人看到價錢

wei115 06/13 16:24就會認為自己非必要

arrenwu 06/13 16:28欸~ 其實也是因為一般人沒那麼容易

arrenwu 06/13 16:28遇到有差的時候XD

gameguy 06/13 16:30今天收到公司買的華云AS6602T,上面

gameguy 06/13 16:30用J4125,根本不支援ECC記憶體,GG

gameguy 06/13 16:30(這台另外加裝上8G DDR4也是無法開

gameguy 06/13 16:30機)

kaj1983 06/13 16:30還好我只有一隻過世的狗狗,照片都

kaj1983 06/13 16:31存好丟雲端丟信箱丟臉書和備份硬碟

kaj1983 06/13 16:31裡了,不怕檔案壞掉...XD

Ryu3y3s 06/13 16:32ECC沒辦法偵測所有錯誤 你剛好錯的b

Ryu3y3s 06/13 16:32it夠多剛好沒辦法偵測到的可能性還

Ryu3y3s 06/13 16:32是有的

abc0922001 06/13 16:34我真得很想用 intel + ECC

Ryu3y3s 06/13 16:38不是你自己講說可以100%檢查錯誤的

Ryu3y3s 06/13 16:38嗎 還是你的100%是四捨五入的?

Cubelia 06/13 16:39決鬥囉

Ryu3y3s 06/13 16:41檢查也檢查不出來啊 排列組合很難懂

Ryu3y3s 06/13 16:41

Ryu3y3s 06/13 16:43說明一下 宇宙射線莫名其妙把你的記

Ryu3y3s 06/13 16:43憶體打亂成一秒鐘前的狀態 你也檢查

Ryu3y3s 06/13 16:43不出來是有錯誤的 機率很小沒錯但是

Ryu3y3s 06/13 16:43不是0

不過我只說這麼一次

https://youtu.be/zzeuOecdgAI

去把ECC最基本的原理搞懂再出來說話 不要在這裡浪費別人時間

gameguy 06/13 16:44講這麼多,NAS只要用Intel 的celero

gameguy 06/13 16:44n Jxxxx,Nxxxx,哪台可以支援Ecc D

gameguy 06/13 16:44DR4記憶體?核心就不支援就是不支援

gameguy 06/13 16:45,呵

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 16:45:58

gameguy 06/13 16:47http://i.imgur.com/CADgx4x.jpg

圖https://i.imgur.com/CADgx4x.jpg?e=1667519987&s=6vOIXW_tb-ZZDcWxhgRmqw, ECC記憶體究竟有多大用?NAS真的需要ECC

Ryu3y3s 06/13 16:49世界上沒有完美的checksum 只你存在

Ryu3y3s 06/13 16:49複數合理狀態 你就存在有一種錯誤是

Ryu3y3s 06/13 16:49從一個合理狀態轉換到另外一個合理

Ryu3y3s 06/13 16:49狀態你是無法檢查的 我們工程所做的

Ryu3y3s 06/13 16:50事情就是用數學統計計算壞事發生的

Ryu3y3s 06/13 16:50機率 用合適的方式解決

對啦 你要講那種極端的例子、那種可能到人類文明滅亡那天 也不會發生一次的事情是沒錯啦 但絕對不是 "壞不夠多驗不出來"

wei115 06/13 16:50https://i.imgur.com/ZnJZ3v5.png

圖https://i.imgur.com/ZnJZ3v5.png?e=1667553112&s=toKXyCWeg0NoHqTu3BF0Mg, ECC記憶體究竟有多大用?NAS真的需要ECC

wei115 06/13 16:50不要自己給自己打臉好嗎= =

我記得以前學的是2bit以上都可以檢測 就算我記錯了 一個區域內要同時壞三個bit是真的很難 以現在ECC架構來說 每8byte應該就會有1byte保護 你在同一個8byte內剛好壞三個bit那是 天文數字分之一的事情

yeeouo 06/13 16:55請問要怎麼檢測記憶體有Cell是壞的

yeeouo 06/13 16:55是用什麼軟體嗎

Ryu3y3s 06/13 16:55memtest 之類的可以基本檢查

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 17:04:17

Ryu3y3s 06/13 17:06那你要承認一下你的錯了嗎 我是覺得

Ryu3y3s 06/13 17:06承認錯誤滿重要的啦 謙虛很重要

Ryu3y3s 06/13 17:10我沒有講錯不夠多偵測不出來啊? 1b

Ryu3y3s 06/13 17:10it是的確偵測的出來阿 可是你怎麼能

Ryu3y3s 06/13 17:10確定一個clock內只錯一個bit?

喔 那就真的是我看錯了 orz 對不起 我以為你說的是 "錯的不夠多偵測不出來" 這是真的看錯了 被那個wei115搞的很上火

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 17:14:15

Ryu3y3s 06/13 17:15我從頭到尾都只有反駁你ecc能100%檢

Ryu3y3s 06/13 17:15查錯誤的點 不知道你講的是什麼?

Ryu3y3s 06/13 17:16喔喔 是誤會那就好

Ryu3y3s 06/13 17:16待會補推

Ryu3y3s 06/13 17:20補推 當然還是私心希望 w大 修一下

Ryu3y3s 06/13 17:20前面的回文 至少我沒有亂講話QQ

好 已修掉

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 17:21:57

AmibaGelos 06/13 17:27為啥有人宣傳ecc無用論Orz 現代dra

AmibaGelos 06/13 17:27m都有incell ecc好ㄇ d5甚至expose

AmibaGelos 06/13 17:27能scrub惹 雖然不知有沒有實作的QQ

wei115 06/13 17:31你無視成本 一個勁的談風險 風險誰

wei115 06/13 17:31不知道? 但問題在於說發生的次數,

wei115 06/13 17:31是不是足以讓人承擔風險

wei115 06/13 17:32你後面說3bit發生是天文數字 不就

wei115 06/13 17:32代表你願意在天文數字的機率下承擔

wei115 06/13 17:32風險?

wei115 06/13 17:35我評估在家用場景下,ecc發生位元翻

wei115 06/13 17:38轉並損壞資料的機率 遠小於沒有備份

wei115 06/13 17:38造成資料損壞的機率 那裡性的選擇是

wei115 06/13 17:38投資備份設備而不是ecc

smallreader 06/13 17:43PC用了ECC,但顯卡驅動一樣愛崩潰QQ

wei115 06/13 17:44我原文提供這張表格 就是我當初在

wei115 06/13 17:45評估發生機率 是否讓我願意承擔風險

wei115 06/13 17:45很缺少的資料 所以才分享

wei115 06/13 17:45https://i.imgur.com/GEld46q.png

圖https://i.imgur.com/GEld46q.png?e=1667502169&s=cv2u6dPv2JBSKRNq1IYsyw, ECC記憶體究竟有多大用?NAS真的需要ECC

wei115 06/13 17:45當時只能上論壇看別人心得

wei115 06/13 17:46有人無法接受風險 有人看看覺得還好

wei115 06/13 17:47願意賭一把 我只是提供參考資料

重點自然還是風險大還是小的問題 你說他們搞了十幾台NAS都沒有出現過錯誤 但相反的我自己用過的PC就至少壞過三四條以上 當然 我運氣不錯 壞的當下可能就發現了 因為有引起當機 但相反的會不會有壞的沒發現的呢 RAM這種東西本來就不會說壞掉一定會引起當機 很可能要過很久之後才發現已經造成了資料毀損

Ryu3y3s 06/13 17:58其實廣義的講 ECC / filesystem 的

Ryu3y3s 06/13 17:58data checksum scrub 都是一種固定

Ryu3y3s 06/13 17:58時間內的自我檢查 以及 儲存冗餘的

Ryu3y3s 06/13 17:58除錯資料

Ryu3y3s 06/13 17:58ECC 的檢查頻率高 memory controlle

Ryu3y3s 06/13 17:58r 每次碰都檢查

Ryu3y3s 06/13 17:58scrub 就是可能定期掃

Ryu3y3s 06/13 17:58統計學上都可以處理掉一定程度的錯

Ryu3y3s 06/13 17:58誤 但是如果儲存方式沒有checksum的

Ryu3y3s 06/13 17:58話就真的要看人品了

電腦幾乎上所有的東西都有ECC 現在連L2快取都有ECC (L1有沒有就不知道) 甚至DDR5規範已經做出On-die ECC了 雖然我不知道是不是100%標配 但這說明的是其實廠商有意識到這是必要的趨勢

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 18:07:57

wei115 06/13 18:13我當初也有考慮ddr5,但看到資料說

wei115 06/13 18:13on-die是為了應付ddr5高頻的措施,

wei115 06/13 18:13和傳統ecc不能比,在沒有具體資料

wei115 06/13 18:13的情況下還是選擇更便宜的ddr4

on-die DDR5 最大的問題是能不能產生HEA, 因為比起Correct, 能夠產生警報讓我能去手動修正, 這更重要。尤其是2bit以上的錯誤。 我看了很多資料, 仍然沒法確定。 至於on-die ECC 能不能跟傳統ECC比, 一部份肯定是可以的, 好比某個bit死掉, 或是被某個天外射線給翻轉了一下。

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 18:21:20

zhtw 06/13 18:43所以要怎樣在不助紂為虐的情況下用

zhtw 06/13 18:43上ecc記憶體阿?

買小一點, 或真的買不起ECC, 那就買non-ECC, 但不要回過頭說 "ECC太貴、沒那麼重要" 就好-- 至少也該說 "這些天殺的廠商聯合壟斷市場, 害我們用不起ECC"

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 19:48:12

Ryu3y3s 06/13 19:49買便宜DDR5? ECC的消費級市場做大後

Ryu3y3s 06/13 19:49 就可以有更多廠商競爭 拉低價格

Ryu3y3s 06/13 19:49另外還需要引起更多消費者重視吧 EC

Ryu3y3s 06/13 19:49C 不只可以防宇宙射線 還可以稍微防

Ryu3y3s 06/13 19:49護一些 rowhammer attack

friedpig 06/13 21:25想多了 這東西就是機率太低才會變成

friedpig 06/13 21:25小眾市場 沒辦法普及 如果真的機率

friedpig 06/13 21:25太高變剛需自然會變標配 真以為市場

friedpig 06/13 21:25真的都是廠商主導想幹嘛就幹嘛 市

friedpig 06/13 21:25場最後變成這樣就是代表沒啥需求

friedpig 06/13 21:31RAM都敢玩終身保固了 就代表可靠度

friedpig 06/13 21:34根本沒那麼差

visa829 06/13 21:42我也覺得買不起就噴廠商就好,反而

visa829 06/13 21:43鼓吹ECC無用論是本末倒置

dustlike 06/14 00:36究竟是ECC無用還是2倍價格使ECC無用

dustlike 06/14 00:36這兩個真的要分開

mmonkeyboyy 06/14 00:41ECC 不會沒有用 如果你的東西一直

mmonkeyboyy 06/14 00:41讀寫 那自然很有效 & 對大量資料

mmonkeyboyy 06/14 00:42傳輸的正確性也會增加

mmonkeyboyy 06/14 00:42這是nas 假設資料很大要保存不為過

mmonkeyboyy 06/14 00:55這要看在那裡翻....很多東西都能翻

mmonkeyboyy 06/14 00:56的....尤其是是長時間傳檔 這超多

mmonkeyboyy 06/14 00:58情況能翻 有一些air-gap的手法

mmonkeyboyy 06/14 00:59我自己測過在某些特別環境下 翻的

mmonkeyboyy 06/14 00:59機率會增加數十倍到百倍

mmonkeyboyy 06/14 01:00這個情況跟有些人家裡電腦就是特別

mmonkeyboyy 06/14 01:00容易壞的道理有點類似

Windcws9Z 06/14 18:44不是ECC無用

Windcws9Z 06/14 18:44是市佔最大的Intel家用CPU根本

Windcws9Z 06/14 18:44就不支援ECC

Windcws9Z 06/14 18:45不要本末倒置

而且甚至不是不支援ECC 是支援ECC但故意不給你用 MC根本早就做好了

※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/15/2022 07:32:22