PTT推薦

Re: [閒聊] ECC記憶體究竟有多大用?NAS真的需要ECC

看板PC_Shopping標題Re: [閒聊] ECC記憶體究竟有多大用?NAS真的需要ECC作者
HamalAri
(哈馬‧阿里)
時間推噓14 推:14 噓:0 →:37

ecc 倒底有沒有用還真的很難說

最近出包老是同一地址,而且是 scrub 時抓到的
代表不是大量計算時發生,是閒閒沒事幹時抓到的

是這條有 defect 嗎? 還是我被駭了,有人在玩 rowhammer ?
https://i.imgur.com/1KHKE6b.png

圖https://i.imgur.com/1KHKE6b.png?e=1667532960&s=TETMeCCaz9mbX2XxuACbEA, ECC記憶體究竟有多大用?NAS真的需要ECC

這台是 Zen3 出來時組的,第一年也都好好的,完全沒 ecc error

從看到 error 到現在也還沒動力去原屋買新的
畢竟不確定有沒有壞、懶得換、沒錢
所以可能沒有比 non ecc 好太多
因為弱點是 user 沒有錢好好維護

: 一方面是non ecc的情況下ZFS不會比其他檔案系統更不可靠
: 加上我有備份+資料重要程度不高

補充:

如果 ZFS 抓到 checksum 有問題的時候,是一點辦法也沒有的
和組 raid1,結果 raid1 兩顆硬碟中因為有 bitrot 導致資料不一致一樣
兩者都無法自我修複,同時有 checksum + 備份才可以修複
(要有 raid 或 replica 才行)

換句話說,單純使用 ZFS 和單純使用 raid1 是一樣的,都無法解決 bitrot 的問題
請確定你的 ZFS 的設定有符合你的期待

而所有有 checksum + (parity / replica / raid) 的方案都不會比 ZFS 差

: 我覺得non ecc在家用場景下對資料安全性的風險有點被誇大了
: 當預算有限的情況下,投資備援or備份設備 可能會是CP值更大的選擇

如果 ecc 是都市傳說,那 bitrot 可能更是都市傳說

並不是說 ZFS 沒用,而是 ZFS 抓到資料有問題的時候幾乎都不是 bitrot
而是硬碟有壞軌了,或硬碟怎樣了,基本上都嚴重到 smart 會有紀錄

至少我 snapraid scrub 每次抓到錯誤都是壞軌,沒有 slient error

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.57.57 (臺灣)
PTT 網址

wei115 06/13 13:55不是說ecc無用 而是說ecc對於家用的

wei115 06/13 13:56影響被誇大了(在ecc價格虛高的情況

oopFoo 06/13 13:58可以用badram功能不用有問題的cell

oopFoo 06/13 13:59ecc當然是好的,我是覺得什麼錢都花

oopFoo 06/13 14:00有錢真的ecc就買下去。

oppoR20 06/13 14:03先推 免得別人以為我看不懂

meicon5566 06/13 14:04這篇我真的看不懂 給推= =

yeeouo 06/13 14:08感謝分享

wei115 06/13 14:10很多人家用的需求就只是一顆硬碟+

wei115 06/13 14:10分享 資料量和版上組遊戲機、文書

wei115 06/13 14:10機沒什麼差異,但幾乎沒人推薦這些

wei115 06/13 14:10人用ECC,家用NAS卻推薦ECC,我認

wei115 06/13 14:10為這樣把ecc的權重看的太重

oppoR20 06/13 14:14家用電腦或是遊戲機用ecc表現又不

oppoR20 06/13 14:14會更好(遊戲方面

oppoR20 06/13 14:14而且除了AMD i皇幾乎都不支援ecc

fonzae 06/13 14:15ecc是為了讓服務不中斷

fonzae 06/13 14:15家用nas有無必要是看使用者需求

fonzae 06/13 14:16但延伸到檔案是否寫入出現問題

fonzae 06/13 14:17還不如學這篇看硬碟smart資訊

其實不是,是靠 snapraid 的 checksum 和 parity 在確保資料安全 smart 只是其它額外資訊

fonzae 06/13 14:18除非占用大量記憶體去暫存

fonzae 06/13 14:18拿以前搞一台G7,光通道的相容性

fonzae 06/13 14:18SQL跑不到兩小時就報錯了

fonzae 06/13 14:19後面硬調記憶體順序才讓當機情況

fonzae 06/13 14:19降低

wei115 06/13 14:22誰家沒有1、2T資料?難道打遊戲的

wei115 06/13 14:22資料就不重要了?但沒推薦ecc,不

wei115 06/13 14:22就是認為在這樣的資料量&使用方式

wei115 06/13 14:22風險不是在ecc上嗎?

wei115 06/13 14:28況且各家nas廠,入門級別的機種,

wei115 06/13 14:28也都沒ecc

oppoR20 06/13 15:13現在遊戲幾乎都是線上同步資料了

oppoR20 06/13 15:13很重要嗎

oppoR20 06/13 15:1310幾20年了 一堆電腦沒ECC 然後玩

oppoR20 06/13 15:13家有挨過嗎

oppoR20 06/13 15:14那是因為是入門等級啊 你自組nas能

oppoR20 06/13 15:14在同價位選到更好更穩定的當然選啊

GoGoJoe 06/13 15:35user對當機的解決方案通常不是ecc

GoGoJoe 06/13 15:35是智慧插座reboot power off

拿防當機來廣告 ecc 真的是很不好的宣傳 和資料不正確比起來,當機其實不是壞事 很多主機板可以設定 uncorrectable ecc error 時 mce 要不要報錯給系統 linux kernel 也可以設定 uncorrectable ecc error 發生時 "要不要當機" 是的,記憶體有錯的時候,是不一定會當機的,而且通常是不會當機的 那為什麼 kernel 要預設 uncorrectable ecc error 時要故意讓它當機? 因為錯誤的資料比當機更可怕 比如記憶體出包導致檔案系統掛掉有沒有可能?

※ 編輯: HamalAri (220.141.57.57 臺灣), 06/13/2022 15:52:24

labbat 06/13 15:56當機是儲存當前系統狀態的重要措施

labbat 06/13 15:58系統要NMI通知出大事了,否則就重開

gameguy 06/13 16:35NAS喔,若是用Intel J4xxx,N51xx這

gameguy 06/13 16:35幾種的都不支援ECC記憶體,GG。

Arbin 06/13 22:54阿就ECC貴才捨不得換,貴的原因是需

Arbin 06/13 22:54求少

Arbin 06/13 22:54為啥需求少,

Arbin 06/13 22:54去問問過去主宰數十年CPU市場的Inte

Arbin 06/13 22:54l

Arbin 06/13 22:55賣支援ECC的CPU賣三小價格...

Arbin 06/13 22:56不然ECC理應是有總比沒有好的東西

Windcws9Z 06/14 18:33去問問Intel為什摸家用CPU不支援ECC