Re: [討論] sora效率:800塊A100跑一天出一分鐘產品
※ 引述《yoyoruru (哇系笨阿佑)》之銘言:
: 一張 A100,大概1萬鎂
: 算算就一個電影動畫師的平均月薪
: 買來玩個一年
: 「很貴嗎?」
我還覺得底層是跑 Unreal engine 跑出來的
應該有人在朝這方向做了
如果是產生的我只能說,失誤率太高沒有必要
看起來很炫但是不實用
看大家興奮成那樣我也是黑人問題,妥妥的炒股
比起來,Nvidia 前架構師離職這篇論文才更有意思
https://www.facebook.com/nanzong.chen/posts/
pfbid026y5WwQRz2tvCcAG5jTWiFAbcyqLv3CFU92vTBZHPrSZXhuWg3fmaXxiPGv6yyjjml
(接成一行, 懶得縮了)
加州理工學院(Caltech)的布倫教授(Bren Professor)
「我們首次證明,LLaMA 7B可以在僅具有24GB記憶體的單一消費級GPU(RTX 4090)上
進行預訓練(不是微調!)。這意味著訓練期間用於儲存優化器狀態的記憶體減少
了82.5%以上。」
這個才是大新聞,降低大語言模型 training 的記憶體使用量
大家算大語言模型的成本大幅降低
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.0.12 (臺灣)
※ PTT 網址
→
現在限制運算力的應該不是記憶體太小
→
,而是GPU不夠快,雖然較低記憶體需求
→
還是有幫助
→
一般人是記憶體太小啊
→
除了GPU算力問題,還有HBM效能
→
但是還是看 model 長成什麼樣
推
LLaMA 7B效果很差,根本不實用
6
首Po笑掉人大牙,800塊A100,跑一天才能生成一分鐘的視頻 根本就是大力出奇跡,傻大黑粗的代表 就是統計學黑箱,能源黑箱,得優化一萬倍才有商用的可能 最近鏟子製造商發財了,這個消息出來以後,該輪到中國電力股大漲,綠能儲能世界第一就是中國呀 泡沫究竟是泡沫,GG可以收一收了,早就説這種AI只有3成對著正確方向,7成和BTC沒差3
你也是好笑 狂發文章 針對半導體在唱衰台灣 但是中國產業競爭的主要對手是美日韓歐 尤其是汽車新能源車 消費性電子 AI應用 能源產業 台灣不管是什麼產業 基本上都是b2b 都是面對產業 不面對消費者X
一張 A100,大概1萬鎂 算算就一個電影動畫師的平均月薪 買來玩個一年 「很貴嗎?」 動畫最花時間的就是初期組織架構
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預24
Re: [新聞] AI晶片競爭開跑,谷歌公布第四代TPU,宣周末下班閒聊, 發現tech版沒有這篇文章, 那就在這裡討論好了, 其實我說的東西都是網路 google+wiki 就有的東西, 先簡單說明一下現代化的ML DeepLearning的基本概念,17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務1
Re: [情報] AMD 7800XT/7700XT 售價US$449起 9/6上市AMD的GPU行銷真的是笨死了。每個人都拜託他們出24GB或48GB的卡,這麼簡單就大賣的方法不作。還在搞FSR,難道不知道現在是大AI時代嗎? 7800xtx 24GB,549鎂,還不賣爆。 79x0xtx 48GB,1200鎂,還不搶光。 現在一堆AI inference的需求,欠缺在ram不夠。Training也許還是不行,但inference社群作一堆了,就等你出卡而已。結果你出16GB??? 例如最近mlc-llm測試7900xtx 推理可達4090的80%。7
Re: [問卦] 聽說中研院AI花300萬?阿肥外商碼農阿肥啦! 推廣一下微軟Azure服務,這邊試算開一張A100機器折合台幣差不多8萬台幣/月,平均一 天3000不到,中研院應該夠划算了,也算是現在市場公道價,反正都用開源簡中數據了, 放Azure訓練也沒什麼資安問題,而且要撈90GB的模型檔案不到十五分鐘就載完了,Azure 又快又好用。5
Re: [新聞] Google與Hugging Face合作宣布推動開放結果Google竟然釋出了開源大模型Gemma,超出預期! Google 2 款新開源模型「Gemma」來了!直接挑戰 Meta Llama 2 7B 2024/02/22 Sisley 聊天機器人 、 生成式 AI 、 摘要 、 輕量級語言模型 、 負責 任生成式 AIX
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
62
Re: [討論] 業者爆料:清水洗不乾淨太陽能版47
[討論] 小粉紅出征邰哥被反殺17
[轉錄] 台灣民眾黨-fb30
[討論] 今天藍白更崩潰 演不下去了21
[黑特] 現在很難同心慶祝?29
[討論] 2008年是不是台灣最慘的一年27
[討論] 藍白粉是不是人格扭曲呀22
Re: [討論] 小粉紅出征邰哥被反殺19
[討論] James Hsieh:中華台北是敵人21
[討論] 版主不關心一下藍白畜的身心狀況嗎?19
[討論] 潘傑楷怎麼台灣意識這麼高20
[討論] Chinese Taipei 隊伍沒有台北人!50
Re: [討論] 藍白真的開心奪冠嗎 ? 但怎麼表情在說謊13
[黑特] 當初東京奧運正名”台灣“公投為何沒過16
[黑特] 陳傑憲胸前的TAIWAN有強者P上去了!5
[黑特] 網軍現在狂洗青鳥撕裂台灣11
[黑特] 馬英九時期為什好想贏韓國?16
Re: [討論] 業者爆料:清水洗不乾淨太陽能版15
[討論] 陳啟昱當庭逮捕、聲押禁見6
[討論] 侯友宜的team Chinese Taipei自創名詞?11
Re: [討論] 業者爆料:清水洗不乾淨太陽能版12
[討論] 蛤 屏東也要蓋國際級棒球場11
[討論] 民進黨一興奮就要別人掏錢15
[討論] 小草:用F16迎接選手有問過納稅人?9
[討論] 為何藍營民代蹭棒球卻有點格格不入10
[黑特] 勞動部長怎麼不派黃國昌接任?10
[討論] 請問什麼叫逆轉局勢?8
[討論] 還好柯文哲被羈押不然他一定蹭12強奪冠8
Re: [討論] 侯友宜的team Chinese Taipei自創名詞?4
[舊聞] 潘孟安遭質疑搞「25億全台最貴棒球場」