Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:
: 2. 訓練模型會先卡什麼?
: 目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。
: 都是基於LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已,: 完全沒有任何技術門檻。
: (只有誰願意採購幾千萬硬體的門檻而已)
身為LLM猴子,大多同意DrTech的看法,只是台智雲這塊有點不一樣。
其實台智雲有幾乎一半台灣杉2號的機器可以用,
也克服很多開源軟體無法解決的問題;例如硬體是V100不是A100,
又要能夠做3D model parallelism,又要同時能跑LoRA,RLHF,
在100Gbps網路中維持GPU使用率滿載等等。在meta llama出來之前,
我們還是跑BLOOM-176B,硬體需求更高。
我想說的是,在LLM訓練階段,許多硬體門檻已經被台智雲推倒了,
台灣杉2號還能夠做很多事!我覺得可惜的是政府,學界,企業的整合部份,
因為不同單位考量的利益是不同的,企業只做特定任務finetune是因為
客人就需要這種東西,至於基礎模型的訓練無法在短時間內看到好處,
比較適合政府和學研單位主導。LLM猴子什麼咖都不算,在公司內拍桌說要
開源也沒人聽(還好沒有被開除XD)
例如TAIDE是很有潛力當個統合協調的角色,看起來官學合作已經成型,
只剩業界無法進去?縱使業界在台灣杉2號上已經有許多突破,
但我們沒辦法有機會透過某種合作的形式讓學界也使用我們的技術,
然後公司又不像學界那樣以論文產出為目標,所以很難說服老闆去
做些"開源"的工作,自然也不會做些純研究的項目。
台灣杉2號絕對能夠做到清理commoncrawl、FP16精度訓練不用QLoRA、
訓練超過176B參數的大模型。希望大人物們(產官學)能夠多多思考和溝通,
看怎麼促成更多人的合作囉。
--
說個笑話:產官學
很好的討論,讓大家看到更多想法
推,希望看到更多通用的合作與嘗試
補充一下,臺智雲像是官+產的合作,目的在充分發揮台
灣杉二號使用率,但缺乏學研角色。現況是台灣杉的資
源被切成兩半各做各的,臺智雲考量time to market ,
而TAIDE 可以慢慢打磨,路線不同
推一個
推
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預42
[情報] 華碩取得超級電腦「台灣杉四號」標案,May 10, 2023 by 陳 冠榮 華碩積極布局 AI 人工智慧與算力,除了集團旗下的台智雲營運「台灣杉二號」超級電腦, 未來更要打造「台灣杉四號」。 華碩正式宣布取得國家高速網路與計算中心(國研院國網中心)的台灣杉四號超級電腦標案 ,展現華碩從伺服器硬體到軟體平台的整體技術能力。34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
Re: [問卦] ChatGPT改變了什麼行為模式?行? : : 業都發揮著重要作用,對許多人的生活產生了深遠影響。我想請問各位前輩,究竟Ch at : : T改變了哪些行為模式呢? : : 希望大家能分享一些寶貴的經驗和看法,讓我對ChatGPT及其對社會行為模式的影響2
Re: [爆卦] 中央研究院詞庫小組大型語言模型阿肥外商碼農阿肥啦! 今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點, 大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓 練數據集當中去模仿數據源的分佈。 當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬