Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
※ 引述《gaymay5566 (feeling很重要)》之銘言:
: 中央研究院詞庫小組(CKIP)
: 中研院資訊所、語言所於民國75年合作成立
: 前天釋出可以商用的繁中大型語言模型(LLM)
: CKIP-Llama-2-7b
: 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎
: 再補強繁體中文的處理能力
: 參數量達70億
: 模型可應用於各種領域
: 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
: 但實際測試後
: https://i.imgur.com/phwhfcl.png
: https://i.imgur.com/cMnCbI8.png
: 測試網頁:https://reurl.cc/q0rbqn
: 拿這種東西出來交作業 太扯了吧
: 根本就是簡體直接轉繁體而已!
: 中研院資訊所耶 拿這種軟體來騙
: 更新:被發現後 悄悄地撤下來了
: https://i.imgur.com/sy7rLgt.png
小弟待的公司,非學術單位,
可能是台灣硬體計算資源稍微豐富的公司。
公司投入在買GPU 應該近億了。
自己也研究了幾個月 fine-tune 方法。
不過,還是沒足夠能力與資源訓練正常的LLM。
主要卡在三方面:
1.資料面,會卡什麼?:
並不是像版友們說的:繁體中文語料過少,
這根本不是一開始會遇到的問題。
光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎?
光是處理資料,所需的硬體採購,
大概要到一億新台幣來建置機房。
這還是稍微能用而已。
繁體中文資料難蒐集根本是假議題。
你的公司,沒錢買設備,沒資源
不願意讓你投幾億成本處理清洗資料才是事實。
我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。
資料只能用玩具級的做法來做。
到處砍,到處刪CC的資料。
而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。
嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。
看了 只fine-tune LLaMA-2-7B這種等級的模型。
大概也很容易說明了,硬體經費根本不足。
這種經費會卡到的不是繁體語料不足,
而是根本沒機器或資源給你清洗處理資料。
2. 訓練模型會先卡什麼?
目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。
都是基於LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。
而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已,完全沒有任何技術門檻。
(只有誰願意採購幾千萬硬體的門檻而已)
所有不拿大量通用資料,只 fine-tune少量資料
都有一個問題:
你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。
同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。
所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。
這不會先卡到中研院CKIP技術太差,
(我是非常敬佩CKIP這幾年的努力的)
會先卡到的是:
是否願意投個幾十億建立基礎訓練平台而已。
如果沒看到一個像樣的訓練平台,千張 A100這種等級的。
短視到只願意fine-tune
輸出少數大家想看的輸出,
當然永遠災難性遺忘通用能力。
永遠沒有一個可商用,可通用的機會。
當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。
國家要給中研院幾個億去玩LLM,
會先被輿論幹翻吧。
3.人才面
台灣並沒有很多人在真正訓練/微調LLM。
你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。
在吹自己怎麼用OpenAI的API。
其實人才的建立,最先卡的也不是沒錢。
中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。
在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。
能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。
結論:
小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。
--
數發部那兩百多億真的不知道在衝三小用的
都可以花十幾億弄個不能用的球場了 我們國家很有錢的
黨要不要而已
推
不同預算直接比跟算營養午餐那套有啥差別,問題在
好多公司上層都在吹自家有微調大模型的能力,結果
給的機器少得可憐,再怎麼厲害的人也無能為力
如果能理解"給多少資源做出來就是多少能力"還好,
怕的是你做出來老闆叫你跟OpenAI的大模型比
推~
很多公司房營收獲利來源就跟鬼島政府一樣短視近利,
僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這
類人而言能做的僅次於一樣的無能及可悲。這年頭各種
事情及衝突其實已經跟所有人告誡,從各面向觀之,只
想賺自己的那些終究會葬送在自己的手裡,並且把整體
環境弄成一攤死水
出張嘴短視近利靠混及騙來的不代表你多厲害,反而還
會有更多產業內外的人們,因你(這類人)在位而被害
@抱歉SE鍵盤太小打錯字是 公司方*
那還不如不要無腦就跟著做下去更好
台灣公司一堆稱有ai單位,也沒做出什麼東西嗎
我原醫藥產業各式台外商政商及其各式職司就更不用提
,那種情況比科技業能有準則判定立馬有成效數據孰優
孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費
而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前
我原產業得志又得利的小人們佔多數,拿他們沒辦法而
且他們各式所為還不會被評判攻擊的這麼明顯,反過來
其他人還會被這些人評判,錯誤方變成對的那一方,對
的變成錯誤方還要被要求檢討自己來證明這些人沒問題
,更莫名奇妙,中研院現在那個生醫園區及我原產業那
些人們,以後挖台灣的錢更是會用比這還誇張的莫名奇
妙手腕,這模型看起來跟我原產業的人們相比真的小太
多
台灣永遠只有第一波玩的到,後面要玩資本的永遠跟
不上
資本跟國力蠻有關的,如果台灣自己又再內鬥內耗,這
塊輸別人(尤其是對比歐美而言,他們的國力本來就很
夠用)真的是正常
結論是人才很好 但沒錢?你知道數位發展部的年度預算有多
少嗎?我國政府有的是錢 只是不是拿來投資用的而已
LLM也算是數位發展部的範疇吧?
協尋數發部…
只覺得很悲哀
倒果為因了 就是卡住 所以只能往prompt發展
推
消費級顯卡fine tune LLM? 你當LLM多小...
現在平民老百姓要學的是如何應用AI..
資料處理費時燒錢 老闆不喜歡 嘻嘻
有數發部這種頂級單位幹嘛搞研發
1080Ti就可以fine tune Bert啊,樓上在噓啥
CKIP真的值得敬佩
希望那些酸言酸語不要影響到研發人員的心情
BERT 稱不上是 LLM 吧
消費級顯卡可以搞 LoRA 啊
趨勢很明顯,學怎麼應用AI就好,以後AI底層架構會
跟程式語言底層一樣都是米國的知識產權。
抱歉 家裡失業6年 自稱理工醫文法商的精障最近燥期到
了
有200多億可以租啊 不想而已
沒人願意清資料政府不願意帶頭投資硬體 乖乖用對岸開源的
的別幻想自建LLM了啦
台智雲那段我想提醒一下,一開始他們是用 BLOOM 176
B 下去訓練,當時(推測是二月開始訓練) QLoRA 即
使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的
,但我想 AFS 訓練千億級參數量模型的能力應該還是
有的。只是說台智雲這個系列的模型是閉源的,所以也
不會被大家拿來檢視與挑戰就是了。
不用跟某人吵吧沒用 還有快去就醫 他在ptt各板被桶光
不知道現實會做出甚麼XD
台智雲前陣子發新聞稿,最新模型是用LLaMA 2+Qlora訓練的
。
另外,有人提到消費級顯卡無法fine-tune LLM,可以說為什
麼嗎?。實際上 4090,筆電16G,桌電24G,真的夠fine-tune
中研院這種等級(7B)的LLM 阿。
消費級顯卡,硬是要訓練成大家期待的輸出,或政府愛看的輸
出也沒什麼問題,只是通用性絕對不高而已。
那個應該是指說他們推出了 Llama2 繁中版,「另外」
還提供了 PEFT 訓練方法可供選擇,但是並沒有明確指
出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友
用過 AFS Demo,當時 FFM 176B 也是 Full Fine-tuni
ng,感覺沒什麼道理參數量少了反而倒退嚕。不過他們
是主打算力平台,模型的提供並不是真正的重點,只是
讓客戶有比較多選擇而已。
新聞稿參考
天才IT大臣除了租辦公室到底都做惹啥ㄚ
房價那麼貴公司是怎麼買機房放機器
LoRA基本到連我這外行人都會xD
我在各板遇到的各式ID中有幾個神經病真的不知道誰家
養著的長期發瘋抹黑跟騷誹謗造謠貼標說謊人身攻擊站
方放任這些神經病在發瘋,真不知道這些小人們到底都
是誰家給錢養著的瘋子有病的貼別人有病,沒病的路人
正常平台國家學術資源使用者你我被洗成有病,噁爛到
炸
其實在中研院說要自己弄的時候,大家就在說不可能了
現在只是醜婦見家翁而已,沒有多少人真的期待那一點預算就作
出來一套跟別人百倍、千倍預算相比的吧?
天才IT 大臣加上幾百億的預算你跟我說沒有錢沒有人
推
推
問題是真投了幾百億 幾千億 也賺不了錢
台灣還是專心做GPU硬體生產就好
與其把資源放在搞沒錢途的AI 還不如把錢投注在硬體架構
要說聯發科哪天能分杯羹Nvidia的市場 還比較能想像
把數發的200億移過來用不就好了?200億應該夠了吧
這才是台灣的價值
黨不喜歡有人說實話
先裝潢再說
有錢但是不分你啊
推說明 AI基礎建設就是砸錢 政府有沒有決心去推很重要
現在的政府不用想了吧,國家從上到下都在短視近利
不用幻想文組法律系當頭的政府有啥撈快錢之外的目標惹
啦 經濟部還想補助中小ic設計商先進製成總經費8億 是
要笑死人 老人只能玩蓋蚊子館撈錢啦
推分析,另真的不管錢投在哪裡就是會有帳號冒出來罵翻,
看推文就知道
每次提到「政府」就有人來亂酸...好好討論不行嗎
好好面對現實不行嗎 為什麼會有人講政府又不是無中生
有
clean data需要億級硬體設備可以分享一下原因嗎
是後處理的資料存儲問題嗎
在公司內很難說服主管像中國那樣做資料集和開源模型
,然後別人一推出新模型就開始瞎緊張,完全沒有長期
規劃的能力
對岸有國產搜尋引擎或問答平台 比較容易累積資料
台灣的玩法應該是不會重頭弄 只能外包請人做資料審查
蛋塔一樣,外面紅啥,政府就跟著喊,然後補助一堆學院,
大量產出紙上作業的人
看xx部 台灣不缺你說的這點小錢 用在哪而已
這很台灣
推分析 鬼島有鬼島的玩法
200億拿去點麵線、裝潢、出國考察也不願意投資未來最重要
的AI,這就是鬼島玩法
不同意樓上。原Po第二點就有提到
是否跳進這個燒錢的軍備競賽而排擠其他項目,才是真的
命題
所以有人說得出兩百多億具體端了什麼成果嗎
真的很難想像 台灣本土LLM 能賺到甚麼錢
對岸不會用 歐美日也不會想用 只能島內自己用
這樣講起來 200億拿去點麵線 至少能讓肚子吃飽 是還比較
實在
實在個雕,點麵線已經有現成的外送app,你做一樣定位的東
西幹嘛
點外送不是就有現成app了?
就是因為有現成的他們才想做啊XD
推推 之前碩班做相關研究 後來因硬體資源不足就乖乖去業界
學術單位做研究本來就是針對某環節進行優化改善而已
爆
[問卦] 中研院自己做的大型語言模型怎麼了?中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎22
Re: [爆卦] 中央研究院詞庫小組大型語言模型看到這篇真的龜懶趴火 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊 誰不知道LLM的正確率一定會有誤差? 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套 且直接用opencc大量將簡體資料轉繁體資料!20
Re: [討論] ChatGPT的思維是甚麼?阿肥外商碼農阿肥啦! 剛好看到這篇文章就回覆一下,這次大型語言模型(LLM)表現出來的是語言模型的湧現能 力,我其實不贊同LeCun說的LLM是歪路,畢竟雖然我們可以直覺知道加大網路連接數可能 是實踐人類大腦的一個重要步驟(畢竟人腦的連結數量跟複雜性在生物醫學上都有驗證), 但科學上不去驗證你沒辦法證明某些事情的。14
Re: [閒聊] 文心一言AI繪圖(慎入)文心一言實力不如ChatGPT是理所當然的,微軟投資幾百億美元並且用微軟的雲端訓練整個網 路資料兩年了,到了去年底才終於開花結果 目前這種LLM模型,最重要的就是 資料 算力 和算法,其中基礎的資料是非常重要的,Chat GPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型,而ChatGPT的基礎原理就是由上 一個字生成下一個字,週而復始,其中在訓練的過程還會經過人工挑選優質回答和一些和添18
Re: [新聞] 輝達A100、H100獨家供應商!法人調高緯創前陣子自家公司GPU也不夠用了...在測試一堆想法時候 決定自掏腰包去租外面GPU 找了幾間像是 結果...wtf 也是大爆滿 看了幾個AI論壇 一堆自行開發者都自己測試各種pretrained model的下游fine-tune 也是各種哀嚎搶GPU 以前這幫個人開發者在自己的RTX 就可以簡單測試 但現在的 LLaMA也好 Diffusion也好 越來越難在家用遊戲顯卡上跑X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。1
Re: [爆卦] 中央研究院詞庫小組大型語言模型那是政治上的問題,我說的是說中研院直接拿Atom-7b模型來用的這件事 我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分 你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立 的國家- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬