PTT推薦

Re: [問卦] 中研院自己做的大型語言模型怎麼了?

看板Gossiping標題Re: [問卦] 中研院自己做的大型語言模型怎麼了?作者
sxy67230
(charlesgg)
時間推噓55 推:58 噓:3 →:49

※ 引述《messi5566 (虹粉)》之銘言:
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png

圖 中研院自己做的大型語言模型怎麼了?
: https://i.imgur.com/BJIxJY6.png
圖 中研院自己做的大型語言模型怎麼了?
: 請問繁體中文的任務內容是把簡體翻譯過來嗎
: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat


阿肥外商碼農阿肥啦!

昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還
可以進去,但現在已經進不去了。

這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預訓練或微調的數據源跟一些微調小細節而已。

然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟作者說的訓練數據源來看細節藏在魔鬼裡。

首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練,理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。

理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。

此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做評測,根本是拿明朝的劍斬清朝的官。

當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民幣再做簡中數據集了。

那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只要簡轉繁AI就會自己講台灣用語。

唉~

這邊註一下:
Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回人類有辦法閱讀的中文或英文字。

C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專業領域知識。

以上

阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以
阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿自己的
大量數據集來訓練,我感覺CKIP可能要有大地震了。

呵呵….

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣)
PTT 網址

derekhsu 10/09 14:35中研院有說是從Atom-7b微調喔

Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈 ?

andy00andy 10/09 14:36Opencc不是有簡中轉繁中用法的功能嗎

andy00andy 10/09 14:36?還是那個不夠準確

OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加 詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就 全部把你文字裡面的「的士」轉成計程車。。

dhccc 10/09 14:37基本上現在要訓練公司內部用的

dhccc 10/09 14:37Llm也有點苦惱 中文資源都是對岸 用語也是

renna038766 10/09 14:37講的你比杜奕瑾還厲害 好了啦

呵呵

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

derekhsu 10/09 14:38台灣就沒模型沒算力沒資料,三無怎麼打

firose 10/09 14:38台灣又浪費了幾年時間了

salamender 10/09 14:39這個id被創世神勾勾再中共同路人那邊

f12sd2e2aa 10/09 14:40所以說三無就放推 那養中研院幹嘛 關

salamender 10/09 14:40,你準備好被肉搜了沒?

f12sd2e2aa 10/09 14:40一關好了 浪費稅金

iopzu3lv0 10/09 14:41不是有姓杜的AI大神? 快出來拯救世界

stlinman 10/09 14:41好奇自己餵資料養數據庫,成本很高嗎?

要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文 字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的 句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你 覺得維護成本低嗎?

yesonline 10/09 14:42可以拿近8年中央政府新聞稿訓練啊..

yesonline 10/09 14:43怎麼會沒資料.繁體資料可多著呢..

s900527 10/09 14:43綠共塔綠班政府~只會大內宣而已~

s900527 10/09 14:43專門騙台灣智障人民就夠了

yesonline 10/09 14:44各部會公開資訊也能用. 只是要不要做啦

enthpzd 10/09 14:47講中文好嗎

afking 10/09 14:48這麼閹割的東西就會被靠北上新聞了,怎麼

afking 10/09 14:48覺得上面會給資源燒錢做數據集笑死

zweihander99 10/09 14:49竟敢說台灣落後對岸,你完惹

Caroney 10/09 14:52國科會那邊也是一堆畫餅廢物「創造具台

Caroney 10/09 14:52灣特色的chatGPT」

lonelyQQ 10/09 14:54翻譯台灣應該全面使用支語

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18

depo 10/09 14:57這方案主管全部槍斃阿

greg7575 10/09 14:59民進黨又不台獨,用一下簡中還好吧

ks454 10/09 14:59成本巨大,中研院最好是知識圖譜做好就套小

ks454 10/09 14:59範圍,出通用一看就不可能

greg7575 10/09 15:01逆變器什麼的都買支那,愛台灣就對了

gamete 10/09 15:01連收集資料都懶得做,這還叫做研究單位

greg7575 10/09 15:02看這個案子開多少錢啊。錢不夠就偷

yesonline 10/09 15:06數位部/國科會/中研院/工研院都有預算

dhccc 10/09 15:07出錢給台大李宏毅老師弄一個就好了 看他教

yesonline 10/09 15:07一堆相似的研究計畫提案...

dhccc 10/09 15:07得有模有樣的

riker729 10/09 15:10不是你以為中研院是養老院是說假的?

CaTkinGG 10/09 15:11感覺又浪費了好幾年

riker729 10/09 15:11人家做了好幾年 大紅之後我們才來一窩蜂

leisureman 10/09 15:16https://i.imgur.com/TT58ZZC.png

圖 中研院自己做的大型語言模型怎麼了?

alan3100 10/09 15:16政府本來就脫離現實很多 剩一堆老害主導

alan3100 10/09 15:17之前喊啥元宇宙 都破滅幾年了才鴿子封包

alan3100 10/09 15:19政府與裙帶企業有非常高的政商關係壁壘

alan3100 10/09 15:20高手才不會進去淌渾水 錢少熱臉貼冷屁股

yannicklatte 10/09 15:20你去選根路燈吧

WantFxxk4X 10/09 15:20台灣大灑民脂民膏至少領先柬埔寨 看衰

WantFxxk4X 10/09 15:21台灣藍白真噁

alan3100 10/09 15:21剩一堆垃圾在同溫層互相取暖

strikecbu 10/09 15:23好大喜功的內閣 繼續騙

newforte 10/09 15:24台灣日常

tsrn46336686 10/09 15:28成本巨大有什麼問題 這種成本除了中

tsrn46336686 10/09 15:28研院還有誰可以做 更簡單說台灣是繁

tsrn46336686 10/09 15:28體中文大本營 更應該由國家做數據中

tsrn46336686 10/09 15:28心吧

BIGETC 10/09 15:29有兩百億預算的數位部和天才it大臣 中國那

BIGETC 10/09 15:29點玩具模型 還不是

luciffar 10/09 15:30跟高端系出同源一樣 我懂

ChungLi5566 10/09 15:31餵垃圾去訓練就只會訓練出垃圾

KKevin5566 10/09 15:31党不喜歡你這種人

ChungLi5566 10/09 15:32要訓練的資料必須先清洗過

dtdon1699 10/09 15:38中研院代工廠

alan3100 10/09 15:41做這個成本遠超你想像 一直燒錢不是單次

Mchord 10/09 15:45加碼改善油水肥滋滋那需要什麼大地震

Violataf 10/09 15:50不太懂他們的腦袋在想什麼

Violataf 10/09 15:50拿對岸的來簡轉繁最後一定會出問題的阿

jerry8507 10/09 16:02推推專業

Rootless 10/09 16:09一樣花了大錢啊,細節不重要啦,40%

rhox 10/09 16:14你有中研院的人厲害嗎? 閉嘴

banana246 10/09 16:16什麼黨再補助一百億給我加強

MicroB: 敦義:你不要這麼專業好不好? 50.126.66.214 10/09 16:19

silentneko 10/09 16:22推一下假裝我有看懂

RLH 10/09 16:24台灣這20多年不知道在幹嘛

Spurious 10/09 16:25中研院這次壞了自己名聲

spring719 10/09 16:25林北文組,看不懂

richard88502 10/09 16:29資料清洗比訓練還要累多了,有在fin

richard88502 10/09 16:29etune的應該都有感覺

其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化 ,光是弄得好模型就夠漲好幾個百分點了,比去想什麼fashion的模型架構還有用。OpenA I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。

teariceooo 10/09 16:33專業推 雖然看不懂

mcgrady12336 10/09 16:37AI就美中大戰,台灣乖乖做代工就好

ralfbrian 10/09 16:40研究單位的話,說不定有人是中國來的,

ralfbrian 10/09 16:40覺得只是簡轉繁沒關係

azure 10/09 16:45等等 講這些前有想過党不喜歡聰明的孩子嗎?

aj1234 10/09 16:50那我這邊有一筆社群網站的繁中資料,我記

aj1234 10/09 16:50得是兩三百萬筆,是不是就變得蠻值錢的

leterg 10/09 16:54台灣只會喊大數據,其他沒了

leterg 10/09 16:56中國那邊資料的確多,尤其知識型的

s90002442 10/09 17:02中研院要不要把一些大餅計畫砍一砍 集

s90002442 10/09 17:02中火力在重要的計畫比較實在

DA3921999 10/09 17:10養黨工不用錢?養側翼不用錢?養圖文畫

DA3921999 10/09 17:10家跟YTBer?別拿中國不用養這些狗的標

DA3921999 10/09 17:10準來看台灣

lunatich 10/09 17:13上面又不懂技術,只押著你急著做出東西

lunatich 10/09 17:14大內宣,下面就只能拿現成的改改交交差

lunatich 10/09 17:14

amethystboy 10/09 17:30我宣佈以後臺灣都叫公交車

jeson711 10/09 17:44就做出來看起來像騙騙不懂的

modernpkman 10/09 17:46數位部?跟這個會有關聯嗎?

StarCat76 10/09 17:50台灣人做東西的調調就這樣,講求一個快

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38

haver 10/09 18:04雖然兩邊用語有越來越接近 但還是有差別啊

soy915221 10/09 18:15不就是懶到剩抄,抄到一字不變的,

soy915221 10/09 18:16不合格學生?中研院?你有在做事?

monnom 10/09 19:00推專業

shi21 10/09 19:02這篇專業 推一個

germun 10/09 19:04不想花錢花時間花人力就只能抄阿 抄抄抄

ericleft 10/09 20:50中研院的水準怎麼這幾年低落成這樣

rick917 10/09 21:31推專業

iMElLoN 10/09 23:25中研院不清楚,不過國科會(舊)確實是

iMElLoN 10/09 23:25畫大餅專門

dlshao 10/09 23:29推認真回覆…有在關注的深感認同

asmiocv 10/09 23:52看就知道沒錢弄出來交差的東西

photoswimmer 10/10 03:08台灣沒人會花錢做基礎的啦