PTT推薦

Re: [爆卦] 中央研究院詞庫小組大型語言模型

看板Gossiping標題Re: [爆卦] 中央研究院詞庫小組大型語言模型作者
gaymay5566
(feeling很重要)
時間推噓22 推:23 噓:1 →:17

※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言:
: 對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去
: 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。
: 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型,
: 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資: 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。
: 第二個錯誤的認知是把所有的LLM都當成是同一個等級,好像只要A不如B那A就不行,是: 垃圾。以這個案例來說,它是Llama-2-7b跟Atom-7b模型,前面的Llama-2模型是代表它: 是META出的Llama模型第二代(可商用),而7b則是說它的參數是70億個,不要以為70億: 個參數很多,70億參數以LLM來說只能說是非常小的,所以答出一切亂七八糟的答案非: 常正常,在7b之上,還有13b跟70b的模型參數量。
: 7b的模型實務上如果沒有經過finetune然後針對小範圍的特定任務,基本上就是玩具而: 已。
: 第三,就是對於台灣的能力有誤會,做AI大概分為三個要素,模型/資料/算力。在大語言: 模型方面,台灣三個都弱,模型用開源的即便是台智雲,也是用開源模型。資料方面,: 繁體中文本來就在中文領域本來就是弱項(中文已經很弱了,繁體中文更弱),算力方面,: 台灣有算力從頭到尾訓練LLM的不是說沒有,但跟OpenAI, META都還是非常非常遙遠的距離
: ,所以能做作finetune就不錯了。
: 這是原生llama-2的試玩網址(記得把模型調到7b來比較)
: https://www.llama2.ai/
: 好,回歸重點,中研院在網站上就已經說過了
: ####
: 以商用開源模型Llama-2-7b以及Atom-7b為基礎,再補強繁體中文的處理能力
: ####
: 好,剛剛我說了Llam2-2-7b,那Atom-7b我剛剛沒有提到,這是什麼東西?
: Atom-7b就是https://github.com/FlagAlpha/Llama2-Chinese
: 這個就是中國訓練出來的大語言模型,Atom-7b
: 中研院從頭到尾都沒有隱藏這件事,它就是基於中國訓練的Atom-7b然後再用繁體中文去: finetune出來的模型啊。
: 從頭到尾中研院就沒有隱藏這件事,完全不知道前面好像發現什麼新大陸一樣。

看到這篇真的龜懶趴火

語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊

誰不知道LLM的正確率一定會有誤差?

現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套

且直接用opencc大量將簡體資料轉繁體資料!

這很嚴重啊

第一

你今天是私人公司就算了 大家笑一笑就好

但中研院是什麼等級?是直接隸屬總統府的政府機構

結果你他媽的拿台灣人民納稅錢 騙台灣人經費 然後抄中國LLM交差

還語氣很大跟我們說 完全沒藏啊!

第二

這垃圾模型標榜「商用

所以是很多個人、學校、企業會接觸到的

直接暴露這麼多中國資訊 你確定會沒問題?

政府成立數發部、強調資訊安全是在玩假的嗎?

第三

台灣沒算力、沒資料、沒模型

這大家都知道 大家也沒在急 一步一步踏實地做嘛!

但這種為了求大眾關注吸引投資騙取經費的偷吃步手法

才是被鄉民真正唾棄的原因 無關政治




--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣)
PTT 網址

engineer1 10/09 13:31綠能你不能

omfg5487 10/09 13:31不嚴重吧 現實沒人在乎 民調50%

fireghhan 10/09 13:32說沒藏就感覺沒有錯的口氣真的讓人吞不

fireghhan 10/09 13:32下去

Smallsh 10/09 13:32

chen31502 10/09 13:34推 偷懶還敢大聲

Heptagram 10/09 13:34你說的合理

leeyeah 10/09 13:34有台灣價值就夠了 你是不是製造社會不安

Fortran 10/09 13:35正解

s90002442 10/09 13:36中研院很多研究沒什麼開創性

bigpon 10/09 13:36喔這麼氣喔

q123212 10/09 13:38補助名目的補助才是重點 名目只是次要 不

q123212 10/09 13:38要也沒差

Yahweh 10/09 13:39還有一個更好笑的號稱AI Lab每天分析ptt

Yahweh 10/09 13:39動不動就找到中共協力者

kissmickey 10/09 13:40樓上指的開創性很到位哦

jacid 10/09 13:43難怪中研院一堆放棄治療的舔共反戰老人...

kissmickey 10/09 13:45你第一就錯了

kissmickey 10/09 13:46現在一層層包出去 還真的是私人企業

q888atPt 10/09 13:47你問題 根本沒人在意說的像是天崩地裂

mnxzq 10/09 13:47建議改名中央翻譯院

yannicklatte 10/09 13:56不意外

olaqe 10/09 13:59中研院那麼綠 還甚麼舔共反戰笑死

WantFxxk4X 10/09 14:05外包給敵國就是賴臭蛋政府價值核心 紅

WantFxxk4X 10/09 14:05綠共一起強姦台灣人

Refauth 10/09 14:16不嚴重啦!反正台灣小孩就是喜愛學習支語

yeangigi 10/09 14:20==通篇政治結果最後一行寫無關政治?!=

BIGETC 10/09 14:21抄抄抄 騙稅金

la8day 10/09 14:21人民血稅

MAKAI7492 10/09 14:33推,有人半瓶水

MAKAI7492 10/09 14:34通篇在解釋,有人只看到政治

dtdon1699 10/09 14:45綠色就是抗中保台,其他就是同路人

hirt0123 10/09 15:07

Beltran 10/09 15:09很遺撼那個也批站超老ID了 可以護航出這

Beltran 10/09 15:09種瞎話就是

DarenR 10/09 15:46垃圾民進党

philae1112 10/09 16:24

maize602 10/09 16:45執政團隊換成別人一定被噴到翻起了

ziso 10/09 17:48.

MyPetTankDie 10/09 20:53你這樣也是同路人了,會被說看不起

MyPetTankDie 10/09 20:53我們AI產業(最廣義)