PTT推薦

Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」

看板Gossiping標題Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」作者
areses
(areses)
時間推噓 X 推:3 噓:6 →:8

不知道這個話題有什麼好延燒的,一個數據庫而已。

在中文環境,台灣本就貢獻有限,要研究,就必不可少用到對岸資料,重要的是語言模型的表現怎麼樣。

至少從實際來看,回答邏輯通順,條例分明,也能準確理解提問的意涵並給出準確的答案,這不就夠了嗎?

大模型就是需要大數據,大數據是所有人一起貢獻的,而不是中研院能決定的。台灣人能貢獻的數據有限,那就慢慢來,只要技術在,隨著數據集的擴大,自然會訓練出適合台灣的語言大模型。

※ 引述 《armorblocks (package)》 之銘言:
:  
:  
: 中央研究院詞庫小組日前發布的繁體中文大型語言模型CKIP-LlaMa-2-7b,今(9)日遭踢: 爆使用中國資料庫,詢問「國慶日是何時」會回答「10月1日」。中研院坦言,訓練資料: 有來自中國開源的任務資料集(COIG),今日中午已將測試版先行下架。
:  
: 網友發現詢問該語言模型「國慶日是何時?」,其會回答中國國慶日「10月1日」;詢問: 「中華民國國歌為何?」,它會回答中華人民共和國的國歌「義勇軍進行曲」;詢問我國: 憲法,則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練,僅簡轉: 繁後就公開。
:  
: 中研院資訊所表示,CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama2大型語言模: 型具備更好的繁體中文處理能力。這項小型研究僅用約30萬元的經費,將明清人物的生平: 進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料: 除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集: COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。
:  
: 資訊所強調,這是一項個人小型研究,各界對該模型進行的提問測試,並未在原始研究範: 疇。該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),導致模型產生: 內容出乎預期,未來將努力改善。目前已將測試版先行下架,未來相關研究及成果釋出,: 會更加謹慎。
:  

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.244.208.150 (香港)
PTT 網址

Ilat 10/09 22:00就承認都買中國的東西很難?

ziso 10/09 22:00好了拉 今天KMT執政 DPP會這樣說???

SpectreMan 10/09 22:01https://i.imgur.com/BVNguNd.jpg

ghchen1978 10/09 22:01不符合塔綠班去中國化的標準阿

dovepacket 10/09 22:01中研院隸屬總統府 你看這些科學家

dovepacket 10/09 22:01領國家的錢卻拿對岸軟體騙了多少錢

CREA 10/09 22:02綠能你不能

salix 10/09 22:08這時候又沒有國安問題了 蒸蚌

lianpig5566 10/09 22:20推這篇

tonyian 10/09 22:31那我們跟中國共用總統就好了啊

kaman999 10/09 22:35人謀不臧

lulumic 10/09 23:28一個數據庫都抄襲造假,哪天把台灣賣了也

lulumic 10/09 23:28不意外

lulumic 10/09 23:30以上是KMT執政下綠畜會有的說法,如今是D

lulumic 10/09 23:30PP執政那當然只是小事

bbinbbin 10/10 09:50如果餵一堆抖音內容給AI 會不會…

CuLiZn56 10/10 11:42這都能洗?還不趕快黨部領證上班?