Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」
不知道這個話題有什麼好延燒的,一個數據庫而已。
在中文環境,台灣本就貢獻有限,要研究,就必不可少用到對岸資料,重要的是語言模型的表現怎麼樣。
至少從實際來看,回答邏輯通順,條例分明,也能準確理解提問的意涵並給出準確的答案,這不就夠了嗎?
大模型就是需要大數據,大數據是所有人一起貢獻的,而不是中研院能決定的。台灣人能貢獻的數據有限,那就慢慢來,只要技術在,隨著數據集的擴大,自然會訓練出適合台灣的語言大模型。
※ 引述 《armorblocks (package)》 之銘言:
:
:
: 中央研究院詞庫小組日前發布的繁體中文大型語言模型CKIP-LlaMa-2-7b,今(9)日遭踢: 爆使用中國資料庫,詢問「國慶日是何時」會回答「10月1日」。中研院坦言,訓練資料: 有來自中國開源的任務資料集(COIG),今日中午已將測試版先行下架。
:
: 網友發現詢問該語言模型「國慶日是何時?」,其會回答中國國慶日「10月1日」;詢問: 「中華民國國歌為何?」,它會回答中華人民共和國的國歌「義勇軍進行曲」;詢問我國: 憲法,則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練,僅簡轉: 繁後就公開。
:
: 中研院資訊所表示,CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama2大型語言模: 型具備更好的繁體中文處理能力。這項小型研究僅用約30萬元的經費,將明清人物的生平: 進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料: 除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集: COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。
:
: 資訊所強調,這是一項個人小型研究,各界對該模型進行的提問測試,並未在原始研究範: 疇。該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),導致模型產生: 內容出乎預期,未來將努力改善。目前已將測試版先行下架,未來相關研究及成果釋出,: 會更加謹慎。
:
--
就承認都買中國的東西很難?
好了拉 今天KMT執政 DPP會這樣說???
不符合塔綠班去中國化的標準阿
中研院隸屬總統府 你看這些科學家
領國家的錢卻拿對岸軟體騙了多少錢
綠能你不能
這時候又沒有國安問題了 蒸蚌
推這篇
那我們跟中國共用總統就好了啊
人謀不臧
一個數據庫都抄襲造假,哪天把台灣賣了也
不意外
以上是KMT執政下綠畜會有的說法,如今是D
PP執政那當然只是小事
如果餵一堆抖音內容給AI 會不會…
這都能洗?還不趕快黨部領證上班?
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。12
Re: [新聞] 炒房客皮繃緊了!北市宣布用這招抓實登造我不是很懂大數據但有實際操作過,地政才丟20萬筆就想搞大數據是想的太美好,我丟過 30萬筆資料出來的結果,沒比我自己寫excel去跑優而且差很多。 所謂大數據這東西是這樣,通常是廠商建個模型,然後你要丟一些東西去train他,告訴 他出來的東西對不對,你只能知道結果對或錯,但他不會跟你說他怎麼運算的,因為太複 雜,他會根據你的回饋去修正判斷標準,讓判斷越來越準確,理論上他是一種AI學習結果5
Re: [新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI那個 我記得以前的新聞是這樣講的 防止簡體版AI偏見,產官學聯手開發繁體版AI語音模型 聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點 ,更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展,此次結合中研院及 國教院,成為台灣極少數能訓練大型語言模型的團隊,既發展自主訓練大型人工智慧模型6
Re: [爆卦] 中央研究院詞庫小組大型語言模型這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少5
Re: [問卦] 支那都有無人駕駛公車了,台灣怎麼沒有?阿肥外商碼農阿肥啦! 認真說,中國那邊在軟體、科技執法發展很幾年前就走得比台灣快了,還有他們對於AI的 投注也比台灣還多,我印象中幾年前哈工大就有他們政府投注資源包含培育人才跟製作自 己的簡中開源數據。 台灣這邊其實很多想做研究像中文或是華人人臉數據都是需要先拿他們的開源數據來玩,X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答2
Re: [爆卦] 中央研究院詞庫小組大型語言模型阿肥外商碼農阿肥啦! 今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點, 大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓 練數據集當中去模仿數據源的分佈。 當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC2
Re: [問卦] AI機器人的信度和效度?阿肥外商碼農阿肥啦!在下鍵盤研究員回答一下你的問題, 1. 先說統計檢驗部分,一般而言在傳統研究領域小數據上都會要你做一些傳統的統計檢驗, 例如你加了某個方法以後會更好,你要跟讀者證明A優於B,要避免模型有隨機性那做了可以 證明你是對的。不過現在大部分NLP訓練都是基於巨量數據像GPT-3有45TB的文本,這麼大的 數據情況下我們都會假設數據服從中央極限定理符合常態分佈,那做假設檢驗就有點多餘。X
[閒聊]ChatGPT:區塊鏈與語言模型:數位革新的合力前幾天看到文章説 已經有人利用FB洩漏的資訊在筆電上實現類似ChatGPT的技術 所以我試著問GPT一些問題 獲得一些心得 分享給大家 所以以下的文章是ChatGPT寫的,包含標題XDD 有興趣請往下慢慢看~ (至於FB洩漏什麼 請自行搜尋 我網址沒存XD)
爆
Re: [新聞] 不婚不生、快樂一生 台灣生育率全球墊底爆
[爆卦] 連續4名勞動部長沒有勞工專業背景爆
[爆卦] 黃巾之亂采盟團根本是蹭球員慣犯!27
[問卦] 什麼時候中華民國變嫌悪詞?爆
[問卦] 你最希望那款遊戲可以Remake?爆
[問卦] 四爺剛剛被某台記者激怒26
[問卦] 金馬獎是怎麼從收視破10暴跌到剩1點多的?6
[問卦] 中華隊什麼時候開始被亂叫成台灣隊?25
[問卦] 這次中華台北棒球隊奪冠 誰蹭最兇?12
Re: [問卦] 中天新聞記者道歉6
[問卦] 中天新聞記者道歉16
[問卦]為啥很多人都認為國民政府比中共殘暴?14
[問卦] 吃檳榔真的會提升專注力嗎?14
[爆卦] 采盟的黃巾大媽 記者 立委3
Re: [問卦] 林昱珉:小國(台灣)也能成為世界冠軍18
Re: [新聞] 快訊/雲林縣女議員遭「逆向汽車撞飛」14
[問卦] 一切都看開是什麼樣的感覺13
[問卦] 日本投手 戶鄉 長得算帥? 普? 醜?25
[問卦] 那群穿黃色衣服的是誰? 補圖11
[問卦] 把黑人陳建州排泄掉 台籃會有救嗎?19
[問卦] 現在政府抽獎活動直接黑箱就是了?45
[問卦] 某些新聞台被關台不冤枉吧?9
[問卦] 明天參加遊行的都什麼人??3
[問卦] 台灣為什麼出不了一個太谷翔平10
[問卦] 政治台記者可以進管制區 體育台在外面等?8
[問卦] 波波醫生 勞動部 財政部 綠鬣蜥 下莊?6
[問卦] 台媒素質也是觀眾造成的吧?6
[問卦] 這個接機規格是中華隊的還是台灣隊的?9
[問卦] 剛訂了hami一個月 需要注意甚麼X
[問卦] 這記者問日本買得到檳榔嗎?