Re: [爆卦] 中央研究院詞庫小組大型語言模型
※ 引述《xdbx (羊阿兵)》之銘言:
: ※ 引述《dean1990 (狄恩院長)》之銘言:
: : 本魯也很好奇問了一些問題,
: : 首先是比較基礎的:
: : https://i.imgur.com/zKhx1A2.jpg
: https://imgur.com/a/evMNmWM
: 你現在問它台灣總統是誰 它會說蔡英文了
: 問它台灣是不是國家 也說會
: 問它簡單的問題都會覺得台灣來的
: 但是電腦不會說謊 轉個彎套它話
: 就會發現資料都是被竄改過了
: 它的根源就是個阿六仔
這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫
其中中文占的比例很少
中文當中繁體中文的資料更少
因此訓練起來 中文其實都不像樣
同時間訓練台灣的內容資料又更少之又少
可以看下圖
https://i.imgur.com/zSPlmC5.jpg
繁體中文只有 0.05% 簡體中文有16%
如果真的要避免繁體中文被消滅
應該要正確的選擇我們要在語言AI模型要貢獻那些資料跟模型
不然再幾年對話機器人都內建中國話
台灣就沒有什麼立場了
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.86.9 (臺灣)
※ PTT 網址
→
台灣還不快點揚棄中文,把官話改成英語
推
可是系統說自己來自中國上海實驗室欸 htt
→
本來就沒有的東西吧 洪流巨變 中
→
我已經灌一堆ACG問答了
推
台灣只到自然輸入法。三星bixby微軟windo
→
ws都沒正體字了,等香港被同化後,台灣可
→
以申請世界遺產了。
推
說不定微軟不想做台灣生意,直接取消支援繁
→
體中文,到時候真的繁體就要被消滅了!
推
世界遺產XD
→
那台灣第一步是貢獻資料?搞繁中模型??
→
把模型繁體中文化需要動用到中研院嗎?
推
塔綠班:我們要發展的是台文 不是中文
→
中研院如果推台文AI那是真的要支持啦!
→
=== 快!叫賴導把限用台羅文列入政見 ==
推
怎麼不講希伯來文 笑死
爆
首Po不知道這研究案領多少錢?3
剛特別來測試 "台灣是獨立國家嗎?"-"不是" "台灣是個獨立國家嗎?"-"是" 這種東西拿出來會不會笑死人了? --7
本魯也很好奇問了一些問題, 首先是比較基礎的: 接著是大家都知道的:3
復旦大學認證阿北不代表台灣 最後還是抓到阿北中共同路人的證據 原來一切的佈局中共早就計畫好了X
對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
現在上不去了 只截到這個 你現在問它台灣總統是誰 它會說蔡英文了 問它台灣是不是國家 也說會 問它簡單的問題都會覺得台灣來的22
看到這篇真的龜懶趴火 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊 誰不知道LLM的正確率一定會有誤差? 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套 且直接用opencc大量將簡體資料轉繁體資料!1
那是政治上的問題,我說的是說中研院直接拿Atom-7b模型來用的這件事 我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分 你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立 的國家X
你應該將題目改為"共產黨代表中華民國嗎?" 如果這個程式與很多網路遊戲一樣,不回答這個問題或禁止"中華民國"這四個字, 我們就有理由懷疑共產黨控制這個程式。 : 拿別人的成功來tune一下就可以掛名中研院...... : 有沒有掛?2
阿肥外商碼農阿肥啦! 今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點, 大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓 練數據集當中去模仿數據源的分佈。 當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC
34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎14
Re: [閒聊] 文心一言AI繪圖(慎入)文心一言實力不如ChatGPT是理所當然的,微軟投資幾百億美元並且用微軟的雲端訓練整個網 路資料兩年了,到了去年底才終於開花結果 目前這種LLM模型,最重要的就是 資料 算力 和算法,其中基礎的資料是非常重要的,Chat GPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型,而ChatGPT的基礎原理就是由上 一個字生成下一個字,週而復始,其中在訓練的過程還會經過人工挑選優質回答和一些和添6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答
爆
[爆卦] 美國前國防高層:遇能源封鎖 台灣竟關核電爆
Re: [新聞] 綠粉看沈伯洋直播大哭!沈親回「因為你爆
[爆卦] 沈伯洋:中國會掌握你愛看A片類型 很危險!爆
[問卦] 100m跑幾秒算快?爆
[問卦] 其實台女在對岸男生眼裡很搶手?81
[問卦] 去搶A7龜山的是什麼智障社畜63
[問卦] 孫燕姿拿到新人獎擊敗周杰倫是眾望所歸嗎56
[問卦] 詐欺刑責從一年以上調到三年以上會怎樣?38
[問卦] 孫女是不是越來越漂亮?42
[問卦] 所以核廢料要放哪?43
[問卦] 台大會計薪水比保全低,真假?41
[問卦] 台女:越南女生嫁你 只是要你的錢80
[問卦] 低卡: 錢難賺 沒能力的台男才會想AA制35
[問卦] 別只看越女,寮女也很香吧?36
Re: [新聞] 快訊/高雄一晚2度「無預警停電」!876戶33
[問卦] 連鎖早餐店的霸主是誰==29
[問卦] 如果台股跌回5000點會發生什麼事?31
Re: [問卦] 為啥游泳池岸上板凳坐一堆不游泳的媽媽30
Re: [問卦] 台女:越南女生嫁你 只是要你的錢18
[問卦] 我地理爛為何台北緯度高氣溫跟高雄差不多27
Re: [新聞] 斷電?劍湖山G5驚傳遊客卡空中 台電:供15
[問卦] 台女:AA制根本追不到女生!怎回?20
[問卦] 女友說捉i一次2600 怎麼回?25
[問卦] 幹你娘 伏地挺身只能做10下30
[問卦] 你家樓下開寵物店 你會同意嗎22
[問卦] 台電虧損 要怎麼支持他們啊20
[問卦] 花錢買越南婆,怎麼可能有真愛22
[問卦] 台女只剩下激台男這招了嗎?22
[問卦] 高雄捷運真的廁所比月台涼?20
[問卦] 現在領養貓還要有良民證ㄛ?