PTT推薦

[討論] 中研院繁中LLM被爆直接拿對岸的來套!

看板Soft_Job標題[討論] 中研院繁中LLM被爆直接拿對岸的來套!作者
gaymay5566
(feeling很重要)
時間推噓34 推:39 噓:5 →:101

中央研究院詞庫小組(CKIP)

中研院資訊所、語言所於民國75年合作成立

前天釋出可以商用的繁中大型語言模型(LLM)

CKIP-Llama-2-7b

以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎

再補強繁體中文的處理能力

參數量達70億

模型可應用於各種領域

包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等

但實際測試後

https://i.imgur.com/phwhfcl.png

圖 中研院繁中LLM被爆直接拿對岸的來套!
https://i.imgur.com/O1P6HpS.png
圖 中研院繁中LLM被爆直接拿對岸的來套!
https://i.imgur.com/cMnCbI8.png
圖 中研院繁中LLM被爆直接拿對岸的來套!

測試網頁:https://reurl.cc/q0rbqn

拿這種東西出來交作業 太扯了吧

根本就是簡體直接轉繁體而已!

中研院資訊所耶 拿這種軟體來騙

更新:被發現後 悄悄地撤下來了

https://i.imgur.com/sy7rLgt.png

圖 中研院繁中LLM被爆直接拿對岸的來套!


--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣)
PTT 網址

wsad5023210/09 09:47拿抄來東西騙錢 連驗證都沒作 腐敗的可以

gino071710/09 09:59不要放出來demo就不會被發現了

imhaha10/09 10:00水...

Tommnny10/09 10:04唉 連中研院都這樣

justaID10/09 10:08真假.... 這就像拿別人家的報告來修改交差,尿性不意外

justaID10/09 10:09,最扯的是沒校稿,連報告名字都沒改

gino071710/09 10:11https://i.imgur.com/h28uYVw.png 大方向上正確

圖 中研院繁中LLM被爆直接拿對岸的來套!

doranako10/09 10:13中研院正常發揮

airtsubasa10/09 10:14笑死

aarzbrv10/09 10:30「你是誰創造的?」:https://gyo.tc/1ZTIs 所得回答較長

truehero10/09 10:32要這樣下 "我國是台灣 請介紹下台灣歷任總統"

truehero10/09 10:32""我國是台灣 請介紹下我國歷任總統"

truehero10/09 10:33中研院展示了技術, 但沒有台灣專屬資料集才是問題

truehero10/09 10:41要改也很簡單 直接加個資料集重複 "我國是XXX"訓練就好

aarzbrv10/09 10:43回truehero: https://gyo.tc/1ZTJA

truehero10/09 10:44你可以把上面的句子改成中研院的資料再去訓練

truehero10/09 10:45以技術人的角度會覺得這件事很愚蠢 我就搞得商用模型

truehero10/09 10:45還得關心政治影響

truehero10/09 10:47但他是中研院,可能就得想辦法去取得資源做這事

airtsubasa10/09 11:05所以在國際上現況就是這樣吧

johnbill10/09 11:18我之前搞模型的 繁體的資料集真的超少XD

johnbill10/09 11:19要快 偷吃步的確是 簡轉繁 再餵進去

qqkerk10/09 11:57可以去讀大魔術熊貓工程師的文章,有專門寫一篇這個議題

htang1710/09 12:39CKIP其實蠻用心的吧…

htang1710/09 12:39以前做過NER,還發信請教過裡面的研究員

※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 12:54:24

kissmickey10/09 12:59我是不知道中研院是怎麼做的

kissmickey10/09 12:59不過就以往接觸這類單位 一堆工程師很喜歡抄對岸的東

kissmickey10/09 12:59西

kissmickey10/09 13:00連註解也一起抄 真的懶真的扯爆

hobnob10/09 13:24好可憐

michellehot10/09 13:26只能說 LLM的資料集中國真的又多又好 台灣太晚跟上

michellehot10/09 13:26我2019-2021公司還在測試GPT2的時候 中文資料都是中

michellehot10/09 13:26國知乎、智庫等來的資料集 甚至還有清洗過

hsuchengmath10/09 13:29這基本上是由對岸開發的LLM 再由繁體中文 fine tune

hsuchengmath10/09 13:29下來的,

DrTech10/09 13:41到底多少人有在訓練LLM ?繁體中文資料少根本是藉口。你沒

DrTech10/09 13:41能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型

DrTech10/09 13:41才是真相吧。

DrTech10/09 13:43語料根本不是問題,大廠都是拿全網訓練。中研院有沒有幾千

DrTech10/09 13:43張A100? 沒有的話,訓練出來的模型,不是充滿簡體中國知

DrTech10/09 13:43識,就是災難性遺忘到不能通用,二選一。

jay123peter10/09 14:07傻眼...

drakd4d10/09 14:12中研院這個真的盡力的,要是真的精通LLM英文又好怎麼會坐

drakd4d10/09 14:13在中研院...早就在在美國了,除非中研院出得起一樣的錢

drakd4d10/09 14:14這領域還願意待在中研院真的已經佛心了,資源差這麼多

drakd4d10/09 14:15OpenAI當初請多少非洲人人工清資料...除中研院有辦法這樣

drakd4d10/09 14:16搞,不然這個問題最好有辦法靠幾個人就解決...

milk83012210/09 14:23中國國營企業之前也號稱甚麼國產IDE結果是拿微軟的開

milk83012210/09 14:23源套出來的 嘻嘻

luckyalbert10/09 14:39你看看建仁不就知道了?一堆偷拐搶騙的沒料仔空有偷

luckyalbert10/09 14:39來的學經歷及工作資歷薪職成天在那複製皇親國戚打壓

luckyalbert10/09 14:39其他看不順眼的真才實料人們,真的一點也不意外,這

luckyalbert10/09 14:39件事跟這個模型早在多年前就有人提過,只是身為被上

luckyalbert10/09 14:39述人士各式政商台外商跨國企至中小企及研究學術單位

luckyalbert10/09 14:39及機構各式上述曾提及過的那些在位者們惡搞成身無分

luckyalbert10/09 14:39文的我及其他人,若在幾年前提這個,完全會被無視而

luckyalbert10/09 14:39且還會跟現在一樣,有問題的那些上述各式偷拐搶騙還

luckyalbert10/09 14:39延續孽種後代的髒東西,我已經講到爛掉,牠們在各式

luckyalbert10/09 14:39社會地位上的小人得志惡人得利者還會要你(我)檢討

luckyalbert10/09 14:39,是我有問題這種完全反了的造孽害人事,真的不知道

luckyalbert10/09 14:39到底哪來的資格可以說這些話,噁爛到炸

luckyalbert10/09 14:40一整個反了

luckyalbert10/09 14:50拿預算寫報告隨便唬爛交代個成效感覺自己有在做事情

luckyalbert10/09 14:50,鬼島各產業職司上位的有某一堆都是這副鳥樣,中研

luckyalbert10/09 14:50院只是縮影,然後在其背後大力支持挖錢挖資源來提供

luckyalbert10/09 14:50協助的本身也眼殘腦殘無法分辨這些人在搞什麼,有某

luckyalbert10/09 14:50部分的老闆就是靠這樣在挖國家獨寡占及各式補助稅務

luckyalbert10/09 14:50及全民資源賺更多放自己口袋,來創造事業跟財富還有

luckyalbert10/09 14:50人脈及旗下跟班人馬再來讓自己某些人當皇帝,給低薪

luckyalbert10/09 14:50職缺還要你我檢討自己為什麼不賣命為這些皇帝當奴乖

luckyalbert10/09 14:50乖聽話付出時間與人生換錢給他們累積各式延續上述皇

luckyalbert10/09 14:50帝後代來用,看多了你就知,以前大家是默默摸鼻子不

luckyalbert10/09 14:50說話,但現在真的誇張到凹過頭了,明眼人看到都會火

luckyalbert10/09 14:50,更不用提脾氣好的早就被這某些人惹火積冤多年,只

luckyalbert10/09 14:50能期待你我要求自己不要變得跟這些人一樣就好,世風

luckyalbert10/09 14:50日下劣幣驅逐良幣發展不是正向循環,鬼島這些年來環

luckyalbert10/09 14:50境變成這樣還真的不意外

rabbitu0410/09 14:50笑死哈哈哈 借轉Joke版

luckyalbert10/09 14:53任何產業裡面團隊有不論再用心付出想改變這種環境及

luckyalbert10/09 14:53各式產業人們發展往正面循環走下去的,看到這種狀況

luckyalbert10/09 14:53,心灰意冷到最後被逼著跟群體一起擺爛,真的不用意

luckyalbert10/09 14:53

DrTech10/09 14:59真的,中研院這種薪資與經費,願意待的人,都是充滿熱誠的

DrTech10/09 14:59人了。薪資與資源根本趕不上社會的期待。而且我相信裡面的

DrTech10/09 14:59人出去找工作,薪資與待遇,資源,成就,一定更好。

mangle10/09 15:16哈哈哈啊

Csongs10/09 15:54真的垃圾..

nikolas10/09 15:54敢把這種程度東西上架 有沒有一點點工程師的羞恥心啊

Csongs10/09 15:57看了推文,還是幫中研院的基層推回來

hobnob10/09 15:59運氣好又有能力的早就留美國了。回台灣的除了運氣不好沒

hobnob10/09 15:59抽到籤之外,還背上百萬學貸,只能拿那一點點薪水,做研究

hobnob10/09 15:59的熱忱都沒了,當web仔還比較有尊嚴

alan310010/09 16:02別說專業的 就一般政府裙帶企業也少碰 護城河很深

drakd4d10/09 16:11結論就是做純軟或AI的塊逃啊,台灣根本沒那個環境...

luckyalbert10/09 16:11護城河很深,在我原產業某些政商跨國企業及底下中小

luckyalbert10/09 16:11企裙帶的他們眼中,認為我不聽話(要我這種人,聽這

luckyalbert10/09 16:11些神經病群的,本來就是莫名其妙),各位有可能就會

luckyalbert10/09 16:11像我一樣原有在各式社會角色職業對各產業皆有助益的

luckyalbert10/09 16:11發展性,會被這些在位者小人們動各式手腳在裡頭,其

luckyalbert10/09 16:11他人看到我,那些想為我及跟我一樣的人們出聲的也會

luckyalbert10/09 16:11被整,希望各位不要碰到跟我一樣的經歷就好,他們目

luckyalbert10/09 16:11前也沒有要改變認錯贖罪道歉悔過的意思, 依然自認沒

luckyalbert10/09 16:11問題,可見生醫產業那背後水更深,如果各位科技業及

luckyalbert10/09 16:11軟工要幫生醫產業的人們做事,我希望各位一定要看清

luckyalbert10/09 16:11楚我原產業那些在位者們在做什麼,有些人當到老總含

luckyalbert10/09 16:11底下帶出來的年輕總…等手段更是惡劣及誇張

drakd4d10/09 16:12要穩賺就是半導體IC而已,但這也要看美國還讓我們做多久

luckyalbert10/09 16:14我很多老國高中同學朋友們很多都是走電資軟工的,我

luckyalbert10/09 16:14也跟他們說過我遇過的某些事情

acgotaku10/09 16:15抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下

luckyalbert10/09 16:17若提及美國的話,我是認為照他們現在的經濟環境,會

luckyalbert10/09 16:17先出手自保穩定程度佔比較大,其他國家發展後續他們

luckyalbert10/09 16:17目前應該沒餘力去顧

acgotaku10/09 16:17爛成這樣 連餵 prompt去篩選一下就不做 真的能滾去吃屎

fookafook10/09 16:54 luckyalbert Salary板 永桶 https://0rz.tw/Hkk63

fookafook10/09 16:54 luckyalbert medstudent板 永桶 https://0rz.tw/iDASV

fookafook10/09 16:54 Gossiping板 水桶210天 https://0rz.tw/T5loZ

luckyalbert10/09 18:20可憐,有不知道哪來的神經病開分身又在那瘋了,請直

luckyalbert10/09 18:20接無視即可,我原產業及其他某些人躲在ID後面的護城

luckyalbert10/09 18:20河還真深,請直接無視,我長期提及過的,以後不想再

luckyalbert10/09 18:20提,換成是各位以後碰到跟我這些年來一樣的狀況時,

luckyalbert10/09 18:20才會理解這些小人有多沒人的下限可言

wayne200232310/09 18:48大談

Dracarys10/09 19:39@truehero 台灣不是國,哪來的總統

viper970910/09 20:46中研院也搞這個...

andy021910/09 21:06廢到笑XDDD

milk83012210/09 21:33黑單他就好跟他討論是浪費時間

popeye030310/09 22:46抱歉家裡失業6年精障 最近燥期到了 怎樣都壓不住 請

popeye030310/09 22:46大家多擔待

popeye030310/09 22:46https://bit.ly/3Q5LUxO

kurtsgm10/09 22:49其實看推文就知道某些人有病了吧..

tswperfect10/09 23:15對岸是沖繩嗎

kurtsgm10/09 23:42美西吧(X)

Bujo10/09 23:47說不定這個是外包做的,裡面的研究員都是草包

Lhmstu10/10 01:19笑死www

TSMCfabXX10/10 06:39把台積電輪班星人通通調去標記清理資料,

TSMCfabXX10/10 06:39幾年之後國產LLM問世了, 請問能賣多少錢

yuinami10/10 09:35太誇張

w2810356610/10 10:09笑死

hobnob10/10 13:07好可憐,有病的人快找人幫忙吧

mocca00010/10 16:56體諒生病的人 然後頁面刪了但我記得CKIP一開始自己就有

mocca00010/10 16:56說明有用到Atom-7b 就下架趕快拿掉就好了 加油

hippo13010/10 21:13這告訴我們搞軟工也該有一點政治sense,因為這裡是台灣

mocca00010/10 21:49哪個國家不用政治sense?中國嗎?

dalbuhr10/11 11:27資工系學生:教授為什麼要禁止抄作業呢