Re: [新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI
※ 引述《monnom (桂)》之銘言:
: 中研院 AI 大翻車!繁中大型語言模型 CKIP-Llama-2-7b 目前已下架
: 他也認為,AI 時代的競爭,需強化台灣在地用詞的資料收集、建立資料集,建立熟悉台: 灣在地文化的 AI,視為國防/國安投資,有急迫性和必要性。
: 另有 PTT 網友做測試,發現問一些敏感問題,基本上回答都相當「出乎意料」,也不難: 理解語言模型緊急下架的原因。
那個 我記得以前的新聞是這樣講的
防止簡體版AI偏見,產官學聯手開發繁體版AI語音模型
聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點,更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展,此次結合中研院及國教院,成為台灣極少數能訓練大型語言模型的團隊,既發展自主訓練大型人工智慧模型的能力,也讓繁體中文的大型語言模型研究及應用更為普及。」
有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,在2022年5月,聯發創新基地、中央研究院和國家教育研究院展開合作計畫,使用大型語言模型BLOOM的繁體中文模型再訓練與優化。
【台版ChatGPT來了!聯發科、中研院、國教院低調開發 宣布完成AI語言生成模型】
出處:信傳媒( https://www.cmmedia.com.tw/home/articles/38789 )
結果開發了 繁體AI偏見
號稱防止簡中入侵 代碼兩岸一家親
ㄎㄎ
--
如果找不到不愛你或愛你的理由
▁▁
都可以是愛你或不愛你的理由 ▕A6▏
▕出品▏
我想你要的是愛 不是理由  ̄ ̄
--
上行下效,台灣難怪詐騙橫行
出包的不是這一個
紅共綠共都是共 不要分那麼清楚
出包的是只有30萬預算的簡轉繁
AI瑋豐出來玩
發哥那個我記得資料收集蠻多的
許大山許大山許大山許大山許大山出來打球
原來是聯發科害中研院翻車(?
欸... ? 中研院和這個是同一個團隊嗎?
結果還是抄簡體文本 笑死
這根本片經費吧?
先說,這是不同的...
聯發的你查 bloom-1b1-zh就有了
至於是不是同團隊就不清楚
整個團隊廢掉好了 領多少錢
竹篙湊菜刀 這玩的是同一個AI語言模型???
感覺好像菸酒生寫計劃騙經費的橋段
爆
[爆卦] 中央研究院詞庫小組大型語言模型不知道這研究案領多少錢?爆
[問卦] 中研院自己做的大型語言模型怎麼了?中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然6
Re: [爆卦] 中央研究院詞庫小組大型語言模型這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答X
[閒聊]ChatGPT:區塊鏈與語言模型:數位革新的合力前幾天看到文章説 已經有人利用FB洩漏的資訊在筆電上實現類似ChatGPT的技術 所以我試著問GPT一些問題 獲得一些心得 分享給大家 所以以下的文章是ChatGPT寫的,包含標題XDD 有興趣請往下慢慢看~ (至於FB洩漏什麼 請自行搜尋 我網址沒存XD)X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?支那china共和國republic 中研院 官方英文名稱:Academia Sinica = 支那的 研究院 成立於:1928年的支那上海 本來從裏到外都是支那的形狀,使用china的語言數據庫也屬於天經地義吧。 説句題外話,連基礎科研上還要講意識形態,也是沒誰了。
爆
Re: [爆卦] 神脆友破解發現 中国身份證號碼 查詢方法爆
[問卦] 瘋狂機師詹姆士有料嗎?爆
[爆卦] 神脆友破解發現 中国身份證號碼 查詢方法爆
[問卦] 「信義房屋尾牙像災難」的新聞被下架了?爆
Re: [新聞] 快新聞/柯文哲再被羈押「原告」鍾小平83
[問卦] 如何一次對付兩個共產黨==90
[爆卦] TVBS主播:喜歡一言堂的剛好都是柯黑?47
[問卦] 摸到女同事玉手她立刻抽回來是害羞嗎?爆
Re: [新聞] 最慘龍年!新生兒數不到13萬「創新低」45
[爆卦] 台鐵出軌了42
[問卦] 爬山是不是一個冷血的團體運動爆
[問卦] 現今社會氛圍會讓你離開台灣嗎爆
Re: [新聞] 柯遭司法追殺 藍白合默契漸佳26
[問卦] 可以確定台灣人是挺共產的沒錯吧==爆
[問卦] 為什麼駕訓班教練都沒什麼耐心?35
Re: [爆卦] 神脆友破解發現 中国身份證號碼 查詢方法90
[問卦] 1.11大家也要做什麼事嗎?22
[問卦] 我看完新的高車了,堪比世界第八大奇蹟!25
[問卦] 在象山被丟包怎麼辦??????????30
[問卦] 爬山那麼危險為什麼還一堆人爬?29
[問卦] 1/11我們要去哪裡27
[問卦] 山友很多自私雞掰人是都市傳說嗎23
[問卦] 沒人發現橘子提的動一千萬很可怕嗎26
Re: [新聞] 最慘龍年!新生兒數不到13萬「創新低」26
Re: [新聞] 扯!網路揪團爬南一段 女山友身體不適慘40
[問卦] 便宜行事...很爽吧?3X
[問卦] 為什麼八卦要一直護航貪污犯27
[問卦] 13萬那批長大後 會遇到什麼事情75
Re: [新聞] 柯遭司法追殺 藍白合默契漸佳63
[問卦] 為什麼法官裁定可以兩套標準 ?