Re: [問卦] 中研院自己做的大型語言模型怎麼了?
※ 引述《messi5566 (虹粉)》之銘言:
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png


: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
這個是不是被刪掉了啊
我都還沒玩到
請問有人有備份嗎?
想問中華民國的問題0.0
--
※ PTT留言評論
爆
首Po中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果![[問卦] 中研院自己做的大型語言模型怎麼了? [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/I1zNnIab.png)
49
國安危機來了 我剛問他兩個問題 1. 台灣是不是中國的一部分![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/cNIk8q4b.jpeg)
X
這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/GQlNhZjb.jpg)
X
整天在反西方文化跟反英語的國民黨義和團看過來 用中文訓練ai成本比英文高3倍起跳啦 訓練完後面還要不斷砸錢更新維護 GPT創辦人說拿來一部份微軟10億美元 GPT創辦人說微軟還要給100億美元55
阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/TT58ZZCb.png)
X
支那china共和國republic 中研院 官方英文名稱:Academia Sinica = 支那的 研究院 成立於:1928年的支那上海 本來從裏到外都是支那的形狀,使用china的語言數據庫也屬於天經地義吧。 説句題外話,連基礎科研上還要講意識形態,也是沒誰了。![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/23jC7meb.jpg)
爆
[爆卦] 中央研究院詞庫小組大型語言模型不知道這研究案領多少錢?![[爆卦] 中央研究院詞庫小組大型語言模型 [爆卦] 中央研究院詞庫小組大型語言模型](https://cdn-thumbnails.huggingface.co/social-thumbnails/spaces/ckiplab/CKIP-Llama-2-7b-chat.png)
34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎![[討論] 中研院繁中LLM被爆直接拿對岸的來套! [討論] 中研院繁中LLM被爆直接拿對岸的來套!](https://i.imgur.com/phwhfclb.png)
27
[問卦] 中研院推出的繁體中文系統來自匪區?微博知名博主發文嘲笑說 近日台灣中研院推出的繁體中文大型語言模式 竟然來自中國上 海智能實驗室?是真的嘛?有無掛?![[問卦] 中研院推出的繁體中文系統來自匪區? [問卦] 中研院推出的繁體中文系統來自匪區?](https://i.imgur.com/TKxKFK4b.jpg)
X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://llama-chat-4fcmny015-replicate.vercel.app/opengraph-image.png?0806238e04f3e3af)
6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然7
Re: [爆卦] 中央研究院詞庫小組大型語言模型本魯也很好奇問了一些問題, 首先是比較基礎的: 接著是大家都知道的:![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/zKhx1A2b.jpg)
6
Re: [爆卦] 中央研究院詞庫小組大型語言模型這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/zSPlmC5b.jpg)

