PTT推薦

Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢?

看板Gossiping標題Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢?作者
bluebluelan
(鈴谷のあまあま写生管理)
時間推噓 5 推:5 噓:0 →:0

其實光是中文資料不斷地消失這件事情

用中文資料訓練的LLM效果自然不會太好


中文的網路資料這幾年不斷消失 原因無他 很多中文圈的網路公司沒錢收掉

這些資料就可能從世界上消失 等於中文的訓練資料無法累積

資料不夠 模型再大也沒用


現在英文圈把整個網路的文本資料拿來訓練不夠 開始再把影片轉化成文字抓來練

而且網路公司基本上都是英文圈的 資料最多最有錢 要賺錢也是優先做英文的


現在網路公司是美國獨大 中文的LLM不是他們加減做 就是中國的網路公司做

台灣現在沒有公司有那個財力從頭做一個llama2等級的模型


※ 引述《wa007123456 (大笨羊)》之銘言:
: 大型語言模型(LLM)在處理語言的時候
: 都無法避免要執行分詞的動作
: 所謂分詞就是把句子中的 主詞 動詞 介係詞 ...等
: 分離開來。
: 由於中文的特性,要進行分詞其實是很有挑戰的一件事;
: 反觀英文可以透過空白來分離單字,實作上真的比較輕鬆。
: 沒有要崇洋媚外,單純討論@@
: PS:
: 最近使用Python套件來做文字辨識
: 也發現中文不但辨識又慢又肥,而且辨識正確率也不是很好
: 請問中文在未來的世界中還具有甚麼優勢嗎?

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.70.97.250 (美國)
PTT 網址

lianpig5566 07/11 14:52翻譯成中文再訓練也是一種解法

wa007123456 07/11 15:00長知識。 感謝

Vincent8026 07/11 15:03直接用語音訊號訓練,不要轉文字

selvester 07/11 15:09同意

stlinman 07/11 15:18聯發科表示: