Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢?

bluebluelan 發表於 2024/7/11 下午2:44:13

看板Gossiping標題Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢?作者

(鈴谷のあまあま写生管理)時間Jul 11 14:44:13 2024推噓 5 推:5 噓:0 →:0

其實光是中文資料不斷地消失這件事情

用中文資料訓練的LLM效果自然不會太好

中文的網路資料這幾年不斷消失原因無他很多中文圈的網路公司沒錢收掉

這些資料就可能從世界上消失等於中文的訓練資料無法累積

資料不夠模型再大也沒用

現在英文圈把整個網路的文本資料拿來訓練不夠開始再把影片轉化成文字抓來練

而且網路公司基本上都是英文圈的資料最多最有錢要賺錢也是優先做英文的

現在網路公司是美國獨大中文的LLM不是他們加減做就是中國的網路公司做

台灣現在沒有公司有那個財力從頭做一個llama2等級的模型

※ 引述《wa007123456 (大笨羊)》之銘言：
: 大型語言模型(LLM)在處理語言的時候
: 都無法避免要執行分詞的動作
: 所謂分詞就是把句子中的主詞動詞介係詞 ...等
: 分離開來。
: 由於中文的特性，要進行分詞其實是很有挑戰的一件事；
: 反觀英文可以透過空白來分離單字，實作上真的比較輕鬆。
: 沒有要崇洋媚外，單純討論@@
: PS:
: 最近使用Python套件來做文字辨識
: 也發現中文不但辨識又慢又肥，而且辨識正確率也不是很好
: 請問中文在未來的世界中還具有甚麼優勢嗎?

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.70.97.250 (美國)

推

lianpig5566 07/11 14:52翻譯成中文再訓練也是一種解法

推

wa007123456 07/11 15:00長知識。感謝

推

Vincent8026 07/11 15:03直接用語音訊號訓練，不要轉文字

推

selvester 07/11 15:09同意

推

stlinman 07/11 15:18聯發科表示:

同系列文章

[問卦] AI領域中的LLM會讓英語系國家更具優勢?

```
14 
```
首Powa007123456：大型語言模型(LLM)在處理語言的時候都無法避免要執行分詞的動作所謂分詞就是把句子中的主詞動詞介係詞 ...等分離開來。由於中文的特性，要進行分詞其實是很有挑戰的一件事；

其他人也閱讀了

PTT 熱門相關

Gossiping最新熱門推薦

🔥🔥🔥