PTT推薦

[問卦] AI領域中的LLM會讓英語系國家更具優勢?

看板Gossiping標題[問卦] AI領域中的LLM會讓英語系國家更具優勢?作者
wa007123456
(大笨羊)
時間推噓14 推:15 噓:1 →:89

大型語言模型(LLM)在處理語言的時候

都無法避免要執行分詞的動作

所謂分詞就是把句子中的 主詞 動詞 介係詞 ...等

分離開來。

由於中文的特性,要進行分詞其實是很有挑戰的一件事;

反觀英文可以透過空白來分離單字,實作上真的比較輕鬆。

沒有要崇洋媚外,單純討論@@

PS:

最近使用Python套件來做文字辨識

也發現中文不但辨識又慢又肥,而且辨識正確率也不是很好

請問中文在未來的世界中還具有甚麼優勢嗎?


--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.176.154.165 (澳大利亞)
PTT 網址

bill403777 07/11 14:31你的程式用中文寫 辨識中文效率才高

stlinman 07/11 14:31差在算法問題應該都能優化吧! 反正大力

stlinman 07/11 14:32出奇蹟。

KILLE 07/11 14:32樓上 程式只是邏輯表示 只是代號

donation12 07/11 14:32優勢就在於高深度語言無法用LLM模擬

KILLE 07/11 14:33就像 y = a* x**2 寫成 丑 = 甲*子**2

donation12 07/11 14:33多層次指涉、影射、隱喻、類比

KILLE 07/11 14:33差異度為零

KILLE 07/11 14:34不然用文言文編程也可

stlinman 07/11 14:34中英差異比較大是文法問題。英語系邏輯

stlinman 07/11 14:34跟時間性比較強烈!

KILLE 07/11 14:35非母語人士才覺得英語邏輯強

KILLE 07/11 14:35時間性漢語也可做得到 只是要不要這樣用

bill403777 07/11 14:35原來是這樣 抱歉獻醜了我文組

donation12 07/11 14:36每句話都詳細說明時間地點人物主被動

donation12 07/11 14:37不要在語境中省略

KILLE 07/11 14:37英語哪來講地點主被動 漢語被動性才強好嗎

JuiFu617 07/11 14:37把中文翻成英文再翻成中文

stlinman 07/11 14:37但是就是這差距,英語素材的訓練AI相比

KILLE 07/11 14:38台灣人講話喜歡乎(念ㄏㄡ\) 這超強被動性

KILLE 07/11 14:38文言文 丟到AI裡 學超快好嗎

stlinman 07/11 14:38中文就快很多。光是訓練AI學習效率就有

stlinman 07/11 14:38差別了。

KILLE 07/11 14:39今若諸位皆行以文研 人工智能但得習驟

KILLE 07/11 14:40

donation12 07/11 14:40The cat chased the mouse.

donation12 07/11 14:40The mouse was chased by the cat.

KILLE 07/11 14:40英語弱指定(the)漢語也有 只是平常被省掉

donation12 07/11 14:41這兩句強調的地方根據語境會有不同

StarTouching 07/11 14:41LLM又不是靠邏輯分詞 是靠訓練

您說對了 我搞錯嚕 感謝

KILLE 07/11 14:41鼠逮乎於貓 天道也

StarTouching 07/11 14:41模稜兩可的問題是語言特性

StarTouching 07/11 14:42中文天生邏輯就很差

StarTouching 07/11 14:42大勝和大敗居然是同個意思 笑死

KILLE 07/11 14:42樓上 是大多數人不想寫精確

donation12 07/11 14:42要處理tokenization很看語言特性

KILLE 07/11 14:42寫在強迫人人寫文言文 要不?

donation12 07/11 14:43早在NLP有基礎時就有人想玩古文

KILLE 07/11 14:43文言文不要說抓辭了 連斷句都省了

donation12 07/11 14:43後來訓練很多困難

selvester 07/11 14:44清晰與模糊 這個特性在LLM比較難訓練

selvester 07/11 14:44吧 幾乎有大量的駢文語言 如日文韓文

selvester 07/11 14:44中文 都有非常模糊的字

KILLE 07/11 14:44是文言文 不是古文 為何現代人不能寫文言?

KILLE 07/11 14:45就是這種不精確的邏輯 將文言與古文混淆

selvester 07/11 14:45所指發散與收斂 道德經的例子就算是

qwe78971 07/11 14:45沒人做研究而已 反正沒錢賺

誰說沒人... jieba 這套件都研究多久嚕

KILLE 07/11 14:45再來說漢語中文邏輯差? 還有 中文不是語言

StarTouching 07/11 14:47一般人提到中文 就是口語的普通話啊

StarTouching 07/11 14:47不然我們在說什麼語言?

KILLE 07/11 14:48那是普通漢語 不是中文 台語亦用中文書寫

donation12 07/11 14:48他在說的是漢語跟文的語法差異

StarTouching 07/11 14:48不管是什麼因素 我們說的大勝大敗

KILLE 07/11 14:48那閩南語寫出來的是什麼??

StarTouching 07/11 14:48就是同個意思 就是邏輯很差

donation12 07/11 14:48就像你用上海話講「上海話」這三個音

KILLE 07/11 14:49中文是書寫系統不是語言

donation12 07/11 14:49跟用普通話講「上海話」的三個音

※ 編輯: wa007123456 (210.176.154.165 澳大利亞), 07/11/2024 14:50:13

stlinman 07/11 14:49AI得賺錢商用落地必須在生活上能運用。

donation12 07/11 14:49聽起來不同,書寫系統也是會演化的

KILLE 07/11 14:49中文的英文翻譯 是 chinese writing system

KILLE 07/11 14:50不是language

selvester 07/11 14:50我們口語也常常非常模糊 意思意思這個

selvester 07/11 14:50例子,你拿去訓練 不夠意思真不好意思

stlinman 07/11 14:50不過中文系跟歷史系倒是可以接合AI,這

selvester 07/11 14:50要先再寫個情境偵測 才能提高準確

donation12 07/11 14:51也會怕情境偵測無法還原完整

stlinman 07/11 14:51就不怕招不到學生。古文、詩經、史書正

donation12 07/11 14:51很多笑話也是用雞同鴨講的情境落差

donation12 07/11 14:51來表現

stlinman 07/11 14:52好可以投入中文AI學習訓練!中文系、歷史

KILLE 07/11 14:52用戶習慣問題,像名字與姓名混用也是大問題

stlinman 07/11 14:52系捨我其誰?

KILLE 07/11 14:53中文系教育太強調文辭優美 而非精確性

donation12 07/11 14:53臺灣原住民族各族的命名規則也很有趣

selvester 07/11 14:54對 越能產生優美詞句都是極模糊語言

selvester 07/11 14:54不像英文可以提升剛性 可以很精確

donation12 07/11 14:55活生生應用的語言彼此間都會交互影響

※ 編輯: wa007123456 (210.176.154.165 澳大利亞), 07/11/2024 14:56:15

meatybobby 07/11 14:55現在英文分詞也不是用空白了

donation12 07/11 14:55英文、印歐語系也有「詩意的表達」

meatybobby 07/11 14:55都是tokenizer自己切

donation12 07/11 14:56中文也可以逐漸演化出精確性表達

a77942002 07/11 14:56英文只要辨識26種你看中文要辨識多少種

a77942002 07/11 14:56 這就差多了

selvester 07/11 14:56俳句也是極模糊,常常影射雙關 很煩

donation12 07/11 14:56這就是語言有趣的地方

donation12 07/11 14:56一種語言可以表現一種世界觀

jim543000 07/11 15:00不然中研院幹嘛抄共產党的東西

KILLE 07/11 15:01英文只有26種? 那要不說漢字只有八種(筆劃)

jim543000 07/11 15:03然後不要說什麼語言的精確性 文學及談

jim543000 07/11 15:03話都不存在完整的精確性

selvester 07/11 15:04存在唷 你看純數學…

jim543000 07/11 15:04說句簡單的 吃飽了沒 你會覺得這人在

jim543000 07/11 15:04問你吃飽了沒嗎?

a77942002 07/11 15:05圖像辨識完進入語言組合 光第一步的辨

a77942002 07/11 15:05識就會造成多大的差距 自己想~

KJC1004 07/11 15:13token不是用空白做分隔

newwu 07/11 15:30Token 主流不是以字為單位 是類似字根字首

newwu 07/11 15:31

newwu 07/11 15:39那也是算出來的不是單純空白

newwu 07/11 15:39比起這個 資料的數量和品質差距比較多

minicess 07/11 15:50中文大勝敵軍=大敗敵軍 英文?

milkBK 07/11 17:24是 證明英文簡單

atbb 07/11 18:50大勝,大敗,是省略了,"於" 別搞錯了