[問卦] AI領域中的LLM會讓英語系國家更具優勢?
大型語言模型(LLM)在處理語言的時候
都無法避免要執行分詞的動作
所謂分詞就是把句子中的 主詞 動詞 介係詞 ...等
分離開來。
由於中文的特性,要進行分詞其實是很有挑戰的一件事;
反觀英文可以透過空白來分離單字,實作上真的比較輕鬆。
沒有要崇洋媚外,單純討論@@
PS:
最近使用Python套件來做文字辨識
也發現中文不但辨識又慢又肥,而且辨識正確率也不是很好
請問中文在未來的世界中還具有甚麼優勢嗎?
--
你的程式用中文寫 辨識中文效率才高
差在算法問題應該都能優化吧! 反正大力
出奇蹟。
樓上 程式只是邏輯表示 只是代號
優勢就在於高深度語言無法用LLM模擬
就像 y = a* x**2 寫成 丑 = 甲*子**2
多層次指涉、影射、隱喻、類比
差異度為零
不然用文言文編程也可
中英差異比較大是文法問題。英語系邏輯
跟時間性比較強烈!
非母語人士才覺得英語邏輯強
時間性漢語也可做得到 只是要不要這樣用
原來是這樣 抱歉獻醜了我文組
每句話都詳細說明時間地點人物主被動
不要在語境中省略
英語哪來講地點主被動 漢語被動性才強好嗎
把中文翻成英文再翻成中文
但是就是這差距,英語素材的訓練AI相比
台灣人講話喜歡乎(念ㄏㄡ\) 這超強被動性
文言文 丟到AI裡 學超快好嗎
中文就快很多。光是訓練AI學習效率就有
差別了。
今若諸位皆行以文研 人工智能但得習驟
言
The cat chased the mouse.
The mouse was chased by the cat.
英語弱指定(the)漢語也有 只是平常被省掉
這兩句強調的地方根據語境會有不同
LLM又不是靠邏輯分詞 是靠訓練
您說對了 我搞錯嚕 感謝
鼠逮乎於貓 天道也
模稜兩可的問題是語言特性
中文天生邏輯就很差
大勝和大敗居然是同個意思 笑死
樓上 是大多數人不想寫精確
要處理tokenization很看語言特性
寫在強迫人人寫文言文 要不?
早在NLP有基礎時就有人想玩古文
文言文不要說抓辭了 連斷句都省了
後來訓練很多困難
清晰與模糊 這個特性在LLM比較難訓練
吧 幾乎有大量的駢文語言 如日文韓文
中文 都有非常模糊的字
是文言文 不是古文 為何現代人不能寫文言?
就是這種不精確的邏輯 將文言與古文混淆
所指發散與收斂 道德經的例子就算是
沒人做研究而已 反正沒錢賺
誰說沒人... jieba 這套件都研究多久嚕
再來說漢語中文邏輯差? 還有 中文不是語言
一般人提到中文 就是口語的普通話啊
不然我們在說什麼語言?
那是普通漢語 不是中文 台語亦用中文書寫
他在說的是漢語跟文的語法差異
不管是什麼因素 我們說的大勝大敗
那閩南語寫出來的是什麼??
就是同個意思 就是邏輯很差
就像你用上海話講「上海話」這三個音
中文是書寫系統不是語言
跟用普通話講「上海話」的三個音
AI得賺錢商用落地必須在生活上能運用。
聽起來不同,書寫系統也是會演化的
中文的英文翻譯 是 chinese writing system
不是language
我們口語也常常非常模糊 意思意思這個
例子,你拿去訓練 不夠意思真不好意思
不過中文系跟歷史系倒是可以接合AI,這
要先再寫個情境偵測 才能提高準確
也會怕情境偵測無法還原完整
就不怕招不到學生。古文、詩經、史書正
很多笑話也是用雞同鴨講的情境落差
來表現
好可以投入中文AI學習訓練!中文系、歷史
用戶習慣問題,像名字與姓名混用也是大問題
系捨我其誰?
中文系教育太強調文辭優美 而非精確性
臺灣原住民族各族的命名規則也很有趣
對 越能產生優美詞句都是極模糊語言
不像英文可以提升剛性 可以很精確
活生生應用的語言彼此間都會交互影響
現在英文分詞也不是用空白了
英文、印歐語系也有「詩意的表達」
都是tokenizer自己切
中文也可以逐漸演化出精確性表達
英文只要辨識26種你看中文要辨識多少種
這就差多了
俳句也是極模糊,常常影射雙關 很煩
這就是語言有趣的地方
一種語言可以表現一種世界觀
不然中研院幹嘛抄共產党的東西
英文只有26種? 那要不說漢字只有八種(筆劃)
然後不要說什麼語言的精確性 文學及談
話都不存在完整的精確性
存在唷 你看純數學…
說句簡單的 吃飽了沒 你會覺得這人在
問你吃飽了沒嗎?
圖像辨識完進入語言組合 光第一步的辨
識就會造成多大的差距 自己想~
token不是用空白做分隔
Token 主流不是以字為單位 是類似字根字首
吧
那也是算出來的不是單純空白
比起這個 資料的數量和品質差距比較多
中文大勝敵軍=大敗敵軍 英文?
是 證明英文簡單
大勝,大敗,是省略了,"於" 別搞錯了
5
[問卦] =.= 台灣可不可能用英文取代中文?!=.= 我阿肥啦 我一直在想一件事 阿肥覺得中文很廢物 用腦袋記一堆圖像文字X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。5
Re: [閒聊] 美術系怎麼看待這次Ai繪圖事件?你說的那些的專業翻譯,都是該領域的研究者/教授翻的, 如果找個翻譯研究所畢業的人,那個人也是翻不出來啦。 不然就是要那個翻譯所畢業的人,去花一、兩個禮拜學專業領域的內容。 但就算學了。也不會比該領域研究者翻的正確。 但這種程度AI也做的到,就花時間讓他多讀該專業領域內容就好。5
Re: [心得] WWDC24節錄-系統級個人助理面世自己回自己的文,給想進入AI生活的人一點知識科普,順便闢謠一下網路上漫天飛的錯誤 資訊。 === 個人裝置跑『大模型、小模型』,大小如何定義? 以下節錄台大洪教授的臉書文字內容:2
Re: [題目] 怪物 介係詞後的動詞[解析]: 關於分詞當作形容詞的用法,我之前的文章有放過,那就大概節錄於下: 1. Vting--->表示「有...功能的」 ex. an answering machine(電話答錄機) a killing robot(殺人機器人)2
Re: [問題] 終極動員令重製版怎麼調中文我也困擾很久,終於試出怎麼用中文了XD 如果你的EA app是英文的話,從設定那改成中文 然後解安裝遊戲再重新安裝,這樣就是中文了 我猜EA app是辨識你app使用的語言來決定遊戲的語言1
Re: [問卦] 哪裡有在接案整合EXCEL生產動態報表先說我沒有想接案 按你的描述,我覺得你們的問題並不在於Excel,而是電子化+分析 電子化的部份,就是去買一台掃瞄器、一套光學辨識軟體,裝在一台規格還可以的電腦上 先把一張張的紙本都掃成電子檔, 再用光學辨識直接轉成一個個的Excel檔或其他試算表- ipad scribble 目前只有英文跟中文手寫輸入 不知道哪時候有他國語言 因此上網找到一款叫 Handwriting Keyboard 搭載myscript的手寫辨識技術 支援多語言 要價3.99USD 想請問是否有使用過的人並推薦呢?
- 各位好 在使用原況文字這功能時 似乎是跟著系統語言 如果系統語言是中文 去辨識日文就會是漢字+亂碼
爆
[爆卦] 連續4名勞動部長沒有勞工專業背景98
[問卦] 四爺剛剛被某台記者激怒88
[爆卦] 黃巾之亂采盟團根本是蹭球員慣犯!56
[問卦] 有人發現中國團隊運動都超爛!40
[問卦] 某些新聞台被關台不冤枉吧?61
[問卦] 台灣複姓還真的都是姓疊加 有很帥的嗎48
[問卦] 接機是誰主辦 弄成這樣爆
[問卦] 笑死 邰智源這麼嗆喔44
[問卦] 找一部保鑣跟女主談戀愛的電影?40
[問卦] 找一部當兵一直重來的片78
[問卦] 日本s級投手這麼多 昨天怎不早換?28
[問卦] 這次接機LIVE怎麼亂七八糟?27
[問卦] 他媽的穿黃衣的無禮大媽哪來的?17
[問卦] 棒球板是政黑二板嗎?19
[問卦] 那群穿黃色衣服的是誰? 補圖22
[問卦] 所謂的【最高規格】就這樣??41
[問卦] 中華隊也能有酷酷的外號了嗎?36
[問卦] 李連杰從影多年的醜聞只有利智嗎?86
[問卦] 幹你娘為什麼雲端發票又沒中???19
[問卦] 現在政府抽獎活動直接黑箱就是了?72
[問卦] 這晚餐210元你可以嗎?☺19
Re: [新聞] 任命拍馬屁的洪申翰接部長 媒體人解讀賴13
[問卦] 現在一個人在家,要幹嘛= =...?10
[問卦] 我相信ptt結果變成是白癡小丑4
[問卦] 中天新聞記者道歉17
[問卦]為啥很多人都認為國民政府比中共殘暴?14
[爆卦] 采盟的黃巾大媽 記者 立委14
[問卦] 辜董市長都不用上班嗎?16
[問卦] 找一部武俠做愛飛天的片27
[問卦] 台男173還算半殘嗎?