PTT推薦

Re: [問卦] 繁簡轉換程式為何面麵、后後不分?

看板Gossiping標題Re: [問卦] 繁簡轉換程式為何面麵、后後不分?作者
liquidbox
(樹枝擺擺)
時間推噓 5 推:5 噓:0 →:2

※ 引述《reppoc (稍會)》之銘言:
: 我知道是因為繁體的後=簡體的后字
: 繁體的麵=簡體的面字,
: 簡體轉繁體時,
: 明明只要把所有有關字詞取代成正確的就好,
: 也沒多少個特例,
: 繁簡轉換程式就是做不到,
: 常常看YT影片字幕都會看到面麵不分、
: 后後不分,強迫症發作實在讓人很不舒服。
: 為什麼都沒有要改?
: 卦?
因為書寫的中文不像書寫的英文,有用空格分開成一個個的token,
書時使用的人造符號比較少,以致後面要用電腦處理時困難較大,
具體來說,就是中文的tokenization會比英文的tokenization更可能造成不理想的效果

例如:
后面>後面(O)
皇后面對質問>皇後面對質問(X)

結論是,不能隨便拿份對照表來匹配,很危險

如果書寫中文有人造符號事先切割成「皇后 面對 質問」
那用簡轉繁工具可以用最簡單的對照表、依匹配原則先長後短的方式處理
所以簡體版的「皇后」優先配對到,對應成正體版的「皇后」
(當然如果pattern長度一致時該先匹配誰又是另一個問題)

整體來說,書寫英文的人造符號比中文多,所以不只簡繁互換,
在很多事情上,書寫英文要處理起來相對問題比較少,
例如英文句首必然是大寫,但中文沒有大寫,
句首必為大寫,可以是一個很好用的規則,
例如一篇文章中,.?!"'等符號,後面接的1或2個空格後,理應出現大寫(當然有例外)

書寫中文當然也有人造符號,標點符號就是一個,
早期中文書籍是沒有標點符號的,至少沒有統一的標點符號

反過來說,書寫英文多了空格,在電腦處理上比書寫中文方便許多,
但也是有人主張應該反璞歸真,
取消書寫體中的人造符號,例如空格及標點符號,讓書寫更接近口語,
也就是讓「文」更接近「語」,不過幸好這種言論太邊緣了沒人理

但由於書寫中文在第一時間使用的人造符號比較少,後續要彌補已經很難,
除非用AI處理tokenization有極高準確率,
然後文章要先經過AI的tokenization後再去簡繁轉換,
不然后後不符、面麵不分不可能解決

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.249.160.187 (臺灣)
PTT 網址

zero00072 10/09 20:49一勞永逸法就是在來源端就規範簡體鄉

zero00072 10/09 20:49民輸入後、麵。

z80680613 10/09 20:53一勞永逸法就是把當初提簡化字的被消失

kaube 10/09 20:55不是啊 我看他們靈位也寫皇後啊

tbrs 10/09 21:05用錯太久就變笨了 變文盲

selvester 10/09 21:05後后 翻一次看看?

littlex2 10/09 22:04認真回 推一下