[閒聊] 赤松健：國圖全書籍光學字元建置和AI辨識

LABOYS 發表於 2022/7/14 下午9:57:45

看板C_Chat標題[閒聊] 赤松健：國圖全書籍光學字元建置和AI辨識作者

LABOYS

(洛城浪子)時間Jul 14 21:57:45 2022推噓19 推:19 噓:0 →:22

https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg

拜訪了(株)モルフォＡＩソリューションズ株式會社

我曾經闡述我的夢想是

「國會圖書館的全書籍都以光學字元辨認技術來建置，並且可以進行全文檢索為目標」

沒想到負責該技術的就是這間公司。

古文書的圖像→文本轉化，以現在的技術已經非常高水準，

以後期待能朝著利用人工智慧的領域，
利用到AI來判斷前後的文字脈絡或用字遣詞，這樣的目標邁進。

如果這個夢想成真，那麼其益處將是無法計量的。

--
「胡鐵花，我希望你以後知道，世上的女孩子，
並不是每個都像高亞男那麼好對付的，你覺得高亞男好對付，只因為她喜歡你。」

「不錯，從今以後，我再不敢說我會對付女人了，
我現在簡直恨不得跪在高亞男面前，去嗅她的腳。」
《楚留香傳奇‧大沙漠》

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.161.181.6 (臺灣)

※ PTT 網址

※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 21:58:25

→

spfy07/14 21:58GOOGLE：為什麼要花錢?

→

gox111707/14 21:58錢哪來

推

mattc123456c07/14 21:59掃描還要去比對吧？

→

medama07/14 21:59他這裡的古文書指的是古代日本的手寫草書字體，

→

medama07/14 21:59以前都要人工辨認，非常費時，

→

medama07/14 21:59現在技術已經可以用電腦辨認，

推

LLSGG07/14 21:59大圖書館計畫，

→

medama07/14 22:00今後的目標是用電腦靠前後文來提升字體辨認率

→

medama07/14 22:00不是單純舊書籍的意思

→

LLSGG07/14 22:00抓一下古文抄襲

※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 22:01:43

推

majohnman07/14 22:02先不論這件事的必要程度，畢竟將書本電子化的確可以以

→

majohnman07/14 22:02防萬一未來發生什麼事，但是全書的數字很龐大吧，要去

→

majohnman07/14 22:02哪生錢來搞這種事，政府也不會輕易撥款在這種事上吧

推

bestteam07/14 22:02GOOGLE能做到判別古文書????

推

mattc123456c07/14 22:03對於1樓，免費OCR服務不夠理想

→

a7108507/14 22:03中文有一個老外發起的網站叫做中國哲學書電子化計劃

→

cat05joy07/14 22:07OCR只是合標準的字體字體一歪很容易辨識不到

→

spfy07/14 22:08GOOGLE以前是用reCAPTCHA叫大家幫他辨識不是指用免費OCR

→

spfy07/14 22:09免費OCR連標準英文字體都會認錯

推

Bugquan07/14 22:10不會掃描後，做成驗證碼

→

qazxswptt07/14 22:17有點跑太多的感覺不如先數位化辨識以後再說

推

bladesinger07/14 22:22google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶

→

bladesinger07/14 22:22來進行人肉訓練AI

推

hinajian07/14 22:22免費的最貴

→

bladesinger07/14 22:22訓練到google的OCR對英文古書有特攻了

推

Bugquan07/14 22:24不過最大的問題還是錢

推

reccalin07/14 22:27這個真的成功會很棒一堆古早論文都只有圖檔

→

inte629l07/14 22:32之後會有古文書的圖片來辨別50音嗎XD

推

discoveryray07/14 22:34研究生福音

推

michaelfat1907/14 22:47選上議員就是要爭取用政府的錢做這件事啊==

推

jasonchangki07/14 23:07這種就是整理期超苦但一旦成型超方便

推

nalthax07/14 23:13耶

推

newasus07/14 23:51OCR技術需求太高先不論單純掃描的話不會花到非常多錢吧

→

newasus07/14 23:51應該幾千萬台幣內能搞定？

推

TsaiPC07/15 00:18日本國會圖書館目前一直有在做絕版書數位化，只是目前要看

→

TsaiPC07/15 00:18電子檔還是要到國會圖書館才行

推

nilr07/15 07:47推

推

abucat07/15 09:01這個推

推

ui07/15 10:18這個推，現在在推AI的字元圖像辨認學習了

→

ui07/15 10:19如果持續擴大字元數據庫，那未來一本書電子化將會是幾秒內的事

→

ui07/15 10:20全文檢索與現行的影像數位化，還是有很大區別的

同系列文章

Re: [閒聊] 赤松健：國圖全書籍光學字元建置和AI辨識

```
 8 
```
medama：他這裡的古文書指的是古代日本的手寫草書字體，不是單純舊書籍的意思以前都要人工辨認，非常費時，現在技術已經可以用電腦辨認，今後的目標是用電腦靠前後文來提升字體辨認率

其他人也閱讀了

PTT 熱門相關