PTT推薦

[閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識

看板C_Chat標題[閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識作者
LABOYS
(洛城浪子)
時間推噓19 推:19 噓:0 →:22

https://twitter.com/KenAkamatsu/status/1547567317894463488

https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg



拜訪了(株)モルフォAIソリューションズ株式會社


我曾經闡述我的夢想是

「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」

沒想到負責該技術的就是這間公司。



古文書的圖像→文本轉化,以現在的技術已經非常高水準,

以後期待能朝著利用人工智慧的領域,
利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。


如果這個夢想成真,那麼其益處將是無法計量的。



--
「胡鐵花,我希望你以後知道,世上的女孩子,
並不是每個都像高亞男那麼好對付的,你覺得高亞男好對付,只因為她喜歡你。」

「不錯,從今以後,我再不敢說我會對付女人了,
我現在簡直恨不得跪在高亞男面前,去嗅她的腳。」
《楚留香傳奇‧大沙漠》

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.161.181.6 (臺灣)
PTT 網址
※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 21:58:25

spfy07/14 21:58GOOGLE:為什麼要花錢?

gox111707/14 21:58錢哪來

mattc123456c07/14 21:59掃描還要去比對吧?

medama07/14 21:59他這裡的古文書指的是古代日本的手寫草書字體,

medama07/14 21:59以前都要人工辨認,非常費時,

medama07/14 21:59現在技術已經可以用電腦辨認,

LLSGG07/14 21:59大圖書館計畫,

medama07/14 22:00今後的目標是用電腦靠前後文來提升字體辨認率

medama07/14 22:00不是單純舊書籍的意思

LLSGG07/14 22:00抓一下古文抄襲

※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 22:01:43

majohnman07/14 22:02先不論這件事的必要程度,畢竟將書本電子化的確可以以

majohnman07/14 22:02防萬一未來發生什麼事,但是全書的數字很龐大吧,要去

majohnman07/14 22:02哪生錢來搞這種事,政府也不會輕易撥款在這種事上吧

bestteam07/14 22:02GOOGLE能做到判別古文書????

mattc123456c07/14 22:03對於1樓,免費OCR服務不夠理想

a7108507/14 22:03中文有一個老外發起的網站叫做中國哲學書電子化計劃

cat05joy07/14 22:07OCR只是合標準的字體 字體一歪很容易辨識不到

spfy07/14 22:08GOOGLE以前是用reCAPTCHA叫大家幫他辨識 不是指用免費OCR

spfy07/14 22:09免費OCR連標準英文字體都會認錯

Bugquan07/14 22:10不會掃描後,做成驗證碼

qazxswptt07/14 22:17有點跑太多的感覺 不如先數位化 辨識以後再說

bladesinger07/14 22:22google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶

bladesinger07/14 22:22來進行人肉訓練AI

hinajian07/14 22:22免費的最貴

bladesinger07/14 22:22訓練到google的OCR對英文古書有特攻了

Bugquan07/14 22:24不過最大的問題還是錢

reccalin07/14 22:27這個真的成功會很棒 一堆古早論文都只有圖檔

inte629l07/14 22:32之後會有古文書的圖片來辨別50音嗎XD

discoveryray07/14 22:34研究生福音

michaelfat1907/14 22:47選上議員就是要爭取用政府的錢做這件事啊==

jasonchangki07/14 23:07這種就是整理期超苦但一旦成型超方便

nalthax07/14 23:13

newasus07/14 23:51OCR技術需求太高先不論 單純掃描的話不會花到非常多錢吧

newasus07/14 23:51應該幾千萬台幣內能搞定?

TsaiPC07/15 00:18日本國會圖書館目前一直有在做絕版書數位化,只是目前要看

TsaiPC07/15 00:18電子檔還是要到國會圖書館才行

nilr07/15 07:47

abucat07/15 09:01這個推

ui07/15 10:18這個推,現在在推AI的字元圖像辨認學習了

ui07/15 10:19如果持續擴大字元數據庫,那未來一本書電子化將會是幾秒內的事

ui07/15 10:20全文檢索與現行的影像數位化,還是有很大區別的