PTT推薦

Re: [閒聊] Neuro真的有辦法做到理解圖像嗎

看板C_Chat標題Re: [閒聊] Neuro真的有辦法做到理解圖像嗎作者
aria0520
(紫)
時間推噓 2 推:2 噓:0 →:2

大型語言模型本質上是文字接龍

你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字

當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token

接下來做的事情就一樣了 把這串濃縮feature token餵給模型

搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止

input是圖像時的難點是那個資訊壓縮模型

一般來說 這種模型是透過海量的圖片-文字描述pair訓練而成

例如 一張拆彈遊戲的圖片 和一段文字"這張圖裡包含了一張桌子 一個炸彈 顏色..."

但除了圖片解析度有限以外 文字畢竟是一維資訊 難以精準描述二維的圖片

頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型

不然就是要往Gemini這種原生多模態模型

或甚至擺脫文字接龍框架 世界模型方向走

學界有一派覺得語言模型有其極限 這就是其中一個原因

畢竟人類不是只靠文字理解世界

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣)
PTT 網址

chenyeart12/31 15:27看Neuro會玩geoguessr,Vedal應該克服了?

spfy12/31 15:29他也是想辦法把這些東西串起來吧 這些演算法和模型都不是

spfy12/31 15:30一個人或一個小團隊能做到的

bitcch12/31 15:42GPT才是文字接龍 但LLM也不止GPT一種