Re: [閒聊] Neuro真的有辦法做到理解圖像嗎
大型語言模型本質上是文字接龍
你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字
當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token
接下來做的事情就一樣了 把這串濃縮feature token餵給模型
搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止
input是圖像時的難點是那個資訊壓縮模型
一般來說 這種模型是透過海量的圖片-文字描述pair訓練而成
例如 一張拆彈遊戲的圖片 和一段文字"這張圖裡包含了一張桌子 一個炸彈 顏色..."
但除了圖片解析度有限以外 文字畢竟是一維資訊 難以精準描述二維的圖片
頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型
不然就是要往Gemini這種原生多模態模型
或甚至擺脫文字接龍框架 世界模型方向走
學界有一派覺得語言模型有其極限 這就是其中一個原因
畢竟人類不是只靠文字理解世界
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣)
※ PTT 網址
推
看Neuro會玩geoguessr,Vedal應該克服了?
→
他也是想辦法把這些東西串起來吧 這些演算法和模型都不是
→
一個人或一個小團隊能做到的
推
GPT才是文字接龍 但LLM也不止GPT一種
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/TT58ZZCb.png)
34
[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?雖然下了很農場的標題 但這一篇認真的研究論文 大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎 在一年前可能沒有錯 但經過最近的突飛猛進 故事已經進入了新的轉捩點![[閒聊] 驚!看色圖不求人 AI是否也能畫色圖? [閒聊] 驚!看色圖不求人 AI是否也能畫色圖?](https://i.imgur.com/IW9jLzHb.jpg)
X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://llama-chat-4fcmny015-replicate.vercel.app/opengraph-image.png?0806238e04f3e3af)
9
Re: [新聞] 搶太妍門票僅須4秒!警破獲首宗AI搶票黃牛 逮30歲台大畢阿肥外商碼農阿肥啦! 其實就是使用langchain加上類GPT 3.5-4(當前很多開源的,一張4090就可以運行起來), 透過模型輔助加上langchain可以直接接上Google等搜索引擎或特定網站解鎖語言模型讀 取最新資訊的能力,這樣就可以規避掉官方要識別人類(粉絲?)的特殊問題。 然後圖片驗證識別這個目前就被玩爛開源Acc都可以到99%以上了,基本上你想用CNN或swi6
Re: [問卦] ChatGPT改變了什麼行為模式?行? : : 業都發揮著重要作用,對許多人的生活產生了深遠影響。我想請問各位前輩,究竟Ch at : : T改變了哪些行為模式呢? : : 希望大家能分享一些寶貴的經驗和看法,讓我對ChatGPT及其對社會行為模式的影響![Re: [問卦] ChatGPT改變了什麼行為模式? Re: [問卦] ChatGPT改變了什麼行為模式?](https://img.youtube.com/vi/Q_pH-dhU8QM/mqdefault.jpg)
4
[情報] 首個中文SD模型開源:太乙對岸那邊IDEA研究院中的封神榜團隊釋出了第一個以中文為基礎的SD模型:太乙,已經可以在 Huggingface上面取得,這是基於SD1.4模型重新訓練了中文語言模型以取代原本的英文編碼器,但鎖定了圖像產生器,在一億級的中文語料庫上跑了24個epoch 另外一個中英文混合的模型則是同時fine-tune了語言編碼器以及圖像產生器。 這是他們的第一個 checkpoints 而且進行了開源,不過由於他們修改過編碼器的結構,所以模型不能直接丟進去 webui 裡面跑,團隊有提供修改版本以及修改辦法。 根據他們給的測試樣本來看,這個模型不但能理解白話文,更能理解文言文,像是唐詩,宋詞甚至駢文都沒有問題。2
Re: [問卦] 美軍陸戰隊學《潛龍諜影》紙箱潛行戰術,阿肥外商碼農阿肥啦! 其實這在機器學習/深度學習領域當前還是一個資安攻防戰的大問哉,尤其是圖像領域其實 從攝影機取得的數據,其實如果熟知數位訊號的話,其實對於機器取得的訊號只是256個數 值(對應PC的256色彩度)加上一個通道數量的三維數據,歸一化以後可以把數值256變成0到1 之間的浮點數,這樣問題就來了,現實世界人眼其實對浮點數差0.001不到的變化是很難察2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。![Re: [問卦] AI產出的產品之間有關聯性嗎? Re: [問卦] AI產出的產品之間有關聯性嗎?](https://img.youtube.com/vi/e0aKI2GGZNg/mqdefault.jpg)
Re: [問卦] 口說講解影片是不是快被AI完全取代了?阿肥外商碼農阿肥啦!認真說,這幾年口說上字幕甚至翻譯,還有有字幕上語音這幾年都獲 得不錯的進展,包含openAI、Google、Amazon、Meta實驗室都有不錯的產出,而且這些都是 依靠當前所謂的多模態零樣本學習的大力進步,很多轉換錯誤或是機器音都減小很多,不 過偶爾還是會有出槌需要人工修正的部分。 所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來
爆
[Vtub] 春魚四期生Vtuber冰霧疑似指控快打實況![[Vtub] 春魚四期生Vtuber冰霧疑似指控快打實況 [Vtub] 春魚四期生Vtuber冰霧疑似指控快打實況](https://img.youtube.com/vi/KJeMC4BKvoA/mqdefault.jpg)
爆
Re: [Vtub] 春魚四期生Vtuber冰霧疑似指控快打實況![Re: [Vtub] 春魚四期生Vtuber冰霧疑似指控快打實況 Re: [Vtub] 春魚四期生Vtuber冰霧疑似指控快打實況](https://i.mopix.cc/OgUnxH.jpg)
爆
[鳴潮] 3.0動畫短片 轉校生 前瞻直播12/12![[鳴潮] 3.0動畫短片 轉校生 前瞻直播12/12 [鳴潮] 3.0動畫短片 轉校生 前瞻直播12/12](https://img.youtube.com/vi/nNyot7KuDQE/mqdefault.jpg)
爆
Re: [閒聊] 小紅書成為美國App Store下載第一![Re: [閒聊] 小紅書成為美國App Store下載第一 Re: [閒聊] 小紅書成為美國App Store下載第一](https://i.imgur.com/T8vEV7xb.jpeg)
爆
[閒聊] 如果是bilibili被封鎖會怎麼樣?爆
[討論] 欸!泡泡瑪特怎麼在大跌價了?![[討論] 欸!泡泡瑪特怎麼在大跌價了? [討論] 欸!泡泡瑪特怎麼在大跌價了?](https://img.youtube.com/vi/QBPEpPblwcw/mqdefault.jpg)
95
[閒聊] 一晚9發現實中做得到嗎?![[閒聊] 一晚9發現實中做得到嗎? [閒聊] 一晚9發現實中做得到嗎?](https://i.imgur.com/U8Ejehhb.jpg)
爆
[魔物]荒野總監發言惹議 將世界稱前作掀玩家反感![[魔物]荒野總監發言惹議 將世界稱前作掀玩家反感 [魔物]荒野總監發言惹議 將世界稱前作掀玩家反感](https://image.gameapps.hk/images/202512/05/1764898511_762582_jpg_r_result.jpg)
76
[閒聊] 男女粉比例出乎你意料的作品?![[閒聊] 男女粉比例出乎你意料的作品? [閒聊] 男女粉比例出乎你意料的作品?](https://i.imgur.com/wSnRZsnb.jpeg)
49
Re: [閒聊] 小紅書成為美國App Store下載第一![Re: [閒聊] 小紅書成為美國App Store下載第一 Re: [閒聊] 小紅書成為美國App Store下載第一](https://i.meee.com.tw/paPwJkZ.jpg)
71
[閒聊] 關於地球的運動好看嗎66
[閒聊]定義上幾歲才應該被叫「大叔」?![[閒聊]定義上幾歲才應該被叫「大叔」? [閒聊]定義上幾歲才應該被叫「大叔」?](https://i.imgur.com/0M6qX7Wb.jpeg)
65
[閒聊] 美國一名11歲幼童靠模仿達爾撐過危機![[閒聊] 美國一名11歲幼童靠模仿達爾撐過危機 [閒聊] 美國一名11歲幼童靠模仿達爾撐過危機](https://i.imgur.com/5kdUABnb.jpeg)
63
Re: [Vtub] 春魚Vtuber冰霧疑似指控快打實況主Yoro私訊騷擾![Re: [Vtub] 春魚Vtuber冰霧疑似指控快打實況主Yoro私訊騷擾 Re: [Vtub] 春魚Vtuber冰霧疑似指控快打實況主Yoro私訊騷擾](https://img.youtube.com/vi/KJeMC4BKvoA/mqdefault.jpg)
59
[閒聊] FF14 真的有友善溝通的玩家![[閒聊] FF14 真的有友善溝通的玩家 [閒聊] FF14 真的有友善溝通的玩家](https://i.urusai.cc/bywLL.png)
39
Re: [閒聊] 小紅書成為美國App Store下載第一52
[閒聊] 巨人的OP跟ED算很強嗎??52
[鳴潮] 怎辦?這計畫根本一點屁用也沒有!45
Re: [閒聊] 小紅書成為美國App Store下載第一48
[Vtub] Vivi自爆性癖是被搔腳底XDDD![[Vtub] Vivi自爆性癖是被搔腳底XDDD [Vtub] Vivi自爆性癖是被搔腳底XDDD](https://i.imgur.com/l9An5yXb.jpeg)
56
[閒聊] 鐵道玩家流失嚴重![[閒聊] 鐵道玩家流失嚴重 [閒聊] 鐵道玩家流失嚴重](https://i.imgur.com/6SvST40b.jpeg)
46
[Vtub] 虹VS齁 卡比賽車對抗賽44
[閒聊] 哪一種恐怖比較讓人不舒服?![[閒聊] 哪一種恐怖比較讓人不舒服? [閒聊] 哪一種恐怖比較讓人不舒服?](https://i.imgur.com/e8dN5uAb.png)
40
[情報] G世代永恆 大規模攻略戰Vol.1 12/8登場![[情報] G世代永恆 大規模攻略戰Vol.1 12/8登場 [情報] G世代永恆 大規模攻略戰Vol.1 12/8登場](https://i.meee.com.tw/ty9n6A3.png)
39
[閒聊] 偽裝夫妻持續多年也能算是假的嗎?![[閒聊] 偽裝夫妻持續多年也能算是假的嗎? [閒聊] 偽裝夫妻持續多年也能算是假的嗎?](https://i.imgur.com/tVAyNXgb.png)
38
[閒聊] 現在少前2是完全塵白化了喔38
[他國] 俄羅斯全面禁止Roblox:內含LGBT宣傳![[他國] 俄羅斯全面禁止Roblox:內含LGBT宣傳 [他國] 俄羅斯全面禁止Roblox:內含LGBT宣傳](https://pgw.udn.com.tw/gw/photo.php?u=https://uc.udn.com.tw/photo/2025/12/04/0/33872092.jpg&s=Y&x=0&y=0&sw=1280&sh=720&sl=W&fw=800&exp=3600)
38
[閒聊] 新妹魔王 這樣算是黑奴嗎?![[閒聊] 新妹魔王 這樣算是黑奴嗎? [閒聊] 新妹魔王 這樣算是黑奴嗎?](https://pbs.twimg.com/media/FdMJRYGaEAAl0zi.jpg)
36
[鳴潮] 3.0版本前瞻預告34
[Figure] 篠澤 広~光景ver.~![[Figure] 篠澤 広~光景ver.~ [Figure] 篠澤 広~光景ver.~](https://pbs.twimg.com/media/G7XwXDIaAAAB20K.jpg)
![[閒聊] Neuro真的有辦法做到理解圖像嗎 [閒聊] Neuro真的有辦法做到理解圖像嗎](https://i.imgur.com/pg00j7Rb.jpg)