Re: [閒聊] Neuro真的有辦法做到理解圖像嗎
大型語言模型本質上是文字接龍
你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字
當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token
接下來做的事情就一樣了 把這串濃縮feature token餵給模型
搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止
input是圖像時的難點是那個資訊壓縮模型
一般來說 這種模型是透過海量的圖片-文字描述pair訓練而成
例如 一張拆彈遊戲的圖片 和一段文字"這張圖裡包含了一張桌子 一個炸彈 顏色..."
但除了圖片解析度有限以外 文字畢竟是一維資訊 難以精準描述二維的圖片
頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型
不然就是要往Gemini這種原生多模態模型
或甚至擺脫文字接龍框架 世界模型方向走
學界有一派覺得語言模型有其極限 這就是其中一個原因
畢竟人類不是只靠文字理解世界
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣)
※ PTT 網址
推
看Neuro會玩geoguessr,Vedal應該克服了?
→
他也是想辦法把這些東西串起來吧 這些演算法和模型都不是
→
一個人或一個小團隊能做到的
推
GPT才是文字接龍 但LLM也不止GPT一種
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預34
[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?雖然下了很農場的標題 但這一篇認真的研究論文 大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎 在一年前可能沒有錯 但經過最近的突飛猛進 故事已經進入了新的轉捩點X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。9
Re: [新聞] 搶太妍門票僅須4秒!警破獲首宗AI搶票黃牛 逮30歲台大畢阿肥外商碼農阿肥啦! 其實就是使用langchain加上類GPT 3.5-4(當前很多開源的,一張4090就可以運行起來), 透過模型輔助加上langchain可以直接接上Google等搜索引擎或特定網站解鎖語言模型讀 取最新資訊的能力,這樣就可以規避掉官方要識別人類(粉絲?)的特殊問題。 然後圖片驗證識別這個目前就被玩爛開源Acc都可以到99%以上了,基本上你想用CNN或swi6
Re: [問卦] ChatGPT改變了什麼行為模式?行? : : 業都發揮著重要作用,對許多人的生活產生了深遠影響。我想請問各位前輩,究竟Ch at : : T改變了哪些行為模式呢? : : 希望大家能分享一些寶貴的經驗和看法,讓我對ChatGPT及其對社會行為模式的影響4
[情報] 首個中文SD模型開源:太乙對岸那邊IDEA研究院中的封神榜團隊釋出了第一個以中文為基礎的SD模型:太乙,已經可以在 Huggingface上面取得,這是基於SD1.4模型重新訓練了中文語言模型以取代原本的英文編碼器,但鎖定了圖像產生器,在一億級的中文語料庫上跑了24個epoch 另外一個中英文混合的模型則是同時fine-tune了語言編碼器以及圖像產生器。 這是他們的第一個 checkpoints 而且進行了開源,不過由於他們修改過編碼器的結構,所以模型不能直接丟進去 webui 裡面跑,團隊有提供修改版本以及修改辦法。 根據他們給的測試樣本來看,這個模型不但能理解白話文,更能理解文言文,像是唐詩,宋詞甚至駢文都沒有問題。2
Re: [問卦] 美軍陸戰隊學《潛龍諜影》紙箱潛行戰術,阿肥外商碼農阿肥啦! 其實這在機器學習/深度學習領域當前還是一個資安攻防戰的大問哉,尤其是圖像領域其實 從攝影機取得的數據,其實如果熟知數位訊號的話,其實對於機器取得的訊號只是256個數 值(對應PC的256色彩度)加上一個通道數量的三維數據,歸一化以後可以把數值256變成0到1 之間的浮點數,這樣問題就來了,現實世界人眼其實對浮點數差0.001不到的變化是很難察2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。- 阿肥外商碼農阿肥啦!認真說,這幾年口說上字幕甚至翻譯,還有有字幕上語音這幾年都獲 得不錯的進展,包含openAI、Google、Amazon、Meta實驗室都有不錯的產出,而且這些都是 依靠當前所謂的多模態零樣本學習的大力進步,很多轉換錯誤或是機器音都減小很多,不 過偶爾還是會有出槌需要人工修正的部分。 所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來
爆
[情報] 真三國無雙起源 公開無雙武將:張角爆
[閒聊] 發現喜歡的女生是單親媽媽該怎麼辦?爆
Re: [閒聊] 怎麼?你當台灣人當得很難過嗎?爆
Re: [閒聊] 怎麼?你當台灣人當得很難過嗎?爆
[摳腳] 巴哈姆特動畫瘋 付費比例來到了17%99
[閒聊] 50嵐在手搖飲界是怎樣的存在☺爆
[閒聊] TGA應該要由玩家投票決定嗎?82
[閒聊] 幹 Ado怎麼又秒殺了75
[鳴潮] 角色立繪公開 菲比71
[閒聊] 鳴潮美術設計是不是真的蠻強的?59
[鳴潮] 新角色預告 布蘭特62
[閒聊] 繪師的圖被拿去做手機殼,請勿購買47
[閒聊] 暗喻幻想製作人:已經開始著手下一款新作46
[鳴潮] 前方到站,黎那汐塔! 新角色來了40
[閒聊] 所以活俠傳的更新消息在哪裡?41
[閒聊] 鋼鍊喜歡03還是09的畫風?40
[鳴潮] 新角色預告 洛可可39
[情報] 佐賀偶像是傳奇 新巡演和新曲71
[閒聊] 宙斯是不是真的不覺得待在T1開心過37
[閒聊] 本屆TGA入圍跟DEI介入有關聯嗎?37
[Vtub] 輪堂千速 肉肉大腿 gif36
Re: [鳴潮] 新角色預告 布蘭特36
[問題] 老遊戲視窗太小問題有解嗎?34
[閒聊] DQ3的銷量會讓SE對HD2D改觀嗎?32
[情報] 2025這本輕小說真厲害 第一名 敗北女角太33
[閒聊] 說到"歌姬"會想到哪些角色?32
[閒聊] 響咲Riona聊Hololive學姊們真的很溫暖XD32
[可憐] 索粉抱怨PSP 無須購買PS5 可用串流玩29
[閒聊] 鐵道 內鬼 遺器系統大進化27
Re: [閒聊] 怎麼?你當台灣人當得很難過嗎?