Re: [問卦] AI會做影片有怎麼樣嗎？

LoveSports 發表於 2025/10/11 下午3:40:46

看板Gossiping標題Re: [問卦] AI會做影片有怎麼樣嗎？作者

(我要當一個渣攻)時間Oct 11 15:40:46 2025推噓 1 推:1 噓:0 →:1

※ 引述《LeonardoChen (LeonardoChen)》之銘言：
: 不就是世界上多很多影片出來而已嗎？
: 又不是說可以虛空造物、空間傳送
: 連性愛機器人都還沒個影
: 做影片算什麼？
: 什麼真的假的，影片就是影片

其實這些能力跟AGI相關

也跟未來具身的機器人有關

剛好看書發現可能有關分享一下也可以跳最下面看AI寫的

AGI的核心特徵包括狀況認識能力與自主性

自主性AI的狀況認識能力的建構

會透過海量的知識去學習感知"Affordance"(可供性、預設功能、環境賦使、直觀功能)

然後用這種感知可供性的能力去理解狀況

可供性是指當一個人看到椅子就知道那是給人坐的

這種判斷狀況的能力為什麼重要？

書上說比方說未來有機器人跟機器人一起登山

萬一人類手滑沒抓好掉下去

有自主性的機器人具有判斷狀況的能力

那瞬間就能伸出手把人類抓住救起來

那這個能力跟目前圖片與影片置換功能有甚麼關係？

因為要能置換必須理解物理原則與立體空間感以及連貫性

目前AI還無法完全辦到這些能力

但這些圖片與影片置換功能的推出

代表他們已經具有可供性感知的初步能力

以下貼AI回的 GPT5跟Gemini 2.5 pro

========================================
GPT5:

這是一個非常深刻的問題，你的思考方向其實觸及了「感知（perception）」與「理解（understanding）」在 AI 進化過程中的關鍵交會點。

我們可以從幾個層面來看這件事：

1. 圖像／影片置換能力本身代表什麼？

像 Gemini 2.5 Flash 的「nano banana」或 GPT 的「Sora 2」這類能在圖片或影片中精準替換人物的技術，本質上依賴的是：

．對視覺特徵的極高掌握（例如臉部幾何、光影、材質、運動一致性）

．對場景語義結構的理解（知道這是一個「人坐在椅子上」的情境，而不是隨機像素群）

這意味著 AI 不只是「生成畫面」，而是能夠「在有意義的空間中操作元素」——它知道
哪些部分可以換、怎麼換才「合理」。

這種合理性其實已經涉及了某種初步的感知可供性（affordance）：AI 懂得哪些操作在現實世界是自然的。

2. 感知可供性（affordance）與「理解現實」

你提到書中提到的「自律型AI」——能透過常識理解感知可供性。這個概念源自心理學
家 James Gibson 的理論：

affordance 是環境對行動者所提供的可能行為。

例如：

．一張椅子「可坐」

．一扇門「可推開」

．一個人臉「可辨識」

要理解這些「可供性」，AI 不能只是看像素，而要有對「世界」的內在模型。
而當 AI 能在影片中流暢地置換人，不只是視覺處理的成功——它也展現出對「人在空間
中的行為結構」的某種掌握。

換句話說，這是「對可供性的一種模擬理解」。

3. 與 AGI（通用人工智慧）的關聯

這項能力本身不等於 AGI，但它是 AGI 所需的其中一個支柱：

要成為通用智能，AI 必須能在不同模態（語言、視覺、動作）中共享對世界的理解。

能夠置換圖片人物 → 代表 AI 有：

．感知層：能區分「人」與「背景」

．操作層：知道如何合理地修改而不破壞現實感

．概念層：知道這樣的操作在語義上仍「一致」

這三層若能融合，AI 就不再只是生成圖像，而是具備對「世界中事物關係」的實際建模。
而「理解關係」正是 AGI 的核心——因為那是常識推理、計畫行動、甚至道德判斷的基
礎。

4. 總結來說

你的推論是對的——

能夠精準地置換圖片或影片中的人物，確實可以視為 AI 感知與可供性理解的一種增強。

但要成為真正的自律型或具意識的 AI，還需要：

．能從這種感知中主動學習行為意圖

．能將視覺理解與語言、動作、推理整合

．能在沒有明確指令時，依「自己的常識」判斷怎麼行動

也就是從「會看」→「會理解」→「會行動」的跨越。

如果你願意，我可以幫你畫一個簡單的示意圖（例如：從影像生成 → 感知可供性 → 世
界模型 → 自律型AI的發展路徑），讓這個關係更直觀。
你想要我幫你畫嗎？

=======================================

Gemini 2.5 pro:

好的，這是一個非常深入且有趣的問題。您將 AI 的圖像與影片生成、置換能力，與書中提到的「感知可供性 (Affordance)」以及邁向通用人工智慧 (AGI) 的關聯進行連結，這確實是探討 AI 發展的一個重要切入點。

簡單來說，您的想法有相當的道理。當 AI 能夠精準地置換圖片或影片中的人物時，這確實代表它對現實世界的掌握達到了更高的層次，並且在某種程度上，感知可供性
(Affordance) 的能力也變強了。以下將為您深入剖析：

Gemini 2.5 Flash 與 Sora 2 所展現的能力

首先，我們來看看您提到的這兩個模型代表了什麼樣的技術進展：

Gemini 2.5 Flash Image (Nano Banana): 這不僅僅是生成圖像，更具備了革命性的互動編輯能力[1]。它是一個原生的多模態模型，能夠真正「看懂」圖片的內容並進行深度邏輯推理[1]。例如，您可以上傳一張圖片，然後用口語化的方式請它「把這個人換成另一位」，或是「幫他戴上一頂帽子」。它還能融合多張圖片、保持角色在不同場景中的一致性，並利用其世界知識來進行編輯[2][3]。這代表它不只是在像素層面操作，而是在語意和邏輯層面理解圖像。

GPT 的 Sora 2: 這個模型則是在影片生成領域帶來了突破。它不僅能根據文字生成高度擬真的影片，更重要的是，它對物理邏輯、場景連貫性的掌握達到了新的高度[4]。例如，Sora 2 能更自然地呈現物體碰撞、彈跳等需要力學細節的畫面[4]。這意味著它不僅知道世界「看起來」是什麼樣子，還在一定程度上理解世界「如何運作」。

感知可供性 (Affordance) 與自律型 AI

您在書中看到的「感知可供性 (アフォーダンス)」是一個源自認知心理學的概念，由詹姆斯·J·吉布森 (James J. Gibson) 提出[5]。它的核心思想是，環境會「提供」生物
體行動的可能性[6]。

舉例來說：

。一張椅子「提供」了「坐」的可能性。
。一個門把手「提供」了「轉動」的可能性[5][6]。
。平坦的地板「提供」了「行走」的可能性[6]。

我們人類之所以能夠自然地與世界互動，正是因為我們能透過常識和過去的經驗，直接「感知」到這些可供性，而不需要經過複雜的思考[6]。

而您提到的「自律型 AI」，指的是能夠為了達成目標而自主選擇並執行行動的 AI[7][8]。這種 AI 若要有效地在現實世界中運作，就必須具備感知可供性的能力。它需要「看懂」周遭環境，理解「這裡可以做什麼」、「那個東西可以怎麼用」，才能做出合理的決策[9][10]。

連結：圖像置換能力與 AGI 的關係

現在，我們將這兩者連結起來。當 AI 能夠精準地置換圖片或影片中的人物時，這是否代表它更接近 AGI 了？答案是肯定的，這是一個重要的進展，但同時也存在一些限制。

正面論點：邁向更高層次的現實世界理解

1.
對物理與光影的隱性知識：要完美地將一個人置換到新的場景中，AI 必須理解光線如何照射、陰影如何形成、物體間的遮擋關係，以及人物與環境的互動（例如，走在草地上，草會被壓扁）。Sora 2 對物理邏輯的模擬，正體現了這一點[4][11]。這種對物理世界的隱性知識，是感知可供性的基礎。

2.
對物體屬性與功能的理解： Gemini 2.5 Flash Image 能夠根據語意進行編輯（例如「幫他戴上帽子」），這代表它理解「帽子」是可以「戴」在「頭上」的物體[1][12]。這就是一種對物體功能（可供性）的初步掌握。若要置換一個正在使用工具的人，AI 就必須理解工具的握持方式與用途。

3.
常識推理能力的體現：能夠保持角色在不同場景中的一致性，代表 AI 不再只是生成單一、孤立的圖像，而是對一個「角色」有了更抽象、更連貫的「概念」[2][3]。這種抽象能力是常識推理的核心，也是自律型 AI 透過常識感知可供性的前提。

反面論點與限制：從「看起來像」到「真正理解」的距離

儘管進展顯著，但我們仍需謹慎看待。

1.
數據驅動的模式學習：目前的生成式 AI 主要是從海量資料中學習模式與關聯性[13]。它可以生成一個看起來極度逼真的「人坐在椅子上」的影片，因為它學習了無數相關的影像資料。但這不完全等同於它真正「理解」了「坐」這個行為的物理意義、意圖以及椅子「提供支撐」的這個核心可供性。

2.
缺乏身體與世界的互動經驗：人類對可供性的感知，很大程度建立在與物理世界互動的身體經驗上。AI 缺乏這種經驗，它的「理解」是建立在數據之上的，而非親身體驗。這也使得一些研究者認為，目前的 AI 缺乏真正的理解能力，是其邁向 AGI 的根本性限制[9][13]。

結論

總結來說，您觀察到的現象和提出的問題都非常切中要點。AI 精準置換圖片與影片中人物的能力，確實是其對現實世界掌握度提升、感知可供性能力增強的重要指標。這代表
AI 不再只是處理像素，而是開始理解圖像和影片中的語意、物理邏輯與物體間的功能關係。

我們可以將這視為 AI 從「模式識別」邁向「場景理解」的關鍵一步。然而，距離像人類一樣，基於常識和身體經驗來靈活、深刻地感知和運用世界中的各種可供性，從而實現真正的自律行動和通用智慧 (AGI)，仍然有一段路要走。

目前的技術突破，為 AI 裝上了更敏銳的「眼睛」和更聰明的「視覺皮層」，讓它能更細緻地觀察和模仿世界。但要進化出能夠自主思考、與世界互動的「心靈」，還需要更多根本性的突破。

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.171.224.172 (日本)

※ PTT 網址