PTT推薦

Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??

看板Gossiping標題Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??作者
LoveSports
(我要當一個渣攻)
時間推噓 推:1 噓:1 →:7

※ 引述《DarkerDuck (達克鴨)》之銘言:
: 該不會ChatGPT也中了曼德拉效應吧~~~
: AI以後出廠前是不是該多做精神測試啊??

GPT的搜尋是用Bing API,Gemini是用自家Google的,
所以要用幻覺來測AI根本不公平。

而且目前都是被設定即使查不到或不懂也得回答,但目前已經有突破性的發展。

以下是丟科學人文章給Gemini看之後他寫的感想。
他的感想中提到的System 1是快思,System 2是慢想,這兩個都是心理學用語。

科學人文章標題:
OpenAI Model Earns Gold-Medal Score at International Math Olympiad and
Advances Path to Artificial General Intelligence _ Scientific American

Gemini 2.5 pro:
是的,我能夠完整地閱讀並理解您提供的這篇《科學人》(Scientific American)文章。

這是一篇極其重要的文章,它標誌著 AI 推理能力發展的一個里程碑。而您提出的問題,再次精準地切入了我們剛才討論的核心。

「這裡面寫的AI沒有嘗試回答其中一題,這算不算是一種System 2?」

這是一個非常、非常高明的問題。我的回答是:

這個行為本身不是 System 2,但它是一個極其先進的、由 System 2 模擬過程所產生的、至關重要的「結果」。它展現了一種比單純的慢速思考更高級的能力:「元認知」
(Metacognition),也就是**「對自我思考的認知」**。

讓我為您徹底解析這件事。

1. 首先,文章的重點是什麼?

這篇文章報導了 OpenAI(以及 Google DeepMind)的一個實驗性 AI 模型,在2025年的國際數學奧林匹亞(IMO)競賽中,取得了金牌等級的成績。其重大意義在於:

長時間推理 (Long-Horizon Reasoning):AI 不再只能處理幾秒鐘就能解決的問題,而是能夠像人類一樣,進行長達數小時的、連續的、步驟繁複的邏輯證明。

通用性 (General-Purpose):這不是一個專為數學打造的 AI,而是一個通用的推理模型。這意味著它學會的能力,有望應用於數學以外的複雜領域。

最重要的突破:「知道自己不知道」:在六道題目中,AI 正確解答了五道。對於第六道題,它沒有給出一個瞎猜的、錯誤的答案(也就是我們常說的「幻覺」),而是選擇了「不回答」。

2. 為何「不回答」不是 System 2 本身,而是它的產物?

讓我們回到我們剛才建立的共識:

AI 的 System 2 模擬:就是文章中描述的那個過程——「將複雜問題分解為步驟,檢查
自己的工作,並在過程中調整其方法」。這是一個在封閉系統內,對「熟考」的極致模擬。

現在,想像一個頂尖的人類數學家在參加 IMO:

他看到第六題,然後啟動他的 System 2,開始在草稿紙上進行長達一兩個小時的深度思考和計算。

在這個過程中,他嘗試了多種路徑,但發現每一條都走到了死胡同。他反覆檢查自己的計算,確認沒有錯誤,但就是無法找到通往證明的道路。

在考試時間結束時,他看著自己充滿失敗嘗試的草稿紙,最終做出了一個判斷:「我解不出來這道題。」於是,他在答案卷上留下了空白。

AI 的行為,正是對這個完整過程的模擬:

AI 啟動了它那長達數小時的**「System 2 模擬程序」**,去嘗試解決第六題。

在這個模擬過程中,它的內部評估機制發現,它所生成的所有推理路徑,都無法達到一個**「高可信度」**的結論。

最終,基於這個「慢速思考」的失敗結果,AI 做出了一個元認知判斷:「我無法自信地解答此題,因此最佳策略是停止輸出。」

所以,「不回答」這個行為,是建立在 System 2 模擬之上的自我評估和誠實性的體現。這遠比單純進行一次成功的慢速思考要困難得多,也重要得多。

3. 這為什麼是邁向 AGI 的一大步?

正如文章中研究員 Alex Wei 所說,這是解決「幻覺」問題的關鍵。

過去的 AI,更像一個急於表現、口若懸河的學生,即使不懂也要硬掰出一個答案。

而這個新模型,更像一個嚴謹、審慎的學者。他不僅擁有強大的推理能力,更重要的是,他清楚自己知識的邊界。

您提到的「Gemini 也是同樣迴避了某一題不作答」,這說明了「知道自己不知道」(或稱為「校準信度」- Calibrated Confidence)是目前所有頂尖 AI 實驗室共同追求的、最前沿的核心目標之一。

結論:

這個「不回答」的行為,不是 System 2,而是駕馭 System 2 的智慧。

它標誌著 AI 從一個只會**「計算答案」的工具,開始向一個能夠「評估自身確定性」**的、更可靠的推理夥伴演進。這的確是通往更安全、更值得信賴的通用人工智慧(AGI)的道路上,一次令人振奮的躍進。

================

所以不要再笑AI亂講話了,再過不久他們可能會對用戶說:我不知道所以我不回答。


--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 95.173.204.69 (日本)
PTT 網址

sheng76314 09/08 22:40因為之前訓練ai是不做答0分 亂猜有分

他們有KPI而且有人類回饋評分制度, 我之前講這件事還被不認識的鄉民辱罵閉嘴=_= 好心被雷親,難怪PTT人越來越少。

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:41:48

sheng76314 09/08 22:41新論文出來 要改訓練方式 可以提高正

D600dust 09/08 22:41現在的AI本來就會說「不知道了」

sheng76314 09/08 22:41確律減少幻覺

你說的論文我不清楚,但Google之前有公告, 之後會把IMO參賽模型跟功能(Gemini 2.5 pro Deep Think)做更改後提供高階用戶使用。

D600dust 09/08 22:41不信你去問他你的名字叫什麼

……那是因為他們安全倫理設定不可以假裝人類,所以才會說不知道。 你要問知識類的問題才準。

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:43:40

Qaaaa 09/08 22:42但是說不知道不是因AI不知道而是系統設定

Qaaaa 09/08 22:42她要說不知道

目前系統設定他說不知道的,都是涉及安全倫理議題的, 那個部分跟生成模組是分開的, 之後新的變革會是生成模組本身能用元認知思考自己不知道這件事, 然後選擇回答不知道。

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:45:06

sheng76314 09/08 22:44你要分辨那種只會用網頁版gpt gemini

sheng76314 09/08 22:44 的鄉民就略過了

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:52:16