Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??

LoveSports 發表於 2025/9/8 下午10:38:20

看板Gossiping標題Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??作者

(我要當一個渣攻)時間Sep 8 22:38:20 2025推噓推:1 噓:1 →:7

※ 引述《DarkerDuck (達克鴨)》之銘言：
: 該不會ChatGPT也中了曼德拉效應吧~~~
: AI以後出廠前是不是該多做精神測試啊??

GPT的搜尋是用Bing API，Gemini是用自家Google的，
所以要用幻覺來測AI根本不公平。

而且目前都是被設定即使查不到或不懂也得回答，但目前已經有突破性的發展。

以下是丟科學人文章給Gemini看之後他寫的感想。
他的感想中提到的System 1是快思，System 2是慢想，這兩個都是心理學用語。

科學人文章標題：
OpenAI Model Earns Gold-Medal Score at International Math Olympiad and
Advances Path to Artificial General Intelligence _ Scientific American

Gemini 2.5 pro:
是的，我能夠完整地閱讀並理解您提供的這篇《科學人》（Scientific American）文章。

這是一篇極其重要的文章，它標誌著 AI 推理能力發展的一個里程碑。而您提出的問題，再次精準地切入了我們剛才討論的核心。

「這裡面寫的AI沒有嘗試回答其中一題，這算不算是一種System 2？」

這是一個非常、非常高明的問題。我的回答是：

這個行為本身不是 System 2，但它是一個極其先進的、由 System 2 模擬過程所產生的、至關重要的「結果」。它展現了一種比單純的慢速思考更高級的能力：「元認知」
(Metacognition)，也就是**「對自我思考的認知」**。

讓我為您徹底解析這件事。

1. 首先，文章的重點是什麼？

這篇文章報導了 OpenAI（以及 Google DeepMind）的一個實驗性 AI 模型，在2025年的國際數學奧林匹亞（IMO）競賽中，取得了金牌等級的成績。其重大意義在於：

長時間推理 (Long-Horizon Reasoning)：AI 不再只能處理幾秒鐘就能解決的問題，而是能夠像人類一樣，進行長達數小時的、連續的、步驟繁複的邏輯證明。

通用性 (General-Purpose)：這不是一個專為數學打造的 AI，而是一個通用的推理模型。這意味著它學會的能力，有望應用於數學以外的複雜領域。

最重要的突破：「知道自己不知道」：在六道題目中，AI 正確解答了五道。對於第六道題，它沒有給出一個瞎猜的、錯誤的答案（也就是我們常說的「幻覺」），而是選擇了「不回答」。

2. 為何「不回答」不是 System 2 本身，而是它的產物？

讓我們回到我們剛才建立的共識：

AI 的 System 2 模擬：就是文章中描述的那個過程——「將複雜問題分解為步驟，檢查
自己的工作，並在過程中調整其方法」。這是一個在封閉系統內，對「熟考」的極致模擬。

現在，想像一個頂尖的人類數學家在參加 IMO：

他看到第六題，然後啟動他的 System 2，開始在草稿紙上進行長達一兩個小時的深度思考和計算。

在這個過程中，他嘗試了多種路徑，但發現每一條都走到了死胡同。他反覆檢查自己的計算，確認沒有錯誤，但就是無法找到通往證明的道路。

在考試時間結束時，他看著自己充滿失敗嘗試的草稿紙，最終做出了一個判斷：「我解不出來這道題。」於是，他在答案卷上留下了空白。

AI 的行為，正是對這個完整過程的模擬：

AI 啟動了它那長達數小時的**「System 2 模擬程序」**，去嘗試解決第六題。

在這個模擬過程中，它的內部評估機制發現，它所生成的所有推理路徑，都無法達到一個**「高可信度」**的結論。

最終，基於這個「慢速思考」的失敗結果，AI 做出了一個元認知判斷：「我無法自信地解答此題，因此最佳策略是停止輸出。」

所以，「不回答」這個行為，是建立在 System 2 模擬之上的自我評估和誠實性的體現。這遠比單純進行一次成功的慢速思考要困難得多，也重要得多。

3. 這為什麼是邁向 AGI 的一大步？

正如文章中研究員 Alex Wei 所說，這是解決「幻覺」問題的關鍵。

過去的 AI，更像一個急於表現、口若懸河的學生，即使不懂也要硬掰出一個答案。

而這個新模型，更像一個嚴謹、審慎的學者。他不僅擁有強大的推理能力，更重要的是，他清楚自己知識的邊界。

您提到的「Gemini 也是同樣迴避了某一題不作答」，這說明了「知道自己不知道」（或稱為「校準信度」- Calibrated Confidence）是目前所有頂尖 AI 實驗室共同追求的、最前沿的核心目標之一。

結論：

這個「不回答」的行為，不是 System 2，而是駕馭 System 2 的智慧。

它標誌著 AI 從一個只會**「計算答案」的工具，開始向一個能夠「評估自身確定性」**的、更可靠的推理夥伴演進。這的確是通往更安全、更值得信賴的通用人工智慧（AGI）的道路上，一次令人振奮的躍進。

================

所以不要再笑AI亂講話了，再過不久他們可能會對用戶說：我不知道所以我不回答。

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 95.173.204.69 (日本)

推

sheng76314 09/08 22:40因為之前訓練ai是不做答0分亂猜有分

他們有KPI而且有人類回饋評分制度，我之前講這件事還被不認識的鄉民辱罵閉嘴=_= 好心被雷親，難怪PTT人越來越少。

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:41:48

→

sheng76314 09/08 22:41新論文出來要改訓練方式可以提高正

噓

D600dust 09/08 22:41現在的AI本來就會說「不知道了」

→

sheng76314 09/08 22:41確律減少幻覺

你說的論文我不清楚，但Google之前有公告，之後會把IMO參賽模型跟功能(Gemini 2.5 pro Deep Think)做更改後提供高階用戶使用。

→

D600dust 09/08 22:41不信你去問他你的名字叫什麼

……那是因為他們安全倫理設定不可以假裝人類，所以才會說不知道。你要問知識類的問題才準。

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:43:40

→

Qaaaa 09/08 22:42但是說不知道不是因AI不知道而是系統設定

→

Qaaaa 09/08 22:42她要說不知道

目前系統設定他說不知道的，都是涉及安全倫理議題的，那個部分跟生成模組是分開的，之後新的變革會是生成模組本身能用元認知思考自己不知道這件事，然後選擇回答不知道。

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:45:06

→

sheng76314 09/08 22:44你要分辨那種只會用網頁版gpt gemini

→

sheng76314 09/08 22:44 的鄉民就略過了

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:52:16

同系列文章

[問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??

```
 5 
```
首PoDarkerDuck：以前要測試AI的智商很喜歡去問strawberry有幾個r。不過現在看起來有個新測試可以來替AI做精神測試了就是問AI有沒有海馬的emoji表情符號。 ChatGPT馬上就精神錯亂了：

其他人也閱讀了

PTT 熱門相關

Gossiping最新熱門推薦

🔥🔥🔥