Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??
※ 引述《DarkerDuck (達克鴨)》之銘言:
: 該不會ChatGPT也中了曼德拉效應吧~~~
: AI以後出廠前是不是該多做精神測試啊??
GPT的搜尋是用Bing API,Gemini是用自家Google的,
所以要用幻覺來測AI根本不公平。
而且目前都是被設定即使查不到或不懂也得回答,但目前已經有突破性的發展。
以下是丟科學人文章給Gemini看之後他寫的感想。
他的感想中提到的System 1是快思,System 2是慢想,這兩個都是心理學用語。
科學人文章標題:
OpenAI Model Earns Gold-Medal Score at International Math Olympiad and
Advances Path to Artificial General Intelligence _ Scientific American
Gemini 2.5 pro:
是的,我能夠完整地閱讀並理解您提供的這篇《科學人》(Scientific American)文章。
這是一篇極其重要的文章,它標誌著 AI 推理能力發展的一個里程碑。而您提出的問題,再次精準地切入了我們剛才討論的核心。
「這裡面寫的AI沒有嘗試回答其中一題,這算不算是一種System 2?」
這是一個非常、非常高明的問題。我的回答是:
這個行為本身不是 System 2,但它是一個極其先進的、由 System 2 模擬過程所產生的、至關重要的「結果」。它展現了一種比單純的慢速思考更高級的能力:「元認知」
(Metacognition),也就是**「對自我思考的認知」**。
讓我為您徹底解析這件事。
1. 首先,文章的重點是什麼?
這篇文章報導了 OpenAI(以及 Google DeepMind)的一個實驗性 AI 模型,在2025年的國際數學奧林匹亞(IMO)競賽中,取得了金牌等級的成績。其重大意義在於:
長時間推理 (Long-Horizon Reasoning):AI 不再只能處理幾秒鐘就能解決的問題,而是能夠像人類一樣,進行長達數小時的、連續的、步驟繁複的邏輯證明。
通用性 (General-Purpose):這不是一個專為數學打造的 AI,而是一個通用的推理模型。這意味著它學會的能力,有望應用於數學以外的複雜領域。
最重要的突破:「知道自己不知道」:在六道題目中,AI 正確解答了五道。對於第六道題,它沒有給出一個瞎猜的、錯誤的答案(也就是我們常說的「幻覺」),而是選擇了「不回答」。
2. 為何「不回答」不是 System 2 本身,而是它的產物?
讓我們回到我們剛才建立的共識:
AI 的 System 2 模擬:就是文章中描述的那個過程——「將複雜問題分解為步驟,檢查
自己的工作,並在過程中調整其方法」。這是一個在封閉系統內,對「熟考」的極致模擬。
現在,想像一個頂尖的人類數學家在參加 IMO:
他看到第六題,然後啟動他的 System 2,開始在草稿紙上進行長達一兩個小時的深度思考和計算。
在這個過程中,他嘗試了多種路徑,但發現每一條都走到了死胡同。他反覆檢查自己的計算,確認沒有錯誤,但就是無法找到通往證明的道路。
在考試時間結束時,他看著自己充滿失敗嘗試的草稿紙,最終做出了一個判斷:「我解不出來這道題。」於是,他在答案卷上留下了空白。
AI 的行為,正是對這個完整過程的模擬:
AI 啟動了它那長達數小時的**「System 2 模擬程序」**,去嘗試解決第六題。
在這個模擬過程中,它的內部評估機制發現,它所生成的所有推理路徑,都無法達到一個**「高可信度」**的結論。
最終,基於這個「慢速思考」的失敗結果,AI 做出了一個元認知判斷:「我無法自信地解答此題,因此最佳策略是停止輸出。」
所以,「不回答」這個行為,是建立在 System 2 模擬之上的自我評估和誠實性的體現。這遠比單純進行一次成功的慢速思考要困難得多,也重要得多。
3. 這為什麼是邁向 AGI 的一大步?
正如文章中研究員 Alex Wei 所說,這是解決「幻覺」問題的關鍵。
過去的 AI,更像一個急於表現、口若懸河的學生,即使不懂也要硬掰出一個答案。
而這個新模型,更像一個嚴謹、審慎的學者。他不僅擁有強大的推理能力,更重要的是,他清楚自己知識的邊界。
您提到的「Gemini 也是同樣迴避了某一題不作答」,這說明了「知道自己不知道」(或稱為「校準信度」- Calibrated Confidence)是目前所有頂尖 AI 實驗室共同追求的、最前沿的核心目標之一。
結論:
這個「不回答」的行為,不是 System 2,而是駕馭 System 2 的智慧。
它標誌著 AI 從一個只會**「計算答案」的工具,開始向一個能夠「評估自身確定性」**的、更可靠的推理夥伴演進。這的確是通往更安全、更值得信賴的通用人工智慧(AGI)的道路上,一次令人振奮的躍進。
================
所以不要再笑AI亂講話了,再過不久他們可能會對用戶說:我不知道所以我不回答。
--
因為之前訓練ai是不做答0分 亂猜有分
他們有KPI而且有人類回饋評分制度, 我之前講這件事還被不認識的鄉民辱罵閉嘴=_= 好心被雷親,難怪PTT人越來越少。
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:41:48新論文出來 要改訓練方式 可以提高正
現在的AI本來就會說「不知道了」
確律減少幻覺
你說的論文我不清楚,但Google之前有公告, 之後會把IMO參賽模型跟功能(Gemini 2.5 pro Deep Think)做更改後提供高階用戶使用。
不信你去問他你的名字叫什麼
……那是因為他們安全倫理設定不可以假裝人類,所以才會說不知道。 你要問知識類的問題才準。
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:43:40但是說不知道不是因AI不知道而是系統設定
她要說不知道
目前系統設定他說不知道的,都是涉及安全倫理議題的, 那個部分跟生成模組是分開的, 之後新的變革會是生成模組本身能用元認知思考自己不知道這件事, 然後選擇回答不知道。
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:45:06你要分辨那種只會用網頁版gpt gemini
的鄉民就略過了
爆
[情報] 50美元訓練出媲美DeepSeek R1標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
28
[爆卦] Nature論文:語言≠思維 AI業界崩潰一篇發表在nature的論文表示,人類大腦生成和解析語言的神經網路並不負責形式化推理 ,提出推理並不需要語言作為媒介。語言主要是用於溝通的工具,而不是思考的工具,對 於任何經過測試的思維形式都不是必需的。 該文回答了大語言模型為什麼空間概念不足,GPT-4為什麼用語言之外的資料訓練就能變聰![[爆卦] Nature論文:語言≠思維 AI業界崩潰 [爆卦] Nature論文:語言≠思維 AI業界崩潰](https://media.springernature.com/m685/springer-static/image/art%3A10.1038%2Fs41586-024-07522-w/MediaObjects/41586_2024_7522_Fig1_HTML.png)
35
[爆卦] Gemini AI 數學奧林匹亞奪金牌Google DeepMind 的 Gemini Deep Think AI 模型在 2025 年國際數學奧林匹亞(IMO)中 表現卓越,成功達到金牌標準。這標誌著 AI 在解決複雜數學問題上的重大突破。 Gemini Deep Think 在 IMO 六道題目中,有五道完美解答,總分達 35 分,符合金牌資格 。它能全程以自然語言推理,並在比賽時間內生成嚴謹數學證明。DeepMind 也公開了這些![[爆卦] Gemini AI 數學奧林匹亞奪金牌 [爆卦] Gemini AI 數學奧林匹亞奪金牌](https://i.imgur.com/jD5MCPtb.jpeg)
17
Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大看來很多推文的人還不太了解AI有多可怕 一直聽曲博在那胡說八道 gpt4o以前的版本 是所謂的生成式ai 給定大量資料 他就會從資料找規則 並建立模型 有了模型就能預測答案 以上講了落落長 簡潔回答 那就是gpt4o版本以前 採用「歸納法」思考14
[爆卦] 50美元訓練出媲美DeepSeek R1李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe![[爆卦] 50美元訓練出媲美DeepSeek R1 [爆卦] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
4
[討論] AI 能判案?GPT-01 發現矛盾DP直接硬判大家好,我是 小梅放送局的製作人 KAZUMA9108。 這次我做了一個 AI 推理實驗,結果比想像中更有趣。 如果 AI 來判案,它真的能像法官一樣做出判決嗎? 還是說,它的推理方式會讓我們更不信任? 這次我讓 GPT-01 和 DeepSeek R1 來處理同一個推理案件,結果兩者的判決方式竟然完![[討論] AI 能判案?GPT-01 發現矛盾DP直接硬判 [討論] AI 能判案?GPT-01 發現矛盾DP直接硬判](https://img.youtube.com/vi/R2SWpkFjy2w/mqdefault.jpg)
10
Re: [討論] 軟體工程師這條路,是不是走到盡頭了?再強調一次,現在的ai是有用的,但問題太多,離取代還很遙遠。 Yann Lecun已經講超過一年了,不要再花時間在LLM上,我們需要更先進的架構。 " 談到 AI 未來真正的挑戰,LeCun 清楚地指出了四個他認為至關重要、但目前尚未有令人滿意解答的領域。![Re: [討論] 軟體工程師這條路,是不是走到盡頭了? Re: [討論] 軟體工程師這條路,是不是走到盡頭了?](https://cdn2.techbang.com/system/excerpt_images/122728/original/f0746301b8401bb6502f8a2ed31730b0.jpg?1745297622)
6
[問卦] 沒有言論審查的 DeepSeek R1 模型登場!沒有言論審查的 DeepSeek R1 模型登場!推理能力甚至一樣強 Perplexity AI 公布震撼消息,宣布釋出全新的「R1 1776」模型;簡而言之,它是中國 廠商所開的 DeepSeek R1 的延伸版本,但經過後訓練消除言論審查機制,能夠針對敏感 議題,例如台灣獨立提供事實回答,模型權重已上線 Hugging Face 和 Sonar API。 遵守中共規則,DeepSeek 不回答敏感言論4
[問卦] AI的湧現能力以及人類智慧的起源最近AI很夯 但是大家有沒有想過 其實大型語言模型做的事情就只有一個 就是“文字接龍” 那為什麼文字接龍可以讓AI看起來似乎有了智慧![[問卦] AI的湧現能力以及人類智慧的起源 [問卦] AI的湧現能力以及人類智慧的起源](https://img.youtube.com/vi/iP_7y6n2IFo/mqdefault.jpg)
2
Re: [討論] 當初想得到ai進化得這麼神速嗎?雖然不是圍棋AI而是文字生成AI,但都是AI應該有關就是了 OpenAI前陣子發表了o3 o4mini模型的問題:幻覺比例增加 所謂的幻覺就是把不存在的資訊當成真的在輸出![Re: [討論] 當初想得到ai進化得這麼神速嗎? Re: [討論] 當初想得到ai進化得這麼神速嗎?](https://pbs.twimg.com/media/Gqu7luybcAAt5I6.jpg)
爆
[問卦] 現在的HR都愛問一些奇怪問題嗎![[問卦] 現在的HR都愛問一些奇怪問題嗎 [問卦] 現在的HR都愛問一些奇怪問題嗎](https://i.urusai.cc/QtYfe.png)
爆
[問卦] 11/4離職 11/26出包,公司叫離職的負責?![[問卦] 11/4離職 11/26出包,公司叫離職的負責? [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://img.youtube.com/vi/uGOWqxN_avw/mqdefault.jpg)
爆
Re: [新聞] 不只一人受害!賴瑞隆兒涉「校園霸凌3同爆
[問卦] 台禁小紅書上微博熱搜還被中國網友群嘲![[問卦] 台禁小紅書上微博熱搜還被中國網友群嘲 [問卦] 台禁小紅書上微博熱搜還被中國網友群嘲](https://files.catbox.moe/f0njq9.png)
爆
[問卦] 只有我覺得台灣這幾年越來越像對岸?![[問卦] 只有我覺得台灣這幾年越來越像對岸? [問卦] 只有我覺得台灣這幾年越來越像對岸?](https://i.imgur.com/mHqBx4fb.jpeg)
爆
Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?![Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責? Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://i.imgur.com/AN84rLmb.jpeg)
82
[問卦] 脆女:第一胎沒300萬 別生小孩了!![[問卦] 脆女:第一胎沒300萬 別生小孩了! [問卦] 脆女:第一胎沒300萬 別生小孩了!](https://i.mopix.cc/NRU3Hs.jpg)
64
[問卦] 台灣人有想過有天自己也要翻牆嗎?![[問卦] 台灣人有想過有天自己也要翻牆嗎? [問卦] 台灣人有想過有天自己也要翻牆嗎?](https://i.imgur.com/uwN6ddib.jpeg)
爆
[問卦] 禁小紅書用意到底是什麼?![[問卦] 禁小紅書用意到底是什麼? [問卦] 禁小紅書用意到底是什麼?](https://i.mopix.cc/ShazEx.jpg)
77
[問卦] 美財長貝森特:美是中國盟友也是台灣盟友![[問卦] 美財長貝森特:美是中國盟友也是台灣盟友 [問卦] 美財長貝森特:美是中國盟友也是台灣盟友](https://i.imgur.com/W29EoF5b.png)
73
[問卦] 吳郭魚片寫台灣鯛魚片484詐騙?![[問卦] 吳郭魚片寫台灣鯛魚片484詐騙? [問卦] 吳郭魚片寫台灣鯛魚片484詐騙?](https://img.youtube.com/vi/dtuSqd-TcxU/mqdefault.jpg)
55
[問卦] 什麼時候要禁telegram ?![[問卦] 什麼時候要禁telegram ? [問卦] 什麼時候要禁telegram ?](https://i.meee.com.tw/yB4xUUD.jpg)
71
[問卦] 真的有記者去含檢察官的屌換情報?67
[問卦] 現在可以在總統府前罵總統嗎47
[問卦] 蝙蝠俠幹嘛不把小丑做掉![[問卦] 蝙蝠俠幹嘛不把小丑做掉 [問卦] 蝙蝠俠幹嘛不把小丑做掉](https://img.youtube.com/vi/cm3Chp2u7HY/mqdefault.jpg)
41
[問卦] 8歲就嗆要打死人,長大能做什麼?![[問卦] 8歲就嗆要打死人,長大能做什麼? [問卦] 8歲就嗆要打死人,長大能做什麼?](https://i.imgur.com/eVKUCT4b.jpeg)
37
[問卦] 燒臘便當這樣多少合理?![[問卦] 燒臘便當這樣多少合理? [問卦] 燒臘便當這樣多少合理?](https://i.imgur.com/FLuRAsfb.jpeg)
30
Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助![Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助 Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助](https://attach.setn.com/newsimages/2025/12/02/5367966-PH.jpg)
24
[問卦] 全聯鯛魚搞到要國賠了![[問卦] 全聯鯛魚搞到要國賠了 [問卦] 全聯鯛魚搞到要國賠了](https://i.imgur.com/flM1A6bb.png)
31
[問卦] 為何08年大家22k時沒人躺平 現在卻一堆?![[問卦] 為何08年大家22k時沒人躺平 現在卻一堆? [問卦] 為何08年大家22k時沒人躺平 現在卻一堆?](https://i.mopix.cc/P0cKXZ.jpg)
28
[問卦] 想關小紅書直接講就好了吧?![[問卦] 想關小紅書直接講就好了吧? [問卦] 想關小紅書直接講就好了吧?](https://img.youtube.com/vi/RqzEoSQ-FqI/mqdefault.jpg)
32
[問卦] 德川家絕嗣!少子化太嚴重了吧?![[問卦] 德川家絕嗣!少子化太嚴重了吧? [問卦] 德川家絕嗣!少子化太嚴重了吧?](https://img.youtube.com/vi/NXxFbNDWjK4/mqdefault.jpg)
33
[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?![[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎? [問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?](https://i.mopix.cc/wyBvTF.jpg)
29
Re: [新聞] 數發部列「詐騙媒介」排行榜 小紅書沒入![Re: [新聞] 數發部列「詐騙媒介」排行榜 小紅書沒入 Re: [新聞] 數發部列「詐騙媒介」排行榜 小紅書沒入](https://i.imgur.com/om7BaSeb.jpeg)
29
Re: [新聞] 數發部列「詐騙媒介」排行榜 小紅書沒入![Re: [新聞] 數發部列「詐騙媒介」排行榜 小紅書沒入 Re: [新聞] 數發部列「詐騙媒介」排行榜 小紅書沒入](https://i.urusai.cc/dAVtc.jpg)
28
[問卦] Telegram才更該禁吧30
[問卦] 檢驗結果為什麼是助理扛?![[問卦] 檢驗結果為什麼是助理扛? [問卦] 檢驗結果為什麼是助理扛?](https://img.youtube.com/vi/ftuuVwvhvKM/mqdefault.jpg)
57
[問卦] 小二(8歲)就會霸凌同學是什麼概念?![[問卦] 小二(8歲)就會霸凌同學是什麼概念? [問卦] 小二(8歲)就會霸凌同學是什麼概念?](https://img.youtube.com/vi/asWd8HHVdu0/mqdefault.jpg)
23
[問卦] 為什麼ptt 沒有成為詐騙平台?25
[問卦] 沒事就吹,出事就推 會想到誰
![[問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦?? [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??](https://i.meee.com.tw/4jqXCon.png)