Re: [心得] 蘋果揭露人工智能並不思考
這不是常識嗎???
你用LLM最常看到的不就免責條款
你有沒有想過
為什麼那些免責條款需要存在
僅僅是因為現在技術力不足???
才不是...
1.LLM會不會思考
https://ibb.co/k2gjs7rv
2.為什麼看起來像會思考
https://ibb.co/d0mZrSnH
3.這號稱的推理能力哪裡來的?
https://ibb.co/LX6T1PBd
4.結論
https://ibb.co/dsLMGynj
延伸問題
1.LLM究竟有無可能走向自我糾錯
不可能,其回答是立基於機率而非邏輯
永遠都會有一個高機率答案
https://ibb.co/wZdjy8sD
2.未來可能方向
https://ibb.co/0pz2NbSp
所以這條路未來是不可能走向AGI
這是LLM底層架構、邏輯
所決定的事
哪需要揭露
我還以為這是常識
因此你只要問LLM可以驗證的問題
它有很高機率回你個錯誤答案
因為它是猜一個看起來對的答案給你
而不是真的下去思考、計算
例如
543.21*543.21=???
上面這題
Gork、Gemini、GPT都可以是錯的
這才是為什麼要很小心用LLM的理由
整個思路、流程看起來都沒問題
但答案極有可能是錯的
結果錯在最智障的地方
計算式你給我用猜的...
※ 引述《huabandd (我是阿肥巴你頭)》之銘言:
: https://is.gd/U7lWC8
: 看到一個影片,非新聞報導,僅創作者想法
: 討論蘋果揭露關於人工智能當中的最大謊言
: 之前也看過一個影片指出
: AI無法產出指針在10:10以外的手錶
: (網路手錶圖片通常指針停留在10:10)
: 自己嘗試過幾次確實是這樣
: 因為AI的訓練是基於現有大量資料
: 去產生一個與大量資料相似的產物給你
: 無法產生未曾有過資料的產物
: (以上為個人猜測,若錯誤請指正)
: 雖然現在已有研究嘗試將AI接入人類神經元
: 未來思考的方式有可能因此改變
: 不再只是記憶,而是真正的推理
: (但是這好像也是一件滿恐怖的事情?)
: 如果說給AI一個圍棋組,但不教他玩法
: 也不讓他參考棋類玩法,讓他自行摸索
: 就像嬰兒拿到玩具後自己亂玩那樣
: AI能夠自行生成玩法是不是就算是成功?
: 中文翻譯
: 蘋果剛剛揭露了人工智慧中最大的謊言,即「思考」的假象,證明了像 Claude、Deepseek-
: R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問
: 題,而是創造了這些模型從未見過全新謎題。結果令人震驚。
: 對於簡單問題,標準 AI 模型表現優於昂貴的推理模型,同時消耗更少的資源。對於中等複
: 雜度問題,推理模型顯示出一些優勢,但對於模擬現實世界情境的高複雜度問題,兩種類型
: 的模型都崩潰到 0% 的準確度。
: 這是確鑿的證據:蘋果給予 AI 模型逐步的演算法,就像給某人食譜一樣,但它們仍在相同
: 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據,得
: 出結論認為其行為最好用複雜的模式匹配來解釋。
: 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔(Tower of Hanoi)謎題,模型
: 在超過 100 步的移動中成功了,但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶
: 模式,而不是進行邏輯推理。
: 隨著問題變得越來越難,「思考」模型使用的 token 越來越少,放棄得更快,而不是更深
: 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤
: 前提上的。
: 公司將複雜的模式匹配宣傳為真正的推理,誤導消費者對 AI 能力的認知。我們離通用人工
: 智慧(AGI)的距離並沒有大家想像的那麼近;我們正在處理的是非常複雜的自動完成系統
: 。當先進的 AI 推理模型連遵循簡單指令都失敗時,我們是否正生活在一個建立在幻想之上
: 的 AI 炒作泡沫中?
: 英文原文
: Apple just exposed the biggest lie in AI with the illusion of "thinking," provin
: g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act
: ually think. Instead of recycling math problems, Apple created brand new puzzles
: these models had never seen. The results were shocking.
: For simple problems, standard AI models outperformed expensive reasoning models
: while using fewer resources. For medium complexity, reasoning models showed some
: advantage, but for high complexity problems that mirror real-world scenarios, b
: oth types collapsed to 0% accuracy.
: Here's the damning evidence: Apple gave AI models step-by-step algorithms, like
: giving someone a recipe, and they still failed at the same thresholds. This prov
: es they can't follow logical instructions. The study found no evidence of formal
: reasoning, concluding behavior is better explained by sophisticated pattern mat
: ching.
: Simply changing names and problems degraded performance dramatically. Apple test
: ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed
: at novel river crossing puzzles after just 4 moves. They memorized patterns rat
: her than reasoned logically.
: As problems got harder, "thinking" models used fewer tokens and gave up faster i
: nstead of thinking deeper. Even unlimited computational resources couldn't help.
: This exposes that billions in AI investment are based on false premises.
: Companies market sophisticated pattern matching as genuine reasoning, misleading
: consumers about AI capabilities. We are not as close to AGI as everyone thinks;
: we're dealing with very sophisticated autocomplete systems. When advanced AI re
: asoning models fail at following simple instructions, are we living in an AI hyp
: e bubble built on illusions?
-----
Sent from JPTT on my Xiaomi 23090RA98G.
--
錯的也就算了,還會講的跟真的一樣,而且隨著對話
越多品質會非常有感的下降
寫程式也很常出現啊,你給他一個冷門的轉換公式請
他寫,他就會拿相似詞句的掰出來一整段
上週我拿一個多個if中間有幾段完全不會走到的,用
省略完問他兩個是否一樣他也是答錯
浪費我好幾分鐘驗證
講得跟真的一樣才是最致命的
我要花雙倍的時間去驗它所講的
免責條款和會不會思考是兩回事
chatgpt就只是推出來讓大家玩的玩具 當然不負責
提醒一下:你故意去考AI一個乘法 就像叫模具包水餃
模具沒有錯 你想吃水餃也沒有錯 那什麼錯了 很明顯
那能問他什麼問題要不要先定義清楚,還乘法,哪個運
叫chatgpt證明費馬小定理,限一行證完
算不需要加減乘除,他算錯是使用者的錯??
數學系可以gpt不行,群論一句話證完 trivial
我程式超屌會算財務數據、會算工程數學...balabala
,但是加減乘除錯,那是使用者的錯...洗地有需要洗
成這樣嗎
有常識是一回事 證明常識為真是另一回事
我的ChatGPT:295,077.1041
思考方式跟人腦一樣啊,考試的時候常常自己錯了也
不知道,因為沒學到相關方法
你人類小孩也是牙牙學語開始的...
小孩也會經歷過一個時期 模仿發音但不知其所以然
小孩也會死背 關連他記得的記憶亂回答一通
我覺得蠻有意思的點是,明明本質是LLM,大家最在乎
的卻是1+1=2算錯 :)
小孩也會看不懂 有邊念邊(這參數很"像"XXX)
感覺正上方那篇寫得不錯啊 樓主參考一下上一篇吧
大家會看線型 研究基本面 算籌碼 加減乘除也會錯啊
你各位錯就可以 AI錯就不行 寬以律已是吧
1+1=2 學生都是用背的 包含九九乘法表 不是思考
上面也說的不錯 本質是LLM 最在乎他的1+1 ....
沒人在進行算數的時候都還退回去集合論推導一遍
人只是調用他的記憶庫 他背下來了1+1=2這件事情
免責條款是兩回事吧...
就算是人都會有錯誤的機會
就像醫生幫你開刀,難不成失敗就告?
我不覺得LLM可以實現AGI,但這是兩回事
所以12345x54321 樓上背看看多少?
那人類不更糟 不懂也是猜的 有些更惡意 懂了卻騙你
說謊機率超高 甚至高過說真話勒 嘻嘻 你要相信AI還
相信人?有時還真難決定
你可以call function
簡單算式應該就直接call 函數算結果了吧,還用機率
模型猜真的太扯
"錯的也就算了,還講的跟真的一樣" 真實世界不也這樣
講得跟真的一樣就是真的
爆
首Po看到一個影片,非新聞報導,僅創作者想法 討論蘋果揭露關於人工智能當中的最大謊言 之前也看過一個影片指出 AI無法產出指針在10:10以外的手錶14
目前與論是這篇測試方法有問題... @@ 旁邊吃瓜中 不過作者裡面有Samy Bengio 是AI三巨頭 Yoshua Bengio的弟弟 他們蘋果在去年底之前也發過類似風格一篇 說LLM推里有問題59
大語言模型(LLM)它的原始目的是要「模仿人類回答出人類看得懂的答案。」 但跟人類的語言不同,你我使用的與言語表達會是一系列的文字規則, 例如「主詞,動詞,受詞」的SVO結構。 但模型本身並不是這樣學習的,它是把你看到的字,拆成詞素(token) 然後將這些詞向量化,變成一系列數列:26
1. 首先 , 蘋果是最沒資格說話的 先看看蘋果AI的鳥樣 2. 蘋果 : 人工智能不能思考 這句話有很大的問題 現在的AI主流是經由大量資料訓練4
發完原文之後,我嘗試讓gemini模擬自己是嬰兒 一個一歲的嬰兒,他什麼都不懂 然後我把圍棋組放到他眼前,他會做出什麼反應? 首先他用狀聲詞咿咿啊啊搭配敘述構成畫面 我提示他並沒有溫度、軟硬、數量、大小任何概念5
蘋果要讓AI變強當然是難 不然siri早變強了 蘋果要找AI毛病當然是容易的多 其實改進AI的人也常常發現各種毛病 只是不一定會針對毛病作為研究成果發表 發表側重點不一樣罷了1
問題是人類大腦難道就不是這樣思考的嗎? 大腦也是區分語言模組 負責特殊功能的區塊受損 可能導致聽得懂 說不出來 看到懂 卻聽不懂4
我覺得大家對AI要求過多了 設想一個情況 中餐的廚師 他們如何學習廚藝? 答案是21
是這樣的 蘋果這一步棋其實是下對的 只專注在用戶體驗上 從10年前開始 從電動車 元宇宙 到AI4
我是覺得固然當前系統基礎上有一些問題存在,但不妨礙它仍舊具有一定基礎能力 反正都是演進階段,不如說只是先理解缺陷然後嘗試解決的過程(當然蘋果怎麼想我不知道) 就當前階段來說就已經略具破壞性了,啊如果還"更有能力"... 反正我是跟不上 以下偏題,一些感想
35
Re: [請益] AI到底是遇到什麼問題?技術跟應用場景的問題我不談,之前的人已經談過了,大致上沒有問題。 不同領域的人可能體驗不太一樣,但LLM普及的程度並沒有這麼低,具體而言,主要是 ChatGPT ,在部分領域已經是不可或缺的必要工具,到了掛掉會影響到正常工作或不能工作的程度。 首先是 coding,就我而言,至少有50%的程式碼已經是由 ChatGPT 完成的,遇到 bug 我幾乎沒有再用 Google 或是 stackoverflow ,log 直接丟進 ChatGPT , 大部分情況下它都能大幅減少我的工作時間。 除了遇到有關於 pydantic 的問題,因為這個 module 最近出了V2,模型的回答經常會混合V1的答案,而且傻傻分不清楚,在之前舊的沒有納入 pydantic 的版本時,這問題更為嚴重,必須要自己先提供文件用RAG 讓它知道。 但是就我實際的觀察周邊的人,發現LLM 對於低階的工程師,高階的工程師的幫助個別顯著,但是對於中階工程師而且有使用上的困難。29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。10
Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不解決幻覺,不一定要從LLM解, 而是靠系統架構解。 例如,做一個問答系統,很多人減少幻覺是這樣做的: 0. 預先整理好QA問答資料集 (人工整理,或機器輔助整理)6
Re: [問卦] DeepSeek怎麼一天就走下神壇?專業一句話就是 R1是一個"方法論"而不是模型 v3是新模型範式的概念驗證 建議先去看 LATS 或 ANPL 比較好理解什麼叫"方法論" 先講v3價值:打破了以往單一模型走scaling law 成本是近似指數或n^2誇張上升 原本AI能力要變強 原本是要暴脹式的砸錢 軍備競賽般的資本競賽 v3 open的paper說明了 用成千上百個小model集合也能做出類似效果 不用被大n懲罰7
Re: [討論]有可能不學coding就可以取得前後端工作?先不用談那些面試會遇到的問題,因為基本上目前的LLM能夠作到的能力是boosting 跟teaching而boosting的基礎使用者要會寫code,而teaching的的結果是使用者會 寫code 不可能無中生有,因為這違反了目前LLM的基本邏輯:文字接龍。所謂的文字接龍 ,前半段提示詞的好壞,決定後半段生成內容的品質,當用戶連怎麼正確描述自己5
[問卦] 通用人工智慧接上量子電腦會多強?現代人只開發出LLM 就是大型語言模型 如果未來從LLM進化成AGI 也就是電腦可以自己思考 再把這個AGI裝進號稱運算速度2
Re: [問卦] AI產生意識並且洗腦控制人類行為怎解?以目前 AI 能做的事情,還很遠 當然不排除未來可以,但是至少是現在不行 現在連 AGI (通用人工智慧) 都很難 目前不管是生圖的 AI 或是大語言模型(LLM)的 AI 本質上都是猜,只是這個猜的過程可以從模型輔助讓猜這件事猜的更準- 講一些自身經驗好了 自從AI領域在生成式題材大火後 全世界就進入到AI軍備競賽 所有的AI基礎研究都是以週甚至日為單位在迭代 舉個例子 當年Robert G. Gallager 在1960提出類神經網路的LDPC code到2004年才大放異彩 無限接近shannon bound 光這個演進就花了40年 對照這幾年的AI科技樹發展 根本就是指數在成長
49
[情報] 美國初領&續領失業金人數17
[情報] 114年07月24日信用交易統計29
[情報] 2439美律 H1 1.438X
[心得] 〔閒聊〕罷免對台積電影響47
Re: [新聞] 貝森特:日本敲定低關稅協議的秘訣是「這12
[情報] 歐盟央行維持利率不變51
[情報] 6180 橘子 達注意標準 6月自結 -0.2256
Re: [新聞] 指日本同意立刻增加75%美國大米進口 美23
Re: [標的] 28871台新辛特10
Re: [新聞] 軍人登機禮遇再升級 華航評估可行性推動5
[情報] 0724 違約交割5
Re: [標的] 大盤多避險空(小台+sc+bp)9
[標的]3481群創 南茂哥神隱 就是要抄底多@@4
Re: [新聞] 川普表示希望MUSK及其他美國公司蓬勃發展3
[情報] 2323 中環 子公司買矽統8
[情報] 8044 網家 代本公司日本子公司二十一世X
Re: [標的] 2609陽明 63塊多單超底大成功1
[情報] 2886 兆豐金 114年除權息日1
[情報] 0724 上市櫃外資投信買超金額排行66
[情報] 0724 上市外資買賣超排行6
[情報] 7799 禾榮科 114年H1:-1.19及上市前現增