Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大

imhan705 發表於 2024/9/17 上午2:19:39

看板Gossiping標題Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大作者

imhan705

(最後也就睡了)時間Sep 17 02:19:39 2024推噓56 推:61 噓:5 →:83

PTT推薦

剛推出出來的時候我拿了幾題邏輯題出來考他

正確率很高我很驚喜覺得太神啦

剛剛看到下面推文

說他答不出來9.9跟9.11誰比較大

我想說不可能這麼簡單的答不出來吧

就測試了一下結果…下面是我的對話

真的答不出來我還試著引導他用程式來解決

但完全沒有幫助

這代幻覺好像更嚴重了連你質疑他都不會想改答案

我相信未來能解決的我比較擔心一些人開始依賴他把他當google 他們會逐漸喪失辨別真偽的能力 AI輸出什麼就是什麼 AI犯錯不可怕可怕的是犯錯了沒人知道他犯錯了

https://youtu.be/4EayaPNo6pk?si=XPOsISjXtbvi7cQA

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.24.246 (臺灣)

※ 文章網址:

https://www.ptt.cc/Gossiping/E.zSqSHjXgU2ds

→

qw99992 09/17 02:20辨別不了真偽的慢慢就會被職場淘汰

推

void 09/17 02:20你講的最後一段早就發生了一些白癡好像完全

當模型能力越強信賴就會越深…有一天會有一群人相信9.9<9.11

→

void 09/17 02:21不懂AI會無中生有編假的答案給你連驗證都不

→

void 09/17 02:21知道要做還有ChatGPT以後就不需要估狗笑死

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:21:55

→

void 09/17 02:22不用什麼模型能力強第一代GPT就有這問題了

推

void 09/17 02:24如果你熟悉的東西你還知道它在唬爛如果是

→

void 09/17 02:24你完全外行的領域你連它在唬爛都看不出來

推

TaiwanUp 09/17 02:24看起來是當成日期了中文問答較差

那他的算式意思是9月9日-9月11日=-0月21日囉

→

void 09/17 02:25偏偏現在一堆XX GPT講什麼就信什麼只能說87

→

void 09/17 02:25Bing會附上reference這點是好很多但性能差

→

TaiwanUp 09/17 02:26九月11確實比九月九大

推

void 09/17 02:27誰來試一下13.11和13.9看看? 這不可能是日期

他答對了但就如我所說真真假假才是最可怕的

https://i.imgur.com/Gg3qyuk.png

→

void 09/17 02:27會不會上面這個就答對了不會出錯?

推

swgun 09/17 02:28問問AI 如何用數學證明9.1大於9.9

→

swgun 09/17 02:28說不定你發現AI 才是世界真理

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:28:35

推

jamo 09/17 02:28我感覺ai的正確率也不比記者低，在特定議題

→

jamo 09/17 02:28睜眼說瞎話程度兩者相當。記者的話都有人在

→

jamo 09/17 02:29信了，信AI看起來也就沒那麼不可接受了吧?

推

dans 09/17 02:29都說9.9-9.11=-0.21了，所以實際上是把9.11

→

dans 09/17 02:29當作10.11，感覺只是小錯

可是我要他驗算的時候抓不出來啊他一直自圓其說

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:30:31

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:31:55

推

williambox 09/17 02:32除了文書處理外還是小心求證得好...

推

dans 09/17 02:33ChatGPT本來就瞎掰王了，是你打開的房市錯

我覺得離譜的地方是我請他用程式來計算了他直接無視程式的輸出繼續講他的

→

dans 09/17 02:33了

→

williambox 09/17 02:33最近職場上真的很常聽到"可是GPT說...

→

williambox 09/17 02:33" 嗯... 好唷

推

dans 09/17 02:35https://i.imgur.com/ciUv1ah.jpeg

→

dans 09/17 02:35我成功教育瞎掰王把13.11也算錯了

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:37:17

推

photoswimmer 09/17 02:38感覺人類哪天被AI滅了也會是因為一

→

photoswimmer 09/17 02:38些愚蠢的邏輯錯誤

想像哪天全人類要移民火星了結果AI分不清楚9.9 9.11誰大太空船路線直接衝向太陽然後船上的人也都不覺得有問題XD

推

DarkerDuck 09/17 02:38https://i.imgur.com/kFscaRK.png

→

DarkerDuck 09/17 02:38FUCK

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:41:26

推

GOD5566 09/17 02:42 https://i.imgur.com/JEHs9I4.jpeg

推

cccwahaha 09/17 02:44工程用的模型不一樣就是了XDXD

→

cccwahaha 09/17 02:45其實也很多在質疑目前AI的邏輯訓練方式

→

cccwahaha 09/17 02:47反正未來誰能更準確更厲害.誰就是對的

推

dans 09/17 02:50現實沒有所謂「最準確、最合理」若一直用這

→

dans 09/17 02:50標準去訓練AI模型，就只會持續做出瞎掰王

推

joywilliamjo 09/17 02:54那問他0.1+0.2是否等於0.3這個經典

→

joywilliamjo 09/17 02:54問題呢

推

TameFoxx 09/17 02:54用9.90-9.11問她他就會了

推

YAYA6655 09/17 02:55他是語文模型本身是不懂的思考的可悲

→

WenliYang 09/17 02:55無聊的AI 走倒退路罷了

→

YAYA6655 09/17 02:56若這種都不會，AI真的會泡沫化 zzz

噓

twoboy 09/17 03:009.9<9.11? 你傻了嗎？

→

enthpzd 09/17 03:14你問它：我可不可以說1+1=3。

推

cassetoi 09/17 03:14不用問數學，問chatgpt raspberry 有幾

→

cassetoi 09/17 03:14個r，它不會說3個，因為它不是真的給你

→

cassetoi 09/17 03:15乖乖去算

推

starfishfish 09/17 03:15推

噓

mimi1020b 09/17 03:31你講的這些不就是人類行為嗎

→

mimi1020b 09/17 03:32假做真時真亦假不代表AI就是人了?

推

milkBK 09/17 03:45https://i.imgur.com/A67Tbs5.png

→

milkBK 09/17 03:45第一次回答錯誤叫他寫證明

推

milkBK 09/17 03:50https://i.imgur.com/vybXaj3.png

→

milkBK 09/17 03:51用程式也沒問題啊你用盜版嗎

推

dovepacket 09/17 04:12他就只是個大數據而已沒多神

→

JoeyChen 09/17 04:12為啥copilot也會答錯

→

JoeyChen 09/17 04:17兩個AI都答錯大數據裡應該不是這樣吧

→

AtsukoErika 09/17 04:18https://i.imgur.com/w1Pu6ZH.jpeg

→

AtsukoErika 09/17 04:18累死終於矯正成功

推

graysinger 09/17 04:27我的還真的不會算耶，還給錯誤的證明

→

graysinger 09/17 04:27，整個廢到笑

→

graysinger 09/17 04:28http://i.imgur.com/uYTxOhW.jpg

推

graysinger 09/17 04:32http://i.imgur.com/Nd3ZGwy.jpg

推

dovepacket 09/17 04:32恭喜掰正

→

JoeyChen 09/17 04:34gray大它方法1是對的耶

推

Chilloutt 09/17 04:36看不出ai對錯的比ai還敢更糟

推

graysinger 09/17 04:42ai這種錯中有對，對中有錯最讓人害怕

推

lau6m2002 09/17 05:25真的有在用的都知道AI超會唬爛。但現

→

lau6m2002 09/17 05:25在真的有白癡把AI產出當成正確的證據

推

MrCool5566 09/17 05:47只要加寫出你的思考過程就會對了

推

eric112 09/17 05:53剛下試了一下發現它幹話講的很有道理，

→

eric112 09/17 05:53我差點以為我錯了

推

nalthax 09/17 06:06在法界早就發生了

→

jasperhai 09/17 06:31早就一堆人把AI當神毫無判斷能力了

推

menchian 09/17 06:38ai目前錯誤還是很多，碰到不知道的事情

→

menchian 09/17 06:39還會隨便唬爛，但可悲的是一堆低能兒跟

→

menchian 09/17 06:39你討論事情時只會拿ai的回答當佐證

推

menchian 09/17 06:41http://i.imgur.com/yGZWb0X.jpg

→

menchian 09/17 06:41比如像這樣亂算一通

推

mugen8521 09/17 06:42挺有趣的http://i.imgur.com/q43ByON.j

→

mugen8521 09/17 06:42pg

→

mugen8521 09/17 06:43http://i.imgur.com/xbV1l0M.jpg

→

eva19452002 09/17 06:48但是這題用google gemini就有答對

推

jacky5827 09/17 07:18無法辨別真偽的，用google只會更慘

推

Taiwanfish 09/17 07:30https://i.imgur.com/ywkUfIR.jpeg

推

uwptd 09/17 07:34完美模擬台灣司法

推

laugh8562 09/17 08:04ChatGPT是數學白癡應該說他的模型就

→

laugh8562 09/17 08:04不是用來算這個的

推

Ernest 09/17 08:07算數學要數學特化的ai，有人做

→

riker729 09/17 08:18這不叫AI 沒有分辨能力餵他屎他就出屎

推

Isopod 09/17 08:29https://i.imgur.com/2rqY1JJ.jpeg

→

Isopod 09/17 08:29prompt要下好

推

WFU 09/17 08:50你的問法不對問9.90跟9.11哪個比較大就行了

推

graysinger 09/17 08:52沒救耶http://i.imgur.com/lckvyKy.jp

→

graysinger 09/17 08:52g

→

graysinger 09/17 08:53http://i.imgur.com/TgF0Cw6.jpg

推

joke3547 09/17 09:00o1好像會說服人，蠻恐怖的

推

pftmax 09/17 09:03不是Ai犯錯，而是答案本來就沒對錯

→

pftmax 09/17 09:03逆向思考，也許錯的答案也是對的

推

qzwse 09/17 09:07真的沒救

→

qzwse 09/17 09:07https://i.imgur.com/7llItn2.jpeg

→

qzwse 09/17 09:10結論

→

qzwse 09/17 09:10數學部分相信AI程式碼執行出來的東西不

→

qzwse 09/17 09:10要直接相信AI

推

holypiggy 09/17 09:11確定只有數學部份嗎

推

qzwse 09/17 09:13gpt4 反而沒有這個問題

→

qzwse 09/17 09:13https://i.imgur.com/HHVxWav.jpeg

推

Townshend 09/17 09:23試了一下還真的分不出9.9 跟9.11誰大，

→

Townshend 09/17 09:23copilot的理由是9.9可當成9.90，比較

→

Townshend 09/17 09:23尾數1>0，所以9.11比較大。真是笨的不

→

Townshend 09/17 09:23可思議

推

XiaoChing221 09/17 09:36就問的方式他聽不懂，別怪工具不好

推

Townshend 09/17 09:56連問9.9跟9.11哪個數字大也聽不懂，還

→

Townshend 09/17 09:57不能怪ai不好?

推

Townshend 09/17 09:59https://imgur.com/q3ms5sW

推

Townshend 09/17 10:00這樣問又知道答案不曉得問題出在哪

推

LDY97 09/17 10:11結果他還把9.90-9.11=0.79改成錯的笑爛

推

acluke 09/17 10:18開始讓我懷疑9.9是不是9.90了

→

pengda200010 09/17 10:349.9 and 9.11 are both float which

推

wiork 09/17 10:46對啊，缺點只能不要太深入的問題，還要檢

→

wiork 09/17 10:46視答案

→

deray 09/17 10:50微軟的copilot真他媽辣雞

推

DarkerDuck 09/17 10:53o1幻覺更嚴重不意外啊

→

patvessel 09/17 10:53https://reurl.cc/dyq0ez

→

DarkerDuck 09/17 10:54LLM本來就有幻覺，你還CoT串起來疊加

→

DarkerDuck 09/17 10:54https://i.imgur.com/EZiE3SL.png

→

DarkerDuck 09/17 10:56這就是為什麼有些問題o1表現更鬼扯

→

DarkerDuck 09/17 11:01至於9.9和9.11的問題在於LLM的全名是

→

DarkerDuck 09/17 11:01arge language model

→

DarkerDuck 09/17 11:01Large language model

→

DarkerDuck 09/17 11:02它處理的最小單位是語言中的單字token

→

DarkerDuck 09/17 11:02不是設計用來處理數字的

→

karta1271642 09/17 12:17他就不會推理啊

噓

hotrain13 09/17 12:27他就不是拿來問數學的....

噓

vincent8914 09/17 13:17根本是你問錯方式誰知道你問的是日

→

vincent8914 09/17 13:18期版本號還是數值?期待AI通靈?

→

AoWsL 09/17 13:209.9跟9.11這數學問題討論很多次吧...我還測

→

AoWsL 09/17 13:20試了一下大部分的AI，GPT4o剛開始還會跟你

→

AoWsL 09/17 13:20硬拗不認錯

→

AoWsL 09/17 13:23喔好像只有gemini答對是不是？

推

hhealthy0429 09/17 13:46沒有背景知識能力使用generative a

→

hhealthy0429 09/17 13:46i 幫助有限

推

losage 09/17 15:10有沒有可能ai的推論才是真的

推

abbag 09/17 15:26開始虎爛不認錯後，信任度下降就慘了XD

推

a0521487241 09/17 20:36https://i.imgur.com/BcxpNTC.jpeg

→

a0521487241 09/17 20:37我是叫他再想想就正確了

噓

XiaoChing221 09/17 21:40表達能力有問題嫌工具爛

→

wulitou 09/19 11:27https://i.imgur.com/q9FxQU1.jpeg

同系列文章

[爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大

其他人也閱讀了

PTT 熱門相關