[問卦] 為什麼沒人討論Sky T1?
就是那個 UC Berkley 出的AI模型
1月 9號 花450USD訓練你的o1-preview模型
https://i.imgur.com/GsHIgJZ.jpeg

1月23號 花275USD讓推理過程省57%花費
https://i.imgur.com/CaeeCOO.jpeg

戰隊照片,隊員有四個亞洲人+一個外援
https://i.imgur.com/Pk4K3hc.jpeg

為什麼沒人討論SKT?
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)
※ PTT 網址
→
guma坐板凳了啦
照片中的確沒看到
推
Oh oh oh oh dinosaur~
→
關在實驗室我怎麼知道 出APP給大家用啊
程式碼和模型都有開源,9天被下載520次
※ 編輯: kinda (122.116.34.251 臺灣), 02/02/2025 12:59:3247
[討論] Deepseek就之前吹過頭了呀 XD來看看DEEPSEEK之前怎麼吹的 「DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本 和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比Ope nAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬 個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,成本降幅高達驚人的98%。![[討論] Deepseek就之前吹過頭了呀 XD [討論] Deepseek就之前吹過頭了呀 XD](https://i.imgur.com/94BvQMzb.jpg)
40
Re: [閒聊] DeepSeek是不是真的很強?這串一堆外行 首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低 先說訓練成本低23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
10
[問卦] 中國AI發展已經全面領先美國的卦中國的DeepSeek出世 馬上就領先各個大型語言模型 只用10分之1的成本達成 根本不用先進的顯卡就可以訓練完成 造成美國AI界一片譁然![[問卦] 中國AI發展已經全面領先美國的卦 [問卦] 中國AI發展已經全面領先美國的卦](https://i.imgur.com/vumZKlZb.jpeg)
10
Re: [問卦] deepseek的天才少女不出來救場嗎?5 微軟CEO納德拉在電話會上強調,DeepSeek R1模型目前已可通過微軟的AI平台Azure AI Fou ndry和GitHub獲取,並且很快就能在Copilot+電腦上運行。納德拉稱DeepSeek“有一些真的 創新”,AI成本下降是趨勢:“縮放定律(Scaling Law)在預訓練和推理時間計算中不斷![Re: [問卦] deepseek的天才少女不出來救場嗎? Re: [問卦] deepseek的天才少女不出來救場嗎?](https://i.imgur.com/QqCGkqvb.jpeg)
10
Re: [問卦] DeepSeek成本這麽低的原因是啥?分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/O3nSbTXb.jpeg)
4
[問卦]DeepSeek是不是台積電的救世主?[問卦] DeepSeek是不是台積電的救世主? 最近看到DeepSeek在那邊吹什麼MLA架構、MoE模型,說什麼訓練效率超高、推理速度超快 ,笑死,還不是靠台積電的5nm、3nm製程在撐?沒了GG的晶片,你這些所謂的「創新」還 能跑得動? DeepSeek這種吃硬體怪獸,光是訓練一個模型就要幾萬顆A100、H100,這些GPU還不都是![[問卦]DeepSeek是不是台積電的救世主? [問卦]DeepSeek是不是台積電的救世主?](https://i.imgur.com/Z7twi0Sb.jpg)
3
Re: [爆卦] OpenAI專家:大模型夠證明黎曼猜想大家都還停留在gpt-4o的免費模型嗎? 推理模型o1-preview 去年9月出來就已經會把推理過程寫出來了,隱藏掉的是中間思維搜索 猜想階段性進展。前幾天o3推出可以解FrontierMath 25%的問題,這是連數學家都要解好幾 天的題目,且不熟悉題目領域的數學家還不知道怎解, 一般人連題目應該都看不懂![Re: [爆卦] OpenAI專家:大模型夠證明黎曼猜想 Re: [爆卦] OpenAI專家:大模型夠證明黎曼猜想](https://i.imgur.com/SSU9fchb.png)
3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)