Re: [請益] Deepseek v3 對台積電有影響嗎
的確會讓人好奇DeepSeek-V3的訓練方式,
但成本降低如此之多,另外一個思考點,是不是除了科技巨頭外,
更多公司願意投入資本支出來建立自己的模型?
而且隨著技術發展,模型建立的成本一定會快速下降。
DeepSeek-V3比較的 Claude.ai/Qwen2.5/LLaMA3.1
這些模型都已經訓練一段時間,而且也在很多領域展開應用,
這裡面一定會使用到舊有的演算法機制,效能可能沒新的好。
而DeepSeek-V3是重新開發的,當然可以用現在更好的演算法,
簡單說,就是站在巨人的肩膀上看的更遠,其實不需要太驚訝。
最後講個政治不正確的東西,
DeepSeek-V3 會受到中國的有關單位進行監管,
論文中沒有明確指出數據集的篩選標準,
但可以推測,DeepSeek-V3的訓練數據集可能經過一定程度的篩選,
以符合中國的監管要求。
可能會降低數據集的多樣性,
當然也能提高數據的來源品質和一致性,
訓練速度速度與成本肯定更快更低。
所以模型應該有可能存在偏差,而且某些政治敏感問題無法回答。
例如你問他64天安門,這模型會不會無法回答?
你問他習近平的的智商,這模型搞不好吹高大尚?
先不用太擔心這個啦,不過中文領域的部分,應該毫無競爭對手,
中國市場大資料量龐大,要訓練通用型中文AI絕對是一把手。
※ 引述《Latte7 (nonono)》之銘言:
: https://www.ettoday.net/amp/amp_news.php7?news_id=2882228&ref=mw&from=google.c: om
: 中國展示了他們的新模型
: 重點在它極低的成本
: 好奇這樣是不是代表科技巨頭們不需要這麼多晶片?
: 會對台積電的晶片需求有影響嗎
--
桃園之光
https://i.imgur.com/ZGzxwgN.jpg
--
推桃園之光
現在論文爆炸 大家都是找熱門有用的堆料
Bert-VITS 這種有用的很快就被驗證
做自己的模型以外 還要關注一下其他熱門方向
LLM 只是AI模型的一種,其他還有很多類型。
最近比較紅的是可以理解物理的視覺模型
目前是理論熱,等到應用熱潮才是變現階段
就不會有人跟他競爭中文模型
41
首Poom 中國展示了他們的新模型 重點在它極低的成本 好奇這樣是不是代表科技巨頭們不需要這麼多晶片?2X
2024是韓國經濟20年最差的時間點 但很快人們發現,2024也會是台灣半導體的頂點 成熟製程的後路已經斷了,中國機器狗落地上的的優異表現和deepseek的出現,都是對OPENAI-NV-TSM的重擊 應用優勢不在美方,新的算法改進造成算力需求驟降的風險隨時發生,舊的算法如果固定化NV通用GPU又要受asic的衝擊 sora恬不知恥的商用化,但是顯然沒有任何實質進展,細部動作仍然很難看,但是爲了撐股價也匆匆丟出來9
沒想到吹沒多久 當問DeepSeek-V3:"你是什麼模型" DeepSeek-V3竟然回答:"我是chatgpt"1X
deepseek在多語言編程指標中有自己的優異表現,很多指標優於chatgpt,最好是偷偷調用別人的API啦 Codeforce領先所有模型,思維鏈的應用上,諸如數學能力的 AIME 2024 CNMO 2024測試也是領先全球的 而且已經可以本地部署測試,成本降低是可見的,原理也是業界認可的 你以爲這兩個小例子能推翻什麽嗎XD 由於低成本和硬件限制,有缺陷是非常有可能的,但是只要原理通,未來非常可期。6
我覺得評比指標什麼都是後話 使用體驗太差 你看看這樣怎麼稱霸世界呢? 你的進線參數與資料量就比別人少了,
73
Re: [請益] NVDA跟AMD怎麼突然崩了週末有點時間 之前寫的老黃故事 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力 簡言之 2018以前 AI模型 都是透過數據 去學習資料上的標註資料 來做人類事先規範好的目的 而機器透過這些標注數據 去達到人類要求的事情 當模型遇到一個沒看過的數據 或者場景變得不同 模型就會失效 甚至無法處理55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預43
Re: [請益] NVDA跟AMD怎麼突然崩了本來中午要去吃飯剛好看到這篇,雖然我說的內容可能大部分人也可能不太理解, 但巷子內的看到應該會覺得還是蠻怪的,當然有更多大神指點是更好的 ※ 引述《LDPC (Channel Coding)》之銘言: : 週末有點時間 之前寫的老黃故事 : 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然6
Re: [新聞] 吳欣盈街頭開講近全台語 群眾喊「you are道 : 2. GDPR 架構上有沒有問題?有。其中一個是因為很多領域如醫療等其實很難訂出全歐 一 : 3. 另根據研究,在 GDPR 實行也對產業產生衝擊,有數據指出有 8% 的利潤損失,其 中?X
Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」不知道這個話題有什麼好延燒的,一個數據庫而已。 在中文環境,台灣本就貢獻有限,要研究,就必不可少用到對岸資料,重要的是語言模型的 表現怎麼樣。 至少從實際來看,回答邏輯通順,條例分明,也能準確理解提問的意涵並給出準確的答案, 這不就夠了嗎?X
[閒聊]ChatGPT:區塊鏈與語言模型:數位革新的合力前幾天看到文章説 已經有人利用FB洩漏的資訊在筆電上實現類似ChatGPT的技術 所以我試著問GPT一些問題 獲得一些心得 分享給大家 所以以下的文章是ChatGPT寫的,包含標題XDD 有興趣請往下慢慢看~ (至於FB洩漏什麼 請自行搜尋 我網址沒存XD)- 李飛飛親自撰文,數十名科學家簽署聯名信,反對加州AI限制法案 機器之心 AI真的已經危險到要如此監管的地步了嗎? 在創新的熱土矽谷, 李飛飛 、 吳恩達 等AI 科學家正在與監管部門展開一場關於安全
- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
X
Re: [心得] WWDC24節錄-系統級個人助理面世: : Q:阿婆完全照搬OpenAI的GPT模型嗎? : A:沒有,這次提供的是本地自家模型以串接的方式連動GPT模型,也提供用戶關閉此功 能 : 的選項