Re: [新聞] 台灣人工智慧實驗室推解決方案 爭取「可
阿肥碼農阿肥啦!
12月開始準備放長假了。有時間說一下Federated LLM的一些東西好了,Federated Learning for LLM大概22年就有零星的研究,不過比較有綜述寫得蠻好的主要是去年港科大的一篇FATE-LLM把整個脈絡跟方向做一個比較具體的說明然後他們提出他們的框架。
其實說白了就是分散式計算的架構,Edge端將梯度跟損失給中央計算完後再給邊緣端更新,差別在於為了讓Edge端跟Server傳輸量減量所以使用了parameters efficient fine tuning 的方法只更新adapter/prompt的參數而已。
然後今年大概2月比較有名的就是上海交大提出的OpenFedLLM大概就是把DPO這種離線Preference Learning 方法用到Federated LLM上。主要還是RLHF太難做到Federated Learning 上了,所以才取巧用DPO來結合聯邦學習。
不過真的說當前聯邦學習的缺陷就是真的使用到實務上依舊無法解決LLM的幻覺問題,而且當前大模型為了產品穩定性每一輪的疊代更新都需要進行紅隊測試跟穩定性測試,這個其實很難再Fed的架構上做到。Fed本質上就是為了隱私問題誕生的,但他必然會失去中心化的優勢。
差不多4醬
--
跳針跳太大了吧,上篇是說trust,你在說privacy…
然後最後跳針,保證資料privacy的訓練架構,對幻覺
沒幫助。(又跳針,federated learning本來就跟是否
幻覺無關)
懶得科普這麼多,花個不到三分鐘隨手打的東西剩下有興趣懂的人自己去看Paper查資料就 好了啊:)新聞稿就說了是要做聯邦式GPT領域內懂得就懂了,Federated Learning 本來就 是GDPR法案下為了兼顧隱私和數據誕生出來的東西至於為啥說AILab說用這個可以讓LLM可信 任就是人家的說法了
※ 編輯: sxy67230 (36.228.9.122 臺灣), 12/07/2024 07:39:2334
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。10
Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不解決幻覺,不一定要從LLM解, 而是靠系統架構解。 例如,做一個問答系統,很多人減少幻覺是這樣做的: 0. 預先整理好QA問答資料集 (人工整理,或機器輔助整理)7
Re: [討論]有可能不學coding就可以取得前後端工作?先不用談那些面試會遇到的問題,因為基本上目前的LLM能夠作到的能力是boosting 跟teaching而boosting的基礎使用者要會寫code,而teaching的的結果是使用者會 寫code 不可能無中生有,因為這違反了目前LLM的基本邏輯:文字接龍。所謂的文字接龍 ,前半段提示詞的好壞,決定後半段生成內容的品質,當用戶連怎麼正確描述自己3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事2
Re: [問卦] AI產生意識並且洗腦控制人類行為怎解?以目前 AI 能做的事情,還很遠 當然不排除未來可以,但是至少是現在不行 現在連 AGI (通用人工智慧) 都很難 目前不管是生圖的 AI 或是大語言模型(LLM)的 AI 本質上都是猜,只是這個猜的過程可以從模型輔助讓猜這件事猜的更準1
Re: [問卦] 為什麼人工智慧在這今年炸開了矽谷一定要有話題可以炒呀 不然錢要從哪來 區塊鏈炒一波之後就下去了 AR/VR 接手炒一波也下去了 現在換 AI 接手- North Carolina State University (NC State) Intelligent Wireless Networking (iWN) 實驗室將在2021-2022 招收1-2名ECE/CS PhD學生,提供RA/TA獎學金。 iWN實驗室目前的研究重點是6G Smart Radio and Intelligent Networking Architecture, Vehicular Edge Computing Infrastructure, the AIoT for Cyber-Physical Systems, Wireless Federated Learning。
- 講一些自身經驗好了 自從AI領域在生成式題材大火後 全世界就進入到AI軍備競賽 所有的AI基礎研究都是以週甚至日為單位在迭代 舉個例子 當年Robert G. Gallager 在1960提出類神經網路的LDPC code到2004年才大放異彩 無限接近shannon bound 光這個演進就花了40年 對照這幾年的AI科技樹發展 根本就是指數在成長
爆
[心得] 我將台達電列為永不面試黑名單76
[討論] 副校長那篇文是不是造成公關大災難主因?19
[討論] 台達的公關帳號是請到哪家cost down的?19
[討論] 你們有被主管罵過什麼嗎?15
[討論] 台達電算設備廠中的T幾公司了??16
[討論] 科技業正常上下班到底有多困難!?55
[討論] 台達明年會用什麼口號去清大招募?47
Re: [討論] 怎麼沒人爆料他主管10
[討論] 現在看起來光光是不是棒多了?26
[討論] 台達電事件燒這麼大 政府有去勞檢嗎?7
[請益] Offer請益37
[討論] 台達是不是比台積還操10
Re: [討論] 怎麼沒人爆料他主管9
Re: [討論] 台達明年會用什麼口號去清大招募?8
[討論] 壓新聞這種事算是常態吧11
Re: [討論] 怎麼沒人爆料他主管3
Re: [心得] 我將台達電列為永不面試黑名單4
[討論] 工程師真的人人300萬?1
Re: [討論] 台達明年會用什麼口號去清大招募?X
Re: [討論] 試用期是否違法,試用期沒過要給資遣12
Re: [心得] 台達電人資和主管聯手霸凌勞工真實事件簿1
Re: [討論] 試用期是否違法,試用期沒過要給資遣費