Re: [問卦] AI機器人的信度和效度?
※ 引述《jej》之銘言
: 如題啊
: 現在牌面上的機器人
: 號稱可以取代人工
: 但本肥上去聊了一下
: 總覺得機器人回答的不完全對耶
: 但是看那些機器人的官網
: 也沒有說機器人回答問題
: 的信度 效度分別是多少?
: 很神奇
: 用統計做出來的東西
: 卻沒有統計勾稽他
: 有沒有版上鍵盤機器人訓練家
: 可以解釋一下嗎
: 來 寶傑
阿肥外商碼農阿肥啦!在下鍵盤研究員回答一下你的問題,
1. 先說統計檢驗部分,一般而言在傳統研究領域小數據上都會要你做一些傳統的統計檢驗,
例如你加了某個方法以後會更好,你要跟讀者證明A優於B,要避免模型有隨機性那做了可以證明你是對的。不過現在大部分NLP訓練都是基於巨量數據像GPT-3有45TB的文本,這麼大的數據情況下我們都會假設數據服從中央極限定理符合常態分佈,那做假設檢驗就有點多餘。
2. 當前NLG的任務都是基於自監督在透過人工標註來訓練一個偏好學習來微調大語言模型,這種就很難評斷哪個評價更好是對的這種問題,統計檢驗雖然可以告訴我們哪個比較顯著,但是不會告訴你顯著方向,依舊需要人類來定義,而人類定義又會回到問題上,我們即使請了一堆人標答案你怎麼知道哪個一定更好?即使是找一百個人好了,一百個人我們透過統計來找到應該某個選項比較好也不見得就是真實世界的答案,畢竟人類不是上帝。
3. 基本上當前所有的模型發佈或發表都會做一些消融實驗驗證我們確實好一點,像GPT4也有
提供calibration 驗證,Anthropic (谷歌合作的AI公司致力於安全性,創始人是OpenAI出來
的)在他們的chatBot研究Paper上還有提供有效性跟無害性分析。
4. 一個有趣的點是當前自監督加上巨量數據下,對於傳統的特徵篩選越來越不重要,因為夠
巨量,全部都當成QA問題似乎越來越沒差,不過因為模型太大可能執行速度困難下,讓模型稀疏化不要一次激活全部神經元的研究正夯,像是透過一些小的Linear把他訓練成專家篩選器。
5. 深度學習的可解釋性依舊是一個問題,我們到現在還是不明白大語言模型的湧現能力是怎
麼出現的,似乎在某些問題上凸顯湧現能力但是到某些問題上模型又變成三歲智商,這點還是回到Yann LeCun 說得我們現在連貓狗大腦都做不出來,但某種程度LLM卻又表現出類人能力,這會是之後蠻硬核的研究議題,若是有人能找到這個聖杯,那足夠價值五個圖靈獎了。
--
14
Re: [新聞] 馬斯克等千人簽署公開信:呼籲暫停巨型AI公開信的原文: 它裡面提到4個自我省思,其中第1點:假訊息 是曾經/正在發生,而且造成實質損失 人類判讀訊息真實性時,經驗/直覺可以在新證據 (假設是新聞、訊息) 不多、不強11
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步12
Re: [閒聊] 繪師是怕畫不過AI還是怕AI會創作?怒刪,剛好碩班是研究AI領域,以我的角度來看 其實人工智慧這一塊的發展跟人類特徵學息息相關。人類從自我的習性套用到機器上,透 過流程特徵化後編制pipeline讓機器模仿人類的習性。 先說結論,Machine Learning(ML)不可能只靠「單一」一張畫師的畫就可以訓練成一個有 效的模型;相反地它需要透過大量的數據去臨摹某一種畫風。8
[爆卦] DeepMind新AI可輔助純數學研究vel-ways DeepMind發表了新的機器學習框架,能幫助數學家發現新猜想和定理。該框架已經輔助發現 一個拓撲學新定理和一個表示論的新猜想。7
Re: [討論] 好像這一天會來:工科超越醫科推 pornstar : 這篇文先存, 20年後再回來看會不會打臉 02/04 16:40 推 IBURNER : 等到AI診對開放給一般人作參考 AB test的結果是醫生 02/04 16:42 → IBURNER : 判錯的機會比較高 這職業就被挑戰了 沒那麼難 02/04 16:43 如果懂AI就不會說這種話 講白一點AI就是歸納大量資料訓練出模型5
Re: [閒聊] 用CHATGPT跑團基本上就是記憶力(連結上下文能力)問題, ChatGPT的記憶能力「據說」是4000個token 約= 3000個英文單詞。 無論GPT3 API或者前天的GPT3.5 API也是這樣,超過的連結不到就會跑設定, 就算你自己串API都不會得到比較好的結果,只是據說沒有倫理限制而已。 那真的想這樣玩「可能」可以怎麼做?2
Re: [問卦] ChatGPT到底是炒作還是未來趨勢?!這個東西後厲害的不是目前的應用 他厲害的點是他能讀懂你想說什麼 然後可以高效率給你要的答案 在目前整個機器學習深層學習的研究上很多都還是有目標性 特斯拉開車1
Re: [問卦] 為什麼人工智慧在這今年炸開了這一波是十年前的AlexNet才開始讓ML實用化 以往都只是研究 AlexNet橫空出世 GPU+大型CNN 辨識率高 忽然讓一堆人想到 啊幹 原來GPU能幹那麼複雜的事情 所以從2012年之後 ML/AI的研究如同雨後春筍呈現爆炸性的增長 ML從事的人多 想法就多 推出的模型多 成功的總會有幾個
94
[爆卦] 攝徒日記向國民黨宣戰!!爆
Re: [新聞] 快訊/憲訴法三讀! 宣告違憲時大法官人爆
[問卦] 三立被抵制了怎麼辦89
[問卦] 罷免連署需要身分證 你真的OK??爆
[問卦]那個... 三立的主播好像也造反了欸?81
[問卦] 48張選票如何投贏有51張選票的79
[問卦] 脆:你們以後會後悔的 走著瞧 怎麼回72
[問卦] 原來真的有人挺戒嚴耶48
Re: [問卦] 青鳥衝撞時偷偷摸正妹的奶會被發現嗎爆
[問卦] Threads:我明明投對了票...50
[問卦] 急 客廳地板突然全部隆起爆
[問卦] 今天遊行怎麼只有粥= =38
[問卦] 為啥一堆人說日本住宿很貴 掛???????????34
Re: [新聞] 快訊/憲訴法三讀! 宣告違憲時大法官人43
[問卦] 大法官宣佈這次立法違憲怎麼辦36
Re: [新聞] 快訊/憲訴法三讀! 宣告違憲時大法官人爆
[問卦] 連署要身分證怎麼了?17
[參選] BlueBird5566 罵青鳥無罪!29
[問卦] 統神18oz拳套打蹦闆10oz拳套,差很多嗎?27
[問卦] 台灣的寒冷 體感上世界最冷 的由來?47
Re: [新聞] 快訊/憲訴法三讀! 宣告違憲時大法官人19
[問卦] 要怎麼養成洗冷水澡的習慣26
[問卦] 半夜要爬玉山 該注意什麼25
Re: [問卦] 台灣的法條就是這樣通過的喔?27
[問卦] 三立新聞底下一堆人揚言拒看!?23
[閒聊] 立法院外在唱台灣尚勇?16
Re: [新聞] 快訊/憲訴法三讀! 宣告違憲時大法官人46
[問卦] 清大生科期末考出事了!22
Re: [新聞] 快訊/憲訴法三讀! 宣告違憲時大23
Re: [新聞] 選罷法修正案三讀 民進黨立委高喊沒收民