Re: [問卦] AI機器人的信度和效度?
※ 引述《jej》之銘言
: 如題啊
: 現在牌面上的機器人
: 號稱可以取代人工
: 但本肥上去聊了一下
: 總覺得機器人回答的不完全對耶
: 但是看那些機器人的官網
: 也沒有說機器人回答問題
: 的信度 效度分別是多少?
: 很神奇
: 用統計做出來的東西
: 卻沒有統計勾稽他
: 有沒有版上鍵盤機器人訓練家
: 可以解釋一下嗎
: 來 寶傑
阿肥外商碼農阿肥啦!在下鍵盤研究員回答一下你的問題,
1. 先說統計檢驗部分,一般而言在傳統研究領域小數據上都會要你做一些傳統的統計檢驗,
例如你加了某個方法以後會更好,你要跟讀者證明A優於B,要避免模型有隨機性那做了可以證明你是對的。不過現在大部分NLP訓練都是基於巨量數據像GPT-3有45TB的文本,這麼大的數據情況下我們都會假設數據服從中央極限定理符合常態分佈,那做假設檢驗就有點多餘。
2. 當前NLG的任務都是基於自監督在透過人工標註來訓練一個偏好學習來微調大語言模型,這種就很難評斷哪個評價更好是對的這種問題,統計檢驗雖然可以告訴我們哪個比較顯著,但是不會告訴你顯著方向,依舊需要人類來定義,而人類定義又會回到問題上,我們即使請了一堆人標答案你怎麼知道哪個一定更好?即使是找一百個人好了,一百個人我們透過統計來找到應該某個選項比較好也不見得就是真實世界的答案,畢竟人類不是上帝。
3. 基本上當前所有的模型發佈或發表都會做一些消融實驗驗證我們確實好一點,像GPT4也有
提供calibration 驗證,Anthropic (谷歌合作的AI公司致力於安全性,創始人是OpenAI出來
的)在他們的chatBot研究Paper上還有提供有效性跟無害性分析。
4. 一個有趣的點是當前自監督加上巨量數據下,對於傳統的特徵篩選越來越不重要,因為夠
巨量,全部都當成QA問題似乎越來越沒差,不過因為模型太大可能執行速度困難下,讓模型稀疏化不要一次激活全部神經元的研究正夯,像是透過一些小的Linear把他訓練成專家篩選器。
5. 深度學習的可解釋性依舊是一個問題,我們到現在還是不明白大語言模型的湧現能力是怎
麼出現的,似乎在某些問題上凸顯湧現能力但是到某些問題上模型又變成三歲智商,這點還是回到Yann LeCun 說得我們現在連貓狗大腦都做不出來,但某種程度LLM卻又表現出類人能力,這會是之後蠻硬核的研究議題,若是有人能找到這個聖杯,那足夠價值五個圖靈獎了。
--
14
Re: [新聞] 馬斯克等千人簽署公開信:呼籲暫停巨型AI公開信的原文: 它裡面提到4個自我省思,其中第1點:假訊息 是曾經/正在發生,而且造成實質損失 人類判讀訊息真實性時,經驗/直覺可以在新證據 (假設是新聞、訊息) 不多、不強11
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步12
Re: [閒聊] 繪師是怕畫不過AI還是怕AI會創作?怒刪,剛好碩班是研究AI領域,以我的角度來看 其實人工智慧這一塊的發展跟人類特徵學息息相關。人類從自我的習性套用到機器上,透 過流程特徵化後編制pipeline讓機器模仿人類的習性。 先說結論,Machine Learning(ML)不可能只靠「單一」一張畫師的畫就可以訓練成一個有 效的模型;相反地它需要透過大量的數據去臨摹某一種畫風。8
[爆卦] DeepMind新AI可輔助純數學研究vel-ways DeepMind發表了新的機器學習框架,能幫助數學家發現新猜想和定理。該框架已經輔助發現 一個拓撲學新定理和一個表示論的新猜想。7
Re: [討論] 好像這一天會來:工科超越醫科推 pornstar : 這篇文先存, 20年後再回來看會不會打臉 02/04 16:40 推 IBURNER : 等到AI診對開放給一般人作參考 AB test的結果是醫生 02/04 16:42 → IBURNER : 判錯的機會比較高 這職業就被挑戰了 沒那麼難 02/04 16:43 如果懂AI就不會說這種話 講白一點AI就是歸納大量資料訓練出模型5
Re: [閒聊] 用CHATGPT跑團基本上就是記憶力(連結上下文能力)問題, ChatGPT的記憶能力「據說」是4000個token 約= 3000個英文單詞。 無論GPT3 API或者前天的GPT3.5 API也是這樣,超過的連結不到就會跑設定, 就算你自己串API都不會得到比較好的結果,只是據說沒有倫理限制而已。 那真的想這樣玩「可能」可以怎麼做?2
Re: [問卦] ChatGPT到底是炒作還是未來趨勢?!這個東西後厲害的不是目前的應用 他厲害的點是他能讀懂你想說什麼 然後可以高效率給你要的答案 在目前整個機器學習深層學習的研究上很多都還是有目標性 特斯拉開車1
Re: [問卦] 為什麼人工智慧在這今年炸開了這一波是十年前的AlexNet才開始讓ML實用化 以往都只是研究 AlexNet橫空出世 GPU+大型CNN 辨識率高 忽然讓一堆人想到 啊幹 原來GPU能幹那麼複雜的事情 所以從2012年之後 ML/AI的研究如同雨後春筍呈現爆炸性的增長 ML從事的人多 想法就多 推出的模型多 成功的總會有幾個
51
Re: [問卦] 綠鬣蜥 抓一隻500元 一晚400隻 比醫生賺41
[問卦] 台灣棒球為什麼就是打不贏日本棒球?28
[問卦] 找一部主角老是亂丟盾牌的片17
[問卦] 台籃是不是台灣體育最大的笑話?20
[問卦] 在台灣不看棒球會有多邊緣?18
Re: [新聞] 目睹爸爸砍死媽媽!彰化9歲兒「絕望顫抖17
[問卦] Beat It 是MJ最紅的歌嗎?29
[問卦] 綠鬣蜥很可怕?18
Re: [問卦] 劉寶傑是個爛貨?16
[問卦] 半夜炸街的都是什麼人43
[問卦] Chinese 的中文是中國還是中華?71
[問卦] 棒球的國際推廣程度為什麼這麼低?13
[問卦] 蝦皮道教和合秘法是什麼(圖8
[問卦] 台灣是不是沒有前輩罩後輩的文化?X
[問卦] 怎麼有人看到台灣隊就崩潰?9
[問卦] 張雨生最紅的歌是大海嗎?9
[問卦] 職籃球迷看到職棒那麼火 在想甚麼?9
[問卦] “如果那兩個字沒有顫抖”是哪兩個字10
[問卦] NBA現在大多是誰在看?9
[問卦] moptt有一個牛奶廣告 很有創意吧8
[問卦] 康師傅泡麵太有競爭力了吧80
[問卦] 你們覺得台灣隊最後會拿第幾名啊6
[問卦] 靠北蝦皮現在是沒實名就不給退貨逆9
[問卦] 真的有人吃過霉豆腐嗎?83
[問卦] 勞發署謝分署長本週會回去嗎會秋後算帳嗎?8
[問卦] 台灣去日本打贏委內瑞拉就贏了對吧?6
[問卦] 為什麼跑者要在外野手接到球之後才開始跑11
[問卦] 12強是不是只有亞洲在瘋而已13
[問卦] 棒球又變成國球了嗎6
[問卦] 波斯貓 算是SHE最難聽主打歌嗎?