PTT推薦

Re: [問卦] 口說講解影片是不是快被AI完全取代了?

看板Gossiping標題Re: [問卦] 口說講解影片是不是快被AI完全取代了?作者
sxy67230
(charlesgg)
時間推噓 推:0 噓:0 →:1

※ 引述《horseorange ()》之銘言
: 網路上會滑到的口說講解影片
: 光講話的部份之前就被微軟雲希搶了一半以上的工作
: 至於其他的部份
: 剛剛在看別人貼的教學
: 現在文本也可以用AI寫
: 甚至你覺得影片沒有人
: 也可以叫個AI人像在前面講話
: 文本、口說、影像AI都能做到了
: 這樣看來口說講解影片被AI完全取代剩沒多久了吧?

阿肥外商碼農阿肥啦!認真說,這幾年口說上字幕甚至翻譯,還有有字幕上語音這幾年都獲得不錯的進展,包含openAI、Google、Amazon、Meta實驗室都有不錯的產出,而且這些都是依靠當前所謂的多模態零樣本學習的大力進步,很多轉換錯誤或是機器音都減小很多,不過偶爾還是會有出槌需要人工修正的部分。

所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來完成,但是這樣的成本往往都非常高,而我們其實人類原始的數據來源是很大只是雜訊很高,往往在傳統機器學習會認為是很難學習的,不過現在就是透過大量GPU大力出奇蹟,反正先訓練一個夠大夠強的模型不管他是不是有偏數據,然後再利用這樣的大模型我們透過有限監督來微調,這邊有很多方法,包含把多模態(圖像、語意、文字)來結合再一起,或是透過主動學習、強化學習來監督新模型輸出結果。

這樣就不需要落入我們一定要先有標注資訊才能做,像openAI的新模型whisper就能不須要傳統做音訊前處理直接把環境音加人聲一起喂入,直接給出人聲轉文字結果,這種做法在很多實驗跟研究中也發現你只要夠大模型的魯棒性越高,加上用所謂的對比方式來學習那要達到不須要額外新樣本就可以在新樣本上達到SOTA越容易。

差不多4醬


--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.13.42 (臺灣)
PTT 網址
※ 編輯: sxy67230 (101.10.13.42 臺灣), 01/08/2023 12:16:03

Enas 01/08 12:21看到zero shot就想吐