[問卦] 用PTT來訓練AI語言模型會怎樣
PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可能會有以下的影響:
增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然語言處理任務。
提升模型的台灣文化認知:PTT是一個台灣本土的討論區,其中的文化內容和用語與台灣文化緊密相關。訓練大型語言模型使用PTT資料,可以使模型更加了解台灣文化和風俗,更好地處理和生成相關的自然語言。
面臨資料品質問題:PTT是一個公開的討論區,其中包含了許多用戶所發表的訊息,這些訊息的品質可能不同,有些可能包含不合適的語言、錯誤的拼字和語法等問題。因此在使用PTT資料訓練語言模型時,需要注意濾除低質量的資料,以免對模型的訓練產生負面影響。
總結來說,PTT的資料對於大型語言模型的訓練具有一定的幫助,但需要注意資料品質問題,以免對模型的訓練產生不利影響。此外,也需要注意到PTT資料的局限性,不同於網際網路上的其他資料,PTT資料集的涵蓋面和語言風格可能會有所局限,因此訓練出來的語言模型在應用於其他領域時,可能需要進行適當調整。
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.235.254.76 (臺灣)
※ PTT 網址
→
沒空
→
ㄏㄏ~
→
肛
噓
回答會有很多月工
→
會出現一堆 哈哈哈哈 五樓 30cm
推
問他問題Ai只會回:肛
推
三句不離塔綠班
推
不管問什麼都會回答:肛
噓
師大某剽竊狂魔當上教授的,會說她做完了
→
肛
推
不是叫你肛 就是塔綠斑 或是叫你問五樓
推
會被吉
推
完了
→
回答不出來會直接說你是塔綠班
推
變成暴怒肥宅
推
※ KOTD:轉錄至看板 KOTDFansCluba作者:darkblue6404 他的ChatPTT
03/14 22:36
55
Re: [閒聊] ChatGPT是語言模型不是搜尋引擎本來沒想這麼早回這篇的,不過既然都有人把討論串回起來了我丟點資訊, 既然都會看網紅發表對ChatGPT的看法(沒有貶義),我覺得也可以看看這個: 台大電機副教授李宏毅老師的ChatGPT講解(先回到PTT還是學術論壇XD) ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型37
[瑟瑟] 瑟瑟不求人Part3 AI畫馬娘色圖可以嗎?上圖21
Re: [討論] chatGPT會取代軟體工程師嗎?提供一個有趣的觀點 在 堆疊溢出 的網站有關於一則公告內容是禁止 chatgpt 回文。 底下有一個 AI 研究員的論點很有趣。 temporary-policy-chatgpt-is-banned?cb=111
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步10
Re: ai畫圖要怎麼自己餵資料訓練pytorch跟tensorflow用途一樣,兩者都是基於python的機器學習框架。 近年來pytorch比較受開發者青睞,使用比例已經反超tensorflow,原因可以自己了解, 但如果沒有特殊原因,基於資源和社群活躍度通常是推薦用pytorch。極度不推薦自己實 作機器學習或用其他語言,不必自己造比較難用的輪子 如果之前都沒有碰過ai,推薦coursera上李宏毅老師的機器學習基石,或是yt搜尋ntu mi5
[閒聊] MarioGPT 無限產生新的瑪利歐遊戲關卡哥本哈根資訊科技大學(IT University of Copenhagen,ITU)的團隊發表一篇全新論文 及相關的 GitHub 頁面,展示一種運用 AI 和程式產生瑪利歐遊戲的新玩法,他們稱之為 「MarioGPT」。 MarioGPT 以 GPT-2 模型為基礎,儘管名稱向 ChatGPT 致敬,但它並非對話形式的人工 智慧。GPT-2 為大型語言模型(Large Language Models,LLM)無法理解瑪利歐遊戲,研X
[問卦] AI 是不是沒這麼聰明啊我放了幾個問題,他沒這麼聰明啊還推卸責任回答。 1.Tori Black是我老婆 我不能證實或否定這個信息,因為我沒有接觸到有關當前個人信息的資料。 我是一個訓練好的語言模型,我的目的是提供幫助和支持,而不是提供有關 個人信息的答案。如果你有任何疑問或擔心,請告訴我,我會盡力幫助你。2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。
爆
Re: [新聞] 《上班不要看》解散3主因!呱吉淚崩揭「1爆
Re: [新聞] 柯文哲舉希特勒為例 影射賴清德為瘋狂領84
[問卦] 塔綠班是不是在引戰啊?35
[問卦] 戰時憲兵怎麼知道北漂租房仔住哪?爆
[問卦] 為啥去過上海的都說比台北繁華啊?21
[問卦] 不希望戰爭卻引戰15
[問卦] 如果你是民主總統要怎麼轉獨裁者18
Re: [新聞] 賴清德喊恢復軍審 民眾黨批缺討論:25
[問卦] 85大樓怎麼搞成這樣15
[問卦] 為什麼一個月漲價一次爆
[問卦] 全新的錦衣衛要怎麼取名比較好17
[問卦] 當年嘲笑太陽花的人現在在想什麼?9
[問卦] 一人推薦一個替代役單位給王大陸!37
[問卦] =.= 為什麼台灣要單方面打破台海現狀?4
[問卦] 台灣誰最期待戰爭?8
[問卦] 太陽花:政治冷漠的下場就是被糟糕的人統治6
Re: [新聞] 炒股判30年跑了! 鍾文智為何「免科技監64
[爆卦] 徐乃麟 FB(道歉文5
[問卦] 公司女同事狂罵Andy跟Josh,解?48
[問卦] 年收近70 人生看不到希望4
[問卦] 海的另一邊全是敵人?40
[問卦] 眾量級真的很紅嗎?61
[問卦] 核四會重啟嗎?52
[問卦] 炸雞排飯這樣多少錢(行天宮附近)62
[問卦] 台灣求戰的人多嗎?5
[問卦] 後備軍人上戰場,扯替代疫幹嘛9
[問卦] 恢復軍審 現役軍人會大退潮嗎?7
[問卦] 結果今天台股小漲12
[問卦] 誰逼我上戰場我就打誰,就是這麼簡單5
[問卦] 從家寧視角來解讀這起事件,會不會是這樣