[問卦] 用PTT來訓練AI語言模型會怎樣
PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可能會有以下的影響:
增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然語言處理任務。
提升模型的台灣文化認知:PTT是一個台灣本土的討論區,其中的文化內容和用語與台灣文化緊密相關。訓練大型語言模型使用PTT資料,可以使模型更加了解台灣文化和風俗,更好地處理和生成相關的自然語言。
面臨資料品質問題:PTT是一個公開的討論區,其中包含了許多用戶所發表的訊息,這些訊息的品質可能不同,有些可能包含不合適的語言、錯誤的拼字和語法等問題。因此在使用PTT資料訓練語言模型時,需要注意濾除低質量的資料,以免對模型的訓練產生負面影響。
總結來說,PTT的資料對於大型語言模型的訓練具有一定的幫助,但需要注意資料品質問題,以免對模型的訓練產生不利影響。此外,也需要注意到PTT資料的局限性,不同於網際網路上的其他資料,PTT資料集的涵蓋面和語言風格可能會有所局限,因此訓練出來的語言模型在應用於其他領域時,可能需要進行適當調整。
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.235.254.76 (臺灣)
※ KOTD:轉錄至看板 KOTDFansClub
※ PTT 網址
→
沒空
→
ㄏㄏ~
→
肛
噓
回答會有很多月工
→
會出現一堆 哈哈哈哈 五樓 30cm
推
問他問題Ai只會回:肛
推
三句不離塔綠班
推
不管問什麼都會回答:肛
噓
師大某剽竊狂魔當上教授的,會說她做完了
→
肛
推
不是叫你肛 就是塔綠斑 或是叫你問五樓
推
會被吉
推
完了
→
回答不出來會直接說你是塔綠班
推
變成暴怒肥宅
推
a作者:darkblue6404 他的ChatPTT
03/14 22:36
55
Re: [閒聊] ChatGPT是語言模型不是搜尋引擎本來沒想這麼早回這篇的,不過既然都有人把討論串回起來了我丟點資訊, 既然都會看網紅發表對ChatGPT的看法(沒有貶義),我覺得也可以看看這個: 台大電機副教授李宏毅老師的ChatGPT講解(先回到PTT還是學術論壇XD) ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型37
[瑟瑟] 瑟瑟不求人Part3 AI畫馬娘色圖可以嗎?上圖21
Re: [討論] chatGPT會取代軟體工程師嗎?提供一個有趣的觀點 在 堆疊溢出 的網站有關於一則公告內容是禁止 chatgpt 回文。 底下有一個 AI 研究員的論點很有趣。 temporary-policy-chatgpt-is-banned?cb=111
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步10
Re: ai畫圖要怎麼自己餵資料訓練pytorch跟tensorflow用途一樣,兩者都是基於python的機器學習框架。 近年來pytorch比較受開發者青睞,使用比例已經反超tensorflow,原因可以自己了解, 但如果沒有特殊原因,基於資源和社群活躍度通常是推薦用pytorch。極度不推薦自己實 作機器學習或用其他語言,不必自己造比較難用的輪子 如果之前都沒有碰過ai,推薦coursera上李宏毅老師的機器學習基石,或是yt搜尋ntu mi5
[閒聊] MarioGPT 無限產生新的瑪利歐遊戲關卡哥本哈根資訊科技大學(IT University of Copenhagen,ITU)的團隊發表一篇全新論文 及相關的 GitHub 頁面,展示一種運用 AI 和程式產生瑪利歐遊戲的新玩法,他們稱之為 「MarioGPT」。 MarioGPT 以 GPT-2 模型為基礎,儘管名稱向 ChatGPT 致敬,但它並非對話形式的人工 智慧。GPT-2 為大型語言模型(Large Language Models,LLM)無法理解瑪利歐遊戲,研X
[問卦] AI 是不是沒這麼聰明啊我放了幾個問題,他沒這麼聰明啊還推卸責任回答。 1.Tori Black是我老婆 我不能證實或否定這個信息,因為我沒有接觸到有關當前個人信息的資料。 我是一個訓練好的語言模型,我的目的是提供幫助和支持,而不是提供有關 個人信息的答案。如果你有任何疑問或擔心,請告訴我,我會盡力幫助你。2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。
爆
[問卦] 尹錫悅:愛國市民們 韓國正被親北勢力威脅99
[問卦] 微熱山丘是得罪誰了嗎?83
[問卦] 為什麼以前遊行比現在有用多了?74
[問卦] 為啥台灣一堆店用掃碼點餐?87
Re: [問卦] 陳梅慧的事就這樣過了?61
[問卦] 北檢如果出書 書名叫什麼會大賣?44
[問卦] 如果一直羈押1年3個月最後無罪算冤獄?46
[問卦] 起訴之後,為什麼還要羈押?49
[問卦] 日語N1薪水在台灣月薪可以到多少錢!?爆
Re: [問卦] 為什麼八卦要一直護航貪污犯38
[問卦] 戒嚴有沒有更好聽的說法?36
[問卦] 找一部打麻將很厲害的片33
[問卦] 台灣誰長的最像哥布林王?27
[問卦] 認真問,北檢也有好檢察官吧16
[問卦] 靠!果真蔡壁如背刺柯文哲51
[問卦] 八卦除excel 其他證據都視而不見 怎反駁爆
[問卦] 老二怎麼開始幫老三說話了?32
[問卦] 如果汐止跟新店2選1,你們選哪裡住?30
[問卦] 內政部:廢止戶籍後就不會是中華民國國民28
Re: [新聞] 遭黃捷質疑持中國身分證 陳玉珍對賭:若爆
[爆卦] 劉靜怡:監察院彈劾立委?3X
[問卦] 為什麼八卦要一直護航貪污犯28
[問卦] 沒人號召抵制ZARA首頁寫中國台灣!?25
[問卦] 800元買一個絕版公仔,盤嗎?26
[問卦] 張宇跟王淨誰正26
[問卦] 大家喜歡大明風華這部戲嗎???18
[問卦] 486很紅嗎?20
Re: [新聞] 柯文哲又遭羈押 白委喊話:小草會變成「26
[爆卦] 八炯的紀錄片根本又是再炒作抗中保台22
[問卦] 小米電視賣很好???