[閒聊] 使用大量數據研發AI繪圖
如題
看到一篇蠻有趣的東西
https://i.imgur.com/d6GUwOU.jpeg
最近在FB 上看到AI動漫模型「Illistrious」的廣告
他們在HuggingFace上面,有把自己訓練AI用的圖集公開(圖1)
起初想說他們會這樣做,或許很有把握自己沒有侵權疑慮吧
應該是拿自己的AI圖去訓練AI(不怕越生越醜嗎)
於是有一些程式基礎的我 決定仔細研究一下
但結果告訴我……我錯了。
在「artist_urls」檔案裡面,每一位畫師都被標上了編號id
從最頂層的4437,到最底層的391586
這是極為龐大的畫師人數(圖2)
讓我想起農場中 烙印在每頭動物身上的數字
而在「artist」檔案裡面,會看到大量繪師的名字
其中亞洲(含台灣)有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜
(圖3~圖8)這時回顧一下「artist_urls」檔案
貓鯨老師被打上的編號是:150105
張熊老師被打上的編號是:144570
空罐王老師被打上的編號:38554
但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」
接著打開他們將近20GB的「post.json」檔
裡面是他們用來訓練AI模型用的大量圖集
要知道一個json檔,超過3GB,就已經是很驚人的一件事了
打開後會發現,圖片的編號從2到6899125
(也就是接近690萬)
從這些訓練圖集當中,可以找到每個畫師被拿去訓練的作品
他們也利用大型語言工具,替每張圖片上標籤,給AI辨識
例如空罐王老師苦練畫技數年,所肝出的作品
AI是這樣給標籤的:
1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coffee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_over_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, smile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
就只貼幾張圖,剩的可以去臉書看看
https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg
https://www.facebook.com/share/p/19Fy1t3cyD/
--
只能檢舉下架了
原來是偷的,檢舉吧
基本上都是這樣 只差在有沒有公開
而且不只是繪畫領域 其他也都是這樣
跟盜版漫畫一樣 管不了
抓別人作品訓練 這就是AI
就說是大量侵權還很多人不信
這個dataset也不只是這個paper用 其實傳統的資料探
勘情感分析dataset也都是真人貼文 只是純文字而已
gpt之類的llm就更不用說了
就某站的dataset吧,看容量快8TB
post id取mod 1000當 bucket
沒寄生繪師就只能搞擬真那種圖而已
真用就算了,假掰說自己沒用真的很討厭
怎摸會有人把訓練資料公開
老實說 幾乎每個AI模型都難免用到沒授權的繪師
只差在有沒有說出來了
AI就是打著科技進步的名號大量偷竊別人的心血
novlai時代就在這樣搞了 畫師名字直接就能當提示詞
把繪師簡化成編號真夠侮辱人的,但這種ai負面文章不
會推爆的
偷圖片訓練 ai 可恥
人類究竟只是ai的飼料罷了
現在各家AI飆車飆那麼兇也是為了在相關規範法令被
重視以前盡可能偷跑更多一點 法律沒說這樣不行我就
儘量搶
其實更多的是政府也知道是在偷 但全部都在偷誰禁誰就
落後 慘
我記得川普已經開綠燈說AI使用是fair use了
畢竟都是軍備競賽的材料
這種模型本來就是靠偷阿 只是敢公開也是蠻厲害的
大概就是真的篤定反正你圖抓不了我
好用的模型 就算你告一個還會有下一個 這就是ai時代
這不是早就知道的東西嗎
天下第一搶劫大賽
吉他
可恥 果然只要是Ai生成的圖都是垃圾
ai飼料是現在的早期階段 成熟期的模型不需要人類餵
d站這樣標這樣分都十幾二十年了好嗎..
這個爬蟲最扯的其實是連噗浪都掃
早就授權給社群網站了
笑死 不接受AI就等著被淘汰
身為機器學習時代自己蒐集資料開始玩ai 的人 看到現在這
些大公司的玩法 真的讓人覺得很寒心
AI就是這樣 網路上所有的圖片和文字都是訓練素材
不意外
就噁心啊
?這不是早就知道的事情嗎 還有人不知道嗎
那你可以告他
說侵權的倒是說說犯了哪條法律啊
事實就是你說禁止ai學習不具有法律效益
ai學圖違規那人學圖是不是也違規
這幾乎等於是偷東西還把被害者編號,這也太變態了吧
果然ai仔=零元購
現在的AI公司誰不是這樣玩的,google meta 微軟都一樣
這不是早就知道了嗎 你以為寫個禁止AI 人家就不會用?
ai仔就是出生啊 哪管你人類道德
只是拿來學就真的沒侵權疑慮呀, 現在要抓也是抓AI生出
畫師畫的原角色, 老鼠就拿這個去告Midjourney
只要沒違法什麼缺德事都幹得出來,不愧是AI仔
有夠噁心
法律沒訂完善之前人家就是無敵
只是一邊偷一邊蹭還要裝自己很乾淨真是假掰...
真難過
最慘的接受沒有國家立即的訂法律來規範
記得很多網站都有寫使用條款 授權ooxx
用他們網站po圖一定要按同意 浮水印有沒有效力不知道
如果未來真的是cyberpunk的世界線 那現在這幾家AI
巨頭將來就是跟荒阪企業那樣連政府都不怕的企業怪
物
內心戲太豐富了吧...你出生還被編身分證字號勒,怎麼就沒
想起農場烙印在動物身上的數字
嗯...這篇文章被烙印上的編號是 #1eXwV9zT
83
Re: [問題] 為什麼大家對AI圖很詬病!→ Ceferino: AI圖不行,但AI程式碼真香,職業還是有分貴賤的 09/22 21:25 → spfy: 可能要先找到不接受AI繪圖但接受AI產code的人吧 09/22 21:30 認真講的話。 AI在產圖、產程式碼、產文字這三個應用上, 產圖目前和後兩者最大區別有個很大區別是「AI產圖很好辨別訓練資料來源」。![Re: [問題] 為什麼大家對AI圖很詬病! Re: [問題] 為什麼大家對AI圖很詬病!](https://i.imgur.com/12BN0Rqb.png)
80
[閒聊] AI圖是不是有一種味道很難解釋 但有一些圖片的畫風一看到,大腦就會直接判斷這是AI圖 而通常準確度也蠻高的,簡單查一下作者資料就會看到AI創作的註記 以下是我個人的理論 如果不是純繪師出身,在對構圖的理解上就不夠紮實![[閒聊] AI圖是不是有一種味道 [閒聊] AI圖是不是有一種味道](https://pbs.twimg.com/media/GNRBDq3boAATnKi.jpg)
68
[討論] 猫鯨的圖遭剽竊去生成“原創”AI模型繪師貓鯨老師昨晚的推文 有人讓他看到,自己的圖被剽竊拿去餵AI生成”原創”繪圖模型 貓鯨老師說看到後感覺很痛心,拜託停止這種行為 並在下方的推文表示已向網站提出檢舉及下架該模型的請求,希望網站能做事![[討論] 猫鯨的圖遭剽竊去生成“原創”AI模型 [討論] 猫鯨的圖遭剽竊去生成“原創”AI模型](https://i.imgur.com/GBtHUvZb.jpg)
71
Re: [問題] AI 風格怎麼了嗎?為什麼容易膩?推 SaberMyWifi: 新手調的AI幾乎都預設出來的不耐看,高手調的就很棒 11/03 10:21 推 uohZemllac: 因為有在認真專研做出變化的的ai繪師少之又少 11/03 10:25 → uohZemllac: 一堆一看就是直接用sd洗版的能不膩ㄇ 11/03 10:25 其實和大家想的剛好相反, 那些「看起來很膩」的AI圖其實才是許多不同的模型分別生出來的。![Re: [問題] AI 風格怎麼了嗎?為什麼容易膩? Re: [問題] AI 風格怎麼了嗎?為什麼容易膩?](https://iili.io/2xCWcNe.png)
39
Re: [討論] 更新戰況 猫鯨的圖被盜去生成AI模型更新進度 網站下架貓鯨老師被人盜圖去擅自做的AI模型了 老師的推文表示成功讓網站進行下架了,真心感謝各位的協助與關心 並表示會試著諮詢律師這方面的相關知識![Re: [討論] 更新戰況 猫鯨的圖被盜去生成AI模型 Re: [討論] 更新戰況 猫鯨的圖被盜去生成AI模型](https://i.imgur.com/0tj2nU7b.jpg)
33
Re: [閒聊] 繪師的能力不該只有畫畫吧你說的部分正巧是繪師在商業上最容易被取代的地方 第一個,所謂的商業追求的從來不是極致,而是穩定 穩定的品質,能讓最多數人接受的品質 而畫師個人的美感跟依靠AI抓取的大多數人喜歡的圖整合出來的美感 哪個比較受歡迎還真的不好說。8
Re: [閒聊] AI算圖能不能稱為電腦繪圖我在想啊 未來「畫師」的工作流程大概是這樣 1.讓客戶選擇風格模型 2.輸入客戶指定的角色特徵 3.產生N張圖給客戶選,讓客戶選擇最喜歡的圖![Re: [閒聊] AI算圖能不能稱為電腦繪圖 Re: [閒聊] AI算圖能不能稱為電腦繪圖](https://i.ytimg.com/vi/t7MBzMP4OzY/maxresdefault.jpg)
5
[閒聊] 反魔法屏障 NO-AI 浮水印工具簡介: 部分AI繪圖工具會讓生成的圖片加上一個隱形的浮水印,避免被AI模型二次訓練, 過去有人提議用這個辨識是否是AI生成的圖,但破解方法太多了。 (也不是所有AI軟體都會加上,甚至能關掉這樣的功能,也還是防堵不了描AI圖之類的)4
Re: [討論] AI跟二創哪個侵權多?其實問題就在可不可控的層面 二創是公開透明的 你用哪個IP做二創要標示 然後IP方允許不允許 遊戲規則都很清楚,違反就吃官司 但是AI不是2
Re: [閒聊] AI畫圖最大弱點是無法短時間進行二創吧短時間要看多短 幾個小時應該是沒辦法 繪師畫圖也要時間嘛 前兩天在B站看到教學 AI只要30張圖就能訓練出有同樣特徵的角色![Re: [閒聊] AI畫圖最大弱點是無法短時間進行二創吧 Re: [閒聊] AI畫圖最大弱點是無法短時間進行二創吧](https://i.ytimg.com/vi/t7MBzMP4OzY/maxresdefault.jpg)