[閒聊] 使用大量數據研發AI繪圖

ElfFail 發表於 2025/7/29 上午12:39:35

看板C_Chat標題[閒聊] 使用大量數據研發AI繪圖作者

ElfFail

(秘密)時間Jul 29 00:39:35 2025推噓38 推:38 噓:0 →:35

PTT推薦

如題

看到一篇蠻有趣的東西
https://i.imgur.com/d6GUwOU.jpeg

最近在FB 上看到AI動漫模型「Illistrious」的廣告
他們在HuggingFace上面，有把自己訓練AI用的圖集公開（圖１）

起初想說他們會這樣做，或許很有把握自己沒有侵權疑慮吧
應該是拿自己的AI圖去訓練AI（不怕越生越醜嗎）

於是有一些程式基礎的我決定仔細研究一下
但結果告訴我……我錯了。

在「artist_urls」檔案裡面，每一位畫師都被標上了編號id
從最頂層的4437，到最底層的391586
這是極為龐大的畫師人數（圖２）

讓我想起農場中烙印在每頭動物身上的數字

而在「artist」檔案裡面，會看到大量繪師的名字
其中亞洲（含台灣）有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜
（圖３～圖８）這時回顧一下「artist_urls」檔案

貓鯨老師被打上的編號是：150105
張熊老師被打上的編號是：144570
空罐王老師被打上的編號：38554

但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」

接著打開他們將近20GB的「post.json」檔
裡面是他們用來訓練AI模型用的大量圖集

要知道一個json檔，超過3GB，就已經是很驚人的一件事了
打開後會發現，圖片的編號從２到６８９９１２５
（也就是接近690萬）

從這些訓練圖集當中，可以找到每個畫師被拿去訓練的作品
他們也利用大型語言工具，替每張圖片上標籤，給AI辨識
例如空罐王老師苦練畫技數年，所肝出的作品
AI是這樣給標籤的：

1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coffee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_over_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, smile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear

就只貼幾張圖，剩的可以去臉書看看

https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg

https://www.facebook.com/share/p/19Fy1t3cyD/

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.241.164 (臺灣)

※ PTT 網址

推

KyuubiKulama07/29 00:41只能檢舉下架了

推

zChika07/29 00:42原來是偷的，檢舉吧

推

gm7922792207/29 00:45基本上都是這樣只差在有沒有公開

→

gm7922792207/29 00:46而且不只是繪畫領域其他也都是這樣

→

AJwan07/29 00:49跟盜版漫畫一樣管不了

推

kimokimocom07/29 00:51抓別人作品訓練這就是AI

→

Golbeza07/29 00:52就說是大量侵權還很多人不信

→

vincent891407/29 00:53這個dataset也不只是這個paper用其實傳統的資料探

→

vincent891407/29 00:53勘情感分析dataset也都是真人貼文只是純文字而已

→

vincent891407/29 00:53gpt之類的llm就更不用說了

→

inte629l07/29 00:54就某站的dataset吧，看容量快8TB

→

inte629l07/29 00:54post id取mod 1000當 bucket

推

yellowhow07/29 00:54沒寄生繪師就只能搞擬真那種圖而已

→

yellowhow07/29 00:55真用就算了，假掰說自己沒用真的很討厭

→

lou361207/29 00:55怎摸會有人把訓練資料公開

推

dalyadam07/29 01:02老實說幾乎每個AI模型都難免用到沒授權的繪師

→

dalyadam07/29 01:02只差在有沒有說出來了

推

shawncarter07/29 01:06AI就是打著科技進步的名號大量偷竊別人的心血

推

as336670007/29 01:11novlai時代就在這樣搞了畫師名字直接就能當提示詞

推

RabbitHorse07/29 01:17把繪師簡化成編號真夠侮辱人的，但這種ai負面文章不

→

RabbitHorse07/29 01:17會推爆的

推

ym95130507/29 01:20偷圖片訓練 ai 可恥

→

felixr012307/29 01:25人類究竟只是ai的飼料罷了

推

willytp9712107/29 01:39現在各家AI飆車飆那麼兇也是為了在相關規範法令被

→

willytp9712107/29 01:39重視以前盡可能偷跑更多一點法律沒說這樣不行我就

→

willytp9712107/29 01:39儘量搶

推

gm7922792207/29 01:43其實更多的是政府也知道是在偷但全部都在偷誰禁誰就

→

gm7922792207/29 01:43落後慘

推

meatybobby07/29 01:44我記得川普已經開綠燈說AI使用是fair use了

推

trh123h07/29 01:55畢竟都是軍備競賽的材料

推

Jiajun072407/29 01:57這種模型本來就是靠偷阿只是敢公開也是蠻厲害的

→

Jiajun072407/29 01:58大概就是真的篤定反正你圖抓不了我

推

k25436907/29 02:01好用的模型就算你告一個還會有下一個這就是ai時代

推

clovewind07/29 02:03這不是早就知道的東西嗎

推

SweetBreaker07/29 02:03天下第一搶劫大賽

推

smart0eddie07/29 02:06吉他

推

zen77707/29 02:18可恥果然只要是Ai生成的圖都是垃圾

→

sameber52007/29 02:53ai飼料是現在的早期階段成熟期的模型不需要人類餵

→

error40507/29 03:30d站這樣標這樣分都十幾二十年了好嗎..

推

rockmanx5207/29 04:00這個爬蟲最扯的其實是連噗浪都掃

推

WindSucker07/29 05:19早就授權給社群網站了

推

low121907/29 06:47笑死不接受AI就等著被淘汰

推

b16016007/29 07:00身為機器學習時代自己蒐集資料開始玩ai 的人看到現在這

→

b16016007/29 07:00些大公司的玩法真的讓人覺得很寒心

推

xsdferty03507/29 07:32AI就是這樣網路上所有的圖片和文字都是訓練素材

推

starsheep01307/29 07:51不意外

推

mirarearia07/29 08:12就噁心啊

→

Kurumi200007/29 08:14？這不是早就知道的事情嗎還有人不知道嗎

推

EfiwymsiAros07/29 08:22那你可以告他

推

h010366107/29 08:23說侵權的倒是說說犯了哪條法律啊

→

h010366107/29 08:23事實就是你說禁止ai學習不具有法律效益

→

h010366107/29 08:24ai學圖違規那人學圖是不是也違規

推

vhik459607/29 08:24這幾乎等於是偷東西還把被害者編號，這也太變態了吧

推

qaz9567707/29 08:32果然ai仔=零元購

推

Ceferino07/29 08:33現在的AI公司誰不是這樣玩的，google meta 微軟都一樣

推

Yoimiya07/29 08:50這不是早就知道了嗎你以為寫個禁止AI 人家就不會用?

→

ssm351207/29 09:03ai仔就是出生啊哪管你人類道德

→

yoyun1012107/29 09:05只是拿來學就真的沒侵權疑慮呀, 現在要抓也是抓AI生出

→

yoyun1012107/29 09:06畫師畫的原角色, 老鼠就拿這個去告Midjourney

→

sincere7707/29 09:10只要沒違法什麼缺德事都幹得出來，不愧是AI仔

→

awenracious07/29 09:37有夠噁心

推

yellowhow07/29 09:46法律沒訂完善之前人家就是無敵

→

yellowhow07/29 09:46只是一邊偷一邊蹭還要裝自己很乾淨真是假掰...

推

cbpa07/29 09:47真難過

→

haseyo2507/29 10:09最慘的接受沒有國家立即的訂法律來規範

推

Dayton07/29 10:42記得很多網站都有寫使用條款授權ooxx

→

Dayton07/29 10:42用他們網站po圖一定要按同意浮水印有沒有效力不知道

推

willytp9712107/29 12:37如果未來真的是cyberpunk的世界線那現在這幾家AI

→

willytp9712107/29 12:37巨頭將來就是跟荒阪企業那樣連政府都不怕的企業怪

→

willytp9712107/29 12:37物

推

sssyoyo07/29 13:25內心戲太豐富了吧...你出生還被編身分證字號勒，怎麼就沒

→

sssyoyo07/29 13:25想起農場烙印在動物身上的數字

→

lifehunter07/29 13:49嗯...這篇文章被烙印上的編號是 #1eXwV9zT

同系列文章

Re: [閒聊] 使用大量數據研發AI繪圖

其他人也閱讀了

PTT 熱門相關