PTT推薦

Re: [討論] 盜用模型是什意思?

看板HatePolitics標題Re: [討論] 盜用模型是什意思?作者
treasurehill
(寶藏巖公社,你還未夠班S)
時間推噓24 推:25 噓:1 →:36

笑死!你連開源意思都搞錯,難怪雞同鴨講

開源是指系統開源可不包括訓練資料開源

而這種抓取他人資料來從事訓練的行為

在國外被稱為Webcrawler網路爬蟲,至少牽涉到下列幾種法律問題

1. 著作權侵害

著作權法保護原創性之著作,而美國著作權法除了要求受保護之著作必須原創性之外,尚必須附著於一定媒介物。2007年美國聯邦第九巡迴上訴法院在Perfect 10, Inc. v.
Amazon.com乙案中,指出電腦記憶體、網路伺服器都是一種媒介,因此附著於記憶體
或伺服器的軟體程式碼,如有原創性,亦可受著作權保護。

網頁上之具有原創性的著作內容物受到著作權保護,因此未經授權爬取網頁上之受保護之著作內容,將構成侵害網頁內容之著作權,並無疑問。


2. 違反使用者條款

多數商業網站均訂有使用者條款,以規範到訪和或使用網站之條件,用戶必須根據對這些條款之約定到訪或使用網站。儘管,網頁爬取行為展現科技的新用途,然而這種行為可能因為使用者違反使用者條款以抓取網頁資料,因而引發違反使用者協議之爭議。

多數情況下,目標網頁主張網路爬蟲違反使用者條款之舉證責任,往往較主張著作權侵權之舉證責任為高。後者,網頁抓爬之目標網頁僅須證明為網頁所有人與抓爬標的為受著作權保護之標的已足。證明違反使用者條款,網頁抓爬之目標網頁不但須證明使用者條款具拘束力且可執行、且必須證明抓爬的行為違反適用者條款、以及抓爬行為構成目標網頁之損害。

2007年在Southwest Airlines Co. v. BoardFirst, LLC案,被告BroadFirst的軟體提
供一項商業服務,以協助西南航空的客戶,利用西南航空公司的「開放」座位政策與辦理登機手續(check in)以獲得飛機優先座位之利益。在本案由於網頁的使用者條款用語明確限制網頁使用者作為非個人與商業用途之使用,因此,法院認為被告的行為屬於使用者條款所欲規範的範圍且與條款之內容直接相關,因此不同意被告主張該使用者條款欠缺明確而無執行力。本案審理之德州地方法院,因而判定被告BoardFirst使用西南公司網頁之行為,已違反了西南航空的網頁中使用者條款,因為條款禁止使用者利用網頁為個人與非商業目的用途(personal and non-commercial purpose)。

3. 電腦詐欺與濫用

美國法院認為網絡爬取行為如果違反網站使用者條款,同時可能違反電腦詐欺濫用法案(Computer Fraud and Abuse 簡稱CFAA),該法案禁止「未經授權」或「逾越授權」進入電腦、網路、伺服器或資料庫。一般而言,只要電腦是公開可進入,並且不受密碼或其他保護安全措施,法院拒絕認定網路爬蟲任何造訪網頁行為違反CFAA。然而當網路爬蟲進入受保護之網頁,且網頁透過技術措施防止未經授權之進入網頁,或有明確停止未經授權之警告通知,則有可能構成違反CFAA法案。以下有2案涉及進入網頁抓取資料是否違反CFAA為審理。

4.不公平競爭之違法行為

2022年9月,公平交易委員會(下稱公平會)以公處字第111070號處分書,將抄襲競爭對手網站及APP經蒐集整理之資料而混充為自身網站及APP內容之行為,認定為榨取他人努力成果而足以影響交易秩序之顯失公平行為,違反公平交易法第25條規定並處以罰鍰

原告北京某信息技術有限公司訴稱,其運營的某網站主要服務汽車消費者投訴受理,消費者在網站提交針對汽車質量問題的投訴后,網站會與汽車廠商聯系並督促解決。自2014年成立以來,該網站已累計處理了約39萬條消費者投訴信息,建立起了包括消費者投訴處理、汽車產品缺陷問題檢測等為一體的服務體系。

  2021年6月,原告發現,被告北京某公司運營的網站中有52000余條消費者投訴信息與原告網站展示的信息相同或者近似,且投訴日期均晚於或等同於原告網站上的日期,部分投訴信息的附圖中甚至還帶有原告水印。此外,被告網站顯示的投訴編號數量超過11萬,但無處於該網站投訴流程中“完成”狀態的投訴信息,原告認為,被告網站的投訴數量及
處理進展均為虛構。原告遂將被告訴至法院。

  法院經審理認為,原告主張權利的5萬余條用戶投訴信息系經過長期經營、管理、維護而形成的數據信息,能夠給原告帶來特定的社會效益和經濟效益,屬於其市場競爭優勢,應當受到法律保護。被告在其網站中使用原告網站5萬余條投訴信息的行為,本質上是不正當利用原告網站投訴信息、違法將該信息據為己有的行為,違反了誠實信用原則和公認的商業道德,給原告造成了實際損失,應當適用反不正當競爭法一般條款予以規制。此外,被告在其網站虛構投訴數量及處理進展等行為,容易造成相關公眾對其網站經營規模、影響力、服務效率產生誤認,亦構成虛假宣傳的不正當競爭行為。最終,法院判決被告停止涉案不正當競爭行為、消除影響,並賠償原告105萬元。




※ 引述《dakkk (我是牛我反芻)》之銘言:
: OpenAI的open不也就是開源的意思
: 從openAi獲取資料來建自己Ai到底有什錯?
: 我們所有人也都是站在前人的巨人肩膀往前看
: 不曉得在不爽什麼

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.70.83.123 (臺灣)
PTT 網址
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:26:13

lono 01/30 17:25OpenAI的資料也是爬蟲爬來的

dakkk 01/30 17:26這種單純資料 不符合著作權標的

笑死!原來你不知道著作權法上有編輯性著作這種東西嗎? 第 7 條 就資料之選擇及編排具有創作性者為編輯著作,以獨立之著作保護之。 編輯著作之保護,對其所收編著作之著作權不生影響。

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:27:47

genesic 01/30 17:27這不就open ai幹的破事,法律也不能拿ope

genesic 01/30 17:27n ai 怎樣,然後就被人家用你的魔法來對

genesic 01/30 17:27付你了

dakkk 01/30 17:27他只是輸入資料 輸出也沒什著作權違反疑慮

回去重念著作權法啦! 第 7 條 就資料之選擇及編排具有創作性者為編輯著作,以獨立之著作保護之。

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:28:53

z1976 01/30 17:28但是蒸餾是用別的AI的產出來訓練自己的AI,

z1976 01/30 17:28這就不符合純資料喔

dakkk 01/30 17:29資料拿來輸入訓練 根本不是編輯 你真沒料

dakkk 01/30 17:29還要硬拗

老天你是真不懂還假不懂? 編輯性著作就是指資料庫啦! AI訓練出來結果也是資料庫的一種 撇開AI能不能擁有著作權之爭議 他也是編輯性著作的一種 你連人家在講什麼都沒搞懂就別在那邊跳針耍寶了好嗎?

quid1121 01/30 17:30未經授權拿別人訓練結果二次加工就是偷

genesic 01/30 17:30如果openai告得成deepseek, 我看光是美國

genesic 01/30 17:30要告openai的就會從東岸排到西岸了

quid1121 01/30 17:31支那腦:偷一部份不算偷啦~ <<笑死

kuninaka 01/30 17:31小草就不讀書

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:34:30

dakkk 01/30 17:33kuni又來丟臉了

dakkk 01/30 17:33看不起你這種舔執政黨的行為

kuninaka 01/30 17:34那舔貪汙犯呢

icestormz 01/30 17:343樓復活帳號

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:35:40

dakkk 01/30 17:36Ai跟資料庫哪裡一樣 Ai就是類神經網路 就

dakkk 01/30 17:36像人一樣大量閱讀 然後寫出自己見解 這跟

dakkk 01/30 17:36著作權一點關係也沒有

笑死!誰告訴你類神經網路訓練出來的東西不是資料庫的? 你真的很愛自曝其短喔! 什麼是向量資料庫?

向量資料庫是以數學表示形式儲存的資料的集合。向量資料庫使機器學習模型更容易記住 先前的輸入,從而允許機器學習用於支援搜尋、推薦和文字產生用例。可以根據相似性指 標而不是精確匹配來識別資料,從而使電腦模型能夠根據上下文理解資料。

當人們參觀鞋店時,銷售人員可能會推薦與人們喜歡的鞋子類似的鞋子。同樣,在電子商 務商店購物時,商店可能會在「客戶還購買了...」之類的標題下建議類似的商品。向量 資料庫使機器學習模型能夠識別類似的物品,就像銷售人員可以找到類似的鞋子以及電子 商務商店可以推薦相關產品一樣。(事實上,電子商務商店可能會使用這樣的機器學習模 型來進行推薦。) 總而言之,向量資料庫使電腦程式能夠進行比較、識別關係和理解上下文。這使得能夠建 立進階人工智慧 (AI) 程式,如大型語言模型 (LLM)。

t21 01/30 17:37綠狗又要來集合了

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:41:14

quid1121 01/30 17:39dak 你寫那三行露餡了 還是不要出來丟人

quid1121 01/30 17:39現眼了~

dakkk 01/30 17:46向量資料庫就不是你想的那種 輸出資料也不

dakkk 01/30 17:46會有什著作權疑慮 有openAi自己第一個被告

dakkk 01/30 17:46

類神經網路背後運作原理就是向量資料庫啊 每一個權重就是就是Hyper space的法向量啊 其訓練結果也是以向量方式儲存啊! 你對類神經網路原理很不熟喔!

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:51:02

dakkk 01/30 17:47而且跟編輯是有什屁關係

dakkk 01/30 17:48你貼的這一堆東西跟著作權根本沾不上邊

是編輯性著作不是編輯 不要當法盲好嗎?

http://www.copyrightnote.org/ArticleContent.aspx?ID=9&aid=2605

「編輯著作」是因為著作人對既存之「個別著作」加以「選擇及編排」而具有「創作性」 ,而受到著作權法保護。所以,關於「編輯著作」,著作權法是保護著作人「選擇及編排 而具有創作性」之部分,而不是使其對所「選擇及編排」之「個別著作」,亦享有著作權 。因此,著作權法第七條第二項規定:「編輯著作之保護,對其所收編著作之著作權不生 影響。」

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:53:50

a1256438 01/30 17:54看無,那個AI不爬蟲?

a1256438 01/30 17:54你講的每個AI都有吧?

holysong 01/30 17:54臭俗辣,小偷,賤人

Justapig 01/30 17:56其實開源也是有分的,不是在license cop

Justapig 01/30 17:56yright 那邊寫一寫就好,但大部分人不是

Justapig 01/30 17:56碼農,說了他們也聽不懂

holysong 01/30 17:59支那賤畜無物不偷

kuninaka 01/30 18:04這件事情的重點又不在開源授權LICENSE

kuninaka 01/30 18:05他不只爬蟲了,可能是直接接上ChatGPT

kuninaka 01/30 18:05的輸出結果

kuninaka 01/30 18:05才會回答出GPT的內容

a1256438 01/30 18:10會覺得接上輸出結果的不知道是笨還傻,

a1256438 01/30 18:10Open ai價格這麼貴,而且應該有偵測機

a1256438 01/30 18:10制,這樣打一次就燒一次錢,如果是真的

a1256438 01/30 18:10這造假本非常之高欸

pttchis 01/30 18:15不用跟草認真啦 你解釋他們也不懂 你用A

pttchis 01/30 18:15答它只會用B回 讓牠們繼續鬧笑話就好 柯

pttchis 01/30 18:15憐阿

kuninaka 01/30 18:18是拿他的東西來訓練

kuninaka 01/30 18:18不是使用的時候接上好嗎 = =

kuninaka 01/30 18:18差很多

kuninaka 01/30 18:18而且我哪一句說造假?

William 01/30 18:20你有沒有實際用過tf生成過任何一個NN...

William 01/30 18:20模型用向量資料庫儲存?

kuninaka 01/30 18:22微軟也沒說他造假阿

kuninaka 01/30 18:22基本上只有民進黨說造假

lbowlbow 01/30 18:31草連法條都看不懂了,要草看懂AI爭議太

lbowlbow 01/30 18:31為難了吧

dreamdds 01/30 19:21也只能抓著這點打了

Iloveriona 01/30 22:57這篇成立的前提是要有能審判中共的存

Iloveriona 01/30 22:57在, 上帝嗎? 還是地外文明?

ajie128 01/31 01:01推個