Re: [新聞] 蘋果將偵測兒童色情影像 用戶上傳iCloud
: - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複
: 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值
: 為了要避免他們儲存太多重複的檔案
: 有兩個用戶上傳一樣hash的檔案可以只存一份就好
: (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間)
用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同
我覺得蘋果不會做這種智障系統,否則這系統根本沒用
所以去翻了一下相關文件
https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
看起來是用蘋果自己開發的新演算法 NeuralHash
看名字就知道一定跟神經網路有關
大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵
最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值
LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化
以避免相似的資料產生一樣的 hash
LSH 則否,越相似的資料產生相同 hash 的機率越高
以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash
是很厲害的技術
--
至於在哪裡計算與比對、以及如何找出異常,都有超級複雜的處理方式
算是可以看出蘋果對用戶隱私的用心啦
至於有沒有用、使用者買不買單就是另外一回事囉
--
誤判的後續處理是否會侵害隱私呢?或是擾民?
樓上 他有一個 threshold number
基本上你要iCloud裡面有一堆這種類型的照片
超過那個 threshold number 他才會轉人工檢測
一張兩張 有可能是誤判 可是你有100張都被確診
那就合理懷疑你是有問題的
100只是我隨便設一個 threshold number
白皮書裡面有說 他們不會去學習不在那個資料庫內的
特徵
很大程度要去降誤差帶來的問題
你的兒童色情圖片不在 CSAM 資料庫中
在蘋果這套偵測機制下 是不會被抓出來的
所以在訓練這個模型的同時他們也有大量的兒童色情
資料囉
如果只是單純訓練模型的話,不用用有問題的圖片下去
訓練。那個只是要取圖片特徵,所以大概是比較廣泛的
資料下去訓練的
白皮書裡面有寫 誤判率大概是 1 in 1 trillion
不是用有色情去訓練,那我今天拍兒女的生活照片,
是不是也會被抓兒童色情拿去人工審核呢,隱私呢?
你是要談模型訓練還是比對?模型已經訓練好了當然不
會拿你的照片下去訓練,至於比對是一定會做的,不爽
不要用
他有說不會訓練 CSAM 提供以外的
CSAM 資料庫基本上就是一個兒童色情犯罪的檔案庫
你女兒的裸照並不會無緣無故被拿去訓練
除非你兒女的裸照曾經被用於犯罪用途
才有機會被列進去 CSAM 資料庫
更正是 NCMEC 資料庫
然後 NCMEC 提供的貌似也只有 hashes 值而已
所以很有可能 Apple 也碰不到原始圖片
using a database of known CSAM image hashes prov
ided by NCMEC and other child-safety organizatio
當然可以不爽不要用啊,我就是對他們的訓練跟審核
方式提出質疑啊,訓練方式樓上解答了,這部分就沒
有疑問了,那審核呢,你蘋果說懷疑就懷疑,直接就
可以翻別人的資料再轉給司法部門甚至是第三人?當
然你合約可以這樣定,但是否過度擴權或是與法律保
障的權利抵觸。不過確實在這篇討論這件事跟你本文
離題了,本來應該只聚焦在訓練模型的方式上,拍謝
拍謝
把幾個熱門名詞結合在一起就能當新的feature出來賣
這個應該最合理 可是這個hash是在客戶端計算?
他們應該是用FBI提供數據來訓練吧
美國就爛啊 長臂管轄 侵害個人自由
但一般人又能拿他怎麼辦 真的只能不爽不要用
不過這樣看起來不也跟Google用AI去辨認沒兩樣嗎
一樣都是讓模型去讀取照片 哪裡比Google好了
推
這篇正解
如果是這篇寫的這樣,似乎對人權和隱私的侵犯就有
降到最低限度?並且不至於將非兒童色情誤報為兒童
色情,必須高度符合特徵,才會被判定並得到通報?
例如色情內容但不確定是否未成年,或未成年但不確
定是否色情,這個系統頂多通報交由人工複查?
但一切還是要當事企業自己說明清楚,否則只能期望
歐盟出手,依GDPR展開調查。
樓上 他不會去「判定」色情內容跟是否成年
他一切都以NCMEC提供的圖片特徵碼為主
你就算偷拍一千張蘿莉(比喻),只要沒有散出去被
NCMEC資料庫(通常是被當犯罪資料送進去),在這
機制下是不會被糾出來的
也就是說這些照片就是已經通報失蹤或受虐的兒童啊
那icloud滿了還會傳嗎?
5
六七年前在讀研究所的時候,因為主題是影像分析比對,所以有找了許多論文 我就看過幾篇google 發表的論文 透過快速比對 hash 值來快速搜尋圖片 論文中就提到他們把 原先比較距離使用的 兩個值相減平方 這類的概念 直接改成把所有資料簡化成0與1 利用 OR XOR 的方法 來高速比對 當然 論文中並沒有提到 google 是如何對圖片做hash的 或是 用什麼方法取特徵點的8
在開一篇特地來打爆安卓仔最後的幻想 人權聲明: 我自己也用 Android + Google 雲端空間 之前有一篇在八卦板蠻轟動的新聞 拍表妹下體上傳雲端 Google通報台灣警卻因這點難成罪32
Apple 設計這套系統的時候就考慮過有人會出來靠北隱私了 背景知識 - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值 為了要避免他們儲存太多重複的檔案9
AI可以將圖片分類,找出有問題的圖片 具體做法有很多種,我們先簡介目前效果最好的神經網路 首先會用數學模擬神經元的運算 簡化來說每一層的網路輸出(Output)就是輸入(Input)乘上權重(Weight)再加上偏移(Bias) Output = Input * Weight + Bias3
我只能說不管怎樣 他們一定會侵犯隱私 人工審核照片的 如果是我來設計抓未成年影像的AI 我會先判斷年齡,用臉或是體形,判斷是否為未成年 再判斷圖片是否有裸露,性行為9
美國司法部的官網對兒童色情有簡要說明,最好去看一看,免得惹上大麻煩: 有幾點特別值得注意的: 1. 美國聯邦定義的「兒童」指的是18足歲以下。 2. 明確的性行為的法律定義並不要求一張圖片描述一個孩子正在進行性活動。
58
Re: [情報] 蘋果新的照片審查機制原文恕刪 因為覺得兒童色情及用戶隱私是相當重要的議題,但使用者對於其技術的誤解容易造成議 題失焦,所以希望透過這篇回文拋磚引玉吸引更多人的討論,也懇請各位大神對於我說錯 的地方不吝指教QQ。 在討論運作方式前,先來看看幾個技術文件提到的大前提XD14
Re: [情報] 蘋果新的照片審查機制嗨又是我XDD,因為蘋果釋出了一份新的說明文件,正好解釋了一些我上一篇 文章中尚待釐清的問題,所以再寫一篇文與板友分享與討論~ 註:以下內容皆是我個人對於文件的解讀,完整的資訊請參考官方文件,且 如有說錯的地方也請不吝指教!4
[心得] 圖解演算法 Hash Search使用優勢與時機【圖解演算法教學】 還在用古老的二元搜尋法?是時候跟上「Hash Search」 的車尾燈了! 封面圖: 架構圖: 在我們還沒學資料結構前,通常都用Linear Search找東西。- 【情報來源】 cnBeta/cnBeta 原網址: (原始未刪減的網址) 【情報內容】
- 上完成,而不是雲端。 在本地端進行比對? 所以是每次上傳 iCould 前,都要把"整個資料庫"的圖片的hash code 下載到本地端嗎? : 反之,若用戶認為他們的帳戶被偵測錯誤,可以向蘋果提出上訴。蘋果表示,新軟體只對 : 上傳到 iCloud 的照片起作用,所以用戶可以自行關閉,只要設備中的照片沒有上傳到蘋
- 我想你圖片檔有2-3萬張,用雜湊比對會比較快, 下面是perl的寫法,看看適合嗎? #!/usr/bin/perl use File::Copy; $PWD = `pwd`;