[問卦] 去識別化後資料,怎麼看是否重複出現?
是這樣子,最近正在寫論文,所以想知道抽菸人口跟肺癌有沒有關聯,我手上可以拿到的是兩份去識別化之後的資料。
我可以知道抽菸人口的特性(男女、年紀、…)也可以知道肺癌人口的特性(男女、年紀、…),但我要怎麼知道這兩筆資料裡面交集的人數有多少呀?
雖然我自己覺得是不可能從去識別化之後的資料找出交集的人有哪些,但指導教授的一句話,讓我不知道怎麼反駁。
教授這樣說:「517跟青鳥的人有沒有重疊,人家拿去識別化的資料就可以弄出來,為什麼你
說你弄不出來?你不會弄就去查台大土木是怎麼教學生的呀,為什麼台大土木畢業的學生就可以弄出來。」
有沒有方法可以找出兩筆去識別化的資料,裡頭有沒有重疊的人?基本上我覺得真的有,早就可以得菲爾茲獎了。
--
做標記阿
相信党
1樓連這種文都要洗圖了 真可憐
看年齡跟來自哪裡的組成
去完可以知道手機號碼所有人是誰
甚至連手機誰持有都知道
去識別化 做編號吧
你們權限不同 拿到的去識別化程度不同
卜筊吧
只要有抽菸又有肺癌的資料就能知道交集
資料沒有的,就唬爛的啊
可以把電話號碼或是身份證字號做base64
呀,之前政府公布檢舉達人名單時就是這
樣喔,有政府做示範就很安心
打tag 像是 67歲女博士
唬爛的 去識別化怎麼相互比較
你不會回嗆教授他們是根據地點
好奇北檢會怎麼辦
如果問說抽菸的人有沒有去519跟青鳥
笑死 base64
肺癌的人有沒有去519跟青鳥就很簡單
如果有深喉嚨應該就是現在了
電話號碼就算是身分證嗎 不然還要看啥?
性別 年紀 居住地 之類的資料 完全
一樣但不同人的機率有多高
唬爛嘴機率比較高
這還要從台灣價值去比對
先假設
而且一堆大學生門號是爸媽名字的
去健保署買資料
党的資料比較高級 會自動幫你比對好
健保app、防疫app
去識別化後還有uuid,台中觀光局的網頁已
經展示可查一年內是否故地重遊,但十年
太長了。透過客群特性比對相符性較有可
能。
不是阿為啥要拿我的資料去提供研究 我有
同意嗎
他在唬爛的時候 都沒有 "意識到" 自己
講的那些內容 可能會涉及個資法之類的?
健保署資料是先完整再去識別,例如a
推測而已啊
吸煙 肺癌 b 未吸煙 肺癌,然後你在
網站找到免費的統計資料是 單獨吸煙
區識別資料,有單獨肺癌去識別,所以
人家的去識別化可能只是身分證遮前幾
花錢去買資料吧
碼或用虛擬的 不是你這種group by資料
你遮前幾碼不就是一種groupby= =
民主代號党不能說護國安 阿共RA陰謀
資料庫要建立代碼型的surrogate key
笑死 base64
留一個id查有沒有舊地重遊也違法吧
統計分析不就是這樣,你要自己判讀數
據阿
知道是同個人,就是沒有"去識別化"
再找多一點重疊資料的加加減減啊
uuid 也是primary key獨立專有號碼, 也是間
接識別。哪能算去識別化?
無法,只能在產生資料時就將兩種資料
關聯後再去識別化
本來就有提供不重複人數
電信業者可以提供去識別化的人流資訊
,但王義川說的就是不行,不能交叉
比對
文盲加理盲才會覺得這種資料分析得出來
不同地點、時段,去識別化就不可能分析
完全沒交集
就拿太陽花跟這次年齡來分析而已吧
重複年齡層數量就當太陽花
假設一個都年輕人 一個都老人 就可以區分
本來就不可能精確的東西
不同群人 但要差很多
你是沒看到他一直講年齡嗎?
把可以識別的資料用sha256做hash?
用冥煮ㄟ目珠看啊
做標記跟作編號能比對喔?我真的快笑死
有沒有一種可能 是你台灣價值不足
了,兩個去識別化的資料做標記編號就能
比對?要護航也不要這麼蝦好不好...
去識別後再識別 這個是...?
Base64真的假的 有點浮誇
沒有讀過研究所,大四也該修過研究方法
吧?還是跟吳崢都是閃兵高中生啊
去問党 他們有一套辦法可以做到
自稱民調祖師爺的林佳龍都不敢護航切割
了,還有人要用那種弱智護航法喔
代號1,2,3,4,5
呃論文太簡單了吧 數據改一改就好
地域性,如果兩份資料都是調查全臺的話
最單純的就電話號碼 還不到個資 號碼重複
加入綠共就會了
資料拿出來 就不用扯了
必須要有上帝視角
你有黨證你有國家機器可以用嗎
抽菸bad 不過一個是違憲查人民
一個是罰錢丟垃圾
黨工沒招了 要失業了 可憐
因為去完後只剩手機號碼
1樓的圖好好笑
IMEI, ICCID 都可以
就是手機實體ID和SiM卡卡號
一堆狀況外,能夠辨識就不是去識別化
MAC
如果還能夠辨識就是提供單位違反個資法
先取得專業證照自然就會了,我是說綠綠的
那張
不知道反正我想不出來
KSJDIXJ9JJ-KOKEN972-MKDJ 男 25歲
PLWMSJSH-981IJWNB-YUQJ 女 18歲
誰有辦法知道兩個人是誰?
這就是去識別化的其中一個方法
樓上這個做法還是有可能算個資
簡單啊,你就把資料寄給王義川,他會幫
你找出來
兩筆資料的25歲台北男要怎麼比較啦
問王義川啊,正常來說不可能
看到base64差點就信了
得意忘形
2X
Re: [新聞] 王義川自爆政府監控民眾?黃暐瀚:新北、這其實很簡單啊,也沒有違法,重點是電信業者賣出去的資料必須是去識別化 如果跟電信業者買3個不同時間、地點的未去識別化個人手機資訊來分析,當然買不到 但你就跟電信業者買3個不同時間地點的去識別化個人手機資訊 以及經由電信業者內部篩選,這3個不同時間地點的兩兩交集的去識別化個人手機資訊 那就可以知道重複的量有多少啦,而且沒有拿到民眾的個資,電信業者也沒有違法13
Re: [新聞] 王義川稱手機定位可分析青鳥資訊 藍委手機信令分析,很大一部分是必須要去識別化 年齡、性別這種基本上是可以去識別化沒錯,因為你說28歲男性根本無法確定身分 但今天王先生提供的資訊,有分析不同政治活動下是否有人重複出席 這個就代表了源頭資訊有一定的識別化數據了 不然你怎麼去判斷同一個28歲男性是否有同時參加這兩三場的活動?13
Re: [討論] 王義川手機定位翻車確定沒有要替誰背書 純粹就資訊業的正常資料分析原理做說明 先說結論:基礎的分析報告 跟個資無關 但是歐盟的gdpr跟加州的ccpa有針對「資料蒐集」做限制 要求各平台要告知使用者並「同意」(Consent)後才能進行蒐集4X
Re: [爆卦] 王義川的Threads回應假設我開電信公司 我可以把我的客戶資料 一、去識別化以後 二、同步到另一個表格 三、此表格另由統計分析部門管理1X
Re: [新聞] 王義川自爆政府監控民眾?黃暐瀚:新北、KMT跟蔥哥好像太早上了這大兵川這班車~ 前面有人提到了,去識別化資料是可以拿來分析的~ 年紀、來自哪個縣市都可以分群, 至於519/524/528 可以看是否重複來,其實也不算太難, 就資料來源給予編號就好。5
[討論] 手機信令資料分析方法「人口」是城市治理很重要的參考依據,但傳統的「戶籍人口」並不能反映城市人口的真 實動態,而新興的數據源中,例如電信業者所掌握的手機信令資料,有機會補足這方面的 不足。電信業者將手機信令資料去識別化後,能推估出一定空間範圍內的動態人口變化。 這能幫助我們更精確掌握如上下班通勤的時段性人潮、居住與就業地分佈等資訊。 正常的手機信令推估人口的應用7
Re: [爆卦] 王義川的Threads回應不要唬爛 這種去識別方法叫做假名化 假名化經過交叉比對有可能知道當事人資料 所以假名化是不符合個資法第二條第一款 其他得以直接或間接方式識別該個人之資料X
[討論] DPP在監控手機這件事明明很嚴重欸 執政黨欸 竟然做出這種事 信令的規管就是要去識別化 結果執政黨可以分析出來你的政治型態- 你最莫名奇妙的是,一直在繞去識別化這件事! 特定人手機訊號的調取屬通訊保障及監察法: 3-1條: 本法所稱通信紀錄者,謂電信使用人使用電信服務後,電信系統所產生之發送方、接收方
- 大家都被唬到了 以為民間公司可以直接取得手機定位資料 其實只是叫電信公司先拿 raw data 分析 再釋出「去識別化」資料 所以並沒有個資外流 這樣哪有什麼問題? 藍白黨就是愛大驚小怪 --
爆
[爆卦] 求高調!我們是學生與民眾!正在勞動部爆
Re: [問卦] 政黑板在生氣什麼?爆
[問卦] 誰來蹭冠軍讓你最反感?爆
[問卦] 財政部雲端發票弊案就這樣定調了?74
[問卦] 高中生衝合歡山遭輾斃 家屬悲喊:要國賠爆
[問卦] 日本體育報 頭版88
[問卦] 今天發票對獎欸,大家五期待否…爆
[問卦] 辜仲諒嘴台灣打擊三流怎麼沒人出征82
[問卦] 勞動部霸凌的案子是不是被冠軍蓋掉了?42
[問卦] 給你1億台幣但一輩子不能回台灣你ok嗎?64
[問卦] 蝦皮從台灣出貨要7~10個工作天??72
[問卦] 請問哪家報紙最愛國60
[地震] 地震73
Re: [新聞] 郭國文喊「辜董加碼獎金到1億」 深夜被42
[問卦] 假設今天輸了網友反應會變怎樣43
[問卦] 淘寶狂銷 台灣有啥反過來能賣啥去中國?40
[問卦] 中國有14億人居然打不進12強23
[問卦] 八勝一負銀牌 六勝三負金牌31
[問卦] 編程用到遞迴是不是很多人不能接受34
[問卦] 辜仲諒已經60歲了?!24
[問卦] Taiwan 別在吃CT豆腐了32
[問卦] 跑去日本人YT留言謝謝日本的啥心態?75
Re: [問卦] 政黑板在生氣什麼?17
[爆卦] 我們是學生、民眾在勞動部抗議26
Re: [新聞] 「窄縫超車」遭輾斃…13秒駭人畫面曝!223
[問卦] 中國土豪也砸錢,為什麼中國足球還是爛?50
[問卦] 台灣棒球能再起是因為沒假球對吧?19
[問卦] 郭泓志怎麼不當教練 跑去演藝圈24
[問卦] 日本運動員為什麼很少刺青?24
[問卦] 張奕的親戚在想什麼?