PTT推薦

[問卦] 去識別化後資料,怎麼看是否重複出現?

看板Gossiping標題[問卦] 去識別化後資料,怎麼看是否重複出現?作者
NTUBIGGG
(台大G)
時間推噓49 推:52 噓:3 →:69

是這樣子,最近正在寫論文,所以想知道抽菸人口跟肺癌有沒有關聯,我手上可以拿到的是兩份去識別化之後的資料。

我可以知道抽菸人口的特性(男女、年紀、…)也可以知道肺癌人口的特性(男女、年紀、…),但我要怎麼知道這兩筆資料裡面交集的人數有多少呀?

雖然我自己覺得是不可能從去識別化之後的資料找出交集的人有哪些,但指導教授的一句話,讓我不知道怎麼反駁。

教授這樣說:「517跟青鳥的人有沒有重疊,人家拿去識別化的資料就可以弄出來,為什麼你
說你弄不出來?你不會弄就去查台大土木是怎麼教學生的呀,為什麼台大土木畢業的學生就可以弄出來。」

有沒有方法可以找出兩筆去識別化的資料,裡頭有沒有重疊的人?基本上我覺得真的有,早就可以得菲爾茲獎了。

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 110.79.241.226 (香港)
PTT 網址

elec1141 05/30 12:23https://i.imgur.com/lCxps8R.jpeg

圖 去識別化後資料,怎麼看是否重複出現?

devidevi 05/30 12:23做標記阿

zoeapezoo 05/30 12:23相信党

Submicromete 05/30 12:241樓連這種文都要洗圖了 真可憐

dgq75148 05/30 12:24看年齡跟來自哪裡的組成

sheng612 05/30 12:24去完可以知道手機號碼所有人是誰

sheng612 05/30 12:24甚至連手機誰持有都知道

doluir 05/30 12:25去識別化 做編號吧

cat5672 05/30 12:26你們權限不同 拿到的去識別化程度不同

lucifiel1618 05/30 12:26卜筊吧

devidevi 05/30 12:28只要有抽菸又有肺癌的資料就能知道交集

ptrpoint 05/30 12:28資料沒有的,就唬爛的啊

arickal 05/30 12:30可以把電話號碼或是身份證字號做base64

arickal 05/30 12:30呀,之前政府公布檢舉達人名單時就是這

arickal 05/30 12:30樣喔,有政府做示範就很安心

he00504616 05/30 12:32打tag 像是 67歲女博士

cloudyst 05/30 12:32唬爛的 去識別化怎麼相互比較

devidevi 05/30 12:33你不會回嗆教授他們是根據地點

driver0811 05/30 12:33好奇北檢會怎麼辦

devidevi 05/30 12:33如果問說抽菸的人有沒有去519跟青鳥

lnonai 05/30 12:33笑死 base64

devidevi 05/30 12:33肺癌的人有沒有去519跟青鳥就很簡單

driver0811 05/30 12:34如果有深喉嚨應該就是現在了

coffee112 05/30 12:34電話號碼就算是身分證嗎 不然還要看啥?

p2p8ppp 05/30 12:35性別 年紀 居住地 之類的資料 完全

p2p8ppp 05/30 12:35一樣但不同人的機率有多高

terry1043 05/30 12:36唬爛嘴機率比較高

kd1523 05/30 12:36這還要從台灣價值去比對

billionaire 05/30 12:36先假設

terry1043 05/30 12:36而且一堆大學生門號是爸媽名字的

vitaminb12 05/30 12:38去健保署買資料

feijai 05/30 12:39党的資料比較高級 會自動幫你比對好

llgod 05/30 12:39健保app、防疫app

mortleo 05/30 12:41去識別化後還有uuid,台中觀光局的網頁已

mortleo 05/30 12:41經展示可查一年內是否故地重遊,但十年

mortleo 05/30 12:41太長了。透過客群特性比對相符性較有可

mortleo 05/30 12:41能。

Topwater 05/30 12:42不是阿為啥要拿我的資料去提供研究 我有

Topwater 05/30 12:42同意嗎

coffee112 05/30 12:43他在唬爛的時候 都沒有 "意識到" 自己

coffee112 05/30 12:43講的那些內容 可能會涉及個資法之類的?

vitaminb12 05/30 12:43健保署資料是先完整再去識別,例如a

kevin31a2 05/30 12:43推測而已啊

vitaminb12 05/30 12:43吸煙 肺癌 b 未吸煙 肺癌,然後你在

vitaminb12 05/30 12:43網站找到免費的統計資料是 單獨吸煙

vitaminb12 05/30 12:43區識別資料,有單獨肺癌去識別,所以

RossiBean 05/30 12:44人家的去識別化可能只是身分證遮前幾

vitaminb12 05/30 12:44花錢去買資料吧

RossiBean 05/30 12:44碼或用虛擬的 不是你這種group by資料

lucifiel1618 05/30 12:45你遮前幾碼不就是一種groupby= =

donotsettle 05/30 12:46民主代號党不能說護國安 阿共RA陰謀

dreaner 05/30 12:46資料庫要建立代碼型的surrogate key

g70245 05/30 12:46笑死 base64

Baozou 05/30 12:46留一個id查有沒有舊地重遊也違法吧

shadowpower 05/30 12:47統計分析不就是這樣,你要自己判讀數

shadowpower 05/30 12:48據阿

crazywar 05/30 12:48知道是同個人,就是沒有"去識別化"

laigeorge89 05/30 12:48再找多一點重疊資料的加加減減啊

CC97 05/30 12:48uuid 也是primary key獨立專有號碼, 也是間

CC97 05/30 12:48接識別。哪能算去識別化?

ginnyhuang 05/30 12:48無法,只能在產生資料時就將兩種資料

ginnyhuang 05/30 12:48關聯後再去識別化

shadowpower 05/30 12:49http://i.imgur.com/FVxzDVV.jpg

圖 去識別化後資料,怎麼看是否重複出現?

shadowpower 05/30 12:49本來就有提供不重複人數

YumingHuang 05/30 12:50電信業者可以提供去識別化的人流資訊

YumingHuang 05/30 12:50,但王義川說的就是不行,不能交叉

YumingHuang 05/30 12:50比對

goodhpp 05/30 12:51文盲加理盲才會覺得這種資料分析得出來

crazywar 05/30 12:54不同地點、時段,去識別化就不可能分析

kkiiccooo 05/30 12:55https://i.imgur.com/lCxps8R.jpeg

圖 去識別化後資料,怎麼看是否重複出現?

court 05/30 12:59完全沒交集

kevin31a2 05/30 12:59就拿太陽花跟這次年齡來分析而已吧

kevin31a2 05/30 13:00重複年齡層數量就當太陽花

IAMQT 05/30 13:01假設一個都年輕人 一個都老人 就可以區分

kevin31a2 05/30 13:01本來就不可能精確的東西

IAMQT 05/30 13:01不同群人 但要差很多

chouvincent 05/30 13:02https://i.imgur.com/gKrFT4S.jpeg

圖 去識別化後資料,怎麼看是否重複出現?

kevin31a2 05/30 13:02你是沒看到他一直講年齡嗎?

mcmj5566 05/30 13:05把可以識別的資料用sha256做hash?

hywind 05/30 13:09用冥煮ㄟ目珠看啊

weakerman 05/30 13:09做標記跟作編號能比對喔?我真的快笑死

Elsinore 05/30 13:09有沒有一種可能 是你台灣價值不足

weakerman 05/30 13:09了,兩個去識別化的資料做標記編號就能

weakerman 05/30 13:10比對?要護航也不要這麼蝦好不好...

soarling 05/30 13:10去識別後再識別 這個是...?

sunboyboy1 05/30 13:11Base64真的假的 有點浮誇

weakerman 05/30 13:11沒有讀過研究所,大四也該修過研究方法

weakerman 05/30 13:12吧?還是跟吳崢都是閃兵高中生啊

asoft40 05/30 13:12去問党 他們有一套辦法可以做到

weakerman 05/30 13:14自稱民調祖師爺的林佳龍都不敢護航切割

weakerman 05/30 13:14了,還有人要用那種弱智護航法喔

cutiecherry 05/30 13:15代號1,2,3,4,5

NCTUFAIWEN 05/30 13:18呃論文太簡單了吧 數據改一改就好

Thorvs 05/30 13:21地域性,如果兩份資料都是調查全臺的話

bl0418 05/30 13:30最單純的就電話號碼 還不到個資 號碼重複

Dannisty 05/30 13:35加入綠共就會了

cvnn 05/30 13:42資料拿出來 就不用扯了

starwish00 05/30 13:42必須要有上帝視角

xulzj524 05/30 13:48你有黨證你有國家機器可以用嗎

CLRIS 05/30 13:53抽菸bad 不過一個是違憲查人民

CLRIS 05/30 13:53一個是罰錢丟垃圾

CLRIS 05/30 13:54黨工沒招了 要失業了 可憐

dmmsiang 05/30 13:59因為去完後只剩手機號碼

goldmouse 05/30 13:591樓的圖好好笑

Brian23 05/30 14:07IMEI, ICCID 都可以

Brian23 05/30 14:08就是手機實體ID和SiM卡卡號

kkkandy 05/30 14:12一堆狀況外,能夠辨識就不是去識別化

xshaddockx 05/30 14:12MAC

kkkandy 05/30 14:12如果還能夠辨識就是提供單位違反個資法

seans 05/30 14:22先取得專業證照自然就會了,我是說綠綠的

seans 05/30 14:22那張

jerrylin 05/30 14:23不知道反正我想不出來

Mimmature 05/30 14:25KSJDIXJ9JJ-KOKEN972-MKDJ 男 25歲

Mimmature 05/30 14:25PLWMSJSH-981IJWNB-YUQJ 女 18歲

Mimmature 05/30 14:25誰有辦法知道兩個人是誰?

Mimmature 05/30 14:25這就是去識別化的其中一個方法

vvrr 05/30 15:46樓上這個做法還是有可能算個資

vvrr 05/30 15:46https://reurl.cc/Djxk8E

suckpopo 05/30 16:01簡單啊,你就把資料寄給王義川,他會幫

suckpopo 05/30 16:01你找出來

kai3368 05/30 17:00兩筆資料的25歲台北男要怎麼比較啦

ssccg 05/30 17:17問王義川啊,正常來說不可能

jerry810113 05/30 17:40看到base64差點就信了

missin 05/30 19:56得意忘形