PTT推薦

Re: [問卦] 杜奕瑾:烏俄戰爭駐批踢踢內應的也沒閒著

看板Gossiping標題Re: [問卦] 杜奕瑾:烏俄戰爭駐批踢踢內應的也沒閒著作者
sami012985
(TingTing)
時間推噓85 推:90 噓:5 →:77

看了一下原FB文內連結到的協同行為分析方法大公開的文章

裡面有AI Labs.tw的研究論文可以取得

Exploring Atypical Online Coincidental Behavior on PTT

不過要填姓名跟信箱就是了

花了一點時間看完了論文,基本上呢研究的方法沒甚麼問題

都是使用很基礎的Data mining 算法,consine similarity、tf-idf

其他看起來也沒有甚麼大問題,在clustering用的數學式是合理可以將族群分開的

唯一大概能說的就是在threshold的參數選擇上並沒有多加說明,這部分會有疑慮

裡面對於phi-coefficients設定>0.35的說明竟然是an expert-defined threshold

連引用資料都沒有,這要是碩士論文肯定被電飛


但本文重點不是探討研究方法,主要重點:

用得出的數據去探討結論這件事情很有趣,給不同立場的人看,會有不同的結論產生
而本篇論文的立場個人感覺超級偏頗,某方面來說是對的,換個角度想又覺得怪怪的

有興趣的往下看請搭配該網站得到的論文服用,就不截圖了

---------
以下是節錄翻譯
------------------------------------------------------------------------------名詞定義:coincidental users/group(協同用戶/組),大致上是指由演算法分群得出的

User grouping基本上有兩個規則
考慮UserPair(UserA,UserB)
1.一個小時內用同一個IP上線推發文
2.越常同時出現在一篇文章中,或同時沒出現越容易被分到一組
若一人在一篇文章中出現,另一人沒出現則降低phi-coefficient

以該文章敘述的數據,本人推敲大概是兩個條件符合一個就會被分到一組
-----------------------------------------------------------------------------

在論文中的圖3(a),該圖是熱點圖,顯示出了"所有"協同用戶在一天中的活動時間

通常是在下午兩點達到高峰,而圖3(b)則是與非協同用戶進行比較顏色越紅表示協同用戶相對比較常在這時段一起出現,藍色則相反

而這段得出的結論我蠻認同的,畢竟下午兩點就是防疫記者會召開的時間,所以關注疫情發展的人就會上來看/推/發文


-----------

論文的圖9,將不同的協同組分別製成熱點圖來看活動時間
可以看出,即使皆被分類為協同用戶,不同組之間的活動時間也是相差甚遠

-----------

圖12,
group 3 --- 67人 ---620則推文
可以看出這群人主要探討的主題皆圍繞在奧運以及與中國隊的對抗上

-----------

圖13,
group 11--- 25人 ---17338則推文
主題圍繞在乃木坂46,少部分有提到疫情跟疫苗

-----------

圖14,
group 18--- 26人 ---5854則推文
分為兩個部分
第一部分為使用負面詞彙指責DPP使用中國作為得不到疫苗的藉口
第二部分為奧運與中國的對抗上

----------

圖15,
group 19--- 19人 ---930則推文
在"國產"此一詞上擴展出"棒棒"、"受制於人"
是在諷刺地表達對國產疫苗的不信任與進口疫苗缺乏的不滿
而"穩到"
則是在諷刺台灣政府在疫情時的無效政策

---------

圖16,
group 32--- 15人 ---19450則推文
這組人最少卻有最多的貼文
基本沒有具體討論的主題,而只有具有攻擊性的侮辱詞彙,且大家用的詞彙都差不多

"他媽(Fucking)"
"肥宅(Fat nerds)"
"臺灣價值(Taiwan value)"

可以看到用這類侮辱來反映對臺灣處理疫情的不滿

然而這組對於中國的敵意卻是最強的
"臺灣統一中國"、"臺灣才是正統中國"

--------

另外比對圖9跟圖3,
可以看出當考慮所有的協同用戶時,看不出有明顯的活動時間
但考慮個別協同組時,可以看出群體表現出或多或少的模式傾向
雖然不是全部都可以觀察的出來(例如第3組)

--------

在本論文中,根據共用IP、活動時間、敘述,研究人員得出結論,這些模式不是隨機產生他們是有意識地,合力地參與了討論。
儘管無法證明其意圖是操控輿論,但研究人員找不到其他合理解釋說明這些行為具有正當性。因為他們與非協同用戶是如此不同。

--------

可以觀察到以下六種行為:
1.每個協同組有相似的活動時間
2.更喜歡參與推文而非發文,且有更高的煽動值
3.協同用戶們展現出較高的操縱模式
4.不同協同組展現出了不同的行為偏好
5.一些協同組只使用一個負面/操縱口號,而其他則使用多個或根本不用
6.不同協同組展現不同的敘述偏好跟詞彙選擇

--------

而在1985個事件之中,有880起非典型事件(這裡大概是指有協同用戶/組),約佔一半表現出了操縱行為,而且可能且確實發生在各種主題上,包括體育、商業、娛樂、政治等。

--------
節錄翻譯結束,以下感想
--------

好了,你各位阿
每天生活作息規固定時間上來PTT看熱鬧的鄉民
在這種算法上都很容易被歸類為協同用戶/組(網軍/公關公司?)

確實這種算法是有機會抓出網軍
但光看數據我就覺得這裡面的誤差肯定很大
討論奧運都可以被抓出來
奧運本來就是特定時間有特定選手/比賽所以會同時討論

人本來就會有自己的偏好,不論是行為還是愛好

八卦版基本上甚麼都可以討論
可能有人就想討論個奧運、地震發文告白、承認包莖,盜懶覺^Q^
在推文底下嗆人肥宅,嘴人媽媽

更何況在心理學上早就有研究表明人無意間會受到他人影響,而改變自己的行為模式

還有意見領袖,在各個論壇都會存在
常常會有人看到某個ID發文,底下一堆先推再說的,不然就是先給尊重
現在通通要被當作協同(認知)作戰的打手囉

建議杜先生請把論文中提到共用IP、且行為模式相近的帳號做一波整理
直接送往帳號部請他們確認是不是異常帳號
看到底有多少的網軍帳號可以抓出來
而不是用別的平台來影射PTT裡面很多中共內應

然後實際上在PTT上被抓出來的大部分都是塔綠班的內應喔

還有要不要做一篇協同作戰分析正面論述天天對塔綠班歌功頌德的
是不是跟罵政府的一樣會被你抓出來有共同行為模式呢?

整篇論文的結論竟然是
"雖然不能證明有在操縱輿論,但研究人員想不出來這麼做的正當性"
那我也懷疑有人在操縱大眾輿論,抹黑PTT,因為我想不出這麼做的正當性

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.205.48.180 (瑞典)
PTT 網址

no2muta 03/28 13:14這些人跟苦無不就一個樣 面對塔綠班就閉

no2muta 03/28 13:14嘴了

whitenoise 03/28 13:14連引用資料都沒有,就不用看了

參數在Data Mining之類的數據科學超級重要的 有些情況下可以透過調整參數來得出相反的結果

DustToDust 03/28 13:14一堆反串怎麼抓

turbomons 03/28 13:16簡單說就是包裝比較好的文字獄 說你五

turbomons 03/28 13:16毛就是五毛

deann 03/28 13:16結論很簡單討厭民進黨的都是中共同路人

DavidFoster 03/28 13:17就問你杜老爺一句,名單呢?

其實名單在他們提供的github上面是有檔案可以抓的 我是沒有抓啦,我這邊半夜想說閒來無事看他到底怎麼分析的 看完就馬上來發文了

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:20:29

CYL009 03/28 13:17我比你更短的結論 苦無證據 先抹再說

cerberi 03/28 13:18

wste 03/28 13:18可能想當網軍的創世神吧 ptt創世神名號沒價

whitenoise 03/28 13:18那不叫研究,那叫專欄社論

wste 03/28 13:18值了

smalltwo 03/28 13:19簡單一句話.我沒有證據.但是肯定是這樣

CPer 03/28 13:19來八卦版本來就是來討論類似議題

leafall 03/28 13:19影射最有殺傷力

fatdoghusky 03/28 13:19舉手提問,請問論文只有研究八卦嗎?

fatdoghusky 03/28 13:20其實以他的研究方式,研究前幾熱門板

fatdoghusky 03/28 13:20也是會得到一堆偕同群組吧?

該篇研究只探討八卦版 個人認為套用到其他版大機率可以得出類似的結論

CPer 03/28 13:21喜歡參與推文那也是因為發文限制較多

沒錯 很多因素都沒有考慮,單拿數字雲來說有人在協同作戰當內應 我只能說 非!常!奇!怪!

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:22:57

bighorse0 03/28 13:21抓到乃木坂46的網軍

AlianF 03/28 13:21靠腰 發文少臭了嗎

smalltwo 03/28 13:21倚靠的就是 相信我之術

basslife 03/28 13:22你太認真了吧= =

CPer 03/28 13:22把PTT給的限制造成的影響當作觀察也是搞笑

whitezealman 03/28 13:22超譯逐字稿 ZZZZZzzzzzz

ALAN781215 03/28 13:22抓蟑螂和瑋豐需要証據互相連結論証,

ALAN781215 03/28 13:22抹鄉民五毛只需要”感覺和苦無”

CPer 03/28 13:22不要限制發文不要整天檢舉 那我還不發爆

tim96tim 03/28 13:23先抹贏一半 選我正解

p2p8ppp 03/28 13:23人的行為都會有模式可循的 不然社會科學

Lailungsheng 03/28 13:23論文綠舔狗有正當性,收錢吹喇叭

p2p8ppp 03/28 13:23就不用玩了 不能說有模式就是網軍阿

苦無證據,但我想不出正當性 所以你是協同作戰喔 啾咪><

belion 03/28 13:24但,就苦無證據:3

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:25:29

CPer 03/28 13:24發文活動時間也是 會來看八卦板通常都是有點

fatdoghusky 03/28 13:25感謝解答,那他這個研究方式一點用也

tspes40801 03/28 13:25推用心

fatdoghusky 03/28 13:25沒有,頂多抓出有同群人對相同話題

fatdoghusky 03/28 13:25有興趣而已...

CPer 03/28 13:25閒但得正經做事的時候 簡單說就是大家上班偷

CPer 03/28 13:26懶時段 所以當然活動時間類似 這些根本屁話

而且論文內提到的negative slogans 很多根本就是塔綠班自己說過的話被拿來當梗用 玩梗也要被當作網軍,那請問那些鬧出這些笑話的是不是才是中共同路人

no2muta 03/28 13:26塔綠班網軍都已經被抓到被判刑 檯面上沒

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:28:44

no2muta 03/28 13:26有一個敢嘴的 笑死

CPer 03/28 13:26 正經坐在電腦前

bighorse0 03/28 13:26參考一下公園阿北的聊天群聚

bighorse0 03/28 13:27差不多的內容 每天準時開講

bighorse0 03/28 13:27比起五毛 我覺得在八卦找到更可悲的現

Athchen 03/28 13:279000萬的成果 可悲

bighorse0 03/28 13:27

small91051 03/28 13:27就拿政府標案生些XX騙經費吧

也有可能是無辜的大學生或是碩士生 被教授找去做這種研究吧 個人看這篇研究的感覺是 應該有人生出基礎數據 然後讓人拿去大作文章

Vladivostok 03/28 13:29Holo 廚也是在西洽協同作戰的意思啦

Vladivostok 03/28 13:29,尤其開直播的時候

沒有錯啦

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:32:06

Submicromete 03/28 13:30原來如此

Vladivostok 03/28 13:30惡魔旅館如果每天定時發文,也可能

Vladivostok 03/28 13:30會判協同作戰

p2p8ppp 03/28 13:31HOLO廚協同作戰...我被說服了

shadowdio 03/28 13:32那些常在金城武文推文的是什麼人

冒充我的鄉民們 不過大家玩得開心就好 我沒關係的

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:33:42

eddyhsin 03/28 13:33Ptt

linlin110 03/28 13:34噁心巴拉

holydc 03/28 13:35算法

sobiNOva 03/28 13:37應該先用這個算法抓綠色網軍

yannicklatte 03/28 13:38我文組看不懂啦,反正你們都網軍啦

sobiNOva 03/28 13:38一個綠色集群都沒有公信力=0

sharkimage 03/28 13:39杜真的是跌落神壇

tom282f3 03/28 13:39holo廚笑死

sobiNOva 03/28 13:39綠色一堆用LINE成群刷推噓的

sobiNOva 03/28 13:40抓不到半個 好了吧 人工智障實驗室

blueseal 03/28 13:40這個研究八成是要拿去繼續申請經費的啦

blueseal 03/28 13:40,虧你還這麼認真

在國外念書 偶爾還是關心一下臺灣 OK8 反正科系也相關 看起來不會很吃力 倒是翻譯不是我強項 順便練習練嫌

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:43:08

wwl0909 03/28 13:42笑死 嘴台灣價值就是五毛 這個真的是鄉民

wwl0909 03/28 13:42嗎做的研究嗎

lspci 03/28 13:43先射箭再畫靶的研究論文 拿去跑政黑板看看

其實杜先生拿出來的演算法 其實基本上都正確 如我文章所述 但就真的在結論上讓人感覺濃濃的先射箭再畫靶阿 論文中也承認,某些推文集中在下午兩點是因為防疫記者會都是下午兩點召開 怎麼到最後寫結論的時候這些該拿出來說可能會造成誤差的因素都不見了 只留下因為想不到正當性所以合理懷疑的結論

chichung 03/28 13:43有人會說台灣統一中國 正統中國才奇怪

Aliensoul 03/28 13:45喊ptt有五毛=財富密碼

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:49:00

sxy67230 03/28 13:46感謝分享論文搜索方法,我這邊看代碼也

sxy67230 03/28 13:46有看到奇怪的coefficient,我本來以為是

sxy67230 03/28 13:46有做實驗得到的,結果真的鳥

gibbs1286 03/28 13:46先抹啊,他只是一隻超大綠色蟑螂而已

sxy67230 03/28 13:47不知道這篇paper 是怎麼過審的,像這種

sxy67230 03/28 13:47超參沒實驗沒給reference 肯定被我研所

sxy67230 03/28 13:48教授釘到起飛

lspci 03/28 13:48跟著黨媽媽 有肉吃有湯喝 標案一大堆超爽

升官發財 請走...

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:49:50

olivewood 03/28 13:51跟關貿差不多,一起吃香喝辣

s8800892000 03/28 13:51不管啦 說你們五毛就五毛

pouy 03/28 13:52這年頭 作賊喊抓賊才是顯學

CGSBN 03/28 13:54你在瑞典讀CS嗎?感覺很猛 他創立的那個la

CGSBN 03/28 13:54b根本來搞笑的==

我在瑞典讀IT 那個LAB也不是全部都這樣的啦 也有產出有些在不同領域的AI運用論文 稍微瞄過幾篇,也是有幾篇有水準的

kps1247 03/28 13:54反串的有辦法區分嗎

有前後文,且能分析的資料夠大 是有機會區分出來的

annie06045 03/28 13:55推分析文!

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:59:01

slygun 03/28 13:59有錢能使神當狗

elvis30901 03/28 14:04垃圾進,垃圾出

ntujokeking 03/28 14:08

ganbastar 03/28 14:08嗯跟我想的差不多

brainpowered 03/28 14:08結論就是討厭民進黨的=中共同路人

auxiliary11 03/28 14:09基進側翼科科

欸不對欸 該不會杜先生的國際論文 是在自己架的網站放上一篇用英文寫的文章 就變成國際論文了吧 !?!?

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 14:16:16

vizcacha 03/28 14:17對杜真的是失望透頂

jacklin2002 03/28 14:18認真分析推

goodtaste 03/28 14:20你跟苦無系認真就是你輸

miku3920 03/28 14:22高機率啦幹,概率支語

已修正 概率是支語喔

winiS 03/28 14:22想當PTT滅世神了吧,至於為什麼會有這樣的

winiS 03/28 14:22轉變… 要問杜先生自已了

t77133562003 03/28 14:24阿不就先射箭再畫靶 笑死 這樣抓一

t77133562003 03/28 14:24定有相似行為啊

主要問題是 今天這份研究產生出來的結果是 1.大部分被分群找出的協同用戶/組都有自己相似的活動時間、模式 2.還是僅有文章中抓出來的四個組有 這兩個在意義上差別就很大

xhung 03/28 14:25不要這麼專業好嗎

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 14:31:52

xhung 03/28 14:26這只是一條龍的抹黑鏈的其中一環...

uhbygv45 03/28 14:29辛苦您了 他們只是在畫星座而已

sigamo 03/28 14:30創世神早就跌落神壇

RAY1203 03/28 14:32民進黨把台灣人民當笨蛋嘛= =?

abadjoke 03/28 14:32這種東西能不能過碩論都要問號了

applejone 03/28 14:40AI給的權重值很重要 GIGO知道吧

uhbygv45 03/28 14:41概率哪邊是支語了 只是台灣比較少用而已

billchen123 03/28 14:41總而言之就是用COSINE相似度做分群

billchen123 03/28 14:42然後用高大上的名詞,協同過濾

billchen123 03/28 14:42Collaborative Filtering來包裝解釋

derekhsu 03/28 14:46分群這種做法解釋起來要很小心

vvrr 03/28 14:46這篇論文和AI有關的部份只有預處理用BERT?

hackfox 03/28 15:02說你五毛就是五毛,莫須有

Thorvs 03/28 15:06想硬套結果操縱輿論者想不出正當性很合理

vsbrm 03/28 15:14上班早餐同路人,上班廁所同路人,上班抽煙

vsbrm 03/28 15:14同路人,以上請勿同時發廢文...謝謝

mokke 03/28 15:20杜先生這種文章很可怕的 可以騙到多數智商

mokke 03/28 15:20不高的人 又成功黑了ptt一波

greco0616 03/28 15:31這篇發表在那裡啊?用google scholar 搜

greco0616 03/28 15:33不到 原本也想來拜讀一下的

在他們自家的ai labs網站上做的"國際發表"喔

kc 03/28 15:35我們只研究對民進黨不利的,有問題嗎?

BREAKFAST204 03/28 15:49黨說你是五毛你就是五毛啦

x0003 03/28 16:05根本不用演算法,貼一篇蔡英文的新聞

x0003 03/28 16:05下面噓文的全列為五毛就好

keith3a3a 03/28 16:08專業推

Rootless 03/28 16:25台灣統一中國 蔡垃圾總統 塔綠班網軍死

Rootless 03/28 16:25全家

NEWSTAY 03/28 16:31就算找出相似行為的用戶組 他怎麼得到有

NEWSTAY 03/28 16:32內應的這個結論? 內應是誰的內應?

目前並沒有看到有針對烏俄戰爭事件進行的分析 網站上只有找到針對疫情期間的協同分析 所以無法確定到底是誰的內應 不過看杜先生的文章明顯在影射中國內應吧

Asato163 03/28 16:35推專業+認真

wish40512 03/28 16:36

clone29 03/28 16:47哈哈哈哈哈

ssccg 03/28 17:19這種無聊套工具算法上去分析的結果如果是

ssccg 03/28 17:19「研究人員想不出來這麼做的正當性」的話

ssccg 03/28 17:20很可能根本就只是非常正常的自然現象

ssccg 03/28 17:21找不出實例、因果,就只有我發現了一個不知

ssccg 03/28 17:22道是不是自然的模式,就冒然認定這是種特徵

ssccg 03/28 17:22然後再跟自己的想法聯結,這是在做研究?

mission985 03/28 17:22推,這些都是Data mining很基本的方法

ssccg 03/28 17:24標準垃圾進垃圾出的東西耶..

flyslam 03/28 18:14好專業的文

sted0101 03/28 18:21苦無

meowmeowwoo 03/28 18:29如果10年前ptt也有grouping的現象 那

meowmeowwoo 03/28 18:29又會怎麼掰呢^^

curance 03/28 18:39

boy80421 03/28 19:23這種作法至少也要有多參數的結果 更不要

boy80421 03/28 19:24說這種人類行為學的資料居然用tf-idf 整

boy80421 03/28 19:24個感覺就是在湊算法跟參數導向自身期望

人類心理、社會行為學很複雜 從眾心理、厭惡損失、鏡像神經元對行為的影響等,這些都還只是心理學的基礎 今天他找出有些群體有接近的行為模式 他應該說說,目前為止的結果很有趣 這裡應該是可以往下繼續研究探討的問題點,為何看似隨機的狀態中間會有一群人有這些 行為 不是單單說一句 喔 "這裡可能有人在操縱輿論 並且也沒有其他具有正當性的說明"

alcpeon911 03/28 20:03理組苦無

darkangel119 03/28 20:32垃圾演算法當然就是先預設你就是五

darkangel119 03/28 20:32毛 先抹先贏

mynewid 03/28 20:52笑死

TouchAgain 03/28 21:36推專業整理

shi21 03/28 22:11

qphone 03/28 23:07看了幾個分析他方法的,你講的最好

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/29/2022 00:25:10

cmcmcmcm2 03/29 10:03

vvrr 03/29 11:49最一開始 一個小時內用同一個IP上線推發文

vvrr 03/29 11:50這比例不知道有多少。如果佔比超少甚至沒有

vvrr 03/29 11:51那整篇就變成"話題的群聚現象研究"而已

sxy67230 03/29 13:29回樓上,我這邊看論文,他的phi coeffic

sxy67230 03/29 13:29ient分佈顯示大部分的用戶都在0~0.05之

sxy67230 03/29 13:29間。說實在,很難找到明確統計有大量網

sxy67230 03/29 13:29軍在操縱

sxy67230 03/29 13:30phi coefficient 的升降可以看那幾條gro

sxy67230 03/29 13:30up 規則

sxy67230 03/29 13:40某種角度來,用語言學的脈絡來說,本來

sxy67230 03/29 13:41相似的文化圈就會流行相同的術語,把PTT

sxy67230 03/29 13:41解釋成30老漢次文化圈也是合理的