Re: [問卦] 我不懂統計，有朋友送我這張圖有卦嗎?

Imotucc 發表於 2023/11/19 上午5:37:46

看板Gossiping標題Re: [問卦] 我不懂統計，有朋友送我這張圖有卦嗎?作者

(建築師巴布)時間Nov 19 05:37:46 2023推噓23 推:24 噓:1 →:63

認真回

這篇文章在講的事情是error propagation
如果我有兩個實驗數據
這兩個數據是獨立量測的
那我測到的第一組是A+/-a
第二組是B+/-b
假設你的實驗量總是常態分佈
有統計顯著意義應該是要
|A-B|>sqrt(a^2+b^2)

舉例來說如果A=40 B=44 a=b=3
他認為統計顯著意義應該要是
|40-44|>sqrt(3^2+3^2)=4.26
但這條沒有成立所以沒有統計顯著意義

那比較confidence interval的意義是甚麼呢
就是當我們設定95%信心水準樣本數1000
母體數很大的時候不太重要但我們可以假設個一千萬
那對應的confidence interval大約是3%
也就是說我做無限次調查的時候
有95%的結果我可以肯定
支持某個選項的比例跟某個數值A的差距在3%之內
那在某些社會科學(有些自然科學好像也是)的慣例中
在誤差範圍內=在誤差範圍外的相反
甚麼是在誤差範圍外
就是我可以肯定我量測到的數值跟A的差距不是誤差導致的

換句話說就是
在誤差範圍內=A跟B的差距有可能是誤差導致的
但你可能會問這樣的機率很小怎麼辦
這就是為甚麼一開始要設定95%信心水準
當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍
接著再來比較這95%情況下有沒有可能(有沒有一種母體)
抽樣調查有可能測到A也有可能測到B
如果有可能就是在誤差範圍內
如果不可能就是在誤差範圍外

舉例來說調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡
母體可能是
100011111000 支持率是41%
也可能是
110011111000 支持率是58%
也可能是
110000000000 支持率是17%
...
但你調查的時候只抽3個
你抽到 010 所以喜歡比例是33%
但有沒有誤差值? 有 95%信心下誤差大概是50%
在這95%的母體中
有沒有可能有一個母體的真實支持率是60%? 有
有沒有可能有母體的真實支持率是90%? 沒有
(根據你的實驗結果這樣的母體存在的機率不到5%)

為甚麼可以用實驗結果反推母體?
這也很簡單因為你測到110
所以有沒有可能有母體是 000000000000?
不可能所以實驗結果是可以反推可能的母體跟他對應的比例的
所以統計觀念就進來了
95%信心水準下誤差50%的意思是
真實母體的支持率跟33%有沒有可能差超過50%
有可能例如111111111110
但這種母體存在的比例不到5%

接著問題來了
現在有一間星巳克
你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別
所以你做了一樣的調查
結果呢你一樣抽三個這次抽到111 喜歡比例是100%
接著你問根據這樣的實驗結果
有沒有可能出現一種母體消費者對星巴克跟星巳克的喜歡是一樣的
答案是有而且還蠻常見的大約有9成的母體容許這種實驗結果
舉例來說母體可能是
111000000001
111100000001
111110000001
.....
如果你支持3% 你可能會覺得奇怪
支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體

但是但是這些都是假設信心95%的情況下
95%只是常用的標準
你可以說我想要誤差0.001%可不可以
當然可以如果你的信心只有1% 誤差就會很小
換句話說你做了一個測量
你只要求母體實際支持率跟你量到的差距在0.001%內
那你就只會撈到可能1%左右的母體
那用這個基礎進行討論你就可以說
你有不到1%的信心消費者喜歡星巳克多於星巴克

當然這是極端的例子也許你會有80%的信心可以下這種結論
但通常習慣是用95%90%之類的就是了

回過頭來講
要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值
你的平行世界就只有一個
不會有這種背後有不同母體不同情況的可能性
而因為誤差你實際做測量的時候的測量值大約是常態分佈
至於喜好調查這種東西呢
當你只抽樣調查你是不會知道背後母體真實長的樣子的
所以你只能討論眾多可能性中在某種給定條件的各種可能性下的結果

我知道風向不對
但科學精神就是這樣
如果你說我錯你要講出我哪裡錯
如果你提出一個說法
這個說法要有可以被證明是錯的可能性(不一定錯但要有可證偽性)

※ 引述《Popechiou (是我)》之銘言：
: https://i.imgur.com/XpDyyD8.jpg

: 剛剛在友版問問題，有朋友回應我這張圖，我看不懂，我只知道投降輸一半，不懂統計，: 這張圖好像很厲害，請問有卦嗎?

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國)

※ PTT 網址

※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04

→

JC910 11/19 05:43https://i.imgur.com/aJyPVrU.jpg

推

s9234032 11/19 05:47一場選舉全民上統計課這畫面好美

推

doohan01 11/19 05:48前提是兩組獨立數據

沒有錯如果數據不是獨立就要考慮相關性第一種常態分佈的例子中誤差有可能修正至於是變大還是變小要看兩者是正相關還是負相關回到統計的例子基本上你是星巴克星巳克分開問的所以你得到的兩個對於母體推論基本上是獨立的

推

ShockHo222 11/19 05:49台灣人真可憐，一會兒要懂疫苗，一會

→

ShockHo222 11/19 05:49兒要懂統計

推

ok66 11/19 05:56你假設錯了啊柯侯跟侯柯就有相關性而且是

推

ewing 11/19 05:57如有天命需要讓票？

→

ok66 11/19 05:57正的所以會比你估的小

我沒有在討論那個例子你可以說這個假設下的論述不適用某個例子而不是你假設錯了再回來相關性這件事首先你要放相關性進來考慮的就是第一個例子假設有一個上帝知道的真實數值而不是有各種可能的母體那確實正相關會使誤差傳遞比原本的誤差傳遞小但問題來了請問你如何知道cov(A,B)是多少呢?

推

ok66 11/19 06:04看民調有沒有計算這項啊我怎知＝＝

民調當然沒有這項因為通常計算covariance的時候是第一種例子你在做實驗量測量測一個數值而不是做民調調查支持比例事情是這樣的

https://imgur.com/4zQ7Ztp

這是covariance 如果假設支持算1不支持算0 讓x_i要嘛1要嘛0 可能可以算至於能不能用我持保留態度畢竟第一種常態分佈的狀況假設的是常態分佈但0跟1顯然不是常態分佈總之退一萬步我們用0跟1做個估計好了但只是估計所以實際計算結果也許跟估計不一樣總之甚麼時候會得到最高的負相關呢就是同一個人喜歡星巴克就不喜歡星巳克甚麼時候會得到最高的正相關呢就是同一個人喜歡星巴克就喜歡星巳克的確正相關會讓誤差變小但是呢我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人高度正相關基本上是否定這個看法因為高度正相關代表的是多數人兩個都一樣喜歡

推

sofaly 11/19 06:11請問什麼是越位

推

brian900530 11/19 06:15正解就是沒有raw data都算不出來啦

→

brian900530 11/19 06:16沒有原始數據要怎麼知道共變異數XD

→

brian900530 11/19 06:16DD

→

wen17 11/19 06:329成的母體你是假設各種母體機率均等吧

概念是這樣的首先我們知道做了測量之後各種母體存在的機率就不均等了舉例來說你測到111 母體就不可能是00000 所以一般來說我們看的是把9成5的母體挑出來看能不能排除某種情況換句話說能不能挑9成6的母體出來且這些母體實際支持率跟測量的小於3%呢? 答案是不能一旦你做了1000份問卷這種可能性就被排除了至於挑出來的9成5的母體裡面各種比例是多高? 這跟誤差範圍內是兩件事因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多但10成母體統計誤差是100% 所以有兩個不同的問題 1.我能不能猜哪個母體最有可能答案是可以而且你八成會猜是你量到的那個可是這時候你猜錯母體的機率也很高 2.我可不可以降低猜錯母體的機率並在這個基礎上排除某事件發生的機會可以這就是統計誤差

→

wen17 11/19 06:33也就是0 1都50% 這樣能maximize interval

→

wen17 11/19 06:33我不是很確定同時比兩組數據這樣公平嗎

→

wen17 11/19 06:34而且實際上因為有賴所以其實不論柯或侯

→

wen17 11/19 06:34母體比率應該都<<0.5 直接用0.5估

→

wen17 11/19 06:34然後要求interval不能疊怪怪der

→

wen17 11/19 06:35這例子不太像星巴克 but anyway

→

wen17 11/19 06:35為什麼智商157還有統計學博士簽的約

→

wen17 11/19 06:35可以不清不楚定義都沒定義好

推

pc011630 11/19 06:45學生時代的惡魔又回來了

推

tn368 11/19 06:55我知道的是重點在如果你要比較兩組有差異

→

tn368 11/19 06:55的數據是不是有顯著差異你會設定一個P值，

→

tn368 11/19 06:55就是當你的假說是真的時候，你的結果出現

→

tn368 11/19 06:55極端情形的機率（例如常態分佈單雙尾的5% 9

→

tn368 11/19 06:555%，P value=0.05), 你去計算你要比較數據

→

tn368 11/19 06:56的p value是不是低於設定值你才會知道是不

→

tn368 11/19 06:56是有統計上有顯著差距的意義

你說的沒錯這就是第一種常態分佈的狀況如果你在測量一個數值的時候例如全班體重我們會假設體重分布是常態分佈再根據常態分佈各數值出現的機率去設定p value的閥值至於問卷這種問題呢基本上就是1跟0 畫成圖就是兩條bar 基本上不是常態分佈並且處理的問題也不一樣常態分佈是假設宇宙有個真實的值和真實的分布這個分布就是常態分佈所以他不用處裡母體的問題也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了 (這跟P value的5%是不太一樣的概念) 因為你的"母體"就只會是常態分佈至於問卷呢我們要做的事情是在95%的母體中討論某事件發生的機會有沒有可能完全被排除

→

wen17 11/19 06:56不是我是指假設母體有10個你測2個

→

wen17 11/19 06:56排除掉不可能發生的剩下的用2選1 0/1去湊

→

wen17 11/19 06:58猜0.5的好處是能CI啊XD 你單純要檢定一個

→

wen17 11/19 06:58我覺得max CI很合理 CI最大都能跑出去

→

wen17 11/19 06:59肯定能跑出去了但如果想玩兩個CI不重疊

→

wen17 11/19 06:59我不知道這樣做合不合適就是了

→

wen17 11/19 07:00不過我覺得你的排除在今天的例子不太重要?

→

wen17 11/19 07:00因為選民人數遠遠比民調樣本多

母體=全體選民民調=樣本在沒選舉之前我們做民調得到得結果呢可以有N種對應的母體換句話說有N種可能的選民結構可以讓我們做出今天的民調但是呢我能不能猜真的選舉的時候支持率會怎樣呢可以你會用你做的民調結果估計但是呢因為你的樣本數遠小於母體所以真實的選舉結果跟你的民調結果大概不會一樣差距有多大呢? 你做1000份民調真實結果跟民調結果差距在3%以內的有95%的可能性差距在2%以內的有80%的可能性有沒有沒有誤差的有可能性很接近0 OK 讓我們再回到相關性跟常態分佈的討論你如果問說今天做了一個民調我能不能用常態分佈那一套來處理我只能說我持保留態度但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套 1.0跟1不是常態分佈所以假設只可能是一種近似 2.常態分佈是對母體的一種假設當你要排除某種可能性的時候基本上是盡可能做越少假設越好畢竟沒有人有好的理由說服別人為甚麼真實母體應該是常態分佈有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈為甚麼我是持保留態不而不是否定是因為統計這個東西基本上還是共識決你說你要95%信心我可不可以說要30%就好了可以啊你也可以說1%信心那你誤差就不見了或者說要99.99%信心那你誤差可能就大到快100% 95%這個共識基本上是因為好用但甚麼是好用怎樣定義好用? 這都是人決定的所以你要用常態分佈行不行也許吧如果你覺得很好用的話我只能說一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈我想再補充一點雖然這裡應該沒有人會看為甚麼常態分佈這麼棒呢? 這是因為大部分時候我們定義"距離"的時候都是用L2 norm 舉例來說 X = {x1,x2,...} Y = {y1,y2,...} 如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm 基本上差距誤差這種東西就是距離如果我們是這樣定義距離的那你要找到一個"正確"的分布使得該分布跟所有可能分布的距離最小的話那這個分布就是常態分佈如果距離不再是L2 norm了那這個分布就不會再是常態分佈

推

xru03 11/19 07:28推

推

intointo 11/19 07:35已經上了一天的統計學了

→

wen17 11/19 07:35懂你的意思了謝謝

推

wen17 11/19 07:38但我沒有假設是常態分佈吧?

→

wen17 11/19 07:38data當然不是常態分佈

→

wen17 11/19 07:39但你抽出來的樣本參數與平行世界比會是

→

wen17 11/19 07:39比方說你抽出來這次mean=0.42

→

wen17 11/19 07:40假定母體mean=0.5 (最大化區間)

→

wen17 11/19 07:40可以下去估如果你抽了很多次

→

wen17 11/19 07:40這些mean的std 是這樣嗎?

抱歉我不確定你有沒有再講常態分佈的事主要是因為我回的那篇文在講的是常態分佈的統計所以我話癆就多講了一點針對你這個問題估計總是可以的但估計會估錯統計誤差範圍處理的問題是給定信心水準我不要我估錯我要確定可以排除是誤差導致或是說不能排除誤差影響換言之估計做的是是說"很有可能" 但不能告訴你多有可能統計誤差要說的是"哪些不可能" 事情是這樣子的只做民調我們"可能"活在各種各式各樣的平行宇宙中但歸根究柢我們只活在其中一個舉例來說我們抽到111 母體有可能是111111 也有可能是111110 你問我有沒有可能知道我再做一次民調會出現甚麼狀況呢? 如果我要有100%信心答案是不能如果我有5%信心可不可以可以因為我有5%信心真實母體一定是111111 所以抽到0的機會就是0 但5%信心夠不夠? 別人可能質疑你說那111110你怎麼不說? 所以問題基本上就是這樣如果你認為母體是某個樣子理論上你應該只能有5%信心如果你要有95%信心那你必須容許某些母體而不是一個母體並且最後你知道你只活在其中一個但即便是這樣你還是能排除某些狀況因為在這些母體中還是有某些狀況是不可能發生的只要這些可能性不能排除基本上就是在誤差範圍內

→

wen17 11/19 07:41也就說你會有mean1 mean2 mean3..mean1000

噓

RiverMan1 11/19 07:41是需要多懂？叫你讓就讓，不然自己出錢

→

wen17 11/19 07:42考慮這些mean的分布，會是常態分佈?

推

womanloveme 11/19 07:42一早起來上統計，傷痛都回來了

推

abiggun 11/19 07:43統計學答案不重要國民黨就是要正的

推

bmjack 11/19 07:48推~~可以跟我說一下，民調結果就以你們專