PTT推薦

Re: [討論] 認真問民調的一個統計問題

看板HatePolitics標題Re: [討論] 認真問民調的一個統計問題作者
yktktkyure
(莎莉油奶凍)
時間推噓 6 推:6 噓:0 →:19

※ 引述《kh749 (ReturnTo)》之銘言:
: ※ 引述《Mervivian ()》之銘言:
: : 請問如果是區間估計,
: : 假設統計誤差是3%,
: : 那麼做出來的民調看起來是40%的,
: : 其實真實值是37%到43%之間都有可能對吧?
: : (95%信心水平下)
: : 那問題是想問說,
: : 真實值是從37%到43%之間任何數的可能性都一樣嗎?
: : 還是說,真實值離40%越近的可能性就越大,
: : 而真實值是37%或是43%雖然也有可能,
: : 但是可能性會下降呢?
: : 謝謝!

這就是讀書沒有讀通的典形,連自己在說什麼都不是很清楚,更遑論解釋給別人聽。

: 初等統計(高中統計)會告訴你這段:
: 假設
: "所有選民都已經心有定見,
: 沒有心猿意馬臨時改變的空間"
: 例如, 10000個內政部登記符合投票資格
: 的選民當中有3800個支持. 那真實的p就是38%.
: 這是一個"未知的固定數".
: 那麼p=38%的機率是1,
: 其他37.1%,41.2%那些其他所有數字的機率都是0

有讀書

: 很明顯,以上這是一個反人類認知的說法

沒讀通。

: 大家心裡可能都不贊同以上說法,

你解釋一下,大家心裡就可以接受了。
或者你沒有能力,我就替你解釋。

這個P=1是什麼意思?
這是代表必然是這樣。
以上一次總統選舉為例,蔡英文得票就是817萬,
蔡英文得票817萬的機率就是1,P=1,
其他得票816萬,818萬,552萬的機率,全部都是0。

有很難理解嗎?反什麼人類?別因為自己不懂就拉低全人類的水準好不好?


: 不過參加大部的考試請照上面回答.
: ------------------------------
: 雖然37.1和41.2的機率都是0,
: 一個有用的訊息就是:37.1和41.2的發生機率是一樣的
: 不會因為41.2%比較靠近40%, 它發生的機率就比37.1%還來的高.
: 當然, 這又是另一個反人類認知的結論.

錯。
別人問你,37.1和41.2的%,是他看到某民調是40%,
所以想問最後實際某候選人的得票率。
這能和上面的提到的,"未知的固定數"對於某個數字
(816萬,818萬,552萬,或者P=1的817萬)的機率一樣嗎?
根本兩種東西,別牛頭不對馬嘴的,將兩樣東西扯在一起。

正確的回答是:
如果該民調可信,沒有做手腳,
那該民調是40%的話,
因為41.2%比較靠近40%,根據常態分佈,它發生的機率就是比37.1%還來的高。

這裡簡單的解釋一下,民調的%究竟和那"未知的固定數"有什麼關係。

事情是這樣的,雖然蔡英文的得票就是817萬,這是必然的,P=1,
得票率就817/1430,57%多一點,但那是選了之後的現在,
2023年才知道的。

如果是在2019年,有人要預測(預測,這2隻字很重要)選舉結果,
你就不能叫他等到2023年,說到時我們就知道那"未知的固定數"了,
可以十分準確的,必然的,P=1的,知道蔡英文有817萬票,
因為那顯然是沒有用的。

那要怎麼辦呢?
除了占卜、問卦、坐時光機之外,想預測未來,還有一種方法,
那就是做民調。
雖然2020年才選舉,但到時要投票的人,現在2019年不也是全都在這裡嗎?
那問一問他們就好了。

好吧,到時有1931萬人有投票權,那就去問……
呃。
實務上絕對不可能,只比坐時光機簡單一點。
於是,就只好問少一點的人。

假設2019年,你問了1000個人,550人說要投蔡英文,佔55%,
那到時選舉蔡的得票率多少?
57%多一點,蔡英文有817萬票,是必然的,P=1的。

又假設2019年,你問了1000個人,560人說要投蔡英文,佔56%,
那到時選舉蔡的得票率多少?
57%多一點,蔡英文有817萬票,是必然的,P=1的。
沒有其他可能。
其他得票816萬,818萬,552萬的機率,全部都是0。

那57%多一點,就是那在2019尚「未知的」一個「固定數」。
做民調就是想要「預測」它。

於是,那麼,問完1000個人,得來的55%、或者56%,又有什麼用呢?

首先要知道,這55%或者56%幾乎不可能準確的命中最後那固定數,
這是「連續區間」和「離散」的概念,是要自吹自擂自己有學統計時的基礎知識。
不嚴謹的解釋是,因為那是57%多一點,不是57%,
那個多一點是幾乎不可能命中的。

所以,要用「區間」來為那55%、或者56%,加闊猜度範圍,
通常是後面加個正負幾%。
然後這個加正負幾%,要加幾多才好呢?
其實沒規定。

但約定俗成,都是用95%信心區間。
信心區間不難,搞清楚就不高深,是很入門的,自吹自擂時要注意。
例如95%信心區間,就是有95%的信心,最後的那個「未知的固定數」,
會在猜度的區間內。

至於加正負多少%,才會令做民調的有信心,覺得最後「未知的固定數」會在區間內,
就倒是有點深,以下不細說。

結論是,

: : 假設統計誤差是3%,
: : 那麼做出來的民調看起來是40%的,
: : 其實真實值是37%到43%之間都有可能對吧?

連以1%和99%做中心的正負0.幾%的區間都有可能
嘻嘻,這就是民調。

: : (95%信心水平下)
對啊,在37%到43%之間,只保證了95%的信心,其他區間總共可以分到剩下的5%。

: : 那問題是想問說,
: : 真實值是從37%到43%之間任何數的可能性都一樣嗎?

不一樣。

: : 還是說,真實值離40%越近的可能性就越大,

以這份民調的猜測來說,是。
但真實值永遠都是那個「未知的固定數」,做民調充其量只是去猜,
嚴謹的說民調的%其實和真實值沒什麼關係。

: : 而真實值是37%或是43%雖然也有可能,

做民調只是猜,本質上和占卜問卦差不多,就你民調有根據科學方法,
預測起來理論上會稍微準一點。

所以真實值絕對有可能在1%或者99%,至於民調說40%什麼的,
嘻嘻,就猜不中囉,啾咪~

: : 但是可能性會下降呢?

我知道肯定有人要抬槓,說因為37.1和41.2的兩個點,其機率都幾乎等於0,
所以自己沒答錯。
但可惜,就算不看37.1和41.2為中心的附近「區間」41.2確實比37.1機率高,
單比較37.1和41.2,兩個幾乎等於0的點,也是可以的,41.2就是比37.1機率高。


: 不過想一想, 確實p只有一個, 就是38%.
: ------------------------------
: 後來有了貝氏統計, 但是貝氏統計更反人類認知,

拜託多讀書吧,這段是完全沒有讀書。

: 貝氏統計認為37~43的每個數字的機率都是0, 連同38在內

這不是貝氏統計的認為,這是「離散」和「連續」的問題。
不嚴謀的說法,如果充許37~43的每個數字都有為正的機率,
當然每個個別的數字的機率都是0,你個別數字在數線上就是一點,那自然只能是0。
像40,真的會那麼準中正40嗎?40.1呢?40.01呢?40.001呢?
有這麼多數字去分,分完當然是無限接近0,可以直接寫做0了。

: 不過貝氏統計定義了區間的概念,

錯。有好好上課嗎?還是沒讀過大學?
下面不逐一挑錯了。

: 你抽樣出來的1068個樣本是40%
: 那麼真實的p
: 落在40~43的機率是47.5%
: 落在37~40的機率是47.5%
: 落在37~43的機率是95%
: 總之符合以40%為中心的常態分佈.
: 不過以上是建立在一個中性的假設下.
: ----------------------------
: 但是貝氏統計不一定是中性假設,
: 例如有些學者認為這個候選人先天上看起來就不怎麼行,
: 雖然抽出來的1068個樣本是呈現40%支持率,
: 但是先天要扣幾分
: 所以最後可能得到一個以35%為中心的常態分佈
: 但是這種情況, 需要有一個很懂選舉的人,
: 來決定先天這個候選人要扣幾分.
: --------------------------------------
: 最後這項比較符合人類的認知,
: 也就是這個選舉專家能看出這個候選人的後勁是否夠強
: 配合民調的資料, 來估計這個候選人將來在投票的那天能得到多少選票.
: 可能是以35%為中心的常態分佈, 也可能是一個以45%為中心的常態分佈.
: 最後, 貝氏統計認為, 樣本數夠大的情況下, 選舉專家的主觀認知會被沖淡,
: 如果蒐集了10000個樣本, 支持率還是40%,
: 那麼貝氏統計會就會認為這是一個以40%為中心的常態分佈.

連基礎也錯,這想要做統計相關的工作一定是沒有位置。
難怪有這麼多高學歷的,卻總對社會不滿,就例如某族群……

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 222.166.97.10 (香港)
PTT 網址

q347 11/23 07:32這篇正解 一堆人不知道信賴區間跟總調查數

q347 11/23 07:33會影響後面那那個%數比例....

kh749 11/23 08:38我看完你這篇,我就明白為什麼你這麼聰明還

kh749 11/23 08:38找不到工作了。

kh749 11/23 08:50你引出的是貝氏統計學和頻率統計學的爭議。

kh749 11/23 08:50這沒有誰對誰錯的,就看哪種比較實用而已。

kh749 11/23 08:50很明顯你是一個貝氏的信仰者。但是頻率統計

kh749 11/23 08:50學不是你一個人就能完全否定掉的。

kh749 11/23 08:54順帶一提,你同意民調支持率是固定已知數,

kh749 11/23 08:54你又用貝氏的想法來解釋你所謂的機率。在我

kh749 11/23 08:54看來你已經錯亂了。該好好複習頻率統計學的

kh749 11/23 08:54內容。

kh749 11/23 09:06現在的研究所滿好考的,如果考不上台灣的統

kh749 11/23 09:06計所,申請一個國外水碩也不難的。或是台灣

kh749 11/23 09:06的很多研究所都很缺博士,有些都要停招了。

kh749 11/23 09:06趕緊去吧。

Xceberus 11/23 10:24不要丟臉了好嗎 kh749

kh749 11/23 11:28樓上,科學就是科學,不是人比較多就是真理

kh749 11/23 11:28

diawboris 11/23 11:42沒看懂為什麼p(41.2)>p(37). 是假設40

diawboris 11/23 11:43是真正的民調數字嗎?40本身是sample不?

Xceberus 11/23 20:27kh749連P的定義都不懂 不懂閉嘴也沒人會

Xceberus 11/23 20:27笑你

kh749 11/23 20:36統計是統計,討論統計的時候請不要把政治帶

kh749 11/23 20:36進來。