Re: [新聞] 柯P遭疑民調加權才贏侯友宜 柯辦反擊了!
※ 引述《Homura (德意志國防貓)》之銘言:
: 我們以黃揚明提供的
: 求真民調的資料來舉例
我也對加權很奇妙,所以我直接拿程式模擬誤差範圍
首先我定義誤差範圍如下
假設20~25歲的人群百分比是20%
這次抽1000人,理論上應該要有200人
實際上這次民調在20~25%的人有210人
誤差則為 絕對值(210-200)/200 = 5%
最大誤差範圍則為該次民調中各分組誤差範圍最大組別
首先我用一次民調抽9000人,進行10000次民調,得到結論是
最大誤差範圍5%以內,共占有21.77%
最大誤差範圍5~10%以內,共占有74.46%
最大誤差範圍10~15%以內,共占有3.71%
最大誤差範圍15~20%以內,共占有0.05%
最大誤差範圍20~25%以內,共占有0.0%
最大誤差範圍超過25%,共占有0.0%
接下來我用一次民調抽3000人,進行10000次民調,得到結論是
最大誤差範圍5%以內,共占有0.62%
最大誤差範圍5~10%以內,共占有37.92%
最大誤差範圍10~15%以內,共占有49.78%
最大誤差範圍15~20%以內,共占有10.63%
最大誤差範圍20~25%以內,共占有1.01%
最大誤差範圍超過25%,共占有0.03%
最後我用一次民調抽1000人,進行10000次民調,得到結論是
最大誤差範圍5%以內,共占有0.01%
最大誤差範圍5~10%以內,共占有1.76%
最大誤差範圍10~15%以內,共占有20.04%
最大誤差範圍15~20%以內,共占有35.97%
最大誤差範圍20~25%以內,共占有26.3%
最大誤差範圍超過25%,共占有15.91%
所以我的結論如下
如果用9000人來比民調,96%的機率誤差範圍在10%以內
所以加權範圍不應該超過10%才對
如果用3000人比民調
最有可能的最大誤差範圍是10%~15%之間,所以加權範圍不應該超過15%
至於用1000人比民調
最有可能的誤差範圍是15~20%,而且標準差極大
這時候才有加權的必要
程式碼如下,請用python開啟
import random
抽多少人 = 1000 # 預設一次抽9000人來比民調
總共進行幾次民調 = 10000
台灣人口分布 = {
"20~24": 1345864,
"25~29": 1591927,
"30~34": 1589933,
"35~39": 1672483,
"40~44": 2009683,
"45~49": 1827312,
"50~54": 1770183,
"55~59": 1782312,
"60~64": 1715580,
"65~69": 1489738,
"70~74": 1115706,
# "75~79": 593730,
# "80~84": 468252,
# "85~89": 262833,
# "90~94": 119210,
# "95~99": 31423,
# "100+": 4901,
}
台灣總人口 = 0
for i in 台灣人口分布:
台灣總人口 = 台灣總人口 + 台灣人口分布[i]
誤差絕對值 = {"3%以內": 0, "3%~6%": 0, "6%~9%": 0, "9%~12%": 0, "超過12%": 0}
def 預期每個組別應該有多少人(抽多少人):
result = {}
for i in 台灣人口分布:
result[i] = 抽多少人 * (台灣人口分布[i] / 台灣總人口)
return result
def 抽人口確定是哪個組別():
分組在哪裡 = ""
random_number = random.randint(1, 台灣總人口)
for i in 台灣人口分布:
random_number = random_number - 台灣人口分布[i]
if random_number <= 0:
分組在哪裡 = i
break
return 分組在哪裡
def 開始抽人口(抽幾次):
抽完的人口組別 = {}
for i in range(1, 抽幾次):
開始抽籤 = 抽人口確定是哪個組別()
if 開始抽籤 not in 抽完的人口組別:
抽完的人口組別[開始抽籤] = 1
else:
抽完的人口組別[開始抽籤] = 抽完的人口組別[開始抽籤] + 1
最大誤差值 = 0
for i in 抽完的人口組別:
誤差百分比 = abs(100 * (預期每個組別應該有多少人(抽幾次)[i] - 抽完的人口組別[i]) / 預期每個組別應該有多少人(抽幾次)[i])
# print(誤差百分比)
if 誤差百分比 >= 最大誤差值:
最大誤差值 = 誤差百分比
return 最大誤差值
# print(開始抽人口(9000))
誤差值範圍 = {
"5%以內": 0,
"5~10%以內": 0,
"10~15%以內": 0,
"15~20%以內": 0,
"20~25%以內": 0,
"超過25%": 0,
}
for i in range(1, 總共進行幾次民調):
開始抽人 = 開始抽人口(抽多少人)
if 開始抽人 < 5:
誤差值範圍["5%以內"] = 誤差值範圍["5%以內"] + 1
elif 開始抽人 >= 5 and 開始抽人 < 10:
誤差值範圍["5~10%以內"] = 誤差值範圍["5~10%以內"] + 1
elif 開始抽人 >= 10 and 開始抽人 < 15:
誤差值範圍["10~15%以內"] = 誤差值範圍["10~15%以內"] + 1
elif 開始抽人 >= 15 and 開始抽人 < 20:
誤差值範圍["15~20%以內"] = 誤差值範圍["15~20%以內"] + 1
elif 開始抽人 >= 20 and 開始抽人 < 25:
誤差值範圍["20~25%以內"] = 誤差值範圍["20~25%以內"] + 1
else:
誤差值範圍["超過25%"] = 誤差值範圍["超過25%"] + 1
for i in 誤差值範圍:
print(f"最大誤差範圍{i},共占有{100*誤差值範圍[i]/總共進行幾次民調}%")
: 四腳督市話加權前
: 賴清德 748 35.47%
: 侯友宜 535 25.37%
: 柯文哲 230 10.91%
: 郭台銘 125 5.93%
: 市話單獨加權後
: 賴清德 685 32.49%
: 侯友宜 433 20.52%
: 柯文哲 382 18.12%
: 郭台銘 163 7.74%
: 四腳督手機加權前
: 賴清德 239 26.21%
: 侯友宜 143 15.68%
: 柯文哲 305 33.44%
: 郭台銘 87 9.54%
: 手機單獨加權後
: 賴清德 251 27.52%
: 侯友宜 150 16.46%
: 柯文哲 257 28.21%
: 郭台銘 85 9.27%
: 市話手機合併加權後
: 賴清德 887 29.35%
: 侯友宜 513 16.98%
: 柯文哲 758 25.09%
: 郭台銘 255 8.44%
: 原始資料侯的市話+手機是678、22.44%
: 柯文哲是535、17.71%
: 經過柯學加權後
: 侯友宜變成513、16.98%
: 柯文哲則是758、25.09%
: 有人可以解惑一下
: 為何柯文哲市話加權特別高?(230→382)
: 然後侯從原本的+143變成-245
: 一來一往落差將近400
: 加權的依據是?
--
問題就在市話/手機抽樣的母體和人口
分布不同,所以才需要加權。前提錯了
計算過程就沒有意義了。
你這個有點類似跑賭馬程式 算機率
民調有Paper根據母體跟抽樣子體做比例的
會根據你隨機的抽樣跑第一次民調
然後才根據母體跟子體的差異程度
再做調整
所以之前金小刀PO的那個PAPER
有說比較好的比例是怎樣的
但是那個可能也有國情問題
4
陳智菡強調,純市話也會加權,原始調查資料不可能直接符合台灣年齡分布、性別、戶籍 、教育程度四項結構,所以不管是網路問卷、市內電話、手機電話、手機簡訊,通通都 ?: 要將原始樣本加權調整至符合上述四項結構的比例。 這句話是對的..但盲點在 4天內打了3000份,,包含手機+市話 1.500手機加500市話 可不是直接合併就加權 還要看裏面有多少人只用手機72
我們以黃揚明提供的 求真民調的資料來舉例 四腳督市話加權前 賴清德 748 35.47% 侯友宜 535 25.37%9
現實上 每家民調都有加權 柯P算是第一個大方把加權前後的數字秀出來的 所以酸啥科學民調就算了 除非每家都秀出原始和結果,才能笑柯P這個是科學民ㄊㄧㄠˊ 而且真要真要科學民ㄊㄧㄠˊ17
這邊柯文哲加了8% 這是族群偏差的原因 調查出來的結果會依族群比例回歸母數 用個簡單的舉例方式好了 20~40歲 40~60歲 60歲以上2
就是市話年輕票加權啊, 你要在這種市話越來越少人裝的時代, 找到人接市話,又剛好是年輕人機率很低, 問接到且願意進行民調,自然要加權多一點, 因為這個年輕選民的投票意願肯定也很高。2
美麗島的調查方式如下 樣本代表性與加權:採用「比例估計法」 (raking ratio estimation),本次調查的母 群體參數是依內政部公布2023年9月民眾性別、戶籍、年齡資料,與2022年12月民眾教育 程度等特徵,逐項重複進行連續性修正,使得樣本特徵與母群體結構一致(達統計檢定顯5
推 patiger: 簡單來說,市話抽樣2000筆,手機抽樣100 223.138.72.36 11/09 15:15 → patiger: 0筆,樣本合計3000筆來說 223.138.72.36 11/09 15:15 → patiger: 但是認為這樣不公平 223.138.72.36 11/09 15:15 → patiger: 最後再調整成樣本合計3000筆是沒錯,但 223.138.72.36 11/09 15:15 → patiger: 是市話跟手機樣本數調整成各1500筆3
是說柯文哲當初創立民眾黨,就是秉持"垃圾不分藍綠"。 現在要弄藍白合,還真以為是算算數,藍白相加完,選民都不會有人跑票喔? 再來大家一直把焦點放在總統的民調,要不要比一下民眾黨/國民黨區域立委的民調啊? 如果藍白真的合的了,是藍或白的立委候選人要退,也是要好好喬的啊。 個人認為,柯文哲、侯友宜和朱立倫,就只是戲演給各自支持者看,都是對方在機掰,
爆
[閒聊] 為何光陽機車的油耗的誤差總是比別人多?比較好奇的一件事,為何從以前的雷霆王>KRV>Nice>新名流>大地名流。 光陽的誤差值大概都是8%以上,是計算的問題,還是真的就習慣性的灌水? 大地名流馬力增加,卻犧牲油耗,這樣的出發點是??65
[討論] 樣本2.6萬館長民調跟1千美麗島民調誰可信樣本 2.6萬的館長民調 賴清德輸 樣本 1千的美麗島民調 賴清德贏 統計學有交19
[討論] 綠粉承認阿北民調實質領先有那麼困難嗎?上星期的民調 阿北已經跟賴清德只差1趴了 已經在誤差範圍以內了 這幾個月以來 我們的阿北從第三名 到之前的第二名 到現在已經只差1趴了 總體形勢已經是向上了 更進一步說 那個誤差範圍以內的24
Re: [新聞] 柯文哲拒「藍白合新方案」朱立倫怒了:柯要求比民調,你覺得民調有誤差,所以柯願意把民調誤差值吞了..沒贏超過誤差範圍算你KMT贏 那你朱提出立委提名人投票決勝負也可以啊, 69:11, 你也把不公平的差距吞了 如果沒贏55票就算柯贏, 敢不敢? --22
[討論] 謝龍介:美麗島民調不準影片9分35秒開始 謝龍介: 我去年在選舉的時候,連續做了三次民調 七月的民調是61%比14%22
[問題] Nice 115的油耗數字 自己不尷尬 尷尬的就(連結:) 很想知道Nice 115官宣油耗61.8 KM/L,但是實測49公里左右,誤差值19%。 很想知道市面上有沒有任何一台機車的官宣油耗和實際油耗誤差可以達到接近20%的誤差? 一般考慮到實際使用,誤差值10%好像很合理,但是這個誤差似乎唬爛過頭,光陽都不考慮做 修正嗎?8
[黑特] 柯文哲從來沒說讓3%!!柯文哲是說統計誤差之內 也就是兩者支持率相等的虛無假說無法被拒絕的情況 甚至這個誤差 他也沒說p-value要多少以下 就算是0.05吧 實際的誤差值是多少取決於樣本數 樣本數夠大的話6
Re: [新聞] 男友身高要175!金融業正妹一量「脫鞋少0合理懷疑是YA。 第一, 在飯店要怎麼量身高, 而且居然可以準到0.5公分? 第二,3
Re: [討論] 柯文哲:若全民調在誤差範圍內,我會禮讓獻策~ 既然柯文哲公開發文比民調 「誤差範圍內」他都願意接受當副手 請國民黨趕快安排做民調 但因為時間緊湊,後面還有立委合作要安排
爆
[討論] 自由獨家:洪申翰接任勞動部長33
Re: [黑特] 藍白居然不擋兩岸人民關係條例修法耶17
[討論] 台胞證就是中國公民證件17
Re: [討論] 黃國昌幫謝宜容壓案所以他的公文才會曝光11
[討論] 王義川上位了?好期待X
[討論] 死人還在壓案的黃國昌憑什麼還在當立委23
[討論] 賴系是不是爽死?15
[討論] 請問賴粉多嗎?13
[黑特] 林北好油搞爆自己的原因是啥?21
[討論] 洪申翰當部長也能吹嗎?11
[討論] 陳世凱交通部長 vs. 洪申翰勞動部長52
[討論] 許銘春的高雄市長不用想了49
[討論] 洪申翰是史上第一位高中學位的部長嗎?9
Re: [討論] 洪申翰是史上第一位高中學位的部長8
[討論] 壓案九個月也能接勞動部長唷?18
[討論] 狂賀!王義川補上立委啦!22
[討論] 黃國昌大學被王義川弄哭過?6
[討論] 館長:我應該當總統5
[黑特] 幹麼不找賴香伶掌勞務部門?4X
[討論] 黃國昌幫謝宜容壓案所以他的公文才會曝光18
[黑特] 潘傑楷要被藍白糞出征了2
[討論] 綠畜還是會含淚投許銘春8
[討論] 爽!!美國準備要取消中國貿易最惠國待遇了4
[討論] 抹人吃案9天 再用吃案9個月的當部長16
[黑特] 洪申翰還沒當部長就先幫宜容太后吃案6
[討論] 王義川:目前沒人通知我8
[討論] 民進黨真的讓我大開眼界…25
[討論] 民進黨的內鬥爆炸了4
[討論] 賴清德真的用人也太誇張了吧5
[討論] 死人都在壓案的黃國昌都能當立委了