PTT推薦

[請益] 如何將網頁的數據自動轉成csv?

看板Soft_Job標題[請益] 如何將網頁的數據自動轉成csv?作者
peter308
(pete)
時間推噓 9 推:9 噓:0 →:13

hi 各位好

我覺得這個問題應該難不倒大家

但我發現我不太知道怎麼下手

我目前在統計中國cov感染的數據

比方說安徽省的官方統計數據可在這邊找到

http://wjw.ah.gov.cn/news_details_54250.html

這是1月30日的

我有把從1/22-今天的html都下載到一個資料夾下

共40幾個html檔案

我希望能寫個script將 不同日期的新增確診病例

自動產生csv 報表

類似這樣

一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜陽 zz
六安 aa
銅陵 bb
池州
黃山
..
.
.

我是想過用linux bash 去寫一個script 不過有點卡住

或是用panda應該也可以

能否請各位指點一些方向呢??

感謝!!







--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 155.69.170.63 (新加坡)
PTT 網址
※ 編輯: peter308 (155.69.170.63 新加坡), 03/05/2020 13:11:04 ※ 編輯: peter308 (155.69.170.63 新加坡), 03/05/2020 13:12:24

jhnny9703/05 13:12估狗 generate csv file in <你熟悉的程式語言>

enthos03/05 13:19https://www.udemy.com/course/codegym-python/ +openpyxl

swallowcc03/05 13:23用爬蟲 parse dom呢?

kyoe03/05 13:23read file然後分析然後save csv

swallowcc03/05 13:25啊原來是這個樣子的資料, 那就抓字串分析了

vi00024603/05 13:29資料來源只有新聞嗎? 這樣只能手動整理了

neo527703/05 13:34selenium

q9003603/05 14:15使用這些數據之前應該要先問這些中國給出的數字可信度有多

q9003603/05 14:15少 ...

rodion03/05 14:37不是很建議這種超級不具格式的資料.. 先不論正確與否啦...

rodion03/05 14:40真要做,可能也等所以資料都塵埃落定不再變動 才開始寫對應

rodion03/05 14:40的parser...

domototice03/05 17:32用Excel阿 貼到excel 在存檔 存成CSV

newsbielt70303/05 17:39PapaParse

domototice03/05 19:28蒙恬 掃描筆???orz

superpandal03/05 22:00你可以用C寫 這樣應該會更快一點 咚

gasbomb03/06 11:49這個連表格都沒有 很難用程式處理吧

gary7595203/06 14:29這個怎麼做都可以吧就字串處理mapping在塞到csv裡.

gary7595203/06 14:29 例如regex 擷取,前後的四個數字。 ex:(合肥50例

gary7595203/06 14:29),(豪洲20例) 之類的

mathrew03/06 15:29沒有特定格式就抓關鍵字

peter30803/07 11:43感謝各位提供的資訊。