Re: [請益] 大家爬蟲都爬什麼好玩?
不好意思,想藉這個標題問一下
如果爬商業網站的話
寫通知信或是告知信需要給哪個部門?
還是寫給客服信箱才可以?
不然到時候我怕實驗爬蟲程式
搞到最後被反制或是列為黑名單ip就糟糕了
謝謝!
--
幹嘛寫 難道人家會為了你去申請這個 ip 列白名單嗎
寫什麼,太閒
告知後直接進黑名單
小夫我要進來了
怕的話也可以買 IP
你可以反制他的反制啊 寫爬蟲就是這樣 見不得光
XD 金勾追
XD 怪盜基德嗎 我晚上9點要進來囉
推三樓
可能就看一下robots.txt吧?
定時間換ip就可以解決這個問題了
先爬500個代理ip之後隨便你玩
爬蟲的樂趣不就是攻防嗎
現在還能看到請謝謝對不起的有禮鄉民真的少見
寫了你直接被吉
怪盜基德www
我通常request前都sleep一下,不要造成人家主機負擔
,當個友善的網路公民
從此在暗網的角落,流傳著現代怪盜基德的傳說……
不會在黑名單太久,防火牆記憶體有限
不要同時平行跑太多工作,對方都沒什麼感覺
最暴力的爬蟲是 Google Bot,你很難像他那麼兇狠
把爬的速度放慢到跟user差不多然後放著做別的事
你直接請他給你database 帳密比較快
發個request 睡個五秒,然後你去睡一覺
fb的我覺得也很兇...
太溫良恭儉讓了吧
寫個random sleep阿,防止ban ip也有很多方法吧
大哥你也太可愛了吧XD
目前爬蟲遇到無法克服的障礙就是captcha, 有人知道
有什麼工具嗎?
回樓上 OCR
captcha是大坑喔 要學openCV ML 看圖片難易度
V3現在不用了不是?
現在不都是滑塊?還有驗證碼喔
ocr無用,我試過很多 ocr 方案,他們都只能對印刷字
體有辨識力,手寫字和扭曲的captcha無法辨識
看過有人寫程式產生資料集然後訓練一個 ocr model 來解決
自幹的OCR應該也很難堪用吧
笑死 你有聽過小偷偷東西前還先告知屋主我要偷了哦?
被黑單掛個vpn再戰
captcha隨便套個cnn model就可以了
怪盜基德超好笑哈哈哈哈
有禮貌爬蟲
你應該有長鬍子
推有禮貌蟲蟲
爬ptt股版即時資訊,並透過line來通知
51
[閒聊] EVGA官網爬蟲程式下載連結: 使用方法: 安裝 Node.js () 開啟cmd後cd到專案內12
[問卦] 程式的問題要去哪裡問?最近在練習寫爬蟲 想抓一下youtube的原始影片 F12打開找半天找不到 是不是現在很多網站都防爬,加密做很多啊? 還是超簡單只是我太廢QQ?11
[其他] 特別股與IPO新股資訊爬蟲(python)最近想說把之前寫的程式整理一下分享給有需要的人 所以1~2天 po一篇 覺得很煩的可以留言告訴我XD --- 完整範例與code: 這邊指的是美股的特別股跟IPO (台股的請 a 我上一篇文章,從公開觀測站爬)9
[閒聊] 不收斡馬上加價100萬我有爬蟲程式毎天在爬591及各大房仲網的價格 1月時591開價1198 2月的某天被改1228 這時候去看第一次房 但當時候下雨 今天才去再看一次 下午回到家電話跟房仲說出1000下斡5
[問卦] 剛學一點程式語言 怎麼準備去微軟面試安安 Python 基本都Ok leetcode 有解一題Easy 下一題連錯兩次不解了 現在學到爬蟲 去面試作品3
[請益] 國內外公開書籍資料的網站?因為最近有大量的ISBN書籍資料網站需要查詢(就是書名,圖片,價錢) 加上自己也有做過相關的爬蟲資料 但是爬一些商業網站,像是ebay 或是 Amazon 博客來.... 都已經做到高度的防護,我的爬蟲技術也已經無法跟上 想問一下各位大大,因為我只是想查詢書籍的資料2
[問卦] 最有價值爬的東西是甚麼&能爬暗網嗎?小弟最近想找工作 想蒐集104的網站 的一些特定職位 但我有個傾向就是決定事情想先盡量看全部的狀況 一個個看感覺有點不科學 覺得爬蟲這東西應該可以有幫助所以在學 但是目前連scrapy crawl xx(spider)都還沒抓成功1
Re: [問卦] 程式的問題要去哪裡問?1. 如果是抓不到Dom 真的是單純太菜,你可能要再回去讀一下html。 2. 基本上你瀏覽器做的到的事爬蟲都能做得到,網頁就是這麼不安全的平台,當然真的 有很多網站會讓你很難爬(但一定還是能爬)但八成的網站都沒有投入太多的資源在這方 面。 : 還是超簡單只是我太廢QQ?