1. 如果爬取一個小說網站以後,如何做到更新內容的爬取並且存儲
有一個標記庫,記錄的目標小說網站目標小說的最新文章id,一般url最後一段數字或者頁面的html裡麵包含。
定時去讀取這個最新文章頁面,如果當前這個頁面是最新的文章,沒有更新,那麼網頁上的下一章那個連接是#(也就是頁面本身),有的是跳轉到本小說的章節目錄,根據情況判斷,如果小說更新了,下一章的按鈕連接就變話了,根據下一章的id去讀取,並更新資料庫的標記