1. 如果爬取一个小说网站以后,如何做到更新内容的爬取并且存储
有一个标记库,记录的目标小说网站目标小说的最新文章id,一般url最后一段数字或者页面的html里面包含。
定时去读取这个最新文章页面,如果当前这个页面是最新的文章,没有更新,那么网页上的下一章那个连接是#(也就是页面本身),有的是跳转到本小说的章节目录,根据情况判断,如果小说更新了,下一章的按钮连接就变话了,根据下一章的id去读取,并更新数据库的标记