㈠ 如何“爬数据”
简单笼统的说,爬数据搞定以下几个部分,就可以小打小闹一下了。
一、指定URL的模式,比如知乎问题的URL为http://hu.com/question/xxxx,然后抓取html的内容就可以了。用的工具,如果你正则很好,可以用正则,觉得正则费脑子的,可以用html解析DOM节点来处理内容。如果你抓取的内容有其固有特点,如新闻内容,可以用正文抓取算法,其实就是找html中最长的几行字符串。
二、用javascript动态生成内容的抓取,不建议使用headless,效率比较低下,建议使用一些开源的库去直接执行js代码,获得你想要的结果。
了解页面里的程序逻辑是很重要的,知道动态内容是怎么生成的,使用一定的方法,一样会像拿html一样,很容易的拿到你想要的结果。动态生成要么是本地执行计算,要么是从服务器另发起请求获得一定的结果,显示或再进行本地计算。对前者,你要找到他本地执行的那段代码,原样拿过来,在javascript环境执行一遍拿到结果。对后者,找到那个请求,获得对应的结果,一般这个结果也会是javascript代码或者json格式的字符串,重新解析即可。
三、登录,有很多数据你是需要登录后才能查看的。如果对方使用https,基本就无解了。好在很多国内标榜全站使用https的网站都是伪https,抓包一样全都可以抓到,比较复杂的会将用户名或密码进行二次加密,并且和时间相关,直接提交用户名密码是无效的,必须同时提交以当前时间为参数进行二次加密后的结果,还是那句话,了解页面里的程序逻辑是很重要的。
四、验证码,你抓取过多过快时,网站一般会要求你输入验证码证明你不是程序,是人工在操作,似乎国内有帮你输入验证码的云服务,来搞定这部分,或者用程序解析验证码,但错误率太高。还有一种比较无赖的方法就是使用多条ADSL或VPN,来回切换IP,不断换IP进行抓取,把单IP抓取速度控制在网站允许的范围内,另外什么换header头里的agent啥的比较简单,就不多说了。
五、内容图片化,一些敏感信息,如商城里的价格,分类网站里的用户手机号,会被网站直接用图片的方式进行显示。这里你使用云服务成本太高,使用程序解析图片,如果出错,这条信息基本就没用了,切换IP也一样是图片,所以基本也是无解的。
六、补充,爬虫还有很多细节和针对性的处理方法,出于学习的目的,要多思考,比如移动互联网这么火热,很多网站,有点实力的都会出移动客户端,在移动客户端内,他还是使用图片显示吗?现在html5出来了,很多移动客户端都是html+js进行再封装处理的。
㈡ POI是什么如何使用
POI
中国POI(Point of Interest)数据库
什么是POI?
POI是“Point of Interest”的缩写,可以翻译成“兴趣点”吧,每个POI包含四方面信息,名称、类别、经度、纬度。
这个计划的远景目标是建立全国的POI数据库,并且全部开放。
目前POI数据库计划已经发布有北京市区POI数据16000条,全国村镇POI数据8万余条。全国其它地区的POI数据正在搜集整理中,同时还有一个全国公路收费站POI数据的计划也在进行。
一、道路收费站标注计划
1 估计总数据量:目前全国总共有2000多个路桥收费站,其中广东有418个,居全国之首。点这里看详情...
2 估计完成时间:2004年6月30日。
3 适用机型:根据我们目前掌握的技术,这些数据可以作为地图的一部分用于任何能加载自制地图的GPS上,比如GARMIN、MAGELLAN的手持GPS。对没有地图功能或者自己无法上载地图的GPS,可以作为航点(WAYPOINT)上传,GPS手持机一般都有至少500航点的存储能力,足以应付日常用途。
4 数据提供模式:
融合到拼音版地图中。有GARMIN、MAGELLAN两种格式。
OZI航点文件格式。每个省的收费站作为一个单独的WAYPOINT文件,可以分别上传到GPS上。
MAPINFO交换文件格式,也以省为单位划分成独立的文件,方便用于其它场合。
5 数据更新周期:每周更新一次。
6 项目起因:
平常行车,最花钱的部分就是道路通行费,甚至高达油钱的3倍。不仅高速公路收费,就连国道省道县道也收费,收费标准甚至高于高速公路。“贷款修路,收费还贷”成了想方设法收费的“理由”。违规设立道路收费站、出让道路收费权、延长道路收费期限等现象在全国屡见不鲜。道路高收费也是超载现象产生的根源之一。我们个人无法改变这种现状,走不起只能绕过去。要避开这些国道收费点,在GPS普及之前是个相当困难的问题,因为那些地方我们可能一辈子也就去那么一两次,看到收费站的时候,就算想绕道,恐怕都不知道该走哪条路绕。而对当地人来说,凡是有收费站的地方,一定就有小路绕行。有个朋友说,“国道进天津收费20,我提前左转弯,多开3公里,就躲过去了,至今最少已经节约了几百块”。集合大家的力量,把全国范围的道路收费站确切位置标注出来,善莫大焉。当然,最好能同时提供绕行路线,并标注绕行的代价,比如多绕的距离、路面质量以及需要注意的地方。
7 参与方式:
这个项目的特点决定了这是一个需要全国GPS爱好者共同参与才能作好的项目,对每一个参与者来说,不用花费多少时间,只要在路过收费站的时候,在GPS上打个点(WAYPOINT),然后将这个点的坐标、所在道路、收费站名称、收费起止时间、收费标准等信息发EMAIL给俺,当然如果有GPS轨迹形式或者ROUTE形式的绕行路线就更理想了。俺的邮箱在网站首页,来信的时候请在标题中带上“POI”三个字母。
希望对这个项目有兴趣的朋友将这个项目推荐给别的GPS爱好者,大家共同努力,尽快完成这个项目。
二、全国POI数据
目前正在整理、搜集、制作更多的POI数据,将会陆续发布。对此事有兴趣的朋友请根据首页联系方法随时与兄弟联系。
1. 北京市区POI数据库
这个数据库包含了北京城区的16000多个POI数据,POI名称有汉字和拼音两种版本,这些POI数据可以传输到GPS中,前提条件是GPS支持POI或者地图。支持POI的手持GPS有Magellan GPS315/320系列,比如GPS315可以储存18220个POI数据(仅限英文版。兄弟测试过中文版315,无法上传POI数据)。常见的支持上传地图的手持GPS有Garmin eTrex系列的Legend和Vista,Magellan的Meridian系列和Sportrak系列。对地图机来说,POI数据可以作为地图,因此只要地图机的内存允许,就可以添加任意数量的POI。