导航:首页 > 软件知识 > 哪个是百度抓取程序的名称

哪个是百度抓取程序的名称

发布时间:2023-08-03 22:01:22

❶ 百度是用什么技术搜索的

网络有一个蜘蛛程序,也叫网络蜘蛛
什么是网络蜘蛛
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
蜘蛛工作原理
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。 搜索引擎抓取策略
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

阅读全文

与哪个是百度抓取程序的名称相关的资料

热点内容
程序员为什么被称为新生代农民工 浏览:236
股市中什么是前台未知交易所 浏览:871
苹果互传数据在哪里设置 浏览:522
手绘视频挂什么小程序 浏览:806
如何去济宁职业技术学院 浏览:981
手机怎么看数据 浏览:383
怎么做建筑物的数据集 浏览:27
神武2怎么交易宠物 浏览:400
山东毛尖代理要什么条件 浏览:766
同一列怎么删除重复数据 浏览:11
近10年航天成功技术有哪些 浏览:580
工业革命和世界市场有什么关系 浏览:232
潜江江汉艺术技术学校怎么样 浏览:26
工业经济技术学院的专业有哪些 浏览:285
小程序后台管理员主要做什么 浏览:792
淘金农场种出的果实怎么进行交易 浏览:479
交易银行查询密码是什么 浏览:107
邮票在哪里交易平台 浏览:756
走司法的程序是什么 浏览:435
产品经理如何破瓶颈 浏览:508