导航:首页 > 软件知识 > 哪个是百度抓取程序的名称

哪个是百度抓取程序的名称

发布时间:2023-08-03 22:01:22

❶ 百度是用什么技术搜索的

网络有一个蜘蛛程序,也叫网络蜘蛛
什么是网络蜘蛛
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
蜘蛛工作原理
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。 搜索引擎抓取策略
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

阅读全文

与哪个是百度抓取程序的名称相关的资料

热点内容
怎么代理多喜爱家纺产品 浏览:600
哪个公司pos机有代理功能 浏览:13
华为全球推广片传出的信息是什么 浏览:16
信息软件删除了怎么恢复苹果 浏览:740
保险代理压金怎么退 浏览:431
葆婴补钙产品怎么样 浏览:353
任丘二踢脚市场怎么样 浏览:366
房地产发布信息平台有哪些 浏览:649
固态储氢技术的原理是什么 浏览:786
小程序开发哪里有聚顶科技行 浏览:753
上海橱柜市场在哪里 浏览:290
暗黑2单机和战网哪个能装备交易 浏览:956
大数据更新后怎么样 浏览:592
怎么根据交易去查对应的日志 浏览:476
产品经理培训有哪些模型 浏览:546
海康北京总代理有哪些 浏览:115
哪个交易所有比特币模拟盘 浏览:290
企业财务代理记账费用多少 浏览:270
如何具备自己的交易系统 浏览:514
瓦特交易所怎么设置昵称 浏览:821