导航:首页 > 软件知识 > 哪个是百度抓取程序的名称

哪个是百度抓取程序的名称

发布时间:2023-08-03 22:01:22

❶ 百度是用什么技术搜索的

网络有一个蜘蛛程序,也叫网络蜘蛛
什么是网络蜘蛛
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
蜘蛛工作原理
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。 搜索引擎抓取策略
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

阅读全文

与哪个是百度抓取程序的名称相关的资料

热点内容
有什么可以增强数据流量 浏览:338
陕西哪里有古币交易市场 浏览:294
淘宝如何删除评价后的信息 浏览:283
如何评估自动驾驶技术 浏览:754
景区要身份证哪些信息 浏览:757
京东小程序怎么看直播 浏览:585
如何打开流量数据 浏览:40
单片机cpu怎么烧程序 浏览:908
底妆产品有哪些bb 浏览:25
信息大厦在福田站哪个出口 浏览:429
文件如何改回未知程序 浏览:532
网上的交易安全性怎么样 浏览:954
疫情信息送达平均只需要多少小时 浏览:874
程序员学什么专业好就业 浏览:978
卖稻谷在哪里交易 浏览:680
版权代理包括哪些 浏览:192
市场上如何区分布偶猫的价格 浏览:281
ebank是什么交易 浏览:704
怎么找市场经理 浏览:82
小学信息学奥赛有什么用 浏览:941