蜘蛛策略的分析

网络蜘蛛的搜索策略指的是如何根据抓取下来的URL地址来选择访问网上赚钱最快的方法地址先后的一种标准或规则。它将指导蜘蛛程序下一步的执行方向。搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。

广度优先的搜索是最简便的图搜索算法,在数据结构上什么是SMO?通常会以先进先出的队列结构为主,管理和实现起来都相当的简单,一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的搜索策略。它会先读取一个文档,保存下文档上的所有链接,然后读取所有这些链接文档,并依次进行下去。这样做的好处是避免了在极短的时间内连续访问这台服务器上的文档的可能性,因为一个文档上的链接通常会有几个跳到别的服务器上,这样做十分有利于避免影响别的服务器工作。这种方法也通常被应用于聚焦爬虫中。其基本思想是认为与初始uRL在一定链接距离内的网页具有主题相关性的概率很大。同时它还可以使尽可能多的服务器有文档被索引服务器收集。它的缺点是很难深入到文档里面,而且随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率变得十分的低下。

深度优先的搜索策略是以先进后出的栈方式来处理URL地址的。网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,然后如此继续下去。它的优点就是能够较好的深入和发掘站点的结构,而且这种算法十分稳定,效率方面也是有所保障的。它对于搜索部分小的网站是有好处的。它的缺点是十分明显的,不断的短时间的访问同一台服务器的问题将非常的严重,而且它还容易陷入无限循环的文档树,这种算法处理这个问题的能力相当的有限。

将两种算法结合起来也是一种不错的办法,这两种算法互有长短,有些地方也可以形成互补。以一种算法为主,一种算法相辅的办法可以达到取长补短的效果。除了以上的算法之外,最好优先算法也经常被采用,它通过对采集的链接通过一些关于网页质量和效率的算法来排序,优秀者将优先被抓取。但是这个关于质量和效率的算法则又有许多不同的版本,在这里就不作详细的展开了网络兼职赚钱。除去这些常用的算法,还有一些不常被人采用的优秀算法,如Hash算法,遗传算法等。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。