搜索索引处理大量网页。一,为了节省带宽、计算和存储资源,和一为了满足用户的搜索需求,有限的资源用于捕获最有价值的网页,因此搜索索引在处理大量网页时将具有一策略。简要介绍了网络的主要爬行策略,如广度优先、深度遍历策略、非重复爬行策略、大站点优先策略、不完全页面排序策略、OCIP策略和协作爬行策略。
深度优先,深度优先遍历策略;广度优先的原因是重要的网页往往接近种子网站;万维网的深度没有我们预期的那么深,但是出乎意料的深(中国的万维网只有17个直径和长度,也就是说,它可以在任意两个网页之间被访问17次);多轨道协调抓取深度优先的不利结果:轨道容易陷入死区,不应重复抓取;不应抓住机会;
解决上述两个缺点的方法是深度优先抓取和非重复抓取策略。为了防止轨道无限期地优先于宽度抓取,它必须位于一设定的深度抓取。达到这个深度后,即万维网的直径和长度,限制程度和停止抓取。当爬行停止在最大深度时,页面太深而不能爬行的种子总是期望从其他种子站点更经济地到达。
限制抓取深度将破坏死循环的条件,即使循环发生,也将在有限次数后停止。评估:广度优先和深度优先遍历策略可以有效保证爬行过程的紧密性,即在爬行过程(遍历路径)中,同一一域名下的网页总是被爬行,而其他域名下的网页很少被爬行。
无重复抓取政策确保一几乎不变的网页只能使用抓取一次,防止重复抓取占用大量中央处理器和带宽资源,从而将有限的资源区域集中到抓取更重要和更高质量的网页。Larser网站优先考虑大网站高质量内容,以及网页质量一。从网站的角度来看,有一的基础。对于要爬网的URL队列中的页面,下载优先级由等待下载的页面数量决定。
下载URL队列中页面(不完整互联网子集页面)和URL 一的部分pagerank策略(部分pagerank),并在集合中计算page rank;计算后,要爬网的URL队列中的页面根据pagerank分数从高到低排序,形成一东南。这是履带拼接。URL列表应该一个接一个地向下爬行。由于pagerank是一全局算法,即当全部页面被下载时,计算结果是可靠的,但是爬虫只能接触页面的一部分,因此在爬行期间不能执行可靠的pagerank计算,因此被称为不完全pagerank策略。
OCIP策略(在线页面重要性计算)字面意思是“在线页面重要性计算”,这是一一种改进的pagerank算法。在算法开始之前,每个互联网页面被分配相同的值。当下载一 p 页面p时,p将其自身的值平均分配给页面中包含的链接并同时清除其自身的值。对于要爬网的URL队列中的页面,根据现有值的大小,优先下载值较大的页面。