胖子SEO教程:搜索引擎蜘蛛工作原理
时间:2017-04-17 16:46:07
作者:重庆seo小潘
来源:互联网
从事 SEO (搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须了解所服务对象的习性、爱好、健康程度等。 sEO 月及务的对象就是搜索弓 l 擎,必须对它的运行规律、工作原理、习性、优缺点等都要铭记在心,多多实践操作,平时
从事 SEO (搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须了解所服务对象的习性、爱好、健康程度等。
sEO 月及务的对象就是搜索弓 l 擎,必须对它的运行规律、工作原理、习性、优缺点等都要铭记在心,多多实践操作,平时实践的越多,经验也就越丰富。
搜索引擎是由人创造出来的,所以也是有理可寻的。搜索弓 l 擎工作过程有主要有三段工作流程,爬行抓取、预处理及服务输出。
爬行抓取
爬行抓取是搜素引擎工作最重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出了错,后面完全就瘫痪了。
回想一下每当我们用搜索引擎输入关键词后,会出现许许多多所查询的关键词信息,这个过程是以秒来计算的。
这时我们可以想一想,搜索引擎是在 l 秒钟之内把所查询的关键词从广大的互联网中逐一抓取一遍,还是事先已经处理好了这部分数据呢。
平时我们上网的时候随便打开一个网页的时间也是在 1 秒钟之内,这仅仅是打开一个网页的时间,所以搜素引擎在以秒计算的情况下是不可能把互联网上的信息都查询一遍,这不仅耗时也耗钱。因此现在的搜素引擎是事先已经处理好了所抓取的网页。
搜集工作也是要按照一定的规律来进行的,基本上有如下两种特征。批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右。缺点在于增加了额外的带宽消耗,时效性也不高。
增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。还有一种比较简单的方法让搜素弓}擎来爬行,自己主动向搜索弓}擎提交网站,等到一定的时间就会来爬取。不过现在主动提交后再来爬行的速度越来越慢了,最理想的办法还是顺着自然链接来收集比较好。这就需要我们在前期做好蜘蛛爬行的入口,一定要找一个和网站自身相关的入口。下面将详细介绍搜索引擎蜘蛛的情况。
1 .各搜索引擎蜘蛛介绍
搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立素引数据库,使用户能在搜素引擎中搜素到您网站的网页、图片、视频等内容。
一般用法为“ sPider + uRL " ,后面的 uRL (网址)是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该 URL ,同时还能查看来的时间、频率等 … …
1、 百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取 robots 协议的方法来调节。百度蜘蛛的用法如下: Baiduspider + ( + h 仰: / /、叭价 v . baidu . com / search / spider . htm )
2、 谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔 28 天左右就派出“蜘蛛”检素有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。其用法如下:人 Iozilla / 5 . 0 ( compatible ; Googlebot / 2 . 1 ; + ht 印: / /、叭 nv . googie . com / bot . htlnl )
3、 雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜素结果质量不高,其用法如下:入 Iozilla / 5 . 0 ( compatible ; Yahoo ! SLurp China ; httP : / / nlisc . yahoo . com . cn / he 珍. ht 而)
4、 雅虎英文蜘蛛:雅虎英文蜘蛛的用法与中文蜘蛛不同,其用法如下:人 Iozilla / 5 . 0 ( compatible ; Yahoo ! SLurp / 3 . 0 ; httP : / / he 珍. yah 。。. com / he 珍/ us / ysearch / sfu 印)
5、 微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多,其用法如下: msnbot 八. 1 (十 ht 印: / / search . msn . com / msnbot . htm )
6、 搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。搜狗蜘蛛最大的特点是不抓取 robot . tex 坟件,其用法如下: Sogou +、 veb + robot + ( + h 饰: / /、叭 nv . sogou . com / docs / helP /、 vebmasters . htm # 07
7、 搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。 2 011 年搜搜已经宣布采用自己的独立搜素技木,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方,其用法如下: Sosospider + ( + ht 印: / / helP . soso . com 八、 ebspider . htm )
8、 有道蜘蛛:和其他搜素引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行,其用法如下:入 Iozilla / 5 . 0 ( compatible ; YodaoBot / 1 . 0 ; h 仰: / /、 n 价 v . yodao . com / helP /、 vebmaster / spider / ; ) 2 .链接布局蜘蛛主要通过爬取页面上的链接来发现新的页面,以此类推不停地十字交叉爬行下去便形成一张蜘蛛网。爬行主要按两种策略来执行:一是深度优先爬行,二是广度优先爬行。深度优先爬行:蜘蛛从 A 网页顺序到 Al 、 AZ 、 A3 、闷,爬行到匆页面之后发现役有页面了,于是又重新返回到了 A 页面,以此类推爬行到 Bl 、 BZ 、 B3 、 B4 页面。深度爬行的主要特点是蜘蛛会一直沿着一条线抓取下去,直到最后,然后再返回到另一条线。
推荐阅读重庆网站建设相关知识。