蜘蛛爬虫具体抓取网页的流程是什么

  • A+
所属分类:SEO技术知识

网站只有被蜘蛛抓取才有可能会建立索引及快照,搜索引擎每天会有很多的蜘蛛抓取程序,不分昼夜的去抓取庞大的网站信息。一些大型的网站可能会不怎么关注抓取时间,毕竟它有大量的外链来路,固定的流量引入,这些都可以带入蜘蛛抓取网站内容,而往往,就是一些新站,需要通过分析网站日志知道蜘蛛什么时候抓取过网站(具体怎样查看网站的日志请参考阅读《怎样查看分析网站日志》),然后在蜘蛛抓取的时间点更新站内,以便第一时间被蜘蛛抓取。

 

为了让网站更好的被蜘蛛抓取,想要把我们重点内容放在比较重要的位置,那我们就需要搜索引擎蜘蛛具体抓取网页的流程,这样我们才可以做到有的放矢。与定点定时迎合蜘蛛抓取时间殊途同归。

 

那么我们仔细分析一下蜘蛛抓取的这个流程是怎样的,我们以Y7网络为例。

 

1、

当蜘蛛来爬行网站页面,从站长机器人模拟抓取访问中可以看到,蜘蛛抓取的第一部分内容就是我们的网站标题,描述及关键词,这也就是为什么我们在网站中不要轻易改动网站TDK的重要原因。

 

【知识分享】频繁改动网站标题和关键词有什么影响

 

2、

当访问TDK之后,接着就是蜘蛛抓取的网站主导航信息,包括主导航中设置的关键词,因此,我们在建站过程中一定要注意网站导航对网站的影响

 

3、

抓取完首页主导航之后,根据模拟机器人的抓取路径,接下来就是右侧的搜索栏,而且包括搜索功能下包括的隐藏导航。在访问这个导航导航之后,接下去就是面包屑导航。

 

这样一个来回之后,我们发现,蜘蛛抓取的基本路径是从上到下,从左到右,然后顺着再往左进行S型抓取。那这个推论是不是正确的呢?我们继续看一个轮回就知道。

 

4、

接下去正常的访问就是我们的列表分类栏目,再到右侧,但是,出现了一个顺序的变化,那就是在网站右侧的组合标签文章内容是在网站底部之后才被抓取,而这个主要是因为这些内容是通过JS调用,如下图:

蜘蛛爬虫具体抓取网页的流程是什么

蜘蛛爬虫具体抓取网页的流程是什么

 

所以,我们可以大胆判断,蜘蛛在抓取过程中,它的主要顺序就是从上到下,从左到右,但是是包括JS被调用的,如果有JS调用程序,那么也是在最后展示。

 

【延伸拓展】搜索引擎蜘蛛是怎样完成抓取收录的

 

 

  • Y7网络QQ群
  • 482772634
  • weinxin
  • Y7微信公众号
  • 我的微信公众号扫一扫
  • weinxin
admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: