蜘蛛爬虫具体抓取网页的流程是什么

发表评论

A+

网站只有被蜘蛛抓取才有可能会建立索引及快照，搜索引擎每天会有很多的蜘蛛抓取程序，不分昼夜的去抓取庞大的网站信息。一些大型的网站可能会不怎么关注抓取时间，毕竟它有大量的外链来路，固定的流量引入，这些都可以带入蜘蛛抓取网站内容，而往往，就是一些新站，需要通过分析网站日志知道蜘蛛什么时候抓取过网站（具体怎样查看网站的日志请参考阅读《怎样查看分析网站日志》），然后在蜘蛛抓取的时间点更新站内，以便第一时间被蜘蛛抓取。

为了让网站更好的被蜘蛛抓取，想要把我们重点内容放在比较重要的位置，那我们就需要搜索引擎蜘蛛具体抓取网页的流程，这样我们才可以做到有的放矢。与定点定时迎合蜘蛛抓取时间殊途同归。

那么我们仔细分析一下蜘蛛抓取的这个流程是怎样的，我们以Y7网络为例。

1、

当蜘蛛来爬行网站页面，从站长机器人模拟抓取访问中可以看到，蜘蛛抓取的第一部分内容就是我们的网站标题，描述及关键词，这也就是为什么我们在网站中不要轻易改动网站TDK的重要原因。

【知识分享】频繁改动网站标题和关键词有什么影响

2、

当访问TDK之后，接着就是蜘蛛抓取的网站主导航信息，包括主导航中设置的关键词，因此，我们在建站过程中一定要注意网站导航对网站的影响。

3、

抓取完首页主导航之后，根据模拟机器人的抓取路径，接下来就是右侧的搜索栏，而且包括搜索功能下包括的隐藏导航。在访问这个导航导航之后，接下去就是面包屑导航。

这样一个来回之后，我们发现，蜘蛛抓取的基本路径是从上到下，从左到右，然后顺着再往左进行S型抓取。那这个推论是不是正确的呢？我们继续看一个轮回就知道。

4、

接下去正常的访问就是我们的列表分类栏目，再到右侧，但是，出现了一个顺序的变化，那就是在网站右侧的组合标签文章内容是在网站底部之后才被抓取，而这个主要是因为这些内容是通过JS调用，如下图：