搜索引擎抓取你的网站,把内容放在它的索引中。你的网站越大,抓取的时间就越长。抓取你的网站的时间是非常重要的。如果你的网站有1000页或更少,这不是你需要考虑的话题。如果你打算开发你的网站,在这篇文章中,我们将介绍爬行效率和你可以采取的措施。所有搜索引擎的抓取方式都是一样的。
1.爬虫如何抓取你的网站?
百度会在网络的某个地方找到你网站的链接。
此时,url是虚拟堆的开始。之后的过程很简单:百度蜘蛛从那堆里拿一页;它抓取页面,索引所有内容,供百度使用;然后它将页面上的所有链接添加到堆中。在爬行过程中,百度蜘蛛可能会遇到重定向。它被重定向到的url在堆上。
你的主要目标是保证百度蜘蛛可以访问网站上的所有页面。第二个目标是确保快速捕获新内容和更新内容。一个好的网站架构会帮助你实现这个目标。尽管如此,你仍然可以很好地维护你的网站。
二、爬行深度
谈到爬行,一个重要的概念就是爬行深度的概念。假设你有一个链接,从你网站上的一个网站到一个网页。此页面链接到另一个、另一个、另一个等。百度蜘蛛还会继续爬行一段时间。但到了某个时候,它会决定不再需要继续爬行。当这种情况发生时,它取决于链接到第一页的重要性。
这似乎是理论上的,我们来看一个实际的例子。如果你有一万篇文章,那么所有的文章都属于同一个类别,每页显示10篇文章。这些页面仅链接到“下一页”和“上一页”。百度需要抓取1000个页面才能获得这10000个帖子中的第一个。在大多数网站上,是不会这样的。
这就是为什么使用类别/标签和其他分类法来获得更精细的粒度很重要。不要过度使用它们。根据经验,标签只有在连接三个以上的内容时才有用。另外,一定要优化这些类别的文件。
用数字链接到更深的页面,让百度蜘蛛更快到达目的地。假设您将第1页链接到第10页,并继续这样做。在上面的例子中,最深的页面离主页只有100次点击。
保持网站快速。你的网站越慢,抓取的时间就越长。
第三,xml站点地图和爬行效率
您的站点应该有一个或多个xml站点地图。这些xml站点地图告诉百度你的网站上有哪些网址。一个好的xml站点地图还会显示你最后一次更新特定网址的时间。大多数搜索引擎比其他搜索引擎更频繁地抓取xml站点地图中的url。
在百度搜索控制台中,xml站点地图为你提供了额外的好处。百度会给你显示每个站点地图的错误和警告。您可以通过为不同类型的url创建不同的xml站点地图来实现这一点。这意味着你可以看到网站上哪些类型的网址问题最多。
第四,爬行效率低的问题
1.许多404和其他错误
百度抓取你的网站会遇到错误。它通常只是从堆中挑选下一页。百度蜘蛛在抓取过程中如果网站出现很多错误会变慢。这是因为它害怕爬得太快会出错。为了防止百度蜘蛛变慢,你需要修复尽可能多的错误。
百度会在其网站管理员工具中向你报告所有这些错误,360和搜狗也会这样做。之前我们在百度搜索控制台和360站长工具里介绍过错误。
你不会是我们见到的第一个客户。它在百度搜索控制台有3000个实际url和20000个错误。不要让你的网站变成这个网站。至少每月一次定期修复这些错误。
2.301重定向太多