能否持续抓取该页面？

要了解 Google 看到的内容，我们需要获取日志文件。此时，我们可以检查它是如何访问该页面的。

顺便说一句：处理日志本身就是一篇完整的文章。我写了一篇使用 BigQuery 进行日志分析的指南，我也强烈建议尝试一下چیختا ہوا مینڈک لاگ انالائزر，它在处理大量与日志相关的复杂问题方面做得非常出色。

当我们查看爬行时，我们可以进行三项有用的检查：

状态代码：绘制随时间变化的状态代码。当您检查 URL 时，Google 看到的状态代码是否与您不同？
资源： Google 是否正在下载页面上的所有资源？
它是否正在下载您的网站构建页面所需的 JavaScript 和 CSS 文件？
页面大小跟进：获取所有页面和资源的最大和最小尺寸并区分它们。如果您最近的手机号码数据发现差异，则 Google 可能无法完全下载所有资源或页面。（向@ohgm致敬，我第一次从他那里听说了这个巧妙的建议）。

我们发现任何问题了吗？

如果 Google 无法在我们的日志文件中持续获取 200 代码，但我们尝试时却可中国观察家的热点以正常访问该页面，那么 Googlebot 和我们之间显然仍然存在一些差异。这些差异是什么？

它会悄悄地向我们逼近。
这显然是一个机器人，而不是人类假装的机器人。
它会在一天中的不同时间爬行。
这意味着：

如果我们的网站阻止了智能机器

它可能能够区分我们和 Googlebot。
由于 Googlebot 会给我们的网络服务器带来更大的压力，因此它的行为可能会有所不同。当网站同时接收大量机器人或访问者时，他们可以采取一些措施来帮助网站保持在线。他们可以启动更多计算机来驱动网站（这称为扩展），他们还可以尝试限制用户请求过 tg数据多页面的速率，或者提供精简版本的页面。
服务器时不时地运行任务。例如，一个列表网站可能会在每日 01:00 运行一项任务来清除所有旧列表，这可能会影响服务器性能。
弄清楚这些周期性影响到底是怎么回事是件很无情的事。您可能需要与后端开发人员交谈。

根据您的技能水平，您可能不知道将讨论引向何方。一个有用的讨论结构通常是谈论应用程序如何在技术堆栈中移动，然后查看我们上面讨论的边缘情况。

服务器负载过大时会发生什么情况？

重要的计划任务什么时候截止？
本次对话中有两条有用的信息：

根据日志中问题的规律性，通常值得尝试使用与 Google 相同的速度/强度的爬虫程序抓取网站来重现问题，看看是否可以找到/导致相同的问题。根据网站的大小，这并不总是可行的，但对于某些网站来说是可行的。能够持续重现问题是解决问题的最佳方法。
但是，如果您不能，请尝试提供 Googlebot 遇到问题的确切时间。这将为开发人员提供最好的机会将问题与其他日志联系起来，以便他们可以调试正在发生的事情。
如果 Google 能够持续抓取该网页，我们便会进入下一步。

5. 谷歌能看到我所看到的内容吗？

我们知道 Google 正在正确抓取该网页。下一步是尝试处理 Google 在页面上看到的内容。如果您的网站充斥着大量的 JavaScript，那么您可能之前就遇到过这个问题，但即使没有遇到过，它有时也会成为一个问题。

当我们查看爬行时，我们可以进行三项有用的检查：

我们发现任何问题了吗？

如果我们的网站阻止了智能机器

服务器负载过大时会发生什么情况？

5. 谷歌能看到我所看到的内容吗？

Related Posts