要了解 Google 看到的内容,我们需要获取日志文件。此时,我们可以检查它是如何访问该页面的。
顺便说一句:处理日志本身就是一篇完整的文章。我写了一篇使用 BigQuery 进行日志分析的指南,我也强烈建议尝试一下چیختا ہوا مینڈک لاگ انالائزر,它在处理大量与日志相关的复杂问题方面做得非常出色。
当我们查看爬行时,我们可以进行三项有用的检查:
状态代码:绘制随时间变化的状态代码。当您检查 URL 时,Google 看到的状态代码是否与您不同?
资源: Google 是否正在下载页面上的所有资源?
它是否正在下载您的网站构建页面所需的 JavaScript 和 CSS 文件?
页面大小跟进:获取所有页面和资源的最大和最小尺寸并区分它们。如果您 最近的手机号码数据 发现差异,则 Google 可能无法完全下载所有资源或页面。 (向@ohgm致敬,我第一次从他那里听说了这个巧妙的建议)。
我们发现任何问题了吗?
如果 Google 无法在我们的日志文件中持续获取 200 代码,但我们尝试时却可 中国观察家的热点 以正常访问该页面,那么 Googlebot 和我们之间显然仍然存在一些差异。这些差异是什么?
它会悄悄地向我们逼近。
这显然是一个机器人,而不是人类假装的机器人。
它会在一天中的不同时间爬行。
这意味着:
如果我们的网站阻止了智能机器
它可能能够区分我们和 Googlebot。
由于 Googlebot 会给我们的网络服务器带来更大的压力,因此它的行为可能会有所不同。当网站同时接收大量机器人或访问者时,他们可以采取一些措施来帮助网站保持在线。他们可以启动更多计算机来驱动网站(这称为扩展),他们还可以尝试限制用户请求过 tg数据 多页面的速率,或者提供精简版本的页面。
服务器时不时地运行任务。例如,一个列表网站可能会在每日 01:00 运行一项任务来清除所有旧列表,这可能会影响服务器性能。
弄清楚这些周期性影响到底是怎么回事是件很无情的事。您可能需要与后端开发人员交谈。
根据您的技能水平,您可能不知道将讨论引向何方。一个有用的讨论结构通常是谈论应用程序如何在技术堆栈中移动,然后查看我们上面讨论的边缘情况。
服务器负载过大时会发生什么情况?
重要的计划任务什么时候截止?
本次对话中有两条有用的信息:
根据日志中问题的规律性,通常值得尝试使用与 Google 相同的速度/强度的爬虫程序抓取网站来重现问题,看看是否可以找到/导致相同的问题。根据网站的大小,这并不总是可行的,但对于某些网站来说是可行的。能够持续重现问题是解决问题的最佳方法。
但是,如果您不能,请尝试提供 Googlebot 遇到问题的确切时间。这将为开发人员提供最好的机会将问题与其他日志联系起来,以便他们可以调试正在发生的事情。
如果 Google 能够持续抓取该网页,我们便会进入下一步。
5. 谷歌能看到我所看到的内容吗?
我们知道 Google 正在正确抓取该网页。下一步是尝试处理 Google 在页面上看到的内容。如果您的网站充斥着大量的 JavaScript,那么您可能之前就遇到过这个问题,但即使没有遇到过,它有时也会成为一个问题。