您打算关闭网站一天或更长时间吗?根据 Google 搜索倡导者 John Mueller 的建议,这里有五种准备方法。
穆勒在推文中分享了这个建议,同时链接到相关的谷歌帮助页面。
剧透警报——暂时关闭网站没有好办法。如果可能的话,你应该避免这样做。
但是,您可以采取一些措施将负面影响降至最低。
穆勒的建议包括:
- 使用 HTTP 503 状态码
- 保持 HTTP 503 不超过一天
- 更改 robots.txt 文件以返回 200 状态码
- 如果网站停机时间超过一天,请为后果做好准备
- 预计 Googlebot 的抓取会减少
以下部分解释了有关这些建议以及如何处理使站点脱机的负面影响的更多详细信息。
1. HTTP 503 状态码
使网站脱机时,确保它向网络爬虫提供 HTTP 503 状态代码。
当像 Googlebot 这样的网络爬虫遇到 503 状态代码时,它们会知道该网站不可用,并且可能稍后会变得可用。
使用 503 代码,爬虫知道要再次检查该网站,而不是将其从 Google 的搜索索引中删除。
Mueller 解释了如何使用 Chrome 检查 503 状态代码:
1. 他们应该对“关闭”页面使用 HTTP 503。您可以在 Chrome 中检查,右键单击:检查,选择顶部的“网络”,然后刷新页面。检查顶部条目,它应该是红色并显示 503 状态。pic.twitter.com/dkH7VE7OTb
—?〈link href=//johnmu.com rel=canonical〉?(@JohnMu)2022 年 9 月 19 日
2.保持503状态码不超过一天
Googlebot 在最初遇到 503 后会返回网站,但不会永远返回。
如果 Googlebot 日复一日地看到 503 代码,它最终会开始从索引中删除页面。
Mueller 说,理想情况下,您应该最多保留 503 状态代码一天。
“保持 503 状态 – 理想情况下 – 最多一天。我知道,并非所有内容都仅限于 1 天。“永久” 503 可能导致页面从搜索中被删除。节俭用503次。不要担心“之后重试”设置。”
3. Robots.txt – 200 状态码
虽然已关闭网站的页面应返回 503 代码,但 robots.txt 文件应返回 200 或 404 状态代码。
穆勒说,Robots.txt 不应该提供 503。Googlebot 将假定该网站已被完全阻止抓取。
此外,Mueller 建议使用 Chrome DevTools 检查您网站的 robots.txt 文件:
2. robots.txt 文件应该返回 200 + 一个正确的 robots.txt 文件,或者 404。它应该*不*返回 503。如果页面显示“404”,千万不要相信它,它可能仍然是 503——检查一下. pic.twitter.com/nxN2kCeyWm
—?〈link href=//johnmu.com rel=canonical〉?(@JohnMu)2022 年 9 月 19 日
4. 为负面影响做准备
正如我们在本文开头提到的那样,没有办法让网站离线并避免所有负面后果。
如果您的网站将离线超过一天,请做好相应的准备。
Mueller 说,无论 503 状态代码如何,页面都可能会从搜索结果中退出:
“嗯.. 如果网站想要关闭超过 1 天怎么办?无论您选择哪种选项(503、blocked、noindex、404、403)都会产生负面影响——页面可能会从搜索结果中退出。”
当您再次“打开”您的网站时,请检查关键页面是否仍被编入索引。如果不是,请将它们提交索引。
5.期望减少爬行
服务 503 代码的一个不可避免的副作用是减少了爬行,无论它需要多长时间。
穆勒在推特上说:
“即使是 1 天的 503 的副作用是 Googlebot(注意:所有这些都是用 Google 的镜头,我不知道其他搜索引擎)会减慢爬行速度。它是一个小网站吗?那没关系。是巨人吗?关键字是“抓取预算”。
减少爬网可以通过多种方式影响网站。需要注意的主要事项是新页面可能需要更长的时间才能被编入索引,而对现有页面的更新可能需要更长的时间才能显示在搜索结果中。
一旦 Googlebot 发现您的网站重新上线并且您正在积极更新它,您的抓取速度可能会恢复正常。