Prueba documentada de un error 5xx continuado en un robots.txt
Entiendo que es una pregunta poco común y de hecho esta no es una publicación de una casuística habitual.
No obstante, es una duda que me surgió a partir de una incoherencia que leí en la documentación de Google y de una publicación del propio Gary Illyes, representante de Google. Su publicación decía lo siguiente:
Un archivo robots.txt que devuelva un código de estado HTTP 500/503 durante un período prolongado de tiempo eliminará tu sitio de los resultados de búsqueda, incluso si el resto del sitio es accesible para Googlebot. Lo mismo ocurre con los tiempos de espera de red. — Gary Illlyes
Curiosamente, cuando te ibas a revisar la documentación, te decía que cuando el robots.txt pasaba un largo tiempo con un error 5XX, se tomaba como que no había restricciones de rastreo y a la vez, 2 párrafos más tarde, estaba escrito que se consideraba que todo el sitio era inaccesible.
Esto es claramente contradictorio, en el caso de que ocurra esto:
Evidentemente, ambas cuestiones son claramente contradictorias, y esto necesita una explicación más profunda.
La lógica y la experiencia me decían que Gary Illyes se equivocaba, incluso comentarios dando la razón. Pero hay que demostrar estas cuestiones con investigación, no con palabras.
Así que acudí a la persona del sector que conozco y que más disfruta haciendo experimentos con Google, MJ Cachón, quien escuchó mi propuesta y quiso colaborar conmigo en la investigación y me dejó acceso a la web https://rana.ninja/.
Mi premisa era la siguiente:
El robots.txt al tener un 5XX utiliza su última versión cacheada, la cual se mantiene durante un mes. Pasado ese mes, se toma el robots.txt como un 4XX y se entiende que no hay restricciones de rastreo. Tal y como decía una de las versiones de la documentación oficial.
No obstante, vamos a ver que ocurre exactamente. Por favor, nunca hagan estos experimentos en proyectos en producción que no se puedan arriesgar a perder.
Al poco de comenzar la investigación, Google cambió la documentación.
Aunque Google no hizo el anuncio sobre los cambios, los cuales siguen siendo contrarios a la premisa de Gary Illyes en su publicación, estos son los cambios que hubieron en la documentación oficial sobre el 5XX en el robots.txt en Diciembre de 2024.
Situación | Antes (17/12/2024) | Ahora (24/12/2024) |
---|---|---|
Error 5xx o 429 al solicitar robots.txt | Google interpreta como si todo el sitio estuviera bloqueado temporalmente. | Google detiene el rastreo del sitio por 12 horas, pero sigue intentando obtener el robots.txt . |
30 días sin poder obtener robots.txt | Usa la última versión en caché. Si no hay copia, asume que no hay restricciones. | Usa la última versión en caché. Si no hay copia, sigue intentándolo, con comportamiento según la disponibilidad del sitio. |
Después de 30 días | Sigue asumiendo sin restricciones si no hay copia en caché. | Google asume que no hay robots.txt y sigue rastreando normalmente, pero sigue intentando obtenerlo. |
Desde mi punto de vista y lo que hemos recogido de información, si parece haber un rastreo del resto de la web desde el inicio. Tal y como dice la documentación, las reglas que habían en el último robots.txt que se almacenan en caché se respetan durante un mes y después no hay restricción alguna.
Vayamos a las pruebas documentadas.
Comenzamos por el inicio.
Cachón bloquea el robots.txt de su web con un 5XX, siendo el último rastreo y registro que Google tiene de su robots.txt el 09/02/2025.
Así es como se veía la última versión cacheada por Google el robots.txt de Cachón:
User-agent: *
Disallow: guia-definitiva-de-screaming-frog-impulsa-el-seo-de-tu-web/
Disallow: guia-screaming/
Disallow: 13-consejos-screaming-frog-que-debes-saber/
Disallow: wp-content/themes/twentytwenty/assets/js/index.js?ver=2.0
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Allow: /*.css$
Allow: /*.js$
Disallow: /cgi-bin
Disallow: /wp-content/plugins/
Allow: /wp-content/plugins/*.jpeg
Allow: /wp-content/plugins/*.png
Allow: /wp-content/plugins/*.js
Allow: /wp-content/plugins/*.css
Disallow: /wp-content/themes/
Allow: /wp-content/themes/*.js
Allow: /wp-content/themes/*.css
Allow: /wp-content/themes/*.woff2
Disallow: /wp-includes/
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*
Disallow: *?
Disallow: ?s=
Disallow: /search
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback
Allow: /feed/$
Disallow: /feed/
Disallow: /comments/feed/
Disallow: */feed/$
Disallow: */*/feed/$
Disallow: */feed/rss/$
Disallow: */trackback/$
Disallow: */*/feed/$
Disallow: */*/feed/rss/$
Disallow: */*/trackback/$
Disallow: */*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Sitemap: https://rana.ninja/sitemap_index.xml
Sitemap: https://rana.ninja/post-sitemap.xml
Sitemap: https://rana.ninja/page-sitemap.xml
Así que como experimento, probaremos el rastreo de https://rana.ninja/page/ el cual tiene que estar bloqueado según la última versión, y de hecho es lo que ocurre, pese a haber un 5XX en el robots.txt
Se puede además comprobar, que aun probando en tiempo real, la URL no se puede rastrear pese al 5XX del robots.txt
Los primeros días después de haber dejado el robots.txt con un 503, esto es lo que ocurre:
Al parecer Google sigue respetando las directrices del robots.txt
La única diferencia apreciable tras estos días es que Google Search Console ha eliminado la versión más antigua cacheada:
Queríamos comprobar si ocurría el desastre que anunciaba Gary Illyes en la web, pero pasados varios meses, lo que ocurre es lo siguiente:
Desaparece el historial de robots.txt cacheados:
El contenido de la web es totalmente rastreable e indexable:
La página https://rana.ninja/page/ no sale como bloqueada por el robots.txt:
PERO, no permite la indexación:
Tras unos meses de la prueba, la indexación cae en picado:
Al parecer, pese a que la documentación dice que se toma como que no hay restricciones con el robots.txt y que se puede rastrear todo, parece que la desindexación es algo que ocurre de forma progresiva tras el error 5xx continuado en el robots.txt.
Y aunque hay URLs que siguen mostrandose en Google:
Es solo cuestión de tiempo que esta desindexación fatal se extienda a lo largo de toda la web:
Lo que pensamos puede estar mejor o peor. Y aunque esta casuística sea algo marginal, estas son las conclusiones del estudio cuando sucede esto:
Te falta mi máster. Accede a una formación avanzada que te permitirá aplicar e implementar SEO en cualquier tipo de WEB
¡Accede al Máster de SEO Técnico!