¿Qué pasa cuándo un robots.txt tiene un 5XX?

Prueba documentada de un error 5xx continuado en un robots.txt

Autor:: MJ Cachón y Carlos Sánchez
Temática:: Rastreo; Servidores

Fecha de publicación:: 2025-05-13
Última revisión:: 2025-05-26

Índice: mostrar

Entiendo que es una pregunta poco común y de hecho esta no es una publicación de una casuística habitual.

No obstante, es una duda que me surgió a partir de una incoherencia que leí en la documentación de Google y de una publicación del propio Gary Illyes, representante de Google. Su publicación decía lo siguiente:

Un archivo robots.txt que devuelva un código de estado HTTP 500/503 durante un período prolongado de tiempo eliminará tu sitio de los resultados de búsqueda, incluso si el resto del sitio es accesible para Googlebot. Lo mismo ocurre con los tiempos de espera de red. — Gary Illlyes

Curiosamente, cuando te ibas a revisar la documentación, te decía que cuando el robots.txt pasaba un largo tiempo con un error 5XX, se tomaba como que no había restricciones de rastreo y a la vez, 2 párrafos más tarde, estaba escrito que se consideraba que todo el sitio era inaccesible.

Fuente: Publicación de LinkedIn

Esto es claramente contradictorio, en el caso de que ocurra esto:

El sitio puede ser totalmente inaccesible para Google
Puede no tener restricciones de rastreo

Evidentemente, ambas cuestiones son claramente contradictorias, y esto necesita una explicación más profunda.

La lógica y la experiencia me decían que Gary Illyes se equivocaba, incluso comentarios dando la razón. Pero hay que demostrar estas cuestiones con investigación, no con palabras.

Así que acudí a la persona del sector que conozco y que más disfruta haciendo experimentos con Google, MJ Cachón, quien escuchó mi propuesta y quiso colaborar conmigo en la investigación y me dejó acceso a la web https://rana.ninja/.

Mi premisa era la siguiente:

El robots.txt al tener un 5XX utiliza su última versión cacheada, la cual se mantiene durante un mes. Pasado ese mes, se toma el robots.txt como un 4XX y se entiende que no hay restricciones de rastreo. Tal y como decía una de las versiones de la documentación oficial.

No obstante, vamos a ver que ocurre exactamente. Por favor, nunca hagan estos experimentos en proyectos en producción que no se puedan arriesgar a perder.

Cambios en la documentación extraños

Al poco de comenzar la investigación, Google cambió la documentación.

Cambio en la documentación del robots.txt

Aunque Google no hizo el anuncio sobre los cambios, los cuales siguen siendo contrarios a la premisa de Gary Illyes en su publicación, estos son los cambios que hubieron en la documentación oficial sobre el 5XX en el robots.txt en Diciembre de 2024.

Situación	Antes (17/12/2024)	Ahora (24/12/2024)
Error 5xx o 429 al solicitar `robots.txt`	Google interpreta como si todo el sitio estuviera bloqueado temporalmente.	Google detiene el rastreo del sitio por 12 horas, pero sigue intentando obtener el `robots.txt`.
30 días sin poder obtener `robots.txt`	Usa la última versión en caché. Si no hay copia, asume que no hay restricciones.	Usa la última versión en caché. Si no hay copia, sigue intentándolo, con comportamiento según la disponibilidad del sitio.
Después de 30 días	Sigue asumiendo sin restricciones si no hay copia en caché.	Google asume que no hay `robots.txt` y sigue rastreando normalmente, pero sigue intentando obtenerlo.

Desde mi punto de vista y lo que hemos recogido de información, si parece haber un rastreo del resto de la web desde el inicio. Tal y como dice la documentación, las reglas que habían en el último robots.txt que se almacenan en caché se respetan durante un mes y después no hay restricción alguna.

Vayamos a las pruebas documentadas.

Investigación sobre los efectos de 5xx en robots.txt

Comenzamos por el inicio.

25/02/2025 Comienza la prueba

Cachón bloquea el robots.txt de su web con un 5XX, siendo el último rastreo y registro que Google tiene de su robots.txt el 09/02/2025.

Así es como se veía la última versión cacheada por Google el robots.txt de Cachón:

User-agent: * Disallow: guia-definitiva-de-screaming-frog-impulsa-el-seo-de-tu-web/ Disallow: guia-screaming/ Disallow: 13-consejos-screaming-frog-que-debes-saber/ Disallow: wp-content/themes/twentytwenty/assets/js/index.js?ver=2.0 Allow: /wp-content/uploads/* Allow: /wp-content/*.js Allow: /wp-content/*.css Allow: /wp-includes/*.js Allow: /wp-includes/*.css Allow: /*.css$ Allow: /*.js$ Disallow: /cgi-bin Disallow: /wp-content/plugins/ Allow: /wp-content/plugins/*.jpeg Allow: /wp-content/plugins/*.png Allow: /wp-content/plugins/*.js Allow: /wp-content/plugins/*.css Disallow: /wp-content/themes/ Allow: /wp-content/themes/*.js Allow: /wp-content/themes/*.css Allow: /wp-content/themes/*.woff2 Disallow: /wp-includes/ Disallow: /*/attachment/ Disallow: /tag/*/page/ Disallow: /tag/*/feed/ Disallow: /page/ Disallow: /comments/ Disallow: /xmlrpc.php Disallow: /?attachment_id* Disallow: *? Disallow: ?s= Disallow: /search Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback Allow: /feed/$ Disallow: /feed/ Disallow: /comments/feed/ Disallow: */feed/$ Disallow: */*/feed/$ Disallow: */feed/rss/$ Disallow: */trackback/$ Disallow: */*/feed/$ Disallow: */*/feed/rss/$ Disallow: */*/trackback/$ Disallow: */*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ Sitemap: https://rana.ninja/sitemap_index.xml Sitemap: https://rana.ninja/post-sitemap.xml Sitemap: https://rana.ninja/page-sitemap.xml

Así que como experimento, probaremos el rastreo de https://rana.ninja/page/ el cual tiene que estar bloqueado según la última versión, y de hecho es lo que ocurre, pese a haber un 5XX en el robots.txt

Se puede además comprobar, que aun probando en tiempo real, la URL no se puede rastrear pese al 5XX del robots.txt

Conclusiones

Los primeros días después de haber dejado el robots.txt con un 503, esto es lo que ocurre:

El Robots.txt es inaccesible por Google
Google almacena las últimas copias en caché
Google respetas las últimas reglas cacheadas del robots.txt y sigue sin poder rastrear páginas que estaban en Disallow.

12/03/2025 Revisión del estado de la web

Al parecer Google sigue respetando las directrices del robots.txt

La única diferencia apreciable tras estos días es que Google Search Console ha eliminado la versión más antigua cacheada:

09/05/2025 Conclusiones finales

Queríamos comprobar si ocurría el desastre que anunciaba Gary Illyes en la web, pero pasados varios meses, lo que ocurre es lo siguiente:

Desaparece el historial de robots.txt cacheados:

El contenido de la web es totalmente rastreable e indexable:

La página https://rana.ninja/page/ no sale como bloqueada por el robots.txt:

PERO, no permite la indexación:

Tras unos meses de la prueba, la indexación cae en picado:

Al parecer, pese a que la documentación dice que se toma como que no hay restricciones con el robots.txt y que se puede rastrear todo, parece que la desindexación es algo que ocurre de forma progresiva tras el error 5xx continuado en el robots.txt.

Y aunque hay URLs que siguen mostrandose en Google:

Es solo cuestión de tiempo que esta desindexación fatal se extienda a lo largo de toda la web:

Banner promocionado:

Conclusiones finales

Lo que pensamos puede estar mejor o peor. Y aunque esta casuística sea algo marginal, estas son las conclusiones del estudio cuando sucede esto:

Comportamiento inicial (primer mes):

Cuando el robots.txt devuelve un 5XX, Google utiliza la versión cacheada más reciente.
Las directrices del último robots.txt en caché se respetan durante aproximadamente un mes.

Comportamiento tras el primer mes:

Aunque la documentación de Google dice que tras 30 días sin poder acceder al robots.txt se entiende que no hay restricciones de rastreo, en la práctica el rastreo puede continuar, pero la indexación comienza a deteriorarse progresivamente.
Las páginas previamente bloqueadas pasan a ser rastreables, pero se observa una caída progresiva en la indexación, afectando finalmente a toda la web.

Conclusión final real vs documentación oficial:

La documentación de Google y las declaraciones públicas (como las de Gary Illyes) muestran incoherencias.
En la práctica, el error 5XX prolongado en robots.txt termina provocando una fuerte desindexación de la web, aunque no impida directamente el rastreo.
Esto confirma que el impacto real es más grave y lento de lo que la documentación sugería inicialmente.