El Crawl Budget y sus complejidades

Nota: En mi empresa me he llegado a encontrar proyectos grandes que tenían graves problemas de rastreo que estaban disfrazados como problemas de renderizado.
Hoy os voy a mostrar como detectar esto y posibles estrategias de solución. Pero antes de llegar a ello, vamos a definir el Crawl Budget, ya que es bastante importante tener todos estos conceptos claros. Ya verás que majo este artículo que me ha quedado sobre el presupuesto de rastreo.
El Crawl Budget o presupuesto de rastreo es la cantidad de recursos (tiempo, peticiones y capacidad de procesamiento) que Google está dispuesto a dedicar a rastrear un sitio web en un periodo determinado.
Se compone de dos factores principales:
Dicho de una forma más simplificada, una vez que Google destina un tiempo a tu página web (que varía con el tiempo), cuántos recurso de tu web le da tiempo a rastrear.
Por ejemplo, Google le destina una mayor cantidad de tiempo a Wikipedia que a mi web, la con mayor frecuencia y le dedica más tiempo. También es cierto que Wikipedia tiene mucha más información y actualiza con mayor frecuencia.
La mayor parte de webs no tienen problema y Google suele ser bastante preciso. No obstante tu web puede no formar parte de esa mayoría de páginas.
Si el 80% de lo que rastrea Google en tu web es irrelevante, por mucha calidad que tenga el 20% restante, tu web en su mayoría es irrelevante.
Desafortunadamente Google no te informa de una forma tan directa si tienes problemas de presupuesto de rastreo, no obstante si que hay pequeñas pistas que te pueden dar a entender que Google no es capaz de rastrear la web, además de lo que puede tardar en indexarse una página nueva, veamos síntomas posibles.
En tu Search Console, ve al panel izquierdo donde pone Indexación > Páginas. En dicho lugar te dirán motivos por los que tus páginas no se indexan. Esto no es siempre negativo, es meramente informativo, nosotros como SEOs debemos saber diferenciar esos mensajes y cuándo debemos actuar.
En el caso de que te salga un mensaje así efectivamente es el momento de actuar, y te aseguro que el problema es una falta de presupuesto de rastreo:

Este es un mensaje parecido al de "Rastreada: actualmente sin indexar", pero eso quiere decir que claramente hay una cantidad de páginas que Google no ha rastreado. A Google que le encanta rastrear todo lo que se encuentra.
Si Googlebot no aparece en tu web con la frecuencia que debería, evidentemente tienes un problema de rastreo.
Existe una forma no oficial de detección de errores de presupuesto de rastreo y se puede ver al inspeccionar con Google Search Console una URL indexada.
Para ello debes acceder a Recursos de la página, te adjunto en la imagen como debes hacerlo:
Cualquier otro motivo (robots.txt o códigos de respuesta) te son indiferentes para el Crawl Budget, también descarta los recursos que no son de tu dominio (en principio a menos que sean vitales para tu contenido)

¿Cuándo preocuparse?
Cuando te aparezca el famoso mensaje de "Otro error" y sea de tu dominio o tu CDN. En esos casos amigo, tienes problemas de Crawl Budget y es posible que las imágenes, JS, o CSS de tu web no se vea. Analiza como de importante son esos recursos que no se han podido obtener.

Tener un Crawl Budget bajo, aunque infrecuente especialmente en proyectos pequeños, no es un problema menor. Ya que principalmente puede evitar la indexación de páginas, si no hay indexación evidentemente no hay posicionamiento.

Es posible que si Google empieza a considerar irrelevante tu web y reduce el rastreo se te acaben desindexando contenidos.
Si tienes un Crawl Budget tendrás una gran lentitud a la hora de indexar contenido, por más que le des a Inspeccionar URL en la Search Console, uses el todopoderoso API Indexing o lo pongas en tus sitemaps.
Como lo oyes, si ves el gráfico mostrado arriba, la renderización va después del rastreo. Es posible que aunque una página haya pasado el filtro de rastreo todos los archivos no. Hay en ocasiones en las que el archivo de JavaScript es dinámico, si este es el caso, te enfrentas al grave problema de que Google no renderice correctamente tu web al faltarle JS Critico, por lo que se convierta en una pescadilla que se muerde la cola y hacer que tu contenido de calidad se considere como thin content (porque le falta información que le tuvo que haber llegado)


Si cuando inspeccionas páginas indexadas sin darle a probar URL (esto es muy importante, porque no es lo mismo comprobar en tiempo real que hizo realmente Google). ves el mensaje "Otro error" es posible que se deba a un problema de presupuesto de rastreo que está impidiendo que Google rastree los recursos.
En ocasiones puede ser irrelevante, pero puede cargarse un proyecto si lo que no es capaz de rastrear son JS únicos por página que generan contenido dinámico esencial por web, haciendo que en webs grandes sea una cantidad exorbitada que Google no es capaz de procesar.
En estos casos es posible que Google rastree la página pero no vea el contenido que debería ver. Un problema silencioso que puede matar webs enormes.
En este caso hay que tomar decisiones drásticas y posiblemente arriesgadas, pero menos que dejar que la web se consuma sola a ojos de Google.
Los SEOs solemos defender a capa y espada el SSR cuando se trata de Frameworks de JS y su renderizado, se nos llena la boca con sus ventajas y también sobre la rehidratación por la velocidad. Pero estos son los fallos más típicos:
Especialmente cuando se usa:
Entonces se produce un JS distinto para cada página, a veces con hashing distinto por request (a la mierda nuestro presupuesto).
En modo SSR/ISR con hydration: Genera chunks de JS únicos por ruta, especialmente con getServerSideProps. Cada página puede tener su propio bundle dinámico.
Nuxt genera:
Si usas server middleware, nuxt generate, nitro, etc., puedes retornar assets con expiraciones bajas.
Por ejemplo: Los payloads de hidratación (_payload.js) son únicos por página.
Genera bundles de hidratación bastante pesados y, dependiendo de lo creativo (o imprudente) que sea el programador, puede acabar produciendo bundles únicos por página.
Genera módulos JS específicos por ruta con hashes dinámicos.
Aunque es SSG, Gatsby:
Si se publica con mucha frecuencia → Google prueba a renderizar y el JS ya no coincide.
Todos estos Frameworks siguen siendo válidos para SEO, pero siempre deberían estar supervisados por un equipo de SEOs profesionales, especialmente si el proyecto es importante.
Advertencia: El Crawl Budget no es un ranking factor de forma directa, es decir, si tienes una página indexada no mejorará su posicionamiento. Pero si puede favorecer la indexación de páginas si lo que ocurre es que parte de tu web no aparece ni en Google.
Dicho eso, si el Crawl Budget impide el rastreo de ciertos archivos cruciales de JS pueden afectar al renderizado que SÍ afectarán al posicionamiento.
Una vez que hemos detectado este problema puede haber casi tantas causas específicas como webs en el mundo, así que aquí tienes un listado de posibles motivos de tener un mal presupuesto de rastreo:
Consejo: Si estás ante una web muy grande que actualiza relativamente poco y te vas a enfrentar a una actualización masiva, por ejemplo una migración, puedes considerar hacerlo por partes para que Google tome mejor el cambio. (Algo que con sitios pequeños o que actualizan con mucha frecuencia nunca va a ser problema.
Es importante también saber detectar con honestidad si el problema de Crawl Budget se debe a que Google no está utilizando una cantidad de recursos suficientes para rastrear tu contenido de calidad o si es un cuestión de que un alto porcentaje de tu web es tan irrelevante que le haces difícil a Google la tarea de rastrear tu web.
Las estrategias para evitar problemas con el Crawl Budget siempre tienen un riesgo y deben ir acompañadas de un profesional durante todo el proceso.
Si aplicas soluciones como un Disallow a todo el contenido irrelevante de tu web es posible que en la Search Console te aparezca algo así:

Que no se indexen es buen síntoma, que no se rastreen aún más, Google podrá concentrarse ahora en las páginas relevantes.
Te falta mi máster. Accede a una formación avanzada que te permitirá aplicar e implementar SEO en cualquier tipo de WEB
¡Accede al Máster de SEO Técnico!