17 de Octubre

Directivas de Robots.txt no interpretadas por google

Todas las directivas del Robots.txt que no lee Google. Cuidado con su utilización.

Autor:: Carlos Sánchez

Fecha de publicación:: 2022-04-08
Última revisión:: 2023-06-21

Índice: mostrar

Esta curiosidad viene con motivo del artículo de cómo hacer un buen robots.txt. He decidido hacer un pequeño listado de directivas que no son leídas por Google y se suelen emplear. Para satisfacer las ganas de saber de directivas de robots.txt por parte de los más curiosos.

Alerta: Cuando utilizamos directivas que son ignoradas por Googlebot, este las considera como un espacio en blanco, como un comentario o como si no hubiese nada. Esto es un riesgo alto, ya que cuando no hay nada entre los user-agents especificados, estos son afectados por las directivas que tengan debajo. Por lo que si ponemos a Googlebot simplemente directivas que ignore y tenemos más reglas debajo para otros user-agents, Googlebot pertenecerá a este listado.

Por no hablar de lo obvio, que es que estas directivas no funcionarán ya que son ignoradas.

Problema con directivas ignoradas robots.txt

Representación de lo que podría ser un error fatal en posicionamiento

Además, esto también afectaría si no se especifica Googlebot, pero se especifica "todos los user-agents":

User-agent: * Crawl-delay: 60 User-agent: Spambot Disallow: /

Para que sepáis identificar las directivas ignoradas más comunes, os he hecho este listado:

Host

Directiva que utiliza Yandex, sirve para indicar la versión importante de la web (por ejemplo con www o sin). Y en caso de conflicto solo funcionará la que haya más arriba.

Actualmente no aparece en su documentación.

Crawl-delay

Está creada para evitar que los rastreadores sobrepasen la capacidad de carga del servidor con demasiadas peticiones. Entonces sirve para establecer un tiempo de espera entre petición y petición.
Ejemplo:

User-agent: *
Crawl-delay: 60

El bot debería esperar 60 segundos entre petición y petición.

Visit-time

Directiva que sirve para establecer el tiempo permitido a los bots designados que puedan rastrear tu página.
Ejemplo:

User-agent: *
Visit-time: 0345-0600
Visit-time: 03:45-06:00

Se le indica a los User-Agents que pueden rastrear la web de 03:45 a 06.00 cada día

Como veréis he puesto dos formatos, y se supone que el horario se hace en UTC, Seznam

lo utilizaba, pero eliminó esas menciones en 2016. Páginas como pc-componentes siguen usandolas.

Visitado el 08/04/2022

Request-rate

Es otra versión para indicar la frecuencia con la que debe rastrear un bot. En teoría es combinable con visit tame

User-agent: *
Request-rate: 1/10m

Esto indica que se puede rastrear 1 documento cada 10 minutos

Clean-param

Sirve para evitar que se Crawleen los parámetros de una web.
Ejemplo:

User-agent: Yandex
Disallow:
Clean-param: v /hacer-robots-txt/

Impediría el rastreo de los parámetros de la página https://carlos.sanchezdonate.com/articulo/hacer-robots-txt/ entonces https://carlos.sanchezdonate.com/articulo/hacer-robots-txt/?v=2 no se podría rastrear.

Hay que especificar antes de la ruta que parámetro no se puede rastrear en particular y se pueden concatenar los parámetros con el carácter "&"

Indexpage

Esta directiva solo funciona en 360 hasta donde tengo conocimiento, solo enfocado en el público chino, y sería para indicarle al motor de búsqueda qué páginas se actualizan con frecuencia. De esta forma 360 rastreará la web de forma más inteligente.

Banner promocionado: