Comenzamos en: 17d 8h 14m 25s
PLAZAS LIMITADAS

Directivas de Robots.txt no interpretadas por google

Fecha de publicación: 2022-04-08
Última revisión: 2022-09-19

Esta curiosidad viene con motivo del artículo de cómo hacer un buen robots.txt. He decidido hacer un pequeño listado de directivas que no son leídas por Google y se suelen emplear. Para satisfacer las ganas de saber de directivas de robots.txt por parte de los más curiosos.

Host

Directiva que utiliza Yandex, sirve para indicar la versión importante de la web (por ejemplo con www o sin). Y en caso de conflicto solo funcionará la que haya más arriba.

Actualmente no aparece en su documentación.

Crawl-delay

Está creada para evitar que los rastreadores sobrepasen la capacidad de carga del servidor con demasiadas peticiones. Entonces sirve para establecer un tiempo de espera entre petición y petición.
Ejemplo:

User-agent: *
Crawl-delay: 60
El bot debería esperar 60 segundos entre petición y petición.

Visit-time

Directiva que sirve para establecer el tiempo permitido a los bots designados que puedan rastrear tu página.
Ejemplo:

User-agent: *
Visit-time: 0345-0600
Visit-time: 03:45-06:00
Se le indica a los User-Agents que pueden rastrear la web de 03:45 a 06.00 cada día
Como veréis he puesto dos formatos, y se supone que el horario se hace en UTC, Seznam
lo utilizaba, pero eliminó esas menciones en 2016. Páginas como pc-componentes siguen usandolas.
fallo pccomponentes
Visitado el 08/04/2022

Request-rate

Es otra versión para indicar la frecuencia con la que debe rastrear un bot. En teoría es combinable con visit tame

User-agent: *
Request-rate: 1/10m
Esto indica que se puede rastrear 1 documento cada 10 minutos

Clean-param

Sirve para evitar que se Crawleen los parámetros de una web.
Ejemplo:

User-agent: Yandex
Disallow:
Clean-param: v /hacer-robots-txt/

Impediría el rastreo de los parámetros de la página https://carlos.sanchezdonate.com/hacer-robots-txt/ entonces https://carlos.sanchezdonate.com/hacer-robots-txt/?v=2 no se podría rastrear.

Hay que especificar antes de la ruta que parámetro no se puede rastrear en particular y se pueden concatenar los parámetros con el carácter «&»

Indexpage

Esta directiva solo funciona en 360 hasta donde tengo conocimiento, solo enfocado en el público chino, y sería para indicarle al motor de búsqueda qué páginas se actualizan con frecuencia. De esta forma 360 rastreará la web de forma más inteligente.

Otras directivas

Hay otras directivas como Noindex, ASCP-Crawler, ASCP-disallow-crawl o ASCP-allow-crawl que ni si quiera funcionan ni han funcionado nunca.

¿Quieres hacer el Master de SEO Técnico?

Accede a una formación avanzada que te permitirá aplicar e implementar SEO en cualquier tipo de WEB

¡Accede al Master de SEO Técnico!
Tal vez te interesen estos artículos: