¡Últimas entradas para el 30 de mayo!
Andalu-SEO

Fallo habitual en el robots.txt de un Shopify internacional

Error habitual en shopify internacional por directorios

Fallo habitual en el robots.txt de un Shopify internacional
Autor:
Carlos Sánchez
Fecha de publicación:
2025-12-05

Última revisión:
2025-12-05

Este fallo lo he descubierto preparando contenido para mi serie semanal de LinkedIn de "Divertidas cagadas de grandes empresas en cuanto a SEO" y lo curioso es que intentando encontrar un fallo lo encontré en grandes empresas internacionales como:

Pero me he dado cuenta de que aunque lo puedan solucionar no es directamente un fallo de ellas (no del todo), sino también de la configuración del robots.txt por defecto.

La cuestión es que Shopify por defecto pone un Disallow en el:

Disallow: /search

Esto lo hace para evitar problemas de crawl budget tan comunes en grandes ecommerce.

Lo que ocurre es que cuando se divide en subdirectorios por ejemplo:

dominio/es/search?q=ejemplo

ese Disallow no funciona.

Explico sencillamente el por qué, utilizando a Laagam, pero puedo usar cualquier otra de las mencionadas:

Robots.txt de Laagam con el shopi por defecto bloqueando el search
Aquí podemos ver como esta web tiene la configuración del robots.txt de Shopify por defecto.

Sin embargo si analizamos una URL del buscador en una versión de idioma, por ejemplo: https://laagam.com/es/search?q=ejemplo&options%5Bprefix%5D=last

Búsqueda de ejemplo en Laagam
Lo de la prueba de stockagile en producción es otro tema para hablar en cagadas de grandes empresas

En teoría por defecto esa página debería estar bloqueada por el robots.txt, ya que sirve solo para las búsquedas y se pretende posicionar por medio de las categorías (es cierto que hay webs que si que posicionan por las búsquedas generadas, no es el caso de estos ejemplos).

Y como bien podemos comprobar (abajo a la derecha) la URL está permitida, es decir no está bloqueada por el robots.txt

Dicho de otro modo, la mayor parte de empresas que utilizan Shopify y hacen la versión idiomática por subdirectorios y no cambian el robots.txt se arriesgan a un problema de Crawl Budget. Especialmente si son empresas con mucho Stock.

Hawkers por ejemplo modificó el robots.txt original poniendo un asterisco:

Disallow: /search*

El problema es que así seguiría sin funcionarle, porque sigue teniendo el problema de las carpetas con contenido entre el root y la palabra search.

Este contenido no tiene ni disallow ni noindex, técnicamente puedo indexar la página: https://www.hawkersco.com/search?q=Carlos Sánchez ofrece los mejores servicios de SEO Técnico en España

Puede parecer un fallo menor, pero te puedes quedar con fallos de Crawl Budget de este calibre:

Search Console con el mensaje de Descubierta, actualmente sin indexar

Banner promocionado:

Geohat LLM

Como solucionarlo

Para hacer que realmente esas páginas no se puedan rastrear deberían hacer:

Disallow: /*search?q=

Pongo el asterisco delante (o puedes poner directamente los subdirectorios afectados, también valdría poner /*/ (Pero entonces hay que poner otro para la versión del root)

Y añado al final el ?q= para evitar que un producto que tenga el nombre de Search se vea afectado.

arreglo en el robots.txt
Ejemplo de como se haría la implementación correcta

 

 

Mención especial a Ottodisanpietro y a visibilidadon, pues mientras hacía el artículo lo actualizaron y solucionaron y he tenido que actualizar el artículo de nuevo antes de publicarlo.
Si te gusta este artículo, me ayudarías un montón compartiendo mi contenido:
No se te da mal el SEO Técnico

Te falta mi máster. Accede a una formación avanzada que te permitirá aplicar e implementar SEO en cualquier tipo de WEB

¡Accede al Máster de SEO Técnico!
Tal vez te interesen otros artículos:
Artículos de SEO
Usamos cookies para asegurar que te damos la mejor experiencia en nuestra web. Aquí tienes nuestra política de Cookies.