Es un código de respuesta 200, pero no mucho.
Un "Soft 404" es un error que se produce en una página web, que indica al usuario que la página solicitada no se encuentra disponible, pero que el servidor no devuelve un código de estado 404, que es el código de estado HTTP que se utiliza para indicar que una página no existe. En lugar de esto, el servidor devuelve un código de estado 200, que indica que la página existe y se ha cargado correctamente.
Este tipo de error puede tener un impacto negativo en la capacidad de los motores de búsqueda para indexar correctamente tu sitio web, ya que los motores de búsqueda pueden interpretar el código de estado 200 como una señal de que la página existe y está disponible para el usuario. Lo que puede llevar a que la página se indexe incorrectamente en los resultados de búsqueda. Por otro lado, que si queremos que esa página exista y sea indexable, nos puede resultar problemático hacerle entender a Google que no es un 404.
Para evitar este problema, es importante asegurarse de que el servidor devuelva correctamente el código de estado 404 cuando una página no existe. También es importante comprobar periódicamente tu sitio web en busca de errores de este tipo y corregirlos tan pronto como sea posible.
El 404 real debe ser una página que arroje un código de respuesta 404 y personalizado. No debe ser una página de finalización, sino una página navegable hacia otros puntos de interés de la web, con un diseño amigable y que proporcione información útil al usuario.
Para identificarlo, no bastará con las herramientas habituales de SEO Técnico, realmente es una interpretación que realiza Google de nuestra web. Afortunadamente, como he añadido en la bibliografía. Google añadió este problema en Google Search Console
Cuando Google detecta una página como un Soft 404, es posible que la deje de indexar y rastrear.
Si una página es identificada como un Soft 404, Google puede tomar diferentes acciones, dependiendo de la situación específica:
Por lo tanto, si una página importante es identificada como un Soft 404, es importante tomar medidas para solucionar el problema y asegurarse de que la página sea reconocida por Google como una página válida y útil. Para ello, se pueden revisar el contenido de la página, el código de respuesta HTTP y otros elementos de la página para detectar problemas y solucionarlos.
Básicamente por su propia definición, todo aquello que Google considera poco relevante o como un 404 real, pero que cree que técnicamente no se ha puesto dicho error en el encabezado HTTP un 404 como código de respuesta. Pero seré más específico con casuísticas posibles.
Si una página no tiene contenido relevante para los usuarios y no proporciona información útil, Google puede considerar que la página no tiene valor para los usuarios y, por lo tanto, puede clasificarla como un Soft 404.
Esto puede pasar con páginas, categorías, artículos, productos o cualquier cosa que tenga poco contenido y poco relevante, que Google clasifica de 404 porque generalmente se construye de forma accidental.
Si una página redirige a otra página que no está relacionada o no tiene contenido relevante para los usuarios, Google puede interpretar que la página original no existe y devolver un código de estado 404.
Un 404 debe existir, prácticas como redirigir los 404 detectados a la home y se entienden como un 404.
Otro problema habitual, es cuando se redirigen todas las páginas que no existen a una supuesta página 404, pero que da código de respuesta 200.
Si una página tiene problemas técnicos, como enlaces rotos o contenido incompleto, Google puede considerar que la página no existe y devolver un Soft 404.
Estos motivos generalmente pueden ser:
Es posible que la base de datos esté dañada y ese apartado de la web muestre un código de error, dejando inoperativa la página pero con un código de respuesta 200.
Un Warning o un código de error del propio lenguaje del servidor, pero que no altere ese código de respuesta.
Suele ser uno de los errores más habituales, que se generen un montón de páginas desde un CMS y encima enlazadas.
Si una página tiene contenido duplicado o muy similar a otras páginas del mismo sitio web o de otros sitios web, Google puede considerar que la página no tiene valor para los usuarios y devolver un Soft 404.
Un enlazado con url relativas mal estructurado, que genere subdirectorios en el propio enlazado de las URLS. Provocando un rastreo infinito. Si no da un código de respuesta 404 y encima no tiene un self canonical, es un claro problema de soft 404.
Sí, con este artículo me la estoy jugando, es posible que Google considere una página como Soft 404 si el título de la página (el elemento H1) incluye la palabra "404" o una variación de ella. Google no solo se basa en el código de estado HTTP devuelto por el servidor, sino que también analiza el contenido de la página y los elementos HTML, incluyendo el título de la página para determinar si la web debe ser indexable.
Incluir la palabra "404" en el título de la página no es necesariamente un problema si la página realmente devuelve un código de estado 404 y proporciona información útil al usuario sobre por qué la página no está disponible. Sin embargo, si la página devuelve un código de estado 200 en lugar de un 404, pero el título de la página incluye la palabra "404", Google puede interpretar que la página es un Soft 404. Este problema lo he visto principalmente en foros de desarrolles o soporte web, donde se realizan preguntas acerca de errores 404 y Google no lo termina de entender correctamente
Para evitar este problema, es importante asegurarse de que las páginas que devuelven un código de estado 404 incluyan un título apropiado que indique claramente que la página no se encuentra disponible. En cambio, si la página devuelve un código de estado 200, el título de la página debe reflejar el contenido real de la página y no incluir la palabra "404" o cualquier variación de ella.
De hecho, esta palabra es tan potente, que en este propio artículo se generan problemas cuando recargas la web con f5, el propio servidor se medio confunde y devuelve imágenes 204. Las imágenes que están como background. Tanto la del cover, como la de los artículos recomendados.
Si bien, este se puede utilizar para hacer una implementación técnica que afecta a Google imágenes. Para otros contenidos, Google este código de respuesta que significa literalmente "no contenido" puede significar un 404, por eso lo puede clasificar de soft 404.
Como hay múltiples variables por las que podemos recibir un soft 404, expongo las posibles soluciones según lo que debería ocurrir en lugar del soft 404.
Si el contenido principal está en otro sitio y aún se quiere conservar parte del anterior, se podría hacer un buen uso o gestión de la metaetiqueta canonical. En el caso en el que directamente se quiera cambiar la URL de dicho contenido, se debería hacer una redirección.
Si el contenido o la página han dejado de existir, este soft 404 no será tan problemático, sin embargo, en este caso, realmente tendría que arrojarse un 404 o un 410 con su código de respuesta correspondiente. Para que esto sea una buena práctica y Google no tenga que adivinar que contenido no existe. Esto puede ahorrar muchos problemas en el futuro.
Este sería el mayor problema. Cuando una página que consideramos correcta se ha marcado como un error soft 404. Esto puede ocurrir por problemas de renderización, de que no cargue los recursos correctamente, de warnings inesperados.
Habría que comprobar que está bien configurado el robots.txt, o el servidor y que no bloquean recursos necesarios para el entendimiento de la página. En el caso de que esté todo correcto y siga arrojando el error 404, se recomendaría mejorar la calidad (y por desgracia ampliar la cantidad) del texto, y volver a pasar la URL por el inspector de Google Search Console y proponer su indexación.
Te falta mi máster. Accede a una formación avanzada que te permitirá aplicar e implementar SEO en cualquier tipo de WEB
¡Accede al Máster de SEO Técnico!