Solucionar hack páginas en chino o japonés

Solucionar el ataque de virus japones que afecta al SEO

Autor:: Carlos Sánchez

Fecha de publicación:: 2023-05-08
Última revisión:: 2024-08-26

Índice mostrar

Japanese Keyword Hack

Un problema habitual de SEO negativo son las webs que acaban hackeadas y con miles y miles de páginas en chino o japonés totalmente indexadas. A esta práctica se le conoce como el Japanese Keyword Hack.

Según Zippia, unas 30.000 páginas son hackeadas al día. Y no parece algo exagerado, es raro que alguien con algo de experiencia en el sector no se haya encontrado con esta situación mínimo una vez.

Este tipo de ataque de SEO negativo acaba agotando el Crawl-Budget y tirando por los suelos la buena imagen que tiene la web afectada. Incluso estas páginas pueden acabar haciendo prácticas de blackhat que pueden llegar a incurrir incluso en penalizaciones SEO, por lo que es un problema bastante grave que se debe solucionar cuanto antes, tanto por los usuarios de la web, como por cómo afecta en los motores de búsqueda.

Limpiar la Web

En primer lugar deberíamos cambiar todos los accesos y comprobar por donde han podido entrar o realizar dichos cambios.

En muchos casos suelen ser por plugins/themes desactualizados o crackeados para evitar pagar la licencia o un mal hosting. Aunque pueden haber distintos problemas de seguridad que no sean fáciles de detectar, como ciertas configuraciones ocultas en el código creadas para persistir. Además de que muchas páginas aparentemente sanas, una vez se ha visto este problema, podrían contener enlaces indeseados por medio de técnicas de Cloaking.

Siempre es recomendable contactar con un profesional para solucionar estos casos de raíz. En cualquier caso aquí van unos cuantos consejos para parchear e incluso solucionar el problema de SEO cuanto antes.

Impedir la indexación de páginas en chino

Un error común es pretender bloquear todas esas webs por medio del robots.txt. Realizar esta práctica es peligroso, porque le impedirá a Google comprobar si se ha retirado el contenido.

Herramienta de desidenxación de Google Search Console

Esta herramienta si bien es cierto que es útil para desindexar un contenido, no permite realizar esta acción en Bulk (es decir en masa). Como mucho por medio de prefijos de URL (que si se ponen todos los caracteres chinos de inicio, pues es una tarea que acabará antes).

Sin embargo esta acción por si misma no tiene valor, ya que solo durará 6 meses. Por lo que hay que tomar otras medidas de desindexación complementarias.

Por otro lado, eliminar las páginas desde el backend una a una, es una medida que hay que hacer en el caso de que estén ahí. Pero que puede resultar bastante problemática.

Eliminar páginas en Chino desde el servidor

Si se tiene la suerte de que la web no tenga ningún contenido ni ninguna URL con caracteres en chino, y el hackeo se ha producido con URLs con Caracteres chinos, siempre después de limpiar la web, se puede tomar una solución drástrica.

Por medio del htaccess si se utiliza Apache, se puede generar un código de respuesta 404 hacia todas las páginas que contengan caracteres chinos. Esto forzará que no existan aunque se hayan creado desde el back-end o con código.

Se puede hacer por medio de la directiva RewriteRule al igual que cuando se redirigen parámetros.

RewriteEngine On RewriteCond %{REQUEST_URI} [^\x00-\x7F]+ RewriteRule .* - [R=404,L]

Al generarse el código de respuesta 404 Google al volver a rastrear, entenderá que la página ni existe ni se debe indexar. Por lo cual se soluciona el problema de una forma relativamente rápida. El truco con estas situaciones consiste en buscar patrones dentro de todo el estropicio que hemos recibido al haber sido hackeados para ser lo más ágiles posibles para solucionar el problema desde la perspectiva de SEO.

Excepciones si hay alguna URL en Chino

Es poco probable, pero es posible que haya alguna URL en chino que no se quiera eliminar. En ese caso se podría añadir una excepción por medio de la exclamación ! gracias a regex.

RewriteEngine On RewriteCond %{REQUEST_URI} [^\x00-\x7F]+ RewriteCond %{REQUEST_URI} !^/卡洛斯·桑切斯/ [NC] RewriteRule .* - [R=410,L]

El hackeo está en japonés

Si el idioma resulta no ser chino y es japonés, es indiferente, el Regex es maravilloso. Entonces se tendría que configurar todas las URLs que tengan algún carácter chino o japonés (se podría hacer con cualquier alfabeto especial)

<IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{REQUEST_URI} [^\x00-\x7F\x{3000}-\x{9FFF}]+ RewriteCond %{REQUEST_URI} !^/卡洛斯·桑切斯/ [NC] RewriteRule . - [R=404,L] </IfModule>

Las URLs tienen caracteres en nuestro alfabeto

En este caso el patrón común se nos puede complicar. Pero siguen habiendo posibilidades dentro de lo que es la programación. Ya tendríamos que tirar de un lenguaje de cara el servidor más elaborado como puede ser PHP.

Podríamos comprobar si la variable de los títulos de los post/páginas o lo que sea tienen algún carácter Chino. Y ponerlo en un archivo de PHP que cargue siempre en cualquier página. En el caso de WordPress podríamos hacerlo en el functions.php empleando la propia función que usa WordPress para los títulos:

function chinese_antihack() { $page_title = wp_title('', false); if (preg_match('/[\p{Han}\p{Katakana}\p{Hiragana}]/u', $page_title)) { global $wp_query; $wp_query->set_404(); status_header(404); nocache_headers(); } } add_action('template_redirect', 'chinese_antihack');

Registrar todas las versiones en la Search Console

Es posible que cuando una web esté infectada con este virus, registre las distintas versiones de la web en la Search Console. Es mejor tomar el control de todas ellas y comprobar que se tienen todos los permisos.