Sintaxis de URLs

La URL es la base del posicionamiento, puesto que los motores de búsqueda son un directorio/buscador de URLs

Autor:: Carlos Sánchez
Temática:: Enlazado; Rastreo

Fecha de publicación:: 2023-04-25
Última revisión:: 2023-10-18

Para entender que es una URL, su sintaxis y entender como nos puede afectar en cuanto a SEO, primero es conveniente saber las bases y de donde viene.

URI

Una URI (Uniform Resource Identifier, por sus siglas en inglés) es una cadena de caracteres que identifica un recurso en la web de manera única. En otras palabras, es una forma de nombrar o identificar un recurso (ya sea una página web, una imagen, un archivo de audio, etc.) en internet.

Categorías de URI

Oficialmente una URI se divide en dos categorías principales: URN (Uniform Resource Name) y URL (Uniform Resource Locater). Las URL son un tipo de URI que se utilizan para especificar la ubicación de un recurso en internet, mientras que las URN se utilizan para identificar el recurso de manera única, independientemente de su ubicación.

Una URL es un tipo específico de URI que se utiliza para identificar la ubicación de un recurso en la web.
Una URN identifica los recursos de una web, pero indica donde se encuentra el recurso u objeto.

URL

Una URL es una dirección que indica donde está un recurso. Cuando se accede a una URL por medio del navegador, este le solicita la información al servidor de dicho recurso y el servidor ejecuta lo que tiene programado en ese caso. Entonces el navegador interpreta dicha información. Esta es una explicación básica de para qué sirve una URL y cómo funciona una web.

Las URL son case sensitive. Esto quiere decir que una letra mayúscula es distinta de una minúscula y lleva a dos destinos diferentes.

No obstante, la dirección de un recurso en Internet tiene muchas características para que se pueda llegar a un recurso deseado. Es por ello que es importante conocer la sintaxis y cada una de las partes.

La sintaxis de una URL absoluta

Protocolo

El protocolo de una URL proporciona información sobre cómo se debe manejar la conexión entre el navegador del usuario y el servidor web que aloja el recurso. Por ejemplo, HTTPS utiliza una capa de seguridad adicional para proteger los datos que se transmiten entre el usuario y el servidor, mientras que FTP utiliza un conjunto diferente de comandos para transferir archivos.

Los protocolos más comunes que se utilizan en las URL son HTTP (Hypertext Transfer Protocol) y HTTPS (Hypertext Transfer Protocol Secure), que se utilizan para acceder a sitios web y transferir información entre servidores y clientes. Otros protocolos incluyen FTP (File Transfer Protocol), que se utiliza para transferir archivos, y SMTP (Simple Mail Transfer Protocol), que se utiliza para enviar correos electrónicos.

Respecto a SEO, los protocolos que nos interesan son el http y el https. Que son el protocolo necesario para una web y su funcionamiento. Haciendo hincapié en que es mejor siempre el https ya que aporta mayor seguridad al usuario y no recibirá advertencias por medio de su navegador de la posible inseguridad de la web.

Contenido Mixto o Mixed content

Cuando una página web utiliza diferentes protocolos, como HTTPS y HTTP, para cargar recursos, esto se conoce como contenido mixto o mixed content en inglés. En el ejemplo que mencionas, la página web se sirve a través de HTTPS, pero se intenta cargar una imagen a través de HTTP, lo cual crea contenido mixto.

Contenido mixto puede ser una preocupación para la seguridad, ya que compromete la privacidad y la integridad de los datos transmitidos. Los navegadores modernos a menudo bloquean o advierten sobre el contenido mixto para proteger a los usuarios de posibles riesgos de seguridad. Es importante asegurarse de que todos los recursos de una página web se carguen a través de un protocolo seguro como HTTPS para evitar problemas de contenido mixto.

Subdominio

Un subdominio es una extensión de un dominio principal que actúa como un sitio web independiente dentro de ese dominio. Esencialmente, un subdominio permite dividir un dominio principal en varias secciones lógicas o sitios web, cada uno con su propio contenido y estructura. Un subdominio se representa como un prefijo agregado al dominio principal, separado por un punto. Por ejemplo, en "carlos.sanchezdonate.com", "carlos" es el subdominio y "sanchezdonate.com" es el dominio principal.

Una vez se tiene un dominio, se pueden tener tantos subdominios como se quieran, ya que no generan coste extra alguno.

Dominio

Un dominio es una dirección única en la web que identifica un sitio web en particular. Es como la dirección postal de una empresa en Internet, y se compone de dos partes: el nombre del dominio y la extensión de dominio. Por ejemplo, en "sanchezdonate.com", "sanchezdonate" es el nombre del dominio y ".com" es la extensión de dominio.
En la URL el dominio indica el servidor y qué parte del servidor es a la que se pretende acceder.

Cuando un usuario ingresa una dirección web en su navegador, como "sanchezdonate.com", el navegador envía una solicitud al servidor DNS (Domain Name System) para obtener la dirección IP asociada con ese nombre de dominio. El servidor DNS es un sistema de nombres jerárquico que funciona como un directorio telefónico para Internet, y es responsable de traducir los nombres de dominio en direcciones IP.

El proceso de conversión de un nombre de dominio en una dirección IP se llama resolución de nombres de dominio, y se realiza en varios pasos. Primero, el servidor DNS local (generalmente proporcionado por el proveedor de servicios de Internet del usuario) consulta su caché de DNS para ver si ya ha resuelto esa dirección web en el pasado. Si es así, devuelve la dirección IP almacenada en su caché. Si no, envía una solicitud al servidor DNS raíz, que es el primer nivel de autoridad en el sistema de nombres de dominio.

El servidor DNS raíz no tiene información sobre el nombre de dominio solicitado, pero puede indicar al servidor DNS local cuál es el servidor DNS de nivel superior (TLD) que se encarga de ese dominio en particular. Por ejemplo, si se busca "sanchezdonate.com", el servidor DNS raíz puede indicar al servidor DNS local que se comunique con el servidor DNS de nivel superior ".com".

El servidor DNS de nivel superior ".com" tiene información sobre todos los dominios con la extensión de dominio ".com", y puede proporcionar la dirección IP del servidor web que aloja el sitio web "sanchezdonate.com". El servidor DNS local almacena esta información en su caché y devuelve la dirección IP al navegador del usuario, que finalmente se conecta al servidor web utilizando la dirección IP.

En resumen, el DNS es un sistema de nombres jerárquico que convierte los nombres de dominio en direcciones IP. El proceso de resolución de nombres de dominio implica varios pasos, que incluyen consultas a los servidores DNS locales, raíz y de nivel superior, para obtener la dirección IP asociada con un nombre de dominio en particular. Este proceso se llama resolución de nombres de dominio y permite que los usuarios accedan a sitios web utilizando nombres de dominio fáciles de recordar en lugar de tener que recordar direcciones IP numéricas complejas.

Los dominios se adquieren a través de registradores de dominios, que son empresas que ofrecen el servicio de registrar y administrar dominios en Internet. Para registrar un dominio, primero debes comprobar que esté disponible y luego se puede "comprar", que realmente es alquilar, porque no se puede adquirir para siempre.

Extensión de dominio

La extensión de dominio son esas letras que siempre van detrás de un punto después del nombre del dominio. Hay muchos tipos diferentes disponibles, pero tienen que estar recogidas en el listado de TLDs de IANA.

Las extensiones de dominio se dividen en dos categorías principales:

Extensiones de dominio de nivel superior genéricas (gTLD)

Las extensiones de dominio gTLD son las más populares y generalmente se consideran más genéricas,

Extensiones de dominio de nivel superior de código de país (ccTLD)

Las extensiones de dominio ccTLD, por otro lado, se utilizan a menudo para sitios web regionales o locales y pueden tener un impacto positivo en el SEO geolocalizado, según la configuración que se emplee.

Extensiones especiales

Algunas extensiones de dominio especiales pueden tener un impacto en el SEO de un sitio web. Por ejemplo, los motores de búsqueda pueden otorgar una mayor autoridad y confianza a los sitios web que utilizan ciertas extensiones de dominio especiales como:

.org: indica que el sitio web pertenece a una organización sin fines de lucro, lo que puede sugerir un enfoque más altruista y confiable para los motores de búsqueda.
.info: indica que el sitio web proporciona información, lo que puede ser relevante para ciertos tipos de contenido y búsquedas.
.biz: indica que el sitio web está enfocado en actividades comerciales, lo que puede ser relevante para ciertos tipos de búsquedas relacionadas con empresas y negocios.
.edu indica que el sitio web pertenece a una institución educativa, como una universidad, un colegio o una escuela. Al igual que con la extensión de dominio .gov, los motores de búsqueda pueden considerar que los sitios web con la extensión .edu son más confiables y autorizados en lo que se refiere a temas educativos.

Estas extensiones de dominio especiales indican que el sitio web pasan por un proceso de verificación y validación. Por lo tanto, los motores de búsqueda suelen considerar que los sitios web con estas extensiones de dominio son más confiables y relevantes en ciertos ámbitos, como la educación o los servicios gubernamentales.

Es importante tener en cuenta que, aunque estas extensiones de dominio especiales pueden tener un impacto positivo en el SEO, el contenido y la calidad del sitio web siguen siendo los factores más importantes para su posicionamiento en los motores de búsqueda.

Combinación de extensiones

Aunque es algo poco ortodoxo, existe la combinación de extensiones de dominios, como por ejemplo: .edu.es o .co.uk. Lo ideal y más sencillo para obtener este tipo de extensiones es buscar un registrador de dominios que proporcionen estas extensiones directamente.

Puerto

Los puertos son : y una secuencia de números después de la extensión de dominio. Los estándares son el puerto 443 para https y el 80 para el protocolo http. Cada protocolo tiene un número de puerto predeterminado si no se especifica lo contrario. Salirse de esta estandarización puede conllevar serios problemas respecto al SEO.

Ruta

La ruta de una URL es la parte de la dirección web que sigue al dominio y que identifica la ubicación específica de una página dentro del sitio web. Por ejemplo, en la URL "https://carlos.sanchezdonate.com/articulo/codigos-de-respuesta/", la ruta sería "/articulo/codigos-de-respuesta/".

La ruta de una URL puede afectar al SEO de varias maneras. Aquí hay algunas consideraciones clave:

Relevancia del contenido: La ruta de la URL puede ayudar a los motores de búsqueda a comprender el contenido de la página. Es importante que la ruta de la URL incluya palabras clave relevantes que describan el contenido de la página.
Jerarquía del sitio web: La ruta de la URL también puede indicar la ubicación de la página dentro de la estructura jerárquica del sitio web. Esto puede ayudar a los motores de búsqueda a entender mejor la organización del sitio web.
Usabilidad y legibilidad: Una ruta de URL clara y fácil de leer puede mejorar la usabilidad y la experiencia del usuario en general. Por lo tanto, es importante que la ruta de la URL sea descriptiva y fácil de entender para los visitantes del sitio web.

Extensión de archivo

Un archivo en una dirección web y que indican el tipo de archivo que es. Ya sean imágenes (como png, jpg, gif); vídeos (mp4, mov, avi);PDF, o incluso extensiones webs (html, php, py, asp).

En este último caso no ocurre nada porque las webs se muestren con esa extensión, son URLs perfectamente SEO Friendly. Lo importante es mantener una estandarización y que toda la web funcione igual. No obstante, por cuestiones estéticas hay formas de eliminar visualmente las extensiones de los archivos en una URL.

Parámetro

Los parámetros son una variante de la propia URL. Estos pueden modificar el contenido o simplemente utilizarse con fines de analítica y otras características que pueda necesitar o presentar el proyecto.

Los parámetros son todo aquello en una URL que van detrás de una "?". Y se pueden añadir en cualquier web desde el lado del usuario. Solo se modifica la llamada que hace el usuario desde fuera.

Para que los parámetros no afecten negativamente en SEO cuando no estén generando un contenido totalmente distinto, es importante que tengan un self-canonical.

Los parámetros pueden servir para hacer una mejor gestión de los archivos y hacen buena combinación con la gestión de la cache.

Una página con parámetros por lo general puede ser tomada como una URL independiente de otra, ya que finalmente suele actuar como una página distinta. Para su gestión se puede hacer redirección de los parámetros, pero es algo complejo.

Hashbang o ancla

El hashbang en una URL (también conocido como "fragmento de hash") es un signo de exclamación seguido de una cadena de texto que se coloca después del símbolo "#" en una dirección web. Por ejemplo, en la dirección "https://carlos.sanchezdonate.com/articulo/renderizacion-de-javascript-en-el-seo/#incremental-static-regeneration-isr", el hashbang es "#incremental-static-regeneration-isr".

El hashbang se utiliza en algunas aplicaciones web para permitir que los usuarios naveguen por diferentes secciones de la aplicación sin tener que actualizar la página web completa. Cuando un usuario hace clic en un enlace que contiene un hashbang, el navegador web lee el hashbang y envía una solicitud al servidor web para cargar el contenido correspondiente a ese fragmento de la página web. El servidor web responde con el contenido específico que corresponde al hashbang y lo carga en la sección apropiada de la página web, sin tener que actualizar todo el contenido de la página.

El uso de hashbang en las URLs puede ser beneficioso para mejorar la experiencia del usuario en una aplicación web, ya que permite una navegación más fluida sin la necesidad de recargar la página completa cada vez que se accede a una nueva sección.

El abuso de hashbangs no tiene ningún beneficio directo en el SEO, ya que Google no es capaz de rastrearlos:

hey @JohnMu does google sees a # in URL, which is mostly used to provide navigation for different part of page in "Table of Contents", as a different URL & index it separately.
For Eg:https://t.co/6Mot0YS0xk https://t.co/aeKoA9r3rv
— praman menaria (@praman845) February 11, 2022

Redirecciones de enlaces ancla

Los hashbang se gestionan desde el usuario y no desde el servidor. Por lo que no se pueden hacer redirecciones desde el servidor.

En caso de que se necesiten hacer, se pueden hacer desde el usuario por medio de JS. Aunque esta sería una implementación pensada en el usuario, que no afectaría en los motores de búsqueda (como mucho negativamente por tener que cargar más js, pero tampoco afecta excesivamente).

Este código por ejemplo hace que todos los enlaces con ancla se redireccionen a su propia versión en minúscula y sustituyendo las "_" por "-":

window.addEventListener('load', function() { var fragment = decodeURI(window.location.hash.substr(1)); if (fragment.indexOf('_') !== -1) { var newFragment = fragment.replaceAll('_', '-').toLowerCase(); history.replaceState(null, '', window.location.href.replace(fragment, newFragment)); } else if (fragment.match(/[A-Z]/)) { var newFragment = fragment.toLowerCase(); history.replaceState(null, '', window.location.href.replace(fragment, newFragment)); } });

URL Relativas y absolutas

Las URLs son una forma de especificar la dirección de un recurso en internet. Cuando dicho recurso está en el mismo dominio, no es necesario especificar la URL completa, y se puede solicitar el recurso (Ya sea por medio del atributo src, por href o cualquier método que necesite una URL) desde el sitio donde se encuentra con distintos atajos.

Esto puede agilizar ciertos trabajos en migraciones o permitir ciertas funcionalidades complejas. Mientras que la URL absoluta, es implemente la URL normal.
Existen distintas formas de hacer una URL relativa:

Tipo de URL en ejemplo	Descripción
<a href="pagina">ejemplo</a>	La página está en la misma carpeta que la página actual
<a href="categoria/pagina">ejemplo</a>	La página está en la carpeta categoría que se encuentra en la ruta de la página actual
<a href="/categoria/pagina">ejemplo</a>	La página se encuentra en la carpeta categoría que desciende directamente de la carpeta raiz, ROOT.
<a href="../categoria/pagina">ejemplo</a>	La página se encuentra en la carpeta categoría que está a un nivel superior de la carpeta/página actual.

Importante: nunca se debe indicar una URL relativa para metaetiquetas. Ya que no serán leídas correctamente.

Extraer partes de una URL con programación

Ahora que conocemos las distintas partes de una URL, vamos a ver como extraer estas partes específicas con programación:

PHP

$url = "https://carlos.sanchezdonate.com/articulo/sintaxis-de-urls/?parametro#url"; // Obtener el hostname $hostname = parse_url($url, PHP_URL_HOST); echo $hostname; // Output: carlos.sanchezdonate.com // Obtener la ruta $path = parse_url($url, PHP_URL_PATH); echo $path; // Output: /articulo/sintaxis-de-urls/ // Obtener la URL completa $href = parse_url($url, PHP_URL_SCHEME) . '://' . parse_url($url, PHP_URL_HOST) . parse_url($url, PHP_URL_PATH); echo $href; // Output: https://carlos.sanchezdonate.com/articulo/sintaxis-de-urls/ // Obtener la cadena de consulta (query string) $query = parse_url($url, PHP_URL_QUERY); echo $query; // Output: parametro // Obtener el fragmento (hash) $hash = parse_url($url, PHP_URL_FRAGMENT); echo $hash; // Output: url
Ten en cuenta que la función parse_url en PHP no incluye automáticamente el carácter "?" para la cadena de consulta (query string) ni el carácter "#" para el fragmento (hash). Si deseas incluirlos en las salidas, puedes agregarlos manualmente.

JavaScript

***********************************************************************

URL Relativas y absolutas

Tipo de URL en ejemplo	Descripción
<a href="pagina">ejemplo</a>	La página está en la misma carpeta que la página actual
<a href="categoria/pagina">ejemplo</a>	La página está en la carpeta categoría que se encuentra en la ruta de la página actual
<a href="/categoria/pagina">ejemplo</a>	La página se encuentra en la carpeta categoría que desciende directamente de la carpeta raiz, ROOT.
<a href="../categoria/pagina">ejemplo</a>	La página se encuentra en la carpeta categoría que está a un nivel superior de la carpeta/página actual.

Importante: nunca se debe indicar una URL relativa para metaetiquetas. Ya que no serán leídas correctamente.

URN

Las URNs se crean bajo el estándar RFC 8141. Se registran oficialmente al igual que los dominios a través de la Internet Assigned Numbers Authority (IANA).

Estos tienen unos estándares de identificación, por ejemplo, el estándar de identificación de un libro es el ISBN. Por lo que la URN de un libro sería por ejemplo así:

urn:isbn:9788423430789

La URN oficial de un libro es "urn:isbn:" seguido del número ISBN de 10 a 13 dígitos que tenga asignado el libro. Es importante destacar que no todos los libros tienen un URN registrado oficialmente.

Estándares de identificación internacionales para distintos tipos de recursos

Los más comunes son:

ISBN (International Standard Book Number): utilizado para identificar libros y publicaciones similares.
ISSN (International Standard Serial Number): utilizado para identificar publicaciones seriadas, como revistas, periódicos y boletines.
ISRC (International Standard Recording Code): utilizado para identificar grabaciones de audio y video.
DOI (Digital Object Identifier): utilizado para identificar y localizar recursos digitales, como artículos de revistas, informes técnicos, e-books y otros contenidos en línea.
ISAN (International Standard Audiovisual Number): utilizado para identificar recursos audiovisuales, como películas, programas de televisión, videos y otros contenidos relacionados.
ISMN (International Standard Music Number): utilizado para identificar publicaciones musicales, como partituras, libros de música y otros recursos relacionados.
ISNI (International Standard Name Identifier): utilizado para identificar de forma única a personas y organizaciones involucradas en la creación, producción, gestión y distribución de recursos culturales.
ISTC (International Standard Text Code): utilizado para identificar textos, como libros electrónicos, documentos en línea y otros recursos similares.

De entre los cuales destaco el ISBN, el ISSN y el DOI por su importancia en las revistas científicas. Es algo que puede tener cierta relevancia en el EEAT, especialmente en las webs de YMYL ya que la exposición de estos datos puede hacer ver cierta autoridad. Más aún si también se exponen en los datos estructurados.

Esquema de URI

Independientemente de las categorías mencionadas, están los URI Scheme, donde se definen ciertos protocolos para la identificación de recursos. Estos serían los protocolos, que muchos de ellos están presentes en las URLs como: ftp, sftp, http, https, otros en las URN como el propio URN y hay algunos protocolos especiales que no entran en ninguna de las categorías previas, como el Data URI.