Actualidad

¿Cómo funcionan los buscadores?

Fecha:  viernes, 05 de junio de 2015

Para entender los buscadores hay que conocer un poco desde la razón de su existencia hasta cómo funcionan. Por eso, este artículo tiene como objetivo la comprensión a nivel general de su funcionamiento.

Antiguamente los usuarios tenían que navegar por los diversos directorios de internet para localizar la información que necesitaban, lo que ocasionaba una pérdida de tiempo considerable.

Los buscadores nacieron por la necesidad de navegar con más facilidad entre los servidores web y los sitios de internet, convirtiéndose en el método preferido por los usuarios para realizar una búsqueda.

Hoy en día los buscadores más empleados son: Google, Yahoo, Bing, Aol, Ask, Baidu (China), Yandex (Rusia), pero si hablamos a nivel global Google es el buscador más empleado por los usuarios.

Ahora que sabemos cómo surgieron, nos planteamos la siguiente pregunta: ¿cómo funcionan los buscadores?

Existen unas fases comunes para cualquier buscador:

  1. La primera fase la podemos llamar "rastreo". Este procedimiento comienza con una lista de direcciones URL, que realmente son las semillas que el web crawler/spider recorrerá.

Pero seguramente ahora te estarás preguntando: ¿qué es un web crawler?

El web crawler, también conocido como las "arañitas" o el rastreo de páginas web, es un programa diseñado para inspeccionar las páginas de la World Wide Web de forma metódica y automatizada.

El procedimiento del web crawler comienza cuando se le da un conjunto de direcciones URL. El programa visita dichas páginas, las analiza y crea una copia. Luego extrae los enlaces que encuentra en su interior y los almacena para su posterior procesado. Y así sucesivamente.

Cuando se realiza una búsqueda no se ejecuta un web crawler en ese mismo momento para encontrar todas las páginas web que contienen la palabra de búsqueda. En su lugar los buscadores ya han ejecutado anteriormente muchos web crawlers y ya tienen todos los contenidos almacenados, por lo que se pueden mostrar los resultados al instante.

Hoy en día hay muchos crawlers, pero el más usado y conocido es Googlebot, que en realidad es el rastreador de Google.

También es necesario saber que existen los ficheros robots.txt que, básicamente, dan instrucciones a estos rastreadores acerca de las páginas que el propietario de un sitio web no desea que se rastreen. Estos archivos sólo son necesarios si tu sitio web incluye contenido que no deseas que ningún buscador indexe. Al contrario, si deseas que los buscadores indexen el sitio entero, no debe haber ni un solo fichero vacío. Por ejemplo:

La URL que no deseo que ningún buscador rastree puede ser http://www.cpae20.depo.es/web/cpae/login (es decir, no quiero que ningún  buscador me dé resultados de este sitio privado de mi página web al que sólo acceden los miembros de la misma).

  1. La segunda fase la llamamos indexing. En esta fase se creará un índice con toda la información extraída en la primera fase. Éste contiene una lista de palabras o frases donde cada una de ellas tendrá una referencia al documento en el que se encontraron. Con esto no quiero decir que se cree un documento nuevo, sino que se enlazan con una referencia al documento en el que se encontraron dichas palabras o frases.
  2. Ranking y displaying conforman la tercera fase del proceso de los buscadores. Estos procesos se producen después de que el usuario realice la consulta o incluso mientras la está realizando, como vemos en la imagen. Cuando empiezas a escribir una búsqueda, Google Instant predice lo que estás buscando y empieza a mostrarte resultados.

 

 

El ranking emplea el algoritmo del propio buscador, que está relacionado con el SEO. Estos algoritmos dan inicio a la búsqueda de las páginas adecuadas. Por eso es muy importante, si se quiere posicionar o mejorar la visibilidad en los buscadores, conocer al máximo aquellos factores que influyen en el algoritmo del ranking del buscador.

El displaying, en cambio, emplea el SERP (Search Engine Result Page o página de resultado), que también está relacionado con el SEO.

Una de las variables más importantes que se incluye en los algoritmos de los buscadores es el PageRank (número de enlaces que apuntan a un sitio y la calidad de estos enlaces). Sin embargo, hoy en día la realidad es que Google varía su algoritmo continuamente y existen más de 200 variables para elegir los resultados más relevantes para una consulta entre millones de páginas y contenidos.

Entre las variables que revisa Google en su algoritmo se encuentran: la actualidad de los contenidos, los enlaces al sitio y el origen de dichos enlaces, la calidad del contenido, las URL y el título de la página web, las palabras de la página web, la personalización, los sinónimos de las palabras clave, las recomendaciones de los usuarios a los que estás conectado, la corrección ortográfica…

Y hasta aquí el funcionamiento básico de los buscadores. Espero que el artículo os haya sido de utilidad. 

Sonia Patricia Romero Navarro
Asesora tecnológica del CPAE 2.0
Ingeniera informática

Fuente:  CPAE