Buscadores: Funcionamiento, Tipos , Procesos

Conceptos básicos del funcionamiento de los buscadores

Un motor de búsqueda o buscador de internet es un sistema que busca en servidores web de todo el mundo, determinada información para mostrar una serie de resultados relacionados con cada búsqueda. Estos resultados son enlaces directos a cada sitio web donde encontró la información que estaba buscando.

Una vez que un usuario especifica una palabra clave o término de búsqueda en un motor de búsqueda, el motor de búsqueda utiliza bots para rastrear millones de servidores web que buscan sitios que hayan encontrado información relevante sobre la palabra clave buscada.

Un motor de búsqueda es un software llamado araña, bot (spider o crawler) completamente automatizado que utiliza un programa llamado rastreador web para escanear periódicamente internet en busca de sitios web para agregar a su índice. De hecho, la mayoría de los sitios que aparecen en los resultados de búsqueda no han enviado manualmente por los usuarios, sino que el buscador los  agrega automáticamente a medida que los usuarios consultan los buscadores.

En otras palabras, al encontrar lo que está buscando, el spider de Google indexa dicho contenido. Es decir, lee la página web, analiza su contenido, lo clasifica y lo guarda en la base de datos de Google para futuras búsquedas, dentro de su índice. Es importante anotar que indexa todo el contenido incluyendo texto, vídeos, imágenes, enlaces y códigos.

Para que un buscador encuentre un contenido en internet, este debe estar indexado, es decir, debe ser visible para el buscador. En la actualidad, casi todas las webs, blogs y demás sites se realizan con base en un sistema de plantillas prestablecido llamados CMS (Content Management System), como puede ser WordPress, Prestashop, Magento o Joomla. Estos CMS mediante herramientas llamadas plugings pueden indexan de manera automática todo el contenido y lo hacen visible para Google, dado que en ellos se puede rellenar y cumplimentar de manera sencilla cada etiqueta o tag.

En cambio, si se desarrolla una web desde cero, diseñando con HTML, por ejemplo, es el diseñador quien se encargaría de indexar todo el contenido utilizando tags y metatags.; hacer esto no es tan sencillo como en un CMS como WordPress. En cualquier caso, es necesario hacerlo o el contenido sería invisible para Google.

Proceso de búsqueda

El proceso que utilizan los buscadores para mostrar resultados de búsqueda se puede dividir en tres fases:

Rastreo: Los buscadores  utilizan programas automatizados llamados rastreadores para escanear internet en busca de páginas nuevas o actualizadas. Los buscadores guardan las direcciones (URL) de estas páginas en una enorme lista catalogada que utilizará más adelante. Hay muchas formas de encontrar páginas, pero la forma principal es seguir enlaces en páginas que los buscadores  ya tienen listadas.

El primer paso que deben hacer los buscadores es averiguar qué páginas hay en internet, los motores de búsqueda rastrean constantemente nuevas páginas y las agregan a su lista de páginas conocidas. Muchas páginas los buscadores las encuentran a través de enlaces de otras páginas web ya conocidas por los buscadores. También los buscadores incluyen paginas nuevas cuando los propietarios de los sitios proporcionan una lista de sus páginas (es decir, mapas del sitio o sitemap) para que las rastreen. Una vez que un buscador descubre una URL de una página, la visitan y la rastrean para averiguar qué contiene y catalogarla.

Indexación: Los buscadores visitan las páginas que descubre rastreando e intenta comprender el contenido de cada página,  analizan el contenido, las imágenes y los archivos de video en las páginas para comprender su significado. Toda esta información se almacena en una enorme base de datos almacenados en servidores.

Retorno de resultados de búsqueda: cuando los usuarios buscan en un motor de búsqueda, estos intentan identificar los resultados de mayor calidad. Para determinar el «mejor» resultado, consideran muchos factores (más de 200), incluidos la ubicación, el idioma, el dispositivo (desktop, tablet o móvil) y las consultas previas del usuario. Por ejemplo, si un usuario de Madrid busca «taller de reparación de motos», obtendrá diferentes respuestas a la misma consulta que un usuario de Hong Kong. Los el buscadores no aceptan pagos para mejorar el posicionamiento de las páginas web, el orden de los resultados lo determina un algoritmo.

¿Cómo ve un buscador una página web y clasifica su información?

  • La araña llega a nuestro sitio web y recopila la información que tiene esa página. Por tanto, lo primero que se debe hacer es conocer qué páginas existen en la web. Es aquí donde empieza el proceso denominado rastreo: un proceso de descubrimiento por el que constantemente se buscan nuevas páginas y se añaden a un listado de páginas que ya conocemos, dado que no existe un registro centralizado de todas las páginas web.
  • Una vez que tiene la información, analiza la información para averiguar de qué trata esa página. Por ejemplo: si se trata de un despacho de abogados, un restaurante argentino, etc.
  • Guarda esa información en su base de datos y la referencia a la URL de esa página. Esto se conoce como: indexación. El buscador analiza el contenido de la página, cataloga los archivos de imagen y vídeo insertados en ella, y la categoriza y guarda en el índice del buscador, que crea una enorme base de datos almacenada en multitud ordenadores.

Principales buscadores

Los motores de búsqueda de Internet suelen ser las páginas que la mayoría de las personas visitan tan pronto como abren su navegador web. Incluso hay muchas personas que hace de su motor de búsqueda favorito la página de inicio de su navegador para no tener que  introducir direcciones.

Los motores de búsqueda son las herramientas en línea más utilizadas en el mundo ya que nos permiten buscar en toda la web y se encargan de recopilar los mejores resultados en función de lo que buscamos.

En este sentido, no cabe duda de que Google es el buscador más utilizado en el mundo, sin embargo, existen otros buscadores alternativos como Bing, Yahoo, Baidu, Yandex, Duckduckgo.

Los principales buscadores generalistas son:
 
·         Google https://www.google.es/ : es el líder indiscutible en casi todo el mundo, con un 92,08% del total de las búsquedas en internet. La característica más destacada de Google como motor de búsqueda es su facilidad de uso. Cabe señalar que este buscador ha sido criticado a menudo por el manejo de la información personal de los usuarios debido a la gran cantidad de datos que recopila a través de la Búsqueda y todos sus servicios.
 
·         Bing https://www.bing.com/ : el 2º por número de búsquedas aunque se encuentra a mucha distancia de Google con un 2,7%, es un motor de búsqueda diseñado por Microsoft y lanzado en 2009. Una de las principales características de Bing es su enfoque de la seguridad, ya que este navegador le asegura que no utilizará su información o datos de búsqueda para venderlos a empresas que los necesiten con fines publicitarios. Por otro lado, cuando se trata de estructuras de datos, Bing cuenta con herramientas que ayudan con el posicionamiento de la página web. De esta forma, si tienes un sitio web online, serás más accesible para tu público objetivo a través del buscador Bing.
Otra característica de Bing que distingue al navegador de la competencia es la forma en que usan imágenes y videos en la búsqueda.
Por ejemplo, cuando buscamos una imagen específica, Bing nos brinda una lista de categorías de imágenes en función de las palabras clave que usamos en el motor de búsqueda y las similitudes que podemos encontrar en función de ese término.
 
·         Yahoo! https://es.search.yahoo.com/ : fue de los primeros buscadores que tuvieron éxito en Internet. Actualmente el buscador Yahoo!, se nutre principalmente de la base de datos de Bing debido a un acuerdo entre Microsoft y Yahoo!. Sus principales características son  accesos rápidos a finanzas, deporte y el clima, el filtrado de foto y videos. Es el tercer buscador más utilizado con 1,63% de cuota de  mercado.
 
·         Baidu https://www.baidu.com/ es el principal motor de búsqueda de China, como es lógico su idioma es el chino, su sede está en Pekín y fue fundado en el año 1999. Es el sitio web más visitado de China y el cuarto sitio web más visitado del mundo, lo que lo convierte en un factor importante para las empresas que buscan hacer negocios en Asia.
 
·         Yandex https://yandex.com/ Se le denomina el Google ruso, nació en el año 1997, dando srvicio a casi 12 millones de usuarios en Rusia, Ucrania, Bielorrusia, Kazajistán y Turquía.
 
·         Duckduckgo: es motor de búsqueda centrado en la privacidad, es una alternativa para todos los que no quieran ser rastreados y tener la máxima privacidad a la hora de buscar contenidos en Internet. No recopilan la información cuando realiza una búsqueda, lo que significa que los resultados de la búsqueda no se personalizan en función del historial o preferencias.
 

Metabuscadores

Otra variante de los buscadores son los metabuscadores, son portales que utiliza información de otros buscadores para obtener la mejor información de cada uno. Es decir, combinan los mejores datos para brindar las respuestas más completas en torno a una palabra clave o tema.

Los motores de metabúsqueda no tienen sus propias bases de datos, sino que utilizan información de otros motores de búsqueda para ofrecer siempre una combinación de las mejores páginas.

Los metabuscadores más utilizados en Internet son los siguientes:

  • Zapmeta es uno de los metabuscadores más rápidos que ofrece resultados filtrados en clusters  que ayudan a una mejor selección de la información.
  • Dogpile. Busca a la vez en Google, Yahoo y Yandex.
  • Yippy permite la búsqueda en blogs.
  • Metacrawler. El primer metabuscador nació en 1995, busca en Yahoo y Google y muestra los resultados de uno u otro según la búsqueda realizada.
  • Webcrawler. Une Google y Yahoo y otros motores de búsqueda que no identifica.
  • All in One, Busca en varios servicios a la vez permitiendo al usuario añadir otros.
  • Search Funnel (Android, iPhone/iPad) es una aplicación para dispositivos móviles que realiza abúsquedas en Google, Facebook, YouTube, Amazon, Wikipedia, IMDb, Twitter, eligiendo el servicio en el que quieres buscar.
  • Metabuscadores de viajes como Tripadvisor, Booking, Trivago, Expedia, etc. Estos motores nos indican en qué páginas encontrar las mejores ofertas de vuelos y alojamiento.

Las características de los metabuscadores son:

  • No disponen bases de datos propias. Se alimentan de los resultados proporcionados por otros buscadores.
  • Permiten hacer una búsqueda por el mismo criterio en varios buscadores a la vez.
  • Algunos de ellos, tienen establecido una serie de buscadores por defecto y, en otros casos, permiten al usuario seleccionar los que les resulten más interesantes.
  • Los resultados son presentados en una única interface. Desde el punto de vista del usuario, la búsqueda es transparente, simplemente, se le presentan los resultados que ha obtenido de los diferentes motores de búsqueda con los que tienen acuerdo.

Buscadores académicos

  • Google Academico https://scholar.google.com/
  • Bing Académico https://www.bing.com/?setlang=es
  • Wolframalpha. Las búsquedas dan como resultado artículos científicos o trabajos de expertos. https://www.wolframalpha.com/
  • ERIC . Biblioteca especializada en temas académicos del el Instituto de Ciencias de la Educación del Departamento de Educación de Estados Unidos (Education Resources Information Center). Tiene un tesauro. https://eric.ed.gov/
  • RefSeek. Útil por su gran simplicidad de uso. https://www.refseek.com/
  • JURN. Busca en millones de artículos académicos de uso libre y tesis doctorales. Está ordenado por disciplinas académicas. http://www.jurn.org/#gsc.tab=0
  • Teseo. Buscador del ministerio de Educación, Cultura y deporte del gobierno de España, recoge tesis doctorales y realiza mapas mentales de los resultados.
  • Redalyc. Hemeroteca científica de revistas de América Latina, Caribe, España y Portugal. https://www.redalyc.org/
  • Dialnet. Buscador de la Universidad de la Rioja. Busca en revistas, actas de congresos, tesis doctorales, y otros recursos académicos. https://dialnet.unirioja.es/
  • World Wide Science. Busca hacer accesible el contenido académico generado en todo el mundo y presenta los resultados por relevancia. http://worldwidescience.org/
  • Science. Buscador del gobierno de EEUU, con versión en español, que busca en  en más de 60 bases de datos y en más de 2200 sitios web de 15 agencias federales, según su propia información. Tiene un banco de imágenes. https://ciencia.science.gov/
  • The Lens. Buscador académico que reúne patentes y documentos académicos, como artículos, comunicaciones, libros y tesis, en un sistema unificado y separado a la vez, ya que cada tipo de documentos tiene su lugar  en la página de resultados. https://www.lens.org/
  • Wayback Machine No es exactamente un buscador académico pero permite ver la evolución de una página web a lo largo de su historia, lo que le convierte en una potente fuente de información para diseñadores. Permite acceder a libros, imágenes, vídeos y fuentes públicas. https://archive.org/web/