Social Media: ¿Cómo Son las Partes de un Buscador?

martes, 15 de febrero de 2011

¿Cómo Son las Partes de un Buscador?

Google Appliance as shown at RSA Expo 2008 in ...Los buscadores están compuestos de tres partes básicas:
  • La araña o robot.
  • Un índice o catálogo.
  • Una interfaz de búsqueda.
La araña o robot

La araña es un pequeño programa que recorre toda la Web siguiendo los enlaces que vinculan a unas páginas con otras. La araña de Google se llama Googlebot, la de Yahoo! se identifica como Slurp y la de Bing como MSNbot. Su trabajo consiste en descargar copias de las páginas que encuentran en el índice o catálogo, también conocido como caché.

Estos tres robots de búsqueda reúnen (la cosecha) información sobre la página en su motor de búsqueda respectivo. Al ver estas arañas con más frecuencia, es también deseable, porque esto significa que se indexan con más frecuencia y mayor probabilidad de aparecer rápidamente en los SERPs (motor de búsqueda de la página de resultados).

Mientras que el índice Googlebot va a su sitio con mayor rapidez, hay veces que no deseas que ciertas páginas o imágenes sean indexadas. La mayoría de las arañas de "buena reputación" obedecen a una directiva propuesta por el archivo robots.txt. Este archivo es el documento que le dice a las arañas lo que pueden y no pueden indexar. También puede indicar explícitamente a un robot no seguir cualquiera de los enlaces en una página con la siguiente metaetiqueta: META NAME = "Googlebot" CONTENT = "nofollow".

Debido a cómo funcionan los robots y la importancia que le dan a los enlaces de texto, muchas personas han comenzado a colocar enlaces de texto lleno de palabras clave a su sitio web en sus firmas en los blogs y otras secciones comentario. Para reducir el impacto que estos tienen, puede indicar a las arañas no seguir un enlace específico al colocar lo siguiente en la etiqueta de anclaje: rel = "nofollow". Esto reducirá el número de enlaces salientes y le ayudará a mantener su pagerank.

No Follow

Ahora, como en la vida, no todos los robots son buenos. No son "malos" los robots que no se preocupan por el archivo robots.txt y sólo por ahí para "la cosecha" de su dirección de correo electrónico. Para luchar contra estos "malos", es decir, contra los robots de spam, algunas personas usan JavaScript para "esconder" sus direcciones de correo electrónico. Sin embargo, cualquier cosa que se pueda escribir para evitar un mal bot puede ser roto por un peor bot. Una empresa está luchando contra los robots dándoles lo que quieren, direcciones de correo electrónico, y muchos de ellos. Sin embargo, todos ellos son de las direcciones de correo electrónico de SPAMERS.

Esperemos que esto aclare una cierta confusión en cuanto a lo que un robot, rastreador, araña es y cómo va sobre la recopilación de información. Si usted tiene alguna pregunta, puede realizarla en los comentarios y vamos a tratar de responder lo más rápidamente posible. Si necesita ayuda con SEO (Search Engine Optimization), nos gustaría ayudarle a mostrar las formas de aumentar la frecuencia y el número de veces que el índice Googlebot, en Yahoo Slurp, y MSNbot en Bing entra en su sitio.

Frecuencia de rastreo

Los portales Web cuyos contenidos cambian con mucha frecuencia son también rastreados con mucha mayor frecuencia, de modo que la información que el buscador tiene sobre dichas páginas pueda estar constantemente actualizada.

Por esta razón aconsejamos mantener algunas secciones de contenido dinámico en las páginas más importantes de su Web: la página de inicio, las cabeceras de sección, etc.. Este contenido cambiante animará a los robots de los buscadores a visitar sus páginas con más frecuencia, de forma que la introducción de un nuevo producto, servicio o contenido será rápidamente incorporada al índice de los buscadores.

La primera visita de la araña

Los motores de búsqueda utilizan arañas para listar sitios web. Cuando usted presenta su página a un motor de búsqueda completando la forma de sumisión necesaria, la araña del motor de búsqueda indexara su página entera. Una “araña” es un programa automatizado que es ejecutado por el sistema del motor de búsqueda. La araña visitara su sitio, leerá el contenido del mismo, las etiquetas Meta y también seguirá los vínculos que conectan al mismo. La araña luego regresa con toda esa información a un depósito central, donde se indexará. Visitará cada vínculo que tenga en su sitio e indexará esos sitios también. Algunas arañas solamente listan un cierto número de vínculos en su página web, así que no cree un sitio web con 500 páginas...

Hay dos ventajas fundamentales en el hecho de ser encontrado por los buscadores a través del enlace de una página ya indexada: por un lado, la temática de la página que le ha servido de referencia y el texto del propio enlace le ofrecen pistas al buscador sobre el contenido de la nueva Web; por otro lado, el lapso de tiempo transcurrido desde la publicación del enlace hasta la incorporación de la nueva Web al índice puede ser muy inferior, a veces sólo días, al que transcurriría si empleamos el formulario de solicitud de alta.

En este caso, la incorporación de la nueva Web a la base de datos del buscador tarda varias semanas.

Aunque desmenuzaremos los aspectos técnicos más adelante, vale la pena reseñar lo que se escribió en el post anterior: el posicionamiento natural en los buscadores, respecto a lo que no pueden leer las arañas.

Sitemap

A estos dos métodos tradicionales de entrada en los buscadores, es decir, a través de un enlace desde otra página ya indexada y a través de una petición expresa desde la página de solicitudes de alta en el índice de cada buscador, vino a sumarse, a finales de 2005, una vía alternativa ofrecida por Google y que ahora aceptan los tres buscadores principales: Sitemap.

Sitemap

Si desea crear para su sitio Web un archivo Sitemap y colocarlo en el directorio raíz vaya a esta dirección. Al colocar un archivo de formato XML con el mapa de sitio en su servidor web, habilita a los rastreadores del motor de búsqueda (como Google); para averiguar qué páginas están presentes y que han cambiado recientemente, y para rastrear su sitio en consecuencia.


Un mapa de sitio web (o mapa de sitio o mapa web) es una lista de las páginas de un sitio web accesibles por parte de las arañas web y los usuarios. Puede ser tanto un documento en cualquier formato usado como herramienta de planificación para el diseño de una web como una página que lista las páginas de una web (ya realizada), organizadas comúnmente de forma jerárquica. Esto ayuda a los visitantes y a los bots de los motores de búsqueda a hallar las páginas de un sitio web.

Los mapas de sitio pueden mejorar el posicionamiento en buscadores de un sitio, asegurándose que todas sus páginas puedan ser encontradas. Esto es especialmente importante si el sitio usa menús Adobe Flash o JavaScript que incluyan enlaces HTML.

También son una ayuda a la navegación por ofrecer una vista general del contenido de un sitio de un simple vistazo.

La mayoría de los motores de búsqueda sólo siguen un finito número de enlaces desde una página, por lo que si el sitio es muy grande la existencia del mapa del sitio puede ser necesaria para que tanto los motores de búsqueda como los usuarios accedan a todo el contenido del sitio.

Algunos desarrolladores afirman que índice de sitio web sería un término más apropiado, pero esta forma se usa mucho menos en español. A veces los "índices de sitio" muestran enlaces en orden alfabético hacia las páginas (o partes de ellas) de los sitios web, por lo que en estos casos pueden ser un complemento a los mapas de sitio (enfocados a las páginas de forma jerárquica, temática).

El índice o catálogo

El índice o catálogo es donde queda almacenada toda la información recogida por las arañas. Cuando realizamos una búsqueda, ésta no se ejecuta sobre el contenido actual de la Web, sino sobre el índice generado por el buscador a partir del contenido o caché de la Web almacenado en su catálogo.

Los motores de búsqueda indexan, recopilan, analizan y almacenan los datos para facilitar la rápida y recuperación de la información precisa. El diseño de los índices incorporan conceptos interdisciplinarios de la lingüística, la psicología cognitiva, las matemáticas, la informática, la Física y las ciencias de la computación. Un nombre alternativo para el proceso en el contexto de los motores de búsqueda diseñado para encontrar páginas web en Internet es Web de la indexación.

Los motores populares se centran en la indexación de texto completo de los documentos en línea, el lenguaje natural. Tipos tales como vídeo y audio y gráficos,también entran en la búsqueda.

La meta de los motores de búsqueda es la re-utilización de los índices de otros servicios y no guardar un índice local, mientras que los motores de búsqueda basados en la memoria caché almacenan de forma permanente el índice junto con el corpus. A diferencia de los índices de texto completo, los servicios parciales de texto restringen la profundidad del índice para reducir el tamaño del mismo . Los servicios de mayor tamaño suelen realizar la indexación en un intervalo de tiempo predeterminado por el tiempo necesario y los costes de transformación, mientras que los motores de búsqueda se basan en índices de tiempo real.

El total de factores que los buscadores tienen en cuenta para clasificar una página es un misterio, aunque fuentes de Google han comentado en distintos foros que superan los doscientos. También se desconoce el distinto peso que cada buscador concede a cada uno de esos factores a la hora de calcular la relevancia total de un documento. Por añadidura, los buscadores cambian con frecuencia el número de factores que toma en cuenta así como la importancia de cada uno de ellos en su algoritmo.

Entre los factores básicos que los buscadores analizan para identificar la categoría de búsqueda en la que debería ser clasificada una determinada página y el orden que debería ocupar en los resultados se incluyen la densidad y prominencia de las palabras clave así como la proximidad entre ellas. También es importante para un buscador filtrar las palabras que, aún repitiéndose mucho, no sirven para identificar el tema de una página Web.

La densidad de las palabras clave

La densidad de palabras clave se refiere a la proporción (porcentaje) de palabras clave contenidas en el número total de palabras intercambiables dentro de una página web.

La relación entre la densidad de palabras clave preferida varía de un motor de búsqueda a otro motor de búsqueda. En general, le recomiendo usar una proporción de densidad de palabras clave en el rango de 2-8%.

Es posible que quiera usar esta herramienta en tiempo real, Análisis de palabras clave,  para ayudarle a optimizar la relación en una página web, la densidad de palabras clave.

La frecuencia de las palabras clave

La frecuencia de palabras clave se refiere al número de veces que una frase o palabra clave aparece en una página web.

La teoría es que cuantas más veces una frase o palabra clave aparece en una página web, más pertinente es a un motor de búsqueda y puede dar a la página una búsqueda con esas palabras clave.

En general, recomiendo que se asegure de que la frase o la palabra clave sea la más importante o esa palabra clave es la más frecuente utilizada en una página web.

Pero tenga cuidado de no abusar del sistema mediante la repetición de la misma palabra clave o frases de palabras clave una y otra vez.

Palabra clave Prominente

La prominencia de palabras clave se refiere a cómo las palabras clave son importantes dentro de una página web.

La recomendación general es colocar palabras clave importante en, o cerca de, el inicio de una página web, frase, título o etiqueta META.

Palabra clave de proximidad

La proximidad de palabras clave se refiere a la cercanía entre dos o más palabras clave. En general, cuanto más cerca están las palabras clave, mejor.

Por ejemplo:
¿Cómo afecta a la densidad de palabras clave las graduaciones de los buscadores?

¿Cómo afecta a la densidad de palabras clave en la clasificación en los buscadores?
Utilizando el ejemplo anterior, si alguien busca "posicionamiento en los buscadores", una página web que contiene la primera frase tiene más probabilidades de rango más alto que el segundo.

La razón es porque las palabras se colocan más cerca. Esto es suponiendo que todo lo demás sea igual, por supuesto.

Stop words

Se emplea este término para referirse a aquellas palabras que, aun formando parte del contenido de una página, nos dicen muy poco acerca del mismo. Por ejemplo, palabras como "este", "como", "el", "las", "y" "en", etc., son términos muy comunes y que, por ello, no aportan un significado concreto. Es por ello que no son tenidos en cuenta para determinar la relevancia de las páginas respecto a una búsqueda concreta, aunque si son indexados y tenidos en cuenta, por ejemplo, a la hora de calcular la proximidad entre dos términos de búsqueda.

El Interfaz de Búsqueda

Interfaz de Google

El objetivo de cualquier buscador es presentar las coincidencias más relevantes ante la consulta hecha por un usuario. En software, la Interfaz es parte de un que permite el flujo de información entre un usuario y la aplicación, o entre la aplicación y otros programas o periféricos. Esa parte de un programa está constituida por un conjunto de y métodos que permiten estas intercomunicaciones.

ACLARACIÓN: es incorrecto el uso de "interfase" como sinónimo de interfaz (o en inglés, interface). La Interfase significa otras cosas en biología y físico-química.


La puerta de acceso a las páginas de resultados de los buscadores es la interfaz de búsqueda. Todos y cada uno de los motores de búsqueda, llámese Google, Bing, Yahoo, Ask, etc., tienen su propia y particular interfaz de búsqueda, desde las minimalístas hasta aquellas que constituyen verdaderos portales web, en los cuáles la búsqueda es simplemente un elemento más.

Al parecer, a la mayoría de las personas les interesaba una interfaz de búsqueda simple y exclusivamente dedicada a servir sólo como puerta de acceso a lo que estaba buscando, de ahí que Google inicialmente terminó siendo la opción elegida, aunque obviamente no fue ese el único motivo. Se puede decir que la interfaz de búsqueda, se presenta bajo dos formatos: antes de cualquier búsqueda y con los resultados de las búsquedas. Estas últimas se denominan SERPs.


Página de resultados de Google

1. Encabezado 2. Barra de búsqueda 3. Resultados de búsqueda 4. Herramientas y filtros 5. Anuncios 6. Parte inferior de la página.

Antes de la búsqueda, muchos buscadores sólo muestran la casilla para introducir nuestra palabra o frase de búsqueda, y con los resultados que ésta devuelve, la página se puebla con enlaces patrocinados, o sea, aquellos que son promovidos y pagados por algún anunciante, y el resto de resultados o enlaces que corresponden a sitios que resultan relevantes al criterio de búsqueda usado, a estos se denomina resultados de búsqueda orgánicos.

Cada uno de los buscadores usa algoritmos de calificación propios que, evaluando los diferentes aspectos que considera pertinentes para un criterio de búsqueda determinado, presenta los resultados de mayor a menor relevancia, de arriba a abajo en la página, y así luego en las siguientes. Cada buscador ofrecerá un resultado de búsqueda diferente al de otro buscador.

Práctica para el posicionamiento natural con palabras o frases clave:


Artículos relacionados:

El Posicionamiento Natural en los Buscadores
Factores de Relevancia para su Sitio Web
 

http://bit.ly/1GG2RoF

Enhanced by Zemanta