viernes, 8 de agosto de 2008

robots arañas

Como Funcionan los Robots Araña

¿Como funciona un robot? Cuando un robot encuentra tu web (normalmente a través de otros links) y la visita, cargaprimero el texto de la primera página. Busca las Meta tags y extrae la información de la descripción y keywords (no todos los buscadores soportan estas Meta tags). Algunos de ellos extraen la información de los primeros 200 caracteres y la utilizan como descripción.

¡Cuidado con las tablas! mira directamente el código para ver que celda de la tabla aparece primero en el buscador y ajusta el diseño para colocar allí el texte que describa tu web. Si en esta celda va colocada una fotografía o un gráfico, no olvides colocar este texto en el "texto alternativo" del gráfico.

A continuación extrae el título. Algunos extraen del texto de la página las palabras más utilizadas y las utilizan como keywords.

Extrae los hipervínculos hacia páginas interiores para visitarlos más tarde y loshipervínculos hacia links exteriores (así es como encuentran nuevas páginas web para seguir rastreando sin parar en la Red).

Guardan toda esta información, el robot sabe cuántas páginas componen tu sitio web, cuantos links exteriores existen y puntúa tu Sitio web analizando toda esta información extraída.

No intentes engañar al robot poniendo texto del mismo color que el fondo de tu web, no utilices palabras claves que son muy buscadas y que no tengan nada que ver con el tema de tu web. El Buscador te penalizará y no aceptará tu web.

Deberás ofrecer al robot toda la información que busca cuando éste visite tu web. Intenta diseñar una página web que " demuestre " al motor de búsqueda que es interesante ponerla en una de las primeras posiciones de su directorio.

Podemos diferenciar los siguientes tipos:

-Arañas(Spiders)-Es un robot, pero otorga resultados más fríos.

-Gusanos (Worms)-Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.

-Orugas(Web crawlers)-Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.

-Hormigas(WebAnts)-Cooperativa de robots.

-Motor de busqueda o Search engine: Se trata de un programa que busca a través de una base de datos, en el contexto de la Web, se refiere usualmente a búsquedas de bases de datos de documentos Html, recopilados por un robot, dichos robots pueden ser usados para varios propósitos:

-Indexar

-Validar HTML

-Validar Links

-Monitorear "qué hay de nuevo"

-Generar imágenes

¿Como decide un robot qué visitar?, esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL\\\'s.Especialmente con documentos con muchos links, tales como una lista de servidores "what\\\'s New"(qué hay de nuevo") y desde los sitios más populares en la Web. Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot.

Son usados a veces otros recursos también como listas de correo, grupos de discusión, etc. Esto les da un punto de partida para comenzar a seleccionar url\\\'s que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.

Usa los títulos de HTML (Titles) o los primeros párrafos, o selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como "web", "página", etc) dependiendo de las construcciones de HTML, etc. Algunos seleccionan las meta etiquetas, u otros tipos especiales de tags ocultas. Una práctica muy común es indexar también los textos alternativos de los gráficos. Le recomendamos les preste especial atención, pues en caso de indexarse, son palabras que contarán con un gran peso sobre la relevancia final en el documento.

No hay comentarios: