Definiciones de robots de búsqueda
http://www.abcdatos.com/buscadores/robot.aspl
¿Qué es un
robot?
Un robot es un programa que atraviesa una estructura de hipertexto recuperando
ese enlace y todos los enlaces que están referenciados allí. De ello se
alimentan los grandes motores de búsqueda de la web.
La diferencia con los
Directorios, es que éstos no poseen robots, están operados por humanos y no
recuperan automáticamente los enlaces incluidos en las páginas web, sino que
sólo se limitan a hallar lo que las personas manualmente incluyen en ellos,
pudiendo como ventaja clasificar por secciones la temática de las web al hacer
el proceso manual.
Los robots son usualmente llamados "Web Wanderers", "Web Crawlers", o "Spiders"
(arañas de búsqueda) y se suele imaginar que se mueven entre los sitios como si
fuesen virus, este no es el caso, un robot simplemente visita los sitios y
extrae los enlaces que están incluídos dentro de estos.
Arañas (Spiders)
Es un robot, pero otorga resultados más fríos.
Gusanos (Worms)
Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un
programa, a diferencia de un robot que es un programa original.
Orugas (Web crawlers)
Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de
robot.
Hormigas (WebAnts)
Cooperativa de robots
Qué es un Agente:
La palabra "Agente" tiene muchos significados en el mundo de la computación de
nuestros días.
Específicamente:
Agente autónomo:
Es un programa que "viaja" entre los sitios web, decidiendo por ellos mismos
cuando son movidos a otros lugares y también deciden qué hacer.
Hay que tener en cuenta que sólo pueden viajar entre sitios ubicados en
servidores especiales y no son muy difundidos en el área de internet.
Agente
inteligente:
Son programas que ayudan al usuario por ejemplo: a elegir productos, rellenar
formularios o a encontrar determinada cosa. Generalmente no tienen mucha tarea
en la red.
Agente de usuario:
Es un nombre técnico para programas que ejecutan tareas para un usuario en la
red. Un ejemplo de ellos son: Netscape Navigator,Microsoft Internet Explorer, y
Email User-agent como Qualcomm Eudora etc.
Motor de búsqueda o Search engine
Se trata de un programa que busca a través de una base de datos, en el contexto de la Web, se refiere usualmente a búsquedas de bases de datos de documentos Html, recopilados por un robot.
Los robots pueden
ser usados para varios propósitos:
Indexar
Validar HTML
Validar Links
Monitorear "qué hay de nuevo"
Generar imágenes
Cómo decide un
robot qué visitar
Esto depende del robot. Cada uno usa diferentes estrategias. En general
comienzan a trabajar desde una lista histórica de URL's. Especialmente con
documentos con muchos links, tales como una lista de servidores "what's New"(qué
hay de nuevo") y desde los sitios más populares en la Web.
Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los
cuales harán cola para ser indexados por el robot.
Son usados a veces otros recursos también como listas de correo, grupos de
discusión, etc.
Esto les da un punto de partida para comenzar a seleccionar url's que ha de
visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de
datos.
Cómo decide un
robot qué indexar
Depende del robot, pero generalmente usa los títulos de HTML (Titles) o los
primeros párrafos, o selecciona la HTML completa e indexa las palabras
contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como
"web", "página", etc) dependiendo de las construcciones de HTML, etc. Algunos
seleccionan las metaetiquetas, u otros tipos especiales de tags ocultas. Una
práctica muy común es indexar también los textos alternativos de los gráficos.
Le recomendamos les preste especial atención, pues en caso de indexarse, son
palabras que contarán con un gran peso sobre la relevancia final en el
documento.
Cómo saber si se es visitado por un robot:
En el caso de ser visitado por un robot, las estadísticas de las páginas muestran un mismo IP que accede en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse manualmente de una forma natural. En ocasiones, por el propio nombre de Host correspondiente a su IP son reconocibles.
Cómo puede evitar
que un robot escanee su sitio
El camino más rápido para evitar esto es crear un archivo robot.txt con las
siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow: /
Si no tiene acceso
completo a su servidor, simplemente puede incluir las siguientes líneas (tags o
etiquetas) en su página web para que no sea indexada:
<META name="ROBOTS" content="NOINDEX">
Y si desea que los links no sean indexados por el robot incluya:
<META name="ROBOTS" content="NOFOLLOW">