Ver Mensaje Individual
  #2 (permalink)  
Antiguo 05/02/2004, 14:16
Cluster
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 2 meses
Puntos: 129
Sobre el tema de "indexar".. pricipalmente lo que hacen es trabajar como "spiders" (arañas) .. es decir:

Dada una pàgina de inicio de un sistio (ejemplo www.tal.tal que apuntaría a un index.??? ) se localizan los links que tenga esa página y se van abriendo dichos links (paginas) en busqueda recursiva de más links (tantos niveles como "resolución" quieras .. esto vá directamente proporcianal al tiempo de proceso ). El proceso de indexación consite en eliminar todo código que exista (entre < y > se supone que es código HTML/etc) para quedarse con el "contenido" de la página .. y de ahí se va evaluando ese "contenido" y se buscan palabras repetidas .. indexando las que mas se repitan (con cierto nivel de repeticiones míminio a indexar para no indexar "artículos" y palabras cortas repetitivas (de -3 caracteres suele ser).

Esta "rueda" ya está más que reinventada .. En sitios como www.hotscripts.com puedes ver las soluciones PHP a este problema.

Ahora .. para tu sitio web .. En general .. para que un buscador trabaje mejor .. lo ideal es separa el código fuente del contenido en sí, es decir .. tener tus "textos, articulos ..etc" (sólo el contenido, nada de HTML de su presentación ..) en algún sitio externo tipo base de datos (mucho más optimo las buquedas) o archivos de texto plano .. o incluso en archivos con estructura XML ...por decir algunos ejemplos.

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.