Ver Mensaje Individual
  #3 (permalink)  
Antiguo 18/07/2006, 08:53
Cluster
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 4 meses
Puntos: 129
No conozco tutorial especifico sobre el tema .. además que el concepto de "indexación" no es própio de PHP .. (por si quieres buscar información al respecto).

En líneas generales, la "indexación" (tal vez ya lo sepas .. pero por si a caso) .. se trata de un proceso tipo:

1) Recorrer estructura del sitio (directorios desde uno dado en forma recursiva). Buscando sólo las páginas con extensiones determinadas.

2) Aplicar expresiones regulares a la página para:
2.1) Limpiar de código HTML/javascript y así quedarse con el contenido en sí de la página.
2.2) Quitar o filtrar palabras de menos de 3 caracteres (suelen hacer eso).

3) "Indexar" .. Tomar esas "palabras" por página que se filtranon y evaluar n° de repeticiones (no sé el algorítmo a emplear exactamente ..). Almacenar las palabras encontradas en una BBDD (normalmente) unicas y ortorgar "relevancia" (n° de veces que aparece, para las busquedas poder ordenar los resultados por este criterio) y relacionar en la página que apareció (URL/nombre).

Basicamente es como implementaría un "indexador" o más o menos como he visto por encima como trabajan .. Seguramenten exiten mejores formas de tratar el tema ..

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.