Ver Mensaje Individual
  #8 (permalink)  
Antiguo 08/10/2003, 05:07
josemi
Ex Colaborador
 
Fecha de Ingreso: junio-2002
Mensajes: 9.091
Antigüedad: 21 años, 10 meses
Puntos: 16
Uff, como dice Cluster, en PHP se podria programar, pero el rendimiento, no se yo.

Ademas del lenguaje de programacion, es tambien importante el hard donde va a ejecutarse. Sin ponerme a pensar demasiado, el tipico hosting de pago no creo que de para ello. Procesos demasiado pesados, mucho trafico, muchos recursos.

Por lo que se, google funciona en un cluster (no, nuestro moredador no ) de unos 20000 equipos Linux optimizados que funcionan como una sola maquina. Y "solo" maneja 3300 millones de paginas. Asi te puedes hacer una idea de la potencia del hard necesaria para mover un buscador. (Bueno, vale, mueve todo google, no solo el buscador web).

Ahora estoy en el trabajo, pero luego en casa mirare si encuentro un documento donde explicaba la arquitectura del buscador de google (sus partes: spider, indexador, ...).

De todas formas, revisa el codigo de phpdig. Creo que tiene un spider y un indexador.

Y si al final te decides a crear el proximo google (en C como te he leido en otro lado), recuerda que el algoritmo debe ser escalable, tanto en volumen de datos como en recursos consumidos. Por muy bueno que sea un buscador, si para mil paginas se vuelve lentisimo no sirve.

Y si quieres otro indexador (sin spider), esta vez en Java, tienes lucene http://jakarta.apache.org/lucene/docs/index.html (existe una traduccion al C, sa google para localizarla).

Y lee la documentacion de todos los proyectos de buscadores que puedas. En www.sourceforge.net hay proyectos opensource de spiders y buscadores. Puedes estudiar sus documentaciones y sus codigos.

Y en este mensaje de www.sitepointforums.com (http://www.sitepointforums.com/showt...threadid=76257) hay links a los documentos de la tesis de los creadores de google, es decir, la gestacion de google.

Y tambien intenta localizar todos los documentos que puedas sobre indexacion de informacion.

Creo que para esta tarde ya estas entretenido

Saludos.
__________________
Josemi

Aprendiz de mucho, maestro de poco.