Ver Mensaje Individual
  #5 (permalink)  
Antiguo 20/04/2010, 10:53
tazzwt
 
Fecha de Ingreso: marzo-2010
Mensajes: 432
Antigüedad: 14 años, 1 mes
Puntos: 11
Respuesta: El funcionamiento de un Spider Web

Habria que usar un robot en Java la aplicacion debe contener por lo menos algo de IA para que pueda identificar casos como los que dices de google y sus blog, pueden existir miles de sitios extranjeros que usen ese sistema pero en fin, tambien se usarian la IP como las DNS y falta algo más.

Esta el problema de los correos, Twitter, Facebook y otros, como se considera pagina web o no ya que contiene grupos, entidades, etc.

Tambien agregar usar procesadores de GPU para incrementar sustancialmente los procesos y ademas de tener internet calidad aceptable.

El proceso pueden ser primero capturar los link, luego los valida si existen o no una cosa asi.

Que los valide al la ves que los captura.