Ver Mensaje Individual
  #10 (permalink)  
Antiguo 27/10/2005, 16:23
Avatar de Master Solution
Master Solution
 
Fecha de Ingreso: octubre-2005
Mensajes: 51
Antigüedad: 18 años, 6 meses
Puntos: 1
Claro, y como te dije al principio, para poder obtener el codigo de una pagina en PHP, tenes que usar sockets.

Estableces la conexion al servidor, descargas y almacenas el codigo fuente, probablemente te convenga tambien eliminarle todo el codigo HTML, ya que no lo vas a necesitar para las busquedas. Aunque seria bueno que mediante expresiones regulares, ademas de obtener los links para seguir indexando, que no solo eliminaras el codigo HTML, sino que identificaras, los textos de la web a los que se le da mayor importancia, por ejemplo, si tiene un texto que ocupa la mitad de la pantalla, es obvio que el autor le quiso dar importancia a ese texto. Bueno, esos pedazos podrias reemplazarlos por tus propios tags, que te ayuden despues en la busqueda a identificar patrones importantes. De esta manera tu busqueda sera mas eficaz... o eficiente...
__________________
-=[ 3KLabs ]=-
-=[ Diseño - Programación - Desarrollo ]=-
-=[ Posicionamiento en Buscadores ]=-
-=[ Hosting de Calidad ]=-