Foros del Web » Programando para Internet » PHP »

Creación de Spider.

Estas en el tema de Creación de Spider. en el foro de PHP en Foros del Web. Que tal, buenas tardes bueno mi duda y ojala pudieran darme un poco de luces con esto es la creación de un spider o especie ...
  #1 (permalink)  
Antiguo 09/02/2006, 12:00
Avatar de jmqc  
Fecha de Ingreso: noviembre-2004
Ubicación: Venezuela
Mensajes: 353
Antigüedad: 19 años, 4 meses
Puntos: 1
Creación de Spider.

Que tal, buenas tardes bueno mi duda y ojala pudieran darme un poco de luces con esto es la creación de un spider o especie de uno, explico por que, el cliente quiere que esta funcion como quiera que se llamase visite url almacenadas en una tabla en mysql, copie texto del navegador en una tabla de mysql. El problema no es copiar el texto ni leer las url's si no como hacer que se ejecute el script de lectura dentro de las páginas.. Si alguien sabe de algo le agradeceria una idea.. Saludos
__________________
Ante el desconocimiento ni entendimiento de las cosas decimos que los demás estan locos.

José Quintero. Saludos.
:adios:
  #2 (permalink)  
Antiguo 09/02/2006, 13:08
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
[quote]El problema no es copiar el texto ni leer las url's si no como hacer que se ejecute el script de lectura dentro de las páginas..

No entendí entonces donde tienes el problema.

Según entiendo tu ya sabes o no (confirma lo que no sepas):
1) Leer tu BBDD y aplicar el proceso que se requiera con esos URL's almacenados.
2) Abrir cada URL sobre una variable vía PHP par poder procesar su contenido.
3) Eliminar todo HTML/javascript y en general todo lo que quede entre < ... > para quedarnos con el "contenido" en sí (si corresponde, no sé que andas buscando en esas páginas concretamente).
4) Procesar su contenido (aplicacando expresiones regulares en busca de algún patrón dado para quedarse con la información que se necesite).

Si quieres algo hecho .. usa google por el término "spider" realmente salen muchos. Uno de tantos:

http://cs.ioc.ee/~ando/sphider/index.php

(no sé que tanto te servirá en sí .. pero puedes analizar su código .. seguro que algo te ayudará).

Un saludo,
  #3 (permalink)  
Antiguo 10/02/2006, 11:30
Avatar de jmqc  
Fecha de Ingreso: noviembre-2004
Ubicación: Venezuela
Mensajes: 353
Antigüedad: 19 años, 4 meses
Puntos: 1
Gracias Cluster. Todo el proceso que se refiere a la BD esta claro, la cuestion es que no me puedo imaginar como hacer para que una pagina o script entre en otro url y como sacar el contenido de la misma, no se si ahora mejoro la explicación... Saludos
__________________
Ante el desconocimiento ni entendimiento de las cosas decimos que los demás estan locos.

José Quintero. Saludos.
:adios:
  #4 (permalink)  
Antiguo 10/02/2006, 13:53
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
Fijate en el código que implementa el "spider" que te dejé.

El procedimiento para que se sigua entrando en otro URL se refiere a localizar todos los tags de Link (<a href=.....>) HTML por el formato que tienen usando expresiones regulares.

Pero antes de llega a eso debes tomar el contenido de tu página (del primer URL dado de inicio). Eso lo puedes hacer de várias forma .. fopen() apuntando a tu URL y de ahí fread() . .o usando el buffer de salida de PHP: ob_start() .. include("a tu URL") y tomando el buffer a una variable ob_get_contents() .. etc.

Un saludo,
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 22:22.