Foros del Web - Ver Mensaje Individual

Cluster · #2 (**permalink**) 09/02/2006, 13:08

[quote]El problema no es copiar el texto ni leer las url's si no como hacer que se ejecute el script de lectura dentro de las páginas..

No entendí entonces donde tienes el problema.

Según entiendo tu ya sabes o no (confirma lo que no sepas):
1) Leer tu BBDD y aplicar el proceso que se requiera con esos URL's almacenados.
2) Abrir cada URL sobre una variable vía PHP par poder procesar su contenido.
3) Eliminar todo HTML/javascript y en general todo lo que quede entre < ... > para quedarnos con el "contenido" en sí (si corresponde, no sé que andas buscando en esas páginas concretamente).
4) Procesar su contenido (aplicacando expresiones regulares en busca de algún patrón dado para quedarse con la información que se necesite).

Si quieres algo hecho .. usa google por el término "spider" realmente salen muchos. Uno de tantos:

http://cs.ioc.ee/~ando/sphider/index.php

(no sé que tanto te servirá en sí .. pero puedes analizar su código .. seguro que algo te ayudará).

Un saludo,