Ver Mensaje Individual
  #1 (permalink)  
Antiguo 21/07/2004, 12:32
Avatar de mariog
mariog
 
Fecha de Ingreso: noviembre-2002
Ubicación: Madrid
Mensajes: 195
Antigüedad: 21 años, 5 meses
Puntos: 0
Obtener html de una web

Hola,

Estoy programando un buscador. Para ello necesito, de las páginas que se indexen en mi buscador, obtener lo que sería el código html de la página principal. He estado mirando en el foro los temas relacionados con spiders e indexadores, pero me parecen demasiado complicados para lo que yo quiero montar.

Mi idea es, a partir de una lista de páginas, obtener de cada una de ellas un fichero .txt (por ejemplo), con su codigo html, para yo posteriormente poder analizar ese código y sacar las conclusiones que me interesen de cada una de las páginas.

He probado a usar el fopen(), pero no me deja acceder a páginas que estén fuera de mi servidor, es decir, que no sean las mias, y ando un poco perdido.

A ver si me podéis echar una manita o por lo menos orientarme.

Un saludo y gracias