Foros del Web » Programando para Internet » PHP »

extraer contenido de otra pagina

Estas en el tema de extraer contenido de otra pagina en el foro de PHP en Foros del Web. hola: quisiera saber si se puede extraer contenido de otra pagina a partir de ciertos datos. Por ejemplo que lea un rss de noticias y ...
  #1 (permalink)  
Antiguo 29/02/2008, 06:53
Avatar de destor77  
Fecha de Ingreso: noviembre-2004
Ubicación: Gálvez, Santa Fe, Argentina
Mensajes: 2.654
Antigüedad: 19 años, 5 meses
Puntos: 43
extraer contenido de otra pagina

hola:
quisiera saber si se puede extraer contenido de otra pagina a partir de ciertos datos.
Por ejemplo que lea un rss de noticias y vaya al link de la noticia y me copie toda la noticia.
Por ahi leí que se puede usar crul pero no estoy seguro de como seria.

desde ya muchas gracias
  #2 (permalink)  
Antiguo 29/02/2008, 07:24
Avatar de emiliodeg  
Fecha de Ingreso: septiembre-2005
Ubicación: Córdoba
Mensajes: 1.830
Antigüedad: 18 años, 7 meses
Puntos: 55
Re: extraer contenido de otra pagina

si se puede hacer con cURL pero tambien se puede hacer con simplexml() si es un feed rss o con un file_get_contents() hay muchas formas de hacerlo
__________________
Degiovanni Emilio
developtus.com
  #3 (permalink)  
Antiguo 29/02/2008, 09:00
Avatar de GatorV
$this->role('moderador');
 
Fecha de Ingreso: mayo-2006
Ubicación: /home/ams/
Mensajes: 38.567
Antigüedad: 17 años, 11 meses
Puntos: 2135
Re: extraer contenido de otra pagina

Como bien te dice emiliodeg debes de usar cURL, o sockets directamente con fsockopen.

Saludos.
  #4 (permalink)  
Antiguo 03/03/2008, 16:13
Avatar de destor77  
Fecha de Ingreso: noviembre-2004
Ubicación: Gálvez, Santa Fe, Argentina
Mensajes: 2.654
Antigüedad: 19 años, 5 meses
Puntos: 43
Re: extraer contenido de otra pagina

buenas estoy usando este codigo:
Código PHP:
<?php
$contenido
=file_get_contents('http://www.clarin.com/diario/2008/03/03/um/m-01620169.htm');
print(
$contenido);
?>
y me funciona me devuelve la noticia, pero lo que quiero ahora es que me devuelva solamente el titulo y el cuerpo de la noticia y el resto de la pagina descartarlo. Como se puede hacer?
  #5 (permalink)  
Antiguo 04/03/2008, 10:46
Avatar de GatorV
$this->role('moderador');
 
Fecha de Ingreso: mayo-2006
Ubicación: /home/ams/
Mensajes: 38.567
Antigüedad: 17 años, 11 meses
Puntos: 2135
Re: extraer contenido de otra pagina

Usa expresiones regulares para solo seleccionar una parte del código.

Saludos.
  #6 (permalink)  
Antiguo 06/03/2008, 13:33
Avatar de destor77  
Fecha de Ingreso: noviembre-2004
Ubicación: Gálvez, Santa Fe, Argentina
Mensajes: 2.654
Antigüedad: 19 años, 5 meses
Puntos: 43
Re: extraer contenido de otra pagina

se puede usar expresiones regulares para obtener lo que esta entre etiquetas por ejemplo
el html de la noticia es este:
Código HTML:
<div class="clear"></div><h1><!TITULO>El ex presidente de LAPA se negó a declarar en el juicio por la tragedia<!/TITULO></h1>
<div class="Hora">12:40</div><h2><!BAJADA>"Voy a declarar pero más adelante. Quiero escuchar primero de qué se me acusa", dijo Gustavo Deutsch, investigado por estrago culposo en el accidente de 1999, que causó 65 muertes. <!/BAJADA></h2>
<div class="clear"></div><div id="texto2" class="Desa"><p><!CUERPO>El ex presidente de Líneas Aéreas Privadas Argentinas (LAPA), Gustavo Deuscht, <strong>se negó a declarar</strong> hoy en el juicio que se le sigue por el accidente del avión que se despistó en 1999 y causó 65 muertes. <br /><br />"Voy a declarar pero más adelante, <strong>quiero escuchar primero de qué se me acusa</strong>", dijo ante los integrantes del Tribunal Oral Federal Cuatro quienes, antes de su convocatoria, habían rechazado las nulidades planteadas por las defensas. <br /><br />La causa <strong>involucra a 1200 testigos</strong> que desfilarán por el edificio de Comodoro Py durante los seis meses que dure el proceso que arrancó el miércoles. Los jueces Leopoldo Bruglia, María Cristina San Martino y Jorge Gorini deberán determinar la responsabilidad de los ex directivos de LAPA, como de ex altos jefes de la Fuerza Aérea, imputados en la causa. <br /><br />Gustavo Deutsch, está acusado de <strong>estrago culposo</strong> junto al ex vicepresidente de la compañía, Ronald Boyd. <br /><br />La tragedia ocurrió el 31 de agosto de 1999, cuando el vuelo 3142 que iba a Córdoba <strong>se incendió tras salir de la pista</strong> del aeroparque metropolitano Jorge Newbery e impactar contra un terraplén de la Asociación de Golf, junto al complejo de Punta Carrasco. <br /><br />La aeronave atravesó rejas de hierro, cruzó la Costanera, destrozó un refugio y un puesto de diarios y finalmente chocó contra el terraplén y se prendió fuego, originando uno <strong>de los más graves siniestros de la aviación argentina</strong>. <br /><!/CUERPO></p></div> 
yo puedo extraer con expresiones regulares lo que esta entre:
<!TITULO><!/TITULO>
<!BAJADA><!/BAJADA>
<!CUERPO><!/CUERPO>

desde ya muchas gracias

Última edición por destor77; 06/03/2008 a las 13:45
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 18:30.