Foros del Web » Programando para Internet » PHP »

Forma para extraer algun dato en especifico de una pagina

Estas en el tema de Forma para extraer algun dato en especifico de una pagina en el foro de PHP en Foros del Web. Hola estoy trabajando en un proyecto de notcias en el cual se necesita sacar un extracto de la misma, en varias paginas existe rss pero ...
  #1 (permalink)  
Antiguo 01/03/2014, 17:39
 
Fecha de Ingreso: diciembre-2011
Mensajes: 159
Antigüedad: 12 años, 4 meses
Puntos: 18
Forma para extraer algun dato en especifico de una pagina

Hola

estoy trabajando en un proyecto de notcias en el cual se necesita sacar un extracto de la misma, en varias paginas existe rss pero en otras no, en estas ultimas necesito sacar las primeras lineas de la noticia, he estado tratando con regex, al final pongo el codigo.

El problema es que cada pagina es diferente y no es practico realizar un llamado para cada una de ellas, ¿existira alguna forma de solo sacar esa información?


Código PHP:
$input2 = @file_get_contents($url) or die("Could not access file: $url");
  
$regexp2 "<div(.*)>(.*)<\/div>";
  if(
preg_match_all("/$regexp2/siU"$input2$matches2PREG_SET_ORDER)) {
    foreach(
$matches2 as $match2) {
        
$canti=strip_tags($match2[0]);
            
        
$canti2=strlen($canti);
        if (
$canti2>100) {            
        echo 
"Cantidad ".$canti2."<br>";
        echo 
"UNO ".$canti."<br>";    
        
        
        }
    }
  } 
de esta forma consigo los divs y solo escogo los que tienen mas de 100 caracteres, pero no es suficiente. se podra de utilizando el texto del titulo, supongo que viendo que se repitan las palabras del mismo o su mayoria, pero no se como hacerlo.

Agradezco cualquier ayuda.

Saludos

Etiquetas: regex, rss
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 08:44.