Ver Mensaje Individual
  #1 (permalink)  
Antiguo 01/03/2014, 17:39
nestornoe
 
Fecha de Ingreso: diciembre-2011
Mensajes: 159
Antigüedad: 12 años, 5 meses
Puntos: 18
Forma para extraer algun dato en especifico de una pagina

Hola

estoy trabajando en un proyecto de notcias en el cual se necesita sacar un extracto de la misma, en varias paginas existe rss pero en otras no, en estas ultimas necesito sacar las primeras lineas de la noticia, he estado tratando con regex, al final pongo el codigo.

El problema es que cada pagina es diferente y no es practico realizar un llamado para cada una de ellas, ¿existira alguna forma de solo sacar esa información?


Código PHP:
$input2 = @file_get_contents($url) or die("Could not access file: $url");
  
$regexp2 "<div(.*)>(.*)<\/div>";
  if(
preg_match_all("/$regexp2/siU"$input2$matches2PREG_SET_ORDER)) {
    foreach(
$matches2 as $match2) {
        
$canti=strip_tags($match2[0]);
            
        
$canti2=strlen($canti);
        if (
$canti2>100) {            
        echo 
"Cantidad ".$canti2."<br>";
        echo 
"UNO ".$canti."<br>";    
        
        
        }
    }
  } 
de esta forma consigo los divs y solo escogo los que tienen mas de 100 caracteres, pero no es suficiente. se podra de utilizando el texto del titulo, supongo que viendo que se repitan las palabras del mismo o su mayoria, pero no se como hacerlo.

Agradezco cualquier ayuda.

Saludos