Foros del Web » Programando para Internet » PHP »

Spider comparadors,

Estas en el tema de Spider comparadors, en el foro de PHP en Foros del Web. Buenas, estoy desarrollando un spider que rastree una página en html, de momento tengo pensado implementarlo con esto: Código: <?php function LoadCURLPage($url, $agent = 'Mozilla/5.0 ...
  #1 (permalink)  
Antiguo 29/05/2009, 03:40
 
Fecha de Ingreso: junio-2008
Mensajes: 3
Antigüedad: 15 años, 10 meses
Puntos: 0
Spider comparadors,

Buenas,


estoy desarrollando un spider que rastree una página en html, de momento tengo pensado implementarlo con esto:

Código:
<?php

function LoadCURLPage($url, $agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.4)

 Gecko/20030624 Netscape/7.1 (ax)', $cookie = '', $referer = '', $post_fields = '', $return_transfer = 1, $follow_location = 1, $ssl = '', $curlopt_header = 0)

{

$ch = curl_init(); 



curl_setopt($ch, CURLOPT_URL, $url);



if($ssl)

{

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST,  2);

}



curl_setopt ($ch, CURLOPT_HEADER, $curlopt_header);



if($agent)

{

curl_setopt($ch, CURLOPT_USERAGENT, $agent);

}



if($post_fields)

{

curl_setopt($ch, CURLOPT_POST, 1); 

curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields); 

}



curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);



if($referer)

{

curl_setopt($ch, CURLOPT_REFERER, $referer);

}



if($cookie)

{

curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie);

curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie);

}



$result = curl_exec ($ch);



curl_close ($ch);



return $result;

}



function extract_unit($string, $start, $end)

{

$pos = stripos($string, $start);



$str = substr($string, $pos);



$str_two = substr($str, strlen($start));



$second_pos = stripos($str_two, $end);



$str_three = substr($str_two, 0, $second_pos);



$unit = trim($str_three); // remove whitespaces



return $unit;

}

?>
Ahora la duda surge, en que una vez obtengo la página, necesito que compruebe si tal página contiene un código en html, por ejemplo un enlace.




¿Ideas?
  #2 (permalink)  
Antiguo 29/05/2009, 05:53
 
Fecha de Ingreso: mayo-2005
Mensajes: 188
Antigüedad: 19 años
Puntos: 6
Respuesta: Spider comparadors,

Una vez obtenida la página puedes, por ejemplo, utilizar expresiones regulares para extraer la información. Otra posibilidad es buscar "parsers" de HTML que te permitan recorrer el árbol HTML e ir leyendo la información que te interese (por ejemplo, los enlaces)
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 05:49.