Evitar utilizar loop recursivo

xarmagedonx · #1 (**permalink**) 27/10/2012, 17:01

Hola compañeros de FDW!, estuve desarrollando un webcrawler y cuando pensé que lo había terminado surgió un error

Utilizo un loop recursivo para visitar una web, y si se cumplen ciertas condiciones comenzar la extracción, luego se vuelve a llamar una y otra ves a la función para que se repita hasta que ya no se cumpla alguna condición.

Pero eso no es lo peor, tenía una fecha para presentar este webcrawler en mi escuela, y yo creía que lo había terminado

Cuando pongo en funcionamiento el código solo extrae la pág principal y después no puede continuar debido al máximo de conecciones disponibles. ¿Qué puedo hacer para evitar repetir todo el tiempo y lograr consumir menos conecciones?

Les muestro el código completo:

Código PHP:

  <?php

error_reporting(E_ALL);

?>

<?php

$url = "http://www.web.com";

$patron = "http://www.web.com";

$prof = 1;

 
function storeLink($titulo,$descripcion,$url,$keywords) {

    $query = "INSERT INTO webs (webTitulo, webDescripcion, weburl, webkeywords) VALUES ('$titulo', '$descripcion', '$url', '$keywords')";

    mysql_query($query) or die('Error, falló la inserción de datos');

}

 
function extraer($url, $prof){

$server_link = mysql_connect("Serv", "User", "Pass"); 

 
if(!$server_link){ die("Fall&oacute; la Conexi&oacute;n ". mysql_error()); 

} 

$db_selected = mysql_select_db("DB", $server_link);

if(!$db_selected){ die("No se pudo seleccionar la Base de Datos ". mysql_error()); 

} 

 
$url = "http://www.web.com";

$patron = "http://www.web.com";

$prof = 1;

$userAgent = 'Interredu';

 
$ch = curl_init();

curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_HTTPHEADER, array(("Accept-Language: es-es,en")));

curl_setopt($ch, CURLOPT_FAILONERROR, true);

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

curl_setopt($ch, CURLOPT_MAXREDIRS, 2);

curl_setopt($ch, CURLOPT_AUTOREFERER, true);

curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);

$html= curl_exec($ch);

if (!$html) {

    echo "<br />cURL error number:" .curl_errno($ch);

    echo "<br />cURL error:" . curl_error($ch);

    exit;

}

 
$dom = new DOMDocument();

@$dom->loadHTML($html);

 
$xpath = new DOMXPath($dom);

$hrefs = $xpath->evaluate("/html/body//a");

$busqueda = mysql_query("SELECT weburl FROM webs WHERE weburl='$url'");

 
if($prof < 1 and mysql_num_rows($busqueda)==0 and strpos($url, $patron)!==FALSE){

    preg_match_all ("(<title>(.*)<\/title>)siU", $html, $title);

    preg_match_all ("(<meta name=\"description\" content=\"(.*)\"\/>)siU", $html, $description);

    preg_match_all ("(<meta name=\"keywords\" content=\"(.*)\"\/>)siU", $html, $keys);

    $titulo = $title[1][0];

    $descripcion = $description[1][0];

    $keywords = $keys[1][0];

    storeLink($titulo,$descripcion,$url,$keywords);

    }

for ($i = 0; $i < $hrefs->length; $i++) {

    $href = $hrefs->item($i);

    $url2 = $href->getAttribute('href');

    extraer($url2, $prof ++);

}

}

extraer($url, $prof);

?>

Saludos y gracias por su ayuda!!!!

portalmana · #2 (**permalink**) 27/10/2012, 18:30

Vi que utilizas @ para ocultar errores,
Mira con DOMDocumnt puedes capturar esos errores;

Código PHP:

Ver original// Activas Captura de Errores
libxml_use_internal_errors(true);
// Despues creas y cargas que es donde generalmente se producen los errores (load)
 
$errores = libxml_get_errors();
 
// limpias el buffer de errores.
libxml_clear_errors();

Los errores te quedaran en la variable $errores por si quieres hacer algun log.

Saludos

xarmagedonx · #3 (**permalink**) 27/10/2012, 19:56

Gracias por el aporte!. Igualmente lo que estoy intentando saber es como puedo reemplazar el loop recursivo, porque el limite de conecciones no me va a permitir guardar los enlaces de ninguna página.

Saludos!

portalmana · #4 (**permalink**) 27/10/2012, 21:16

Código PHP:

Ver original<?php
error_reporting(E_ALL | E_STRICT);
set_time_limit(0);
 
$server_link = mysql_connect("localhost", "root", "");
if(!$server_link) {
    die("Fall&oacute; la Conexi&oacute;n ". mysql_error()); 
}
 
$db_selected = mysql_select_db("buscadorfulltext", $server_link);
if(!$db_selected) {
    die("No se pudo seleccionar la Base de Datos ". mysql_error()); 
}
 
 
function storeLink($titulo,$descripcion,$url,$keywords)
{
    $query = "INSERT INTO spider (webTitulo, webDescripcion, weburl, webkeywords) VALUES ('$titulo', '$descripcion', '$url', '$keywords')";
    mysql_query($query) or die('Error, falló la inserción de datos');
}
 
function extraer($url, $prof, $patron)
{
 
    $userAgent = 'Interredu';
 
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(("Accept-Language: es-es,en")));
    curl_setopt($ch, CURLOPT_FAILONERROR, true);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
    curl_setopt($ch, CURLOPT_MAXREDIRS, 2);
    curl_setopt($ch, CURLOPT_AUTOREFERER, true);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
    $html= curl_exec($ch);
 
    if (!$html) {
        echo "<br />cURL error number:" .curl_errno($ch);
        echo "<br />cURL error:" . curl_error($ch);
        exit;
    }
 
    $dom = new DOMDocument();
    $dom->loadHTML($html);
 
    $xpath = new DOMXPath($dom);
    $hrefs = $xpath->evaluate("/html/body//a");
 
    for ($i = 0; $i < $hrefs->length; $i++) {
        $href = $hrefs->item($i);
        $url2 = $href->getAttribute('href');
    
        $var = strstr($url2, '#', true);
        if ($var !== false ) {
            $url2 = $var;
        }
    
        if ($url2 != $url && $url2 != '') {
            if (saveUrl($url2, $prof,$patron, $html)) {
                extraer($url2, $prof ++, $patron); 
            }
        }
    }
}
 
 
function saveUrl($url, $prof, $patron, $html)
{
    $retorno = false;
    $busqueda = mysql_query("SELECT weburl FROM spider WHERE weburl='$url'");
    $cantidad = mysql_num_rows($busqueda);
    $pos      = strpos($url, $patron);
 
    if( $prof <= 1 and $cantidad == 0 and $pos !== false) {
        preg_match_all ("(<title>(.*)<\/title>)siU", $html, $title);
        preg_match_all ("(<meta name=\"description\" content=\"(.*)\"\/>)siU", $html, $description);
        preg_match_all ("(<meta name=\"keywords\" content=\"(.*)\"\/>)siU", $html, $keys);
        $titulo = $title[1][0];
        $descripcion = $description[1][0];
        $keywords = $keys[1][0];
        storeLink($titulo,$descripcion,$url,$keywords);
        $retorno = true;
        echo 'Guardada pagina : ' . $url . ' con profundidad ' . $prof . '<br>' . "\n\r"; 
    }
    return $retorno;
}
 
 
$url = "http://www.forosdelweb.com/f18";
$patron = "http://www.forosdelweb.com/f18";
$prof = 1;
 
libxml_use_internal_errors(true);
extraer($url, 1, $patron);
$errores = libxml_get_errors();
libxml_clear_errors();

Tienes que refinar metas y keywoards,
Cuando lo tengas mas refinado me lo pasas.

Saludos

xarmagedonx · #5 (**permalink**) 27/10/2012, 21:57

Muchas gracias, para mejorar las metas pensaba hacer un if, en caso de que no exista la meta description, voy a extraer lo que se encuentre en <p></p>. Y para las keys algo similar.

Yo esperaba que me dieran una idea no el código jaja, sos un genio.

Hoy voy a estar puliendo la parte de las metas y entre hoy y mañana publico el nuevo código.

Lo único que pasó fue que sigue con el problema del "Maximum function nesting level", voy a ver como corregirlo.

Saludos!

portalmana · #6 (**permalink**) 27/10/2012, 22:46

Una que puedes hacer es en la linea 77

Código PHP:

Ver originalif( $prof <= 1 and $cantidad == 0 and $pos !== false) {
// Cambiar a >=1
 if( $prof >= 1 and $cantidad == 0 and $pos !== false) {

Y ahí te guardara las paginas hijas también,
y en la funcion extraer poner un condicional en base a $prof como;

Código PHP:

Ver originalif ($prof <= 5) {
                   extraer($url2, $prof++, $patron);  
                }

Una idea no mas...
Saludos

xarmagedonx · #7 (**permalink**) 27/10/2012, 23:05

Gracias por la ayuda!, estuve revisando con algunas páginas, para mejorar las metas y ver el limite que tenía y me di cuenta de que hay un problema con la url.

Te muestro un ejemplo de lo sucedido:

Id Titulo Descripcion Url Keys
2 Titulo2 desc2 url3 keys2
3 titulo3 desc3 url4 keys3

Lo que hace es guardar la url en el campo que le sigue, en vez del campo que le corresponde. Si encuentro la solucion edito el comentario.

Saludos

portalmana · #8 (**permalink**) 28/10/2012, 00:39

Código PHP:

Ver original<?php
error_reporting(E_ALL | E_STRICT);
set_time_limit(0);
 
$server_link = mysql_connect("localhost", "root", "");
if(!$server_link) {
    die("Fall&oacute; la Conexi&oacute;n ". mysql_error()); 
}
 
$db_selected = mysql_select_db("buscadorfulltext", $server_link);
if(!$db_selected) {
    die("No se pudo seleccionar la Base de Datos ". mysql_error()); 
}
 
 
function storeLink($titulo,$descripcion,$url,$keywords, $prof)
{
    $query = "INSERT INTO spider (webTitulo, webDescripcion, weburl, webkeywords, prof) VALUES ('$titulo', '$descripcion', '$url', '$keywords', $prof)";
    mysql_query($query) or die('Error, falló la inserción de datos');
}
 
 
 
function extraer($url, $prof, $patron)
{
    $userAgent = 'Interredu';
 
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(("Accept-Language: es-es,en")));
    curl_setopt($ch, CURLOPT_FAILONERROR, true);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
    curl_setopt($ch, CURLOPT_MAXREDIRS, 2);
    curl_setopt($ch, CURLOPT_AUTOREFERER, true);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
    $html= curl_exec($ch);
    // La salvo de Entrada, para que no se me corra en la entrada a la base de datos
    saveUrl($url, $prof,$patron, $html);
  
    // Mando error pero no corto porque si una url esta mal formada termina con la 
    // ejecucion
    if (!$html) {
        echo "<br />cURL error number:" .curl_errno($ch);
        echo "<br />cURL error:" . curl_error($ch);
    }  
    
    $dom = new DOMDocument();
    $dom->loadHTML($html);
 
    $xpath = new DOMXPath($dom);
    $hrefs = $xpath->evaluate("/html/body//a");
 
    for ($i = 0; $i < $hrefs->length; $i++) {
        $href = $hrefs->item($i);
        $url2 = $href->getAttribute('href');
    
        $var = strstr($url2, '#', true);
        if ($var !== false ) {
            $url2 = $var;
        }
        // Me aseguro que este bajo nuestro sitio.
        if (strpos($url2, $patron) === false) {
            continue;
        }
        
        // Me aseguro que ya no este ingresada, para no iterar sobre ella misam
        if ($url2 != $url && $url2 != '') {
            // Se podria agregar un campo timestap para luego reescanera paginas
            // que tuvieran una fecha menor.
            // URL Unica para que falle y como es mysql poner INSERT INTO ...... ON DUPLICATE KEY ... en la funcion de guardado
            $busqueda = mysql_query("SELECT weburl FROM spider WHERE weburl='$url2'");
            $cantidad = mysql_num_rows($busqueda);
            if ($prof <= 5 && $cantidad == 0) {
                extraer($url2, $prof++, $patron);  
            }
        }
    } 
}
 
 
function saveUrl($url, $prof, $patron, $html)
{
    $retorno = false;
    $pos      = strpos($url, $patron);
 
    if( $prof >= 1) {
        preg_match_all ("(<title>(.*)<\/title>)siU", $html, $title);
        preg_match_all ("(<meta name=\"description\" content=\"(.*)\"\/>)siU", $html, $description);
        preg_match_all ("(<meta name=\"keywords\" content=\"(.*)\"\/>)siU", $html, $keys);
        $titulo = $title[1][0];
        $descripcion = $description[1][0];
        $keywords = $keys[1][0];
        storeLink($titulo,$descripcion,$url,$keywords, $prof);
        $retorno = true;
        echo 'Guardada pagina : ' . $url . ' con profundidad ' . $prof . '<br>' . "\n\r"; 
    }
    return $retorno;
}
 
 
$url = "http://objetivophp.com";
$patron = "http://objetivophp.com";
$prof = 5;
 
libxml_use_internal_errors(true);
extraer($url, 1, $patron);
$errores = libxml_get_errors();
libxml_clear_errors();

xarmagedonx · #9 (**permalink**) 29/10/2012, 11:28

Hola!, probé el código, pero no funciona =S, me marca Undefined offset: 0, y después Error en la inserción de datos.

Pensé hacer un cambio en el código también...

Esta parte del código:

Código PHP:

Ver originalpreg_match_all ("(<meta name=\"keywords\" content=\"(.*)\"\/>)siU", $html, $keys);

Podría ser reemplazado con esto:

Código PHP:

Ver original$keyw = preg_match_all ("(<meta name=\"keywords\" content=\"(.*)\"\/>)siU", $html, $keys);
        if ($keyw !== false){
        preg_match_all("#<\s*b[^>]*>[^<]+</b>#is", $html, $b);
        preg_match_all("#<\s*h1[^>]*>[^<]+</h1>#is", $html, $h1);
        $h1 = $encabezado1[1][0];
        $b = $bold[1][0];
        }

En caso de que meta keywords no retorne nada, se extrae el encabezado1 o h1, se podría seguir extendiendo utilizando h2,h3,h4...etc, también extrae todos los bold (<b></b>), de esta manera se reemplaza la meta por los encabezados y negrita.

Saludos!

EDITO: Tenía un código viejo del webcrawler, que funciona mejor para las meta description y keywords:

Código PHP:

Ver originalfor ($i = 0; $i < $hrefs->length; $i++) {
        $href = $hrefs->item($i);
        $url2 = $href->getAttribute('href');
 
        if($href->getAttribute('name') == 'description')
        $descripcion = $href->getAttribute('content');
        if($href->getAttribute('name') == 'keywords')
        $keywords = $href->getAttribute('content');

portalmana · #10 (**permalink**) 29/10/2012, 16:51

Cambiaste los datos de bases y campos...

Porque le agregue unas cosas a mi me funciona.

xarmagedonx · #11 (**permalink**) 29/10/2012, 19:21

Ahora si jaja, me había olvidado de crear el campo prof en la tabla

PD: ¿Te funciona la extracción de metas?, acabo de probar con otro sitio que tiene description y keys pero no las guarda

portalmana · #12 (**permalink**) 29/10/2012, 20:02

Me funcionaba con las expresiones regulares, lo unico que ponía una parte del código.

xarmagedonx · #13 (**permalink**) 29/10/2012, 20:32

Ahora si!, reemplazando el if( $prof >= 1) actual por el siguiente:

Se extrae perfectamente titulo y keywords

Código PHP:

Ver originalif( $prof >= 1) {
        preg_match_all ("(<title>(.*)<\/title>)siU", $html, $title);
        $metas = get_meta_tags($url,1);
        $titulo = $title[1][0];
    $descripcion = $metas["description"];
        $keywords = $metas["keywords"];
        storeLink($titulo,$descripcion,$url,$keywords, $prof);
        $retorno = true;
        echo 'Guardada pagina : ' . $url . ' con profundidad ' . $prof . '<br>' . "\n\r"; 
    }

Aunque no logre hacer funcionar el if, ahora estoy viendo como hacer el if para que en caso de que no se encuentre description y keywords se extraigan otras cosas.

portalmana · #14 (**permalink**) 29/10/2012, 20:39

Con ese método sale 10 pts todo.

Saludos

xarmagedonx · #15 (**permalink**) 30/10/2012, 15:37

Estoy revisando los datos de la bd extraidos de objetivophp y me encontré con que no puede reconocer los tildes en el titulo.

Te muestro un ejemplo:

Cita:

DEAME3P VersiÃ³n 5.4.0 - ObjetivoPHP

También probé con mi página y pasa lo mismo:

Cita:

LibÃ©lula - Naica

El último problema que encontre fue que en algunos resultados no pone la descripcion ni keywords, y en otros tampoco el titulo, después en otros pone todo completo, y vuelve a pasar con los siguientes. Revise las url y tenían las metas correspondientes, no se que es lo que está funcionando mal. ¿Te pasó lo mismo?

Saludos y gracias por todo!

portalmana · #16 (**permalink**) 30/10/2012, 19:12

Lo de los tildes lo tengo bien.
Tengo la base codificada con utf-8,
si te quieres asegurar el ingreso de los datos en utf-8, luego enseguida de la coneccion reliza la siguiente consulta:

Código PHP:

Ver originalmysql_query("SET names utf8");

tienes razon de pende de donde codifica bien o no..

xarmagedonx · #17 (**permalink**) 30/10/2012, 21:56

Gracias, cambie el cotejamiento de la bd y comenzó a funcionar con tíldes. Pero no me reconoce ahora las description y keywords al utilizar get meta tags.

Me marca el siguiente error:

Cita:

Undefined index: description
Undefined index: keywords

Y sigue salteandose algunos campos, mañana con más tiempo reviso el código, porque también anda un poco lento jaja, si necesito cargar 1 millón de páginas no creo llegar.

portalmana · #18 (**permalink**) 31/10/2012, 05:12

Lo de los metatags y el undefined index, es porque la pagina no debe tener esos metas.

Código PHP:

Ver original$descripcion = isset($metas["description"])?$metas["description"] : '';

Por lo menos no largara el error, aunque si te va a quedar vació.

Saludos

xarmagedonx · #19 (**permalink**) 02/11/2012, 21:15

Hola!, gracias por toda tu ayuda.... solo tengo algunas dudas más...

¿Cómo puedo lograr extraer páginas con conección segura: https?, porque intente con wikipedia y no llegue a extrare ningún artículo =S, y por último, al cargar por ejemplo la url inicial:

Cita:

http://www.miweb.com

Me añade estas dos a la bd, omo si fueran distintas:

Cita:

http://www.miweb.com
http://www.miweb.com/

¿como puedo evitar esto?

Saludos y muchas gracias por todo!!!!!!, voy a seguir trabajando en el código así el 7 puedo presentarlo =).

portalmana · #20 (**permalink**) 03/11/2012, 15:22

Lo primero habria que seguir extrayendo mejor la url, en donde sacamos por ejemplo el ancla y seguir luego para ver si termina en / o no y asi sacarselo.

Lo otro de wikipedia voy a ver que pasa.

Me fije, y me parece que el problema es porque la wiki tiene referencias relativas mayormente en los enlaces,
de la forma /wiki/Wikipedia:Bienvenidos.
Quizás sea eso lo que hace que no se puedan recorrer los enlaces.
Pero no creo que sea por el https pues si pones uno lo hace.

Saludos

xarmagedonx · #21 (**permalink**) 04/11/2012, 16:12

Hola, esta bien lo que decis sobre wikipedia, pero si por ejemplo quisiera extraer los artículos desde: http://es.wikipedia.org/wiki/Wikiped...los_destacados los enlaces hacia los artículos tiene la forma de http://es.wikipedia.org/wiki/

Pero claro los del menú tienen la forma /wiki/Wikipedia:Bienvenidos, hay alguna forma de evitar estos e ir directamente hacia los artículos???

portalmana · #22 (**permalink**) 04/11/2012, 19:29

Lo que se me ocurre, es que generalmente en los enlaces de artículos la propiedad href es wiki/nombre_articulo y tiene siempre el atributo title que es nombre_articulo.

Pero ahí ya te estaría quedando como muy enfocado a eso.

Saludos

xarmagedonx · #23 (**permalink**) 04/11/2012, 20:44

Encontré una solución temporal, hacer un copy & paste de los links de wikipedia, en un archivo de dreamweaver, y descargarlos con el webcrawler desde ahí.

Edito: Como podría incluirse la fecha actual al campo "timestap"?

Saludos!

portalmana · #24 (**permalink**) 05/11/2012, 17:07

Si en por defecto pones CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, con eso ya se inserta solo y se actualiza solo. No necesitas enviar la fecha y hora.

Saludos

xarmagedonx · #25 (**permalink**) 05/11/2012, 19:56

Gracias!, para reemplazar en caso de que esté desactualizado se podría hacer algo como esto:

Código PHP:

Ver originalif (date('Y-m-d') == date('Y-m-d', strtotime('2012-5-11 10:54:00'))) {
    //es hoy
} else {
//aca se reemplazaría
}

PD: si intento añadir dos veces una misma url lo acepta, y graba dos veces la página principal =S. También tengo la codificación utf-8 pero no acepta comillas y otros simbolos.

EDITO IMPORTANTE: Conseguí dos códigos que generan la descripcion y las keywords de una página web:

Para la descripción:

Código PHP:

Ver originalfunction obtenerMetaDescription($text) {
        $text = strip_tags($text);
        $text = trim($text);
        $text = substr($text, 0, 247);
        return $text."...";
    }

Para las keywords:

Código PHP:

Ver originalfunction obtenerMetaKeywords($text) {
        // Limpiamos el texto
        $text = strip_tags($text);
        $text = strtolower($text);
        $text = trim($text);
        $text = preg_replace('/[^a-zA-Z0-9 -]/', ' ', $text);
        // extraemos las palabras
        $match = explode(" ", $text);
        // contamos las palabras
        $count = array();
        if (is_array($match)) {
            foreach ($match as $key => $val) {
                if (strlen($val)> 3) {
                    if (isset($count[$val])) {
                        $count[$val]++;
                    } else {
                        $count[$val] = 1;
                    }
                }
            }
        }
        // Ordenamos los totales
        arsort($count);
        $count = array_slice($count, 0, 10);
        return implode(", ", array_keys($count));
    }

Intenté con el de la descripción pero sale el siguiente error:

Cita:

Cannot redeclare obtenerMetaDescription()

Reemplaze los $text por $html que es el que guarda la página, pero igual tiene ese problema.

Saludos y gracias por todo