Foros del Web - Ver Mensaje Individual

xarmagedonx · #5 (**permalink**) 12/09/2012, 12:02

Cita:

Iniciado por pateketrueke

1. Sólo estás cargando el DOM de una sola pagina
2. Las demás paginas no se cargan por arte de magia
3. Necesitas tu cargar pagina por pagina para extraer el titulo

jajaj me parecía que me estaba olvidando de algo.

¿Para cargar las otras páginas se haría de la siguiente manera?:

$dom = new DOMDocument();
@$dom->loadHTML($url);

Luego vuelvo a extraer enlaces, que podría guardarlos en un archivo, y extraigo los titulos de cada una.

edit: Acabo de probar con preg_match_all ('/<title>(.*)<\/title>/',file_get_contents($url), $title); pero no me extrae el titulo sino que imprime el sig texto: "Array".

EDITO: Perdón, no añadí parte del código cuando copie, el código original es este:

Código PHP:

Ver original$ch = curl_init();
 
curl_setopt [...]
 
$html= curl_exec($ch);
if (!$html) {
    echo "<br />cURL error number:" .curl_errno($ch);
    echo "<br />cURL error:" . curl_error($ch);
    exit;
}
 
$dom = new DOMDocument();
@$dom->loadHTML($html);
 
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");
 
for ($i = 0; $i < $hrefs->length; $i++) {
    $href = $hrefs->item($i);
    $url = $href->getAttribute('href');
preg_match_all ("(<title>(.*)</title>)siU", $html, $title);
[...]