Ver Mensaje Individual
  #2 (permalink)  
Antiguo 10/01/2013, 07:34
Avatar de emprear
emprear
Colaborador
 
Fecha de Ingreso: junio-2007
Ubicación: me mudé
Mensajes: 8.388
Antigüedad: 16 años, 10 meses
Puntos: 1567
Respuesta: Obtener listado enlaces descarga de una web

Con esta herramienta
http://www.xml-sitemaps.com/

Entre los archivos generados hay uno llamado urllist.txt que contiene solo los enlaces

Con php, con esta script

Código PHP:
Ver original
  1. <?php
  2. $html = file_get_contents('http://forosdelweb.com');
  3. $todos = "";
  4. $guardar = "";
  5. $dom = new DOMDocument();
  6. @$dom->loadHTML($html);
  7.  
  8. $xpath = new DOMXPath($dom);
  9. $hrefs = $xpath->evaluate("/html/body//a");
  10.  
  11. for ($i = 0; $i < $hrefs->length; $i++) {
  12.        $href = $hrefs->item($i);
  13.        $url = $href->getAttribute('href');
  14.        $todos .=  $url.'<br />';
  15.        $guardar .=$url."\n";
  16. }
  17.  
  18.        echo $todos;
  19.        file_put_contents('links.txt', $guardar)
  20. ?>

No recuerdo bien, pero hay otros softwares tipo httrack que solo guardan la lista de links (teleport Pro, o alguno de esos, incluso el http://www.reget.com/en/)
También esta el
http://validator.w3.org/checklink
Que en el cuadro inferior te muestra las urls, aunque también mustra otros detalles por lo que deberías limpiar el contenido

SAludos
__________________
La voz de las antenas va, sustituyendo a Dios.
Cuando finalice la mutación, nueva edad media habrá
S.R.