Ver Mensaje Individual
  #1 (permalink)  
Antiguo 06/12/2010, 21:10
Avatar de sakunix
sakunix
 
Fecha de Ingreso: octubre-2007
Mensajes: 18
Antigüedad: 16 años, 6 meses
Puntos: 0
Pregunta Obtener HTML con ligas completas de paginas hechas con CMS

Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.

toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).

las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:
Código:
<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?

saludos gracias