Foros del Web » Programando para Internet » PHP »

Obtener HTML con ligas completas de paginas hechas con CMS

Estas en el tema de Obtener HTML con ligas completas de paginas hechas con CMS en el foro de PHP en Foros del Web. Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde. toodo bien con la libreria ...
  #1 (permalink)  
Antiguo 06/12/2010, 21:10
Avatar de sakunix  
Fecha de Ingreso: octubre-2007
Mensajes: 18
Antigüedad: 16 años, 6 meses
Puntos: 0
Pregunta Obtener HTML con ligas completas de paginas hechas con CMS

Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.

toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).

las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:
Código:
<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?

saludos gracias
  #2 (permalink)  
Antiguo 06/12/2010, 21:33
Avatar de pateketrueke
Modernizr
 
Fecha de Ingreso: abril-2008
Ubicación: Mexihco-Tenochtitlan
Mensajes: 26.399
Antigüedad: 16 años
Puntos: 2534
Respuesta: Obtener HTML con ligas completas de paginas hechas con CMS

a ver, no se trata de ningún truco para obtener la URL completa...

¡solo debes usar tu creatividad e ingenio!!

el primer paso es obtener la URL base, osea, http://el.sitio.com/ ya con esto las rutas que empiecen con / les concatenas dicha URL base...

¿no me digas que no se te había ocurrido?
__________________
Y U NO RTFM? щ(ºдºщ)

No atiendo por MP nada que no sea personal.
  #3 (permalink)  
Antiguo 06/12/2010, 21:42
Avatar de sakunix  
Fecha de Ingreso: octubre-2007
Mensajes: 18
Antigüedad: 16 años, 6 meses
Puntos: 0
Respuesta: Obtener HTML con ligas completas de paginas hechas con CMS

gracias por responder, si me había ocurrido pero surge la duda de como voy a saber de todas las posibles ligas cual es la liga base?

si ademas en la pagina ahí ligas de otras paginas D:, pero la idea es viable, solo faltaría saber cual es la url en cuestión a empesar a concatenar

saludos

  #4 (permalink)  
Antiguo 06/12/2010, 22:17
Avatar de pateketrueke
Modernizr
 
Fecha de Ingreso: abril-2008
Ubicación: Mexihco-Tenochtitlan
Mensajes: 26.399
Antigüedad: 16 años
Puntos: 2534
Respuesta: Obtener HTML con ligas completas de paginas hechas con CMS

exacto... todas la URL que comienzan por la / o bien, usan atajos relativos ./ y ../ apuntan a la raíz del sitio principal...

mientras sepas que URL comenzar a leer, entonces ahí ya tienes URL la base...
__________________
Y U NO RTFM? щ(ºдºщ)

No atiendo por MP nada que no sea personal.

Etiquetas: cms, html
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 19:50.