Foros del Web » Programando para Internet » PHP »

Saltar de web en web y extraer las url

Estas en el tema de Saltar de web en web y extraer las url en el foro de PHP en Foros del Web. Hola nuevamente por aqui. Tengo otra cosilla que solucionar, esta la llevo pensando varios dias peor no se como hacer el metodo. Os comento un ...
  #1 (permalink)  
Antiguo 30/07/2009, 14:25
 
Fecha de Ingreso: abril-2009
Mensajes: 24
Antigüedad: 15 años
Puntos: 0
Saltar de web en web y extraer las url

Hola nuevamente por aqui.

Tengo otra cosilla que solucionar, esta la llevo pensando varios dias peor no se como hacer el metodo.

Os comento un poco, estoy haciendo un spider, este le doy una url madre y apartir de ella extraer el codigo html para luego buscar link. (asta aqui sin problemas).

la cosa esta en que ese mismo porceso deveria de repetirlo con cada link extraido, indefinidamente o si no es posible poner un numero de veces que tendria que repetir el proceso.

Dejo el codigo:

Código PHP:
$url file_get_contents($url);
###########################################################
#        Extraemos todos los link de esa web              #
###########################################################
$extraer_link preg_match_all("/(?#WebOrIP)((?#protocol)((http|https):\/\/)?(?#subDomain)(([a-zA-Z0-9]+\.(?#domain)[a-zA-Z0-9\-]+(?#TLD)(\.[a-zA-Z]+){1,2})|(?#IPAddress)((25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9])\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])))+(?#Port)(:[1-9][0-9]*)?)+(?#Path)((\/((?#dirOrFileName)[a-zA-Z0-9_\-\%\~\+]+)?)*)?(?#extension)(\.([a-zA-Z0-9_]+))?(?#parameters)(\?([a-zA-Z0-9_\-]+\=[a-z-A-Z0-9_\-\%\~\+]+)?(?#additionalParameters)(\&([a-zA-Z0-9_\-]+\=[a-z-A-Z0-9_\-\%\~\+]+)?)*)?/i",
$url,
$respuestas); 

if (
$extraer_link
    foreach(
array_unique($respuestas[0]) as $link
echo 
$link "<br />"
$url --> es especificado desde una BD.

Un saludo
  #2 (permalink)  
Antiguo 30/07/2009, 16:19
 
Fecha de Ingreso: enero-2009
Mensajes: 408
Antigüedad: 15 años, 3 meses
Puntos: 14
Respuesta: Saltar de web en web y extraer las url

Hola , tienes que agregarle la propiedad de recursión , es decir crea una función que admita como parametro una url y que procese ahi la busqueda de urls , luego detectas las diversas url contenida , cada vez que encuentras una url nueva , invocas nuevamente a tu función con la nueva url como parametro.

Saludos!
  #3 (permalink)  
Antiguo 31/07/2009, 06:20
 
Fecha de Ingreso: abril-2009
Mensajes: 24
Antigüedad: 15 años
Puntos: 0
Si eso mismo estube mirando, que llame a la funcion cada vez que ah una nueva url, peor no se muy bien como hacer ese proceso.

He estado mirando, por los buscadores y lo tipoco es la funcion del factoriasl peor no veo muy bien como adaptarlo a lo que yo quiero.

Como podria ser el codigo??

Última edición por GatorV; 01/08/2009 a las 13:42
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 14:03.