Ver Mensaje Individual
  #4 (permalink)  
Antiguo 24/07/2008, 10:29
LoveMeNot
 
Fecha de Ingreso: julio-2008
Mensajes: 85
Antigüedad: 15 años, 10 meses
Puntos: 2
Respuesta: Extractor de urls en un documento

Código PHP:
$html file_get_contents("http://dominio.com/foo/bar.php");
preg_match_all('#<a  ([^>]* )?href=("|\')([^>]+)("|\')[^>]*>'Uim,$html,$coincidencias);
//En $coincidencias[3] tienes un array con TODOS los links. 
Y luego solo te queda comprobar las que son del mismo dominio(puede hacerse en el propio regex también).
Ten en cuenta que hay tres tipos de enlaces que cumplen lo que buscas:
  • "http://dominio.com/carpeta/archivo.php" (completas?)
  • "carpeta/archivo.php" (relativas)
  • y "/carpeta/archivo.php" (absolutas)