Ver Mensaje Individual
  #1 (permalink)  
Antiguo 01/02/2008, 06:54
Warlord666
 
Fecha de Ingreso: marzo-2007
Ubicación: Mallorca
Mensajes: 4
Antigüedad: 17 años, 1 mes
Puntos: 0
Extraer URL's de una web con regex

Hola me interesaria recoger solamente las URL's del codigo fuente HTML que guardo en la variable "content".


Solo he logrado conseguir que me devuelva algo como esto:
Código:
<a href="http://www.marca.com/corporativo/contacto.html">Contacto</a>
Esta es mi funcion:
Código:
    public List<String> obtenerLinks() {
        String regex = "<\\s*?[a|A]\\s+?.*?>.*?<\\s*?/[a|A]\\s* ?>";
        
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(this.content);
        
        //Voy añadiendo uno a uno los links dentro del ArrayList listalinks
        List listaLinks=new ArrayList();
        while (matcher.find()) {
            listaLinks.add(matcher.group());
        }
        
        //Imprimo los links que encuentro
        System.out.println("Links Encontrados:");
         for (int i = 0; i < listaLinks.size(); i++) {  
             System.out.println(listaLinks.get(i));  
   
         }
        
        //Y el total encontrados.
        System.out.println("Total links encontrados: " + listaLinks.size());
        return listaLinks;
    }
Necesito vuestra ayuda!!! Muchas gracias de antemano ;)