Extraer enlaces HTML

SeNNiNG · #1 (**permalink**) 17/02/2010, 05:08

Buenas,
Estoy realizando una aplicación que gestiona la búsqueda y descarga de podcasts. Para la búsqueda, necesito extraer los enlaces, para ello utilizo el HTMLEditorKit y extraigo las etiquetas <A> de la siguiente forma:

(El parámetro de entrada es el documento html convertido en string.)

Código:

public static LinkedList getLinks(String texto) {

           LinkedList result = new LinkedList();
           try
           {
               HTMLEditorKit kit = new HTMLEditorKit();
               HTMLDocument doc = (HTMLDocument)kit.createDefaultDocument();
               doc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);
               StringReader sr = new StringReader(texto);
               kit.read(sr, doc, 0);

               HTMLDocument.Iterator it = doc.getIterator(HTML.Tag.A);
               
               while (it.isValid())
               {                   
                    SimpleAttributeSet s = (SimpleAttributeSet)it.getAttributes();                    
                    String link = (String)s.getAttribute(HTML.Attribute.HREF);
                    if (link != null) {
                        // Agregamos el resultado a la lista
                        if(link.indexOf("localhost")<=0) {
                            result.add(link);
                        }//if
                    }//if
                    it.next();
                }//while
           }//try
           catch (Exception ex)
           {
               System.out.println(ex);
               return null;
           }//catch
           return result;
    }//getLinks

Pero cuando quiero extraer los enlaces de tipo <LINK> la función retorna null.

He comprobado si (HTMLDocument.Iterator it = doc.getIterator(HTML.Tag.A);) it tenía algún valor pero es nulo, así que ahí está el problema pero no sé cómo solucionarlo.
He mirado en google pero todos los ejemplos están hechos con la etiqueta <A>.

Un saludo y gracias de antemano

elAntonie · #2 (**permalink**) 17/02/2010, 05:24

Wenas

No he visto nada de esto, pero buscando por la web, me sale un tal HTMLEditorKit.Parser.

Código:

// Create empty HTMLDocument to read into
HTMLEditorKit htmlKit = new HTMLEditorKit();
HTMLDocument htmlDoc = (HTMLDocument)htmlKit.createDefaultDocument();
// Create parser (javax.swing.text.html.parser.ParserDelegator)
HTMLEditorKit.Parser parser = new ParserDelegator();
// Get parser callback from document
HTMLEditorKit.ParserCallback callback = htmlDoc.getReader(0);
// Load it (true means to ignore character set)
parser.parse(reader, callback, true);

Siendo reader un Reader (BufferedReader, StringReader, ...)

Saludos.

Pd. Se e olvido donde lo he visto http://www.jguru.com/faq/view.jsp?EID=4370

GreenEyed · #3 (**permalink**) 17/02/2010, 05:35

Has probado a cambiar..

Cita:

doc.getIterator(HTML.Tag.A);

por

Cita:

doc.getIterator(HTML.Tag.LINK);

?
S!

SeNNiNG · #4 (**permalink**) 17/02/2010, 05:37

El ejemplo que puse era para A. Pero con LINK es donde me retorna null.

SeNNiNG · #5 (**permalink**) 21/02/2010, 10:19

Bueno a base de darle vueltas y vueltas y probar cosas he dado con la solución.
El problema estaba en la linea:

Código PHP:

  SimpleAttributeSet s = (SimpleAttributeSet)it.getAttributes();

que para el caso de las etiquetas <a> funcionaba correctamente, pero en los enlaces <link> saltaba una ClassCastException. El valor retornado por it.getAttributes() en este caso no es del tipo SimpleAttributeSet (aunque no sé muy bien por qué) sino que es un AbstractDocument.AbstractElement.

La solución es la siguiente:

Código PHP:

  AbstractDocument.AbstractElement s = (AbstractDocument.AbstractElement)it.getAttributes();