Extraer texto archivo HTML

Belzebu · #1 (**permalink**) 07/10/2008, 09:15

Buenas, me gustaría saber si sabeis algún metodo con el cual pueda extraer todos los textos contenidos entre las etiquetas <h1> y <p> de un archivo .html.

Hasta ahora he utilizado un filtro echo por mi "public class Html2Ascii extends FilterInputStream", que va leida dato por dato hasta que encuentra un <h1> o <p> y a partir de este momento retorna lo que tiene su interior, pero es algo lento y dudo de su calidad ya que me deja espacios en blanco en los lugares donde antes habia letras.

Gracias!

Belzebu · #2 (**permalink**) 08/10/2008, 03:30

He encontrado un contenido interesante sobre este tema en: http://www.exampledepot.com/egs/java...l/GetText.html

He modificado el texto a:

Código PHP:

  import java.io.*;

import java.net.*;

import javax.swing.text.*;

import javax.swing.text.html.*;

 
 
class getText {

    public static void main(String[] args) {

        

    String uriStr = args[0];

    String probando="";

 
        final StringBuffer buf = new StringBuffer(1000);

    

        try {

            // Create an HTML document that appends all text to buf

            HTMLDocument doc = new HTMLDocument() {

                public HTMLEditorKit.ParserCallback getReader(int pos) {

                    return new HTMLEditorKit.ParserCallback() {

                        // This method is whenever text is encountered in the HTML file

                        public void handleText(char[] data, int pos) {

                            buf.append(data);

                            buf.append('\n');

                        }

                    };

                }

            };

    

            // Create a reader on the HTML content

            URL url = new URI(uriStr).toURL();

            URLConnection conn = url.openConnection();

            Reader rd = new InputStreamReader(conn.getInputStream());

    

            // Parse the HTML

            EditorKit kit = new HTMLEditorKit();

            kit.read(rd, doc, 0);

        } catch (MalformedURLException e) {

        } catch (URISyntaxException e) {

        } catch (BadLocationException e) {

        } catch (IOException e) {

        }

    

        // Return the text

       System.out.println(buf.toString());

    

    }

 
}

pero no consigo que el codigo realice su objetivo final(extraer el texto), a ver si alguien me puede hechar un cable.

Gracias