Foros del Web » Programación para mayores de 30 ;) » Java »

Extraer texto archivo HTML

Estas en el tema de Extraer texto archivo HTML en el foro de Java en Foros del Web. Buenas, me gustaría saber si sabeis algún metodo con el cual pueda extraer todos los textos contenidos entre las etiquetas <h1> y <p> de un ...
  #1 (permalink)  
Antiguo 07/10/2008, 09:15
 
Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 17 años, 3 meses
Puntos: 0
Extraer texto archivo HTML

Buenas, me gustaría saber si sabeis algún metodo con el cual pueda extraer todos los textos contenidos entre las etiquetas <h1> y <p> de un archivo .html.

Hasta ahora he utilizado un filtro echo por mi "public class Html2Ascii extends FilterInputStream", que va leida dato por dato hasta que encuentra un <h1> o <p> y a partir de este momento retorna lo que tiene su interior, pero es algo lento y dudo de su calidad ya que me deja espacios en blanco en los lugares donde antes habia letras.

Gracias!
  #2 (permalink)  
Antiguo 08/10/2008, 03:30
 
Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 17 años, 3 meses
Puntos: 0
Respuesta: Extraer texto archivo HTML

He encontrado un contenido interesante sobre este tema en: http://www.exampledepot.com/egs/java...l/GetText.html

He modificado el texto a:

Código PHP:
import java.io.*;
import java.net.*;
import javax.swing.text.*;
import javax.swing.text.html.*;


class 
getText {
    public static 
void main(String[] args) {
        
    
String uriStr args[0];
    
String probando="";

        final 
StringBuffer buf = new StringBuffer(1000);
    
        try {
            
// Create an HTML document that appends all text to buf
            
HTMLDocument doc = new HTMLDocument() {
                public 
HTMLEditorKit.ParserCallback getReader(int pos) {
                    return new 
HTMLEditorKit.ParserCallback() {
                        
// This method is whenever text is encountered in the HTML file
                        
public void handleText(char[] dataint pos) {
                            
buf.append(data);
                            
buf.append('\n');
                        }
                    };
                }
            };
    
            
// Create a reader on the HTML content
            
URL url = new URI(uriStr).toURL();
            
URLConnection conn url.openConnection();
            
Reader rd = new InputStreamReader(conn.getInputStream());
    
            
// Parse the HTML
            
EditorKit kit = new HTMLEditorKit();
            
kit.read(rddoc0);
        } catch (
MalformedURLException e) {
        } catch (
URISyntaxException e) {
        } catch (
BadLocationException e) {
        } catch (
IOException e) {
        }
    
        
// Return the text
       
System.out.println(buf.toString());
    
    }


pero no consigo que el codigo realice su objetivo final(extraer el texto), a ver si alguien me puede hechar un cable.

Gracias
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 20:47.