Foros del Web » Programación para mayores de 30 ;) » Java »

remover html de un string

Estas en el tema de remover html de un string en el foro de Java en Foros del Web. Hola a todos, tanto tiempo?. Bueno para ello he encontrado este metodo que casi funciona. Código: public String getTextoPlano(){ String htmlString = this.definicionInicial; String noHTMLString ...
  #1 (permalink)  
Antiguo 03/09/2010, 07:18
Avatar de djagu_26  
Fecha de Ingreso: enero-2008
Ubicación: Montevideo, Uruguay
Mensajes: 518
Antigüedad: 16 años, 3 meses
Puntos: 6
remover html de un string

Hola a todos, tanto tiempo?. Bueno para ello he encontrado este metodo que casi funciona.

Código:
public String getTextoPlano(){
	String htmlString = this.definicionInicial;
	String noHTMLString = htmlString.replaceAll("\\<.*?\\>", " ");
        return noHTMLString;
}
Digo casi, porque cuando en el html tengo caracteres especiales como ñ, á, é, etc al hacer el reemplazo me los traduce en &ntilde; &aacute; &eacute; , etc.

Una solucion podria ser hacer:

noHTMLString = htmlString.replaceAll("&ntilde;", "ñ"); (y asi con todos los caracteres especiales)

Pero me gustaria saber si alguien tiene alguna solucion mas prolija que no implique hacer un replaceAll por cada caracter especial ya que son muchisimos.

Saludos y gracias
__________________
"La magia no existe, la programacion si"

A/P Agustin Sivoplas
[email protected]
  #2 (permalink)  
Antiguo 03/09/2010, 10:05
 
Fecha de Ingreso: noviembre-2006
Mensajes: 56
Antigüedad: 17 años, 5 meses
Puntos: 1
Respuesta: remover html de un string

Hola, puedes probar con la librería Jsoup (http://jsoup.org/) es un API para extraer y manipular datos html, tan fácil como:

Jsoup.parse(stringHtml).text();

Un Saludo.
__________________
http://garza.eu5.org/
  #3 (permalink)  
Antiguo 03/09/2010, 15:35
 
Fecha de Ingreso: julio-2009
Mensajes: 45
Antigüedad: 14 años, 9 meses
Puntos: 1
Respuesta: remover html de un string

mmm yo te puedo ayudar mira lo que yo uso son dos array uno para almacenar los caracteres reemplazados y otro para almacenar por que lo reempalzare dentro de un while mira ahora estoy en windows y aqui no tengo nada me cambio a ubuntu y edito y te pongo el code que uso :) buena suerte

Como te dije aqui esta el code:

Cita:
int i=0;
String FILTROcambiada=null;
String palabrasFILTRO[] = {"&ntilde"}; //aqui la palabra reemplazada
// Palabras filtradas por...
String palabrasFILTROPOR[] = {"ñ"};// aqui la palabra a reempalzar en este caso &ntilde por ñ ya que ambas estan en la primera pocicion d elos arrays
while(i <= palabrasFILTRO.length-1){
FILTROcambiada = FILTROcambiada.replace(palabrasFILTRO[i], palabrasFILTROPOR[i]);
i++;
}

ese ej te deberia funcionar ya que ami si me funciona :p solo tendrias que agregar las etiquetas a los array sopongo que entenderas como funciona :) la variable FILTROcambiada es la que almacena la palabra cambiada si necesitas mas ayuda me dises :)

Última edición por ElVagox_; 03/09/2010 a las 15:56 Razón: Pongo el code que prometi :p
  #4 (permalink)  
Antiguo 04/09/2010, 18:19
Avatar de djagu_26  
Fecha de Ingreso: enero-2008
Ubicación: Montevideo, Uruguay
Mensajes: 518
Antigüedad: 16 años, 3 meses
Puntos: 6
Respuesta: remover html de un string

Gracias voy a revisar la libreria.

Vagox, gracias por la respuesta pero tambien necesitaria sacar el javascript, css, etc. Por eso me parece mejor utilizar un parser de HTML.

Saludos
__________________
"La magia no existe, la programacion si"

A/P Agustin Sivoplas
[email protected]

Etiquetas: html, remover, string
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 13:19.