Ver Mensaje Individual
  #1 (permalink)  
Antiguo 29/01/2010, 05:39
scorm
 
Fecha de Ingreso: julio-2008
Mensajes: 85
Antigüedad: 15 años, 10 meses
Puntos: 2
Leer ficheros con diferente codificación

Hola a todos!

Os comento mi problema por si podeis echarme una mano.
Resulta que tengo una serie de ficheros que están compuestos por cientos de páginas webs. Estás webs tiene diferente codificación. Un ejemplo para que se entienda, tengo un fichero llamado fich.arc (codificado en ISO-8859-1) y dicho fichero contiene 100 páginas webs, una detrás de otra, cada una de ellas codificada de una manera (unas UTF-8, otras ISO y otras no pone nada).

El objetivo es limpiar el código que aparece y quedarme con texto plano. El problema es que tengo que insertar cada página en una base de datos y tengo problemas con los acentos y caracteres similares.

Por ejemplo tengo una de las páginas que pone que es ISO y la tengo ya leida en un String, la inserto en la BD y en vez de aparecer el acento aparece el símbolo '|'. La codificación de la BD no es el problema porque si muestro por pantalla el String, lo muestra mal (antes de la inserción).

Cuando la página sé que es ISO, he probado a hacer:

fFinal=new String(fFinal.getBytes(ISO-8859-1), "UTF-8");

pero no funciona (Cambia los acentos por '?').

Ya he leido que en el momento que tienes un String en Java con el texto, ya lo tienes codificado en UTF-16, pero entonces ¿qué puedo hacer para conseguir pasar lo que tengo en el String a una codificación correcta?

Espero que podais ayudarme.

Muchas gracias!!!