Ver Mensaje Individual
  #4 (permalink)  
Antiguo 31/03/2016, 02:55
Avatar de Profesor_Falken
Profesor_Falken
 
Fecha de Ingreso: agosto-2014
Ubicación: Mountain View
Mensajes: 1.323
Antigüedad: 9 años, 9 meses
Puntos: 182
Respuesta: leer fichero pdf java

Buenas,

Para Excel no hay ningun problema, ya que efectivamente con POI la extraccion es muy sencilla.

El formato PDF es un formato digital orientado a la visualizacion que contiene graficos vectoriales, imagenes y texto. Para un documento PDF las celdas de la tabla no existen. Solo conoce graficos, lineas y texto incrustado en determinadas posiciones.

Con PDFBox podrias recuperar todo el texto y parsearlo en substrings mediante expresiones regulares, o bien extender la funcionalidad para interpretar el contenido del documento como se propone aqui:
http://stackoverflow.com/questions/3...es-with-pdfbox

Si no sabes hacerlo con PDFBox, yo le echaria un vistazo a JPedal que permite realizar operaciones de extraccion muy especificas como recuperar texto incluido en un rectangulo.
https://www.idrsolutions.com/jpedal/...for-pdf-files/
Eso si, preparate a pagar por ello, ya que se trata de un producto propietario de pago y bastante caro.

Un saludo
__________________
If to err is human, then programmers are the most human of us