Foros del Web - Ver Mensaje Individual

Profesor_Falken · #4 (**permalink**) 31/03/2016, 02:55

Buenas,

Para Excel no hay ningun problema, ya que efectivamente con POI la extraccion es muy sencilla.

El formato PDF es un formato digital orientado a la visualizacion que contiene graficos vectoriales, imagenes y texto. Para un documento PDF las celdas de la tabla no existen. Solo conoce graficos, lineas y texto incrustado en determinadas posiciones.

Con PDFBox podrias recuperar todo el texto y parsearlo en substrings mediante expresiones regulares, o bien extender la funcionalidad para interpretar el contenido del documento como se propone aqui:
http://stackoverflow.com/questions/3...es-with-pdfbox

Si no sabes hacerlo con PDFBox, yo le echaria un vistazo a JPedal que permite realizar operaciones de extraccion muy especificas como recuperar texto incluido en un rectangulo.
https://www.idrsolutions.com/jpedal/...for-pdf-files/
Eso si, preparate a pagar por ello, ya que se trata de un producto propietario de pago y bastante caro.

Un saludo