Buenas,
Para Excel no hay ningun problema, ya que efectivamente con POI la extraccion es muy sencilla.
El formato PDF es un formato digital orientado a la visualizacion que contiene graficos vectoriales, imagenes y texto. Para un documento PDF las celdas de la tabla no existen. Solo conoce graficos, lineas y texto incrustado en determinadas posiciones.
Con PDFBox podrias recuperar todo el texto y parsearlo en substrings mediante expresiones regulares, o bien extender la funcionalidad para interpretar el contenido del documento como se propone aqui:
http://stackoverflow.com/questions/3...es-with-pdfbox
Si no sabes hacerlo con PDFBox, yo le echaria un vistazo a JPedal que permite realizar operaciones de extraccion muy especificas como recuperar texto incluido en un rectangulo.
https://www.idrsolutions.com/jpedal/...for-pdf-files/
Eso si, preparate a pagar por ello, ya que se trata de un producto propietario de pago y bastante caro.
Un saludo