Foros del Web » Programación para mayores de 30 ;) » Java »

leer fichero pdf java

Estas en el tema de leer fichero pdf java en el foro de Java en Foros del Web. Hola quiero hacer lo siguiente, un programa que lea un fichero pdf o excell o csv y pueda extraer los datos para poder trabajar con ...
  #1 (permalink)  
Antiguo 17/03/2016, 03:47
 
Fecha de Ingreso: abril-2007
Mensajes: 166
Antigüedad: 17 años
Puntos: 2
leer fichero pdf java

Hola quiero hacer lo siguiente, un programa que lea un fichero pdf o excell o csv y pueda extraer los datos para poder trabajar con ellos. A continuación cuando se realicen las operaciones pertinentes , me interesa sacarlo a otro fichero de tipo excell con un formato que yo quiera.

Primero me voy a centrar en leer y recoger los datos de uno de los ficheros que os he indicado. El problema es que ando bastante perdida en este tema. Me sabríais guiar un poco sobre como hacer esto??

Por cierto los datos que tengo que leer del pdf son datos que están contenidos en una tabla
  #2 (permalink)  
Antiguo 17/03/2016, 05:51
Avatar de Xerelo  
Fecha de Ingreso: mayo-2009
Mensajes: 2.175
Antigüedad: 14 años, 11 meses
Puntos: 306
Respuesta: leer fichero pdf java

http://pdfbox.apache.org/
__________________
Cada vez que solucionas los problemas de alguien que no se esfuerza, piensa en que el día de mañana puede llegar a ser tu compañero de trabajo, o peor, tu jefe.
  #3 (permalink)  
Antiguo 31/03/2016, 01:52
 
Fecha de Ingreso: abril-2007
Mensajes: 166
Antigüedad: 17 años
Puntos: 2
Respuesta: leer fichero pdf java

Pero esto no me vale, porque lo que hace es leerme pagina a pagina entera y almacenarlo en un string. Yo tengo que recoger un dato especifico y no guarda un formato concreto para poder sacar las substrings.

Use la libreria poi de apache, que me lee los ficheros excell
  #4 (permalink)  
Antiguo 31/03/2016, 02:55
Avatar de Profesor_Falken  
Fecha de Ingreso: agosto-2014
Ubicación: Mountain View
Mensajes: 1.323
Antigüedad: 9 años, 8 meses
Puntos: 182
Respuesta: leer fichero pdf java

Buenas,

Para Excel no hay ningun problema, ya que efectivamente con POI la extraccion es muy sencilla.

El formato PDF es un formato digital orientado a la visualizacion que contiene graficos vectoriales, imagenes y texto. Para un documento PDF las celdas de la tabla no existen. Solo conoce graficos, lineas y texto incrustado en determinadas posiciones.

Con PDFBox podrias recuperar todo el texto y parsearlo en substrings mediante expresiones regulares, o bien extender la funcionalidad para interpretar el contenido del documento como se propone aqui:
http://stackoverflow.com/questions/3...es-with-pdfbox

Si no sabes hacerlo con PDFBox, yo le echaria un vistazo a JPedal que permite realizar operaciones de extraccion muy especificas como recuperar texto incluido en un rectangulo.
https://www.idrsolutions.com/jpedal/...for-pdf-files/
Eso si, preparate a pagar por ello, ya que se trata de un producto propietario de pago y bastante caro.

Un saludo
__________________
If to err is human, then programmers are the most human of us
  #5 (permalink)  
Antiguo 11/07/2016, 01:37
 
Fecha de Ingreso: abril-2007
Mensajes: 166
Antigüedad: 17 años
Puntos: 2
Respuesta: leer fichero pdf java

Pero esto no me vale, porque lo que hace es leerme pagina a pagina entera y almacenarlo en un string. Yo tengo que recoger un dato especifico y no guarda un formato concreto para poder sacar las substrings.

Use la libreria poi de apache, que me lee los ficheros excell

Etiquetas: fichero, jar, pdf, programa
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 17:52.