Foros del Web » Soporte técnico » Ayuda General »

extraccion y almacenamiento de informacion de un PDF

Estas en el tema de extraccion y almacenamiento de informacion de un PDF en el foro de Ayuda General en Foros del Web. Buenos días gente. Esta vez con unas dudas y buscando consejos Queremos desarrollar una aplicación web cuyo objetivo es extraer información de unos PDF (pólizas ...
  #1 (permalink)  
Antiguo 31/01/2013, 09:45
 
Fecha de Ingreso: enero-2007
Mensajes: 63
Antigüedad: 17 años, 2 meses
Puntos: 2
Pregunta extraccion y almacenamiento de informacion de un PDF

Buenos días gente. Esta vez con unas dudas y buscando consejos

Queremos desarrollar una aplicación web cuyo objetivo es extraer información de unos PDF (pólizas de seguro) que contienen bastante texto informativo, muchas tablas (con diversas estructuras) y listas, dicha información luego tiene que ser almacenada en una pequeña base de datos para luego ser consultada

Actualmente estamos interesados en PHP para poder realizar esto, pero no hemos tenido muy buenos resultados. Lo primero que se nos ocurrió fue transformar PDF->XML (pdftohtml -xml) para poder recorrer la información y extraerla pero debido a las tablas y listas que contienen los PDF se hace MUY difícil armar la información para almacenarla a partir del XML generado

Alguno de ustedes tiene experiencia en este tipo de casos?? Que me podrían recomendar?? Estaría bien el uso de PHP?? o en que otros lenguajes me seria mucho mas fácil poder cumplir con el objetivo?? Es necesaria una herramienta OCR?? algún buen OCR que pueda interactuar con algún lenguaje de programación?


muchas gracias por su ayuda
  #2 (permalink)  
Antiguo 31/01/2013, 09:55
 
Fecha de Ingreso: enero-2008
Mensajes: 614
Antigüedad: 16 años, 3 meses
Puntos: 57
Respuesta: extraccion y almacenamiento de informacion de un PDF

¿Lo que necesitas es desde una aplicacion poder buscar texto dentro de los PDF?

Si es asi, existe un producto dtSearch que puede indexar muchos tipos de archivo para que despues puedas hacer busquedas de texto
  #3 (permalink)  
Antiguo 31/01/2013, 10:05
 
Fecha de Ingreso: enero-2007
Mensajes: 63
Antigüedad: 17 años, 2 meses
Puntos: 2
Respuesta: extraccion y almacenamiento de informacion de un PDF

Cita:
Iniciado por posman Ver Mensaje
¿Lo que necesitas es desde una aplicacion poder buscar texto dentro de los PDF?
Hola,

No, en esta oportunidad lo que necesitamos es desarrollar una aplicación web que pueda extraer la información de un PDF que contiene texto, tablas y listas Esta información sera almacenada y luego podrá ser consultada

El problema que tenemos es como extraer dicha información (a través del uso de librerias, SDKs, etc) de los archivos PDF de una manera simple y ordenada, para que a través de código, ésta pueda ser estructurada y almacenada en una BD

Etiquetas: almacenamiento, informacion, pdf
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 05:57.