Foros del Web - Ver Mensaje Individual - extraccion y almacenamiento de informacion de un PDF

ClaCS · #1 (**permalink**) 31/01/2013, 09:45

Buenos días gente. Esta vez con unas dudas y buscando consejos

Queremos desarrollar una aplicación web cuyo objetivo es extraer información de unos PDF (pólizas de seguro) que contienen bastante texto informativo, muchas tablas (con diversas estructuras) y listas, dicha información luego tiene que ser almacenada en una pequeña base de datos para luego ser consultada

Actualmente estamos interesados en PHP para poder realizar esto, pero no hemos tenido muy buenos resultados. Lo primero que se nos ocurrió fue transformar PDF->XML (pdftohtml -xml) para poder recorrer la información y extraerla pero debido a las tablas y listas que contienen los PDF se hace MUY difícil armar la información para almacenarla a partir del XML generado

Alguno de ustedes tiene experiencia en este tipo de casos?? Que me podrían recomendar?? Estaría bien el uso de PHP?? o en que otros lenguajes me seria mucho mas fácil poder cumplir con el objetivo?? Es necesaria una herramienta OCR?? algún buen OCR que pueda interactuar con algún lenguaje de programación?

muchas gracias por su ayuda