Foros del Web » Programando para Internet » PHP »

Problema al Extraer texto de un PDF

Estas en el tema de Problema al Extraer texto de un PDF en el foro de PHP en Foros del Web. Buenas, necesito leer una tabla de un PDF, he conseguido hacerlo desde pdftohtml en linux, pero me surge el problema que lo lee de tal ...
  #1 (permalink)  
Antiguo 13/02/2013, 06:36
Avatar de BaKuSiN  
Fecha de Ingreso: mayo-2010
Mensajes: 5
Antigüedad: 13 años, 11 meses
Puntos: 0
Pregunta Problema al Extraer texto de un PDF

Buenas,
necesito leer una tabla de un PDF, he conseguido hacerlo desde pdftohtml en linux, pero me surge el problema que lo lee de tal forma que si el texto esta partido en dos lineas en una misma celda, lo cuenta como si fuese una linea anterior y no lo junta con la palabra que le sigue (no se si me estoy explicando bien), basicamente que de una fila llega a interpretar 3 lineas distintas.



Lo que necesito es alguna libreria en php (o si sabeis algun programa para pasarle una linea de comandos en linux/windows tambien me sirve), para extraer un texto de un pdf y que mantenga la tabla tal cual con algun separador o algo, para que pueda manipular los datos.




Muchas Gracias!
  #2 (permalink)  
Antiguo 14/02/2013, 12:02
Avatar de iukaeru  
Fecha de Ingreso: mayo-2012
Mensajes: 127
Antigüedad: 11 años, 11 meses
Puntos: 12
Respuesta: Problema al Extraer texto de un PDF

¿Probaste con FPDF?
  #3 (permalink)  
Antiguo 14/02/2013, 12:10
Avatar de BaKuSiN  
Fecha de Ingreso: mayo-2010
Mensajes: 5
Antigüedad: 13 años, 11 meses
Puntos: 0
Respuesta: Problema al Extraer texto de un PDF

Gracias por responder iukaeru,
pero según estoy leyendo, FPDF sirve para generar PDFs, lo que necesito es extraer el texto de un PDF y que respete lo maximo posible cuando lea las tablas que pueda haber (vamos, que no descoloque las cosas a su antojo).
  #4 (permalink)  
Antiguo 14/02/2013, 12:48
Colaborador
 
Fecha de Ingreso: mayo-2008
Ubicación: $MX['VZ']['Xalapa']
Mensajes: 3.005
Antigüedad: 15 años, 11 meses
Puntos: 528
Respuesta: Problema al Extraer texto de un PDF

¿Has probado con algún programa para pasar el pdf a word? creo que también estos programas interpretarán diferentes filas como diferentes lineas, por la naturaleza del pdf, que se hace como un dibujo, por lo que si agrandas la hoja los datos no se reacomodan como lo haría un .doc

Etiquetas: html, pdf, tabla
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 21:46.