Foros del Web » Programando para Internet » PHP »

Duda con PDF

Estas en el tema de Duda con PDF en el foro de PHP en Foros del Web. Hola a todos. Tengo la duda si es posible extraer texto de un pdf, tengo la clase "FPDF", pero no encuentro la forma de hacer ...
  #1 (permalink)  
Antiguo 06/11/2006, 16:24
Avatar de navy  
Fecha de Ingreso: febrero-2006
Mensajes: 36
Antigüedad: 18 años, 2 meses
Puntos: 1
Duda con PDF

Hola a todos.
Tengo la duda si es posible extraer texto de un pdf, tengo la clase "FPDF", pero no encuentro la forma de hacer esto, y por las funciones de ficheros del php tampoco. No se si alguna biblioteca de pago de licencias como la PDFLIB serviria.
Saludos.
  #2 (permalink)  
Antiguo 07/11/2006, 05:13
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
Las classes o extensiones que mencionas son para "generar" tu PDF .. no para "manipular" un PDF hecho.

Dado que un PDF incluso se puede hasta "encriptar" (sobre todo cuando lo generas con opciones para que no se pueda imprimir .. etc), es complicado extraer algún dato de un PDF.

Si no está encriptado .. podrías abrir el archivo como un "txt" cualquiera y buscar en el una cadena dada (con funciones de expresiones regulares o de cadenas: www.php.net/string). Esto no te asegura que extraigas el texto correctamente, .. entre ese "texto" hay mucho "código" PDF para darle el formato entre otras cosas.

Lo ideal sería que te busques alguna aplicación que realmente interprete el código "PDF" para que este proceso sea "limpio".

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.
  #3 (permalink)  
Antiguo 07/11/2006, 09:24
Avatar de navy  
Fecha de Ingreso: febrero-2006
Mensajes: 36
Antigüedad: 18 años, 2 meses
Puntos: 1
Cluster gracias por tu respuesta.
Mira que he buscado la forma de obtener un texto claro apartir de un pdf, pero nada;seguire intentandolo, si logro algo les comparto el codigo.
Como podria saber si un pdf esta encriptado o no?.
Saludos.
  #4 (permalink)  
Antiguo 07/11/2006, 09:51
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
Cita:
Iniciado por navy Ver Mensaje
Cluster gracias por tu respuesta.
Mira que he buscado la forma de obtener un texto claro apartir de un pdf, pero nada;seguire intentandolo, si logro algo les comparto el codigo.
Como podria saber si un pdf esta encriptado o no?.
Saludos.
Lo abres con el "notepad" y si identificas alguna "palabra" legible de tu texto ya lo veras.

(Seguro que hay alguna "cabecera" o viendolo con el Adobe PDF (el que los crea) tal vez salga alguna propiedad .. pero "a lo bruto" lo hago como te comento).

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.
  #5 (permalink)  
Antiguo 09/11/2006, 02:37
 
Fecha de Ingreso: octubre-2006
Mensajes: 34
Antigüedad: 17 años, 6 meses
Puntos: 0
Hola,

Pues con PHP no se puede. Pero puedes utilizar un programa que te lo convierte a texto. El programa es "pdftotext" que viene con el paquete Xpdf. Esta para varios sistemas operativos.

foolabs.com/xpdf/download.html

Ej:
pdftotext informe.pdf

Esto te creara un informe.txt con el texto
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 16:47.