Foros del Web - Ver Mensaje Individual

Cluster · #6 (**permalink**) 31/03/2005, 12:14

Pero actualmente como buscas en ese PDF? .. lo haces convirtiendolo a texto plano? .. si lo haces así no tendrás ningún control de paginas .. hay muchos factores que influyen si tal "texto" queda en tal o cual página.. (el sálto de página en el PDF como código de control/comando te ayudaría .. pero ....)

Lo que necesitarías usar es algún buscador .. pero sobre el documento PDF en sí .. ahí tendrías control de páginas y demás.

Xpdf (con su pdftotext) .. te extrae todo el texto .. no entrega información de saltos de página del PDF que va leyendo ni nada más.

Podrías probar con esta classe:
http://www.phpclasses.org/browse/package/702.html

No sé si entregará sus resultados con información de la página que se ecuentra el texto .. pero al menos veras la técnicas para "parsear" (leer) el documento .. Eso sí .. con PHP y esos 32Mb de archivo PDF a procesar vas a tener muchos problemas (de tiempo de ejecución del script, de memoria consumida por el script .. ) No es viable, .. aunque podrías de esa forma "indexar" mejor tu documento PDF (para guardarte en que páginas aparece tal terminio que se va indexando).

Un saludo,

PD: para otra vez .. por favor sé más especifico en un primer instante.