Foros del Web » Programando para Internet » PHP »

Búsqueda de palabras dentro de un .pdf

Estas en el tema de Búsqueda de palabras dentro de un .pdf en el foro de PHP en Foros del Web. Hola, pues eso, estoy intentando desarrollar un pequeño motor de búsqueda y no sé cómo hacer para buscar una palabra dentro de un documento .pdf. ...
  #1 (permalink)  
Antiguo 26/08/2008, 08:05
 
Fecha de Ingreso: febrero-2005
Mensajes: 105
Antigüedad: 19 años, 2 meses
Puntos: 1
Búsqueda de palabras dentro de un .pdf

Hola, pues eso, estoy intentando desarrollar un pequeño motor de búsqueda y no sé cómo hacer para buscar una palabra dentro de un documento .pdf.

El tema es que un usuario rellene un formulario relativo a un libro (por ejemplo) indicando el autor, título, fecha de publicación, .pdf del libro (se indica la ruta y el fichero binario se almacena en la base de datos como si fuese un campo blob).

He desarrollado el motor de búsqueda para que, dado un título, nombre, fecha... devuelva los libros que contienen esa información (esto ha sido relativamente fácil, sólo debo hacer una consulta a la base de datos). El problema viene cuando las búsquedas deben hacerse dentro de los ficheros .pdf. He estado mirando posts en este foro y, algunos de ellos, hablan del mismo tema sobre el que estoy preguntando, pero ninguno aclara nada. Los posts son los siguientes (entre otros):

http://www.forosdelweb.com/f18/busqu...os-pdf-270830/
http://www.forosdelweb.com/f18/busqu...os-pdf-422398/

Agradecería a alguien que me echase una mano porque es muy importante para mí solucionar este problema y estoy muy muy muy perdido. Un saludo y gracias de antemano!

Por cierto, el portal web que estoy desarrollando utiliza mysql, php y xhtml.
  #2 (permalink)  
Antiguo 26/08/2008, 08:39
Avatar de Carlojas  
Fecha de Ingreso: junio-2007
Ubicación: Shikasta
Mensajes: 1.272
Antigüedad: 16 años, 10 meses
Puntos: 49
Respuesta: Búsqueda de palabras dentro de un .pdf

Que tal gazpachoymochil, la respuesta es clara en el primer post que publicas, solo desde PHP no es posible, necesitas una aplicación externa que te lea el PDF, la cual puedes ejecutar utlizando el comando exec(), busca alguna aplicación en google, ya si tienes alguna duda con el uso de las funciones de PHP, puedes exponer tus dudas aquí.



Saludos.
  #3 (permalink)  
Antiguo 26/08/2008, 08:53
 
Fecha de Ingreso: febrero-2005
Mensajes: 105
Antigüedad: 19 años, 2 meses
Puntos: 1
Respuesta: Búsqueda de palabras dentro de un .pdf

Gracias Carlojas, he estado buscando ese tipo de aplicaciones, pero realmente no sé cómo encontrarlas (qué patrón de búsqueda utilizar)... si pudieses o alguine pudiese indicarme alguna de ellas ya intentaría avanzar en la solución de mi problema. Muchas gracias.
  #4 (permalink)  
Antiguo 26/08/2008, 09:11
Avatar de Carlojas  
Fecha de Ingreso: junio-2007
Ubicación: Shikasta
Mensajes: 1.272
Antigüedad: 16 años, 10 meses
Puntos: 49
Respuesta: Búsqueda de palabras dentro de un .pdf

Lee acerca de Pdftotext



Saludos.
  #5 (permalink)  
Antiguo 30/08/2008, 10:44
 
Fecha de Ingreso: febrero-2005
Mensajes: 105
Antigüedad: 19 años, 2 meses
Puntos: 1
Respuesta: Búsqueda de palabras dentro de un .pdf

Bueno, a ver, antes de nada darle las gracias a Carlojas en particular por las respuestas y a la gente anónima por haber leído el post.

Después de unos días de recopilación de infromación he pensado en dos métodos para realizar búsquedas dentro de un documento .pdf:

- Integrar un buscador de google (opción que descartaré debido a mi gran interés en realizar esta tarea de forma manual, por mí mismo).
- Búsqueda de texto con la opción FULLTEXT de MySQL.

Lo único que deberé hacer será lo siguente:

1- Emplear el comando exec() o shell_exec() para convertir el texto del fihcero .pdf a formato texto.

2- Este texto lo almacenaré en la Base de Datos, en un campo de tipo CLOB, TEXT o algo similar (un tipo de texto que pueda almacenar gran cantidad de caracteres).

3- Realizar una búsqueda de tipo FULLTEXT sobre este contenido, obteniendo así los resultados estadísticamente correctos. Cabe destacar que, independientemente del patrón de busqueda introducido por un usuario para que sea buscado dentro del fichero .pdf, éste patrón (cadenas de texto al fin y al cabo) deberá ser tratado de la forma adecuada. Esto lo haré mediante un bucle que vaya creando la cadena de texto final que será introducida en la búsqueda FULLTEXT.

Espero que se hayan entendido los pasos que creo resuelven el problema de la búsqueda dentro de un fichero .pdf. Ahora me surge una pregunta/duda/problema que no sé resolver... ¿Cómo hago para que al emplear el comando pdftotext me aparezcan en fihcero .txt los acentos de forma adecuada? ¿Imaginad que el fihero está escrito en francés, castellano, valenciao, catalán, etc... idiomas con acentos, apóstrofes, etc.? Sería de gran ayuda que alguien me solventase este escollo al que he llegado.

Un saludo!!!
  #6 (permalink)  
Antiguo 01/09/2008, 04:10
 
Fecha de Ingreso: febrero-2005
Mensajes: 105
Antigüedad: 19 años, 2 meses
Puntos: 1
Respuesta: Búsqueda de palabras dentro de un .pdf

Hola, he estado mirando alternativas y he encontrado lo siguiente:

pdftotext -enc Latin1 fichero.pdf fichero.txt

Pero esta opción no funciona. ¿Alguna idea? Es muy importante para mí resolver este problema pero ahora mismo estoy perdido.
  #7 (permalink)  
Antiguo 05/12/2008, 12:41
 
Fecha de Ingreso: diciembre-2008
Mensajes: 1
Antigüedad: 15 años, 4 meses
Puntos: 0
Respuesta: Búsqueda de palabras dentro de un .pdf

hola checa algo sobre codificación UTF8
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 20:40.