Ver Mensaje Individual
  #5 (permalink)  
Antiguo 30/08/2008, 10:44
gazpachoymochil
 
Fecha de Ingreso: febrero-2005
Mensajes: 105
Antigüedad: 19 años, 2 meses
Puntos: 1
Respuesta: Búsqueda de palabras dentro de un .pdf

Bueno, a ver, antes de nada darle las gracias a Carlojas en particular por las respuestas y a la gente anónima por haber leído el post.

Después de unos días de recopilación de infromación he pensado en dos métodos para realizar búsquedas dentro de un documento .pdf:

- Integrar un buscador de google (opción que descartaré debido a mi gran interés en realizar esta tarea de forma manual, por mí mismo).
- Búsqueda de texto con la opción FULLTEXT de MySQL.

Lo único que deberé hacer será lo siguente:

1- Emplear el comando exec() o shell_exec() para convertir el texto del fihcero .pdf a formato texto.

2- Este texto lo almacenaré en la Base de Datos, en un campo de tipo CLOB, TEXT o algo similar (un tipo de texto que pueda almacenar gran cantidad de caracteres).

3- Realizar una búsqueda de tipo FULLTEXT sobre este contenido, obteniendo así los resultados estadísticamente correctos. Cabe destacar que, independientemente del patrón de busqueda introducido por un usuario para que sea buscado dentro del fichero .pdf, éste patrón (cadenas de texto al fin y al cabo) deberá ser tratado de la forma adecuada. Esto lo haré mediante un bucle que vaya creando la cadena de texto final que será introducida en la búsqueda FULLTEXT.

Espero que se hayan entendido los pasos que creo resuelven el problema de la búsqueda dentro de un fichero .pdf. Ahora me surge una pregunta/duda/problema que no sé resolver... ¿Cómo hago para que al emplear el comando pdftotext me aparezcan en fihcero .txt los acentos de forma adecuada? ¿Imaginad que el fihero está escrito en francés, castellano, valenciao, catalán, etc... idiomas con acentos, apóstrofes, etc.? Sería de gran ayuda que alguien me solventase este escollo al que he llegado.

Un saludo!!!