Ver Mensaje Individual
  #1 (permalink)  
Antiguo 01/09/2006, 19:56
scarlen monica
 
Fecha de Ingreso: septiembre-2006
Mensajes: 1
Antigüedad: 17 años, 7 meses
Puntos: 0
Busqueda de contenido en archivos pdf

Estoy programando con php 4 y mysql.
Lo que estoy desarrollando es un sistema que administra usuarios, documentos y otras cosas.
En la parte de administracion de documentos existe un opcion que es "busqueda de contenido en archivos pdf".
Esto consiste en que el usuario introduce una palabra o una frase y pulsa el boton buscar (asi como google), entonces el sistema le devuelve una lista con todos los documentos que tengas esta palabra o palabras.
*El sistema tiene la opcion de subir documentos en formato pdf al servidor.
pero no encuentro una solucion para realizar esta busqueda de contenido en archivos pdf. porque los pdf es como si fuera una imagen y nose como abrir el pdf. Consegui algo de informacion y me dijeron que hay una libreria para php que es "pdfmaker" que permite obtener las palabras de un pdf y las guarda en un archivo texto.Obviamente yo se que existe software para transformar de pdf a otro formato pero no es eso lo que yo necesito hacer.
Otra opcion que estaba pensado era ya no usar archivos pdf, sino usar archivos en formato "doc" ya que este es un formato abierto.
Entonces si usara esta opcion lo que tendria que hacer mi sistema es lo siguiente:
*El usuario carga el archivo *.doc
*el sistema obtiene todas las palabras de este archivo y las guarda. en una tabla dentro de la Base de datos.
*una vez hecho eso tiene que transformar el *.doc en *.pdf.
*y en el servidor debe ser guardado este archivo en en formato *.pdf y no en formato *.doc.
Necesito un poco de ayuda para poder aclarar mis ideas....estoy un poco confundida.
La parte que me complica es ¿cómo obtener las palabras (sin tomar en cuenta articulos o imagenes) del documento *.doc o de un *.pdf y guardarlos en una tabla?...Para que la busqueda de contenido pueda ser posible.
Espero que puedan ayudarme....enviar cualquier sugerencia a "[email protected]"
Gracias.
saludos cordiales
Scarlen Monica

Última edición por scarlen monica; 01/09/2006 a las 19:58 Razón: errores ortograficos