Foros del Web » Programando para Internet » PHP »

Busqueda de contenido en archivos pdf

Estas en el tema de Busqueda de contenido en archivos pdf en el foro de PHP en Foros del Web. Estoy programando con php 4 y mysql. Lo que estoy desarrollando es un sistema que administra usuarios, documentos y otras cosas. En la parte de ...
  #1 (permalink)  
Antiguo 01/09/2006, 20:56
 
Fecha de Ingreso: septiembre-2006
Mensajes: 1
Antigüedad: 11 años, 3 meses
Puntos: 0
Busqueda de contenido en archivos pdf

Estoy programando con php 4 y mysql.
Lo que estoy desarrollando es un sistema que administra usuarios, documentos y otras cosas.
En la parte de administracion de documentos existe un opcion que es "busqueda de contenido en archivos pdf".
Esto consiste en que el usuario introduce una palabra o una frase y pulsa el boton buscar (asi como google), entonces el sistema le devuelve una lista con todos los documentos que tengas esta palabra o palabras.
*El sistema tiene la opcion de subir documentos en formato pdf al servidor.
pero no encuentro una solucion para realizar esta busqueda de contenido en archivos pdf. porque los pdf es como si fuera una imagen y nose como abrir el pdf. Consegui algo de informacion y me dijeron que hay una libreria para php que es "pdfmaker" que permite obtener las palabras de un pdf y las guarda en un archivo texto.Obviamente yo se que existe software para transformar de pdf a otro formato pero no es eso lo que yo necesito hacer.
Otra opcion que estaba pensado era ya no usar archivos pdf, sino usar archivos en formato "doc" ya que este es un formato abierto.
Entonces si usara esta opcion lo que tendria que hacer mi sistema es lo siguiente:
*El usuario carga el archivo *.doc
*el sistema obtiene todas las palabras de este archivo y las guarda. en una tabla dentro de la Base de datos.
*una vez hecho eso tiene que transformar el *.doc en *.pdf.
*y en el servidor debe ser guardado este archivo en en formato *.pdf y no en formato *.doc.
Necesito un poco de ayuda para poder aclarar mis ideas....estoy un poco confundida.
La parte que me complica es ¿cómo obtener las palabras (sin tomar en cuenta articulos o imagenes) del documento *.doc o de un *.pdf y guardarlos en una tabla?...Para que la busqueda de contenido pueda ser posible.
Espero que puedan ayudarme....enviar cualquier sugerencia a "[email protected]"
Gracias.
saludos cordiales
Scarlen Monica

Última edición por scarlen monica; 01/09/2006 a las 20:58 Razón: errores ortograficos
  #2 (permalink)  
Antiguo 01/09/2006, 21:45
Avatar de ArrauKano  
Fecha de Ingreso: noviembre-2002
Ubicación: Santiago
Mensajes: 664
Antigüedad: 15 años, 1 mes
Puntos: 4
disculpa que no te ninguna solucion, pero debo corregirte, el formato *.doc no es un formato abierto, es un formato propietario y veo dificil hacer una app en php que las lea (no digo imposible porque probablemente si hay como).

si ya sabes como obtener las palabras de un pdf con una libreria para php, entonces no veo donde esta el inconveniente para hacer precisamente eso, instalar la libreria y leer los pdf.

Lo que no me imagino como hacer es la estructura de la base de datos, para poder guardar las palaras y que se puedan consultar por tema al estilo google.

una solución menos refinada que "leer" el pdf es usar un sistemas de "tags" como lo hace del.icio.us para referenciarte a un contenido. Me explico, la idea es que junto con subir el archivo, el usuario indique con que "temas" esta relacionado el archivo, cada tema sería una palabra corta (un tag), luego puedes hacer un buscador que diga por ejemplo en que tag hay + archivos, en cual menos. Tambien podrias permitir al usuario ingresar sus propios tags.

otra alternativa que se me ocurre, es que si encuentras alguna aplicacion por consola que permita retornar el pdf como texto plano, entonces puedes ocupar dicho ejecutable llamandolo dentro de php y capturando la salida, al estilo de los CGI.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 22:02.