Ver Mensaje Individual
  #4 (permalink)  
Antiguo 08/07/2009, 08:11
NIGHTSOFTWARE
 
Fecha de Ingreso: mayo-2009
Mensajes: 16
Antigüedad: 15 años
Puntos: 0
Respuesta: Ayuda con caracteres especiales

Lo que pasa es que estoy creando un indexador de PDF's con XPDF y zend_search_lucene.

Es algo similar a guardar y buscar datos en MySQL, salvo que en vez de una base de datos se utiliza un archivo índice.

En un directorio tengo X archivos PDF, los cuales abro y extraigo el texto (que se almacena en la variable $content). Hasta ahi no hay mayores problemas, salvo que al insertar en el indice esta variable, el texto se me corta donde aparecen ciertos caracteres como los usados en aritmética.

Por ejemplo, supongamos que en un PDF tengo el siguiente párrafo, y que el ® es el caracter que me produce problemas:

El veloz murciélago hindú
comía feliz ® cardillo y kiwi
blablabla (...)


Ahora, si realizo una búsqueda en el índice con la palabra "veloz" me arrojaría este documento como resultado, lo mismo pasaría si busco "hindú" o "felíz"... pero si busco por "cardillo" o "kiwi" no me arroja nada, pues me está indexando hasta ®, y lo demás no.

Por eso no me sirve usar str_replace() o preg_replace(), porque no sé cuantos y cuales son los caracteres que se produce este error, y como lo único que me interesa es sacar texto y números (por que no creo que alguien busque por alguna fórmula), lo estoy haciendo así.

Gracias por responder

Última edición por NIGHTSOFTWARE; 08/07/2009 a las 08:32