Ver Mensaje Individual
  #7 (permalink)  
Antiguo 08/04/2007, 17:22
Avatar de uamistad
uamistad
 
Fecha de Ingreso: diciembre-2004
Ubicación: Cd. de México
Mensajes: 1.395
Antigüedad: 19 años, 4 meses
Puntos: 1
Re: Alternativa de lucene para PHP

Estuve leyendo también yo y creo que mejor haré mi propio sistema de búsqueda.

PROPUESTA NO. 1: SISTEMA DE PUNTOS

Me gustaría hacer un "sistema de puntos", me explico:
  • Si la palabra se encontró en el título, +5 ptos.
  • Si la palabra se encontró en el contenido, +2ptos.
  • Si la palabra del contenido se repite (máx. n veces), +1pto adicional.
  • Si viene de un dominio conocido, +1 pto.
  • Si es el anuncio más clickeado en su categoría, +1 pto.

Esos "puntos" que asigné en realidad son modificables, será casi un arte proponerlos de manera que los resultados de las búsquedas sean lo más significativos posibles.

Al final, mando los resultados ordenados por puntuación hacia el usuario.

PROPUESTA NO. 2: ELIMINACIÓN DE RESULTADOS

Con el tiempo, iré viendo que algunos anuncios no son sino para promocionar los típicos "gana dinero desde casa" que también salen aquí de vez en cuándo en foros del web, anuncios con el simple objetivo de linkear su propia web, etc.

Este tipo de filtro se va desarrollando con el tiempo, conforme vayan saliendo resultados molestos.

De igual forma, a veces se busca "RENTO PISO", pero yo tengo un anuncio que dice "RENTO PISOS", también debería lanzarlo a resultados, así que eso de tomar en cuenta los plurales, es algo que se debería poder tomar en cuenta también.

PROPUESTA NO. 3: BUSCANDO POR SINÓNIMO

Frecuentemente habrá personas que busquen "alquilo recámara" y yo tengo muchos anuncios de "rento recámara", entonces debería tratar a RENTO de igual forma que a ALQUILO (quizá con una minúscula penalización de medio punto), así los resultados seguirán siendo significativos con el tiempo.

Estos sinónimos los obtendría directamente del análisis de la forma en la que buscan las personas en el sitio (guardando todo lo que pongan en la caja de texto para posterior análisis, entre más tiempo pase, mayor material tendré para encontrar este tipo de sinónimos frecuentemente utilizados.

Incluso me aventuro a pensar que podría ser material para poner como lo hace Google "quiso decir ALQUILO RECÁMARA", algo así, pero esto de las sugerencias ya sería extra, no está planeado realmente.

PARA DARLE VELOCIDAD

Al hacer esto, supongo que podría demorar la entrega de resultados hacia la persona, así que pensaba cachear los resultados de las búsquedas más populares para promover la velocidad en el sitio.

No necesito cachear en realidad todas las búsquedas, recordemos que Pareto nos dice que sólo el 20 por ciento de las búsquedas, consumirán el 80 por ciento del ancho de banda.

Pues esta es la idea. Leí que Lucene es muy rápido, pero no siento que Lucene (la verdad no lo sé, lo digo por ignorancia) me ordene mis resultados con esa prioridad especial que a mí me gustaría, y si lo hace, quizá no añada también los resultados de sus sinónimos y plurales, y si lo hace, quizá no tenga el filtro de los resultados molestos y si lo hace, bueno, pues qué maravilla, pero aún así prefiero aventurarme con mi buscadorcillo . Sé que Lucene puede buscar en un gran tipo de documentos, pero no necesito eso.

Gracias igual por la sugerencia .
__________________
"Di no al Internet Explorer" -Proverbio Chino-