Foros del Web » Programando para Internet » PHP »

buscar palabras similares

Estas en el tema de buscar palabras similares en el foro de PHP en Foros del Web. hola amigos, estoy haciendo un sistema de anuncios, donde existen palabras "prohibidas", que invalidan la publicación del anuncio.. supongamos que una de ella es préstamo ...
  #1 (permalink)  
Antiguo 05/09/2011, 14:47
Avatar de iviamontes  
Fecha de Ingreso: enero-2011
Ubicación: $cubano->Arg->Mendoza
Mensajes: 1.184
Antigüedad: 8 años, 9 meses
Puntos: 209
buscar palabras similares

hola amigos, estoy haciendo un sistema de anuncios, donde existen palabras "prohibidas", que invalidan la publicación del anuncio..
supongamos que una de ella es préstamo

actualmente, para buscar coincidencias lo que hago es llevarlas todas a minúsculas, quitarles los acentos y las entidades html

quedando así = prestamo
pero si el usuario es habilidoso, y pone [email protected], el filtro falla, me pueden dar alguna idea de como implementar un sistema tan inteligente cómo para darse cuenta de estas variaciones ????
ahora mismo se me ocurre otra posible "violación", prestamo1 terminando con un 1, jaja me parece imposible filtrar las cadenas mejor que un humano
__________________
aconcaguaestudio.com
  #2 (permalink)  
Antiguo 05/09/2011, 14:58
Avatar de iviamontes  
Fecha de Ingreso: enero-2011
Ubicación: $cubano->Arg->Mendoza
Mensajes: 1.184
Antigüedad: 8 años, 9 meses
Puntos: 209
Respuesta: buscar palabras similares

amigos, ya ese problema lo tuvo un matematico en el 1965, se le conoce como http://es.wikipedia.org/wiki/Distancia_de_Levenshtein

y muestro querido php ya lo implementa
método http://php.net/manual/es/function.levenshtein.php
__________________
aconcaguaestudio.com
  #3 (permalink)  
Antiguo 06/09/2011, 03:38
Avatar de vgonga1986  
Fecha de Ingreso: marzo-2008
Ubicación: País de Pandereta
Mensajes: 1.021
Antigüedad: 11 años, 7 meses
Puntos: 253
Respuesta: buscar palabras similares

Recuerdo que este problema lo hice en una práctica en la carrera, programando en Java.

Creo recordar que existe toda una teoría y que hay incluso muchas funciones y métodos preprogramados para esto. Se puede aplicar a varias cosas, por ejemplo, este método es el que se utiliza para la comprobación de corrección en envío de cadenas de bits por una red. La distancia entre dos palabras de bits es el número de variaciones que tiene en sus bits dicha cadena.

Es un mundo interesante y se le puede sacar partido, porque ya hay mucha gente que ha pensado sobre ello antes que nosotros.

Muy interesante el post, un saludo.
__________________
¿Alguna pregunta, duda, acotación, nota, cuestión, reparo, comentario, demanda, crítica, interpretación, objeción, interrogante, discrepancia, observación, réplica, disquisición, apostilla o exégesis?
  #4 (permalink)  
Antiguo 06/09/2011, 03:50
Avatar de fjflores  
Fecha de Ingreso: agosto-2011
Ubicación: Cádiz
Mensajes: 27
Antigüedad: 8 años, 3 meses
Puntos: 8
Respuesta: buscar palabras similares

No conocía levenshtein(), me ha resultado muy curiosa esta función.
¿No has pensado en un método mixto?:
Primero un filtrado que de forma automática rechaze los anuncios que de forma clara pongan alguna de las palabras (ya sea buscando directamente o con alguna de las funciones tipo levenshtein() o similar_text) y luego o bien que sea moderado de forma directa (un admin tiene que leer el anuncio antes de publicarlo) o de forma indirecta un admin lleve el control de los anuncios leidos/no leidos.
Lo del sistema moderado, a no ser que tengas miles de anuncios diarios, me parece lo más indicado.
  #5 (permalink)  
Antiguo 06/09/2011, 07:18
Avatar de iviamontes  
Fecha de Ingreso: enero-2011
Ubicación: $cubano->Arg->Mendoza
Mensajes: 1.184
Antigüedad: 8 años, 9 meses
Puntos: 209
Respuesta: buscar palabras similares

@fjflores actualmente el sistema tiene moderadores, pero la idea es ir eliminando estas plazas, actualmente es como planteas, hay un filtro y si está esa palabra, pues se bloquea, el resto de anuncios pasan a ser moderados, pero estamos hablando de un sitio de varios miles por mes, hay un equipo de 3 moderadores para este flujo, gracias por el interes, lo mismo para ti @vgonga1986
__________________
aconcaguaestudio.com

Etiquetas: html, palabras, similares, usuarios
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta

SíEste tema le ha gustado a 2 personas




La zona horaria es GMT -6. Ahora son las 06:18.