Ver Mensaje Individual
  #1 (permalink)  
Antiguo 02/01/2015, 17:09
dezagus
 
Fecha de Ingreso: abril-2010
Ubicación: Ping: BSAS - Arg
Mensajes: 791
Antigüedad: 14 años
Puntos: 25
Comparar Similitud HTML entre dos páginas

Hola a todos, estoy buscando la manera de intentar descubrir cuando un usuario me engaña publicando la misma página dos veces en mi sistema.

Se me ocurre usar CURL para leer parte de la cabecera o parte del html y cotejarlo, el desafío pasa por implementarlo a nivel %, sé como hacerlo perfectamente en curl, pero no tendría ningún tipo de tolerancia o forma de comparar.

Es decir, que el sistema pueda concluir, entre la url 1 y 2: hay un 30% de similitud (siendo 100% la misma página, por ejemplo).

¿Hay librerias (sin POO) o ideas de como hacerlo?

Gracias y Feliz Año a Todos!!