Foros del Web » Programando para Internet » PHP »

evitar que extraigan contenido

Estas en el tema de evitar que extraigan contenido en el foro de PHP en Foros del Web. Hola resulta que cada cierto tiempo entran en mi web con un robot y me extraen contenido buscando por toda la web, quedria saber como ...
  #1 (permalink)  
Antiguo 20/05/2015, 11:47
 
Fecha de Ingreso: agosto-2011
Mensajes: 306
Antigüedad: 12 años, 8 meses
Puntos: 5
evitar que extraigan contenido

Hola resulta que cada cierto tiempo entran en mi web con un robot y me extraen contenido buscando por toda la web, quedria saber como evitarlo, bloquear los robot no me sirve ya que necesito que los buscadores rastrean mi web.

Tendría que ser una solución en php.
Saludos
  #2 (permalink)  
Antiguo 20/05/2015, 12:56
Avatar de pateketrueke
Modernizr
 
Fecha de Ingreso: abril-2008
Ubicación: Mexihco-Tenochtitlan
Mensajes: 26.399
Antigüedad: 16 años
Puntos: 2534
Respuesta: evitar que extraigan contenido

La única forma de bloquear dicho acceso es que conozcas algo de el mismo, ¿qué datos tienes disponibles para identificarlo?

Sin eso es imposible determinar porque sencillamente no existen formas de "adivinar" nada.
__________________
Y U NO RTFM? щ(ºдºщ)

No atiendo por MP nada que no sea personal.
  #3 (permalink)  
Antiguo 20/05/2015, 13:05
Avatar de Malenko
Moderador
 
Fecha de Ingreso: enero-2008
Mensajes: 5.323
Antigüedad: 16 años, 3 meses
Puntos: 606
Respuesta: evitar que extraigan contenido

Puedes mirar por el user-agent, por accesos repetidos desde una única ip, o si la ip siempre es la misma...
__________________
Aviso: No se resuelven dudas por MP!
  #4 (permalink)  
Antiguo 20/05/2015, 13:22
 
Fecha de Ingreso: agosto-2011
Mensajes: 306
Antigüedad: 12 años, 8 meses
Puntos: 5
Respuesta: evitar que extraigan contenido

Quien me extrae contenido solo lo hace una vez es decir que necesito evitar que lo hagan sin saber nada del robot.
Saludos.
  #5 (permalink)  
Antiguo 20/05/2015, 13:28
Avatar de pateketrueke
Modernizr
 
Fecha de Ingreso: abril-2008
Ubicación: Mexihco-Tenochtitlan
Mensajes: 26.399
Antigüedad: 16 años
Puntos: 2534
Respuesta: evitar que extraigan contenido

Cita:
Iniciado por primary Ver Mensaje
Quien me extrae contenido solo lo hace una vez es decir que necesito evitar que lo hagan sin saber nada del robot.
Saludos.
Pues es complicado, mas no imposible.

¿Con qué frecuencia un usuario podría revisar a totalidad tu contenido?

Vamos, ningún ser humano puede revisar más de 2 páginas en menos de 10 segundos.

Ahí tienes una clave: analiza la frecuencia de acceso por usuario, y si la frecuencia es alta entonces es un robot.
__________________
Y U NO RTFM? щ(ºдºщ)

No atiendo por MP nada que no sea personal.
  #6 (permalink)  
Antiguo 20/05/2015, 13:37
 
Fecha de Ingreso: agosto-2011
Mensajes: 306
Antigüedad: 12 años, 8 meses
Puntos: 5
Respuesta: evitar que extraigan contenido

Hola paketetrueke, como lo debería hacer igual los buscadores debería dejarlos que rastreen mi sitio.
Saludos.
  #7 (permalink)  
Antiguo 20/05/2015, 13:52
Avatar de pateketrueke
Modernizr
 
Fecha de Ingreso: abril-2008
Ubicación: Mexihco-Tenochtitlan
Mensajes: 26.399
Antigüedad: 16 años
Puntos: 2534
Respuesta: evitar que extraigan contenido

Pues sí, pero ellos sí se identifican, así que no veo problema ahí.

Yo sólo bloquearía a quienes no se identifican, de entrada es más simple.

Si conoces los user-agent de los robots que te indexan entonces ahí tienes una white-list, todos aquellos que no se identifican entran automáticamente al black-list.

Ahora, los que se identifiquen pero que no estén en la white-list tendrás que analizarlos al momento de consumir tu contenido, etc.
__________________
Y U NO RTFM? щ(ºдºщ)

No atiendo por MP nada que no sea personal.
  #8 (permalink)  
Antiguo 20/05/2015, 15:28
 
Fecha de Ingreso: agosto-2011
Mensajes: 306
Antigüedad: 12 años, 8 meses
Puntos: 5
Respuesta: evitar que extraigan contenido

Gracias paketetrueke, ya tengo la idea ahora lo pondre a la práctica cualquier duda regreso.
Saludos.

Etiquetas: contenido
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 23:04.