Cita: Mensaje Original por xavigv
Como podemos evitar un spider?
Depende. Si es un spider legal que obedece el robots.txt (
http://www.robotstxt.org/wc/robots.html), simplemente creando ese fichero en el directorio raiz del dominio (o subdominio) vale. Ademas, para las paginas HTML tambien se puede especificar un META especifico (
http://www.robotstxt.org/wc/exclusion.html#meta). Estos metodos funcionan para los spiders de los buscadores y otros spiders.
Pero normalmente los spiders "malignos" no suelen hacer caso a esas tecnicas. En ese caso, si el spider se identifica en el HTTP_USER_AGENT, se puede usar ese valor para filtrarlo. En
http://www.forobuscadores.com/foros/...showtopic=1889 muestran como hacerlo con mod_rewrite, y no se si en alguno de los enlaces ponen la forma de hacerlo con solo PHP. Pero seria tener en una lista las expresiones regulares (pueden servir las del mod_rewrite) que identifiquen esos spiders y compararlos con el valor de $_SERVER['HTTP_USER_AGENT']. Si da positivo, lo redireccionas o haces lo que quieras.
Saludos.