Ver Mensaje Individual
  #2 (permalink)  
Antiguo 04/11/2004, 10:43
eContento
 
Fecha de Ingreso: junio-2004
Mensajes: 621
Antigüedad: 19 años, 10 meses
Puntos: 25
Spiders

A ver, efectivamente se puede controlar "a medias"...

Todos los navegadores, robots de buscadores y programitas estilo WebZip que navegan por la red, cuando solicitan un archivo para bajárselo se identifican al hacer la petición. El nombre de este campo es AGENT y puedes verlo en el log que deja tu servidor web.

Puedes hacer una lista de los agentes que quieras denegar el acceso. Los programitas que tú dices son como los que están en la siguiente lista:
- Web Downloader
- WebZIP/4.0
- WebStripper/2.16
- Offline Explorer/2.0
- Wget/1.8.2
- WebCopier v3.0
- Teleport Pro
- ImageGrabDummy
- EmailSiphon
- WebReaper v9.8
- webreaper.net
- WebZIP
- spidersoft.com
- GetPix
- WebZIP/3.65
- HTTrack
- Wget
- WebZIP/5.0
- Offline Explorer/1.3
- WebStripper
- Offline Explorer
- WebCopier
- ImageGrabDummy
- EmailSiphon
- WebReaper
- webreaper.net
- GetPix

Son muchos ¿verdad? pues seguro que se me escapa alguno. Podrías pensar que terminas antes dando sólo permiso al Mozilla, al Netscape, al Explorer, etc para navegar por tu web. Pero lo cierto, es que son muchos los agentes que visitan tu web, y en su mayoría son desconocidos, pertenecientes a buscadores, etc...

Para poder capar el permiso a estos agentes necesitas tener el control sobre el servidor. Creo que se puede hacer en los archivos de configuración de Apache haciendo unos líos, pero yo no sé. Así que te pongo cómo se haría usando un lenguaje de servidor, como PHP. En ASP o JSP sería similar...

Un saludo,
eContento
http://www.fotoMadrid.com
http://e-Contento.com


Código PHP:
<?php 
$REDIRECT_URL 
"/browseroffline.php";

$is_spider false;
$spiders=(
Web Downloader| 
WebZIP/4.0|WebStripper/2.16|Offline Explorer/2.0| 
Wget/1.8.2|WebCopier v3.0|Teleport Pro|ImageGrabDummy| 
EmailSiphon|WebReaper v9.8 |webreaper.net|WebZIP|spidersoft.com|
GetPix|WebZIP/3.65|HTTrack|Wget|WebZIP/5.0|Offline Explorer/1.3|
WebStripper|Offline Explorer|WebCopier|ImageGrabDummy|
EmailSiphon|WebReaper|webreaper.net|GetPix
"
);

//Get THE LIST IN TO AN ARRAY
$spider=explode("|",$spiders);

foreach( 
$spider as $spider_check) {
    
$spider_check=trim($spider_check);
    if (
strpos($_SERVER['HTTP_USER_AGENT'], $spider_check) !== false) {
        
$is_spider true//SPIDER DETECTED !!! ACTION ?
        
break;
    }
}

if (
$is_spider == true) {
    
header("HTTP/1.0 404 Not Found");//SEND THEM AWAY
    //header( "Location: $REDIRECT_URL" );//UNCOMMENT VIEW SPECIAL PAGE
    
$navegador $_SERVER["HTTP_USER_AGENT"]."\n";
    
$archivo fopen($_SERVER["DOCUMENT_ROOT"]."/inc/navegadores.txt""a");
    if (
$archivo) {
        
fputs ($archivo$navegador);
    }
    
fclose ($archivo);
    exit;
    
//echo "SPIDER!" ;//DEBUG
}else{
    
//echo "OK!" ; //DEBUG;
}
?>
__________________
eContento
- Mis artículos y tutoriales
- Mis jsfiddles