Ver Mensaje Individual
  #15 (permalink)  
Antiguo 22/09/2011, 18:32
merino_renato
Usuario no validado
 
Fecha de Ingreso: mayo-2011
Mensajes: 1.231
Antigüedad: 13 años
Puntos: 228
Respuesta: Duda con archivo robot.txt

Cita:
Iniciado por metafrases Ver Mensaje
Yo lo que haría de momento sería añadir un archivo index.html vacio en cada uno de los directorios (img, entradas, juegos, 24) para no dejar visible la lista de archivos incluidos en esas carpetas. Según tengo entendido, dejar los directorios como los tienes supone un fallo de seguridad.
?????????????

A que te refieres a poner:

User-agent:*
Disallow:/*img*
Disallow:/images/


Cual fallo de seguridad te refieres?

Esto solo le dice al crawler: no entres a la carpeta imagenes ni rastrees nigun archivo que tenga img ...

No entiendo para que poner el index en cada carpeta, lo podrias explicar?

Yo no uso mas que el Disallow:/images/

el

Disallow:/*img*

lo que hace es que el crawler no lea imagenes pero en mi web si quiero que las lea, si queremos que si las lea pero que no indexe TODA la carpeta donde guardas las imagenes, podemos solo bloquear asi:

User-agent:*
Disallow:/images/


Yo lo he puesto asi y mi web se ve perfecto y cuando consulto en el buscador de google:

site:www.webejemplo.com

Me muestra exactamente lo que google tiene indexado de mi web si se me escurre alguna web la puedo borrar en herramientas para webmasters de google copiando la URL despues del:

www.webejemplo.com/imagenes/loquesea.com

pero además puedes bloquear la url en tu robots.txt asi:

User-agent:*
Disallow:/images/
Disallow:/imagenes/loquesea.com

y la url debe devolver una pagina 404 y listo se borra cualquier pagina que ya estaba indexada en google y que quieras borrar, si es una web que no desees que se indexe le pones <meta name="ROBOTS" content="noindex,nofollow" /> en la etiqueta <head> y listo...

A mi si me funciona asi...

Saludos

Última edición por Daniel Ulczyk; 22/09/2011 a las 18:50 Razón: se remueve URL del enlace - error 404