Sitio temporal: Bloquear el acceso de Google

rockrer · #1 (**permalink**) 15/04/2009, 09:49

Hola como andan?

Estoy trabajando en un sitio temporal, en el que en alrededor de 20 días se va a subir la versión definitiva, pero con htmls totalmente diferentes, otros links, cambia todo, no se mantiene nada de lo que estoy armando ahora.

Me gustaría ser invisible para G en estos 20 días hasta subir la nueva versión en el sitio, así no se confunde y no tiene que borrar todo lo que fue indexando.

Con esto lo soluciono?

Código:

<meta name='robots' content='noindex,nofollow' />

El tema es que el cliente ya agregó el sitio en algunos directorios...

Ustedes como harían?
Muchas gracias!
RockRer

carmagedon · #2 (**permalink**) 15/04/2009, 10:50

Hola,

Fijate si lo que acabo de extraer te sirve de algo.

Cita:

Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.
La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en http//www.tudominio.com/robots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.
Ejemplos:

User-agent: *
Disallow :

El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no restringe el acceso a ninguna página ni a ningún robot. Implica acceso total.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / borrador .

Atención porque necesitarás una sentencia para cada directorio.

User-agent: *
Disallow: /

Todos los robots tienen prohibido el acceso a cualquier directorio del web site.

User-agent: Googlebot
Disallow : /

Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.

User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página pruebas.html del directorio borrador que está restringido.

Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.

Y también puedes restringir el acceso a una página determinada, con las etiquetas META <META NAME="robots" CONTENT = "noindex">

No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr la promoción que deseas para tu web.

rockrer · #3 (**permalink**) 15/04/2009, 20:14

Muchas gracias por tu respuesta Carmagedon

Cita:

Iniciado por carmagedon

Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.
La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en ht tp//w ww.tudom inio.co m/ro bots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.
Ejemplos:

User-agent: *
Disallow :

El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no restringe el acceso a ninguna página ni a ningún robot. Implica acceso total.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / borrador .

Atención porque necesitarás una sentencia para cada directorio.

User-agent: *
Disallow: /

Todos los robots tienen prohibido el acceso a cualquier directorio del web site.

User-agent: Googlebot
Disallow : /

Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.

User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página pruebas.html del directorio borrador que está restringido.

Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.

Y también puedes restringir el acceso a una página determinada, con las etiquetas META <META NAME="robots" CONTENT = "noindex">

No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr la promoción que deseas para tu web.

Entonces por lo que entendí, con esto en el htaccess andaría bien lo que estoy buscando no? Blo quearía el acceso de los robots a cualquier página dentro de cualquier carpeta del sitio, ya se el index o no.

Código:

User-agent: *
Disallow: /

Muchas gracias!!