Foros del Web » Estrategias Digitales y Negocios Online » SEO »

Sitio temporal: Bloquear el acceso de Google

Estas en el tema de Sitio temporal: Bloquear el acceso de Google en el foro de SEO en Foros del Web. Hola como andan? Estoy trabajando en un sitio temporal, en el que en alrededor de 20 días se va a subir la versión definitiva, pero ...
  #1 (permalink)  
Antiguo 15/04/2009, 09:49
 
Fecha de Ingreso: enero-2008
Mensajes: 32
Antigüedad: 16 años, 3 meses
Puntos: 0
Sitio temporal: Bloquear el acceso de Google

Hola como andan?

Estoy trabajando en un sitio temporal, en el que en alrededor de 20 días se va a subir la versión definitiva, pero con htmls totalmente diferentes, otros links, cambia todo, no se mantiene nada de lo que estoy armando ahora.

Me gustaría ser invisible para G en estos 20 días hasta subir la nueva versión en el sitio, así no se confunde y no tiene que borrar todo lo que fue indexando.

Con esto lo soluciono?

Código:
<meta name='robots' content='noindex,nofollow' />
El tema es que el cliente ya agregó el sitio en algunos directorios...

Ustedes como harían?
Muchas gracias!
RockRer
  #2 (permalink)  
Antiguo 15/04/2009, 10:50
Avatar de carmagedon  
Fecha de Ingreso: junio-2005
Ubicación: Argentina
Mensajes: 794
Antigüedad: 18 años, 10 meses
Puntos: 23
Respuesta: Sitio temporal: Bloquear el acceso de Google

Hola,

Fijate si lo que acabo de extraer te sirve de algo.

Cita:
Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.
La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en http//www.tudominio.com/robots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.
Ejemplos:

User-agent: *
Disallow :

El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no restringe el acceso a ninguna página ni a ningún robot. Implica acceso total.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / borrador .

Atención porque necesitarás una sentencia para cada directorio.

User-agent: *
Disallow: /

Todos los robots tienen prohibido el acceso a cualquier directorio del web site.

User-agent: Googlebot
Disallow : /

Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.

User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página pruebas.html del directorio borrador que está restringido.



Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.

Y también puedes restringir el acceso a una página determinada, con las etiquetas META <META NAME="robots" CONTENT = "noindex">

No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr la promoción que deseas para tu web.
__________________
Freelance - Aplicaciones Web
  #3 (permalink)  
Antiguo 15/04/2009, 20:14
 
Fecha de Ingreso: enero-2008
Mensajes: 32
Antigüedad: 16 años, 3 meses
Puntos: 0
Respuesta: Sitio temporal: Bloquear el acceso de Google

Muchas gracias por tu respuesta Carmagedon
Cita:
Iniciado por carmagedon Ver Mensaje
Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.
La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en ht tp//w ww.tudom inio.co m/ro bots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.
Ejemplos:

User-agent: *
Disallow :

El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no restringe el acceso a ninguna página ni a ningún robot. Implica acceso total.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / borrador .

Atención porque necesitarás una sentencia para cada directorio.

User-agent: *
Disallow: /

Todos los robots tienen prohibido el acceso a cualquier directorio del web site.

User-agent: Googlebot
Disallow : /

Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.

User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página pruebas.html del directorio borrador que está restringido.



Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.

Y también puedes restringir el acceso a una página determinada, con las etiquetas META <META NAME="robots" CONTENT = "noindex">

No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr la promoción que deseas para tu web.
Entonces por lo que entendí, con esto en el htaccess andaría bien lo que estoy buscando no? Blo quearía el acceso de los robots a cualquier página dentro de cualquier carpeta del sitio, ya se el index o no.

Código:
User-agent: *
Disallow: /
Muchas gracias!!
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 02:25.