Foros del Web » Estrategias Digitales y Negocios Online » SEO »

Al parecer he bloqueado que Googlebot indexe mi sitio

Estas en el tema de Al parecer he bloqueado que Googlebot indexe mi sitio en el foro de SEO en Foros del Web. Hola a todos, he estado buscando por ahi el archivo robots.txt perfecto para wordpress, el archivo es el siguiente: Código: # # robots.txt para tu ...
  #1 (permalink)  
Antiguo 16/06/2009, 17:35
Avatar de thebestboy2671  
Fecha de Ingreso: enero-2008
Mensajes: 138
Antigüedad: 16 años, 3 meses
Puntos: 1
Exclamación Al parecer he bloqueado que Googlebot indexe mi sitio

Hola a todos, he estado buscando por ahi el archivo robots.txt perfecto para wordpress, el archivo es el siguiente:
Código:
#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
Pero al día siguiente de la inclusión de este archivo en mi servidor, Google ha dejado de rastrear mi sitio al igual que los otros buscadores y no ha indexado nada hasta el día de hoy. ¿Podrían decirme dónde se está bloqueando a Google?
__________________
Si te he ayudado con mis conocimientos, añádeme algo de Karma :P
  #2 (permalink)  
Antiguo 17/06/2009, 00:59
Colaborador
 
Fecha de Ingreso: julio-2008
Ubicación: Consultor SEO
Mensajes: 2.937
Antigüedad: 15 años, 9 meses
Puntos: 185
Respuesta: Al parecer he bloqueado que Googlebot indexe mi sitio

Pues no es muy complicado... lo esta bloqueando aquí: "User-Agent: *"

ya que el * significa cualquiera... y luego... tienes bastantes disallow seguidos... :P
__________________
Consultor SEO - Manual SEO
Sigueme en twitter @VictorHdez
  #3 (permalink)  
Antiguo 17/06/2009, 06:26
Avatar de thebestboy2671  
Fecha de Ingreso: enero-2008
Mensajes: 138
Antigüedad: 16 años, 3 meses
Puntos: 1
Respuesta: Al parecer he bloqueado que Googlebot indexe mi sitio

Cómo debería quedar si sólo quiero que me indexe las entradas del blog, más no los archivos administrativos (wp-admin, wp-includes). ¿Debería bloquear algo más? Por ahora el archivo me quedo así:

Código:
User-Agent: *
Allow: /

# disallow all files with ? in url
Disallow: /*?*

User-Agent: Googlebot-Image
Disallow: /
 
# disable duggmirror
User-agent: duggmirror
Disallow: /

# allow adsense bot on entire site
User-agent: Mediapartners-Google
Allow: /

# BEGIN XML-SITEMAP-PLUGIN, busquedas no
Sitemap: http://tusitio.com/sitemap.xml.gz
Disallow: /?s=
Disallow: /search
# END XML-SITEMAP-PLUGIN

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir 
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10
__________________
Si te he ayudado con mis conocimientos, añádeme algo de Karma :P
  #4 (permalink)  
Antiguo 17/06/2009, 08:21
Avatar de PosicionamientoSeo  
Fecha de Ingreso: julio-2008
Ubicación: Argentina
Mensajes: 858
Antigüedad: 15 años, 9 meses
Puntos: 64
Respuesta: Al parecer he bloqueado que Googlebot indexe mi sitio

Cita:
Iniciado por thebestboy2671 Ver Mensaje
Cómo debería quedar si sólo quiero que me indexe las entradas del blog, más no los archivos administrativos (wp-admin, wp-includes). ¿Debería bloquear algo más? Por ahora el archivo me quedo así:

Código:
User-Agent: *
Allow: /

# disallow all files with ? in url
Disallow: /*?*

User-Agent: Googlebot-Image
Disallow: /
 
# disable duggmirror
User-agent: duggmirror
Disallow: /

# allow adsense bot on entire site
User-agent: Mediapartners-Google
Allow: /

# BEGIN XML-SITEMAP-PLUGIN, busquedas no
Sitemap: http://tusitio.com/sitemap.xml.gz
Disallow: /?s=
Disallow: /search
# END XML-SITEMAP-PLUGIN

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir 
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

Te encuentras en lo correcto, lo mejor es testear el archivo para comprobar que lo habías bloqueado se desbloquee y vuelva a aparecer indexado.
El archivo robots.txt debe ser simple y bloquear sólo lo que consideres necesario, por éste motivo debes probarlo y en el caso de que funcione correctamente, dejarlo fijo.

Saludos
__________________
¡Feliz año 2011 para todos!
  #5 (permalink)  
Antiguo 17/06/2009, 21:26
Avatar de thebestboy2671  
Fecha de Ingreso: enero-2008
Mensajes: 138
Antigüedad: 16 años, 3 meses
Puntos: 1
Respuesta: Al parecer he bloqueado que Googlebot indexe mi sitio

Estuve revisando el archivo robots.txt con esta herramienta http://tool.motoricerca.info/robots-checker.phtml y luego de pulirlo un poco, ha quedado así:
Código:
User-agent: Googlebot-Image
Disallow: /

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

User-agent: *
Disallow:

Sitemap: http://tusitio.com/sitemap.xml.gz
Disallow: /?s=
Disallow: /search
Aunque les menciono que de todas las webs que estaban indexadas antes de bloquear al bot de Google y los otros, este lunes 15 unas 5 webs fueron indexadas, puedo pensar que el primer archivo robots.txt que está en este hilo no estaba mal, pero si es así... entonces porqué no indexo las nuevas entradas que habían sido publicadas hasta esa fecha (lunes 15)?. ¡Qué dilema!
__________________
Si te he ayudado con mis conocimientos, añádeme algo de Karma :P
  #6 (permalink)  
Antiguo 19/06/2009, 07:42
Avatar de thebestboy2671  
Fecha de Ingreso: enero-2008
Mensajes: 138
Antigüedad: 16 años, 3 meses
Puntos: 1
Respuesta: Al parecer he bloqueado que Googlebot indexe mi sitio

Ahora con este último archivo robots que puse, todo ha vuelto a la normalidad.
__________________
Si te he ayudado con mis conocimientos, añádeme algo de Karma :P
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 22:52.