Foros del Web » Estrategias Digitales y Negocios Online » SEO »

Problemas robots.txt para otros buscadores indexacion

Estas en el tema de Problemas robots.txt para otros buscadores indexacion en el foro de SEO en Foros del Web. He notado que gran parte de mis visitantes provienen de Google, pero muy poquisimos de Bing, y casi nada de otros. Generalmente damos prioridad a ...
  #1 (permalink)  
Antiguo 15/01/2010, 11:44
 
Fecha de Ingreso: febrero-2008
Ubicación: /home/public_html
Mensajes: 551
Antigüedad: 16 años, 2 meses
Puntos: 10
Problemas robots.txt para otros buscadores indexacion

He notado que gran parte de mis visitantes provienen de Google, pero muy poquisimos de Bing, y casi nada de otros.

Generalmente damos prioridad a los Robots de google, y que mejor capturar los usuarios de los otros buscadores. En mi robots.txt hay esto

Cita:
User-agent: Mediapartners-Google*
Disallow: /cgi-bin/
Disallow: /carpetas/
Disallow: /prohibidas/

Sitemap: http://www.mi_web.com/sitemap.xml
Y como hago para que tambien deje pasar a los robots de Yahoo, Bing, Altavista, Ask, etc osea que tambien ellos me indexen, en el ejemplo, solo he copiado del ejemplo de otros archivos de Robots, y en el Robot de Google, no tiene ese Mediapartners-Google, solo esta como "User-agent: *".

En otras webs veo este tipo de Robots:
Cita:
User-agent: *
Disallow: /admin/
Disallow: /templates/

User-agent: Mediapartners-Google*
Disallow:
Cual de los dos robots.txt es valido, o cual es el ideal para que todos los Buscadores en general me indexen.

Última edición por Daniel Ulczyk; 20/01/2010 a las 18:35 Razón: se elimina link (error 404)
  #2 (permalink)  
Antiguo 15/01/2010, 11:49
Avatar de facundocorradini
Colaborador
 
Fecha de Ingreso: marzo-2008
Ubicación: Argentina
Mensajes: 965
Antigüedad: 16 años, 1 mes
Puntos: 53
Respuesta: Problemas robots.txt para otros buscadores indexacion

El robots.txt no es para habilitar la indexación, ese comportamiento es el que usan los robots por default. La idea del robots.txt es precisamente la contraria, bloquear la indexación.

Si quieres que los robots como yahoo, bing, etc te indexen, no hay nada que hacer desde el robots.txt en ese sentido. De hecho, lo único que estás haciendo desde el robots.txt es bloquear al robot de AdSense las carpetas "cgi-bin", "carpetas" y "prohibidas", lo cual supongo que será algo que has copiado sin saber bien qué estabas haciendo...

Te recomiendo cambiar ese código por
Código:
 
User-agent: *
Disallow:
para permitir que todos los bots puedan leer toda tu web, y que busques información para comprender mejor cómo funciona un robots.txt.

un saludo,
__________________
<<==== Si una respuesta te ayuda, dale al botón de Karma! Haz fluir la buena onda web!

Última edición por facundocorradini; 15/01/2010 a las 16:04
  #3 (permalink)  
Antiguo 17/01/2010, 18:31
 
Fecha de Ingreso: febrero-2008
Ubicación: /home/public_html
Mensajes: 551
Antigüedad: 16 años, 2 meses
Puntos: 10
Respuesta: Problemas robots.txt para otros buscadores indexacion

Ok, gracias, una duda y como se hace para bloquer ciertos URLs que lleven alguna "palabra"

Ejemplos:

Quiero que Google no Siga la palabra "contactar*"

web.com/contactar-usuario-id300/
web.com/contactar-usuario-id301/
web.com/contactar-usuario-id400/

Alguna idea
  #4 (permalink)  
Antiguo 17/01/2010, 19:36
Avatar de facundocorradini
Colaborador
 
Fecha de Ingreso: marzo-2008
Ubicación: Argentina
Mensajes: 965
Antigüedad: 16 años, 1 mes
Puntos: 53
Respuesta: Problemas robots.txt para otros buscadores indexacion

Desde el robots.txt se complica, el soporte para expresiones regulares no está incluído en el protocolo en sí, aunque para GoogleBot puede funcionar lo siguiente:
Código:
 
User-agent: *
Disallow:/contactar-usuario*
El * al final debería funcionar como comodín, bloqueando el acceso a todo lo que comience con contactar-usuario. Pero esto no es seguro que funcione, y si sirviera solo lo haría para Google.

La solución definitiva está en trabajar sobre la programación del sitio, para que la página de contacto agregue el siguiente código en el head:

Código:
<meta name="robots" content="noindex">
__________________
<<==== Si una respuesta te ayuda, dale al botón de Karma! Haz fluir la buena onda web!

Última edición por facundocorradini; 17/01/2010 a las 19:47
  #5 (permalink)  
Antiguo 19/01/2010, 09:49
 
Fecha de Ingreso: febrero-2008
Ubicación: /home/public_html
Mensajes: 551
Antigüedad: 16 años, 2 meses
Puntos: 10
Respuesta: Problemas robots.txt para otros buscadores indexacion

Hola facundocorradini, gracias por tu ayuda.
Ahora tengo otra duda, sobre los robots.txt, por lo general el Robots esta localizado en la raiz principal de la web.

Pero que sucede en caso, cuando yo instale algun prefabricado en una carpeta, y en ese prefabricado tenga su robots.txt, para anular ciertas carpetas a los robots.

En este caso seria, aconsejable dejar los dos robots o no??
miweb.com/robots.txt
miweb.com/imagenes/robots.txt

Para este caso dentro de la carpeta "imagenes" hay digamos "admin, tools, templates, etc"; claro que dentro de imagenes quiero que Google siga un sin fin de imagenes con contenido.

Entonces estuve pensando colocar mi robots en la raiz principal de la siguiente manera:

miweb.com/robots.txt
Cita:
User-agent: *
Disallow: /cgi-bin/
Disallow: /carpetas/
Disallow: /prohibidas/
Disallow: /imagenes/admin
Disallow: /imagenes/tools
Disallow: /imagenes/templates
Disallow: /imagenes/contactar-usuario*

Sitemap: http://www.mi_web.com/sitemap.xml
Este robot temo, que Google anule por completo toda la carpeta "imagenes", por eso mi duda.

Dudas
Es pocible tener mas de un robots en una web?
Que diferencia existe en colocar las lineas al final con la "/ Barra oblicua", Google como interpretaria si yo coloco con o sin esa "/ Barra oblicua".
Disallow: /imagenes/tools/
Disallow: /imagenes/templates/

Última edición por Daniel Ulczyk; 20/01/2010 a las 18:36 Razón: se elimina link (error 404)
  #6 (permalink)  
Antiguo 19/01/2010, 13:08
Avatar de facundocorradini
Colaborador
 
Fecha de Ingreso: marzo-2008
Ubicación: Argentina
Mensajes: 965
Antigüedad: 16 años, 1 mes
Puntos: 53
Respuesta: Problemas robots.txt para otros buscadores indexacion

La barra oblicua indica que es un directorio. Sin eso sería interpretado como un nombre de archivo. Por ejemplo, en "/imagenes/admin" estarías bloqueando un teórico archivo llamado "admin" en lugar de la carpeta entera.

Creo que se puede tener un robots.txt por directorio, pero es más fácil para el mantenimiento conservar solo uno en la raíz.

El ejemplo que colocas deberías agregar / al final de cada carpeta de imágenes, y revisar el tema de "carpetas" y "prohibidas". Realmente existen esas carpetas? a mí me suena a texto de ejemplo que has copiado de algún lado... borralos o cambialo por las verdaderas carpetas que quieres bloquear.
__________________
<<==== Si una respuesta te ayuda, dale al botón de Karma! Haz fluir la buena onda web!
  #7 (permalink)  
Antiguo 20/01/2010, 17:49
 
Fecha de Ingreso: febrero-2008
Ubicación: /home/public_html
Mensajes: 551
Antigüedad: 16 años, 2 meses
Puntos: 10
Respuesta: Problemas robots.txt para otros buscadores indexacion

Gracias por tu ayuda, si efectivamente, eso de carpetas prohibidas, son ejemplos, claro que los reemplazare por las carpetas que quiero, pero de ante mano gracias por tu ayuda
  #8 (permalink)  
Antiguo 05/03/2010, 06:22
 
Fecha de Ingreso: diciembre-2005
Mensajes: 2
Antigüedad: 18 años, 4 meses
Puntos: 0
Respuesta: Problemas robots.txt para otros buscadores indexacion

En caso de que sólo quisiera prohibir la carpeta admin (en oscommerce) encontrandose la tienda en el directorio /catalog, es decir www.mitienda.com/catalog, el archivo robots.txt sería:

Así

User-agent: *
Allow: /
Disallow: /admin/

ó así:

User-agent: *
Allow: /
Disallow: /catalog/admin/


Gracias por adelantado.
  #9 (permalink)  
Antiguo 26/03/2010, 10:23
 
Fecha de Ingreso: febrero-2008
Ubicación: /home/public_html
Mensajes: 551
Antigüedad: 16 años, 2 meses
Puntos: 10
Respuesta: Problemas robots.txt para otros buscadores indexacion

Esto de desavilitar algo asi como esto:

Disallow: /imagenes/contactar-usuario*

No funciona por que me ha indexado igual, y ahora tengo problemas porque se esta triplicado casi todas las paginas en cuatro paginas del mismo contenido.

Alguna idea de como bloquear solo las paginas que comiencen con:

Disallow: /imagenes/contactar-usuario*

Porque las paginas en principio son asi "contactar-usuario-299", "contactar-usuario-300" y asi sucecivamente, quiero que no indexe nada de "contactar-usuario-NNN"

Etiquetas: buscadores, indexacion, posicionamiento-seo
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 15:56.