Problemas robots.txt para otros buscadores indexacion

Jabin · #1 (**permalink**) 15/01/2010, 11:44

He notado que gran parte de mis visitantes provienen de Google, pero muy poquisimos de Bing, y casi nada de otros.

Generalmente damos prioridad a los Robots de google, y que mejor capturar los usuarios de los otros buscadores. En mi robots.txt hay esto

Cita:

User-agent: Mediapartners-Google*
Disallow: /cgi-bin/
Disallow: /carpetas/
Disallow: /prohibidas/

Sitemap: http://www.mi_web.com/sitemap.xml

Y como hago para que tambien deje pasar a los robots de Yahoo, Bing, Altavista, Ask, etc osea que tambien ellos me indexen, en el ejemplo, solo he copiado del ejemplo de otros archivos de Robots, y en el Robot de Google, no tiene ese Mediapartners-Google, solo esta como "User-agent: *".

En otras webs veo este tipo de Robots:

Cita:

User-agent: *
Disallow: /admin/
Disallow: /templates/

User-agent: Mediapartners-Google*
Disallow:

Cual de los dos robots.txt es valido, o cual es el ideal para que todos los Buscadores en general me indexen.

facundocorradini · #2 (**permalink**) 15/01/2010, 11:49

El robots.txt no es para habilitar la indexación, ese comportamiento es el que usan los robots por default. La idea del robots.txt es precisamente la contraria, bloquear la indexación.

Si quieres que los robots como yahoo, bing, etc te indexen, no hay nada que hacer desde el robots.txt en ese sentido. De hecho, lo único que estás haciendo desde el robots.txt es bloquear al robot de AdSense las carpetas "cgi-bin", "carpetas" y "prohibidas", lo cual supongo que será algo que has copiado sin saber bien qué estabas haciendo...

Te recomiendo cambiar ese código por

Código:

 
User-agent: *
Disallow:

para permitir que todos los bots puedan leer toda tu web, y que busques información para comprender mejor cómo funciona un robots.txt.

un saludo,

Jabin · #3 (**permalink**) 17/01/2010, 18:31

Ok, gracias, una duda y como se hace para bloquer ciertos URLs que lleven alguna "palabra"

Ejemplos:

Quiero que Google no Siga la palabra "contactar*"

web.com/contactar-usuario-id300/
web.com/contactar-usuario-id301/
web.com/contactar-usuario-id400/

Alguna idea

facundocorradini · #4 (**permalink**) 17/01/2010, 19:36

Desde el robots.txt se complica, el soporte para expresiones regulares no está incluído en el protocolo en sí, aunque para GoogleBot puede funcionar lo siguiente:

Código:

 
User-agent: *
Disallow:/contactar-usuario*

El * al final debería funcionar como comodín, bloqueando el acceso a todo lo que comience con contactar-usuario. Pero esto no es seguro que funcione, y si sirviera solo lo haría para Google.

La solución definitiva está en trabajar sobre la programación del sitio, para que la página de contacto agregue el siguiente código en el head:

Código:

<meta name="robots" content="noindex">

Jabin · #5 (**permalink**) 19/01/2010, 09:49

Hola facundocorradini, gracias por tu ayuda.
Ahora tengo otra duda, sobre los robots.txt, por lo general el Robots esta localizado en la raiz principal de la web.

Pero que sucede en caso, cuando yo instale algun prefabricado en una carpeta, y en ese prefabricado tenga su robots.txt, para anular ciertas carpetas a los robots.

En este caso seria, aconsejable dejar los dos robots o no??
miweb.com/robots.txt
miweb.com/imagenes/robots.txt

Para este caso dentro de la carpeta "imagenes" hay digamos "admin, tools, templates, etc"; claro que dentro de imagenes quiero que Google siga un sin fin de imagenes con contenido.

Entonces estuve pensando colocar mi robots en la raiz principal de la siguiente manera:

miweb.com/robots.txt

Cita:

User-agent: *
Disallow: /cgi-bin/
Disallow: /carpetas/
Disallow: /prohibidas/
Disallow: /imagenes/admin
Disallow: /imagenes/tools
Disallow: /imagenes/templates
Disallow: /imagenes/contactar-usuario*

Sitemap: http://www.mi_web.com/sitemap.xml

Este robot temo, que Google anule por completo toda la carpeta "imagenes", por eso mi duda.

Dudas
Es pocible tener mas de un robots en una web?
Que diferencia existe en colocar las lineas al final con la "/ Barra oblicua", Google como interpretaria si yo coloco con o sin esa "/ Barra oblicua".
Disallow: /imagenes/tools/
Disallow: /imagenes/templates/

facundocorradini · #6 (**permalink**) 19/01/2010, 13:08

La barra oblicua indica que es un directorio. Sin eso sería interpretado como un nombre de archivo. Por ejemplo, en "/imagenes/admin" estarías bloqueando un teórico archivo llamado "admin" en lugar de la carpeta entera.

Creo que se puede tener un robots.txt por directorio, pero es más fácil para el mantenimiento conservar solo uno en la raíz.

El ejemplo que colocas deberías agregar / al final de cada carpeta de imágenes, y revisar el tema de "carpetas" y "prohibidas". Realmente existen esas carpetas? a mí me suena a texto de ejemplo que has copiado de algún lado... borralos o cambialo por las verdaderas carpetas que quieres bloquear.

Jabin · #7 (**permalink**) 20/01/2010, 17:49

Gracias por tu ayuda, si efectivamente, eso de carpetas prohibidas, son ejemplos, claro que los reemplazare por las carpetas que quiero, pero de ante mano gracias por tu ayuda

vwgolfo · #8 (**permalink**) 05/03/2010, 06:22

En caso de que sólo quisiera prohibir la carpeta admin (en oscommerce) encontrandose la tienda en el directorio /catalog, es decir www.mitienda.com/catalog, el archivo robots.txt sería:

Así

User-agent: *
Allow: /
Disallow: /admin/

ó así:

User-agent: *
Allow: /
Disallow: /catalog/admin/

Gracias por adelantado.

Jabin · #9 (**permalink**) 26/03/2010, 10:23

Esto de desavilitar algo asi como esto:

Disallow: /imagenes/contactar-usuario*

No funciona por que me ha indexado igual, y ahora tengo problemas porque se esta triplicado casi todas las paginas en cuatro paginas del mismo contenido.

Alguna idea de como bloquear solo las paginas que comiencen con:

Disallow: /imagenes/contactar-usuario*

Porque las paginas en principio son asi "contactar-usuario-299", "contactar-usuario-300" y asi sucecivamente, quiero que no indexe nada de "contactar-usuario-NNN"