Foros del Web » Estrategias Digitales y Negocios Online » SEO »

¿Me ayudáis con el robots.txt?

Estas en el tema de ¿Me ayudáis con el robots.txt? en el foro de SEO en Foros del Web. Tengo un problema, ya que tengo el archivo robots.txt para mi sitio de esta forma: User-agent: * Allow: / Sitemap: http://www.midominio.es/sitemap.xml Y ahora le voy ...
  #1 (permalink)  
Antiguo 28/11/2010, 15:53
 
Fecha de Ingreso: septiembre-2009
Mensajes: 229
Antigüedad: 14 años, 7 meses
Puntos: 5
¿Me ayudáis con el robots.txt?

Tengo un problema, ya que tengo el archivo robots.txt para mi sitio de esta forma:

User-agent: *
Allow: /
Sitemap: http://www.midominio.es/sitemap.xml


Y ahora le voy a implementar un blog de WP en la carpeta midominio.es/blog/ , y no sé cómo modificar este robots.txt, ya que temo caer en contenido duplicado o que se indexen archivos que no deban.

He visto varios ejemplos, pero todos para un blog que está en la raíz del sitio, y no en una carpeta. Como no quiero equivocarme, ¿podéis echarme una mano a confeccionarlo?

Muchas gracias y un saludo.
__________________
Si necesitas vendaje neuromuscular de máxima calidad visita nuestra tienda de fisioterapia.
  #2 (permalink)  
Antiguo 28/11/2010, 16:45
Avatar de Daniel Ulczyk
Super Moderador
 
Fecha de Ingreso: febrero-2005
Ubicación: Buenos Aires
Mensajes: 9.263
Antigüedad: 19 años, 1 mes
Puntos: 2114
Respuesta: ¿Me ayudáis con el robots.txt?

El archivo robots.txt debe estar localizado en el root del sitio; con independencia, esto, que el contenido del blog esté publicado en un subdirectorio o carpeta.

Si vas a utilizar ejemplos; sólo debés insertar el infijo blog a lo que creas que es restrictivamente conveniente para tus propósitos.

Además, en forma complementaria; y para lo que tiene que ver con evitar contenido duplicado, en Wordpress disponés de plugins muy útiles como All-in-One SEO Pack o bien Platinum SEO Pack que insertan en forma dinámica la etiqueta canonical en el documento que contiene el post.
__________________
—Somos lo que hacemos repetidamente. La excelencia, entonces, no es un acto sino un hábito. (Aristóteles dixit)
  #3 (permalink)  
Antiguo 29/11/2010, 03:58
 
Fecha de Ingreso: septiembre-2009
Mensajes: 229
Antigüedad: 14 años, 7 meses
Puntos: 5
Respuesta: ¿Me ayudáis con el robots.txt?

Muchas gracias por contestar, Daniel.

¿Sería algo así?

User-Agent: *
Disallow: /blog/wp-admin/
Disallow: /blog/wp-content/
Disallow: /blog/wp-includes/
Disallow: /wp-
Disallow: /?s=
Disallow: *.php
Disallow: */feed*
Disallow: */trackback*
Disallow: /20*
Disallow: /author
Disallow: /cgi-bin/

User-agent: Mediapartners-Google*
Allow: /

User-agent: Googlebot-Image
Allow: /blog/wp-content/uploads/

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://www.midominio.es/sitemap.xml
Allow: /




Tengo dudas en estas lineas, ya que no sé si debería poner también el directorio delante...

Disallow: /wp-
Disallow: /?s=
Disallow: *.php
Disallow: */feed*
Disallow: */trackback*
Disallow: /20*
Disallow: /author
Disallow: /cgi-bin/



¿Podríais confrimármelo? Muchas gracias!
__________________
Si necesitas vendaje neuromuscular de máxima calidad visita nuestra tienda de fisioterapia.

Última edición por Daniel Ulczyk; 29/11/2010 a las 08:25 Razón: se remueve enlace de ejemplo: error 404
  #4 (permalink)  
Antiguo 29/11/2010, 08:31
Avatar de Daniel Ulczyk
Super Moderador
 
Fecha de Ingreso: febrero-2005
Ubicación: Buenos Aires
Mensajes: 9.263
Antigüedad: 19 años, 1 mes
Puntos: 2114
Respuesta: ¿Me ayudáis con el robots.txt?

El archivo robots.txt sólo acepta como válidas, restricciones que tengan que ver con carpetas o subdirectorios; si sabés diferenciar entre estos últimos y declaraciones del tipo "Disallow: *.php" notarás que estás cometiendo errores.

Por lo demás declaraciones del tipo */trackback* son inválidas; debiendo utilizar en estos casos */trackback

Y carpetas, en forma genéricas; del tipo Disallow: /20* tampoco tienen efecto.

Te recomiendo—enfáticamente—consultes el protocolo; de manera de no obtener efectos no deseados

__________________
—Somos lo que hacemos repetidamente. La excelencia, entonces, no es un acto sino un hábito. (Aristóteles dixit)
  #5 (permalink)  
Antiguo 01/12/2010, 12:10
 
Fecha de Ingreso: septiembre-2009
Mensajes: 229
Antigüedad: 14 años, 7 meses
Puntos: 5
Respuesta: ¿Me ayudáis con el robots.txt?

Gracias Daniel, voy a estudiar el protocolo a ver si consigo hacerlo bien.

Gracias y un saludo!
__________________
Si necesitas vendaje neuromuscular de máxima calidad visita nuestra tienda de fisioterapia.
  #6 (permalink)  
Antiguo 28/01/2011, 08:42
 
Fecha de Ingreso: septiembre-2009
Mensajes: 229
Antigüedad: 14 años, 7 meses
Puntos: 5
Respuesta: ¿Me ayudáis con el robots.txt?

Buenas de nuevo,

Regreso de nuevo con el tema tras ponerme un poco al día acerca del robots.txt.

Como recuerdo, tengo una web con un blog en un subdirectorio , tal que así: midominio.es/blog/

Finalmente he subido el siguiente archivo robots.txt a la raíz del sitio:

# Google Image
User-agent: Googlebot-Image
Allow: /
Disallow:

# Google Adsense
User-agent: Mediapartners-Google*
Allow: /
Disallow:

# Internet Archiver Wayback Machine
User-agent: ia_archiver*
Allow: /
Disallow:

# Digg Mirror
User-agent: duggmirror
Disallow: /

# All Bots
User-agent: *
Disallow: /blog/cgi-bin/
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /*?*
Disallow: /*?
Disallow: /readme.html
Disallow: /license.txt
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Allow: /blog/wp-content/uploads/
Allow: /*?page=*

# Sitemap
Sitemap: http://www.kineweb.es/sitemap.xml
Sitemap: http://www.kineweb.es/blog/sitemap.xml

¿Lo véis correcto? ¿O encontráis algún fallo en él?

Muchas gracias y un saludo!
__________________
Si necesitas vendaje neuromuscular de máxima calidad visita nuestra tienda de fisioterapia.

Última edición por bullancas; 28/01/2011 a las 08:48

Etiquetas: posicionamiento-seo
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 21:48.