Foros del Web » Estrategias Digitales y Negocios Online » SEO »

google indexa demasiadas páginas

Estas en el tema de google indexa demasiadas páginas en el foro de SEO en Foros del Web. Hola, mi sitio web tiene el siguiente robots.txt: Código: User-agent: * Allow: /w/sitemap.xml Disallow: /yo.php Disallow: /w/ Disallow: /wiki/Special:Search Disallow: /wiki/Special:Random Con lo cual, entiendo ...
  #1 (permalink)  
Antiguo 17/05/2010, 17:44
 
Fecha de Ingreso: septiembre-2008
Mensajes: 118
Antigüedad: 11 años, 2 meses
Puntos: 4
google indexa demasiadas páginas

Hola, mi sitio web tiene el siguiente robots.txt:

Código:
User-agent: *
Allow: /w/sitemap.xml
Disallow: /yo.php
Disallow: /w/
Disallow: /wiki/Special:Search
Disallow: /wiki/Special:Random
Con lo cual, entiendo que cualquier página en /w/ debería estar bloqueada.

Sin embargo, al buscar en Google site:midominio.com me aparece que hay indexadas más de 1.000 páginas, lo cuál es un despropósito en mi sitio.

Pruebo a ver qué páginas tiene indexadas, y me muestra 39, pero al final hay un botón "omitir páginas similares a las mostradas". Y ahí viene el caos: me muestra las 1.000 y pico páginas que supuestamente deberían estar bloquedas: por poner un ejemplo

http://midominio.com/w/index.php?title=Pagina1&oldid=3

¿Por qué Google ha indexado cientos y cientos de páginas que han sido bloqueadas con el robots.txt y aunque inicialmente no las muestra, con una búsqueda ampliada sí las muestra?

Me preocupa, porque estas mil y pico páginas son contenido dinámico: todas las versiones viejas de una página, enlaces a una página, páginas especiales...

¿Está mal el archivo robots.txt? ¿Es una práctica normal en Google mostrar los resultados así?

Modificación: he seguido mirando, y debo añadir que en Google Webmaster Tools se me avisa de que 600+ páginas no se han podido acceder por el archivo robots.txt He probado, y efectivamente, Google me detecta 600 páginas que no debe indexar dentro de /w/ pero sin embargo me indexa otras 1.000 también dentro de /w/

Indicar que si busco en Google una de las 600 páginas bloqueadas no aparece absolutamente nada, pero si busco una de las 1.000 páginas erróneamente indexadas y que con "incluir resultados omitidos" puedo localizar, me aparece alguna página de las pocas que deberían estar indexadas, junto con la opción de "incluir resultados omitidos..." y al pinchar ahí, también me aparece la página erróneamente indexada.
__________________
Sitios en los que colaboro:
wikineos - la web de las montañas
Partituras modernas para piano gratis

Última edición por humanware; 17/05/2010 a las 17:53
  #2 (permalink)  
Antiguo 18/05/2010, 08:58
Avatar de RBZ
RBZ
Moderador
 
Fecha de Ingreso: noviembre-2005
Ubicación: Sevilla España
Mensajes: 11.556
Antigüedad: 14 años
Puntos: 2052
Respuesta: google indexa demasiadas páginas

Tienen enlaces externos esas páginas, cuando reciben enlaces externos Google ignora el archivo robots.txt
__________________
Sevilla monumentos de Sevilla Fotos de la ciudad
ViajeV
  #3 (permalink)  
Antiguo 18/05/2010, 09:16
 
Fecha de Ingreso: septiembre-2008
Mensajes: 118
Antigüedad: 11 años, 2 meses
Puntos: 4
Respuesta: google indexa demasiadas páginas

De ningún modo, mi página es nueva, miles de páginas no han sido enlazadas desde fuera, pero es cierto que enlaces externos sí que tienen. ¿Por qué Google se salta el robots.txt si te enlazan desde fuera? ¿Cómo puedo prevenir la indexación? Me preocupa que Google me sancione por tener esas páginas sin contenido o con contenido duplicado. De todos modos algo raro ocurre, porque Google sabe que esas páginas tienen algo especial: no aparecen en la primera búsqueda sino al pulsar en "incluir resultados omitidos".
__________________
Sitios en los que colaboro:
wikineos - la web de las montañas
Partituras modernas para piano gratis
  #4 (permalink)  
Antiguo 18/05/2010, 09:22
Avatar de RBZ
RBZ
Moderador
 
Fecha de Ingreso: noviembre-2005
Ubicación: Sevilla España
Mensajes: 11.556
Antigüedad: 14 años
Puntos: 2052
Respuesta: google indexa demasiadas páginas

Google las inluye en los resultados omitidos precisamente porque ya se va orientando y sabe que son irrelevantes. ¿Por qué ignora robots.txt?, no lo sé, en sus propia información para webmasters aclara que lo toma como una sugerencia nunca como una orden.
__________________
Sevilla monumentos de Sevilla Fotos de la ciudad
ViajeV
  #5 (permalink)  
Antiguo 18/05/2010, 09:24
 
Fecha de Ingreso: septiembre-2008
Mensajes: 118
Antigüedad: 11 años, 2 meses
Puntos: 4
Respuesta: google indexa demasiadas páginas

Como dato: en la Wikipedia no ocurre lo mismo... Y mirando el Robots.txt no parece que tengan nada distinto.
__________________
Sitios en los que colaboro:
wikineos - la web de las montañas
Partituras modernas para piano gratis

Etiquetas: google, posicionamiento-seo
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 21:53.