Foros del Web » Estrategias Digitales y Negocios Online » SEO »

[TUTORIAL] Cómo evitar la indexación parcial de ciertos contenidos en Google

Estas en el tema de [TUTORIAL] Cómo evitar la indexación parcial de ciertos contenidos en Google en el foro de SEO en Foros del Web. Hola a todos! Hace tiempo un usuario nos preguntó en FDW como evitar de forma natural sin emplear complejos sistemas de cargas de archivos / ...
  #1 (permalink)  
Antiguo 14/02/2016, 05:48
Avatar de popobcn
Moderador
 
Fecha de Ingreso: noviembre-2006
Ubicación: Cerdanyola del Vallès
Mensajes: 3.892
Antigüedad: 17 años, 5 meses
Puntos: 1142
[TUTORIAL] Cómo evitar la indexación parcial de ciertos contenidos en Google

Hola a todos!

Hace tiempo un usuario nos preguntó en FDW como evitar de forma natural sin emplear complejos sistemas de cargas de archivos / contenidos vía AJAX o similares la indexación de ciertas partes del contenido de una página concreta y hoy, tras largo tiempo y tras efectuar pruebas sobre un portal que recibe de forma natural muchas, pero muchas actualizaciones diarias y bastantes referencias externas a nivel de citaciones sociales / naturales, hoy por fin puedo decir que SI, es posible.

Jugando con googleoff: index / googleon: index
Los marcados de contenido de Google poco o nada conocidos para controlar la indexación

Bien, existen 2 etiquetas HTML orientadas principal y esencialmente a controlar la indexación del contenido empresarial y publico de las páginas HTML de las empresas que se han vinculado y/o tienen una licencia de "Google Search Appliance", una línea de productos orientados "supuestamente" a empresas que a decir verdad desconozco si se siguen vendiendo o tienen más años que Cristo, pero lo que si puedo decir sin animo a equivocarme es que algunas de sus etiquetas funcionan para todo el mundo, si, para todos.

Vamos al lío, porque esto es buenísimo... Imaginemos que tenemos una relaciones de contenidos X y que por arquitectura, composición o definición de la base de datos o lo que fuera replicará si o si una serie de términos clave y/o URLs que podrían llegar a ser consideradas como sobreoptimización interna principalmente porque carecen de un control o simplemente porque el contenido publicado es exclusivamente generado por terceras personas y/o usuarios de tu página ¿cómo controlar la parte que se ha de indexar? pues con dos etiquetas HTML.

Os pongo un ejemplo en HTML para que comprendamos mucho mejor como manipular el rastreo de la información de vuestras páginas:

Código HTML:
<ul>
      <li>
           <h2><a href="#dondevaya">TITULO SOBRE LO QUIERAS</a></h2>
           <p>Definifición / SLUG del producto</p>
           <p>Categoría: <!--googleoff: index--><a href="#urlcategoria">Anchor text que no intersa ser indexado</a><!--googleon: index--></p>
      </li>
</ul>
<ul>
      <li>
           <h2><a href="#dondevaya">TITULO SOBRE LO QUIERAS</a></h2>
           <p>Definifición / SLUG del producto</p>
           <p>Categoría: <!--googleoff: index--><a href="#urlcategoria">Anchor text que no intersa ser indexado</a><!--googleon: index--></p>
      </li>
</ul>
<ul>
      <li>
           <h2><a href="#dondevaya">TITULO SOBRE LO QUIERAS</a></h2>
           <p>Definifición / SLUG del producto</p>
           <p>Categoría: <!--googleoff: index--><a href="#urlcategoria">Anchor text que no intersa ser indexado</a><!--googleon: index--></p>
      </li>
</ul>
<ul>
      <li>
           <h2><a href="#dondevaya">TITULO SOBRE LO QUIERAS</a></h2>
           <p>Definifición / SLUG del producto</p>
           <p>Categoría: <!--googleoff: index--><a href="#urlcategoria">Anchor text que no intersa ser indexado</a><!--googleon: index--></p>
      </li>
</ul> 
Las etiquetas que establecen el marcado comprendido entre la parte del código HTML que no debe de ser indexada ni contemplada por el crawler de Google es la siguiente:

Cita:
Iniciado por Desde esta etiqueta, Google no indexará absolutamente nada
<!--googleoff: index-->
Y para informar nuevamente al Bot de rastreo que otra parte del contenido si debe de ser indexada y contemplada necesitaremos volver a abrir el grifo al crawler de la siguiente manera:

Cita:
Iniciado por Desde esta etiqueta, Google indexará absolutamente todo
<!--googleon: index-->
Todo lo que se defina entro de estas dos etiquetas, simplemente será obviado e ignorado por el bot de rastreo, así tal cual suena y para hacer la prueba que diera consistencia a esta afirmación he capado la indexación de más de 540 publicaciones sin evitar que las categorías principales recibirán las correspondientes visitas del bot de rastreo e incluso actualizará la fecha de indexación de las mismas, peroooo evitando que se indexarán todos los contenidos mostrados en dichas categorías.

En resumen, no solo he impedido que una parte concreta del contenido fuera obviada sino que absolutamente TODO el contenido de múltiples páginas no fuera indexado por parte del BOT de Google.

¿Qué aplicaciones prácticas tiene realmente esto?

Hasta aquí, perfecto, pero ¿qué podemos hacer en realidad con estas dos fantásticas etiquetas de HTML que hasta ahora quizás no conocías? Os dejo unas cuantas ideas para que comencéis a jugar con ellas como locos posesos:
1. Evitar la indexación de contenidos replicados en determinadas páginas

Esto es ideal para cualquier ecommerce que incorpora en todas las entradas su catálogo por ejemplo formas de pago y otras informaciones que - sin lugar a dudas - pueden poseer un contenido textual mucho más elevado que las propias definiciones de los productos o incluso es más, llegando al niveles insospechados; evitar la indexación de los contenidos que son proporcionados de forma directa por la marca blanca que nos suministra los productos presentados, haciendo que la información mostrada sea mucho más amplia pero al mismo tiempo forzando que el contenido indexable sea aquel que facilitamos nosotros.

2. ¿Evitar penalizaciones de PANDA?

Aquí ya no meto la mano en el fuego, pero bien podría ayudarnos a que ciertos apartados de nustros sites que poseen contenido duplicado si o si de forma natural o forzosa por presentar - como en el caso del ejemplo anterior del ecommerce - informaciones que han sido publicadas por cientos e incluso miles de páginas se salte cualquier tipo de penalización relacionada a la indexación de contenido duplicado.

En resumen, doy fé de que el contenido es totalmente obviado y no es indexado por Google si se emplean estas etiquetas HTML, por lo que cualquier página que presente un catálogo sin modificaciones podría librarse de una penalización por contenido duplicado si la parte del contenido duplicado se encontrará definida dentro de estas 2 etiquetas.

Esto es directamente una suposición - OJO - pero la dejo para los más aventureros que tengan ganas de experimentar y quemar proyectos xD

3. Manipular el linkjuice interno a voluntad

Para los que no ven absolutamente ningún tipo de aplicación de estas dos etiquetas HTML proporcionadas por Google para evitar el rastreo y la correspondiente indexación de ciertos contenidos, el titulo que precede a estas líneas os da una clara aplicación sobre cual puede ser uno de los objetivos principales de su aplicación: mejorar la transferencia del linkjuice interno de nuestras páginas.

En pocas palabras, nos permite jugar mucho más con la arquitectura de nuestros sitios y sobretodo nos permite mejorar de forma interna y sin emplear enlaces NOFOLLOW la distribución del linkjuice interno de nuestras páginas.
Conclusión: ¡tened MUCHO cuidado a la hora de aplicarlas!

Yo he conseguido que más de 500 entradas no se indexen por estar presentadas entre estas etiquetas y eso todos los enlaces eran DOFOLLOW, por lo que os garantizo que funcionar lo que se dice funcionar, funcionan de maravilla.

Es cosa sería lo que hacen estos dos opciones de control de rastreo / indexación de Google y si no se cierran y/o controlan adecuadamente pueden impedir el rastreo de páginas completas ¡A jugar!

Saludos
__________________
Consultor SEO / WPO
[EXP] Fuego de Vida ->sitio web

Etiquetas: ciertos, contenido, contenidos, dudas, google, página, parcial, url
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta

SíEste tema le ha gustado a 1 personas




La zona horaria es GMT -6. Ahora son las 20:34.