Foros del Web » Estrategias Digitales y Negocios Online » SEO »

Evitando los crawls de Google

Estas en el tema de Evitando los crawls de Google en el foro de SEO en Foros del Web. Hola, en mi web tengo implementado un sistema para chequear qué usuarios registrados visitan links a web externas . Cada vez que un usuario registrado ...
  #1 (permalink)  
Antiguo 15/02/2012, 03:32
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Evitando los crawls de Google

Hola, en mi web tengo implementado un sistema para chequear qué usuarios registrados visitan links a web externas.

Cada vez que un usuario registrado hace clic en una web por ejemplo www.forosdelweb.com, meto un registro con el id de usuario y el link.

Cuando quien visita es un usuario NO registrado, también almaceno la información en la base de datos pero con id usuario 0 y su link.

La idea es llevar un control general de visitas y además separado por usuarios registrados y no registrados.

El problema es que los robots de google enseguida se "abalanzan" sobre mis links y me inflan las visitas anónimas, es decir me desvirtúan el análisis.

Ahora lo tengo implementado así:

web.php -> lanzador.php (aquí registro la visita en la BD y hago un header location para que redireccione a www.forosdelweb.com por ejemplo)

Mi pregunta es... podría evitar ese problema haciéndolo con AJAX?

Hacerlo de esa forma supondría que quizá google no vería un link "normal" sino un link a un evento javascript por lo cual no lo seguiría (ejecutaría)... No sé, se me ocurre. Estoy en lo cierto?
  #2 (permalink)  
Antiguo 15/02/2012, 04:47
Avatar de repara2  
Fecha de Ingreso: septiembre-2010
Ubicación: München
Mensajes: 2.445
Antigüedad: 13 años, 7 meses
Puntos: 331
Respuesta: Evitando los crawls de Google

Supongo que te sería más facil identificar los request de Google y no procesarlos.
__________________
Fere libenter homines, id quod volunt, credunt.
  #3 (permalink)  
Antiguo 15/02/2012, 04:59
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

El tema es que puedo detectar por IP pero claro, la IP mañana la pueden cambiar.

Lo de AJAX pretendo que sea una especie de cortafuegos para "engañar" a los crawls de google y que no sigan los links. No sé si es buena idea...
  #4 (permalink)  
Antiguo 15/02/2012, 05:02
Avatar de repara2  
Fecha de Ingreso: septiembre-2010
Ubicación: München
Mensajes: 2.445
Antigüedad: 13 años, 7 meses
Puntos: 331
Respuesta: Evitando los crawls de Google

Si no me equivoco puedes establecer la opción follow links o similar en tu httacces. Creo que con meta tags se puede hacer algo similar.
__________________
Fere libenter homines, id quod volunt, credunt.
  #5 (permalink)  
Antiguo 15/02/2012, 08:54
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

Buena idea, lo haré a nivel de link <a href="xxxx" rel="nofollow"...>xxx</a>

El tema es si el atributo nofollow es estándar a todos los buscadores
  #6 (permalink)  
Antiguo 15/02/2012, 09:08
Avatar de jotaincubus  
Fecha de Ingreso: mayo-2005
Ubicación: Medellin - Colombia
Mensajes: 1.797
Antigüedad: 19 años
Puntos: 394
Respuesta: Evitando los crawls de Google

A mi me parece mas facil usar robots.txt
__________________
Por que existe gente que no agradece después de que se le ha brindado tiempo y ayuda ???
  #7 (permalink)  
Antiguo 15/02/2012, 14:01
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

He puesto el rel="nofollow" en el link y los robots me siguen "atacando", intuyo que es porque google no ha indexado aún estos cambios
  #8 (permalink)  
Antiguo 15/02/2012, 14:32
Avatar de Daniel Ulczyk
Super Moderador
 
Fecha de Ingreso: febrero-2005
Ubicación: Buenos Aires
Mensajes: 9.264
Antigüedad: 19 años, 2 meses
Puntos: 2114
Respuesta: Evitando los crawls de Google

Cita:
Iniciado por humanista Ver Mensaje
He puesto el rel="nofollow" en el link y los robots me siguen "atacando", intuyo que es porque google no ha indexado aún estos cambios
Tenés que utilizar robots.txt para restringir el acceso a los bots

Considerá el uso de la base de datos de crawlers para restringir el acceso a determinados bots.
__________________
—Somos lo que hacemos repetidamente. La excelencia, entonces, no es un acto sino un hábito. (Aristóteles dixit)
  #9 (permalink)  
Antiguo 15/02/2012, 16:50
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

vale, pero el problema es que si pongo en robots.txt algo del tipo:

Disallow: index.php

y dado que mis web son del tipo www.example.com/articles/index.php?id=123

supongamos que surtirá efecto, vale pero es que yo quiero que indexe mi web pero NO los enlaces que salen desde ella...

Edito: entonces entiendo que tengo que poner:

Disallow: /articles/lanzador.php

supongo que así funcionará bien y que también hará efecto aquí (que es realmente cómo quedará el lanzador):

lanzador.php?id=123&categ=9
  #10 (permalink)  
Antiguo 15/02/2012, 17:01
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

lo acabo de probar y no me va, no sé si se pueden poner parámetros tipo expresiones regulares aquí


Disallow: /articles/lanzador.php
  #11 (permalink)  
Antiguo 15/02/2012, 17:27
Usuario no validado
 
Fecha de Ingreso: mayo-2011
Mensajes: 1.231
Antigüedad: 13 años
Puntos: 228
Respuesta: Evitando los crawls de Google

prueba poner tus links de esta forma:

<span onclick="enlacesnofollow('www.example.com/articles/index.php?id=123');">ejemplo</span>


Y justo antes de cerrar el </body> pega este javascript:


<!--links in javascript-->
<script type="text/javascript">
function enlacesnofollow(enlace) {
// alert("");
trozoUrl = "'http://"; //Descompongo la URL
trozoOrden ="window."; //Decompongo las órdenes JS
trozoOrden2 ="location.";
trozoOrden3 = "href=";

//Interpreto la concatenación de cadenas
eval(trozoOrden+trozoOrden2+trozoOrden3+trozoUrl+e nlace+"'");
}
</script>

prueba a ver si google los sigue

Saludos
  #12 (permalink)  
Antiguo 15/02/2012, 18:19
Avatar de calgares  
Fecha de Ingreso: mayo-2011
Ubicación: San Luís, Argentina
Mensajes: 853
Antigüedad: 13 años
Puntos: 141
Respuesta: Evitando los crawls de Google

prueba a poner
Disallow: /articles/*?*
__________________
Mi Negocio en Internet
  #13 (permalink)  
Antiguo 17/02/2012, 15:42
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

vale calgares pero lo que yo quiero es justo el archivo lanzador.php que está en el directorio articles, debería ser algo como:

Disallow: /articles/lanzador.php*?*

(me lo he inventado, es por poner un ejemplo)
  #14 (permalink)  
Antiguo 18/02/2012, 05:37
Avatar de calgares  
Fecha de Ingreso: mayo-2011
Ubicación: San Luís, Argentina
Mensajes: 853
Antigüedad: 13 años
Puntos: 141
Respuesta: Evitando los crawls de Google

Cita:
Iniciado por humanista Ver Mensaje
vale calgares pero lo que yo quiero es justo el archivo lanzador.php que está en el directorio articles, debería ser algo como:

Disallow: /articles/lanzador.php*?*

(me lo he inventado, es por poner un ejemplo)
Con el ejemplo que te dí al poner el asterisco antes de ? estás incluyendo ya lanzador.php, en tu ejemplo el asterisco entre p y ? está demás, no cumple ninguna función.
__________________
Mi Negocio en Internet
  #15 (permalink)  
Antiguo 19/02/2012, 10:45
Avatar de humanista  
Fecha de Ingreso: abril-2005
Mensajes: 878
Antigüedad: 19 años
Puntos: 15
Respuesta: Evitando los crawls de Google

ya pero con lo que tú me pones va a NO indexar todos los archivos que están e articles y yo quiero solamente lanzador.php pero además el caso es que es lanzador.php?id=1, lanzador.php?id=2, lanzador.php?id=3, etc...
  #16 (permalink)  
Antiguo 19/02/2012, 12:52
Avatar de charlyalegret  
Fecha de Ingreso: septiembre-2011
Ubicación: Barcelona
Mensajes: 705
Antigüedad: 12 años, 7 meses
Puntos: 140
Respuesta: Evitando los crawls de Google

Si escribes

Disallow: /articles/lanzador.php*
Te debería bloquear cualquier cadena que empieze por /articles/lanzador.php
(según google: http://support.google.com/webmasters...&answer=156449, clicando en crear archivo manualmente)

También puedes alojar lanzador.php en otro directorio y bloquearlo.

Otra opción es que dentro de usarios no registrados, recojas también el user agent, así obtendrás más información para tu análisis y podrás descartar los robots.

También puedes bloquarlos mediante htaccess. Una manera habitual es la siguiente, en la que niegas el acceso a los bots cuando la url es del tipo /articles/lanzador (nota: no lo he probado personalmente, podría no funcionar). La lista de bots la he tomado prestada, y se supone que es de bots poco fiables, faltaría añadir los bots usuales como google, bing, etc.

Código Apache:
Ver original
  1. RewriteEngine On
  2.     RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
  3.     RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:[email protected] [OR]
  4.     RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
  5.     RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
  6.     RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
  7.     RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
  8.     RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
  9.     RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
  10.     RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
  11.     RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
  12.     RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
  13.     RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
  14.     RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
  15.     RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
  16.     RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
  17.     RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
  18.     RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
  19.     RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
  20.     RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
  21.     RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
  22.     RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
  23.     RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
  24.     RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
  25.     RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
  26.     RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
  27.     RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
  28.     RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
  29.     RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
  30.     RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
  31.     RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
  32.     RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
  33.     RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
  34.     RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
  35.     RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
  36.     RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
  37.     RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
  38.     RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
  39.     RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
  40.     RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
  41.     RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
  42.     RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
  43.     RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
  44.     RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
  45.     RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
  46.     RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
  47.     RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
  48.     RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
  49.     RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
  50.     RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
  51.     RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
  52.     RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
  53.     RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
  54.     RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
  55.     RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
  56.     RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
  57.     RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
  58.     RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
  59.     RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
  60.     RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
  61.     RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
  62.     RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
  63.     RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
  64.     RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
  65.     RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
  66.     RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
  67.     RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
  68.     RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
  69.     RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
  70.     RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
  71.     RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
  72.     RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
  73.     RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
  74.     RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
  75.     RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
  76.     RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
  77.     RewriteCond %{HTTP_USER_AGENT} ^Zeus
  78.     RewriteRule ^articles/lanzador.php - [F,L]

Saludos

Última edición por charlyalegret; 19/02/2012 a las 13:51 Razón: Quizá sea más sencillo así...
  #17 (permalink)  
Antiguo 19/02/2012, 14:22
Avatar de calgares  
Fecha de Ingreso: mayo-2011
Ubicación: San Luís, Argentina
Mensajes: 853
Antigüedad: 13 años
Puntos: 141
Respuesta: Evitando los crawls de Google

Cita:
Iniciado por humanista Ver Mensaje
ya pero con lo que tú me pones va a NO indexar todos los archivos que están e articles y yo quiero solamente lanzador.php pero además el caso es que es lanzador.php?id=1, lanzador.php?id=2, lanzador.php?id=3, etc...
entonces pones /articles/lanzador.php?id=*
__________________
Mi Negocio en Internet

Etiquetas: evitando, google, registro, usuarios
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 06:16.