Foros del Web » Estrategias Digitales y Negocios Online » SEO »

como funcionan los spider?

Estas en el tema de como funcionan los spider? en el foro de SEO en Foros del Web. Siempre se habla de los buscadores y spider, mi curiosidad es saber de que forma trabajan, osea concretamente, es un equipo(de que caracteristicas) que mediante ...
  #1 (permalink)  
Antiguo 23/02/2005, 11:18
Avatar de magoote  
Fecha de Ingreso: agosto-2004
Ubicación: Patagonia - Argentina
Mensajes: 187
Antigüedad: 19 años, 8 meses
Puntos: 0
como funcionan los spider?

Siempre se habla de los buscadores y spider, mi curiosidad es saber de que forma trabajan, osea concretamente, es un equipo(de que caracteristicas) que mediante un algoritmo rastrea la red, este algoritmo en que lenguaje esta programado, que conexion necesita, rastrea por ip al azar por rangos..etc, bueno en resumen cualquiera que conozca un poco o sepa donde encontrar la informacon se agradece.
  #2 (permalink)  
Antiguo 23/02/2005, 12:02
D_Mu
Invitado
 
Mensajes: n/a
Puntos:
magoote, valga sea la redundancia, para saber sobre buscadores busca en buscadores. Sólo se que google una de las cosas que tiene su spider es que salta por enlaces, vamos, según parece se "expande" porque a la vez que busca los enlaces internos de tu página, después se va a los enlaces externos a otras páginas, memoriza los enlaces de una página, los internos...
Lenguaje, la verdad que ni idea eso ya es mu tecnico
  #3 (permalink)  
Antiguo 23/02/2005, 12:37
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
Lo del lenguaje no solo es muy tecnico si no que cada buscador tendra sus mezclas de lenguajes.

Yo tengo un pequeño sipider en php y se de otros tambien en php.
  #4 (permalink)  
Antiguo 23/02/2005, 12:55
 
Fecha de Ingreso: octubre-2004
Mensajes: 877
Antigüedad: 19 años, 6 meses
Puntos: 2
Dicho de modo facil, lo que hace un buscador es visitar una pagina (por ejemplo esta), guarda en su base de datos el html y despues sigue cada uno de los links que ahi encuentra, repitiendo la operacion cada vez identica.
Si lo piensan bien, siguiendo esa estrategia pronto habran visitado la mayor parte de los sitios y tendran en la base de datos casi todos.
La parte compleja del algoritmo no es esa, sino como hacer las busquedas dentro de la base de datos y presentar primero los resultados mas 'relevantes', pero indexar paginas es relativamente simple.
  #5 (permalink)  
Antiguo 23/02/2005, 17:11
 
Fecha de Ingreso: agosto-2004
Mensajes: 513
Antigüedad: 19 años, 8 meses
Puntos: 5
Comento como funciona el spider de cuasarBot.
1. Añades una web (formulario de alta).
2. El spider comprueba si la url ya existe.
3. Si no existe hace lo siguiente:
3.1 Comprueba la existencia del fichero robots.txt
3.2 Descarga la url
3.3 Almacena la página como HTML
4. Analiza el contenido de la página en busca de URLs
5. Todas las URLs van al paso 1.

Existen muchos pasos más, pero eso ya depende del algoritmo de cada buscador, pero lo básico es lo que comentaba.
Existen muchos spider ya programados, el spider de cuasarBot está programado desde 0 y son 4 procesos que se encargan de descargar páginas (muy pronto pondré 10 procesos).

Hay muchos detalles para el desarrollo de un buen spider, por ejemplo las redirecciones (http 302), ...

El lenguaje de cuasarBot es C++ y el sistema Linux Suse.
Tengo una página dedicada al estado del spider, en esta página puedo comprobar como afecta cualquier cambio:

http://www.cuasar.com/blogs/status.php
  #6 (permalink)  
Antiguo 23/02/2005, 17:36
Avatar de oscarva  
Fecha de Ingreso: agosto-2004
Ubicación: Bogota - Colombia
Mensajes: 425
Antigüedad: 19 años, 9 meses
Puntos: 2
Hola y hay alguna forma de hacer un pequeño robot para mi web, es decir, mi web genera muchisimas paginas dinamicas y utilizo el mod_rewrite para hacerlas mas amigables, pero me gustaria saber cuantas paginas exactas tiene mi web. es posible?
__________________
Colsitio. Guía de Hosting
  #7 (permalink)  
Antiguo 23/02/2005, 18:48
Avatar de magoote  
Fecha de Ingreso: agosto-2004
Ubicación: Patagonia - Argentina
Mensajes: 187
Antigüedad: 19 años, 8 meses
Puntos: 0
Ocrum2004, gracias eso es lo que queria saber, basicamente la metodologia y el lenguaje de programacion, y tenes el spider montado en un equipo dedicado a eso , con que conexion?, la base de datos debe tener un tamaño importante no?
bueno por supuesto los vuelvo a felicitar por el trabajo de www.cuasar.com, mas ahora que me entero que es un desarrollo desde 0.
__________________
Desarrollo sitios web portales hosting Neuquen Argentina
• La imaginación es más importante que el conocimiento Albert Einstein (1879-1955)
  #8 (permalink)  
Antiguo 24/02/2005, 02:27
 
Fecha de Ingreso: agosto-2004
Mensajes: 513
Antigüedad: 19 años, 8 meses
Puntos: 5
El spider de cuasar está alojado en un servidor dedicado con conexión a 1 Mega, 3 Discos duros de 200 Gigas. ¿la base de datos?, pues ya te puedes imaginar lo que ocupa.
Espero que muy pronto podamos hacer las primeras búsquedas en cuasar.com, pero primero tengo que filtrar páginas basura y clasificar la información.
  #9 (permalink)  
Antiguo 24/02/2005, 02:34
Ex Colaborador
 
Fecha de Ingreso: junio-2002
Mensajes: 9.091
Antigüedad: 21 años, 10 meses
Puntos: 16
Hola,
Cita:
Iniciado por oscarva
Hola y hay alguna forma de hacer un pequeño robot para mi web, es decir, mi web genera muchisimas paginas dinamicas y utilizo el mod_rewrite para hacerlas mas amigables, pero me gustaria saber cuantas paginas exactas tiene mi web. es posible?
En www.sf.net y en www.freshmeat.net tienes una amplia variedad de robots, spiders y crawlers. Seria cuestion de encontrar uno al que puedas limitar su "territorio" de recorrido a tu dominio.

De todas formas, muchos de estos robots estan limitados a ciertos tipos de enlaces. Por ejemplo, muchos no siguen el action de los formularios, el flash se les atraganta, y los enlaces javascript (popups) tampoco suelen ser de su agrado. Asi que pueden no encontrar el 100% de tus URLs.

saludos.

PD: Pensaba que se llamaban spiders porque recorrian la web (spider-web: telaraña).
__________________
Josemi

Aprendiz de mucho, maestro de poco.
  #10 (permalink)  
Antiguo 24/02/2005, 05:53
Avatar de magoote  
Fecha de Ingreso: agosto-2004
Ubicación: Patagonia - Argentina
Mensajes: 187
Antigüedad: 19 años, 8 meses
Puntos: 0
Oooooo pabada de discos heeee ? , es impresionante la informacion que se maneja...impresionante.
Y para cuando tenemos el buscador disponible?????
__________________
Desarrollo sitios web portales hosting Neuquen Argentina
• La imaginación es más importante que el conocimiento Albert Einstein (1879-1955)
  #11 (permalink)  
Antiguo 24/02/2005, 06:12
 
Fecha de Ingreso: agosto-2004
Mensajes: 513
Antigüedad: 19 años, 8 meses
Puntos: 5
Me gustaría que para dentro de un mes podamos hacer las primeras búsquedas, luego tendremos que ir afinando las búsquedas, eso ya será entre todos. ¿ok?

El spider ya está estable, filtra, capturas páginas, extrae direcciones, identifica el idioma, cachea, identifica contenidos flash (idea de PGBWebs), última modificación y tamaño de página.

Ahora estoy con la categorización, cuasar pretende categorizar las páginas principales de cada web de manera automática, de momento ya identifica páginas porno (estoy haciendo pruebas con esto, anda que no hay en internet, uffff) y las separa.
  #12 (permalink)  
Antiguo 24/02/2005, 06:16
Avatar de magoote  
Fecha de Ingreso: agosto-2004
Ubicación: Patagonia - Argentina
Mensajes: 187
Antigüedad: 19 años, 8 meses
Puntos: 0
buenisimo, y cualquier cosa en que se pueda dar una mano ..avise nomas.
__________________
Desarrollo sitios web portales hosting Neuquen Argentina
• La imaginación es más importante que el conocimiento Albert Einstein (1879-1955)
  #13 (permalink)  
Antiguo 24/02/2005, 13:34
 
Fecha de Ingreso: octubre-2004
Mensajes: 877
Antigüedad: 19 años, 6 meses
Puntos: 2
y cuasar.com esta planeada como negocio? como experimento?
  #14 (permalink)  
Antiguo 27/02/2005, 03:57
 
Fecha de Ingreso: agosto-2004
Mensajes: 513
Antigüedad: 19 años, 8 meses
Puntos: 5
de momento cuasar es un experimiento un poco caro para mi bolsillo :(
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 12:55.