Foros del Web » Programando para Internet » PHP »

¿Que puedo mirar en google para crear un buscador (robot) basico de webs?

Estas en el tema de ¿Que puedo mirar en google para crear un buscador (robot) basico de webs? en el foro de PHP en Foros del Web. Hola. Bueno, no sabia si ponerlo aqui en PHP, en Java, o en donde... La cosa es que dentro de x tiempo queria hacer el ...
  #1 (permalink)  
Antiguo 26/10/2005, 16:27
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 12 años, 1 mes
Puntos: 1
¿Que puedo mirar en google para crear un buscador (robot) basico de webs?

Hola.

Bueno, no sabia si ponerlo aqui en PHP, en Java, o en donde...

La cosa es que dentro de x tiempo queria hacer el proyecto en la carrera, y como no tengo ni idea de que puedo hacer estaba intentando mirar haber el tema de hacer un mini-robot o mini-buscador para webs, o un mini-testeador de accesibilidad web o testeador de html o xhtml...

¿Sabeis como poder buscar documentos, webs, etc... que hablen de algun tema de esos? un poco explicando haber como obtener el codigo de paginas, como encontrar paginas, etc...


cualquier informacion acerca de cualquier tema me serviria.


merci
  #2 (permalink)  
Antiguo 26/10/2005, 17:29
Avatar de Master Solution  
Fecha de Ingreso: octubre-2005
Mensajes: 51
Antigüedad: 12 años, 2 meses
Puntos: 1
Busca informacion sobre sockets.

Y de seguro vas a necesitar saber algo de expresiones regulares.

Pero nose si te convendria hacerlo en PHP.
__________________
-=[ 3KLabs ]=-
-=[ Diseño - Programación - Desarrollo ]=-
-=[ Posicionamiento en Buscadores ]=-
-=[ Hosting de Calidad ]=-
  #3 (permalink)  
Antiguo 26/10/2005, 17:55
Avatar de marianocovatti  
Fecha de Ingreso: agosto-2005
Mensajes: 17
Antigüedad: 12 años, 4 meses
Puntos: 0
Hola, paso a comentarte. Para una materia de la facu (sist. distribuidos) tengo que hacer para dentro de 3 semanas un trabajo de google. Basicamente 3 puntos:
como hace google para obtener las paginas a indexar (o sea, como trabaja el robot, que es lo que busca, etc)
donde es que se guarda todos los datos que va obteniendo y como
y por ultimo, como se recupera esta informacion al momento en que un usuario inicia una busqueda...
Me gustaria que si averiguas algo me lo comentes, porque mas o menos estamos en la misma creo. yo te dejo mi mail, [email protected], escribime asi yo tb lo que averigue despues te lo comento
  #4 (permalink)  
Antiguo 26/10/2005, 21:19
Avatar de Master Solution  
Fecha de Ingreso: octubre-2005
Mensajes: 51
Antigüedad: 12 años, 2 meses
Puntos: 1
Pero entonces no necesitas hacer el robot en si, sino que describir su funcionamient, si te entendi bien.

Sin entrar en demasiados detalles, el robot va "navegando" la web y guardando todo lo que encuentra, todos los datos, nose, calculo que los tiene en enormes bases de datos, super optimizadas, con grandes caches, y bostas de cosas que ni podria imaginar.

Y cuando un usuario busca una palabra, la busca en la base de datos, y si aparece, presenta los resultados.

Asi por arriba es muy sencillo el funcionamiento, pero si es esto lo que tenes que hacer hay muchisima info. Busca tambien sobre el algoritmo de PageRank que usa para darle un "puntaje" a cada sitio web, etc.

Creo que lo que tenes que hacer es recopilar informacion, y no hacer un robot en si, ya que sino no te estarian hablando de google especificamente, sino de robots, spiders, etc.

Sino, no te entendi.
__________________
-=[ 3KLabs ]=-
-=[ Diseño - Programación - Desarrollo ]=-
-=[ Posicionamiento en Buscadores ]=-
-=[ Hosting de Calidad ]=-
  #5 (permalink)  
Antiguo 27/10/2005, 09:15
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 12 años, 1 mes
Puntos: 1
jeje, no no, MasterSolution, yo si que tengo que hacer eso. Vamos, mas que tener que hacer, que me gustaria hacer algo del estilo para el proyecto.

Por encima si se en lo que se basa los robot y como funciona el pagerank,o por lo menos como funcionaba hasta hace tiempo.

Pero para implementar algo del estilo no se como buscarlo.
  #6 (permalink)  
Antiguo 27/10/2005, 09:35
Avatar de Takitei  
Fecha de Ingreso: septiembre-2004
Ubicación: Venezuela
Mensajes: 1.231
Antigüedad: 13 años, 2 meses
Puntos: 5
Hola,

Crear el buscador que encuentre los sitios indexados en la base de datos es fácil. Pero crear el crawler que indexa las páginas y las introduce en la base de datos... uff... esto si que es dificil. Google usa una mezcla de 2 lenguajes primarios en sus sistemas: PHP y Phyton (creo que es Phyton).

Por lo tanto, podrías desarrollar para tu proyecto un buscador que encuentre páginas alojadas en una base de datos. Pero hacer el crawler no creo que sea posible ya que necesitarías un equipo de trabajo y conocimientos profundos de desarrollo en PHP y lenguajes de plataforma.

Muchos saludos!
__________________
Takitei
Ingeniarte.com
DannyHerran.com
"Dadme un punto de apoyo y moveré la tierra" - Arquímedes.
  #7 (permalink)  
Antiguo 27/10/2005, 12:06
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 12 años, 1 mes
Puntos: 1
¿Y como se puede analizar el codigo de un documento o pagina en internet?

vamos, quiero decir, a partir de http://www.miweb.com/doc.html ,como puedo obtener el codigo para de ahi sacar los enlaces que tenga, las palabras que mas usa,etc...

Porque otra idea, seria almacenar en una base de datos (de nombre "direcciones") unas direcciones web iniciales y a partir de ahi,incluirla segun el contenido que se analice dandole mi propio mini-rank que me haga, y a la vez a su vez cojer los enlaces que tenga para almacenarlos en la base de datos "direcciones" y asi recursivamente aumentar esa base de datos con muchas paginas analizadas.

¿SE podria hacer enphp? ¿y java?
  #8 (permalink)  
Antiguo 27/10/2005, 12:11
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 12 años, 1 mes
Puntos: 1
vamos, la idea que has dixo antes. Que puedo buscar para implementar esas opciones?
  #9 (permalink)  
Antiguo 27/10/2005, 12:30
Avatar de turco_7  
Fecha de Ingreso: diciembre-2003
Ubicación: Córdoba, Argentina
Mensajes: 1.044
Antigüedad: 14 años
Puntos: 19
heeee que lindo tema !!!

bueno paso con mi aporte

Hace un par de años, cuando empeze a estudiar analista en sistema, tenia un profesor, que todos los ejercicios que nos daba, era necesario aplicar la logica, hicimos una gran cantidad de ejemplos, todos en Visual C++ 6.0 que en realidad el lenguaje podria decir que no es muy importante... (despues explico porque !!!)

Uno de los script que hicimos, fue para contar palabras de un documento, en este caso un txt, contar caracteres, contar espacios en blancos, etc, pero lo mas lindo era buscar palabras dentro del documento txt, y es ahi donde se puede empezar, (Estuve buscando mis ejemplos, y no los encontre) hasta ahi barbaro ..

Otro dia navegando por la web, encontre un programa en Visual Basic, que me daba el codigo fuente de una web, y en realidad es una tontera... en fin ..

Alguna ves tambien se me ocurrio hacer una especie de buscador, o spider, y lo pense de la sieguiente manera ... con el programa en VB empiezo recorriendo un sitio, el codigo fuente lo guardo en un txt, terminado esto, corremos el programa en VC++, que va a buscar todos las pabras que tengan el siguiente formato [ <a href="aaa.bbb">aaabbb</a> ] una ves encontrado esto, tomamos las palabras que estan entre las dos primeras comillas, que vendria a ser el vinculo, luego lo almacenamos en una DB, o en un txt direcciones. al programa de visual basic, le podemos poner un timer para que revise el txt direcciones o bien la DB, y que valla tomando las ultimas direcciones que se han agregado, y a su ves ir guardando de alguna forma las direcciones que visitamos ...cuando el programa en VB empieza a navegar por la nueva web, este proceso se iniciaria de nuevo.

Porque a veces no es importante en que lo programamos ?? simple, porque si tenes la logica, y sabes usar otro lenguaje, tranquilamente lo podes hacer, pero si te pasa que en el otro lenguaje no existen las funciones que existian en VC++, mejor para vos, tranquilamente las podes hacer....

Bueno, esta es mi logica, espero que funcione, y que alguien este de acuerdo... si no es asi bienvenidas sean las nuevas ideas ...

saludos desde cordoba argentina !!!
__________________
Mi Blog http://turco7.blogspot.com
Usuario Linux : 404289
Mi última página: http://www.digitalservicecba.com.ar - Reparacion de camaras digitales!
  #10 (permalink)  
Antiguo 27/10/2005, 17:23
Avatar de Master Solution  
Fecha de Ingreso: octubre-2005
Mensajes: 51
Antigüedad: 12 años, 2 meses
Puntos: 1
Claro, y como te dije al principio, para poder obtener el codigo de una pagina en PHP, tenes que usar sockets.

Estableces la conexion al servidor, descargas y almacenas el codigo fuente, probablemente te convenga tambien eliminarle todo el codigo HTML, ya que no lo vas a necesitar para las busquedas. Aunque seria bueno que mediante expresiones regulares, ademas de obtener los links para seguir indexando, que no solo eliminaras el codigo HTML, sino que identificaras, los textos de la web a los que se le da mayor importancia, por ejemplo, si tiene un texto que ocupa la mitad de la pantalla, es obvio que el autor le quiso dar importancia a ese texto. Bueno, esos pedazos podrias reemplazarlos por tus propios tags, que te ayuden despues en la busqueda a identificar patrones importantes. De esta manera tu busqueda sera mas eficaz... o eficiente...
__________________
-=[ 3KLabs ]=-
-=[ Diseño - Programación - Desarrollo ]=-
-=[ Posicionamiento en Buscadores ]=-
-=[ Hosting de Calidad ]=-
  #11 (permalink)  
Antiguo 27/07/2006, 12:30
Avatar de elcamaleon007  
Fecha de Ingreso: julio-2004
Ubicación: Asunción - Paraguay
Mensajes: 256
Antigüedad: 13 años, 4 meses
Puntos: 0
bueno.. tal vez se hayan olvidado aclarar anteriormente que lo que hace google es recorrer las paginas y leer los METAS.. que son los tags donde se guardan las "palabras clave" de las web´s... entonces va almacenando en su base de datos estas palabras claves y al buscarlas solamente procesa dentro de su servidor y cita los links donde se encuentra dicha informacion... espero haber sido de ayuda.. saludos!
  #12 (permalink)  
Antiguo 27/07/2006, 13:50
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Cita:
Iniciado por elcamaleon007
bueno.. tal vez se hayan olvidado aclarar anteriormente que lo que hace google es recorrer las paginas y leer los METAS.. que son los tags donde se guardan las "palabras clave" de las web´s... entonces va almacenando en su base de datos estas palabras claves y al buscarlas solamente procesa dentro de su servidor y cita los links donde se encuentra dicha informacion... espero haber sido de ayuda.. saludos!
Gracias .. pero hace ya casi un año de todo esto ...

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.
  #13 (permalink)  
Antiguo 27/07/2006, 14:03
Avatar de elcamaleon007  
Fecha de Ingreso: julio-2004
Ubicación: Asunción - Paraguay
Mensajes: 256
Antigüedad: 13 años, 4 meses
Puntos: 0
como no se comento antes, y hay muucha gente, aunque no lo creas, no lo sabe, lo comento para aquellos que visitan el foro.. gracias igual por la aclaracion cluster :P
  #14 (permalink)  
Antiguo 27/07/2006, 14:17
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Cita:
Iniciado por elcamaleon007
como no se comento antes, y hay muucha gente, aunque no lo creas, no lo sabe, lo comento para aquellos que visitan el foro.. gracias igual por la aclaracion cluster :P
Si, si .. si todo aporte es bueno .. lo que pasa que este mensaje hoy en día ni corresponde a este foro de PHP pues tenemos uno especifico de "Posicionamiento y SEO" para tratar temas sobre funcionamiento de buscadores y temas afines.

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 00:59.