Foros del Web » Programando para Internet » PHP »

como empezar spider

Estas en el tema de como empezar spider en el foro de PHP en Foros del Web. Hola gente como estamos ??. estoy buscando por google algún tipo de información para poder empezar un proyecto personal que me he propuesto; se trata ...
  #1 (permalink)  
Antiguo 20/06/2009, 12:07
Avatar de Dundee  
Fecha de Ingreso: junio-2002
Ubicación: El Médano
Mensajes: 1.310
Antigüedad: 21 años, 10 meses
Puntos: 8
como empezar spider

Hola gente como estamos ??. estoy buscando por google algún tipo de información para poder empezar un proyecto personal que me he propuesto; se trata de un spider que entre en determinadas webs y siga las Url siguiendo unos patrones (como puede ser el title de los href o el ALT de las etiquetas IMG por ejemplo), patrones definidos por mi lógicamente.

El tema es que necesito crear un spider que rastré el código fuente (no lo que veen los usuarios sino el código puro y duro) y no tengo ni idea por donde empezar. No busco que nadie me de la solución mágica para hacerlo, pero quizás si algún tipo de referenacia a manual, tutorial, o libro que explique este tema.

Mis conocimientos en php no son malos, pero nunca he tocado el tema de los spiders y por eso pido orientación al respecto.

Despúes de haber googleado un buen rato he encontrado muchas cosas pero nada que explicara lo que necesito o algo que se le pareciera, lo que si he visto es un enlace a como no php.net.
http://www.php.net/manual/es/ref.curl.php

Pero no tengo muy claro que para programar el spider usar esas librerias CURL sea lo más aconsejable , ¿lo es?, ¿debo programar mi spider con las librerias CURL?.

Un saludo y gracias de antemano.
  #2 (permalink)  
Antiguo 20/06/2009, 12:31
Avatar de Ronruby  
Fecha de Ingreso: julio-2008
Ubicación: 18°30'N, 69°59'W
Mensajes: 4.879
Antigüedad: 15 años, 9 meses
Puntos: 416
Respuesta: como empezar spider

Talvez esta clase te ayude,
http://www.forosdelweb.com/f18/aport...as-web-574722/

Espero que tu spider no sea para enviar spam ni nada de eso. -_- Usualmente por eso a los usuarios del foro no les gusta responder en este tipo de mensajes.
  #3 (permalink)  
Antiguo 20/06/2009, 12:32
Avatar de pateketrueke
Modernizr
 
Fecha de Ingreso: abril-2008
Ubicación: Mexihco-Tenochtitlan
Mensajes: 26.399
Antigüedad: 16 años
Puntos: 2534
Respuesta: como empezar spider

puedes usar sockets también... o hasta file_get_contents()

el caso es que no importa con que lo hagas, el objetivo básico es leer URLs (sin importar con que o como)

eso es lo sencillo...

lo complicado es leer los atributos, establecer algoritmos de semántica... no se, hay mas cosas por las cuales preocuparse...

aunque un spider no se debe ejecutar vía Web, quizá eso es algo que no has pensando....

por ultimo, se me ocurre que puedes usar htmlSQL para empezar algo....


suerte!
__________________
Y U NO RTFM? щ(ºдºщ)

No atiendo por MP nada que no sea personal.
  #4 (permalink)  
Antiguo 21/06/2009, 02:52
Avatar de Dundee  
Fecha de Ingreso: junio-2002
Ubicación: El Médano
Mensajes: 1.310
Antigüedad: 21 años, 10 meses
Puntos: 8
Cita:
Iniciado por Ronruby Ver Mensaje
Espero que tu spider no sea para enviar spam ni nada de eso. -_- Usualmente por eso a los usuarios del foro no les gusta responder en este tipo de mensajes.
No se que tiene que ver el SPAM para querer crear un spider pero bueno... mis intenciones desde luego no son esas, solo pretendo poder leer el código fuente (no el resultado de interpretarlo) de las páginas , como enlaces , atributos alt de las imágenes etc etc... para otros propositos totalmente legales.
Un saludo

Cita:
Iniciado por pateketrueke Ver Mensaje
lo complicado es leer los atributos, establecer algoritmos de semántica... no se, hay mas cosas por las cuales preocuparse...
Hola, no se que quieres decir con eso , el tema es que yo necesito leer el código, atributos ,etiquetas etc etc.. de nada me sirve que haya cosas más importantes porque para mi lo más importante es lo que quiero poder leer, no el resultado del navegador sino el código fuente de la página(html logicamente).
He encontrado gracias a tu enlace esto que parece si se asemeja a lo que yo buscaba:
http://www.elholgazan.com/2008/04/htmlsql.html

Un saludo y gracias .

Última edición por GatorV; 21/06/2009 a las 10:19
  #5 (permalink)  
Antiguo 21/06/2009, 11:21
Avatar de Ronruby  
Fecha de Ingreso: julio-2008
Ubicación: 18°30'N, 69°59'W
Mensajes: 4.879
Antigüedad: 15 años, 9 meses
Puntos: 416
Respuesta: como empezar spider

Cita:
Hola, no se que quieres decir con eso , el tema es que yo necesito leer el código, atributos ,etiquetas etc etc.. de nada me sirve que haya cosas más importantes porque para mi lo más importante es lo que quiero poder leer, no el resultado del navegador sino el código fuente de la página(html logicamente).
Cuando dice que hay mas cosas por las cuales preocuparse, se refiere a COMO lo vas a hacer, no a si vas a obtener X o Y cosa de una pagina.

¿Y a que te refieres con que no quieres el resultado del navegador? Huh? Solo el codigo HTML de la pagina ... :S

Cita:
No se que tiene que ver el SPAM para querer crear un spider pero bueno
-_-" Si hago un spider para que recorra paginas en busca de direcciones web para enviarles basura, ¿eso no es spam?
  #6 (permalink)  
Antiguo 21/06/2009, 11:26
Avatar de Dundee  
Fecha de Ingreso: junio-2002
Ubicación: El Médano
Mensajes: 1.310
Antigüedad: 21 años, 10 meses
Puntos: 8
Respuesta: como empezar spider

Cita:
Iniciado por Ronruby Ver Mensaje

-_-" Si hago un spider para que recorra paginas en busca de direcciones web para enviarles basura, ¿eso no es spam?
Haber me explico mejor , primeramente los emails suelen estar en bases de datos no en el código fuente (¿no?) , pero aú así no pretendo enviar spam a nadie sino que se trata de un trabajo para la facultad, necesito leer el código fuente eso es todo, atributos , etc etc...

Un saludo
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 06:22.