Foros del Web » Programación para mayores de 30 ;) » Programación General »

como hacen ciertas webs para hacer scraping. Duda existencial.

Estas en el tema de como hacen ciertas webs para hacer scraping. Duda existencial. en el foro de Programación General en Foros del Web. Hola amigos del foro! Me gustaría saber como hacen ciertas web para poder hacer scraping en infinindad de páginas ya sea para obtener los precios ...
  #1 (permalink)  
Antiguo 10/12/2016, 05:14
 
Fecha de Ingreso: julio-2012
Mensajes: 81
Antigüedad: 11 años, 8 meses
Puntos: 3
como hacen ciertas webs para hacer scraping. Duda existencial.

Hola amigos del foro!

Me gustaría saber como hacen ciertas web para poder hacer scraping en infinindad de páginas ya sea para obtener los precios de ciertos productos o conseguir una información importante.

El scraping se lo hacen directamente a Google o a la página que interesa??? Esto último me parece una locura ya que si hay mil páginas no vas crear un código de scraping para cada una de ellas y no solo eso... Las complicaciones que puede acarrear como que la página cambie de estructura..., aparezcan nuevas webs, se den de baja otras...

Que lenguaje de programación se suele utilizar para hacer el scraping? PHP, C#, Phyton..???

Gracias por vuestra futura ayuda y un saludo.
  #2 (permalink)  
Antiguo 12/12/2016, 02:17
Avatar de Malenko
Moderador
 
Fecha de Ingreso: enero-2008
Mensajes: 5.323
Antigüedad: 16 años, 3 meses
Puntos: 606
Respuesta: como hacen ciertas webs para hacer scraping. Duda existencial.

Los grandes comparadores de precios/productos suelen usar APIs para obtener los datos.

En cualquier caso, para hacer web scrapping has de conocer la página de la que quieres extraer los datos para saber como encontrar la información que necesitas. Suelen haber librerías para ayudar en esta labor. Obviamente no has de multiplicar tu trabajo por cada web diferente que quieras escanear. Yo en estos casos suelo montar un motor básico (genérico) y luego genero clases hijas que añaden las particularidades. Luego el programa las carga como si se tratasen de "plugins" (de forma que puedo añadir más sin necesidad de recompilar el programa principal).

Sobre el lenguaje de programación se puede usar casi cualquiera. Yo personalmente uso C# porque me permite hacer Servicios Windows que trabajen de fondo y usando multithreading. Pero también hay quien lo hace en Java, PHP, ...
__________________
Aviso: No se resuelven dudas por MP!

Etiquetas: webs
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 08:52.