Ver Mensaje Individual
  #1 (permalink)  
Antiguo 31/08/2007, 09:26
Avatar de dopon
dopon
 
Fecha de Ingreso: julio-2005
Ubicación: Cucuta / Colombia
Mensajes: 493
Antigüedad: 18 años, 10 meses
Puntos: 1
Parsear Multiples Paginas Externas

Muy Buenas , hacia rato no entraba esta comunidad por tiempo :P me gusta leer aprender y ayudar de vez en cuando en lo que se pueda, pero ahora soy yo el que necesito una manito.

Mi situacion es la siguiente, hay una pagina llamemosla : www.articulos.com la cual contiene 15000 articulos cada uno se muestra en una ventana y tiene la informacion y un enlace llamado siguiente que va al articulo que le sigue y asi sucesivamente hasta el articulo 15000 sonde el enlace siguiente ya no existe.

Yo tengo buenos conocimientos en el parseo del archivo y ya puedo extraer la informacion que necesito :

Nombre
Precio

y el enlace del siguiente articulo

lo que no se es como hacer para dejar ejecutando en el servidor esto y que recorra de auno por uno he pensado dos opciones :

1. aumentar el MAX_EXECUTION_TIME de la configuracion del php y la memoria permitida y dejar ejecutando esto de forma tal que alcance a recorrer los 15000 registros . lo que no se es si aguante el servidor.

2 crear un sh y en el hacer un ciclo de 1 a 15000 donde lea la pagina y retorne el id del siguienet articulo leido del enlace "siguiente" y vuelva a ejecutar otro script con ese parametro .

la primera se hacerla pero creo que no es la mas optima para el servidor.

la segunda creo que aunque demore mas en finalizar el proceso el servidor trabajara mas descansado.

mi idea es al parsear , los datos que necesito añadirlos en la linea final d eun fichero llamado prod.txt que este en el servidor.

tengo una conexion de 100mbps y :

Intel \ 2.4 Ghz \ P4 Celeron
Seagate \ 80GB:SATA:7200RPM Barracuda
Generic \ 512 MB \ DDR 400 ECC
CentOS Enterprise Linux - OS ES 4.0


espero poder hacer esto pronto y si alguien me recomienda la opcion 2 podrian ayudarme a idear el sh