Foros del Web » Programando para Internet » PHP »

Parsear Multiples Paginas Externas

Estas en el tema de Parsear Multiples Paginas Externas en el foro de PHP en Foros del Web. Muy Buenas , hacia rato no entraba esta comunidad por tiempo :P me gusta leer aprender y ayudar de vez en cuando en lo que ...
  #1 (permalink)  
Antiguo 31/08/2007, 09:26
Avatar de dopon  
Fecha de Ingreso: julio-2005
Ubicación: Cucuta / Colombia
Mensajes: 493
Antigüedad: 18 años, 9 meses
Puntos: 1
Parsear Multiples Paginas Externas

Muy Buenas , hacia rato no entraba esta comunidad por tiempo :P me gusta leer aprender y ayudar de vez en cuando en lo que se pueda, pero ahora soy yo el que necesito una manito.

Mi situacion es la siguiente, hay una pagina llamemosla : www.articulos.com la cual contiene 15000 articulos cada uno se muestra en una ventana y tiene la informacion y un enlace llamado siguiente que va al articulo que le sigue y asi sucesivamente hasta el articulo 15000 sonde el enlace siguiente ya no existe.

Yo tengo buenos conocimientos en el parseo del archivo y ya puedo extraer la informacion que necesito :

Nombre
Precio

y el enlace del siguiente articulo

lo que no se es como hacer para dejar ejecutando en el servidor esto y que recorra de auno por uno he pensado dos opciones :

1. aumentar el MAX_EXECUTION_TIME de la configuracion del php y la memoria permitida y dejar ejecutando esto de forma tal que alcance a recorrer los 15000 registros . lo que no se es si aguante el servidor.

2 crear un sh y en el hacer un ciclo de 1 a 15000 donde lea la pagina y retorne el id del siguienet articulo leido del enlace "siguiente" y vuelva a ejecutar otro script con ese parametro .

la primera se hacerla pero creo que no es la mas optima para el servidor.

la segunda creo que aunque demore mas en finalizar el proceso el servidor trabajara mas descansado.

mi idea es al parsear , los datos que necesito añadirlos en la linea final d eun fichero llamado prod.txt que este en el servidor.

tengo una conexion de 100mbps y :

Intel \ 2.4 Ghz \ P4 Celeron
Seagate \ 80GB:SATA:7200RPM Barracuda
Generic \ 512 MB \ DDR 400 ECC
CentOS Enterprise Linux - OS ES 4.0


espero poder hacer esto pronto y si alguien me recomienda la opcion 2 podrian ayudarme a idear el sh
  #2 (permalink)  
Antiguo 31/08/2007, 10:21
Avatar de nicolaspar  
Fecha de Ingreso: noviembre-2004
Ubicación: Villa Ballester Bs-As|Ar
Mensajes: 2.002
Antigüedad: 19 años, 5 meses
Puntos: 34
Re: Parsear Multiples Paginas Externas

oaa dopon!, yo voy por la opción 2, lo que no comprendo es a que llamas "sh".

Como sea, la idea es que la pagina se auto llame, ej:

1- petición 1, levanto el id del producto, si no lo tengo llamo al listado, si lo tengo llamo al detalle de ese id.
2- parseo contenido obtengo el id del siguiente producto
3- Llamo a esta pagina pasando este id volviendo al paso 1. Esta llamada la podes hacer mediante js (window.location), o si podes un header("Location...").

Comprendí lo que necesitas o fui para cualquier lado?
__________________
Mi punto de partida es Que Bueno Lo Nuevo
  #3 (permalink)  
Antiguo 31/08/2007, 10:36
Avatar de dopon  
Fecha de Ingreso: julio-2005
Ubicación: Cucuta / Colombia
Mensajes: 493
Antigüedad: 18 años, 9 meses
Puntos: 1
Re: Parsear Multiples Paginas Externas

Ehmmm me refiero a un proceso por lotes en linux para dejarlo ejecutando remotamente en un servidor dedicado, claro que tu opcion no se me habia pasado y suena tb interesante :P.

Ahora que te aclare lo del sh si me entendes :P si hay forma? se puede hacer un ciclo de 1 a 1500 mediante algun comando ?

el algoritmo que planteo es algo asi :

ciclo de 1 a 1500
{
ejecuto comando "php parsear.php"
}
fin de ciclo

eso es todo lo que necesito

o no se si haya otra opcion
  #4 (permalink)  
Antiguo 31/08/2007, 11:55
Avatar de nicolaspar  
Fecha de Ingreso: noviembre-2004
Ubicación: Villa Ballester Bs-As|Ar
Mensajes: 2.002
Antigüedad: 19 años, 5 meses
Puntos: 34
Re: Parsear Multiples Paginas Externas

Yo lo he ejecutado mediante un cron y lo que hacia era una primera llamada y luego el archivo se auto paginaba.

El cron lo generaba así:
Obviamente siempre hablando de php.

Cualquier cosa pregunta y veo si puedo darte alguna data que te ayude.
__________________
Mi punto de partida es Que Bueno Lo Nuevo
  #5 (permalink)  
Antiguo 31/08/2007, 14:00
Avatar de dopon  
Fecha de Ingreso: julio-2005
Ubicación: Cucuta / Colombia
Mensajes: 493
Antigüedad: 18 años, 9 meses
Puntos: 1
Re: Parsear Multiples Paginas Externas

oye la idea tuya del javascript me cayo super :D ya voy en el registro 3000 y llevo una hora :P espero en 4 horitas tener el resultado final
  #6 (permalink)  
Antiguo 31/08/2007, 14:10
Avatar de nicolaspar  
Fecha de Ingreso: noviembre-2004
Ubicación: Villa Ballester Bs-As|Ar
Mensajes: 2.002
Antigüedad: 19 años, 5 meses
Puntos: 34
Re: Parsear Multiples Paginas Externas

Me alegra mucho!!!, y si, es sumamente importante dividir este tipo de procesos gigantes ;)

Saludos.
__________________
Mi punto de partida es Que Bueno Lo Nuevo
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 10:52.