Foros del Web » Administración de Sistemas » Unix / Linux »

Reto: Una web que no puede ser descargada con WGET

Estas en el tema de Reto: Una web que no puede ser descargada con WGET en el foro de Unix / Linux en Foros del Web. Tengo varios sistemas que utilizan wget para consultar websites. El tema es que si intentas descargar http://www.pala.net/Empleo/Teletrabajo/ wget leerá un archivo totalmente diferente al que ...
  #1 (permalink)  
Antiguo 18/06/2010, 13:26
Avatar de reyesoft  
Fecha de Ingreso: abril-2006
Ubicación: San Rafael, Mendoza
Mensajes: 311
Antigüedad: 18 años, 1 mes
Puntos: 15
Exclamación Reto: Una web que no puede ser descargada con WGET

Tengo varios sistemas que utilizan wget para consultar websites. El tema es que si intentas descargar
http://www.pala.net/Empleo/Teletrabajo/
wget leerá un archivo totalmente diferente al que puedes ver en el link (parece que fuera otra codificación, no se bien).

He intentado con
Código:
wget
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1"
http://www.pala.net/Empleo/Teletrabajo/
pero no he tenido éxito.

¿Alguien podría decirme con qué opción probar? Un saludo y muchísimas gracias...
__________________
Pablo Reyes

Compra/venta saldos PayPal, Skrill, Neteller, Bitcoins, etc.
  #2 (permalink)  
Antiguo 19/06/2010, 16:54
 
Fecha de Ingreso: mayo-2010
Mensajes: 37
Antigüedad: 14 años
Puntos: 1
Respuesta: Reto: Una web que no puede ser descargada con WGET

Yo no he conseguido superar el reto. He estado un buen rato intentando suplantar la identidad aparentando ser un navegador pero nada, aunque he aprendido que te puedes hasta hacer pasar por un reproductor de vídeo! Este es un ejemplo retorcido de como no lo consigue...:

Código BASH:
Ver original
  1. wget -dnv --referer="http://www.google.com/" --user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/3.6.3" --header="Accept: text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" --header="Accept-Encoding: gzip,deflate" --header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" --header="Keep-Alive: 300" http://www.pala.net/

Si lo consigues postéalo que tengo curiosidad.
  #3 (permalink)  
Antiguo 20/06/2010, 17:17
 
Fecha de Ingreso: mayo-2010
Mensajes: 37
Antigüedad: 14 años
Puntos: 1
Respuesta: Reto: Una web que no puede ser descargada con WGET

¡Superé el reto!

Me conecté por telnet a la web y entonces vi que las codificaciones eran en gzip por lo que entonces te vale un simple:

Código BASH:
Ver original
  1. wget http://www.pala.net/Empleo/Teletrabajo/ && zless index.html > index.htm && mv index.htm index.html

De nada :)

Etiquetas: reto, wget
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 15:07.