Foros del Web » Programando para Internet » PHP »

'Descargar' código fuente de una web

Estas en el tema de 'Descargar' código fuente de una web en el foro de PHP en Foros del Web. Buenas gente! Sabéis alguna forma de descargar todo el código fuente de una pagina web? Osea,q x ejemplo introduzcas una URL y te baje el ...
  #1 (permalink)  
Antiguo 21/01/2005, 08:06
Avatar de renton  
Fecha de Ingreso: enero-2004
Ubicación: BCN (PPCC)
Mensajes: 573
Antigüedad: 13 años, 10 meses
Puntos: 1
'Descargar' código fuente de una web

Buenas gente!

Sabéis alguna forma de descargar todo el código fuente de una pagina web?
Osea,q x ejemplo introduzcas una URL y te baje el

<html>
<head>
....
....
....
....
</head>
</body>

de la página en cuestión.
El objetivo como os podéis imaginar es parsearlo posteriormente.

Gracias!!!!
__________________
"No et limites a contemplar aquestes hores que ara venen, baixa al carrer i participa.
No podran res davant un poble unit, alegre i combatiu!!"
  #2 (permalink)  
Antiguo 21/01/2005, 10:19
Avatar de ignacio_giri  
Fecha de Ingreso: febrero-2003
Ubicación: Argentina, Rosario
Mensajes: 585
Antigüedad: 14 años, 9 meses
Puntos: 0
Bueno, te comento que eso es netamente casi imposible "descargar" una pagina y luego parsearla totalmente como venga, y más si son sitios programados por ejemplo con PHP, porque son lenjuajes del lado del servidor y cuando los "descargas" estas viendo un HTML generado.

No se si la solucion que te voy a dar, pero en cualquier explorador, te vas a Archivo > Guardar como > pagina completa, y ahi tenes todo el sitio guardo con imagenes y todo.

La verdad que a mi, hacer eso no me ha servido de nada por ahora.

Un Saludo,
__________________
Ignacio
  #3 (permalink)  
Antiguo 21/01/2005, 13:57
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Tal vez lo que te hace falta especificar es si lo que quieres obtener es el HTML/etc generado tras una petición a una página tipo http://www.tal.ta/nose.tal .. o realmente el "código fuente" de ese -por ejemplo- nose.php (con sus <? .. código php ?> y demás)

Si quieres "parsear" lo que resulta de la ejecución de una página (sea .html .. .php .asp .jsp .pl .. o lo que sea) .. puedes usar el control del buffer de PHP para leer tu página (insisto: el resultado) hacia una variable .. que posteriormente tu trabajaras como una "cadena" mas para "parsearla".

Código PHP:
<?
ob_start
();
readfile("el URL de la pagina");
$html=ob_get_contets()
ob_end_flush();

// y con tu $html .. ya lo procesas como un string cualquiera.
?>
Un saludo,
  #4 (permalink)  
Antiguo 22/01/2005, 12:50
Avatar de renton  
Fecha de Ingreso: enero-2004
Ubicación: BCN (PPCC)
Mensajes: 573
Antigüedad: 13 años, 10 meses
Puntos: 1
Perfecto Cluster, es exactamente lo que buscaba!!
GraciasSsS!!!
__________________
"No et limites a contemplar aquestes hores que ara venen, baixa al carrer i participa.
No podran res davant un poble unit, alegre i combatiu!!"
  #5 (permalink)  
Antiguo 22/01/2005, 13:19
 
Fecha de Ingreso: junio-2003
Ubicación: Valencia
Mensajes: 334
Antigüedad: 14 años, 5 meses
Puntos: 0
Una pregunta sobre el tema y perdonar mi ignorancia:
¿Que es exactamente "parsear un pagina"??
__________________
http://reunga.com
Desarrollo de aplicaciones informáticas
  #6 (permalink)  
Antiguo 23/01/2005, 14:27
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Cita:
Iniciado por kavalerian
Una pregunta sobre el tema y perdonar mi ignorancia:
¿Que es exactamente "parsear un pagina"??
Tomar su "còdigo" (el HTML/javascript .. etc y contenido en sì) para "procesarlo" .. Ese "proceso" normalmetne se hace para "quitar el HTML/javacript" y quedarte con el "contenido en sí" de tu página .. o algùn dato concreto que está localizado en la página por algùn factor (tal vez entre tal tag HTML .. al leerlo en tal linea y zona .. etc). Esto último serìa el "parseado" mas o menos.

Un saludo,
  #7 (permalink)  
Antiguo 23/01/2005, 23:46
Avatar de suncreative  
Fecha de Ingreso: octubre-2004
Ubicación: Reynosa, Tamaulipas
Mensajes: 47
Antigüedad: 13 años, 1 mes
Puntos: 0
no se si alguien utilice linux, pero hay un pequeño programa que es el wget el cual obtiene toda la informacion de una direccion ke le pongas.... ya sea http://www.cualquierpagina.com/ o http://www.cualquierpagina.com/algunaseccion.??? pero tambien existe tal para windows... te recomiendo busques wget y cheka como utilizarlo...

nos vemos...
__________________
Las cosas no siempre salen como uno quiere... pero tenemos que intentar que salgan lo mejor posible... :-)
  #8 (permalink)  
Antiguo 24/01/2005, 05:49
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Cita:
Iniciado por suncreative
no se si alguien utilice linux, pero hay un pequeño programa que es el wget el cual obtiene toda la informacion de una direccion ke le pongas.... ya sea http://www.cualquierpagina.com/ o http://www.cualquierpagina.com/algunaseccion.??? pero tambien existe tal para windows... te recomiendo busques wget y cheka como utilizarlo...

nos vemos...
El problema de usar esos comandos própios del S.O. es ese mismo ... hace que dependas del S.O. usado en el servidor y que tengas permisos para ejecutar comandos en el mismo (exec() .. etc) .. Esto a veces no es posible sobre todo en configuraciones de PHP tipo "safe_mode" a ON ... (módo seguro).

Por otro lado .. es cierto que la ejecución de un comando o aplicación de ese estilo por parte del S.O. del servidor será más eficiente que hacerlo vía "PHP" ("interpretado").

Un saludo,
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 21:22.