Foros del Web » Programando para Internet » PHP »

Buscar URLs en páginas web

Estas en el tema de Buscar URLs en páginas web en el foro de PHP en Foros del Web. Hola, necesito extraer todas las urls de una web, por ejemplo h t t p : / / w w w . google.com.ar/index.html Código PHP: ...
  #1 (permalink)  
Antiguo 11/03/2007, 10:17
Avatar de marcolandia  
Fecha de Ingreso: febrero-2007
Ubicación: En mi hermosa nación Arge
Mensajes: 107
Antigüedad: 17 años, 2 meses
Puntos: 2
Buscar URLs en páginas web

Hola, necesito extraer todas las urls de una web, por ejemplo h t t p : / / w w w . google.com.ar/index.html
Código PHP:
<?
$a
=fopen("h t t p : / / w w w . google.com.ar/index.html","r");

while(
feof($a)=="0"){
$caracter=fread($a,1);
if(
$caracter=="h" and fread($a,6)=="ttp://"){
while(
$caracter!="\""){
$caracter=fread($a,1);
echo 
$caracter;}
echo 
"<br/>";}}
?>
lo que debería hacer es imprimir todas las ulrs que alla en la página, pero no imprime todas...¿Dónde puede está el error?
gracias de antemano
  #2 (permalink)  
Antiguo 11/03/2007, 10:38
Avatar de DeeR  
Fecha de Ingreso: diciembre-2003
Ubicación: Santiago
Mensajes: 520
Antigüedad: 20 años, 4 meses
Puntos: 17
Re: Buscar URLs en páginas web

No he mirado tu codigo (ya que toy en un sistema sin interprete php), mas rato lo vere en mi PC.

Aqui tengo un Articulo llamado Bot spiderWeb , el cual es un bot que navega en los sitios web, captura las palabras y los URL (dichas URL luego las guarda en una base de datos), para luego seguir navegando en las URL guardadas en la Base de Datos.

Bot SpiderWeb PHP Es el que utilizo en mi proyecto Md5search (buscar palabras por los sitios y capturarle su hash md5).

Lo otro que te puede servir para parsear codigo HTML, es utilizar expresiones regulares, aqui tengo un tips q te puede ayudar en esto Tips Expresiones Regulares


Saludos
  #3 (permalink)  
Antiguo 11/03/2007, 14:02
Avatar de marcolandia  
Fecha de Ingreso: febrero-2007
Ubicación: En mi hermosa nación Arge
Mensajes: 107
Antigüedad: 17 años, 2 meses
Puntos: 2
Re: Buscar URLs en páginas web

gracias!! con toda esa info mejoro un montón los scripts!
tanks
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 02:25.