Ver Mensaje Individual
  #6 (permalink)  
Antiguo 13/09/2004, 09:57
frijolerou
 
Fecha de Ingreso: diciembre-2003
Mensajes: 1.583
Antigüedad: 20 años, 4 meses
Puntos: 13
Ah bueno, entonces en mi caso el termino adecuado no seria "spider"

Bueno de partida, conozco varias de los buscadores que tienen en hotscripts, sourceforge y freashmeat. Pero el que estoy haciendo no e spara ningun cliente, sino que lo aprovecho para estudio y practica, y si al final resulta que quedo bueno, lo podria dejar para ofrecerlo :D

Entonces, no es "spider" jajaja... lo que hace este buscador es, cuando se solicita una busqueda, recorrer los directorios y subdirectorios de un sitio web (usando opendir,readdir,etc), y cuando encuentra un archivo permitido (filtro la busqueda a un determinado tipo de archivos, y bloqueo algun archivo en especifico si lo necesito) mediante un file() lee linea por linea su contenido y va buscando si en alguna hay coincidencia con la palabra o frase buscada, y voy imprimiendo el listado de archivos donde se encuentras los resultados.

El problema de esto es que en el caso de los archivos htm, php, asp, etc... lo que lee es el codigo fuente, y es por eso que tambien esta considerando el contenido que se encuentre entre <? y ?>

La primera "solucion" que me sugirieron fue que durante el file() detectara estos tags y omitira todo lo que se encuentra entre ellas.

Luego pense, lo que necesito para que no leyera el codigo php es poder hacer un file() con la url absoluta ej. file("http://www.sitio.com/archivo.htm"). Eso me funciono perfectamente. Entonces me puse a pensar, como realizar el opendir() a etas url absolutas, y ahora me vengo a dar cuenta mientras escribo este post, es que no necesito usar la url absoluta en el opendir(), sino que directamente en el file(), lo acabo de probar y me funciono correctamente jajajajjajaa (que cosas no?) :P

asi que ahora sigue esta logica:

<?php
blablabla
opendir(".");
etc etc etc
file("http://www.sitio.com/$filefound");
etc etc etc...
?>

de esta forma lo que lee es el codigo fuente tal como se veria en el "view source" de los navegadores y evito que lea los <? ?> del codigo fuente.


Como te decia, toi usando este buscador como "conejillo de indias" pa estudiar y practicar, he ido avanzando harto y espero con el transcurso de los dias poder implementarle mas funciones... paginacion de resultados, que pueda leer PDF, DOC, etc (pk ahora solo lee archivos de texto plano).
__________________
El conocimiento es libre: Movimiento por la Devolución