Foros del Web - Ver Mensaje Individual - ¿Se puede detectar el uso de file_get_contents?

perryjr · #15 (**permalink**) 21/07/2011, 08:05

cURL es un gigante comparado a una hormiga llamada file_get_contents() Las opciones son inacabables.

Un crawler hace esto:

1. Pide la pagina
2. Analiza la página y guarda los enlaces en una base de datos
3. Se prepara para ejecutar código que te digo yo, en cinco minutos ponle.
4. 5 minutos después, coge un enlace de la lista, y volvemos al paso 1

Algunos todavía no se han enterado de que existe el paso 3 =D Incluso en Google, el tiempo del paso tres es variable, y depende del tiempo que tarde tu pagina en responder, de lo famosa que sea, y de lo que tu configures en:
http://www.google.com/webmasters/tools

Respecto a lo de robots.txt, evidentemente que es un simple documento que te da la opinión del administrador, pero nadie te pone una pistola en la cabeza para que lo obedezcas. Si tu eres el administrador y lo que quieres es restringir el acceso a cierta parte del sitio, tienes que ser activo, es decir ponerlo en robots.txt no impide nada. Tienes que escribir código para que cada vez que pidan una página restringida, se comprueben los permisos del usuario antes de enviarla. Piensa siempre que tu lo unico que controlas de verdad es tu servidor. El navegador, las peticiones, las respuestas etc están fuera de tu control, y en la mano de usuarios/posibles hackers/programadores malintencionados.

Con respecto a eBay, aquí esta la documentación, lo único que no sé es si tienen versión en español:
http://developer.ebay.com/
Ellos te dan URLs a las que tu accedes y te dan datos formateados especialmente (XML, JSON, ...) para que tu los puedas leer facilmente y hacer lo que quieras con ellos (almacenarlos en una base de datos...)

Vaya parrafada, lo siento que me haya salido tan largo :( Hablo mucho!