Foros del Web » Programando para Internet » PHP »

Romper respuesta 403 de milanuncios

Estas en el tema de Romper respuesta 403 de milanuncios en el foro de PHP en Foros del Web. Hola, llevo varios días intentando guardar o mostrar el código de milanuncios para hacer web scraping. El código es básico pero mi intención mínima es ...
  #1 (permalink)  
Antiguo 20/08/2015, 01:19
 
Fecha de Ingreso: mayo-2006
Mensajes: 71
Antigüedad: 13 años, 5 meses
Puntos: 0
Romper respuesta 403 de milanuncios

Hola, llevo varios días intentando guardar o mostrar el código de milanuncios para hacer web scraping. El código es básico pero mi intención mínima es poder obtener el código para luego procesarlo. Supongo que milanuncios tendrá capado este tipo de servicios pero creo que habrá alguna solución ya que otros bots como el de google pueden acceder. Mi codigo basico es este:

Código PHP:
<?php


$ch 
curl_init("http://www.milanuncios.es");
curl_setopt ($chCURLOPT_RETURNTRANSFER1);
$contenido curl_exec ($ch);
curl_close ($ch);
echo 
$contenido;



?>

La respuesta es 403 Prohibido. Supuse que podrían ser problemas de cabeceras las cuales introduje pero la misma respuesta me da. ¿Me podríais encaminar un poco sobre este tema ya que se me escapa?

Muchas gracias amigos. Saludos
  #2 (permalink)  
Antiguo 20/08/2015, 02:30
Avatar de lauser
Moderator Unix/Linux
 
Fecha de Ingreso: julio-2013
Ubicación: Odessa (Ukrania)
Mensajes: 3.262
Antigüedad: 6 años, 3 meses
Puntos: 395
Respuesta: Romper respuesta 403 de milanuncios

Aparte de que lo que pretendes,,, no es nada ético. Deberias haber empezado por revisar su robots....
Código :
Ver original
  1. User-agent: *
  2. Disallow: */lugar/
  3. Disallow: */contacta/
  4. Disallow: */compartir/
  5. Disallow: */email/
  6. Disallow: */datos-contacto/
  7. Disallow: */contactos-*/
  8. Disallow: /*/*estafa*
  9. Disallow: /*/*zoofilia*
  10. Disallow: /index.php*
  11. Disallow: /*.php*
  12. Allow: /*/*.htm
  13.  
  14. User-agent: e-SocietyRobot
  15. Disallow: /
  16.  
  17. User-agent: UbiCrawler
  18. Disallow: /
  19.  
  20. User-agent: DOC
  21. Disallow: /
  22.  
  23. User-agent: Zao
  24. Disallow: /
  25.  
  26. User-agent: sitecheck.internetseer.com
  27. Disallow: /
  28.  
  29. User-agent: Zealbot
  30. Disallow: /
  31.  
  32. User-agent: SiteSnagger
  33. Disallow: /
  34.  
  35. User-agent: WebStripper
  36. Disallow: /
  37.  
  38. User-agent: WebCopier
  39. Disallow: /
  40.  
  41. User-agent: Fetch
  42. Disallow: /
  43.  
  44. User-agent: Offline Explorer
  45. Disallow: /
  46.  
  47. User-agent: Teleport
  48. Disallow: /
  49.  
  50. User-agent: TeleportPro
  51. Disallow: /
  52.  
  53. User-agent: WebZIP
  54. Disallow: /
  55.  
  56. User-agent: linko
  57. Disallow: /
  58.  
  59. User-agent: HTTrack
  60. Disallow: /
  61.  
  62. User-agent: Microsoft.URL.Control
  63. Disallow: /
  64.  
  65. User-agent: Xenu
  66. Disallow: /
  67.  
  68. User-agent: larbin
  69. Disallow: /
  70.  
  71. User-agent: libwww
  72. Disallow: /
  73.  
  74. User-agent: ZyBORG
  75. Disallow: /
  76.  
  77. User-agent: Download Ninja
  78. Disallow: /
  79.  
  80. User-agent: wget
  81. Disallow: /
  82.  
  83. User-agent: grub-client
  84. Disallow: /
  85.  
  86. User-agent: NPBot
  87. Disallow: /
  88.  
  89. User-agent: WebReaper
  90. Disallow: /
  91.  
  92. User-agent: psbot
  93. Disallow: /
  94.  
  95. User-agent: Exabot
  96. Disallow: /
  97.  
  98. User-agent: Speedy
  99. Disallow: /
  100.  
  101. User-agent: Yandex
  102. Disallow: /
  103.  
  104. User-agent: dotbot
  105. Disallow: /
  106.  
  107. User-agent: Bloglines/3.1
  108. Disallow: /
  109.  
  110. User-agent: Mail.Ru
  111. Disallow: /
  112.  
  113. User-agent: Jyxobot/1
  114. Disallow: /
  115.  
  116. User-agent: cityreview
  117. Disallow: /
__________________
Los usuarios que te responden, lo hacen altruistamente y sin ánimo de lucro con el único fin de ayudarte. Se paciente y agradecido.
-SOLOLINUX-
  #3 (permalink)  
Antiguo 20/08/2015, 03:07
 
Fecha de Ingreso: mayo-2006
Mensajes: 71
Antigüedad: 13 años, 5 meses
Puntos: 0
Respuesta: Romper respuesta 403 de milanuncios

Hola lauser

Ante todo muchísimas gracias por tu respuesta. Te aseguro que no pretendo utilizar datos de milanuncios para mi enriquecimiento ni nada parecido. Mi intención es utilizar solo datos de mis anuncios publicados ya que tengo casi un centenar, como por ejemplo las visitas que tengo a según que hora del día. Para mi la ética también es importante solo pretendo automatizar algunas vistas.


No había pensado ni por asomo en los robots, creí que tuviera alguna especie de restricción del servidor.

Pero tengo una duda, se supone que este robot niega el acceso a los user-Agent que están especificados en la lista. El User-Agent que yo especifiqué fue :
Código:
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.155 Safari/537.36
Código PHP:
<?php


$ch 
curl_init(); 
curl_setopt ($chCURLOPT_URL'http://www.milanuncios.es/');
curl_setopt ($chCURLOPT_USERAGENT'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.155 Safari/537.36');
curl_setopt ($chCURLOPT_HTTPHEADER, array("Accept-Language: es-es, en"));
curl_setopt ($chCURLOPT_TIMEOUT10);
curl_setopt ($chCURLOPT_FOLLOWLOCATION1);
curl_setopt ($chCURLOPT_RETURNTRANSFER1);


$contenido curl_exec ($ch);
curl_close ($ch);


echo 
$contenido;

?>
¿A que puede ser debida esta restricción ?

Gracias

Última edición por neck; 20/08/2015 a las 03:20 Razón: Añadir codigo
  #4 (permalink)  
Antiguo 23/08/2015, 21:46
 
Fecha de Ingreso: mayo-2006
Mensajes: 71
Antigüedad: 13 años, 5 meses
Puntos: 0
Respuesta: Romper respuesta 403 de milanuncios

La verdad hay algo que se me escapa. Llevo varios días buscando información sobre este problema que tengo y haciendo continuas y constantes pruebas pero no doy con el problema. Puede que sea por el trabajo que tengo a la cola y no me deja centrarme bien. Alomejor lo tengo delante de mis ojos pero no se donde está. Mi lógica es, si otros como google pueden y tienen acceso, yo también tengo que poder. Seguiré buscando y pensando haber si lo resuelvo. Mientras tanto les doy las gracias porque en este foro siempre me han ayudado.
  #5 (permalink)  
Antiguo 23/08/2015, 22:44
Avatar de Triby
Mod on free time
 
Fecha de Ingreso: agosto-2008
Ubicación: $MX->Gto['León'];
Mensajes: 9.961
Antigüedad: 11 años, 2 meses
Puntos: 2185
Respuesta: Romper respuesta 403 de milanuncios

Como ya lo mencionó lauser, este tema es de dudosa ética y creo que si la web tiene esta protección será porque no tienen interés en que se acceda al contenido si no es desde su mismo dominio.

Creo que hay suficientes motivos para cerrar este tema.
__________________
- León, Guanajuato
- GV-Foto

Etiquetas: 403, respuesta
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Tema Cerrado




La zona horaria es GMT -6. Ahora son las 14:07.