Foros del Web » Programación para mayores de 30 ;) » Java »

Obtener código HTML

Estas en el tema de Obtener código HTML en el foro de Java en Foros del Web. Hola a todos. En primer lugar disculpen si se tratara de un tema repetido, pero no lo he encontrado y ando desesperado por solventar este ...
  #1 (permalink)  
Antiguo 25/02/2013, 05:27
 
Fecha de Ingreso: marzo-2010
Mensajes: 29
Antigüedad: 14 años, 1 mes
Puntos: 1
Obtener código HTML

Hola a todos.

En primer lugar disculpen si se tratara de un tema repetido, pero no lo he encontrado y ando desesperado por solventar este problema.

Necesito conectarme a través de Java a unas páginas webs y obtener su código HTML. La primera vez que lo intenté me salió un error 403, concretamente este:

Server returned HTTP response code: 403 for URL .....

y pude solventarlo de la siguiente manera:

Código Java:
Ver original
  1. URL web = new URL("http://scholar.google.es/scholar?hl=es&q=spem+and+metadata&btnG=&lr=lang_es|lang_en&num=20");
  2.  
  3. HttpURLConnection url = (HttpURLConnection) url2.openConnection();
  4. url.addRequestProperty("User-Agent", "Mozilla/4.76");
  5. InputStream s = url.getInputStream();
  6. BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(s));
  7. //a partir de aqui meto el contenido en un fichero
Sin embargo, ahora con otra web no puedo realizar este proceso, me sale otra vez la misma excepción de antes. He leido y probado a establecer otras propiedades pero insisto en que no tengo mucha idea de este tema de conectarse a alguna web por medio de Java.

La página de la que quiero acceder ahora mismo el código es esta:

http://scholar.google.es/scholar.bib?q=info:DoH5NwEXgWAJ:scholar.google.com/&output=citation&hl=es&as_sdt=0,5&ct=citation&c d=0

(sin espacios...que no se por qué no me deja quitar dicho espacio)

Espero alguna respuesta...gracias de antemano.

Última edición por angelo087; 25/02/2013 a las 05:34
  #2 (permalink)  
Antiguo 25/02/2013, 05:36
Avatar de chuidiang
Colaborador
 
Fecha de Ingreso: octubre-2004
Mensajes: 3.774
Antigüedad: 19 años, 7 meses
Puntos: 454
Respuesta: Obtener código HTML

Hola:

Pues el error 403 es que no tienes permisos para acceder ahí.... de hecho, si intentas ver ese url con el navegador, es lo que te dice.

Se bueno.
__________________
Apuntes Java
Wiki de Programación
  #3 (permalink)  
Antiguo 25/02/2013, 05:41
 
Fecha de Ingreso: marzo-2010
Mensajes: 29
Antigüedad: 14 años, 1 mes
Puntos: 1
Respuesta: Obtener código HTML

Cita:
Iniciado por chuidiang Ver Mensaje
Hola:

Pues el error 403 es que no tienes permisos para acceder ahí.... de hecho, si intentas ver ese url con el navegador, es lo que te dice.

Se bueno.
Vaya...con Firefox sale lo que quiero obtener..pero con Google Chrome no...me sale una pantalla de tipo la que dices...creo que es debida a las cookies, pues al acceder a este enlace "paso a paso" desde el google chrome no me sale ya ningún error y me sale directamente.

A ver, me extiendo un poco más, estos enlaces vienen de Google Scholar, después de proporcionar una búsqueda, me generan unos resultados que tienen un enlace denominado: "Importar a Bibtext" y los enlaces precisamente son esos. Éstos me proporcionan un código Bibtext que necesito extraer desde el código fuente de dichos enlaces. Por ejemplo éste sería el BibText del que puse anteriormente.

@inproceedings{puviani2009methodologies,
title={Methodologies for self-organising systems: a SPEM approach},
author={Puviani, Mariachiara and Serugendo, Giovanna Di Marzo and Frei, Regina and Cabri, Giacomo},
booktitle={Proceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology-Volume 02},
pages={66--69},
year={2009},
organization={IEEE Computer Society}
}

Pero de todos modos, en otro enlace como dije me salió el mismo error y pude soventarlo...en este no puedo...no lo entiendo. ¿Sabéis alguna otra opción o como puedo arreglarlo?

Última edición por angelo087; 25/02/2013 a las 05:56
  #4 (permalink)  
Antiguo 25/02/2013, 06:56
Avatar de chuidiang
Colaborador
 
Fecha de Ingreso: octubre-2004
Mensajes: 3.774
Antigüedad: 19 años, 7 meses
Puntos: 454
Respuesta: Obtener código HTML

Hola:

Si, por lo visto es algo de cookies, en esta página http://blog.venthur.de/index.php/201...-using-python/ explican como hacerlo en python, imagino que no te costará "traducir" el código a java.

Se bueno
__________________
Apuntes Java
Wiki de Programación
  #5 (permalink)  
Antiguo 27/02/2013, 06:31
 
Fecha de Ingreso: marzo-2010
Mensajes: 29
Antigüedad: 14 años, 1 mes
Puntos: 1
Respuesta: Obtener código HTML

Muchas gracias por tu respuesta.

La cosa es que conseguir "traducir" ese código y me llegó a salir el Bibtex que quería pero...por "arte de magia" ahora me sale el error 503

Con otra página web puedo extraer el código pero si es de google scholar me salta el error...¿me habrán vetado? jaja es que no lo entiendo, porque en cualquier navegador si me deja acceder a esa información pero no desde Java... ¿Sabeis algo a respecto?

Etiquetas: html
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 07:19.