Ver Mensaje Individual
  #9 (permalink)  
Antiguo 04/04/2015, 14:24
Kritik
(Desactivado)
 
Fecha de Ingreso: marzo-2012
Mensajes: 366
Antigüedad: 12 años, 1 mes
Puntos: 31
Respuesta: Extracción de información de web que ejecuta script antes de mostrarse

Después de incluir en el proyecto todos los archivos .jar de HTMLUnit, mi código es el siguiente:
Código:
package PruebasVarias;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class AnalizadorHTML {
	public static void main(String[] args) throws Exception {
	// La siguiente línea desabilita los warnings de htmlunit
	java.util.logging.Logger.getLogger("com.gargoylesoftware").setLevel(java.util.logging.Level.OFF);

	// Escoje versión de explorador. En algunas webs es necesario:
	WebClient webClient = new WebClient(BrowserVersion.INTERNET_EXPLORER_11);
	// Espera un máximo de 50.000 milésimas de segundo a que se ejecute todo el JavaScript:
	webClient.waitForBackgroundJavaScript(50000);
	// Indica la web y la captura después del tiempo de los scripts:
	HtmlPage page = webClient.getPage("http://buscon.rae.es/drae/srv/search?val=perro");
	// Imprime el contenido de la etiqueta <body> de la web:
	System.out.println(page.getBody().getTextContent());
	}
}

Última edición por Kritik; 04/04/2015 a las 14:30 Razón: /