Foros del Web » Programación para mayores de 30 ;) » Java »

Filtro links web

Estas en el tema de Filtro links web en el foro de Java en Foros del Web. Buenas, estoy programando una especie de crawler y me ha surgido un problema que no se me ocurre como resolver. El problema es que no ...
  #1 (permalink)  
Antiguo 06/08/2008, 05:48
 
Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 17 años, 3 meses
Puntos: 0
Filtro links web

Buenas, estoy programando una especie de crawler y me ha surgido un problema que no se me ocurre como resolver.

El problema es que no se que función utilizar para detectar los links dentro de la web, debido a los múltiples formatos que estos pueden tener...

Por el momento he desarrollado uno que funciona para links sin mas información que la web a la que referencian. Lo hago filtrando todos los tags y buscando "<a href", hasta aqui todo perfecto, pero no puedo cojer TODOS los links de manera correcta.

El filtro es algo asi:
Código PHP:
if(texto.contains("href")){
texto texto.substring(8,texto.lastIndexOf(" ")-1);
System.out.println(texto);} 

Alguien sabe de alguna API que lo haga, algún lugar donde mirar o simplemente una idea?

Saludos y gracias
  #2 (permalink)  
Antiguo 06/08/2008, 08:28
 
Fecha de Ingreso: octubre-2003
Mensajes: 3.578
Antigüedad: 20 años, 6 meses
Puntos: 51
Respuesta: Filtro links web

HTMLEditorKit es una clase que ya te viene el JDK y te permite procesar documentos HTML.

Aquí un ejemplo:

http://www.telepolis.com/cgi-bin/web...traerLinks.htm
__________________
Para obtener respuestas, pregunta de forma inteligente o si no, pregunta lo que quieras que yo contestaré lo que me dé la gana.
  #3 (permalink)  
Antiguo 07/08/2008, 04:11
 
Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 17 años, 3 meses
Puntos: 0
Respuesta: Filtro links web

GreenEyed muchisimas gracias, no sabia que existía esta API.

Me va a ir de perlas, mi sincero agradecimiento.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 09:00.