Foros del Web » Programación para mayores de 30 ;) » Java »

Pequeño programa Java que "lea" webs

Estas en el tema de Pequeño programa Java que "lea" webs en el foro de Java en Foros del Web. Hola a todos, Quiero hacer una pequeña aplicación, que a partir de 2 archivos de texto planos (webs.txt y candidatos.txt) me cree otro archivo y ...
  #1 (permalink)  
Antiguo 26/01/2009, 11:21
 
Fecha de Ingreso: enero-2009
Mensajes: 6
Antigüedad: 15 años, 3 meses
Puntos: 0
Pequeño programa Java que "lea" webs

Hola a todos,

Quiero hacer una pequeña aplicación, que a partir de 2 archivos de texto planos (webs.txt y candidatos.txt) me cree otro archivo y introduzca en el las ocurrencias de los strings en candidatos en las webs. Un ejemplo:

Si en webs.txt tuvieramos:
y en candidatos.txt tuvieramos:
  • páginas
  • privacidad

Me apareciera un tercer archivo (llamalo "resultados" por ejemplo) que tuviera lo siguiente:

páginas -- 2
privacidad -- 1


Por que en google aparece 2 veces la palabra página y 1 vez la palabra privacidad.
En caso de que en el webs.txt aparecieran mas webs, tendría que sumar el número de ocurrencias de las webs, es decir, que si en la segunda web hay 3 veces la palabra "páginas" y 2 veces la palabra "privacidad" los resultados finales deberían quedar asi:

páginas -- 5
privacidad -- 3

es decir, 2+3 la de páginas y 1+2 la de privacidad.

Como veis es una pequeña aplicación, pero me surgen varias dudas. Para empezar como plantear el problema, y después que utilizar para "leer las webs", por eso os pido ayuda, a ver si entre todos solucionamos el problema.

Muchas gracias a todos!!!!!!!!!!
  #2 (permalink)  
Antiguo 26/01/2009, 11:48
Avatar de chuidiang
Colaborador
 
Fecha de Ingreso: octubre-2004
Mensajes: 3.774
Antigüedad: 19 años, 7 meses
Puntos: 454
Respuesta: Pequeño programa Java que "lea" webs

Hola:

Este trozo de código te devuelve el texto html de una web como si fuera un String, todo seguido.

Código:
        public String getTextoUrl(URL url) {
                String texto = null;
                try {
                        URLConnection con = url.openConnection();
                        InputStream contenido = con.getInputStream();
                        BufferedReader isr = new BufferedReader(new InputStreamReader(
                                        contenido));
                        String linea = isr.readLine();
                        while (null != linea) {
                                texto += linea;
                                linea = isr.readLine();
                        }
                        contenido.close();
                } catch (IOException e) {
                        e.printStackTrace();
                }
                return texto;
        }
Lo he copiado de por ahí. Para que esté bien del todo, quizás haya que meter el close() en un finally....

Se bueno.
__________________
Apuntes Java
Wiki de Programación
  #3 (permalink)  
Antiguo 26/01/2009, 12:04
 
Fecha de Ingreso: enero-2009
Mensajes: 6
Antigüedad: 15 años, 3 meses
Puntos: 0
Respuesta: Pequeño programa Java que "lea" webs

Realmente interesante. Muchas gracias!!! intentaré hacer el programita con esto, y si aún asi me salen dudas, lo comento en este mismo hilo.

Muchas gracias!!!!
  #4 (permalink)  
Antiguo 27/01/2009, 01:28
 
Fecha de Ingreso: octubre-2003
Mensajes: 3.578
Antigüedad: 20 años, 6 meses
Puntos: 51
Respuesta: Pequeño programa Java que "lea" webs

Tambien puedes usar algo como HtmlUnit (http://htmlunit.sourceforge.net/) para leer los sitios web/paginas de forma más fácil sin tener que ir gestionando tú las conexiones.

S!
__________________
Para obtener respuestas, pregunta de forma inteligente o si no, pregunta lo que quieras que yo contestaré lo que me dé la gana.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 18:32.