Foros del Web » Programación para mayores de 30 ;) » Java »

Weka - StringtoWordVector - setStopwords Stopwords File

Estas en el tema de Weka - StringtoWordVector - setStopwords Stopwords File en el foro de Java en Foros del Web. Hola que tal, tengo grandes dudas con la API de Weka de Minería de Datos. Espero alguién haya trabajado con ella. La duda es la ...
  #1 (permalink)  
Antiguo 16/10/2012, 14:38
 
Fecha de Ingreso: octubre-2012
Mensajes: 1
Antigüedad: 11 años, 6 meses
Puntos: 0
Pregunta Weka - StringtoWordVector - setStopwords Stopwords File

Hola que tal, tengo grandes dudas con la API de Weka de Minería de Datos.
Espero alguién haya trabajado con ella.

La duda es la siguiente.
Quiero aplicar a un documento un filtro. El documento es de Strings, por lo cual aplico un StringtoWordVector para convertir cada palabra en un atributo. Pero además quiero que me saque las palabras Stop (tales como pronombres entre otros). La lista de StopWords la tengo en un txt y la saque de Rainbow.

La pregunta es: Si en Weka APP funciona la lista externa, por que en Java API Weka no?

A continuación coloco el código.

StringToWordVector filtroTemp = new StringToWordVector();
File stopwords = new File ("/home/carolina/NetBeansProjects/Clasificacion_Patentes/utiles/stopwords.txt");
filtroTemp.setStopwords(stopwords);
filtroTemp.setUseStoplist(true);
filtroTemp.setInputFormat(dataset);
filtroTemp.setAttributeIndicesArray(idxAtributosFi ltrar); filtroTemp.setSelectedRange("2");
return (filtroTemp);

Esto solo me entrega el mismo ARFF que sin el Stopwords (1930 atributos) y en la weka api aplicando la misma lista tengo 1770 atributos.

Otro dato es que por ahí leí que ciertas versiones antiguas de weka estaban ignorando (por un bug) la lista externa de stopwords, pero también leí que fue arreglado el bug, así que no se que hacer.


Ojalá puedan ayudarme!

Etiquetas: api, mineria, stopwords, weka
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 04:52.