Ver Mensaje Individual
  #1 (permalink)  
Antiguo 16/10/2012, 14:38
Lady_Garnet00
 
Fecha de Ingreso: octubre-2012
Mensajes: 1
Antigüedad: 11 años, 7 meses
Puntos: 0
Pregunta Weka - StringtoWordVector - setStopwords Stopwords File

Hola que tal, tengo grandes dudas con la API de Weka de Minería de Datos.
Espero alguién haya trabajado con ella.

La duda es la siguiente.
Quiero aplicar a un documento un filtro. El documento es de Strings, por lo cual aplico un StringtoWordVector para convertir cada palabra en un atributo. Pero además quiero que me saque las palabras Stop (tales como pronombres entre otros). La lista de StopWords la tengo en un txt y la saque de Rainbow.

La pregunta es: Si en Weka APP funciona la lista externa, por que en Java API Weka no?

A continuación coloco el código.

StringToWordVector filtroTemp = new StringToWordVector();
File stopwords = new File ("/home/carolina/NetBeansProjects/Clasificacion_Patentes/utiles/stopwords.txt");
filtroTemp.setStopwords(stopwords);
filtroTemp.setUseStoplist(true);
filtroTemp.setInputFormat(dataset);
filtroTemp.setAttributeIndicesArray(idxAtributosFi ltrar); filtroTemp.setSelectedRange("2");
return (filtroTemp);

Esto solo me entrega el mismo ARFF que sin el Stopwords (1930 atributos) y en la weka api aplicando la misma lista tengo 1770 atributos.

Otro dato es que por ahí leí que ciertas versiones antiguas de weka estaban ignorando (por un bug) la lista externa de stopwords, pero también leí que fue arreglado el bug, así que no se que hacer.


Ojalá puedan ayudarme!