Ver Mensaje Individual
  #5 (permalink)  
Antiguo 11/07/2015, 09:32
Kritik
(Desactivado)
 
Fecha de Ingreso: marzo-2012
Mensajes: 366
Antigüedad: 12 años, 1 mes
Puntos: 31
Respuesta: contenido archivo dict

gnzsoloyo tienes razón. Voy a intentarlo mejor esta vez:

Estoy intentando aprender a utilizar un API de java que supuestamente está en código abierto. En realidad, accedo a todo su código que está en texto plano (los archivos del código están en .java que son leíbles hasta por el blog de notas de Windows).

El API en concreto se llama ixa-pipes-pos. Es API que analiza morfológicamente una oración. Estos análisis tienen la complicación de que palabras tipo "casa" pueden ser sustantivos (edificio destinado al hogar...) o pueden ser tiempos verbales (contrae matrimonio). Y solo dependiendo de las palabras de las que está rodeada puede elegir estadísticamente cual es su forma morfológica más probable.

Para hacer esto, esta librería utiliza un archivo que guarda tropecientos mil combinaciones distintas correctas en las que los distintos tipos de palabras pueden ser conjuntadas de forma lógica en el lenguaje español. (Por ejemplo no es lógica la expresión "las ratón" o "lo haciendo")

Y yo lo que quiero es acceder a ese archivo diccionario de combinaciones que viene con extensión .dict.

En el README que viene con ese API dice que el diccionario viene tanto en formato binario como en formato en texto plano, sin embargo yo lo único que he encontrado es este archivo. Es legible por el notepadd++... sin embargo al abrirlo resulta ser ilegible. Aún con el tipo de codificación que indica en el archivo .info que lo acompaña (dice que es UTF-8) y con ningún tipo de codificación de las disponibles con el notepadd++ (incluido el UTF-8) se consigue un resultado entendible.