- aplicar clustering para obtener clases de palabras en
un corpus poco conocido, representando las palabras como
vectores
- aplicando análisis morfosintáctico a las palabras
- con y sin palabras vacías
- en diferentes tipos de corpus
- inducir temas en una colección de documentos haciendo
clustering de documentos
- aplicar clustering jerárquico y aglomerativo
- eliminar palabras vacías (stopwords)
- clasificar documentos en una jerarquía de temas
- aprendiendo un clasificador por temas
- usando el método de Pantel (2005)
- obtener modelos de lenguaje de un corpus y detectar
anomalías
- utilizar abstracción por clases de palabra
- aplicar para detección de autoría
- entrenamiento de un traductor automático estadístico,
y análisis de error
- identificación de términos (incluyendo nombres
propios) en un corpus, usando medidas de asociación entre
palabras
- comparativa de performance de traductores automáticos