1. aplicar clustering para obtener clases de palabras en un corpus poco conocido, representando las palabras como vectores

    • aplicando análisis morfosintáctico a las palabras
    • con y sin palabras vacías
    • en diferentes tipos de corpus


  2. inducir temas en una colección de documentos haciendo clustering de documentos

    • aplicar clustering jerárquico y aglomerativo
    • eliminar palabras vacías (stopwords)


  3. clasificar documentos en una jerarquía de temas

    • aprendiendo un clasificador por temas
    • usando el método de Pantel (2005)


  4. obtener modelos de lenguaje de un corpus y detectar anomalías

    • utilizar abstracción por clases de palabra
    • aplicar para detección de autoría


  5. entrenamiento de un traductor automático estadístico, y análisis de error

  6. identificación de términos (incluyendo nombres propios) en un corpus, usando medidas de asociación entre palabras

  7. comparativa de performance de traductores automáticos