proyectos text mining 2010

aplicar clustering para obtener clases de palabras en un corpus poco conocido, representando las palabras como vectores
- aplicando análisis morfosintáctico a las palabras
- con y sin palabras vacías
- en diferentes tipos de corpus
inducir temas en una colección de documentos haciendo clustering de documentos
- aplicar clustering jerárquico y aglomerativo
- eliminar palabras vacías (stopwords)
clasificar documentos en una jerarquía de temas
- aprendiendo un clasificador por temas
- usando el método de Pantel (2005)
obtener modelos de lenguaje de un corpus y detectar anomalías
- utilizar abstracción por clases de palabra
- aplicar para detección de autoría
entrenamiento de un traductor automático estadístico, y análisis de error
identificación de términos (incluyendo nombres propios) en un corpus, usando medidas de asociación entre palabras
comparativa de performance de traductores automáticos

Text Mining 2010