objetivos del curso
filminas
programa
fechas
dirigido a





La minería de texto consiste en descubrir información nueva y previamente desconocida mediante la extracción automática de información de various recursos escritos. Un elemento clave es la relación entre las informaciones extraídas, de forma que se creen hechos o hipótesis nuevos que serán explorados en profundidad mediante métodos de experimentación más convencionales.

Este curso pretende ser una introducción al área de minería de datos aplicada a texto, desde una perspectiva de Procesamiento del Lenguaje Natural. Se describirá el área en relación a áreas bien establecidas como recuperación de información, procesamiento del lenguaje natural con métodos empíricos y descubrimiento de conocimiento en bases de datos.

Se trabajará mediante estudio de caso, presentando aproximaciones exitosas al descubrimiento de información en texto, para obtener una perspectiva general de:

  • las necesidades de información que necesitan ser cubiertas,
  • las propiedades de los textos que se pueden explotar,
  • y cómo las intuiciones teóricas sobre propiedades textuales se pueden implementar en herramientas o procedimientos efectivos.


Al finalizar el curso, se espera que los estudiantes hayan adquirido:

  • una perspectiva general del área de minería de datos aplicada a texto,
  • familiaridad (y capacidad operativa) con técnicas de aprendizaje automático no supervisado y semi-supervisado,
  • madurez para hacer evaluaciones críticas del trabajo en el área,
  • capacidad para replicar y progresar en líneas de trabajo ya iniciadas en este área

volver








volver





Programa

  1. Introducción
    1. Introducción al Procesamiento del Lenguaje Natural; aproximaciones basadas en datos vs. aproximaciones simbólicas
    2. Técnicas y Métodos de Procesamiento del Lenguaje Natural para Minería de Texto
      • Etiquetadores
      • Análisis parciales
      • Análisis semántico basado en ontologías y tesauros

    3. Conceptos y métodos básicos de Minería de Datos y Descubrimiento del Conocimiento
    4. Técnicas supervisadas (aprendizaje automático) vs. técnicas no supervisadas (minería de datos); técnicas levemente supervisadas (bootstrapping)
      • Clustering
      • Test de Hipótesis
      • Reglas de Asociación
      • ¡rboles de Decisión
      • Redes Neuronales
      • Algoritmos Genéticos
      • Métodos Visuales
      • Bootstrapping

    5. Presentación del entorno de trabajo UIMA como ejemplo de metodología de trabajo

  2. Principios de Evaluación
    1. Qué se puede esperar de la Minería de Textos
    2. Objetivos de la Evaluación
    3. Técnicas de evaluación basadas en gold standard; el acuerdo entre jueces; el factor casualidad
    4. Técnicas de evaluación basadas en test de hipótesis

  3. Técnicas de Clustering
    1. Fundamentos de las técnicas de clustering
    2. Comparativa de diferentes técnicas; comparación con técnicas evolutivas (algoritmos genéticos)
    3. Introducción al software WEKA
    4. Clustering aplicado a descubrimiento de clases de palabras; combinaciones de clustering y clasificación
      • Aplicación a lenguajes desconocidos
      • Desambiguación de sentidos
      • Adquisición de subcategorizaciones


  4. Técnicas basadas en Análisis de Secuencias
    1. Alineación de textos paralelos
    2. Traducción automática estadística
    3. Adquisición automática de paráfrasis

  5. Aplicaciones
    1. Web Mining
    2. Análisis de medios de comunicación participativos (foros, blogs): identificar autoridades, disruptores; análisis de sentimientos
    3. Inducción de la estructura conceptual en dominios reducidos (avisos clasificados)



volver





Fechas: 12, 13 y 14 de Marzo de 2008

Horario: de 13h a 18h.

Carga Horaria: 20 horas, 15 horas de teórico-práctico presencial + 5 horas de desarrollo de un mini proyecto a ser presentado quince días después del curso como parte de evaluación.


Dirigido a: Estudiantes avanzados de grado y estudiantes de postgrado de Computación y carreras afines, Estadística y Minería de Datos, profesionales de la minería de datos.

Evaluación


El curso se evaluará con un examen escrito que se tomará el último día (50%) y con un proyecto práctico que habrá que entregar quince días después de la terminación del curso (50%).

volver