filminas
programa
fechas
dirigido a
La minería de texto consiste en descubrir información nueva y previamente desconocida mediante la extracción automática de información de various recursos escritos. Un elemento clave es la relación entre las informaciones extraídas, de forma que se creen hechos o hipótesis nuevos que serán explorados en profundidad mediante métodos de experimentación más convencionales.
Este curso pretende ser una introducción al área de minería de datos aplicada a texto, desde una perspectiva de Procesamiento del Lenguaje Natural. Se describirá el área en relación a áreas bien establecidas como recuperación de información, procesamiento del lenguaje natural con métodos empíricos y descubrimiento de conocimiento en bases de datos.
Se trabajará mediante estudio de caso, presentando aproximaciones exitosas al descubrimiento de información en texto, para obtener una perspectiva general de:
- las necesidades de información que necesitan ser
cubiertas,
- las propiedades de los textos que se pueden explotar,
- y cómo las intuiciones teóricas sobre propiedades
textuales se pueden implementar en herramientas o
procedimientos efectivos.
Al finalizar el curso, se espera que los estudiantes hayan adquirido:
- una perspectiva general del área de minería de datos
aplicada a texto,
- familiaridad (y capacidad operativa) con técnicas de
aprendizaje automático no supervisado y semi-supervisado,
- madurez para hacer evaluaciones críticas del trabajo
en el área,
- capacidad para replicar y progresar en líneas de
trabajo ya iniciadas en este área
- introducción intro
- introducción a PLN pln
- introducción a Data Mining dm
- weka weka
- aplicaciones aplicaciones
- tarea final tarea
volver
Programa
- Introducción
- Introducción al Procesamiento del Lenguaje
Natural; aproximaciones basadas en datos vs.
aproximaciones simbólicas
- Técnicas y Métodos de Procesamiento del Lenguaje
Natural para Minería de Texto
- Etiquetadores
- Análisis parciales
- Análisis semántico basado en ontologías y
tesauros
- Etiquetadores
- Conceptos y métodos básicos de Minería de Datos y
Descubrimiento del Conocimiento
- Técnicas supervisadas (aprendizaje automático)
vs. técnicas no supervisadas (minería de datos);
técnicas levemente supervisadas (bootstrapping)
- Clustering
- Test de Hipótesis
- Reglas de Asociación
- ¡rboles de Decisión
- Redes Neuronales
- Algoritmos Genéticos
- Métodos Visuales
- Bootstrapping
- Clustering
- Presentación del entorno de trabajo UIMA como
ejemplo de metodología de trabajo
- Introducción al Procesamiento del Lenguaje
Natural; aproximaciones basadas en datos vs.
aproximaciones simbólicas
- Principios de Evaluación
- Qué se puede esperar de la Minería de Textos
- Objetivos de la Evaluación
- Técnicas de evaluación basadas en gold
standard; el acuerdo entre jueces; el factor
casualidad
- Técnicas de evaluación basadas en test de
hipótesis
- Qué se puede esperar de la Minería de Textos
- Técnicas de Clustering
- Fundamentos de las técnicas de clustering
- Comparativa de diferentes técnicas; comparación
con técnicas evolutivas (algoritmos genéticos)
- Introducción al software WEKA
- Clustering aplicado a descubrimiento de clases de
palabras; combinaciones de clustering y clasificación
- Aplicación a lenguajes desconocidos
- Desambiguación de sentidos
- Adquisición de subcategorizaciones
- Aplicación a lenguajes desconocidos
- Fundamentos de las técnicas de clustering
- Técnicas basadas en Análisis de Secuencias
- Alineación de textos paralelos
- Traducción automática estadística
- Adquisición automática de paráfrasis
- Alineación de textos paralelos
- Aplicaciones
- Web Mining
- Análisis de medios de comunicación participativos
(foros, blogs): identificar autoridades, disruptores;
análisis de sentimientos
- Inducción de la estructura conceptual en dominios
reducidos (avisos clasificados)
- Web Mining
volver
Fechas: 12, 13 y 14 de Marzo de 2008
Horario: de 13h a 18h.
Carga Horaria: 20 horas, 15 horas de teórico-práctico presencial + 5 horas de desarrollo de un mini proyecto a ser presentado quince días después del curso como parte de evaluación.
Dirigido a: Estudiantes avanzados de grado y estudiantes de postgrado de Computación y carreras afines, Estadística y Minería de Datos, profesionales de la minería de datos.
Evaluación
El curso se evaluará con un examen escrito que se tomará el último día (50%) y con un proyecto práctico que habrá que entregar quince días después de la terminación del curso (50%).
volver