día uno: introducción



filminas:
Introducción
Conceptos y métodos básicos de Minería de Datos y Descubrimiento del Conocimiento
Conceptos Básicos de Procesamiento del Lenguaje Natural y Minería de Texto
Introducción al software WEKA




día dos: descubrimiento de clases de palabra y semántica léxica (colocaciones)


  • el rol de los recursos léxico-semánticos en la minería de texto
  • métodos no supervisados para caracterización del léxico
  • introducción a ontologías y tesauros, usos habituales
  • métodos semi-supervisados aplicados a ontologías y tesauros
  • inducción y población de ontologías


lecturas:

  • el artículo fundacional sobre Latent Semantic Analysis (o cómo aplicar Principal Component Analysis para tratar de descubrir algo sobre la semántica de las palabras):
T.K. Landauer, S.T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction and Representation of Knowledge Psychological Review, 1997.
muy bien acompañado por unas filminas sobre Principal Component Analysis de un curso en Princeton.
  • una serie de artículos sobre descubrimiento de propiedades semánticas de las palabras:
  • Patrick Pantel and Dekang Lin. 2002. Discovering Word Senses from Text. In Proceedings of ACM Conference on Knowledge Discovery and Data Mining (KDD-02). pp. 613-619. Edmonton, Canada.
  • Patrick Pantel. 2005. Inducing Ontological Co-occurrence Vectors. In Proceedings of Association for Computational Linguistics (ACL-05). pp. 125-132. Ann Arbor, MI.
  • Patrick Pantel and Marco Pennacchiotti. 2008. Automatically Harvesting and Ontologizing Semantic Relations. In Paul Buitelaar and Philipp Cimiano (Eds.) Ontology Learning and Population: Bridging the Gap between Text and Knowledge - Selected Contributions to Ontology Learning and Population from Text. pp. 171-198. ISBN: 978-1-58603-818-2. IOS Press.

capítulo 5 de Foundations of Statistical Natural Language Processing, con estas filminas.
y
capítulo 6 de Foundations of Statistical Natural Language Processing, con filminas de Jonathen Henke.

ejercicios





día tres: traducción automática estadística y generación estadística de lenguaje natural


  • introducción a la traducción automática
  • introducción a la generación estadística de lenguaje natural
  • perspectiva general sobre traducción automática estadística
  • modelos de lenguaje
  • alineación de corpus paralelos y corpus comparables
  • generación de paráfrasis
  • generación estadística de lenguaje natural


filminas:
mis filminas sobre TA, los modelos de IBM, EM, evaluación y punteros
filminas de Philip Koehn sobre modelos basados en fragmentos, modelos factorizados y decodificación.
filminas de Olga Kukina sobre extracción de paráfrasis

lecturas:
capítulo 14 de Foundations of Statistical Natural Language Processing
Kevin Knight. 2003. Handbook of Statistical Machine Translation.
Dragos Stefan Munteanu and Daniel Marcu. 2005. Improving Machine Translation Performance by Exploiting Non-Parallel Corpora. Computational Linguistics, Vol. 31 n. 4, pp 477-504

más referencias en:
Statistical Machine Translation
Lista de herramientas libres para Machine Translation de Mikel Forcada
2010 MT Marathon

y las páginas personales de
Kevin Knight
Philipp Koehn
Mikel Forcada

ejercicios:
Hicieron un planteo de proyecto en grupos. A través del grupo de google que acabo de crear, deberían:

  1. suscribirse al grupo
  2. enviar sus propuestas (una por grupo, firmadas, antes del jueves 29)
  3. yo les voy a asignar otras propuestas para que lean y envíen una crítica antes del martes 4
  4. deberán incorporar las críticas que les hayan a su proyecto (o argumentar por qué no hacerlo)
  5. presentarán en clase oralmente, brevemente (5 mins) sus proyectos






día 4: descubrimiento de relaciones entre entidades y eventos



filminas:
filminas con links a todas las otras filminas usadas en la clase, y algunas más. También incluyen algunas sugerencias sobre proyectos y ejercicios.

lecturas:
capítulo 8 de Foundations of Statistical Natural Language Processing





miscelánea

algo más
algo más
algo más