ejercicios


algunos materiales para practicar los conceptos vistos en clase




día 2: léxico



La idea básica es aplicar clustering para ver cómo se auto-organizan las palabras de un corpus, y si esa organización tiene alguna relación con clases de palabras ya conocidas, como podrían ser categorías morfosintácticas (nombres, verbos, artículos, preposiciones) o bien grupos semánticos (días de la semana, palabras abstractas, etc.)

Este tipo de trabajo se puede hacer sobre cualquier corpus de textos. Yo acá les puse el GENIA corpus, con anotación XML para PoS y términos. Luego, con algunos scripts de perl, convertí el corpus en archivos de entrada para weka, con el formato .arff


  • words tiene como objetos las palabras, y como características las palabras que las rodean ( generado con genia-words2arff )

  • terms tiene como objetos los términos, y como características también las palabras que los rodean ( generado con genia-terms2arff )

Las palabras que constituyen las características fueron obtenidas de una ventana de 5 palabras alrededor de la palabra descrita, y preservan el orden. Sólo se consideraron las n palabras más frecuentes y las n características más frecuentes. El parámetro n es un parámetro de los scripts.