mestrado 2002-03 em
Inteligência Artificial Aplicada
MIAA 2002/03 Disciplinas

Informações

Contactos

Análise de Corpora

Carga Horária: 30 horas teóricas + 45 horas Lab.
Créditos: 3
Horįrio: 3a feiras das 18:10 ąs 20:00
Docente: Nuno Marques (Prof. Aux. FCT/UNL)

Foca-se um conjunto de métodos e ferramentas, quer práticas, quer teóricas para o tratamento de largos volumes (corpora) de textos. A cadeira terá uma vertente fortemente prática.

  • Largos volumes de texto: conceitos base.
  • Ferramentas Unix para o tratamento de textos.
  • Teoria da Informação e Entropia: relacionando palavras.
    • Associação de palavras: informação mutua e t-score.
    • Aplicações: pp-attachment; técnicas de agrupamento de palavras: geração de grupos e hierarquias.
  • O modelo da língua e modelo do léxico: lições da tradução autimática baseada em corpora. Aplicação à compreensão de língua Natural.
  • Etiquetagem (e desambiguação) morfossintáctica:
    • Pré-processamento do corpus.
    • Modelos baseados em regras.
    • Modelos estatísticos (modelos de markov escondidos e modelos baseados em técnicas de aprendizagem).
    • Estimação de parâmetros (máxima verosimilhança, good-turing, máxima entropia, redes neuronais).
  • Modelos loglineares (tabelas de contingência, modelos com interacções, estimação de parâmetros, aplicações na etiquetagem, pp-attachment e extracção da classe de subcategorização, relação com o modelo de máxima entropia).
  • Segmentação de texto com métodos estatísticos (DCGs e colocação de parêntesis no texto, data oriented parsing, inside-outside reestimation).