|
Análise de Corpora
Carga Horária: 30 horas
teóricas + 45 horas Lab.
Créditos: 3
Horįrio:
3a feiras das 18:10 ąs 20:00 Docente: Nuno
Marques (Prof. Aux. FCT/UNL) Foca-se um conjunto de métodos
e ferramentas, quer práticas, quer teóricas para o tratamento
de largos volumes (corpora) de textos. A cadeira terá uma vertente
fortemente prática.
-
Largos volumes de texto: conceitos base.
-
Ferramentas Unix para o tratamento de textos.
-
Teoria da Informação e Entropia:
relacionando palavras.
-
Associação de palavras: informação
mutua e t-score.
-
Aplicações: pp-attachment;
técnicas de agrupamento de palavras: geração de grupos
e hierarquias.
-
O modelo da língua e modelo do léxico:
lições da tradução autimática baseada
em corpora. Aplicação à compreensão de língua
Natural.
-
Etiquetagem (e desambiguação)
morfossintáctica:
-
Pré-processamento do corpus.
-
Modelos baseados em regras.
-
Modelos estatísticos (modelos de
markov escondidos e modelos baseados em técnicas de aprendizagem).
-
Estimação de parâmetros
(máxima verosimilhança, good-turing, máxima entropia,
redes neuronais).
-
Modelos loglineares (tabelas de contingência,
modelos com interacções, estimação de parâmetros,
aplicações na etiquetagem, pp-attachment e extracção
da classe de subcategorização, relação com
o modelo de máxima entropia).
-
Segmentação de texto com
métodos estatísticos (DCGs e colocação de parêntesis
no texto, data oriented parsing, inside-outside reestimation).
|