Seleção de Gabaritos TBL usando Algoritmos Genéticos Julio Cesar Duarte Cícero Nogueira dos...
-
Upload
regina-barata-carvalho -
Category
Documents
-
view
227 -
download
5
Transcript of Seleção de Gabaritos TBL usando Algoritmos Genéticos Julio Cesar Duarte Cícero Nogueira dos...
Seleção de Gabaritos TBL usando Algoritmos Genéticos
Julio Cesar DuarteCícero Nogueira dos Santos
Ruy Luiz Milidiú
Pontifícia Universidade Católica do Rio de Janeiro – PUC-RioDepartamento de InformáticaLaboratório de Engenharia de Algoritmos e Redes Neurais - LEARN
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
2
Sumário
TBL – Revisão Gabaritos TBL Algoritmos Genéticos Modelagem Experimentos e Resultados
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
3
O algoritmo TBLCorpus de Treino não etiquetado
Classificador Inicial
Corpus de Treino atual
Derivação e avaliação das regras
candidatas
Seleção da regra a ser aplicada
Aplicação da regra ao corpus de treino.
Corpus de Treino etiquetado corretamente
Gabaritos
Seqüência de regras aprendidas.
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
4
O jovem esqueceu a caneta ART N V ART N
ART ADJ V ART N
Gabaritospos[-1] pos[0] word[0] pos[1]
SE pos[-1]=ART E pos[0]=ADJ EWord[0]=jovem E pos[1]=V ENTÃO pos[0]=N
Regra:
Interpretação:
pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N
Termo atômico
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
5
– Combinação de features relevantes– Construídos manualmente– Construção depende de um
especialista no domínio– Trabalho intensivo– Adaptações podem ser necessárias
quando mudamos de uma língua p/ outra.
Gabaritos
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
6
Geração de gabaritos usando GA
Motivação— Evitar o uso do especialista, ou,— Facilitar o trabalho do especialista
Proposta— Usar algoritmos genéticos— Modelagem simples visando a
eficiência— Usar varias estratégias de modelagem
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
7
Algoritmos Genéticos Modelos Computacionais inspirados no
mecanismo da evolução— Cromossomo Indivíduo (Possível
Solução)— Problema de otimização
• Codificação do problema• Função de avaliação• Heurística = Aplicação de operadores
genéticos
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Codificação do Problema (Indivíduo/Cromossomo)
Normalmente, cadeia de 0´s e 1´s Indicam a presença, ou não, de
uma característica (feature)
f1 f2 f3 f4 ... fn
1 0 1 1 0
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
9
Função de Avaliação Tem como argumento um indivíduo
e calcula a aptidão do indivíduo. Aptidão = medida de desempenho
do indivíduo no problema
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Operadores Genéticos Operadores de Seleção:
—Decidem, baseados no fitness, os
“melhores” indivíduos• Persistem na população
• Utilizados pelos outros operadores
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Operadores Genéticos Operadores de Recombinação:
—Criam “novos” indivíduos a partir de indivíduos
selecionados
• Cruzamento: Combina frações de indivíduos em novos
• Mutação: Gera uma pequena alteração em um
indivíduo
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
12
Algoritmos Genéticos - Funcionamento
Gerar população inicial Calcular aptidão de cada indivíduo Enquanto critério_de_parada ==
False:— Selecionar melhores indivíduos
(descartar demais indivíduos, menos aptos)
— Aplicar operadores de reprodução— Aplicar operadores de mutação— Calcular aptidão de cada indivíduo
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
13
Modelagem 4 abordagens para seleção de
gabaritos: Cada uma carrega uma quantidade
de conhecimento diferente
Conhecimento ( ) x Desempenho ( )
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(1) Janela de contexto fixa Gabaritos formados por TAs da forma
mais simples f[ds] Entrada:
—Lista de features, maxOffset, número de templates e tamanho esperado do template.
Saída:—Seqüências de f[ds] onde ds Є {-maxOffset,
+maxOffset}
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (FCW) Features = {f1, f2}, maxOffset = 1 2 gabaritos com tamanho esperado
3
Gabaritos gerados:—f1[-1] f1[+1] f2[-1] f2[+1]
—f2[-1] f2[0]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(2) Lista fixa de TAs É mais fácil construir TAs do que
gabaritos. Gabaritos formados por qualquer tipo de
TAs Entrada:
—Lista de TAs (L), número de gabaritos e tamanho esperado do gabarito.
Saída:—Seqüências de TA’s onde TA Є L
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (FLAT) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]} 2 gabaritos com tamanho esperado 3
Gabaritos gerados:—f1[−2] f2[0] f2[−3,−1]—f1[−1] f2[0] f1[1, 2]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(3) Gabarito com tamanho
máximo Muito similar ao anterior No lugar de um tamanho esperado, tem-se
um tamanho máximo para o gabarito Valor do cromossomo indica posição na lista
—-1 ausência de TA—Valores repetidos são descartados
Entrada:—Lista de TAs (L), número de gabaritos e tamanho
máximo do gabarito Saída:
—Seqüências de TA’s onde TA Є L
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (MTS) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]}
3 gabaritos com tamanho máximo 4
Gabaritos gerados:— f1[−2] f2[1] f1[−1] — f2[−3,−1] f1[−2] f2[1] f2[0] — f1[−2] f2[0] f2[1]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(4) Lista de gabaritos Tentativa de melhorar trabalho do
especialista Nova combinação de gabaritos já
construídos—TBL é uma heurística gulosa inserir um novo
gabarito pode piorar o desempenho global Entrada:
—Lista de gabaritos (T) e número esperado de gabaritos
Saída:—Subconjunto de T
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (TL) T = {τ00, τ01, τ02, τ03, τ04, τ05, τ06, τ07, τ08, τ09,
τ10, τ11} Número de gabaritos esperado = 7
Gabaritos gerados:—{τ00, τ02, τ05, τ06, τ08, τ09, τ10}.
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Modelagem Função de avaliação
—Um conjunto de regras TBL é gerado a partir de cada indivíduo
—Aptidão = F1-score medido num conjunto de validação• F1-score = Média Harmônica entre a
precisão e abrangência
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Modelagem Operadores:
—Cruzamento: Quebra de dois indivíduos em ponto aleatório
—Mutação: Troca aleatória de um valor no dna:• 0 1 e vice-versa• MTS: x [-1, número de termos atômicos
- 1]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Experimentos – Tarefas English Text Chunking
[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ]
onde: NP = Noun Phrase; VP = Verb Phrase; PP = Prepositional Phrase Chunk
English Noun Phrase Chunking [NP He ] reckons [NP the current account deficit ] will narrow to
[NP only # 1.8 billion ] in [NP September ] Portuguese Named Entity Extraction
[PER Bill Gates] é, em parceria com sócio [PER Paul Allen], o fundador da [COM Microsoft].
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
25
Experimentos Divisão do corpus— Treinamento
• Pequenas frações separadas para o treinamento do genético
— Teste Resultados reportados— Medida-F no conjunto de teste — Tempo total de treinamento
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados BNP - FCW
Resultados muito bons, com tempo de treinamento compatíveis
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados BNP – MTS e FLAT
Comportamentos similares Aumento na performance e tempo de
treinamento
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados BNP - TL
Resultados um pouco melhores que o humano
Aumento no tempo de treinamento
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados condensados CK e
NE
Resultados similares ao BNP NE
resultados melhores mesmo com modelagens mais simples Aumento no tempo de treinamento 1 x 100 (alto relativamente,
porém baixo em valores absolutos) Gabaritos gerados por humanos são bem específicos
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Considerações GA TBL Construção de gabaritos é um
processo caro Método automático de
criação/seleção de gabaritos—Resultados muito melhores que BLS—Perda de desempenho aceitável—Tempo de treinamento compatíveis:
• Algumas vezes, MENOR• maior, apenas caso não se incorpore o
tempo de intervenção do especialista
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
31
Referências bibliográficasBRILL, E. Transformation-based error-driven learning and
natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, 1995.
BRILL, E. Recent Advances in Parsing Technology, chapter Learning to Parse With Transformations. Kluwer Academic Publishers, 1996.
DAY, David; Aberdeen, John; Hirschman, Lynette; Kozierok, Robyn; Robinson, Patricia ; and Vilain, Marc. Mixed-Initiative Development of Language Processing Systems. In Fifth Conference on Applied Natural Language Processing, 1997, pp. 348–355. ACL
FLORIAN, R., HENDERSON, J. e NGAI, G. Coaxing confidence from an old friend: Probabilistic classifications from transformation rule lists. Em Proceedings of EMNLP/VLC-2000, Hong Kong, October 2000.
HIGGINS, Derrick. A transformation-based approach to argument labeling. CoNLL 2004.
MANGU, L. e BRILL, E. Automatic rule acquisition for spelling correction. Em Proceedings of The Fourteenth International Conference on Machine Learning, ICML 97. Morgan Kaufmann, 1997.
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
32
Referências bibliográficasMEGYESI, B. Shallow parsing with pos taggers and linguistic
features. Journal of Machine Learning Research, 2:639–668, 2002.
NGAI, G. e FLORIAN, R. Transformation-based learning in the fast lane. In Proceedings of North American Chapter of the Association for Computational Linguistics, págs. 40–47, June 2001.
Projeto Lácio Web. Link: ttp://www. ilc cmc sp r acioweb RAMSHAW, L. e MARCUS, M. Text chunking using
transformation-based learning. In Proceedings of the Third Workshop on Very Large Corpora, págs. 82–94, New Jersey, USA, 1995. ACL.
SAMUEL, K., CARBERRY, S. e VIJAY-SHANKER, K. Dialogue act tagging with transformation-based learning. Em Proceedings of COLING/ACL’98, págs. 1150–1156, 1998.
SANTOS, Cícero Nogueira dos. Aprendizado de Máquina na Identificação de Sintagmas Nominais: O caso do Português Brasileiro. Dissertação de Mestrado, IME, Rio de Janeiro, 2005.
WILLIAMS, Ken; Dozier, Christopher and McCulloh, Andrew. Learning Transformation Rules for Semantic Role Labeling. CoNLL 2004.