uso de matrizes de co-ocorrências para classificação automática de ...
Classificação automática de notícias em português do Brasil
-
Upload
rodrigo-zaccara -
Category
Technology
-
view
618 -
download
3
description
Transcript of Classificação automática de notícias em português do Brasil
![Page 1: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/1.jpg)
CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL
Rodrigo Constantin Ctenas Zaccara6367629
![Page 2: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/2.jpg)
AGENDA
• Motivação
• Objetivos
• Reconhecimento de Entidades Nomeadas
• MUC7
• Aquisição e extração de conteúdo
• Classificação de conteúdo
• Próximos passos
![Page 3: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/3.jpg)
MOTIVAÇÃO
•Direcionamento automático de notícias para nicho de interesse
![Page 4: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/4.jpg)
OBJETIVOS
•Desenvolvimento de córpus público baseado em notícias esportivas
•Motor de reconhecimento e classificação de entidades nomeadas
![Page 5: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/5.jpg)
RECONHECIMENTO DE ENTIDADES NOMEADAS
![Page 6: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/6.jpg)
CONCEITOS
• Subárea no campo de extração de informação
•Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural
![Page 7: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/7.jpg)
DESAFIOS
• Ausência de informação
• Ambiguidade semântica
• Exemplo:
• “Pessoas fazem orações por São Paulo”
![Page 8: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/8.jpg)
MUC7
![Page 9: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/9.jpg)
INFORMAÇÕES GERAIS
•Message Understanding Conference Proceedings
• Financiado pela Defense Advanced Research Projects Agency
• Textos jornalísticos completos
• Temas:
•Quedas de aviões
• Lançamentos de mísseis e foguetes
![Page 10: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/10.jpg)
ETIQUETAS
Tag Categoria Descrição de uso
ENAMEX LOCATION Nome político ou geográfico
ORGANIZATION Entidades organizacionais
PERSON Nome de pessoa ou famíla
NUMEX MONEY Expressão financeira
PERCENT Dados percentuais
TIMEX DATE Data completa ou parcial
TIME Horário completo ou parcial
![Page 11: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/11.jpg)
EXEMPLO
<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launch Wednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satellite programming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER> </DOC>
![Page 12: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/12.jpg)
AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO
![Page 13: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/13.jpg)
HISTÓRICO
• Excite em 1993
• Yahoo! em 1994
• Alta vista em 1995
• Google em 1997
Inicio da decaca de 90Googlebot
![Page 14: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/14.jpg)
OBJETIVOS
![Page 15: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/15.jpg)
OBJETIVOS
![Page 16: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/16.jpg)
OBJETIVOS
![Page 17: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/17.jpg)
RESULTADOS
• Redução em 81 % de links irrelevantes
• Filtro AAAA/MM/DD
• Filtro baseado no header Content-Type
![Page 18: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/18.jpg)
CLASSIFICAÇÃO DE CONTEÚDO
![Page 19: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/19.jpg)
DEMONSTRAÇÃO
![Page 20: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/20.jpg)
PREMISSAS
•Mecanismo flexível e dinâmico para criação do conjunto de etiquetas
• Sistema iterativo de classificação
• Pontos de recuperação
• Localização dos recursos de interface
![Page 21: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/21.jpg)
TECNOLOGIAS
• HTML
• CSS
• JavaScript
• JSTL
• EL
• Servlet
• jQuery
• log4j
•MongoDB
•MySQL
![Page 22: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/22.jpg)
DEMONSTRAÇÃO
![Page 23: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/23.jpg)
RESULTADOS
• Ganho de 43% na classificação da notícia
• Simples: 7 minutos
• Rica: 4 minutos
• Ganho de 99% na gerência de documentos
• Simples: 100 segundos
• Rica: 1 segundo
![Page 24: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/24.jpg)
RESULTADOS
• Ganho de 54% no processo geral
• Simples: 8:40 minutos
• Rica: 4:01 minutos
![Page 25: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/25.jpg)
ETIQUETAS
1a Fase 2a Fase 3a Fase
Pessoa Time Torcida
Lugar Estádio
Organização Campeonato
![Page 26: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/26.jpg)
CLASSIFICAÇÃO
• Substantivos próprios
• Apelidos (mago, gladiador)
• Referências (tricolocor do Morumbi)
Uma vez que este trabalho tem como principal objetivo a classificação de entidades ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.
![Page 27: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/27.jpg)
PRÓXIMOS PASSOS
![Page 28: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/28.jpg)
CRONOGRAMA
![Page 29: Classificação automática de notícias em português do Brasil](https://reader031.fdocumentos.tips/reader031/viewer/2022020716/5492e440ac79591d2e8b46e6/html5/thumbnails/29.jpg)
CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL
Rodrigo Constantin Ctenas Zaccara6367629