Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem...
-
Upload
tribunal-de-contas-da-uniao-tcu-oficial -
Category
Technology
-
view
217 -
download
5
Transcript of Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem...
Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de
denúncias
TEXT MINING
TRIAGEM DE DENÚNCIAS DA CGU
Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO
Ouvidoria(35 mil)
Lixo Eletrônico(17 mil )
Fluxo da Triagem de DenúnciasDSSA
UDSEDU
DRDAG
91 diferentes áreas da
CGU...
Dados insuficient
esNão é
competência CGU
Já foi Ficalizada
Arquivadas...
Exemplo de Texto de Denúncia com Erros de Ortografia
Exemplo de Lixo Eletrônico
Porque a triagem manual é um problema?
O estoque de denúncias aumenta a cada diaPoucos servidoresProcesso de triagem baseado em palavras chaves
Denúncia é feita com campo texto em formato livre
91 áreas da CGU para as quais as denúncias devem ser encaminhadas
Objetivo
Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAUDSEDU
DRDAG
91 diferentes áreas da
CGU...
Arquivadas
Elimina similares
Dados insuficient
esNão é
competência CGU
Já foi Ficalizada
...
Denúncias Repetidas – como tratar?
Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.
Valida antes da triagem. 1 = denúncias idênticas!
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAUDSEDU
DRDAG
91 diferentes áreas da
CGU...
Arquivadas
Elimina similares
Dados insuficient
esNão é
competência CGU
Já foi Ficalizada
...
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação, números e espaços
Conversão de letras Maiúsculas para minúsculas
Uso de stemming
Base de dadosDenúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
Resultados
• POC com 4 categorias• Precisão de 0.82• 58 categorias – precisão de 0.554
Classificação multi-label
Resultados
Conclusões- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias- Identificação automática de denúncias similares- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!- Triagem pode indicar mais de uma unidade da CGU- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agencyhttp://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!
Text mining
Mineração de textos é o processo de descoberta de conhecimento que utiliza técnicas de análise e extração de dados a partir de textos, frases ou palavras. É o processo de extrair padrões interessantes e não triviais ou conhecimento a partir de documentos em textos não estruturados.
Etapas da Mineração de Textos
Similaridade de CossenosA técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que o documento pertence.
Precisão
Precisão é a quantidade de itens selecionados que estão corretamente classificados. Mede, dentre todos os documentos julgados, a quantidade de documentos classificados corretamente como positivos, sendo portanto, a proporção entre o número de itens selecionados que foram recuperados corretamente. Em um contexto com um total de 1000 denúncias por exemplo, caso a precision seja igual a 0.87, quer dizer que 870 das 1000 denúncias foram classificadas corretamente e 130 foram classificadas incorretamente.