Anais - EnAComp · Anais do XIV Encontro Anual de Computação - EnAComp - 2018 - ISSN: 2178-6992...

Anais

ISSN: 2178-6992

Suporte:

i

Anais do

XIV Encontro Anual de Computação

EnAComp 2018

15 a 17 de maio de 2018

Catalão - GO - Brasil

Universidade Federal de Goiás – UFG

Universidade Federal de Catalão - UFCat

ISSN 2178-6992

Editores Profa. Dra. Luanna Lopes Lobato - DC/UFG-RC Prof. Dr. Márcio Antônio Duarte - DC/UFG-RC

Prof. Dr. Thiago Jabur Bittar - DC/UFG-RC

Anais do XIV Encontro Anual de Computação - EnAComp - 2018 - ISSN: 2178-6992

ii

Apresentação

Seja bem-vindo ao XIV Encontro Anual de Computação (EnAComp) 2018, sediado na Universidade Federal de Goiás (UFG), Regional Catalão (RC), a qual está em transição para se tornar a Universidade Federal de Catalão (UFCat), e organizado pelo Departamento de Ciência da Computação (DCC). O evento, anualmente, reúne professores, pesquisadores, profissionais e estudantes da graduação e pós-graduação de todo Brasil, com o objetivo de discutir sobre as inovações referentes à Computação.

O objetivo primário do EnAComp é despertar o interesse de alunos da computação e de áreas correlatas, pelos temas que têm estado em destaque na academia e na indústria, afim de reiterar os alunos e profissionais às necessidades da pesquisa e do mercado de trabalho.

O evento que começou, em 2003, com o nome de Simpósio Anual de Computação (SiAComp) passou a ser denominado de Encontro Anual da Computação (EnAComp), em 2010, iniciando uma nova jornada de busca por seu reconhecimento no cenário nacional e internacional.

Em 2010, em sua 8a edição, o EnAComp teve como tema “Computação, Inovação e Mercado”, trazendo profissionais nacionais e internacionais para ministrarem palestras e minicursos. O evento foi reformulado sob a coordenação dos professores Dra. Luanna Lopes Lobato e Dr. Thiago Jabur Bittar, proporcionando, além das palestras e minicursos, o Campeonato de Jogos Digitais, Maratona de Programação, apresentação de artigos orais e pôsteres e premiações. Os artigos foram apresentados por pesquisadores de diferentes regiões do Brasil, o que mostrou que o EnAComp já havia superado as fronteiras do centro oeste do país. Com mais de 200 inscritos para as palestras, obteve recorde em termos de público, com foco voltado para o mercado de trabalho, graduação, pós-graduação e tendências da computação. Além de ter contado com o apoio de parceiros que tem, desde então, acreditado no evento, como Capes, CNPq e Fapeg, bem como os patrocinadores locais que tem nos ajudado a tornar o evento mais prazeroso.

Em 2011 o EnAComp já havia se tornado um evento conhecido e bem-conceituado pelas pessoas da área e, em sua 9a edição, teve como tema “Tecnologias Inteligentes: Desafios Científicos e Tecnológicos na Computação”, sendo coordenado pelos professores Dr. Dalton Matsuo Tavares, Dra. Liliane do Nascimento Vale e Dr. Vaston Gonçalves da Costa.


iii

Em 2013, em sua 10a edição, o EnAComp teve como tema “Computação: da teoria à prática” e ocorreu durante 4 dias, por ter sido uma edição especial, comemorando 10 anos de evento, sendo coordenado pelos professores Dra. Luanna Lopes Lobato e Dr. Thiago Jabur Bittar. Neste ano, foram oferecidas mais palestras e minicursos, em que foram abordados assuntos referentes à Computação em suas várias vertentes e como essas são aplicadas na prática das empresas.

Em 2014, 11a edição, o evento teve como tema “Sistemas Embarcados: novas visões de desenvolvimento”, sendo apresentados métodos computacionais de desenvolvimento em sistemas embarcados, ferramentas de síntese de circuitos digitais e projetos em redes de comunicação. O evento foi coordenado pelos professores Dr. Tércio A. S. Filho e Dr. Sérgio Francisco da Silva.

Em 2015, em sua 12a edição, o EnAComp teve como tema: “Computação: Tecnologia, Educação e Mercado”, com o objetivo de apresentar como a computação, se relacionada às tecnologias digitais, educação e mercado, pode auxiliar nas mais diversas atividades, gerando resultados satisfatórios, seja na área científica, tecnológica, mercadológica, dentre outras. O evento foi coordenado pelos professores Dra. Luanna Lopes Lobato e Dr. Márcio Antônio Duarte.

Em 2017, 13a edição, o tema foi referente a “Interdisciplinaridade: Ciência, Mercado e Tecnologia”, trazendo palestras que retrataram a computação sendo aplicada a diferentes áreas de pesquisa. O evento foi coordenado pelos professores Dra. Núbia Rosa e Dr. Márcio Antônio Duarte, com o apoio de outros professores do Departamento de Ciência da Computação, que coordenaram alguma atividade.

Neste ano, 14a edição, o XIV EnAComp trouxe como tema principal a “Interatividade Homem/Máquina: mesclagem da realidade e digitalidade”, apresentando palestras e minicursos de algumas das mais relevantes instituições da área, como, Aptor Software, Facebook, Instituto Nacional de Pesquisas Espaciais (INPE), Oracle, UFG, UFSCar e USP. O evento foi coordenado pelos professores Dr. Márcio Antônio Duarte e Dra. Luanna Lopes Lobato.

O evento, desde sua 1a edição, foi realizado na UFG – RC, de modo a atrair para o centro oeste do país, mais especificamente para Goiás, pessoas interessadas em discutir sobre temas em destaque na computação e áreas afins, trazendo para a região importantes palestrantes, o que culmina em relevantes debates. Em todos os anos, o evento proporcionou, além das palestras e minicursos, a realização da Maratona de Programação, Campeonato de Jogos Digitais e Apresentação de artigos, no formato pôster e oral, havendo premiação para estes.


iv

A publicação dos Anais é disponibilizada em formato eletrônico, com supervisão editorial de servidores da UFG e participação científica de pesquisadores de instituições de diferentes partes do país e do mundo. Tal publicação conta com atribuição de número de ISSN 2178-6992 e é disponibilizada eletronicamente no endereço do evento: http: www.enacomp.com.br. Este livro contém os artigos aceitos como apresentação oral no EnAComp 2018, os quais tratam de vários temas de pesquisa e desenvolvimento em Ciência da Computação.

Os participantes do EnAComp são representantes de diferentes regiões do Brasil. A crescente participação de estudantes, professores e profissionais da área vem a caracterizar a importância do evento, tanto para a comunidade acadêmica, como também para o mercado industrial. Assim, torna-se possível a integração profissional e cultural entre os participantes, os quais possuem em comum o interesse pelo uso da computação em suas atividades.

Ainda, é importante ressaltar que o evento tem contribuído, de forma positiva, para o crescimento e divulgação da UFG – RC, mais especificamente para o curso de Ciência da Computação, uma vez que provê meios de incentivo aos alunos e profissionais. Além da capacitação dos estudantes e profissionais, que é também facilitada por meio da realização deste evento, deve-se ressaltar a importância da pesquisa e da inovação tecnológica em computação, como força motriz para o desenvolvimento de um país.

Nesse contexto, o XIV EnAComp tem como foco englobar assuntos relacionados à computação, com foco na interatividade homem e máquina. Assim, busca-se promover o conhecimento referente a temas inovadores e tecnologia de ponta para o profissional em formação.

Fizemos nosso melhor para oferecer um interessante encontro, estimulando a troca de informações científicas e inspirando novas ideias e colaborações, para proporcionar-lhe ótimos dias durante sua estadia em Catalão, GO. Estamos felizes com sua presença e esperamos vê-lo nas próximas edições EnAComp.

“Para nós é uma satisfação coordenar o EnAComp”.

Prof. Dr. Márcio Antônio Duarte (Coordenador EnAComp 2018)

Profa. Dra. Luanna Lopes Lobato (Vice-Coordenadora EnAComp 2018)


v

Comissão Organizadora

Professores – UFG/RC – UFCat/DCC Prof. Dr. Márcio Antônio Duarte (Coordenador) Profa. Dra. Luanna Lopes Lobato (Vice-Coordenadora) Prof. Dr. Thiago Jabur Bittar (Equipe Executora) Prof. Dr. Márcio de Souza Dias (Equipe Executora) Alunos – UFG/RC – UFCat/DCC Alexandre Rocha Albino Ana Paula Soengas Rabelo de Moraes Danilo Augusto Corrêa Suzuki Dhalton de Paula Marcelino Fábio Lucas de Almeida Flávia Gonçalves Fernandes Gabriel Arruda Paranhos Netto Gabriel Santos Resende Gustavo Evangelista Araújo Ivo Palheta Mendes Lucas Ávila Oliveira Luiz Eduardo Costa da Mota Leite Matheus Matos Machado Melque Henrique Lemes de Castro Paulo Henrique Silva Azevedo Pedro Henrique Vieira Silva Rafael Araújo Carneiro Rafael Zeferino Rossi Wagner Silva Filho Washington Machado Lourenço


vi

Comitê Científico

M.Sc. Adam Henrique Moreira Pinto USP/Inst. de Ciências Matemáticas e de Computação (Doutorando). São Carlos/SP Lattes: http://lattes.cnpq.br/6013523320776340

Dr. Alcemir Rodrigues Santos UFPI/Departamento de Ciência da Computação - CSHNB. Picos/PI Lattes: http://lattes.cnpq.br/5855202416879547

Dr. Antônio Carlos de Oliveira Junior UFG/Instituto de Informática. Goiânia/GO Lattes: http://lattes.cnpq.br/3148813459575445

Dr. Aparecido Fabiano Pinatti de Carvalho University of Siegen/Department of Information Systems. Germany. Lattes: http://lattes.cnpq.br/5938256745631798

M.Sc. Carina Machado de Farias IFBA/Instituto Federal de Educação, Ciência e Tecnologia da Bahia. Nazaré/BA Lattes: http://lattes.cnpq.br/0098969128484565

Dr. Ciro Meneses Santos UFVJM/Instituto de Ciência, Engenharia e Tecnologia. Teófilo Otoni/MG Lattes: http://lattes.cnpq.br/0568358651250749

Dr. Dalton Matsuo Tavares UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/2307520004470578

http://lattes.cnpq.br/6013523320776340








vii

Dra. Daniele Santini Jacinto USP/Instituto de Física. São Carlos/SP Lattes: http://lattes.cnpq.br/4978298159144069

Dra. Dayse Silveira de Almeida UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/3543161568907178

Dr. Denis Rezende de Jesus UFG/RC - UFCat/Instituto de Física. Catalão/GO Lattes: http://lattes.cnpq.br/9971952953604977

Dr. Domingos Lopes da Silva Junior UFG/RC - UFCat/Instituto de Física. Catalão/GO Lattes: http://lattes.cnpq.br/4408689491417137

M.Sc. Douglas Daniel Del Frari Centro de Estudos Avançados do Recife (C.E.S.A.R). Recife/PE Lattes: http://lattes.cnpq.br/5813216656442007

M.Sc. Ednaldo Dilorenzo de Souza Filho Instituto Federal de Educação Ciência e Tecnologia da Paraíba. Monteiro/PB Lattes: http://lattes.cnpq.br/4483720738278386

Dra. Élida Alves da Silva UFG/RC - UFCat/Instituto de Matemática e Tecnologia. Catalão/GO Lattes: http://lattes.cnpq.br/5863501378045434

M.Sc. Fábio Gomes de Assunção PUC/Departamento de Computação. Goiânia/GO Lattes: http://lattes.cnpq.br/7562220997063398










viii

Dr. Fabrício da Costa Dias FACISA - Centro de Ensino Superior e Desenvolvimento. Campina Grande/PB Lattes: http://lattes.cnpq.br/6106142122604706

Dr. Fernando Antônio Asevedo Nóbrega B2W Digital. São Carlos/SP Lattes: http://lattes.cnpq.br/0167275230724673

M.Sc. Flávia Gonçalves Fernandes UFG/RC - UFCat/IMTec (Doutoranda). Catalão/GO Lattes: http://lattes.cnpq.br/3819488643372875

M.Sc. Frederico Severo Miranda UNIANDRADE - FACET. Curitiba/PR Lattes: http://lattes.cnpq.br/7834329816261442

M.Sc. Gláucya Carreiro Boechat UFBA/Instituto de Matemática e Estatística (Doutoranda). Salvador/BA Lattes: http://lattes.cnpq.br/7799035625879867

M.Sc. Gleibson Rodrigo Silva de Oliveira UFPE/Centro de Informática (Doutorando). Recife/PE Lattes: http://lattes.cnpq.br/8469623669888243

Dr. Henrique Emanuel Mostaert Rebêlo UFPE/Centro de Informática. Recife/PE. Lattes: http://lattes.cnpq.br/2340616806258461

M.Sc. Hercílio de Medeiros Sousa UFPB/Departamento de Mídias Digitais - IESP. Litoral Norte/PB Lattes: http://lattes.cnpq.br/2771260225601245










ix

M.Sc. Hugo Sica de Andrade Chalmers Institute of Technology & University of Gothenburg . Suécia Lattes: http://lattes.cnpq.br/6158529951707953

M.Sc. Iohan Gonçalves Vargas USP/Inst. de Ciências Matemáticas e de Computação (Doutorando). São Carlos/SP Lattes: http://lattes.cnpq.br/5355676282090651

M.Sc. Isledna Rodrigues de Almeida UFRPE/Sistemas de Informação. Serra Talhada/PE Lattes: http://lattes.cnpq.br/8142534647575696

Dr. Ivan do Carmo Machado UFBA/Instituto de Matemática e Estatística. Salvador/BA Lattes: http://lattes.cnpq.br/4430958315746203

Dr. Ivan da Silva Sendin UFU/Faculdade de Computação. Uberlândia/MG Lattes: http://lattes.cnpq.br/3974513105953302

M.Sc. Iuri Santos Souza UFBA/Instituto de Matemática e Estatística (Doutorando) - RiSE. Salvador/BA Lattes: http://lattes.cnpq.br/5067841357024109

M.Sc. Jeneffer Cristine Ferreira UFRPE/Departamento de Estatística e Informática. Recife/PE Lattes: http://lattes.cnpq.br/3000364145302421

Dr. João Fernando Mari UFV/Sistemas de Informação. Rio Paranaíba/MG Lattes: http://lattes.cnpq.br/3582704696209050




http://lattes.cnpq.br/4430958315746203%C2%A0






x

M.Sc. Júnior César de Lima Instituto Federal Goiano/Campus Urutaí. Urutaí/GO Lattes: http://lattes.cnpq.br/0773093291434417

M.Sc. Kádna Maria Alves Camboim Vale UFRPE/Ciência da Computação. Garanhuns/PE Lattes: http://lattes.cnpq.br/2817387497612302

M.Sc. Larissa Rocha Soares UFBA/Instituto de Matemática e Estatística (Doutoranda) – RiSE. Salvador/BA Lattes: http://lattes.cnpq.br/5750570352089990

M.Sc. Leandro Agostini do Amaral USP/Inst. de Ciências Matemáticas e de Computação (Doutorando). São Carlos/SP Lattes: http://lattes.cnpq.br/6798864284254487

M.Sc. Leandro Oliveira de Souza UFBA/Instituto de Matemática e Estatística (Doutorando) - IFBA. Irecê/Ba Lattes: http://lattes.cnpq.br/0888766836848437

Dr. Leandro Marques do Nascimento UFRPE/Departamento de Estatística e Informática. Recife/PE Lattes: http://lattes.cnpq.br/9163931285515006

Dr. Leonardo Barreto Campos IFBA/Departamento de Informática. Vitória da Conquista/BA Lattes: http://lattes.cnpq.br/5550218769434638

Dra. Luanna Lopes Lobato Jabur UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/4980327889869289










xi

M.Sc. Luiz Fernando Elias Martinez UFG/RC - UFCat/Centro de Recursos Computacionais (CERCOMP). Catalão/GO Lattes: http://lattes.cnpq.br/7781291966379959

Dr. Márcio Antônio Duarte UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/9907691146700229

Dr. Marcílio Ferreira de Souza Júnior Instituto Federal de Alagoas/Sistemas de Informação. Maceió/AL Lattes: http://lattes.cnpq.br/2702843581642246

Dr. Márcio de Souza Dias UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/0095510023252013

Dr. Marcos Antônio de Matos Laia UFSJ/Departamento de Ciência da Computação. São João del-Rei/MG Lattes: http://lattes.cnpq.br/7114274011978868

M.Sc. Michelle Larisa Luciano Carvalho UFBA/Instituto de Matemática e Estatística (Doutoranda). Salvador/BA Lattes: http://lattes.cnpq.br/1374389984062396

M.Sc. Muriel de Souza Godoi Universidade Tecnológica Federal do Paraná. Apucarana/PR Lattes: http://lattes.cnpq.br/0999074599659982

Dra. Nádia Félix Felipe da Silva UFG/Instituto de Informática. Goiânia/GO Lattes: http://lattes.cnpq.br/7864834001694765










xii

M.Sc. Nilton Mendes de Souza Câmara Municipal de São Carlos. São Carlos/SP Lattes: http://lattes.cnpq.br/2545116725555618

Dra. Núbia Rosa da Silva UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/8448585265537772

Dr. Paulo Anselmo da Mota Silveira Neto UFRPE/Departamento de Estatística e Informática. Recife/PE Lattes: http://lattes.cnpq.br/6465144387155252

M.Sc. Paulo Henrique Ferreira Fontoura Junior TALGOS - Jogos em Busca de Talentos. São Carlos/SP Lattes: http://lattes.cnpq.br/2848367342756894

Dr. Rafael de Amorim Silva UFAL/Instituto de Computação. Maceió/AL Lattes: http://lattes.cnpq.br/8460560631457931

M.Sc. Rayner de Melo Pires USP/Inst. de Ciências Matemáticas e de Computação (Doutorando). São Carlos/SP Lattes: http://lattes.cnpq.br/0810809935476541

Dra. Renata Teles Moreira UFLA/Departamento de Ciência da Computação. Lavras/MG Lattes: http://lattes.cnpq.br/7640822964644158

M.Sc. Renata Maria de Souza UFBA/IME (Doutoranda) - Instituto Federal da Bahia. Jacobina/BA Lattes: http://lattes.cnpq.br/8154336739411524










xiii

M.Sc. Rhavy Maia Guedes Instituto Federal de Educação, Ciência e Tecnologia. Guarabira/PB Lattes: http://lattes.cnpq.br/4396387875808972

Dr. Sérgio Francisco da Silva UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/9061098995683609

M.Sc. Simone Silveira Amorim UFBA/Instituto de Matemática e Estatística (Doutoranda). Salvador/BA Lattes: http://lattes.cnpq.br/0735776247724502

Dra. Sofia Larissa da Costa UFSJ/Departamento de Ciência da Computação. São João del-Rei/MG Lattes: http://lattes.cnpq.br/6389879317105663

Dr. Tércio Alberto dos Santos Filho UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/2865736345811010

Dr. Thiago Porto de Almeida Freitas UFG/RC - UFCat/Instituto de Matemática e Tecnologia. Catalão/GO Lattes: http://lattes.cnpq.br/5154082262879445

Dr. Thiago Jabur Bittar UFG/RC - UFCat/Departamento de Ciência da Computação. Catalão/GO Lattes: http://lattes.cnpq.br/9281027127027716

Dr. Ulysses Roberto Chaves Vitor UFJF/Departamento de Circuitos Elétricos. Juiz de Fora, MG Lattes: http://lattes.cnpq.br/2951148239333793










xiv

Dr. Valdemar Vicente Graciano Neto UFG/Instituto de Informática. Goiânia/GO Lattes: http://lattes.cnpq.br/9864803557706493

Dr. Vinicius Cardoso Garcia UFPE/Centro de Informática. Recife/PE Lattes: http://lattes.cnpq.br/6613487636748832

Dr. Vinícius Sebba Patto UFG/Instituto de Informática. Goiânia/GO Lattes: http://lattes.cnpq.br/3585475958654532

M.Sc. Wesley Barbosa Thereza UNEMAT/Departamento de Computação. Alto Araguaia/MT Lattes: http://lattes.cnpq.br/5509610744649925

Dr. Wylliams Barbosa Santos UPE/Sistemas de Informação. Caruaru/PE Lattes: http://lattes.cnpq.br/9286314412199926







xv

Agradecimentos

Agradecemos ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e a Fundação de Amparo à Pesquisa do Estado de Goiás (FAPEG) pelo financiamento ao EnAComp 2018, o que contribuiu para que pudéssemos realizar este evento com maior qualidade.

Adicionalmente, agradecemos a todos os patrocinadores que acreditaram no EnAComp, sendo nossos parceiros na realização do evento neste ano, sendo eles: Tek Informática e Fretebrás.

Não podemos deixar de agradecer aos palestrantes, que vieram compartilhar conosco um pouco de seus conhecimentos: Ms. Adam Henrique M. Pinto (USP), Ms. Aloísio Almeida Jr (Facebook), Dr. Alexandre Cardoso (UFU), Dr. Edésio H. Paulicena (INPE), Ms. Eric Fer (UFSCar), Ms. Leandro Agostini do Amaral (Aptor Software / USP), Dr. Leonardo Barros (Oracle) e Dr. Vinícius Sebba Patto (UFG).

A todos os participantes do EnAComp 2018, nosso muito obrigado, que o evento possa ter colaborado na formação de uma forte rede de contatos. Agradecimento especial a todos professores e alunos da comissão organizadora, pelo empenho na realização deste evento que é tão querido pelo Departamento de Computação da UFG/RC – UFCat.


xvi

Sumário

Algoritmo Evolutivo com Método de Correção de Infactibilidade para o Problema de Estruturas de Proteínas

Guilherme Oliveira e Christiane Brasil ................................................................... 1

Analisando Manchetes e Posts de Redes Sociais para inferência de Aspectos e Sentimentos no Contexto Financeiro

Dayan de F. Costa e Nádia Félix Felipe da Silva .................................................... 9

Análise da Resolutividade das Unidades Básicas de Saúde de Um Distrito Sanitário de Curitiba Por Meio de Técnicas de Mineração de Dados

William Hamilton dos Santos e Gilson Yukio Sato ............................................... 17

Aplicação de Algoritmos Genéticos para Solução do Problema da Caixa Preta

Flávia Gonçalves Fernandes, Marcos Napoleão Rabelo e Sérgio Francisco da Silva ................................................................................................................................ 25

Correção Automática de Acrônimos Sem Explicação

Daniel Carrijo e Márcio de Souza Dias .................................................................. 33

Desenvolvimento de um Sistema de Biometria Facial Baseado em Técnicas de Visão Computacional

Iago Garcia Vargas e Josué Silva de Morais .......................................................... 41

Identificador Automático de Acrónimo sem Explicação

Henrique Papa e Márcio de Souza Dias ................................................................. 49


xvii

Metodologia de Visão Computacional para Detecção de Olhos em Imagens de Face Humana

Daniel Santos da Silva, Gabriela Nayara Duarte Oliveira Damazio, Francisco Soares da Silva Junior, Jefferson Douglas Fernandes e Emannuel Diego Gonçalves de Freitas ................................................................................................................. 57

Práticas e Lições Aprendidas em Pesquisa de Campo sobre o Desenvolvimento de Jogos Digitais Educativos

Lucas Ávila Oliveira, Matheus Matos Machado, Gabriel Santos Resende, Rafael Zeferino Rossi, Gustavo Evangelista Araújo, Leandro Agostini Amaral, Elson Longo, Thiago Jabur Bittar e Luanna Lopes Lobato .............................................. 65

Refinamento de Malha com Base na Convergência do Método de Elementos Finitos

Karla Melissa dos Leandro, Flávia Gonçalves Fernandes, Samuel Wanberg Lourenço Nery, Marcos Napoleão Rabelo e Marco Paulo Guimarães .................. 73

Scratch como Ferramenta de Ensino Lógico e Matemático nas Escolas Estaduais

Adalto A. P. Sobrinho, Wesley B. Thereza e Fernando Y. Obana......................... 81

Uma Metodologia para a Predição da Massa Corporal de Codornas Europeias por Meio de Visão Computacional

Gabriela Nayara Duarte Oliveira Damazio, Daniel Santos da Silva, Francisco Soares da Silva Júnior, Expedito Alves de Lima e Emannuel Diego Gonçalves de Freitas ..................................................................................................................... 89

Algoritmo Evolutivo com Metodo de Correcao deInfactibilidade para o Problema de Estruturas de Proteınas.

Guilherme Pacheco de Oliveira1, Christiane Regina Soares Brasil1

1Faculdade de Computacao – Universidade Federal de Uberlandia (UFU)Uberlandia– MG – Brasil

{guilhermepo2,christiane}@ufu.br

Abstract. The protein structures prediction is one of the most thought-provokingcombinatorial problems in the real world, being classified computationally asa NP problem. The objective of this work was to analyze an Evolutionary Al-gorithm for prediction of 3D structures of proteins with backtracking correctionof infeasible solutions, using the HP-3D Model to represent the structures. Theanalysis showed that the results were coherent to the literature, proving to becompetitive.

Resumo. A predicao de estruturas de proteınas e um dos problemas combi-natorios mais instigantes do mundo real, sendo classificado computacional-mente como um problema NP. O objetivo desse trabalho foi analisar um Al-goritmo Evolutivo para predicao de estruturas 3D de proteınas com correcaopor backtracking de solucoes infactıveis, usando o Modelo HP-3D para rep-resentar as estruturas. A analise mostrou que os resultados foram coerentes aliteratura, revelando-se competitivo.

1. Introducao

Na grande area de Ciencia da Computacao, ha uma subarea que trabalha com proble-mas combinatorios complexos, que se refere a uma classe de problemas NP, isto e, com“tempo polinomial nao determinıstico”. Neste contexto, temos os seguintes problemascomputacionais: do caixeiro viajante, da mochila, torre de Hanoi, algoritmos em grafoscomo cobertura de vertices, ciclo hamiltoniano, entre outros [Cormen et al. 2010].

No mundo real, um famoso desafio da ciencia ha decadas classificado como NP eo Problema de Predicao de Estruturas de Proteınas (PSP, do ingles Protein Structure Pre-diction) [Crescenzi et al. 1998] [Cox and Doudna 2012]. Sabe-se que a estrutura proteicafornece valiosas informacoes quanto a sua funcao em um organismo vivo. Deste modo,determinar sua funcionalidade pode colaborar efetivamente na investigacao de doencas,bem como na criacao de novos farmacos. Portanto, o processo de predizer uma estruturae fundamental para o avanco da ciencia. No entanto, a maioria das proteınas nao possuiestrutura conhecida, pois os processos convencionais de predicao ainda sao ineficientes(ressonancia nuclear magnetica e cristalografia) por serem caros, lentos e apresentaremlimitacoes em relacao ao tamanho da proteına.

Deste modo, diversas tecnicas de otimizacao computacional sao aplicadas aoproblema de PSP [Simons et al. 1999] [Holley and Karplus 1999] [Custodio et al. 2004][Shmygelska and Hoos 2005] [Lin and Su 2011] [Brasil et al. 2013] . Neste trabalho,


1

foram abordados os Algoritmos Evolutivos (AEs) [Goldberg 1989] que sao bastante uti-lizados, pela simplicidade da implementacao e pelos bons resultados.

O objetivo deste trabalho foi desenvolver um AE para o problema de PSP,chamado AEBACK , com um modelo simplificado HP-3D [Lau and Dill 1989]aplicando um metodo de correcao de solucoes infactıveis. Ha muitospesquisadores que tem trabalhado com procedimentos com estes fins [Cotta 2003][Johnson and Katikireddy 2006][Gabriel et al. 2012], seja por backtracking, penalidadeou outra tecnica, reduzindo, desta maneira, o espaco de busca para somente regioes comsolucoes validas. Os resultados obtidos foram comparados com trabalhos relevantes daliteratura [Cotta 2003][Lin and Su 2011].

2. Algoritmos Evolutivos

2.1. Breve introducao sobre Algoritmos Evolutivos

Os algoritmos evolutivos (AEs) sao tecnicas de otimizacao computacional criadas porGoldberg [Goldberg 1989], as quais foram baseadas na Teoria da Evolucao de Darwin[Darwin 1859]. Segundo essa teoria, uma populacao e capaz de evoluir a partir da so-brevivencia dos indivıduos mais aptos. No contexto computacional, sua implementacaoe simples e de facil implementacao, alem de apresentar ao final nao apenas uma solucao,mas um conjunto de solucoes.

Esses algoritmos possuem uma funcao objetivo, que deve ser minimizada ou max-imizada, dependendo do problema. Primeiramente, e gerado um conjunto aleatorio desolucoes, que corresponde a populacao inicial, onde se aplica a funcao objetivo a cadasolucao, a fim de medir quao boa e, atribuindo-lhes um valor de aptidao chamado fit-ness. Com base no fitness, as melhores solucoes sao escolhidas para a geracao seguinte.Por meio de operadores de reproducao, novas solucoes sao geradas e competem com asantigas. Ao final de cada geracao, as solucoes com os melhores fitness permanecem napopulacao, ocasionando uma evolucao. Esse processo e repetido ate que a condicao deparada seja satisfeita (numero de geracoes ou fitness alcancado). Uma ilustracao desseprocesso pode ser visto na Figura 1.

Figure 1. Fluxograma do Algoritmo Evolutivo.

O operador de recombinacao (crossover) gera novos indivıduos pela troca deinformacoes de dois ou mais indivıduos [Gabriel and Delbem 2008], havendo, portanto,a combinacao de caracterısticas dos pais. O tipo de recombinacao mais simples e arecombinacao de um ponto. Nesta, seleciona-se um ponto aleatorio igual para os dois


2

pais, entao sao gerados dois filhos, cada um com a parte a esquerda de um pai e a direitade outro pai. A recombinacao de um ponto pode ser generalizada para n pontos, sorteandon cortes aleatorios nos pais e criando secoes nos indivıduos.

O operador de mutacao modifica aleatoriamente um ou mais posicoes de umindivıduo (lembrando que este pode ser representado por um vetor). Um exemplode mutacao ocorre com a selecao de uma posicao de modo aleatorio no indivıduo e,em seguida, a troca deste pelo conteudo de outra posicao. Por exemplo, usando umacodificacao binaria, caso um gene fosse 0, passaria a ser 1. Essa operacao acontece comuma probabilidade chamada de taxa de mutacao, que geralmente e baixa.

A seguir, sera descrito o AE com metodo de correcao de solucoes infactıveis.

2.2. Algoritmo Evolutivo com Correcao por Backtracking

2.2.1. O Modelo HP e o calculo do Fitness

No algoritmo evolutivo desenvolvido, a representacao das solucoes e feita com uma malha(lattice) tridimensional chamada de modelo simplificado HP-3D [Lau and Dill 1989].Este modelo e baseado no efeito hidrofobico dos aminoacidos, ou seja, na capacidadeque o aminoacido tem de repelir (ou nao) a agua. Neste contexto, os aminoacidos saoclassificados em hidrofobicos (H) e hidrofılicos (P), tambem conhecidos como polares,como pode ser observado na Figura 2.

Figure 2. Uma proteına representada no modelo HP-3D, obtida pela execucaodo programa implementado. Em tons escuros sao aminoacidos polares (P), emtons claros, hidrofobicos (H). As linhas pretas sao as ligacoes entre aminoacidosconectados, e as vermelhas tracejadas sao as interacoes hidrofobicas.

O Modelo HP possui uma formula especıfica para calcular o fitness (aptidao) deuma dada proteına representada neste modelo. Essa energia e inversamente proporcionala quantidade de interacoes H-H, uma vez que a funcao objetivo do PSP busca a menorenergia livre possıvel. A energia de conformacao e dada pela seguinte formula:

E = βi,j∑δ(ri, rj)

Onde:

• β e 1 se os aminoacidos forem do tipo H, e 0, caso contrario.• A funcao δ assume 1 se os aminoacidos ri e rj sao vizinhos nao conectados, e 0,

caso contrario.


3

Existem possibilidades de representacao de um indivıduo no modelo HP, comocoordenadas cartesianas [Unger and Moult 1993] ou internas [Cotta 2003]. Mais especi-ficamente, a representacao por coordenadas internas pode ser absoluta ou relativa.

A codificacao absoluta adota um sistema de referencia absoluta e os indivıduossao representados como movimentos em relacao a esse sistema. Por exemplo, em umlattice cubico com esse sistema, existem seis movimentos possıveis: norte, sul, leste,oeste, cima e baixo. Em contrapartida, na codificacao relativa o sistema adotado nao efixo, logo, ele depende do ultimo movimento realizado. Como exemplo, novamente emum lattice cubico, com o sistema de coordenadas relativas existem cinco movimentospossıveis: frente, direita, esquerda, cima e baixo.

Neste trabalho foi adotada a representacao por coordenadas internas relativas.

2.2.2. O Algoritmo de correcao para solucoes infactıveis

Quando uma solucao esta sendo gerada por um algoritmo, pode ocorrer uma colisao,isto e, quando um aminoacido ocupa a mesma posicao de outro. Ha duas formas in-tuitivas de lidar com o problema de colisoes: uma e trabalhar com formas de penal-idade [Gabriel and Delbem 2008] e a outra com algoritmos de correcao [Cotta 2003][Johnson and Katikireddy 2006] [Gabriel et al. 2012].

Nesse estudo utilizou-se um algoritmo de correcao por backtracking baseado notrabalho do Cotta [Cotta 2003]. O algoritmo de referencia cria uma solucao nova (es-trutura nova), com a ajuda de operadores geneticos, que efetuam a correcao das solucoesinfactıveis. O algoritmo de correcao em nosso trabalho trata de um candidato invalido quetem seus movimentos alterados gradualmente enquanto ainda ha colisao, ate que se tornefactıvel. A principal diferenca e que este nao usa operadores geneticos para a correcoes.

O procedimento de correcao e descrito a seguir: primeiramente, e verificado se anova solucao sendo construıda possui ou nao colisoes. Caso nao haja colisoes, e verificadose possui o mesmo tamanho da sequencia invalida original; caso seja positivo, significaque o algoritmo de correcao chegou ao final e a estrutura e uma solucao factıvel. Sehouver colisao, o ultimo movimento e trocado pelo proximo movimento da lista de movi-mentos possıveis (e trocado o ultimo pois da forma como o algoritmo foi implementadoa colisao sempre sera introduzida no ultimo aminoacido que foi inserido). Deste modo, oalgoritmo e executado recursivamente. Caso nao haja mais movimentos possıveis, nao hasolucao para aquele indivıduo especıfico, e o algoritmo termina sua execucao, sendo estasolucao impropria eliminada da populacao. Caso o tamanho nao seja o mesmo, o proximomovimento e adicionado a solucao sendo construıda, e em seguida, a lista de movimentospossıveis e atualizada, para conter todos os movimentos possıveis, exceto aquele que foiadicionado (diminuindo, portanto, gradativamente as possibilidades de movimentos), e oalgoritmo volta a ser executado recursivamente. A validade do resultado e verificada ecaso seja uma solucao factıvel, esta toma o lugar da antiga.

3. Resultados e Discussoes

Neste trabalho, os algoritmos foram implementados em linguagem C, no sistema opera-cional macOS X 10.11.6 e em um processador Intel Core i5 2.5GHz com 4GB de memoria


4

1600MHz DDR3. Os experimentos foram realizados com os dados advindos dos trabal-hos de referencia [Cotta 2003][Lin and Su 2011].

O algoritmo desenvolvido neste trabalho, chamado AEBACK , foi baseado no ar-tigo de Cotta pelo fato de tambem utilizar um metodo de correcao com backtracking, coma diferenca de que o dele utiliza operadores geneticos para correcao e o AEBACK naoaplica esses operadores. No entanto, ambos utilizam coordenadas internas relativas.

Foram realizadas 10 execucoes para cada sequencia nas configuracoes mostradasna Tabela 1.

Configuracao AEBACK CottaSobrevivencia Elitismo ElitismoPopulacao 100 100Taxa Crossover 90% 90%Taxa Mutacao 1% 1%Iteracoes 100000 100000Operadores Crossover Crossover de um ponto (50%)

e dois pontos (50%)Crossover de um ponto

Operadores Mutacao Um ponto aleatorio (50%) edois pontos aleatorios (50%)

Mutacao por backtracking

Correcao Utilizado para correcao nocrossover e na mutacao

Utilizado para geracao deindivıduos aleatorios, paramutacao e para correcao aposcrossover

Tabela 1: Configuracao do primeiro experimento.

Tamanho Sequencia E* AEBACK Cotta20 (HP)2PH(HP)2(PH)2HP(PH)2 -11 -11 -1124 H2P2(HP2)6H2 -13 -13 -1325 P2HP2(H2P4)3H2 -9 -9 -936 P(P2H2)2P5H5(H2P2)2P2H(HP2)2 -18 -16 -1648 P2H(P2H2)2P5H10P6(H2P2)2HP2H5 -29 -26 -2650 H2(PH)3PH4PH(P3H)2P4(HP3)2HPH4(PH)3PH2 -26 -24 -2460 P(PH3)H5P3H10PHP3H12P4H6PH2PHP -49 -44 -43

Tabela 2: Resultados do primeiro experimento, onde E* e a energia mınima da sequenciacorrespondente, e na quarta e quinta colunas sao apresentadas as menores energias

encontradas por AEBACK e pelo AE do Cotta [Cotta 2003], respectivamente.

Na Tabela 2, pode-se observar que no primeiro experimento o AEBACK e o AE doCotta obtem resultados equivalentes, com excecao para proteına maior (60 aminoacidos).Para melhorar estes resultados, foi executado outro conjunto de testes com uma novaconfiguracao, uma vez que foi verificado que o AEBACK convergiu antes das 100.000iteracoes. Deste modo, a quantidade de iteracoes foi para 50.000 e o tamanho napopulacao foi 200, para que se obtivesse maior diversidade na populacao. A fim de evitara estagnacao em otimos locais, a taxa de mutacao foi aumentada para 5% e a taxa decrossover foi reduzida para 80% para que pudessem ser preservadas mais solucoes boas,o que foi observado empiricamente. Os novos resultados foram mostrados na Tabela 3.


5

Tamanho E* AEBACK Cotta Cheng-Jian Lin e Shih-Chieh Su20 -11 -11 -11 -1124 -13 -13 -13 -1325 -9 -9 -9 -936 -18 -18 -16 -1848 -29 -27 -26 -2950 -26 -25 -24 -2660 -49 -47 -43 -49

Tabela 3: Resultados do segundo experimento.

Com essa nova configuracao, o AEBACK alcancou resultados mais promissoresque Cotta para as proteınas maiores que 25 aminoacidos, mostrando que com um ajusteadequado de parametros e possıvel melhorar o desempenho de um AE de modo signi-ficativo [Goldberg 1989]. Na Tabela 3 tambem foi mostrado os resultados obtidos notrabalho de Cheng-Jian Lin e Shih-Chieh Su [Lin and Su 2011], o qual apresenta umaabordagem hıbrida de um AE com PSO (Particle Swarm Optimization). Neste sentido,notam-se resultados animadores do AEBACK , uma vez que, diferente de um AE hıbrido[Lin and Su 2011], este nao tem nenhuma tecnica de otimizacao computacional combi-nada ao AE convencional.

Por fim, foi realizado um terceiro experimento a fim de comparar o AE comcorrecao por backtracking (AEBACK) com o AE sem backtracking (AENOBACK), ape-nas com uma funcao de penalidade atribuıda ao candidato com colisao. Os parametrosdos testes foram os mesmos utilizados na Tabela 1. A funcao de fitness do candidatocom a penalidade e baseada no trabalho de P. Gabriel [Gabriel and Delbem 2008], sendo:FitnessP = colisoes, onde colisoes e a quantidade de colisoes encontradas no indivıduo.

As execucoes foram realizadas em duas sequencias (com 20 e 36 aminoacidos)da Tabela 2, denominadas S20 e S36 respectivamente. Foram escolhidas essas proteınaspois representam uma instancia pequena e outra mediana do conjunto de teste usado,para dar uma ideia geral do comportamento dos AEs implementados. Os resultados daexecucao com AEBACK e AENOBACK estao nas Tabelas 4 e 5. A coluna Media do MelhorFitness apresenta a media da menor energia encontrada pelo AE em dez execucoes, acoluna Desvio Padrao apresenta o desvio padrao das melhores energias de cada execucao,a coluna de Menor Energia indica a menor energia encontrada em todas as execucoes e acoluna Media do Tempo mostra a media da quantidade de segundos despendidos nas dezexecucoes.

Algoritmo Media do Melhor Fitness Desvio Padrao Menor Energia Media do Tempo (s)AEBACK -10.5 0.7 -11 5745.150

AENOBACK -9.5 0.7 -11 3431.332

Tabela 4: Resultados do terceiro experimento para a sequencia S20.

Algoritmo Media do Melhor Fitness Desvio Padrao Menor Energia Media do Tempo (s)AEBACK -14.8 1.03 -16 35279.8

AENOBACK -11.4 1.26 -13 15518.1

Tabela 5: Resultados do terceiro experimento para a sequencia S36.


6

De acordo com as tabelas 4 e 5, observamos que o AE sem backtracking e maisrapido que o AE com backtracking. Sobre os valores das energias, o AEBACK obteveresultados melhores, no sentido de que o desvio padrao e igual ou menor, indicando umamenor diversidade nas melhores energias obtidas, e pela media, mostrou-se que essesvalores sao mais proximos do resultado otimo.

4. ConclusoesO principal objetivo deste trabalho foi analisar o efeito de um procedimento de correcaopor backtracking em um AE aplicado para PSP, usando o modelo HP-3D. Comparando oAEBACK a literatura [Cotta 2003], no primeiro experimento os resultados foram equiva-lentes, exceto pela proteına maior cuja energia mınima obtida foi melhor com o AEBACK .

No segundo experimento houve um ajuste de parametros, conforme observacoesempıricas, tornando-o mais eficiente. Isso confirma o fato que ajustar adequadamenteos parametros em AEs e uma etapa fundamental para a obtencao de melhores resulta-dos, uma vez que evidencias mostram que 10% do tempo dedicado esta no desenvolvi-mento de um Algoritmo Evolutivo, e os 90% restantes sao gastos no processo de ajustede parametros adequados [Coy and et al. 2000] [Gallagher and Yuan 2007]. Deste modo,foi possıvel superar os resultados de Cotta [Cotta 2003] para as quatro maiores proteınassob o ponto de vista das energias. Neste experimento tambem pode-se verificar que oAEBACK alcancou valores de energia promissores, por se tratar de um AE puro, ou seja,sem acrescimo de nenhuma outra tecnica de otimizacao, em comparacao ao trabalho deCheng-Jian Lin e Shih-Chieh Su [Lin and Su 2011], que e um AE hıbrido.

No terceiro experimento, o metodo de correcao com backtracking no AEBACK

mostrou-se eficaz em relacao a robustez do algoritmo e as menores energias alcancadas,apesar de ser mais custoso computacionalmente do que o AENOBACK . Deste modo,tem-se claro uma questao inerente aos algoritmos evolutivos, onde se deve ponderar oquanto se almeja alcancar o melhor fitness possıvel, e o quanto se deseja obter resultadossatisfatorios, mesmo que nao sejam os otimos, mas em um tempo viavel.

Baseado nessas limitacoes, novos passos sao considerados para trabalhos futuros,como: (i) implementar um procedimento para ajuste automatico de parametros; (ii) de-senvolver um metodo de correcao que alterne o backtracking e a penalidade, tendo emvista que o backtracking prejudicou o tempo computacional do AE; (iii) alterar o algo-ritmo de correcao para uma solucao semelhante que nao utiliza de recursao e estudar oimpacto no custo computacional e (iv) considerar a insercao de caracterısticas positivasde outras tecnicas computacionais ao AE, tais como ACO [Shmygelska and Hoos 2005],PSO [Lin and Su 2011], ou outras.

ReferencesBrasil, C. R. S., Delbem, A. C. B., and Da Silva, F. L. B. (2013). Multiobjective evo-

lutionary algorithm with many tables for purely ab initio protein structure prediction.Journal of Computational Chemistry, 34:1719–1734.

Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C., editors (2010). Introductionto Algorithms. MIT Press and McGraw-Hill., Cambridge, MA, USA.

Cotta, C. (2003). Protein structure prediction using evolutionary algorithms hybridizedwith backtracking. Lecture Notes in Computer Science, 2687:321–328.


7

Cox, M. M. and Doudna, J. A., editors (2012). Biologia Molecular: Princıpios e Tecnicas.Artmed Editora.

Coy, S. and et al. (2000). Using experimental design to find effective parameter settingsfor heuristics. Journal of Heuristics, pages 77–97.

Crescenzi, P., Golman, D., Papadimitriou, C. H., Piccolboni, A., and Yannakakis, M.(1998). On the complexity of protein folding. Journal of Computational Biology,50:423–466.

Custodio, F. L., Barbosa, H. J. C., and Dardenne, L. E. (2004). Investigation of the three-dimensional lattice hp protein folding model using a genetic algorithm. Genetics andMolecular Biology (Impresso), 27(4):611–615.

Darwin, C. R. (1859). On the origin of species.

Gabriel, P. H. R., de Melo, V. V., and Delbem, A. C. B. (2012). Algoritmos evolutivos emodelo hp para predicao de estruturas de proteınas. Revista Controle & Automacao,23(1).

Gabriel, P. H. R. and Delbem, A. C. B., editors (2008). Fundamentos de Algoritmos Evo-lutivos. Instituto de Ciencias Matematicas e de Computacao, Universidade Estadual deSao Paulo (USP).

Gallagher, M. and Yuan, B. (2007). Combining meta-eas and racing for difficult ea pa-rameter tuning tasks. In LOBO, Fernando G.; LIMA, Claudio F.; MICHALEWICZ,Zbigniew. Parameter Setting in Evolutionary Algorithms, volume 54, pages 121–142,Berlin. Springer.

Goldberg, D. E., editor (1989). Genetic Algorithms in Search, Optimization and MachineLearning. Addison-Wesley Publishing Company, Inc.

Holley, L. H. and Karplus, M. (1999). Secondary structure prediction with a neural net-work. Proc. Natl. Acad. Sci. USA, 86:152–156.

Johnson, C. M. and Katikireddy, A. (2006). A genetic algorithm with backtracking forprotein structure prediction. GECCO 2006, 2:299–300.

Lau, K. and Dill, K. (1989). A lattice statistical mechanics model of the conformationaland sequence spaces of proteins. Macro-molecules, 22(10):3986–3997.

Lin, C.-J. and Su, S.-C. (2011). Protein 3d hp model folding simulation using a hybridof genetic algorithm and particle swarm optimization. International Journal of FuzzySystems, 13(2).

Shmygelska, A. and Hoos, H. H. (2005). An ant colony optimization algorithm for the 2dand 3d hydrophobic polar protein folding problem. BMC Bioinf., 6(30):1–22.

Simons, K. T., Bonneau, R., Ruckzinski, I., and Baker, D. (1999). Ab initio proteinstructure prediction of casp iii targets using rosetta. PROTEINS: Structure, Functionsand Genetics Suppl 3, pages 171–176.

Unger, R. and Moult, J. (1993). A genetic algorithm for 3d protein folding simulations.Proceedings of ICGA, pages 581–588.


8

Analisando Manchetes e Posts de Redes Sociais parainferencia de Aspectos e Sentimentos no Contexto Financeiro

Dayan de F. Costa1, Nadia Felix Felipe da Silva1

1Instituto de Informatica – Universidade Federal de Goias (UFG)Goiania – GO – Brasil

{dayancosta,nadia}@inf.ufg.br

Abstract. Investors have always been interested in forecasting the stock prices.Hundreds of financial news are released on different media every day. In thisarticle web present a supervised learning approach based on Support VectorMachines in which the main objective is to detect sentiments and aspects inmessages from microblogs, news and headlines from financial sector. The systempresented was a participant in the Open Challenge - Financial Opinion Miningin FiQA (2018)1 - Task 1, reaching a mean squared error of 0.0958436, the bestof the competition, in one of the datasets provided by organizers.

Resumo. Investidores sempre se interessaram pela previsao do preco das acoes.Centenas de notıcias financeiras sao divulgadas em diferentes mıdias todos osdias. Neste artigo apresentamos uma abordagem de aprendizado supervision-ado baseada em Support Vector Machines em que o principal objetivo e detectarsentimentos e aspectos em mensagens de microblogs, manchetes e notıcias dosetor financeiro. O sistema apresentado foi participante do Open Challenge –Financial Opinion Mining in FiQA (2018)1 - Tarefa 1, atingindo um erro medioquadrado de 0.0958436, o melhor da competicao, em um dos datasets forneci-dos pelos organizadores.

1. IntroducaoO uso de veıculos de comunicacao como Twitter2 e StockTwits3, chamados de microblogs,tem aumentado nos ultimos anos, fazendo com que o mercado de mais atencao no que edito sobre as empresas nestes ambientes. Este aumento e dado por conta da facilidadede uso, o formato das mensagens e a acessibilidade nestas plataformas. As pessoas estaoutilizando estes veıculos de comunicacao para expressar seus sentimentos sobre a vida,negocios, trabalho, esportes entre outros, fazendo com que as marcas fiquem mais preocu-padas com o que as pessoas dizem sobre elas a fim de identificar qual o sentimento daspessoas sobre determinada marca, atrair mais clientes, etc. No domınio financeiro, estestextos cheios de opinioes sao capazes de mudar o setor, elevando ou decaindo o valor domercado de acoes [Smailovic et al. 2014].

Dado o crescente uso das plataformas de microblogging na ultima decada, asaplicacoes de tecnologia utilizando os dados gerados por elas tambem tem crescido,fazendo com que estas comecassem a migrar da academia para o mercado. Nos

1https://sites.google.com/view/fiqa/home2https://twitter.com3https://stocktwits.com


9

ultimos anos, a analise de sentimentos, assim como outras metodologias, comecarama se tornar um interesse do mercado e um interesse de pesquisa no setor financeiro[Bollen et al. 2010, Smailovic et al. 2014, Takala et al. 2014, Cortis et al. 2017]. Desdeentao os pesquisadores vem mostrando que as opinioes expressadas nos microblogs e emredes sociais podem ter um grande impacto no mercado [Goonatilake et al. 2007].

A analise de sentimentos e uma tecnica de machine learning que consiste emextrair, em varios nıveis de granularidade, informacoes de textos em linguagem naturalcom o objetivo de obter a polaridade do texto ou sentenca em questao. Os nıveis degranularidade sao tres:

1. Nıvel de documento que observa o sentimento global expresso em determinadotexto [Pang and Lee 2004];

2. Nıvel de sentenca cujo o objetivo e classificar a polaridade de cada sentenca emdeterminado texto [Kim and Hovy 2004];

3. Nıvel de caracterıstica ou aspectos cujo objetivo e analisar a polaridade dasopinioes sobre caracterısticas e/ou atributos do objeto [Wilson et al. 2009].

A aplicabilidade da analise de sentimentos e vasta[Liu 2012], podendo ser uti-lizada para monitorar a reputacao de determinada marca, como determinada notıcia afetadeterminados grupos de pessoas, e ultimamente tambem tem sido utilizada por candidatospolıticos e administradores para monitorar opinioes gerais sobre mudancas e campanhaspolıticas, permitindo que eles ajustem sua campanha para melhor se relacionar com oseleitores. Esta area do processamento de linguagem natural e cheia de desafios e, assimcomo a linguagem natural, a analise de sentimentos e bastante complexa, pois o que e rel-ativamente facil para os humanos classificarem subjetivamente na comunicacao deve sertraduzido em pontuacoes quantificaveis. Por exemplo, uma palavra que em determinadocontexto carrega um sentido positivo, podera ser utilizada de maneira ironica e facilmenteser interpretada incorretamente por um algoritmo caso o contexto e o tom utilizados naoforem levados em consideracao.

Neste trabalho, aplicamos tecnicas conhecidas como word embeddings[Mikolov et al. 2013], n-grams, word replacement4 e multiplos tipos de regressaoe classificacao como SVM (Support Vector Machines) com kernels lineares[Joachims 1998], modelos Bayesianos, ensembles5 e modelos de classificacao baseadosem arvores [Tan et al. 2005].

O restante do artigo e estruturado da seguinte forma: a secao 2 descreve os tra-balhos relacionados, a secao 3 detalha os conjuntos de dados utilizados, experimentos e adiscussao dos resultados e por fim a Secao 4 conclui o nosso trabalho.

2. Trabalhos RelacionadosMuitas iniciativas de pesquisas tem focado na analise de sentimentos das mıdias sociaise essas podem ser utilizadas para prever o futuro de indicadores das acoes do mercadofinanceiro. Nesta secao, damos uma visao geral dos estudos relacionados focados em:

4Word Replacement e uma tecnica de substituicao de palavras com significado comum como medida dereducao do vocabulario. Reduzindo o vocabulario sem perda do significado podemos economizar proces-samento em casos como analise de frequencia e indexacao de texto.

5Classificadores de sentimentos combinados com o objetivo de prover melhores resultados do que o usode um unico classificador [Fulcher 2008].


10

(i) analise de sentimentos de mıdias sociais como preditores de indicadores do futuro domercado de acoes e (ii) analise de sentimentos baseadas em aspectos.

2.1. Analise de sentimentos de tweets em textos oriundos de domınio financeiroA publicacao mais conhecida nesta area e a de Bollen [Bollen et al. 2010], onde foram in-vestigadas medidas de humor coletivo derivadas de tweets e se havia correlacao com valorda DJIA (Down Jones Industrial Average) ao longo do tempo. A analise de causalidadede Granger e uma Rede Neural Fuzzy foram utilizadas para investigar a hipotese de queos estados de humor publicos medidos pela serie temporal de humor do OpinionFinder edo Google-Profile of Mood States (GPOMS), foram preditivos de alteracoes nos valoresde fechamento da DJIA. Seus resultados indicaram que a precisao das predicoes da DJIApoderiam ser melhoradas pela inclusao de dimensoes especıficas do humor publico.

Smailovic [Smailovic et al. 2014] tambem analisou se o sentimento expresso emtweets que discutiam sobre empresas selecionadas e seus produtos, podem indicar suasmudancas nos precos das acoes. Para resolver este problema, uma abordagem de apren-dizado ativo foi desenvolvida e aplicada a analise de sentimentos de stream de tweets nodomınio do mercado de acoes. O artigo comeca apresentando um problema estatico deanalise de dados do Twitter, explorado a fim de determinar a melhor configuracao de pre-processamento dos dados especıficos do Twitter para treinar o classificador de sentimentobaseado em Support Vector Machine (SVM). Na configuracao, o teste de causalidade deGranger mostra que os sentimentos em tweets relacionados as acoes podem ser utilizadoscomo indicadores de movimentos de precos de acoes em alguns dias de antecedencia,onde os melhores resultados foram obtidos adaptando o classificador SVM para catego-rizar as postagens do Twitter em tres categorias de sentimento: positivo, negativo e neutro.Essas descobertas foram adotadas no desenvolvimento de uma nova abordagem de apren-dizagem ativa baseada na streams para analise de sentimentos, aplicavel na aprendizagemincremental a partir de stream de tweets financeiros em constante mudanca. Para este fim,uma serie de experimentos foram conduzidos a fim de determinar a melhor estrategia deconsulta para o aprendizado ativo do classificador SVM adaptado a analise de sentimentode streams de tweets financeiros. Os experimentos na analise de sentimentos do mer-cado de acoes de uma determinada empresa mostraram que mudancas na probabilidadedo sentimento positivo podem ser utilizadas como indicadores das mudancas nos precosde fechamento das acoes.

Pagolu [Pagolu et al. 2016] observou quao bem as alteracoes nos precos dasacoes de uma empresa, os aumentos e quedas, estao correlacionados com a opiniaopublica sendo expressada em tweets sobre aquela companhia. O artigo empregou duasrepresentacoes textuais, Word2Vec e N-gram, para analise do sentimento publico emtweets. Os autores aplicaram analise de sentimentos e princıpios de aprendizado demaquina supervisionados aos tweets e analisaram a correlacao entre as alteracoes do mer-cado de acao de uma empresa e o sentimento de tweets. Eles mostraram que notıcias etweets positivos nas mıdias sociais sobre uma empresa encorajariam as pessoas a investirnas acoes daquela empresa e, como resultado, o preco das acoes da empresa aumentaria.Alem disso, este estudo demonstrou uma forte correlacao entre os aumentos e quedas nosprecos das acoes com os sentimentos do publico em tweets.

Dada a ligacao entre sentimento e a dinamica do mercado, a analise de sentimentopublico torna-se um metodo poderoso para prever as reacoes do mercado. No entando,


11

a precisao das abordagens de sentimento baseada em aprendizado de maquina raramenteexcede setenta por cento [Takala et al. 2014].

2.2. Analise de sentimentos baseadas em aspectos

Sistemas de analise de sentimentos baseados em aspectos tratam um conjunto de tex-tos (por exemplo, revisao de produtos ou mensagens de mıdias sociais) discutindo umaentidade em particular (por exemplo, um novo restaurante) para detectar os principaisaspectos (caracterısticas) desta entidade (por exemplo, comida ou servico). O objetivoe estimar o sentimento medio dos textos por aspectos (por exemplo, quao positivas ounegativas as opinioes sao, em media, para cada aspecto)[Liu 2012].

Um dos primeiros estudos sobre a analise de sentimentos baseadas em aspectose de [Hu and Liu 2004], que seguiu uma abordagem baseada em frequencia. A ideia e,basicamente, que os nomes frequentemente mencionados sao mais propensos a seremum aspecto. Para compensar os erros resultantes causados por terem ignorado os nomespouco frequentes, os autores sugeriram explorar palavras de opiniao para encontrar osaspectos. Para esta parte, eles propuseram considerar a opiniao mais proxima. Esta ideiafoi utilizada em documentos de [Zhuang et al. 2006].

As principais abordagens utilizam classificadores com recursos manuais carosbaseados em n-grams e lexico de sentimentos. Por exemplo, Popescu and Etzioni[Popescu and Etzioni 2005] sugeriram o uso de parsers sintaticos para remocao de ter-mos nominais que frequentemente nao sao aspectos. Beneficiando-se de estatısticassobre o uso de substantivos da lıngua inglesa, Scaffidi [Scaffidi et al. 2007] melhoroua abordagem geral de confiar em nomes frequentes para extrair aspectos. Long[Long et al. 2010] adicionou o uso de informacoes de distancia e palavras dependentes(adjetivos).

3. Avaliacao Experimental

3.1. Datasets

O dataset utilizado foi disponibilizado pela competicao Open Challenge – FinancialOpinion Mining in FiQA (2018)1 - Tarefa 1, a qual e relacionada a analise de sentimentofinanceiro baseada em aspectos. O conjunto de dados consiste de 675 mensagens de mi-croblogs e 438 notıcias e manchetes para a fase treino (ver Tabela 1). Para a fase deteste o dataset possui 99 mensagens de microblgs e 93 notıcias e manchetes. Os dadosforam extraıdos de websites como StockTwits3, Reddit6, Wikinews7 entre outras paginasde domınio financeiro. Tabela 1. Estatısticas do dataset

Instancias Positivas Negativas NeutrasMensagens de Microblogs 675 440 234 1

Manchetes e Notıcias 438 282 144 12

A Tabela 1 refere-se as estatısticas sobre os dados de treino. A coluna Instanciasrefere-se a quantidade de sentencas disponıveis no dataset. Positivas, Negativas e Neutrascorrespondem as instancias cuja pontuacao dos sentimentos eram positivas, negativas ouzero, respecivamente.

6https://www.reddit.com/7https://www.wikinews.org/


12

Sobre os aspectos, o dataset possui 95 classes de aspectos para as notıcias emanchetes e 83 classes de aspectos para as mensagens de microblogs. Dentre estasclasses, as mais comuns nas notıcias e manchetes sao: ’corporate’, ’m&a’ e ’stock’com 327, 106 e 101 classificacoes, respectivamente. As classes mais comuns dentre asmensagens de microblogs sao: ’stock’, ’price action’, e ’bullish’ com 546, 379 e 203classificacoes respectivamentes. Os datasets possuem muitas classes com apenas umamensagem representante daquele aspecto. Por exemplo, o conjunto de mensagens denotıcias e manchetes possui 28 classes e o de mensagens de microblogs possui 29 classescom apenas um representante de cada aspecto.

O dataset de treino contem os seguintes atributos:• Target: Nas mensagens de microblog este refere-se as siglas das acoes das com-

panhias sem a cashtag ($). Nas notıcias e manchetes este refere-se a companhiaprincipal citada na sentenca.• Sentence: A mensagem ou notıcia/manchete na qual o sentimento e expresso.• Snippets: A principal parte da sentenca.• Aspects: Os aspectos associados as sentencas.• Sentiment Score: O sentimento da sentenca em uma escala entre -1 e 1, onde 1 e

muito positivo, -1 e muito negativo e 0 representa um sentimento neutro.

3.2. Engenharia de atributosDurante o desenvolvimento do sistema nos testamos um conjunto de tecnicas e parametrosna tentativa de alcancar um modelo preditivo com o maior desempenho. As tecnicasutilizadas sao descritas abaixo:

1. N-GramsE uma sequencia de palavras em um texto/sentenca. Nos fizemos o uso de uni-grams, bigrams, and trigrams no grid search (estimacao dos parametros dos algo-ritmos de classificacao utilizados) para identificacao de qual teria melhores resul-tados.

2. TokenizacaoFoi utilizada uma biblioteca chamada Unitok8 [Michelfeit et al. 2014] para tok-enizar as sentencas. Esta biblioteca ja realiza a tratativa de URLs, enderecos de e-mails, DNS e enderecos de IPs, alem de reconhecimento de abreviacoes da lınguainglesa.

3. Word ReplacementsForam testadas a substituicao e a nao substituicao das siglas das acoes dascompanhias apresentadas nas sentencas, bem como a substituicao de palavrasproximas de excelentes e horrıveis. Para a substituicao das palavras positivasnos utilizamos as palavras mais similares, baseadas na similaridade de cossenopara identificacao da polaridade, neste caso utilizamos a media das 10 palavrasmais similares. Com a sigla das acoes, foi testada a substituicao das mesmaspor uma palavra comum (por exemplo, substituımos a sigla $APPL pela palavra’company’) e tambem testamos a sua remocao das sentencas.

4. Word EmbeddingsAssim como muitas tarefas envolvendo o processamento de linguagem natural,nos decidimos pelo uso de word embeddings, que possuem melhor performance

8http://corpus.tools/wiki/Unitok


13

que o tradicional bag-of-words, que dificilmente captura a semantica das palavras.Como esta tecnica foi amplamente utilizada pelos vencedores da Task 5 do Se-mEval 2017 [Cortis et al. 2017], nos decidimos pelo uso da tecnica em nossosexperimentos atraves do uso do modelo word2vec9. Nos escolhemos por uti-lizar o word2vec por conta do seu tamanho (3 milhoes de entradas) e por contaque o mesmo e treinado no Google News10 utilizando o metodo de Mikolov[Mikolov et al. 2013].

5. TF-IDF (Term Frequency - Inverse Document Frequency)Foi utilizado o balanceamento TF-IDF [Salton and Buckley 1988] para reducaodo impacto da frequencia de palavras em ambos os casos, regressao eclassificacao.

3.3. Configuracao experimental

Na fase de treino, nos dividimos os dados utilizando a proporcao de 80%-20% de maneiraaleatoria, onde a parte que continha 80% dos dados era utilizada para o treino dos algo-ritmos e a parte com 20% dos dados era utilizada para testar e validar nossos algoritmos.Os resultados foram avaliados utilizando o Erro Quadratico Medio (MSE - Mean SquaredError) e o Coeficiente de Determinacao (R Squared) para a analise dos sentimentos, e aprecisao, revocacao (recall) e F1-Score para a tarefa de classificacao dos aspectos. Nosutilizamos, em ambos os casos, algoritmos baseados em Maquinas de Vetor de Suporte(SVM - Support Vector Machine) do sklean11, entao nos aplicamos o algorıtmo de Sup-port Vector Regression para a tarefa de analise de sentimentos e o algorıtmo de SupportVector Classifier para a tarefa de classificacao.

3.4. Resultados e discussao

Nesta secao apresentamos os resultados da analise de sentimento e classificacao de as-pectos realizada no Open Challenge – Financial Opinion Mining in FiQA (2018) - Tarefa1. Em nossos testes, obtivemos os seguintes resultados, de acordo com as metricas infor-madas pela organizacao – ver Tabela 2.

Tabela 2. Resultados da classificacao de aspectos no ”conjunto de testes naooficial”. Os dados de treinamento foram divididos randomicamente utilizandoa proporcao 80%-20%, onde a porcao que continha 80% dos dados foi utilizadapara treinar o algoritmo e os 20% para teste e validacao do algoritmo

Precisao Revocacao F1-ScoreMensagens de Microblogs 0.6673 0.5592 0.5775Manchetes e Notıcias 0.4992 0.4 0.4240

De acordo com os resultados oficiais12, nos atingimos as seguintes pontuacoessobre o desafio de analise de sentimentos – ver Tabela 3.

9https://code.google.com/archive/p/word2vec/10https://news.google.com/11http://scikit-learn.org/stable/index.html12Ate a data da publicacao deste artigo, os organizadores ainda nao haviam aberto ao publico e divulgado

a classificacao real e os valores para as tarefas de classificacao de aspectos e analise de sentimentos.


14

Tabela 3. Resultados Oficiais - Analise de SentimentosMSE R Squared Cosseno

Mensagens de Microblogs 0.206794 0.1665593177 0.415379Manchetes e Notıcias 0.0958436 0.1642305099 0.533388

De acordo com os resultados oficiais12, nosso sistema obteve o melhor MeanSquared Error da competicao na utilizacao do dataset de manchetes e notıcias com ovalor de 0.0958436.

Nossa abordagem, nesta competicao, foi a unica que nao utilizou de recursos deDeep Learning e obteve resultados satisfatorios tendo em vista o tamanho do conjunto dedados fornecido e as tecnicas aplicadas. Durante o desenvolvimento do nosso sistema par-ticipante, cujo foco foi obter bons resultados utilizando tecnicas simples de aprendizadode maquina, nos testamos outros algoritmos como as arvores de regressao com nıveis deprofundidade 3, 5 e 10, alguns algoritmos de ensembles13 como o Ada Boost e RandomForest. Nos tambem testamos a realizacao de um ensemble13 utilizando modelo de AdaBoost com SVM e extraindo a media dos resultados dos modelos, porem nossos melhoresresultados foram obtidos atraves do uso de SVMs.

4. Conclusoes

Neste artigo, nos descrevemos a nossa solucao implementada para a competicao OpenChallenge – Financial Opinion Mining in FiQA (2018)1 - Tarefa 1, com o objetivo depredizer sentimentos (positivos, negativos e neutros) em relacao a uma marca alvo demanchetes, notıcias e mensagens de microblogs financeiras, alem de prever os aspec-tos relacionados a cada mensagem. A organizacao nao divulgou o rank oficial, apenasas metricas analisadas e o resultado de cada metrica, onde obtivemos o melhor MeanSquared Error do desafio ao analisar o dataset de manchetes e notıcias. Nossa abordageme baseada na utilizacao de Support Vector Machine, uma tecnica de aprendizado supervi-sionado utilizando de um grid search para obter o melhor classificador/regressor para asconfiguracoes testadas. Nos mostramos que e possıvel obter bons resultados utilizandoabordagens simples de aprendizado de maquina aliadas a uma boa selecao de atributos.

ReferencesBollen, J., Mao, H., and Zeng, X. (2010). Twitter mood predicts the stock market. CoRR, abs/1010.3003.

Cortis, K., Freitas, A., Daudert, T., Huerlimann, M., Zarrouk, M., Handschuh, S., and Davis, B. (2017).Semeval-2017 task 5: Fine-grained sentiment analysis on financial microblogs and news. In Proceedingsof the 11th International Workshop on Semantic Evaluation (SemEval-2017), pages 519–535. Associa-tion for Computational Linguistics.

Fulcher, J. (2008). Computational Intelligence: An Introduction, pages 3–78. Springer Berlin Heidelberg,Berlin, Heidelberg.

Goonatilake, R., Herath, A., Herath, S., Herath, S., and Herath, J. (2007). Intrusion detection using the chi-square goodness-of-fit test for information assurance, network, forensics and software security. Journalof Computing Sciences in Colleges, 23(1):255–263.

Hu, M. and Liu, B. (2004). Mining and summarizing customer reviews. In Proceedings of the TenthACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages168–177, New York, NY, USA. ACM.

13Tecnica que permite treinar diferentes classificadores de sentimentos e entao combinar as saıdas comuma regra de combinacao, por exemplo voto majoritario.


15

Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant fea-tures. Machine learning: ECML-98, pages 137–142.

Kim, S.-M. and Hovy, E. (2004). Determining the sentiment of opinions. In Proceedings of the 20thinternational conference on Computational Linguistics, page 1367. Association for Computational Lin-guistics.

Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.

Long, C., Zhang, J., and Zhut, X. (2010). A review selection approach for accurate feature rating estimation.In Proceedings of the 23rd International Conference on Computational Linguistics: Posters, COLING’10, pages 766–774, Stroudsburg, PA, USA. Association for Computational Linguistics.

Michelfeit, J., Pomikalek, J., and Suchomel, V. (2014). Text tokenisation using unitok. In Horak, A. andRychly, P., editors, RASLAN 2014, pages 71–75, Brno, Czech Republic. Tribun EU.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. (2013). Distributed representations ofwords and phrases and their compositionality. In Advances in neural information processing systems,pages 3111–3119.

Pagolu, V. S., Challa, K. N. R., Panda, G., and Majhi, B. (2016). Sentiment analysis of twitter data forpredicting stock market movements. CoRR, abs/1610.09225.

Pang, B. and Lee, L. (2004). A sentimental education: Sentiment analysis using subjectivity summarizationbased on minimum cuts. In Proceedings of the 42nd annual meeting on Association for ComputationalLinguistics, page 271. Association for Computational Linguistics.

Popescu, A.-M. and Etzioni, O. (2005). Extracting product features and opinions from reviews. In Proceed-ings of the Conference on Human Language Technology and Empirical Methods in Natural LanguageProcessing, HLT ’05, pages 339–346, Stroudsburg, PA, USA. Association for Computational Linguis-tics.

Salton, G. and Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Inf. Process.Manage., 24(5):513–523.

Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., and Jin, C. (2007). Red opal: Product-featurescoring from reviews. In Proceedings of the 8th ACM Conference on Electronic Commerce, EC ’07,pages 182–191, New York, NY, USA. ACM.

Smailovic, J., Grcar, M., Lavrac, N., and Znidarsic, M. (2014). Stream-based active learning for sentimentanalysis in the financial domain. Information Sciences, 285:181 – 203. Processing and Mining ComplexData Streams.

Takala, P., Malo, P., Sinha, A., and Ahlgren, O. (2014). Gold-standard for topic-specific sentiment analysisof economic texts. In Chair), N. C. C., Choukri, K., Declerck, T., Loftsson, H., Maegaard, B., Mariani,J., Moreno, A., Odijk, J., and Piperidis, S., editors, Proceedings of the Ninth International Conferenceon Language Resources and Evaluation (LREC’14), Reykjavik, Iceland. European Language ResourcesAssociation (ELRA).

Tan, P.-N., Steinbach, M., and Kumar, V. (2005). Introduction to Data Mining, (First Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.

Wilson, T., Wiebe, J., and Hoffmann, P. (2009). Recognizing contextual polarity: An exploration of featuresfor phrase-level sentiment analysis. Computational linguistics, 35(3):399–433.

Zhuang, L., Jing, F., and Zhu, X.-Y. (2006). Movie review mining and summarization. In Proceedings ofthe 15th ACM International Conference on Information and Knowledge Management, CIKM ’06, pages43–50, New York, NY, USA. ACM.


16

Análise da Resolutividade das Unidades Básicas de Saúde de

Um Distrito Sanitário de Curitiba Por Meio de Técnicas de

Mineração de Dados

William Hamilton dos Santos 1, Gilson Yukio Sato2

1 e 2 Programa de Pós-Graduação em Engenharia Biomédica (PPGEB)

Universidade Tecnológica Federal do Paraná (UTFPR)

Av. Sete de Setembro, 3165 80230-901 Curitiba - PR - Brasil

[email protected], [email protected]

Abstract. Data related to the medical care provided to patients in the public

health system of Curitiba feed the E-Health computer system. We applied the

data mining in the public database of the Municipal Health Department,

derived from E-Health, to study attributes that determine the resolution given

by physicians working in Basic Health Units, specifically regarding to the

number of exams requested and referrals for specialized care. For this, the

decision tree classification algorithms and rule generators were applied to

records generated in one of the sanitary districts of the city, returning results

that allow units managers to monitor and determine the training and recycling

needs of the professionals working in their units.

Resumo. Dados relacionados à assistência médica prestada a pacientes no

sistema público de saúde de Curitiba alimentam o sistema de informática E-

Saúde. Aplicamos a mineração de dados na base de dados pública da

Secretaria Municipal de Saúde, derivada do E-Saúde, para estudar atributos

que determinam a resolutividade dada por médicos atuantes em Unidades

Básicas de Saúde, especificamente quanto à quantidade de exames solicitados

e encaminhamentos para atendimento especializado. Para isso, os algoritmos

de classificação de árvore de decisão e geradores de regras foram aplicados

nos registros gerados em um dos distritos sanitários da cidade, retornando

resultados que permitem que gestores das unidades monitorem e determinem

as necessidades de treinamento e reciclagem dos profissionais que trabalham

em suas unidades.

1. Introdução

Considerando a saúde como um direito de todos e um dever do Estado, é função do

Sistema Único de Saúde (SUS) [Brasil 2018], dispor de condições para a promoção, e

recuperação da saúde do indivíduo e da comunidade, ressaltando os princípios da

universalidade, integralidade e resolutividade.

Assim o acesso da população à rede de atendimento deveria se dar por meio dos

serviços de nível primário da rede de atenção na Unidade Básica de Saúde (UBS) da sua


17

localidade, pois ela é reconhecida como porta de entrada do usuário [BRASIL 2011] ao

sistema do SUS como um todo.

Desta forma, o funcionamento adequado da rede de saúde em nível primário

(UBS), possibilitaria a resolutividade da maioria dos problemas, deixando os centros de

especialidades e hospitais, executarem seus objetivos principais, aumentando a

satisfação dos usuários, bem como proporcionando melhor uso dos recursos existentes

para o sistema como um todo.

A rede de serviços do SUS de Curitiba atendeu a população de 1.848.943

habitantes [Saúde 2018a], em 2013, segundo o Instituto Brasileiro de Geografia e

Estatística (IBGE). Conta com 141 serviços próprios, dentre os quais estão 109

Unidades Básicas de Saúde e 9 Unidades de Pronto Atendimento, além de outros 23

equipamentos especializados [Saúde 2018b].

O objetivo deste trabalho é aplicar algoritmos de mineração na base de dados

pública derivada do sistema E-Saúde para encontrar atributos que indiquem motivos que

possam atestar a resolutividade dos atendimentos médicos das unidades (UBS), bem

como avaliar a precisão dos atributos encontrados.

2. Referencial Teórico

2.1. Mineração de Dados

Com a computação sempre presente, principalmente por causa da World Wide Web,

uma quantidade enorme de dados vem sendo produzida, coletada e armazenada de

diversas maneiras em escalas cada vez maiores [Gabardo 2015].

Estas demandas necessitam de enfoques e ferramentas para ajudar os seres

humanos na extração de informações úteis (conhecimento) desses volumes de rápido

crescimento de dados computacionais. Teorias que cobrem esse assunto pertencem ao

campo da Descoberta de Conhecimento [Oliveira Júnior 2015] em Bases de Dados, ou

KDD.

O KDD [Fayyad et al. 1996] é um processo não trivial que busca a identificação

de padrões, em dados, que sejam válidos, inéditos, potencialmente úteis e

compreensíveis. Trata do processo de descoberta de um conhecimento que tenha

utilidade, como um todo. Muitas vezes, o termo “Mineração de Dados” é usado de

forma ampla, como sinônimo de KDD. Entende-se como mineração de dados a

aplicação de algoritmos específicos para extrair padrões de dados.

2.2. Mineração de Dados Médicos

A mineração de dados aplicada à dados médicos é um processo desafiador [Ferreira

2015], por exemplo, muitas vezes, operadores preenchem os sistemas de informática de

forma incompleta ou falha, tendendo a produzir bases de dados esparsas, com dados

altamente variados, demandando o uso de diferentes técnicas e ferramentas para que as

bases possam ser exploradas de maneira que produzam algum resultado eficaz.

Existem ainda restrições éticas, legais e sociais relativas à privacidade e a

validação clínica dos achados. Assim, na maioria das vezes, os dados que realmente


18

chegam a ser analisadas são um subconjunto dos dados originais. Contudo, cada dia

mais, a mineração de dados vem ganhando destaque na área da saúde. Auxiliando as

organizações de saúde a tomar decisões de gerenciamento em relação aos utilizadores e

seus colaboradores [Ferreira 2015], como os profissionais de enfermagem e médicos.

2.3. Classificadores Utilizados

Classificação pode ser entendida como a distribuição sistemática em diversas categorias

segundo analogias e características comuns [Librelotto e Mozzaquatro 2013]. Os

algoritmos classificadores utilizados neste trabalho foram escolhidos em função das

características dos dados de saída de cada um, por isso foram empregados um

classificador de árvore de decisão e um classificador baseado em regras.

Uma árvore de decisão é um conjunto de condições dispostas em uma estrutura

hierárquica. É um modelo em que um exemplo é classificado seguindo o caminho de

condições satisfeitas a partir da raiz até atingir uma folha, que vai corresponder a um

rótulo de classe [Romero et al. 2008], por isso as árvores de decisão são consideradas

modelos simples e de fácil compreensão.

Já em um classificador baseado em regras, o modelo aprendido é exibido por

meio de um conjunto de regras do tipo “se-então”. As regras são uma boa maneira de

representar informação ou pedaços de conhecimento [Han et al. 2011].

3. Materiais e Métodos

3.1. Portal de Dados Abertos

A Prefeitura de Curitiba disponibiliza, por meio de seu portal na internet [Portal 2018],

documentos, informações e dados governamentais de domínio público para a livre

utilização, garantindo acesso a dados primários que possam ser reutilizados produzindo

novas informações e aplicações para a sociedade.

Para esse trabalho foi selecionada a base que contém os dados disponibilizados

referentes ao perfil de atendimento dos profissionais médicos das Unidades Básicas de

Saúde. Essa base de dados constitui-se em um arquivo no formato .csv que pode ser

baixado diretamente do portal de dados abertos.

Por possuir dados de toda rede de atendimento referente o primeiro trimestre de

2017, o arquivo obtido possui tamanho de 280 Mb, totalizando 730.738 registros. Junto

com ele, na mesma página é disponibilizado outro arquivo que é o dicionário de dados

da base.

Este dicionário contém os campos e a descrição de cada um, bem como outros

detalhes técnicos. Na base de dados medicos.csv, são disponibilizados 37 campos para

cada instância (ou registro).

3.2. Banco de Dados Para a Armazenagem dos Registros

Foi utilizado o banco de dados MySQL [MySQL 2018] para a criação de uma tabela

chamada MEDICO contendo os 37 atributos originais da base de dados, de acordo com

a descrição do dicionário de dados. Em seguida foram criados mais 10 novos atributos

na tabela MEDICO e populados com valores calculados ou inferidos dos campos

originais. O passo seguinte foi fazer uma seleção dos atributos que tem ligação com o


19

tema do trabalho, reduzindo a dimensionalidade para um total de 26, conforme

mostrados na tabela 1. Os atributos em caixa baixa são atributos originais da base, já os

em caixa alta foram criados.

Tabela 1: Atributos utilizados nas análises dos dados

Código

Nome do Atributo da

Tabela MEDICO Descrição

1 DIA_DA_SEMANA Dia da Semana do Atendimento

2 IDADE_FAIXA Faixa da Idade do Paciente

3 sexo Sexo do Paciente

4 descr_unidade Descrição da Unidade de Atendimento

5 descr_procedimento Descrição do Procedimento Realizado

6 descr_CBO Descrição da Ocupação do Profissional

7 cod_CID Código do Diagnóstico

8 CAP_CID Capítulo do CID do Diagnóstico

9 solicit_exames Indica se ocorreu solicitação de Exames

10 FARM_PRESCR Prescrição de medicamentos na Farmácia Curitibana

11 FARM_DISPEN Dispensação de medicamentos na Farmácia Curitibana

12 FARM_NAO_PADRON Medicamento Não Padronizado

13 enc_atend_especia

Indica se houve encaminhamento para atendimento de

Especialista

14 desencadeou_interna Indica se desencadeou Internamento

15 tratam_domic Tipo de Tratamento de Água no domicílio

16 abastecimento_agua Tipo de Abastecimento de Água no domicílio

17 energia_eletrica Indica se há energia elétrica no domicílio

18 tipo_habitacao Tipo de habitação no domicílio

19 destino Lixo Destino do lixo no domicílio

20 fezes_urina Destino das fezes/urina no domicílio

21 COMODOS_FAIXA Faixa de Cômodos da casa do paciente

22 em_caso_doenca Serviços procurados em caso de doença

23 grupo_comunitario Grupo Comunitário em que o paciente participa

24 meio_comunicacao Meios de Comunicação utilizados no domicílio

25 meio_transporte Meios de Transporte utilizados no domicílio

26 ORIGEM_CURITIBA Paciente mora em Curitiba

Os atributos adicionais foram criados para otimizar a aplicação dos algoritmos

classificadores. Por exemplo, foi criado o atributo CAP_CID, que agrupou em 21 valores

as 5000 ocorrências do atributo original CID melhorando a convergência dos resultados

quando submetido aos algoritmos.


20

3.3. Ferramenta PHP Para Manipulação dos Dados

Para a manipulação dos dados foi desenvolvida uma ferramenta específica,

implementada na linguagem de programação PHP. Essa ferramenta consistiu em uma

interface web com três funcionalidades:

F1. Importar os dados do arquivo medico.csv para a tabela MEDICO do MySQL.

F2. Gerar estatísticas, de acompanhamento, para os dados importados, campo a campo.

F3. Gerar os arquivos com a extensão .arff, principal formato lido pelo Weka.

3.4. Ambiente Weka

Para as análises dos atributos, foi utilizado o Weka, Waikato Environment for

Knowledge Analysis, reconhecido por ser referência em mineração de dados [Weka

2018]. Foi desenvolvido pela Universidade de Waikato, na Nova Zelândia, em

linguagem JAVA. Tem como principal objetivo resolver problemas de mineração de

dados baseado em aprendizagem de máquina, por meio de métodos de análise em

conjuntos de dados, de uma forma rápida e flexível [Hall et al. 2009].

No Weka, o algoritmo indutor de árvore de decisão escolhido foi o J.48 versão

implementada na linguagem Java do algoritmo C4.5. Já o algoritmos gerador de regras

de classificação utilizado foi o JRip, que é uma versão otimizada do algoritmo IREP.

4. Resultados e Discussão

O Weka foi alimentado por um arquivo .arff gerado com 19.926 instâncias

correspondente aos dados das 14 Unidades Básicas de Saúde e da de Pronto

Atendimento do distrito sanitário do bairro Boqueirão, correspondentes aos

atendimentos do mês de março de 2017. Foram aplicados os algoritmos J4.8 e JRip para

a classificação do atributo solicit_exames, pois dentre os atributos disponíveis na

base de dados disponibilizada, é o que mais reflete a expectativa de atendimento do

usuário evidenciando a resolutividade de uma Unidade Básica de Saúde.

Em ambos os classificadores foi usada a validação cross-validation, que consiste

em dividir o conjunto total de dados em k subconjuntos. Total de k=10 no experimento

realizado, sendo os subconjuntos mutuamente exclusivos e do mesmo tamanho. Usando

9 conjuntos, em cada ciclo, para treinar o modelo e o conjunto restante para teste do

modelo obtido.

4.1. Classificador J.48

A árvore de decisão obtida, com tamanho de total de 39 e número de folhas igual a 32,

pode ser vista no quadro 1. Do total de 26 atributos, o que o algoritmo J4.8 evidenciou

como raiz, ou seja, como preponderante no momento de solicitar exames, foi o

enc_atend_especia, com 4.484 ocorrências iguais a Sim dentro de um universo de

19.926 ocorrências. Seguido pelo atributo descr_CBO no segundo nível da árvore.

Obtendo índice de 74.66% das instâncias classificadas corretamente.

Uma característica importante a se notar na árvore gerada, são os dois números

exibidos ao lado de cada folha. O primeiro mostra o total de classificações realizadas, já

o segundo o total de classificações realizadas incorretamente dentro do total realizado,

dando assim uma ideia da eficácia da classificação realizada.


21

enc_atend_especia = Nao: Nao (15442/3473)

enc_atend_especia = Sim

| descr_CBO = MEDICO_CLINICO

| | FARM_NAO_PADRON = NAO_PADRON_NAO

| | | CAP_CID = 10:CapX: Sim (25/11)

| | | CAP_CID = 11:CapXI: Sim (40/10)

| | | CAP_CID = 12:CapXII: Sim (16/7)

| | | CAP_CID = 13:CapXIII: Sim (237/84)

| | | CAP_CID = 14:CapXIV: Sim (34/12)

| | | CAP_CID = 18:CapXVIII: Sim (165/57)

| | | CAP_CID = 19:CapXIX: Nao (4/0)

| | | CAP_CID = 1:CapI: Nao (4/1)

| | | CAP_CID = 21:CapXXI: Nao (571/254)

| | | CAP_CID = 3:CapII: Sim (2/0)

| | | CAP_CID = 4:CapIV

| | | | sexo = F: Sim (67/26)

| | | | sexo = M: Nao (32/13)

| | | CAP_CID = 5:CapV

| | | | sexo = F: Sim (47/21)

| | | | sexo = M: Nao (28/11)

| | | CAP_CID = 6:CapVI: Sim (6/3)

| | | CAP_CID = 7:CapVII: Nao (1/0)

| | | CAP_CID = 8:CapVIII: Nao (4/0)

| | | CAP_CID = 9:CapIX: Sim (128/57)

| | | CAP_CID = ?: Sim (0)

| | FARM_NAO_PADRON = NAO_PADRON_SIM: Sim (168/51)

| descr_CBO = MEDICO_DA_ESTRATEGIA_DE_SAUDE_DA_FAMILIA

| | IDADE_FAIXA = 1:Bebe: Nao (59/20)

| | IDADE_FAIXA = 2:Crianca: Nao (143/59)

| | IDADE_FAIXA = 3:Adolescente: Sim (84/38)

| | IDADE_FAIXA = 4:AdultoJovem: Sim (399/146)

| | IDADE_FAIXA = 5:Adulto: Sim (577/177)

| | IDADE_FAIXA = 6:Idoso: Sim (522/209)

| descr_CBO = MEDICO_GENERALISTA: Sim (0)

| descr_CBO = MEDICO_GINECOLOGISTA_E_OBSTETRA: Sim (834/103)

| descr_CBO = MEDICO_PEDIATRA: Nao (281/91)

| descr_CBO = MEDICO_PSIQUIATRA: Sim (0)

| descr_CBO = MEDICO_RESIDENTE: Sim (0)

Number of Leaves : 32

Size of the tree : 39

Quadro 1: Árvore de decisão gerada com o classificador J4.8 do atributo Solicitação de Exames

4.2 Classificador JRIP

O resultado do Classificador JRip, foi a geração de 13 regras, com 12 indicando a

solicitação de exames igual a Sim, totalizando de 3984 – 20,0 % das 19926 instâncias e

1 igual a Não, totalizando 15942 – 80,0% do total das instâncias. Na tabela 2, as regras

obtidas foram colocadas em ordem de decrescente de ocorrências. Do total de 26

atributos, o que o algoritmo JRip evidenciou como preponderante no momento de

solicitar exames, foi o atributo enc_atend_especia, com 3.572 ocorrências iguais a Sim.

O fato da saída gerada ser um texto com os atributos com seus respectivos

valores conectados pelo operador lógico and, facilita a leitura e a respectiva

interpretação da regra como um todo. Assim percebe-se que o atributo

enc_atend_especia igual a Sim é prevalente nas regras encontradas.

Semelhante a árvore de decisão, na última coluna da tabela 2 são exibidos dois

números, o primeiro com o total de classificações realizadas, e o segundo com o total de

classificações realizadas incorretamente. O classificador JRip, de maneira global, obteve

um índice de 74.80% das instâncias classificadas corretamente.


22

Tabela 2: Regras geradas com o classificador jRip do atributo Solicitação de Exames

Núm Regras com solicit_exames=Sim Ocorrências

Total/Erros

1 (enc_atend_especia = Sim) and (descr_CBO =

MEDICO_GINECOLOGISTA_E_OBSTETRA)

834/103 2 (enc_atend_especia = Sim) and (IDADE_FAIXA = 4:AdultoJovem) 610/259 3 (enc_atend_especia = Sim) and (descr_CBO =

MEDICO_DA_ESTRATEGIA_DE_SAUDE_DA_FAMILIA) and (IDADE_FAIXA

= 5:Adulto)

514/165 4 (enc_atend_especia = Sim) and (IDADE_FAIXA = 5:Adulto) 504/240 5 (enc_atend_especia = Sim) and (IDADE_FAIXA = 6:Idoso) and

(sexo = F) and (grupo_comunitario = NAO_PARTICIPA)

359/151 6 (descr_CBO = MEDICO_CLINICO) and (CAP_CID = 4:CapIV) 356/174 7 (enc_atend_especia = Sim) and (CAP_CID = 13:CapXIII) 355/77 8 (enc_atend_especia = Sim) and (descr_CBO =

MEDICO_DA_ESTRATEGIA_DE_SAUDE_DA_FAMILIA) and (IDADE_FAIXA

= 6:Idoso)

266/115

9 (enc_atend_especia = Sim) and (sexo = F) and (CAP_CID =

18:CapXVIII) and (FARM_NAO_PADRON = NAO) and

(meio_transporte = ONIBUS)

85/11

10 (enc_atend_especia = Sim) and (CAP_CID = 18:CapXVIII) and

(DIA_DA_SEMANA = 5-Quinta)

45/9

11 (descr_CBO = MEDICO_CLINICO) and (CAP_CID = 9:CapIX) and

(descr_unidade = UMS_MENONITAS)

36/12

12 (descr_CBO = MEDICO_CLINICO) and (CAP_CID = 9:CapIX) and

(FARM_NAO_PADRON = Sim)

20/6

13 solicit_exames=Não 15942/3601

O percentual de instâncias classificadas corretamente, para os classificadores

J4.8 e JRip, foi de 74.66% e 74.80 %, respectivamente, mostrando assim que o

desempenho dos algoritmos foi semelhante, com ambos convergindo ao apontar o

atributo enc_atend_especia como principal a ser considerado para quando se considera a

solicitação de exames de um paciente em uma Unidade Básica de Saúde.

5. Conclusões

Utilizando um algoritmo classificador de árvore de decisão (J4.8) e um gerador de

regras (JRip), foi possível evidenciar os atributos que contribuem para a solicitação de

exames, nas Unidades Básicas de Saúde do distrito sanitário do bairro Boqueirão.

Ambos os algoritmos apresentaram boa precisão na classificação, com

percentuais quase idênticos, próximo a 75%. A combinação dos dois também ajuda na

interpretação dos resultados, unindo a simplicidade das árvores de decisão com o

formato textual das regras, o que facilita a interpretação de um gestor, indicando ao

mesmo como e onde atuar na gerência dos recursos humanos das unidades de saúde.

A ferramenta web criada, possibilitou a manipulação dos dados de forma

automatizada, dispensando um maior conhecimento especializado em computação,

fazendo o gestor focar no objetivo do estudo em questão, que foi o de evidenciar a

resolutividade das Unidades Básicas de Saúde, podendo tomar decisões como, por

exemplo, desenvolver ações de reciclagem dos profissionais médicos para

possivelmente diminuir a solicitação de exames. Assim, podemos concluir que o

objetivo deste trabalho, com auxílio de um arcabouço computacional, foi alcançado de

maneira efetiva e satisfatória.


23

Referências

Brasil (2018). Sistema Único de Saúde, Portal do Ministério da Saúde. Disponível em :

http://www.saude.curitiba.pr.gov.br/a-secretaria/historico-da-secretaria.html

Acessado em 28/03/2018.

Brasil (2011). Ministério da Saúde. O SUS de A a Z : garantindo saúde nos municípios.

Série F. Comunicação e Educação em Saúde 3. ed. Brasília. Disponível em:

http://bvsms.saude.gov.br/bvs/publicacoes/sus_az_garantindo_saude_municipios_3e

d_p1.pdf Acessado em 30/03/2018.

Saúde (2018a). Histórico da Secretaria Municipal de Saúde de Curitiba. Disponível em:


Acessado em 25/02/2018.

Saúde (2018b). Distritos Sanitários da Secretaria Municipal de Saúde de Curitiba.

Disponível em: http://www.saude.curitiba.pr.gov.br/a-secretaria/equipe/distritos-

sanitarios.html Acessado em 25/02/2018.

Gabardo, A. C, (2015). Análise de Redes Sociais – Uma Visão Computacional. Ed.

Novatec. São Paulo.

Oliveira Júnior, J. G. de (2015). Identificação de Padrões para a Análise da Evasão em

Cursos de Graduação Usando Mineração de Dados Educacionais. Diss. UTFPR p-15.

Fayyad, U. M., Gregory Piatetsky-Shapiro and Padhraic Smyth (1996). Advances in

Knowledge Discovery and DM. American Association for A. I. p. 1–34.

Ferreira, Eduardo Liboredo, (2015). Mineração de Dados Aplicada à dados médicos.

Belo Horizonte. 68f. Dissertação UFMG, p-3, Belo Horizonte.

Ferreira, Eduardo Liboredo; Rausch, Herbert; Campos, Sergio (2014). Medical Data

Mining: A Case Study of a Paracoccidioidomycosis Patient’s. IEEE 16th

International Conference on e-Health Networking, Applications and Services.

Librelotto, Solange Rubert; Mozzaquatro, Patricia Mariotto (2013). Análise dos

Algoritmos de Mineração J48 e Apriori Aplicados na Detecção de Indicadores da

Qualidade de Vida e Saúde. Rev Interdisciplinar de ensino Pesq. e Ext. V.1 n1.

Romero, C., Ventura, S., Espejo, P. G., and Hervás, C. (2008). Data mining algorithms

to classify students. The First International Conference on Educational DM, p 8–17.

Han, J., Kamber, M., Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan

Kaufmann Publishers Inc., San Francisco, CA, USA, 3rd edition

Portal (2018). Portal de Dados Abertos da Prefeitura Municipal de Curitiba. Disponível

em: http://www.curitiba.pr.gov.br/dadosabertos/ Acessado em: 26/02/2018.

MySQL (2018). Global Development Group. The world's most advanced open source

database. Disponível em: http://www.postgresql.org Acessado em 20/02/2018.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H.

(2009). The Weka data mining software: an update. SIGKDD newsletter, 11:10–18.

Weka (2018). Data Mining with Open Source Machine Learning Software in Java.

Disponível em: http://www.cs.waikato.ac.nz/ml/weka/ Acessado em 05/02/2018.


24


http://bvsms.saude.gov.br/bvs/publicacoes/sus_az_garantindo_saude_municipios_3ed_p1.pdf

http://bvsms.saude.gov.br/bvs/publicacoes/sus_az_garantindo_saude_municipios_3ed_p1.pdf


http://www.curitiba.pr.gov.br/dadosabertos/

http://www.postgresql.org/

Aplicação de Algoritmos Genéticos para Solução do

Problema da Caixa Preta

Flávia Gonçalves Fernandes1, Marcos Napoleão Rabelo1,

Sérgio Francisco da Silva1

1Universidade Federal de Goiás (UFG) – Catalão – GO – Brasil

[email protected], [email protected],

[email protected]

Abstract. Much of the cost in the software life program concentrates on

maintenance of them. To mitigate this situation, software testing is used for an

application error purpose, avoiding end-user dissatisfaction, disruption and

expense to the company. In this perspective, the black box problem is a

software test to check the output of the data using the inputs of various types.

Such entries are not chosen according to the structure of the program. Thus,

this work has an implementation of a genetic algorithm to solve the problem of

the Black box and presents as results a study of a simplified method of some of

the parameters in the performance of the algorithm implemented.

Resumo. Grande parte dos custos no ciclo de vida de software se concentram

na manutenção dos mesmos. Para amenizar esta situação, os testes de

software são utilizados com a finalidade de reduzir os erros de aplicação,

evitando o descontentamento do usuário final, transtornos e gastos à empresa.

Nessa perspectiva, o problema da caixa-preta é um teste de software para

verificar a saída dos dados usando entradas de vários tipos. Tais entradas não

são escolhidas conforme a estrutura do programa. Desse modo, este trabalho

tem como objetivo a implementação de um Algoritmo Genético para a

resolução do Problema da Caixa Preta e apresenta como resultados a

realização de um estudo simplificado dos efeitos de alguns dos parâmetros no

desempenho do algoritmo implementado.

1. Introdução

O termo caixa preta vem originalmente das telecomunicações militares e dos

equipamentos inimigos que não podiam ser abertos devido a possibilidade de conter

explosivos. Um sistema formado por módulos que cumpram as características de caixa

preta simplifica a compreensão do funcionamento e permitem dar uma visão mais clara

do conjunto. Esse sistema é ainda mais robusto, fácil de manter; e, em caso de alguma

falha, este poderá ser analisado e abordado de maneira mais ágil [Rene, 2004].

A metodologia de abordagem de caixa preta utilizada para analisar um sistema

faz uso apenas da análise da relação entre o estímulo de entrada e a resposta de saída. A

causalidade não é assumida, mas é uma hipótese simplificadora. Idealmente, a descrição


25

matemática dessas relações permitem conclusões sobre a natureza das relações dos

sinais com o sistema [Rene, 2004].

Em programação modular, onde um programa (ou um algoritmo) é dividido em

módulos, na fase de projeto, procura-se desenvolver cada módulo como uma caixa preta

dentro do sistema global que o sistema pretende desempenhar. Desta maneira consegue-

se uma independência entre os módulos e facilita-se sua implementação separada por

uma equipe de trabalho onde cada membro encarrega-se de implementar uma parte (um

módulo) do programa global; assim o implementador de um módulo concreto deverá

conhecer como é a comunicação dos outros módulos (a interface), mas não necessitará

conhecer como trabalham esses módulos internamente [Linden, 2008].

Nessa linha de raciocínio, o objetivo principal deste trabalho é implementar um

algoritmo genético para a resolução do problema da caixa preta e realizar um estudo

simplificado dos efeitos de alguns parâmetros no desempenho do algoritmo

desenvolvido.

Na seção 2, é apresentada a conceituação teórica sobre o problema da caixa preta

e seus respectivos fundamentos. A seção 3 aborda a metodologia utilizada no

desenvolvimento do trabalho. Na seção 4, os resultados obtidos são expostos e, por fim,

a seção 5 mostra as conclusões e trabalhos futuros da pesquisa.

2. Fundamentação Teórica

Um algoritmo genético (AG) é uma técnica de busca utilizada na ciência da computação para achar soluções aproximadas em problemas de otimização e busca, fundamentado principalmente pelo americano John Henry Holland. Algoritmos genéticos são uma classe particular de algoritmos evolutivos que usam técnicas inspiradas pela biologia evolutiva como hereditariedade, mutação, seleção natural e recombinação (ou crossing over) [Goldberg, 2009].

Algoritmos genéticos são implementados como uma simulação de computador em que uma população de representações abstratas de solução é selecionada em busca de soluções melhores. A evolução geralmente se inicia a partir de um conjunto de soluções criado aleatoriamente e é realizada por meio de gerações. A cada geração, a adaptação de cada solução na população é avaliada, alguns indivíduos são selecionados para a próxima geração, e recombinados ou mutados para formar uma nova população. A nova população então é utilizada como entrada para a próxima iteração do algoritmo [Norvig; Russel, 2009].

A função-objetivo é o objeto da otimização. Pode ser um problema de otimização, um conjunto de teste para identificar os indivíduos mais aptos, ou mesmo uma "caixa preta" onde sabemos apenas o formato das entradas e nos retorna um valor que queremos otimizar. A grande vantagem dos algoritmos genéticos está no fato de não ser necessário saber como funciona esta função objetivo, apenas tê-la disponível para ser aplicada aos indivíduos e comparar os resultados [Koza, 2002].

O indivíduo é meramente um portador do seu código genético. O código genético é uma representação do espaço de busca do problema a ser resolvido, em geral na forma de sequências de bits. Por exemplo, para otimizações em problemas cujos valores de entrada são inteiros positivos de valor menor que 255 podemos usar 8 bits, com a representação binária normal, ou ainda uma forma de código gray. Problemas com múltiplas entradas podem combinar as entradas em uma única sequência de bits, ou


26

trabalhar com mais de um "cromossomo", cada um representando uma das entradas. O código genético deve ser uma representação capaz de representar todo o conjunto dos valores no espaço de busca, e precisa ter tamanho finito [Collares, 2017].

A seleção também é outra parte chave do algoritmo. Em geral, usa-se o algoritmo de seleção por "roleta", onde os indivíduos são ordenados de acordo com a função-objetivo e lhes são atribuídas probabilidades decrescentes de serem escolhidos - probabilidades essas proporcionais à razão entre a adequação do indivíduo e a soma das adequações de todos os indivíduos da população. A escolha é feita então aleatoriamente de acordo com essas probabilidades. Dessa forma conseguimos escolher como pais os mais bem adaptados, sem deixar de lado a diversidade dos menos adaptados. Outras formas de seleção podem, ainda, ser aplicadas dependendo do problema a ser tratado. Como exemplos pode-se citar a seleção por "torneio" (onde são selecionados diversos pequenos subconjuntos da população, sendo selecionado o indivíduo de maior adequação de cada um desses grupos), a seleção por "classificação" ou "ranking" (semelhante à seleção por "roleta", com a diferença de que a probabilidade de seleção é relacionada à sua posição na ordenação dos indivíduos da população e não à sua adequação em si) e a seleção por "truncamento" (onde são selecionados os N melhores indivíduos da população, descartando-se os outros) [Goldberg, 2009].

A reprodução, tradicionalmente, é dividida em três etapas: acasalamento, recombinação e mutação. O acasalamento é a escolha de dois indivíduos para se reproduzirem (geralmente gerando dois descendentes para manter o tamanho populacional). A recombinação, ou crossing-over é um processo que imita o processo biológico homônimo na reprodução sexuada: os descendentes recebem em seu código genético parte do código genético do pai e parte do código da mãe. Esta recombinação garante que os melhores indivíduos sejam capazes de trocar entre si as informações que os levam a ser mais aptos a sobreviver, e assim gerar descendentes ainda mais aptos. Por último vem as mutações, que são feitas com probabilidade a mais baixa possível, e tem como objetivo permitir maior variabilidade genética na população, impedindo que a busca fique estagnada em um mínimo local [Linden, 2008].

Logo, os algoritmos genéticos são algoritmos de otimização global, baseados nos

mecanismos de seleção natural e da genética. Eles empregam uma estratégia de busca

paralela e estruturada, mas probabilística, que é voltada em direção ao reforço da busca

de pontos de "alta aptidão".

3. Metodologia

Para o desenvolvimento do sistema que busca a solução para o Problema da Caixa

Preta, foi implementado um algoritmo genético utilizando linguagem de programação

Java e paradigma de programação orientada a objetos. A ferramenta de

desenvolvimento adotada foi o software Eclipse [Eclipse, 2017].

Desse modo, para a realização desta implementação, primeiramente, foram

pesquisados os conceitos sobre o problema da caixa preta e de algoritmos genéticos.

Posteriormente, foram pesquisados algoritmos e códigos-fonte já existentes em

linguagem de programação Java, com a finalidade de auxiliar no desenvolvimento do

problema proposto, devido à sua complexidade.

A partir dos conhecimentos adquiridos e das informações coletadas em

[Carvalho; Lacerda, 2017], [Collares, 2017], [Linden, 2008], [Maia, 2017], [Souza,


27

2017] e [Eclipse, 2017], foi possível a implementação deste Algoritmo Genético para

solução do Problema da Caixa Preta.

Sabendo-se que cada botão da caixa preta apresentada na Figura 1 pode ser

colocado em dezesseis posições distintas, e que se deseja maximizar o sinal de saída,

deseja-se encontrar a melhor combinação de posições.

(a) (b) Figura 1. (a) Caixa Preta. (b) Cada botão da Caixa Preta pode ser colocado em uma das 16 posições disponíveis. Cada combinação de posições gera um sinal de saída diferente.

Sabendo-se que cada botão da Caixa Preta pode ser colocado em uma de

dezesseis posições (posições de zero a quinze), cada posição pode ser representada por

um número binário de quatro bits. A posição 2, por exemplo, apresentada na parte (b) da

Figura 1, é representada pelo número 0010. A Tabela 1 apresenta as representações para

cada uma das dezesseis posições possíveis para cada um dos botões da Caixa Preta.

Cada indivíduo (cromossomo) representará uma combinação de posições para os botões

e, portanto, possuirá trinta e seis bits (quatro bits para cada um dos nove botões),

totalizando 236 (aproximadamente 68,72 x 109) soluções possíveis. Considerando-se

essa codificação, um indivíduo representando a combinação de posições apresentada na

parte (a) da Figura 1 apresenta a seguinte estrutura:

001001001111011011011000000011111001 (2, 4, 15, 6, 13, 8, 0, 15, 9).

Tabela 1. Representações para cada uma das posições possíveis para os botões da

caixa preta.

Posição Representação Posição Representação

0 0000 8 1000

1 0001 9 1001

2 0010 10 1010

3 0011 11 1011

4 0100 12 1100

5 0101 13 1101

6 0110 14 1110

7 0111 15 1111


28

No problema real, o mapeamento entre as 236 posições é desconhecido: só se

tem acesso ao valor de saída após a aplicação de uma configuração de posições para os

botões (motivo para a denominação Caixa Preta).

Assim, a solução ótima, determinada por meio da análise da função utilizada

para simulação (no problema real, a solução ótima é desconhecida), cujo valor

correspondente de saída é vinte e sete, é 111110111001101111111011111100101111.

Dessa maneira, o Algoritmo Genético implementado apresenta as seguintes

características:

• Seleção por roleta ou por torneio de 2 indivíduos (opção do usuário).

• Mutação por escolha aleatória do bit ou bit a bit (escolha do usuário).

• Possibilidade de configurar as probabilidades de cruzamento/crossover e

mutação, o número de indivíduos da população e o número de gerações.

4. Resultados

Após a implementação deste Algoritmo Genético com a finalidade de solucionar o

Problema da Caixa Preta, foram realizados alguns testes de execução do mesmo.

Para os testes a serem realizados, uma execução foi considerada como um

sucesso quando conseguiu encontrar a solução ótima (sinal de saída = 27). Para cada

configuração de parâmetros, foram realizadas 100 (cem) execuções do algoritmo e

apresentados as seguintes informações:

Número de sucessos (quantidade de vezes que o algoritmo genético

encontrou o valor de saída 27);

Maior valor de fitness/avaliação (melhor caso quando não encontrar o

valor ótimo);

Menor valor de fitness/avaliação (pior caso quando não encontrar o valor

ótimo);

Valor médio de fitness/avaliação (média dos melhores resultados das 100

execuções).

4.1. Primeiro Teste

No Primeiro Teste, foi realizada a avaliação do tipo de cruzamento (crossover),

utilizando o crossover com um ponto de corte, isto é, para cada par de indivíduos

selecionados para o crossover, foi sorteado um ponto de corte. Além disso, foram

adotadas as seguintes configurações como parâmetros: com elitismo (100%); seleção

por roleta; mutação bit a bit; taxa de crossover: 80%; taxa de mutação: 2,5% de chances

cada bit ser selecionado; número de indivíduos da população: 30; número de gerações:

50.

Após a execução da 50ª geração do Primeiro Teste com as configurações

especificadas acima, foram encontrados os seguintes resultados: número de sucessos =


29

24; maior valor de fitness/avaliação = 27; menor valor de fitness/avaliação = 26; valor

médio de fitness/avaliação = 26.8.

4.2. Segundo Teste

No Segundo Teste, foi realizada a avaliação do efeito do tipo de seleção,

executando o algoritmo genético e utilizando, primeiramente, seleção por Roleta. E,

posteriormente, seleção por Torneio de 2. Além disso, foram adotadas as seguintes

configurações como parâmetros: com elitismo (100%); crossover com um ponto de

corte; mutação bit a bit; taxa de crossover: 80%; taxa de mutação: 2,5% de chances cada

bit ser selecionado; número de indivíduos da população: 30; número de gerações: 50.

Após a execução da 50ª geração do Segundo Teste utilizando o método de

seleção por Roleta com as configurações especificadas acima, foram encontrados os

seguintes resultados: número de sucessos = 30; maior valor de fitness/avaliação = 27;

menor valor de fitness/avaliação = 27; valor médio de fitness/avaliação = 27.

Após a execução da 50ª geração do Segundo Teste utilizando o método de

seleção por Torneio de 2 com as configurações especificadas acima, foram encontrados

os seguintes resultados: número de sucessos = 0; maior valor de fitness/avaliação = 26;

menor valor de fitness/avaliação = 25; valor médio de fitness/avaliação = 25.

Logo, pode-se observar que a seleção por roleta é mais eficiente do que a

seleção por torneio de 2. Essa conclusão foi obtida devido à otimização do algoritmo

genético para o problema da caixa preta apresentar melhores resultados por meio da

seleção por roleta do que por meio da seleção por torneio de 2. Para isso, considerou-se

que só o parâmetro de seleção foi alterado para a execução do sistema e que, a cada

execução, o algoritmo genético apresenta resultados diferentes em virtude dos vários

parâmetros que são gerados aleatoriamente (população inicial, ponto de corte de

crossover, bit de mutação).

4.3. Terceiro Teste

No Terceiro Teste, foi realizada a avaliação do efeito do tipo de mutação,

executando o algoritmo genético e utilizando, primeiramente, mutação bit a bit. E,

posteriormente, mutação por escolha aleatória do bit. Além disso, foram adotadas as

seguintes configurações como parâmetros: com elitismo (100%); crossover com um

ponto de corte; seleção por roleta; taxa de crossover: 80%; taxa de mutação: 2,5% de

chances cada bit ser selecionado; número de indivíduos da população: 30; número de

gerações: 50.

Após a execução da 50ª geração do Terceiro Teste utilizando o método de

mutação bit a bit com as configurações especificadas acima, foram encontrados os

seguintes resultados: número de sucessos = 0; maior valor de fitness/avaliação = 26;

menor valor de fitness/avaliação = 25; valor médio de fitness/avaliação = 25.43.

Após a execução da 50ª geração do Terceiro Teste utilizando o método de

mutação por escolha aleatória do bit com as configurações especificadas acima, foram

encontrados os seguintes resultados: número de sucessos = 30; maior valor de


30

fitness/avaliação = 27; menor valor de fitness/avaliação = 27; valor médio de

fitness/avaliação = 27.

Logo, pode-se observar que a mutação por escolha aleatória do bit é mais

eficiente do que a mutação bit a bit. Essa conclusão foi obtida devido à otimização do

algoritmo genético para o problema da caixa preta apresentar melhores resultados por

meio da mutação aleatória do bit do que por meio da mutação bit a bit. Para isso,

considerou-se que só o parâmetro de mutação foi alterado para a execução do sistema e

que, a cada execução, o algoritmo genético apresenta resultados diferentes em virtude

dos vários parâmetros que são gerados aleatoriamente (população inicial, ponto de corte

de crossover, bit de mutação).

4.4. Quarto Teste

No Quarto Teste, foi realizada a avaliação do efeito da probabilidade do

cruzamento, executando o algoritmo genético e utilizando taxa de crossover iguais a

20%, 50% e 80%. Além disso, foram adotadas as seguintes configurações como

parâmetros: com elitismo (100%); crossover com um ponto de corte; seleção por roleta;

mutação por escolha aleatória do bit; taxa de mutação: 2,5% de chances cada bit ser

selecionado; número de indivíduos da população: 30; número de gerações: 50.

Após a execução da 50ª geração do Quarto Teste utilizando a taxa de crossover

igual a 20% com as configurações especificadas acima, foram encontrados os seguintes

resultados: número de sucessos = 0; maior valor de fitness/avaliação = 21; menor valor

de fitness/avaliação = 20; valor médio de fitness/avaliação = 20.57.




de fitness/avaliação = 25; valor médio de fitness/avaliação = 26.2.




de fitness/avaliação = 27; valor médio de fitness/avaliação = 27.

Logo, pode-se observar que quanto maior for a taxa de crossover, melhor a

solução encontrada. Essa conclusão foi obtida devido à otimização do algoritmo

genético para o problema da caixa preta apresentar melhores resultados por meio da

taxa de crossover igual a 80% do que em relação aos testes utilizando 20% e 50%. Para

isso, considerou-se que apenas o parâmetro de taxa de crossover foi alterado para a

execução do sistema e que, a cada execução, o algoritmo genético apresenta resultados

diferentes em virtude dos vários parâmetros que são gerados aleatoriamente (população

inicial, ponto de corte de crossover, bit de mutação).

5. Conclusões e Trabalhos Futuros Portanto, percebe-se que é necessária uma população mínima de 30 indivíduos e a

número de gerações igual a 50 para o algoritmo genético apresentar melhor otimização.


31

Valores inferiores a estes estipulados interferem no algoritmo genético, interferindo de

maneira negativa nos resultados desejados para otimização do sistema.

Em virtude do que foi pesquisado e realizado, verifica-se que os algoritmos

genéticos são muito úteis como, por exemplo: controle de sistemas dinâmicos; indução e

otimização de bases de regras; encontrar novas topologias conexionistas; engenharia de

sistemas neurais artificiais; modelagem de estruturas neurais biológicas e simulação de

modelos biológicos. Estas aplicações são de suma importância para o progresso de

projetos que envolvem inteligência artificial.

Como trabalhos futuros, espera-se aplicar a implementação de algoritmos

genéticos para solucionar outros problemas dessa natureza com a finalidade de almejar a

otimização do sistema. Além disso, observa-se que este trabalho pode promover um

aprendizado do conteúdo sobre algoritmos genéticos de uma maneira mais dinâmica,

pois propõe uma problemática prática e real, o que torna o seu desenvolvimento mais

atrativo e agradável, e fixando de forma mais eficaz os conceitos teóricos sobre o tema.

Referências

Carvalho, André Carlos P. L. F.; Lacerda, Estéfane G. M.. Introdução aos algoritmos

genéticos. Disponível em:

<http://www.leca.ufrn.br/~estefane/metaheuristicas/ag.pdf>. Acesso em: 01 nov.

2017.

Collares, Paulo. Algoritmo genético clássico em java. Disponível em:

<http://www.paulocollares.com.br/algoritimo-genetico-classico-em-java-hello-

world/>. Acesso em: 01. nov. 2017.

___. Eclipse. Disponível em: <www.eclipse.org/>. Acesso em: 01 nov. 2017.

Goldberg, David E.. Genetic Algorithms in Search, Optimization, and Machine

Learning. EUA: Addison-Wesley, 2009.

Koza, J.R.. Genetic Programming: On the Programming of Computers by Means of

Natural Selection. [S.l.]: MIT Press, 2002.

Linden, Ricardo. Algoritmos Genéticos - uma importante ferramenta da inteligência

computacional - 2ª Edição. BR: Brasport, 2008.

Maia, Renato Dourado. Trabalho prático da disciplina de algoritmos genéticos.

Disponível em:

<http://www.cpdee.ufmg.br/~rdmaia/2011/01/GENETICOS/TrabalhoPratico.pdf>.

Acesso em: 01 nov. 2017.

Norvig, Peter; Russel, Stuart. Artificial Intelligence: A Modern Aproach. Upper Saddle

River, NJ, EUA: Prentice Hall, 2009.

Rene, Thom. Mathematical Models of Morphogenesis. Chichester: Ellis Horwood,

2004.

Souza, Marcone Jamilson Freitas. Inteligência computacional para otimização.

Disponível em:

<http://www.decom.ufop.br/prof/marcone/Disciplinas/InteligenciaComputacional/In

teligenciaComputacional.htm>. Acesso em: 01. nov. 2017.


32

Correcao Automatica de Acronimos Sem Explicacao

Daniel Augusto das Neves Carrijo[1], Marcio de Souza Dias[1]

1Departamento de Ciencias da Computacao - Universidade Federal de Goias (UFG)Catalao – GO – Brazil

[email protected], [email protected]

Abstract. The multi-document summaries may be generated with some linguis-tic problems, mainly because the automatic summarizers do not have an effi-cient module that solves such problems. In view of this fact, this work proposesthe development of a prototype that corrects one of the most frequent errors inmulti-document summaries, the Acronym Without Explanation. Using a multi-document summary corpus, the prototype has obtained an accuracy of 93.5 %in error correction

Resumo. Os sumarios multidocumento podem ser gerados com alguns prob-lemas linguısticos, principalmente porque os sumarizadores automaticos naocontam com um modulo eficiente que solucionam tais problemas. Diante dessefato, esse trabalho propoe o desenvolvimento de um prototipo que corrija umdos erros de maior frequencia em sumarios multidocumento, o Acronimo SemExplicacao. Utilizando um corpus de sumarios multidocumento, o prototipoobteve uma acuracia de 93,5% na correcao do erro.

1. Introducao

Historicamente, a escrita e uma das formas mais usadas na comunicacao, sendo uti-lizada em artigos, mensagens, livros e muitos outros. Atualmente, muitos veıculos deinformacao utilizam-se da escrita para passar uma notıcia, tanto em jornais, como em re-vistas, portais online, e outros. Desta forma, a Sumarizacao Automatica Multidocumentos(SAM) vem tendo um papel muito importante na captacao otimizada de informacoes.

A SAM consiste em extrair as informacoes chaves de cada texto que tratamdo mesmo assunto e agrupa-las da melhor maneira possıvel em apenas um texto[Mani 2001], de forma que o leitor tenha todas as informacoes importantes em apenasum texto. Entretanto, a SAM nao e uma tarefa facil e muitos problemas ainda estao pre-sentes, como a producao de um texto totalmente coerente e compreensıvel.

Estudos como [Koch 1998],[Koch and Travaglia 2002],[Otterbacher et al. 2002],[Pitler et al. 2010], [Kaspersson et al. 2012], [Friedrich et al. 2014] e [Dias 2016] lis-taram problemas linguısticos que podem ocorrer em textos gerados de forma automatica(sumarizacao automatica, sistemas de perguntas/respostas, etc), e que podem prejudicar aqualidade textual.

Segundo Dias (2016), o erro linguıstico de maior frequencia presente em sumariosdo Portugues do Brasil gerados pela SAM e o Acronimo Sem Explicacao. Esse erroconsiste em citar um acronimo (sigla) sem que a explicacao venha posteriormente ouanteriormente ao mesmo. Na Figura 1 e mostrado um sumario do corpus CSTNews


33

Figure 1. Sumario automatico multidocumento com Acronimo Sem Explicacao

[Cardoso et al. 2011] em que os acronimos “TAM” e “Anac”(em negrito) nao tem suasexplicacoes (significado) explicitadas no sumario.

Para o erro de Acronimo Sem Explicacao, o qual foi anotado manualmente em umcorpus de sumarios gerados por sumarizadores automaticos multidocumento [Dias 2016],nao foi encontrado na literatura, ate o momento, trabalhos que revisam esse tipo de errode maneira automatica. Desta forma, neste artigo nos propomos a criacao de um prototipoque automatiza a tarefa de explicitar o significado de um acronimo, cuja a sua explicacaonao esta presente no sumario. Tal abordagem pode ser util em geradores automaticos detexto (sumarizadores, sistema de perguntas e respostas, etc), uma vez que tais sistemasnao contam com modulos de tal natureza na geracao de textos.

Este artigo esta organizado da seguinte maneira: na Secao 2 sao descritos ostrabalhos relacionados; a Secao 3 apresenta o corpus utilizado; a Secao 4 apresenta ametodologia de desenvolvimento; na Secao 5 sao discutidos os experimentos e resulta-dos; na Secao 6 e apresentada uma breve conclusao.

2. Trabalhos Relacionados

Ate o momento, nao foi encontrado na literatura trabalhos que busquem sugerir umasolucao automatica para erros linguısticos do tipo do Acronimo Sem Explicacao, esteartigo mencionara brevemente os trabalhos de referencia na identificacao manual de erroslinguısticos que prejudicam a coerencia dos textos gerados automaticamente.

Otterbacher et al. (2002) estudaram os problemas relacionados a coesao textualem textos extraıdos de sumarios multidocumento, e propos solucoes para melhora-la.

Kaspersson et al. (2012) investigaram os erros que ocorrem em sumarios que saooriundos de um documento unico, porem o foco foi em expressoes de referencia que naoforam referenciadas e tambem investigaram como as partes textuais nos sumarios saoconectadas e, alem disso, como o tamanho de um sumario pode interferir na ocorrencia


34

de cada tipo de erro.

Friedrich et al. (2014) apresentaram um corpus de sumarios multidocumento,chamado LQVSumm. E ele tratou basicamente de dois erros, o primeiro foi de mencaode entidades (que e relacionado a problemas de referencia) e o outro que envolve erros degramatica e redundancia.

Dias (2016) desenvolveu um classificador automatico de coerencia textual parasumarios multidocumento para o Portugues do Brasil. Alem do mais, o autor fez umestudo sobre os erros que afetam a coerencia dos sumarios multidocumento gerados porsumarizadores automaticos.

Os trabalhos apresentados nessa secao apenas identificaram manualmente errosque afetam a qualidade do texto. Neste trabalho, o erro de Acronimo Sem Explicacao foierro escolhido, devido a sua frequencia apresentada nos trabalhos relacionados, para umtratamento automatico na sua correcao.

3. Corpus

Este trabalho utilizou o corpus CSTNews [Cardoso et al. 2011]. Corpus foi criado paratrabalhar com a sumarizacao multidocumento. Foram utilizados 4 sumarizadores au-tomaticos para gerar sumarios para cada um dos 50 conjuntos (clusters) do CSTNews.Uma vez que cada conjunto possui de 2 a 3 textos, totalizando 140 textos fontes, sendoque texto fonte tem uma media de 334 palavras.

Os textos que compoe o corpus sao basicamente textos jornalısticos obtidos daspaginas web dos maiores jornais do paıs, como “O Globo”,“Jornal do Brasil”, “Estadao”etc, sendo que os 50 conjuntos reune textos dos mais variados temas, como polıtica,ciencia, esporte, etc. De acordo com os autores, essas fontes foram escolhidas por teremnotıcias atuais e devido as suas popularidades.

No processo de criacao, participaram especialistas da area de Linguıstica e daCiencia da Computacao que fizeram a anotacao manual do corpus de diversas informacoeslinguısticas, inclusive a de erros que afetam a qualidade linguıstica dos sumarios au-tomaticos multidocumento.

Para a anotacao de erros linguısticos foram utilizados 200 sumarios gerados auto-maticamente, ja que para cada cluster foram criados 4 sumarios diferentes, um de cadasumarizador automatico (GistSumm [Filho et al. 2007], RSumm [Ribaldo 2013], RC-4[Cardoso et al. 2015] e MTRST-MCAD [Castro Jorge 2015]). Na Tabela 1 e mostrado osdados do corpus de sumarios automaticos.

Table 1. Dados do corpus de sumarios automaticos multidocumento

Sistema Media de palavras Media de sentecasGistSumm 362 11RSumm 134 4

RC-4 132 4MTRST-MCAD 139.78 7.92


35

4. Metodologia de DesenvolvimentoParalelamente a este estudo, um trabalho de identificacao do erro Acronimo SemExplicacao tambem estava sendo desenvolvido. Assim, os acronimos que nao contin-ham a sua explicacao no sumario eram identificados automaticamente. Dessa forma, umalista foi gerada contendo tais acronimos.

De posse da lista de Acronimos Sem Explicacao, utilizamos a Wikipedia1 comobase de conhecimento para descobrir o significado (explicacao) de tais acronimos. Paraisso, a API da Wikipedia da linguagem de programacao Python2 foi utilizada para trazeras paginas da Wikipedia que contivessem o acronimo a ser resolvido. A escolha daWikipedia deve-se ao fato de que a mesma possui um grande acervo de dados e as outrasAPIs nao possuem a mesma quantidade de conteudo disponıvel para busca.

Como observado, os acronimos normalmente aparecem no primeiro paragrafo daspaginas resultantes das buscas no Wikipedia. Desta forma, o paragrafo de cada paginafoi recuperado no intuito de determinar o significado do acronimo em analise, assim queencontramos o acronimo em uma pagina da Wikipedia, verificamos se ele esta entre par-enteses, vırgulas, travessoes. Caso esteja, verificamos a localizacao da explicacao, ou seja,antes ou depois do acronimo. Caso nao esteja, verificamos se entre parenteses, vırgulas,ou entre travessoes, ha uma possıvel explicacao.

Nas Figuras 2 e 3 estao dois textos oriundos da pesquisa dos acronimos “Anatel” e“Infraero” (em negritos e suas explicacoes sublinhadas), respectivamente, exemplificandoos dois casos citados anteriormente.

Figure 2. Primeiro Caso: Acronimo entre pareteses

Figure 3. Segundo Caso: Explicacao entre pareteses

Em seguida, verifica-se se uma das possiblidades seguintes sao verdadeiras: i) setodas as letras do acronimo sao maiusculas; ii) se pelo menos uma das letras e minuscula.

1https://www.wikipedia.org2https://www.python.org


36

Caso todas as letras do acronimo sejam maiusculas, ha uma grande probabilidade de quea explicacao contenha uma palavra para cada letra do acronimo. Por exemplo, CBF -Confederacao Brasileira de Futebol ou ONU - Organizacao das Nacoes Unidas.

Sabendo disso, uma verificacao se as letras maiusculas iniciais da explicacao en-contrada correspondiam as letras do acronimo era necessaria. Caso todas as letras com-paradas fossem as mesmas, o prototipo encontrou a explicacao do acronimo.

Quando a sigla tem letras em minusculo, a probabilidade de que cada letra cor-responde a uma palavra na explicacao e quase nula. Por exemplo, o acronimo “Anatel”possui apenas a primeira letra em maiuscula, e o seu significado encontrado e AgenciaNacional de Telecomunicacoes.

Portanto, ao encontrar alguma mencao ou ocorrencia do acronimo em uma paginada Wikipedia, apenas utilizamos a explicacao encontrada entre parenteses, pois a chancede que a explicacao seja a correta e alta, devido ao fato de que o motor de busca daWikipedia sempre traz as paginas mais pesquisadas no topo da busca. Alem disso, deve-mos respeitar a regra de que a primeira palavra da explicacao tem que comecar com letramaiuscula.

A seguir, algumas regras foram desenvolvidas no intuito de ampliar a resolucaodo erro do Acronimo sem Explicacao.

4.1. Regra dos Estados

Como o corpus CSTNews e composto por textos jornalısticos, e o mesmo possui variosassuntos, inclusive os relacionados a polıtica, ha referencias a diversos polıticos dos maisvariados estados brasileiros. Na Figura 4 e mostrado um trecho de um sumario retiradodo CSTNews, onde um acronimo relacionado a um partido polıtico juntamente com umacronimo relacionado a um estado brasileiro (em negrito) ocorre.

Figure 4. Sumario automatico multidocumento com Acronimo Sem Explicacao

Quando o acronimo sucede um hıfen e tem apenas dois caracteres, ele tem grandeschances de ser um estado, portanto a pesquisa na Wikipedia se tornaria desnecessaria.Portanto, quando isso ocorre, utilizamos uma lista de estados para verificar se tal acronimoe realmente um estado, e caso nao seja o prototipo volta a utilizar a Wikipedia.

4.2. Regra do Tıtulo

Algumas vezes, a referencia ao acronimo nao esta no primeiro paragrafo da pagina deretorno da busca do Wikipedia, e procura-lo em outros paragrafos demandariam um altocusto e possivelmente o acronimo nao seria encontrado. Dessa forma,o proprio tıtulo dapagina pode ser a explicacao do acronimo desejado.


37

Para verificar se o tıtulo realmente e a explicacao do acronimo em analise, foirealizado o procedimento de comparar as letras do acronimo com as primeiras letras decada palavra da possıvel explicacao. Caso as letras sejam as mesmas, o prototipo iraconsiderar que a explicacao foi encontrada.

5. Experimentos e Resultados

Para realizar os experimentos, 92 sumarios dos 200 foram utilizados. Essa quantidade edevido a presenca do erro de Acronimo sem Explicacao.

Com o objetivo de desenvolver e avaliar o prototipo, 68 sumarios (escolhidosaleatoriamente) foram utilizados no treinamento e 24 sumarios foram utilizados para teste.Na Tabela 2 e apresentado os resultados obtidos:

Table 2. Resultado dos experimentos

Quantidade de Sumarios de Teste Acronimos encontrados Acronimos explicados24 77 72

Como podemos observar na Tabela 2, obtivemos 93,5% de acuracia. Um resultadoque podemos considerar muito bom, uma vez que trabalhamos apenas com heurıstica enada muito complexo, como Redes Neurais, Aprendizado de Maquina, etc.

Para certificar de que a explicacao trazida pelo prototipo era a correta, nos nosbaseamos no contexto do sumario que continha um acronimo nao explicado e confronta-mos com a explicacao apresentada, e assim, concluımos que em 72 das 77 occorencias deum acronimo sem explicacao, a explicacao dada pelo prototipo estava correta.

Os unicos tres casos de acronimos que nao foram explicados foram: CGE3(duasocorrencias), NHK4(uma ocorrencia), P-SOL5, escrito dessa maneira (duas ocorrencias).

No primeiro caso, nao tem nenhuma ocorrencia do acronimo CGE no Wikipedia,e por isso no momento da busca, nao houveram resultados compatıveis com CGE.

O NHK e um acronimo japones, e a Wikipedia utilizada neste trabalho esta emPortugues, o que inviabilizou a busca correta da explicacao para o acronimo NHK.

Ja no caso do acronimo P-SOL, ele nao e detectado pelo prototipo devido a suaescrita esta diferente da usual(PSOL).

6. Conclusao

Esse trabalho inova ao propor um prototipo que corrige um erro da qualidade linguıstica,Acronimo Sem Explicacao, de maneira automatica. Com uma acuracia de 93,5%, acred-itamos que a abordagem utilizada nesse trabalho obteve sucesso. Em contrapartida, oprototipo esta dependente de um recurso sujeito a suas variacoes de conteudo e suapossıvel instabilidade funcional, que e a Wikipedia.

3Centro de Gerenciamento de Emergencias4Nihon Hikikomori Kyokai5Partido Socialismo e Liberdade


38

Para diminuir essa dependencia e possivelmente melhorar a acuracia do prototipo,propomos como trabalho futuro o uso de similaridade semantica para contexto textual deforma mais efetiva.

ReferencesCardoso, P., Castro Jorge, M., and Pardo, T. (2015). Exploring the rhetorical structure

theory for multi-document summarization. In Proceedings of the 5th Workshop RSTand Discourse Studies, pages 1 – 10.

Cardoso, P., Mazieiro, E., Jorge, M., Seno, E., di Felippo, A., Rino, L., Nunes, M.,and Pardo, T. (2011). Cstnews - a discourse-annotated corpus for single and multi-document summarization of news texts in brazilian portuguese. In Proceedings of the3rd RST Brazilian Meeting, pages 88–105.

Castro Jorge, M. L. R. (2015). Modelagem gerativa para sumarizacao automaticamultidocumento. PhD thesis, Instituto de Ciencias Matematicas e de Computacao -ICMC/USP.

Dias, M. S. (2016). Investigacao de modelos de coerencia local para sumarios multidoc-umento. PhD thesis, Instituto de Ciencias -USP.

Filho, P. P. B., Pardo, T. A. S., and das Gracas Volpe Nunes, M. (2007). Sumarizacaoautomatica de textos cientıficos: Estudo de caso com o sistema gistsumm. Technicalreport, NILC - ICMC-USP. 23 p.

Friedrich, A., Valeeva, M., and Palmer, A. (2014). Lqvsumm: A corpus of linguisticquality violations in multi-document summarization. In Chair), N. C. C., Choukri,K., Declerck, T., Loftsson, H., Maegaard, B., Mariani, J., Moreno, A., Odijk, J., andPiperidis, S., editors, Proceedings of the Ninth International Conference on LanguageResources and Evaluation (LREC’14), Reykjavik, Iceland. European Language Re-sources Association (ELRA).

Kaspersson, T., Smith, C., Danielsson, H., and Jonsson, A. (2012). This also affectsthe context - errors in extraction based summaries. In Chair), N. C. C., Choukri, K.,Declerck, T., Dogan, M. U., Maegaard, B., Mariani, J., Odijk, J., and Piperidis, S.,editors, Proceedings of the Eight International Conference on Language Resources andEvaluation (LREC’12), Istanbul, Turkey. European Language Resources Association(ELRA).

Koch, I. G. V. (1998). A coesao textual – Mecanismos de Constituicao Textual, Aorganizacao do Texto, Fenomenos de Linguagem. Linguıstica Contexto – Repensandoa Lıngua Portuguesa, 10 edition.

Koch, I. G. V. and Travaglia, L. C. (2002). A coerencia textual. Editora Contexto.

Mani, I. (2001). Automatic summarization, volume 3. John Benjamins Publishing.

Otterbacher, J. C., Radev, D. R., and Luo, A. (2002). Revisions that improve cohesionin multi-document summaries: A preliminary study. In Proceedings of the ACL-02Workshop on Automatic Summarization - Volume 4, AS ’02, pages 27–36, Stroudsburg,PA, USA. Association for Computational Linguistics.

Pitler, E., Louis, A., and Nenkova, A. (2010). Automatic evaluation of linguistic qualityin multi-document summarization. In Proceedings of the 48th Annual Meeting of the


39

Association for Computational Linguistics, ACL ’10, pages 544–554, Stroudsburg, PA,USA. Association for Computational Linguistics.

Ribaldo, R. (2013). Investigacao de mapas de relacionamento para sumarizacao multi-documento. Monografia de Conclusao de Curso, Instituto de Ciencias Matematicas ede Computacao, Universidade de Sao Paulo. Sao Carlos-SP, Novembro, 61p.


40

Desenvolvimento de um Sistema de Biometria Facial

Baseado em Técnicas de Visão Computacional

Iago Garcia Vargas1, Josué Silva de Morais1

1Faculdade de Engenharia Elétrica – Universidade Federal de Uberlândia (UFU)

CEP 38400-902 – Uberlândia – MG – Brasil

[email protected],[email protected]

Abstract. The computer vision has been a frequently used tool in the most

diverse devices of technology, in this field of study, facial recognition is a

technology that has great advantages because it allows the identification and

authentication of users independent of contact. One of its main applications

is in the security market, for example in the development of biometric systems.

In this perspective, this article presents the implementation of an electronic

point management system based on facial recognition techniques, aiming at

proposing a more secure and effective system in the process of point

authentication within organizations.

Resumo. A visão computacional tem sido uma ferramenta comumente

utilizada nos mais diversos dispositivos de tecnologia, dentro deste campo

destaca-se o reconhecimento facial, tecnologia que apresenta grandes

vantagens por permitir a identificação e autenticação de usuários

independente de contato. Uma de suas principais aplicabilidades está no

mercado de segurança, como por exemplo no desenvolvimento de sistemas de

biometria. Nesta perspectiva, este artigo apresenta a implementação de um

sistema de gestão de ponto eletrônico baseado em técnicas de reconhecimento

facial, visando propor um sistema mais seguro e eficaz no processo de

autenticação de pontos dentro das organizações.

1. Introdução

Numerosos seres vivos têm no seu sistema de visão o elemento sensorial mais

importante para a sua sobrevivência e para as suas condições de vida. A importância do

sistema de visão prende-se com a riqueza de informação que este faculta, não só em

termos quantitativos, mas também qualitativos. Tais informações permitem, por exemplo,

a detecção e o seguimento de certos alvos (predadores, alimento, etc.), a determinação de

obstáculos na sua trajetória, em suma, informações sobre o ambiente que rodeia cada ser

[da Silva Tavares et al. 2000]. Baseado neste cenário, a comunidade cientifica têm

realizado intenso esforço no sentido de prover sistemas computacionais de modelagem e

replicação da visão humana, seja ele a nível de software ou hardware. Desta forma, surge

então uma importante área da computação, a visão computacional. Embora normalmente

conhecida por esta titulação, esta área possui uma vasta variedade de denominações,

como: visão cibernética, visão de máquina ou até mesmo visão robótica [Menotti et al.

2015].


41

mailto:[email protected],[email protected]

Dentro do campo da visão computacional podemos destacar uma importante e

desafiadora área, o reconhecimento facial. Esta é uma técnica biométrica que consiste em

identificar padrões em características faciais como formato da boca, do rosto, distância

dos olhos, entre outros. Um humano é capaz de reconhecer uma pessoa familiar mesmo

com muitos obstáculos como distância, sombras ou apenas a visão parcial do rosto. Uma

máquina, no entanto, precisa realizar inúmeros processos para detectar e reconhecer um

conjunto de padrões específicos para rotular uma face como conhecida ou desconhecida.

Para isso, existem métodos capazes de detectar, extrair e classificar as características

faciais, fornecendo um reconhecimento automático de pessoas [Silva and Cintra. 2015].

Uma das aplicabilidades do reconhecimento facial é a autenticação biométrica de

funcionários para realização de controle de ponto. Quando um funcionário chega à

empresa, ao adentrar em seu posto de trabalho, ele deve passar pelo relógio de pontos

para autenticar sua entrada. Esse processo fornece informações extremamente

importantes para a organização, pois está diretamente ligada ao custo que a empresa terá

com os salários. Porém, a grande questão é: “Como a empresa terá certeza de que foi

aquele funcionário que realmente bateu o ponto e não outro?”.

Buscando solucionar tal questão, este trabalho propõe o desenvolvimento de um

sistema de autenticação biométrica. Este será focado no reconhecimento facial, de tal

forma que possa oferecer às organizações um controle mais eficaz e seguro, buscando

inibir a prática de fraudes.

2. Métodos

2.1. Eigenface

Na literatura é possível encontrar diversas técnicas de reconhecimento facial,

entre elas eigenface, fisherface, speed up robust features, redes neurais convolucionais,

etc. Como o eigenface é uma das técnicas primitivas, optou-se por utilizá-la no projeto

visando verificar sua acurácia para futuramente compará-la com as demais técnicas

existentes.

O método eigenface é uma técnica de detecção e reconhecimento facial que se

baseia em linearmente projetar o espaço de imagens em um espaço de características com

dimensões reduzidas, obtidas fazendo uso da análise de componentes principais (ACP),

também conhecido como método Karhunen-Loeve [Belhumeur et al. 1997].

Ao ser computado, o eigenface cria vetores eigenvectors através da técnica ACP.

Este é responsável por treinar uma base de dados de imagens, transformando as

informações visuais em vetores, que representam os pontos mais marcantes na imagem,

esses vetores podem ser utilizados para detecção de objetos, padrões e faces humanas.

Qualquer aplicação que se propõe a realizar o reconhecimento facial utilizando o

eigenface deve utilizar uma base de dados capaz para receber os valores gerados pelo

algoritmo [Machado et al. 2009].

A técnica consiste em primeiramente obter um conjunto de faces 𝐼1, 𝐼2, … , 𝐼𝑀 e

representar estas faces como vetores 𝛤𝑖 . A partir destes vetores calculamos a face média

através da equação 1.

𝛹 = 1

𝑀∑ 𝛤𝑖

𝑀

𝑖=1

(1)


42

(2)

(3)

(4)

(5)

(6)

(7)

(8)

Calcula-se, então, a diferença entre a imagem original e a média, equação 2.

∅𝑖 = 𝛤𝑖 − 𝛹

Posteriormente é calculada a matriz de covariância C, onde 𝐴 =

[∅1, ∅2, … , ∅𝑀] (𝑀𝑎𝑡𝑟𝑖𝑧 𝑁2𝑥 𝑀), equação 3.

𝐶 = 1

𝑀∑ ∅𝑛

𝑀

𝑛=1

∅𝑛𝑇 = 𝐴𝐴𝑇 (𝑀𝑎𝑡𝑟𝑖𝑧 𝑁2𝑥𝑁2)

O próximo passo é calcular os autovetores e autovalores da matriz de

covariância. A matriz C tem dimensão 𝑁2𝑥 𝑁2, então 𝑁2 seria composto por eigenface e

autovalor. Para uma imagem de 256x256, por exemplo, significa que temos que computar

uma matriz de 65,536 x 65,536 e calcular 65.536 eigenfaces. Computacionalmente, isto

não é muito eficiente, já que a maioria desses eigenfaces não é útil para a tarefa de

reconhecimento. Em geral, o ACP é usado para descrever um grande espaço dimensional

com um conjunto relativamente pequeno de vetores. Podemos calcular apenas os

significativos (𝑀 − 1) [Belhumeur et al. 1997]. Constrói-se uma matriz 𝐿 =

𝐴𝑇𝐴 (𝑀𝑎𝑡𝑟𝑖𝑧 𝑀 𝑥 𝑀), calcula-se os autovetores 𝑣𝑖 de 𝐿 = 𝐴𝑇𝐴. Os M autovetores de L são

usados para encontrar os M autovetores 𝑢𝑖 de C que formam a base de eigenfaces, equação

4.

𝑢𝑖 = ∑ 𝑣𝑖

𝑀

𝑖=1

∅𝑖

Com a base de eigenfaces treinada o aplicativo estará pronto para realizar o

reconhecimento, que é feito através da equação 5.

𝑊𝑘 = 𝑢𝑘𝑇(𝑇 − 𝛹) 𝑘 = 1,2, … , 𝑀′

Para cada nova imagem de face que precise ser identificada, equação 6, é

calculada as distâncias mínimas di, equação 7, que formam a classe i de faces e a distância

d, equação 8, que refere-se à distância do espaço de faces, a qual é comparada com um

limiar Ɵ a ser definido.

𝛺 = [𝑊1

⋮𝑊𝑀′

]

𝑑𝑖2 = ||𝛺 − 𝛺𝑖||

𝑑2 = ||∅ − 𝛺𝑓||

Ao definir o limiar é realizado a classificação conforme condição abaixo:

𝑑 > Ɵ, 𝑛ã𝑜 é 𝑢𝑚𝑎 𝑓𝑎𝑐𝑒

𝑑𝑖 > Ɵ 𝑒 𝑑 < Ɵ, 𝑓𝑎𝑐𝑒 𝑑𝑒𝑠𝑐𝑜𝑛ℎ𝑒𝑐𝑖𝑑𝑎 ∉ 𝑎 𝑖

𝑑𝑖 < Ɵ 𝑒 𝑑 < Ɵ, 𝑓𝑎𝑐𝑒 𝑐𝑜𝑛ℎ𝑒𝑐𝑖𝑑𝑎 ∈ 𝑎 𝑖


43

3. Desenvolvimento

3.1. Sistema de ponto Eletrônico

O ponto eletrônico é todo sistema que possibilite registrar e gerenciar os horários

de trabalhos diários em uma empresa. O sistema deve permitir a impressão de quatro

comprovantes diários relativos à entrada e saída dos funcionários no começo e no fim da

jornada de trabalho e na saída e volta do horário de almoço. O sistema proposto neste

trabalho é capaz de realizar todo o controle e gestão dos funcionários, além de possibilitar

o registro de horas trabalhadas. A arquitetura do sistema é apresentada na figura 1.

Figura 1. Arquitetura do Sistema.

O sistema conta com uma plataforma voltada para usuários em geral e outra para

o administrador do sistema. A plataforma do usuário dispõe das funcionalidades de

realizar o reconhecimento da face permitindo a efetivação do seu ponto, de tal forma que

quando o usuário se posiciona em frente a câmera o sistema realiza o reconhecimento de

sua face e libera o botão de autenticação do ponto. Quando o usuário efetiva a

autenticação do ponto os dados de hora e data da autenticação são armazenados no banco

de dados, na tabela de pontos daquele determinado usuário. A plataforma do

administrador é de acesso restrito, pois esta fornece permissões privilegiadas, como

cadastro de novos usuários, registro de dado, realizar consultadas de dados de usuário e

ainda emitir relatórios referente aos pontos.

3.2. Implementação da Detecção e Reconhecimento da Face

De modo a implementar o sistema em questão é necessário a utilização de

ferramentas que auxiliem o seu desenvolvimento. Para este trabalho optou-se por utilizar

a biblioteca OpenCv aliada à IDE Visual Studio, utilizando a linguagem de programação

C# para realizar a detecção e posteriormente o reconhecimento da face. No

desenvolvimento do código foi necessário dividir a implementação do algoritmo em duas

etapas, sendo elas a de detecção da face e a de reconhecimento da face. Desta forma o

software será capaz de capturar imagens de uma webcam realizando a detecção e

posteriormente o reconhecimento da face na imagem.

A biblioteca em questão facilita muito o processo de implementação, pois esta já

disponibiliza métodos prontos e de código aberto para realização das atividades de

detecção e de reconhecimento, desta forma é possível adaptar o código e ainda modificá-


44

lo de acordo com as necessidades do sistema. A figura 2 apresenta a estrutura para

implementação do processo de detecção.

Figura 2. Estrutura do processo de detecção da face.

Na etapa 1, é feito a captura da imagem do usuário. Na etapa 2 é realizado a

conversão da imagem original para escala de cinza e também o redimensionamento da

imagem, esta fase é de grande importância, pois se trata de um sistema em tempo real,

logo o tratamento da imagem em apenas dois canais e o dimensionamento da imagem

para um tamanho menor contribui para o desempenho do sistema no quesito tempo de

processamento. Na terceira etapa entra em cena o algoritmo eingenface, o qual realiza

toda parte do treinamento, descrita na seção 2.1. A quarta etapa se refere ao

armazenamento da imagem treinada no banco de dados para posteriormente ser usada no

processo de reconhecimento facial.

3.3. Interfaces do Software

Uma interface, em ciência da computação, é a fronteira que define a forma de

comunicação entre duas entidades. Ela pode ser entendida como uma abstração que

estabelece a forma de interação da entidade com o mundo exterior, através da separação

dos métodos de comunicação externa dos detalhes internos da operação, permitindo que

esta entidade seja modificada sem afetar as entidades externas que interagem com ela

[Cook, 2007]. Fazendo o uso da linguagem de programação C# e do editor de código

Visual Studio foi desenvolvida uma interface gráfica para a comunicação homem-

máquina a qual contempla dois perfis, o do Administrador do sistema e do usuário final.

A interface do administrador, figuras 3 e 4, são usadas pela gerência do

departamento permitindo realizar as seguintes atividades: cadastro de novos funcionários,

cadastro da face dos funcionários, alteração e exclusão de dados e emissão de relatórios

gerenciais. Todos os dados são armazenados no Postgresql, banco de dados escolhido

para operar juntamente com o software.

Figura 3. Interface de Login do Administrador.


45

https://pt.wikipedia.org/wiki/Ci%C3%AAncia_da_computa%C3%A7%C3%A3o

Figura 4. Interface de cadastramento e treinamento da face no banco de dados.

A interface do usuário, figura 5, é utilizada para que o funcionário possa autenticar

seu ponto diário e emitir o comprovante da efetivação do mesmo. O sistema ao fazer a

leitura da face do usuário realiza o reconhecimento e associa a sua face ao número do seu

CPF. Na figura 5, o CPF do usuário é ocultado para fins de preservação de identidade.

Figura 5. Interface para autenticação do ponto eletrônico.

4. Resultados

Para realização dos testes foram utilizados 14 voluntários para criação de 5 bancos

de imagens de faces. O objetivo foi criar bancos com diferentes quantidades de faces, de

forma a analisar a relação quantidade de faces versus qualidade no reconhecimento. Todas

as imagens foram salvas com resolução de 100x100 pixels e em formato bmp. O primeiro

banco de faces contou com 56 imagens, sendo 4 imagens com expressões distintas de

cada pessoa. O segundo banco teve um total de 112 imagens, sendo 8 imagens com

expressões distintas de cada indivíduo. O terceiro banco foi construído com um montante

de 140 faces, divididas entre as 14 pessoas, tendo 10 faces cadastradas para cada

indivíduo. O quarto contou com 196 faces, também divididas igualmente entre os

voluntários. Por último foi criado um banco com 252 imagens, sendo composto de 18

faces de cada voluntário. Com todos os quatro bancos de imagens criado, o objetivo foi

verificar qual o banco iria fornecer o melhor benefício para o sistema, visto que os fatores


46

relevantes para o sistema são prezar pela velocidade de processamento e pela maior

porcentagem de acertos. A tabela 1 apresenta o resultado obtidos durante os testes.

Tabela 1 – Experimentos com os bancos de imagens

Banco de

Imagens

Total de

Imagens

Total de

Imagens Por

Indivíduo

Total de

Testes Por

Indivíduo

Acertos Erros

1 56 4 20 7 13

2 112 8 20 12 8

3 140 10 20 17 3

4 196 14 20 19 2

5 252 18 20 19 2

De acordo com os testes realizados, tabela 1, foi possível perceber que o sistema

opera com uma boa taxa de acerto para um banco de imagens composta por mais de 14

imagens por indivíduo, verificando que com este número obtemos um erro de 5%. Alguns

autores como [Diniz et al. 2013], [Da Silva and Del Val Cura. 2016] e [Guimarães. 2016]

em seus trabalhos obtiveram uma margem de erro variando de 2% a 15%, fazendo o uso

do mesmo método. Logo, a taxa de 5% alcançada neste trabalho é extremamente aceitável

quando se usa o eigenface.

5. Conclusões e Trabalhos Futuros

Este artigo apresentou o desenvolvimento de um sistema de biometria facial

baseado na técnica de reconhecimento facial eigenface. O principal objetivo do projeto

foi desenvolver um sistema de gestão de ponto eletrônico mais eficaz para as

organizações, buscando levar para estas um ambiente mais seguro, eficaz e dotado de

tecnologia.

Durante o desenvolvimento do projeto foi perceptível a baixa eficácia do

algoritmo eigenface quando aplicado em vários ambientes com diferentes luminosidades,

porém, como o sistema proposto foi desenvolvido para atuar de forma estática, ou seja,

estaria fixo em um único ambiente onde a luminosidade se mantem praticamente a mesma

nos períodos de uso do software, este fator se tornou irrelevante para o sistema em

questão, fato este que não interferiu nos resultados dos testes. Como trabalho futuro,

pretende-se estudar outras técnicas de reconhecimento facial, buscando atingir o menor

erro possível, visto que para implementação do sistema nas organizações devemos obter

um erro próximo de zero, desta forma poderemos, de fato, levar para as empresas um

sistema seguro e eficaz.

Referências

da Silva Tavares, J. M. R. (2000). Análise de movimento de corpos deformáveis usando

visão computacional.


47

Menotti, D., Chiachia, G., Pinto, A., Schwartz, W. R., Pedrini, H., Falcão, A. X., &

Rocha, A. (2015). Deep representations for iris, face, and fingerprint spoofing

detection. IEEE Transactions on Information Forensics and Security, 10(4), 864-879.

Silva, A. L., & Cintra, M. E. (2015). Reconhecimento de padrões faciais: Um estudo.

In Encontro Nacional de Inteligência Artificial e Computacional, 2015, Proceedings

ENIAC (pp. 224-231).

Belhumeur, P. N., Hespanha, J. P., & Kriegman, D. J. (1997). Eigenfaces vs. fisherfaces:

Recognition using class specific linear projection. IEEE Transactions on pattern

analysis and machine intelligence, 19(7), 711-720.

Turk, M., & Pentland, A. (1991). Eigenfaces for recognition. Journal of cognitive

neuroscience, 3(1), 71-86.

Machado, B. B., de Araújo Barros, M. M., Maia, M. L., & Ubirajara, G. P. G. (2009).

Implementação de um Algoritmo de Reconhecimento Facial Usando EIGENFACE. e-

xacta, 2(2).

Cook, S., Jones, G., Kent, S., & Wills, A. C. (2007). Domain-specific development with

visual studio dsl tools. Pearson Education.

Diniz, F. A., Neto, F. M. M., Júnior, F. D. C. L., & Fontes, L. M. O. (2013). RedFace:

um sistema de reconhecimento facial baseado em técnicas de análise de componentes

principais e autofaces. Revista Brasileira de Computação Aplicada, 5(1), 42-54.

da Silva, J. J., & del Val Cura, L. M. (2016). Combinação de Classificadores Floresta de

Caminhos Ótimos aplicados no Reconhecimento Facial.

Guimarães S, R. M. (2016). Desenvolvimento de um protótipo de software de

reconhecimento facial de tempo real para registro eletrônico de ponto em ambientes

indoor com a utilização do dispositivo Kinect. Projetos e Dissertações em Sistemas de

Informação e Gestão do Conhecimento, 4(1).


48

Identificador Automatico de Acronimo Sem Explicacao

Henrique Papa1, Marcio de Souza Dias1

1Departamento de Computacao - Universidade Federal de Goias (UFG)Regional Catalao. Catalao/GO.

henrique [email protected], [email protected]

Abstract. Automatically generated multidocument summaries can present anumber of language quality issues. These problems compromise the reader’sunderstanding of the content. Therefore, this work proposes the development ofa prototype of an automatic identifier for one of the errors of linguistic quality,called Acronym No Explanation. Using a multidocument summary corpus, theprototype obtained an accuracy of 98.7 % in error identification.

Resumo. Os sumarios multidocumento gerados automaticamente podem apre-sentar diversos problemas relacionados a qualidade linguıstica. Esses proble-mas comprometem a compreensao do conteudo por parte do leitor. Diante disso,este trabalho propoe o desenvolvimento de um prototipo de um identificador au-tomatico para um dos erros de qualidade linguıstica, chamado Acronimo SemExplicacao. Utilizando um corpus de sumarios multidocumento, o prototipoobteve uma acuracia de 98,7% na identificacao do erro.

1. Introducao

Atualmente, a escrita e uma das principais formas de comunicacao entre as pessoas, sendoutilizada em meios como jornais, livros, artigos, redes sociais, etc. Todos os dias, umaenorme quantidade de conteudo escrito e produzida, principalmente na Internet. De-vido a isso, a Sumarizacao Automatica Multidocumento (SAM) vem ganhando desta-que na comunidade cientıfica. O processo de SAM consiste em otimizar a obtencao dasprincipais informacoes contidas em diversos textos, sobre o mesmo assunto, em apenasum [Mani 2001].

Apesar dos avancos alcancados, os sumarizadores automaticos ainda nao tra-tam de forma satisfatoria os aspectos linguısticos que afetam a coesao e a coerenciatextual, prejudicando, por consequencia, a compreensao do conteudo por parte doleitor [Nenkova et al. 2011]. Devido a isso, alguns estudos como [Koch 1998],[Otterbacher et al. 2002], [Friedrich et al. 2014] e [Dias 2016], focam na identificacao deerros linguısticos em textos e em sumarios gerados automaticamente. Tal identificacaovem sendo feita de forma manual, tornando esta tarefa bastante onerosa. Por isso, o de-senvolvimento de tecnicas capazes de identificar de forma automatica tais erros se fez ne-cessario para um futuro pos-processamento dos geradores e sumarizadores automaticos.

Dias (2016) utilizou sumarios automaticos multidocumento do Portugues doBrasil, presentes no corpus CSTNews [Cardoso et al. 2011], para identificar 12 erroslinguısticos. Dentre eles, o erro de Acronimo Sem Explicacao foi o erro de maiorfrequencia. Este erro ocorre quando um acronimo e mencionado em um texto sem que


49

haja uma explicacao referente ao seu significado no proprio texto. Desta forma, a com-pressao do leitor pode ser prejudicada, uma vez que este pode nao conhecer o seu sig-nificado. O exemplo na Figura 1 ilustra que o acronimo “ONU” (em negrito) nao foidevidamente explicado no sumario.

Figura 1. Sumario multidocumento com Acronomo sem Explicacao [Dias 2016].

Dado o problema do Acronimo Sem Explicacao, o qual foi anotado manual-mente [Dias 2016], nao encontramos na literatura trabalhos que o identifique de formaautomatica. Assim, nos propomos neste trabalho identificar automaticamente todos asocorrencias de acronimos que nao tiveram sua explicacao dada em um sumario multido-cumento.

Este artigo esta organizado da seguinte maneira: na Secao 2, ha uma brevedescricao sobre os trabalhos relacionados; a Secao 3 apresenta o corpus utilizado; naSecao 4, a metodologia de desenvolvimento e apresentada; na Secao 5, os experimen-tos e resultados alcancados sao discutidos; na Secao 6, por fim, uma breve conclusao eapresentada.

2. Trabalhos RelacionadosEste trabalho se baseou na necessidade de melhorar a qualidade linguıstica dos sumariosgerados automaticamente. Para isso, e importante, inicialmente, identificar os erros queprejudicam tal qualidade no processo de sumarizacao.

Dentre os trabalhos que procuraram identificar erros que afetam a qualidadelinguıstica, o trabalho de [Koch 1998] relata a importancia de conectores (elementos gra-maticais, lexicais, sintaticos) de coesao na manutencao da qualidade linguıstica. Sabe-seque o bom uso desses conectores linguısticos entre as sentencas favorece a compreensaoe a interpretacao do texto como um todo.

O trabalho desenvolvido por [Otterbacher et al. 2002] concluiu que os principaisproblemas linguısticos encontrados nos sumarios automaticos estao relacionados a faltade pontuacao, uso de sentencas muito longas e uso inadequado de parenteses ou ou-tros elementos textuais. [Friedrich et al. 2014], por sua vez, apresentaram um corpus desumarios multidocumento, chamado LQVSumm. Nesse estudo, dois erros foram identi-ficados e tratados, o primeiro e referente a mencao de entidades(relacionado a problemasde referencia) e o outro envolve erros de gramatica e redundancia.

Diante de tais problemas, [Dias 2016] desenvolveu um modelo para classificara coerencia textual em sumarios multidocumento para o Portugues do Brasil utilizandoaprendizado de maquina. Alem disso, o autor fez um levantamento de erros linguısticos


50

que afetam diretamente a coerencia dos sumarios multidocumento gerados automatica-mente.

3. CorpusNeste trabalho, o corpus1 utilizado foi o CSTNews. Tal corpus contem 50 coletaneas detextos jornalıstico extraıdos de jornais importantes no paıs (“O Globo”, “Jornal do Brasil”,“Gazeta do Povo”, etc). Os textos extraıdos desses jornais versam sobre os seguintestemas: Mundo, polıtica, cotidiano, ciencia e esporte. Cada coletanea possui de 2 a 3textos de diferentes origens. Ao todo sao 140 textos contendo em media 334 palavras.

O CSTNews e um corpus rico de informacoes anotadas por especialistas da arealinguıstica e linguıstica computacional. Dentre as varias anotacoes presentes no corpus,o CSTNews possui uma anotacao de erros linguısticos nos sumarios multidocumentoautomaticos, oriundos dos textos fonte do CSTNews [Dias 2016]. Para essa tarefa deanotacao foram utilizados 200 sumarios gerados automaticamente por 4 sumarizadores(GistSumm [Filho et al. 2007], RSumm [Ribaldo 2013], RC-4 [Cardoso et al. 2015] eMTRST-MCAD [Castro Jorge 2015]) e varios pesquisadores entre linguistas e cientis-tas de computacao. Para cada uma das 50 colecoes do corpus, cada sumarizador gerouum sumario. A Tabela 1 mostra os dados do corpus de sumarios automaticos.

Tabela 1. Dados do corpus [Dias 2016]

Sumarizador Media de palavras Media de sentecasGistSumm 362 11RSumm 134 4

RC-4 132 4MTRST-MCAD 139.78 7.92

4. Metodologia de DesenvolvimentoO processo de desenvolvimento do prototipo consistiu em 3 etapas: o pre-processamentodo corpus, a identificacao de acronimos e a verificacao de explicacao. Nas subsecoes aseguir, cada etapa e explicada.

4.1. Pre-processamentoO primeiro passo do pre-processamento foi remover todas as anotacoes de erros que ossumarios multidocumento possuem, uma vez que as marcacoes dos erros foram feitasem um processo de anotacao realizada por pesquisadores da area de computacao e dalinguıstica [Dias 2016](ver Figura 2). Tal procedimento e necessario, uma vez que, o ob-jetivo desse trabalho e identificar automaticamente o erro de Acronimo Sem Explicacao.

Em seguida, os sumarios foram submetidos a um processo de segmentacao sen-tencial e a um processo de tokenizacao. Assim, cada sentenca foi segmentada em umalinha do arquivo e realizou-se a separacao de palavras e caracteres especiais em uma listapara cada sumario. Na Figura 3 e ilustrado um trecho de um sumario antes e depois daetapa de pre-processamento.

1Colecao de material escrito e/ou falado usado no estudo da lıngua. https://dictionary.cambridge.org/pt/dicionario/ingles/corpus?q=crpus


51

Figura 2. Corpus anotado [Dias 2016]

Figura 3. Resultado do pre-processamento

O resultado do pre-processamento e uma lista de tokens para cada sentenca dosumario.

4.2. Identificacao de Acronimos

A identificacao de acronimos e a parte essencial no processo de analise automatica.Nesta fase, o prototipo percorre cada elemento da lista de tokens criada na etapa de pre-processamento, aplicando dois metodos para identificar acronimos: o metodo simples e ocomposto.

No metodo simples, identificamos como acronimo palavras que estao em caixaalta e sem acentos. No metodo composto, por sua vez, utilizamos pesquisas na web paraverificar se determinado termo pode ser considerado um acronimo ou nao. No entanto,sabe-se que ambos os metodos sao suscetıveis a erros, uma vez que alguns tokens sao erro-neamente identificados como acronimos. Esses tokens, geralmente, se referem a cidades,sımbolos monetarios e abreviacoes. Em virtude disso, elaboramos algumas regras quedescartam os tipos de tokens acima mencionados. Em seguida, ha uma breve descricaodas regras e metodos utilizados.

Regra das Cidades

Em um texto, os nomes das cidades podem estar em caixa alta e, dessa forma, seremidentificados erroneamente como acronimos. Para solucionar esse problema, a “regra dascidades” analisa os primeiros elementos da lista de tokens que estao escritos em caixa alta.O processo se repete ate que se encontre outro tokens que nao esteja em caixa alta. Casoa condicao de parada seja o sımbolo “-“, a regra impede que o token seja considerado umacronimo. Na Figura 4 e mostrado a regra das cidades.

Observando a figura 4, nota-se que os tokens “SAO” e “PAULO” seguidos de um


52

Figura 4. Regra das cidades

hıfen caracterizam a citacao de uma cidade no inıcio da sentenca. Dessa forma, apresen-tam a sintaxe que se encaixa na regra das cidades.

Regra das MoedasSımbolos monetarios como o US$ (representacao do dolar) poderiam ser consideradosacronimos pelo fato de todas as letras estarem maiusculas. Assim, essa regra e para evitaresse tipo de situacao. A regra da moeda verifica se a proxima posicao da lista e o sımbolo“$”, caso seja, a regra impede que o token seja considerado acronimo.

Regra das ReducoesReducao e uma maneira simplificada de escrever uma palavra, por exemplo: televisaoe reduzida ou abreviada como TV. Tratar esses casos foi um dos maiores desafios en-frentados durante a implementacao deste prototipo, pois diferente das demais regras, naoencontramos uma sintaxe especıfica no texto quanto ao uso de abreviacoes.

Para este cenario, utilizamos uma funcao que realiza o acesso e busca automa-ticamente na pagina da Academia Brasileira de Letras 2 afim de encontrar as principaisreducoes da lıngua portuguesa. Entretanto, apenas tal procedimento nao e suficiente emcasos ambıguos, ou seja, um token pode ser um acronimo ou uma abreviacao, dependendodo contexto. Por exemplo, o token FMM (pode representar Fundo da Marinha Mercanteou forca magnetomotriz).

Para reduzir as chances de gerar ambiguidades, apenas os tokens compostos porduas letras foram considerados pela regra das reducoes, com excecoes dos acronimosde estados brasileiros como SP (Sao Paulo) e de partidos polıticos como PT (Partido dosTrabalhadores). A informacao referente aos acronimos de partidos polıticos foi obtida pormeio da pagina do TSE (Tribunal Superior Eleitoral)3. Ao fim de todo esse processo, umalista de abreviacoes foi criada. Desta forma, compara-se cada token a lista de abreviacoespara verificar se tal token pode considerado acronimo ou nao.

Metodo simplesConforme mencionado, as regras funcionam como filtros e sao aplicadas para eliminartokens que podem ser detectados como acronimos quando na verdade nao sao. Umavez que um token passa por todas as regras, ele sera analisado pelos metodos simples ecomposto, os quais determinam de fato se o elemento e realmente um acronimo.

O metodo simples averigua apenas a sintaxe dos tokens. Dessa forma, esse metodoverifica se um dado elemento e composto apenas por letras, se possui no mınimo duas

2http://www.academia.org.br/nossa-lingua/reducoes3http://www.tse.jus.br/partidos/partidos-politicos/registrados-no-tse


53

letras e se todas as letras estao em maiusculas e sem acentos. Feito isso, o token queatender a todos esses requisitos sera considerado um acronimo.

Metodo Composto

O metodo simples consegue identificar de forma correta grande parte dos acronimos,porem alguns acronimos como Infraero (Empresa Brasileira de Infraestrutura Aero-portuaria) nem sempre sao escritos em letras maiusculas. Devido a isso, o metodo com-posto foi desenvolvido para identificar siglas que estao fora dos padroes considerados nasregras e no metodo simples.

O metodo composto faz uso de uma ferramenta que permite realizar pesquisasna Wikipedia 4.Este processo gera um alto custo computacional, por isso ele e utilizadoapenas em ultimo caso quando as regras e o metodo simples nao conseguem dar umaresposta correta sobre a identificacao de um acronimo.

O processo de pesquisa e realizado por meio dos seguintes passos: Inicialmente,o metodo analisa se a primeira letra do token e maiuscula.Em caso positivo, o token eutilizado na pesquisa da Wikipedia (utilizou-se a API - Wikipedia1.4.0). Em seguida, umtexto contendo o item pesquisado e retornado e a primeira sentenca do texto encontrado eextraıda. Por fim, o metodo analisa se o token encontra-se entre parenteses ou no padrao”TOKEN (<significado do token>)”na sentenca extraıda do texto da Wikipedia. Dessaforma, o token sera considerado acronimo. Na Figura 5 e mostrado o passo a passo detodo este processo ao pesquisar por Anac.

Figura 5. Metodo Composto

4.3. Verificar Explicacao

A ultima etapa do processo de identificacao do erro Acronimo Sem Explicacao consisteem verificar se um acronimo foi explicado ou nao corretamente. Dessa forma, o processode verificacao busca o significado do acronimo no proprio texto, a partir de duas formas:antes ou apos a mencao do acronimo.

Em ambos os casos, para auxiliar o processo de verificacao, criou-se uma listacontendo as letras de cada acronimo, pois a explicacao deve conter uma palavra com ainicial de cada letra da lista. Alem disso, foi estabelecido, de forma empırica, um limitede tokens para a explicacao. Esse limite e determinado pelo numero de letras mais 5elementos (conectivos que ligam as explicacoes de cada acronimo). Esse valor de 5 deve-se a possibilidade da explicacao conter tokens como: “de”, “e”, ”da”, “sigla” e “para”.

O processo de verificacao antes averigua se o significado de um acronimo foi ci-tado anteriormente a sua mencao. Para isso, inicialmente, a funcao procura um indicativo

4https://pt.wikipedia.org


54

de explicacao, o caractere “(“. Uma vez encontrado esse indicativo, cria-se uma lista deletras formada pelos caracteres que compoem o acronimo na ordem inversa de escrita. Porexemplo, o acronimo “ONU” gera a seguinte lista de letras: “U”,”N”,”O”. Em seguida,percorre-se os tokens anteriores ao indicativo “(“, comparando-se o caractere inicial decada tokens com o primeiro campo da lista de letras. A cada palavra encontrada a pri-meira posicao da lista de letras e removida. Assim, ao termino da lista de letras a funcaodetermina que a sigla foi explicada corretamente.

A verificacao depois e um processo semelhante. As unicas diferencas sao: o sen-tido da verificacao, que ocorre apos a mencao da sigla e a forma como e feita a lista deletras, a qual segue o sentido de escrita. Por exemplo, o acronimo “ONU” tera a seguintelista de letras: “O”,”N”,”U”. A Figura6 a seguir demonstra ambos os tipos de verificacao.

Figura 6. Verificando explicacao

5. Experimentos e Resultados

Para realizar os experimentos, os sumarios automaticos multidocumento do corpus CST-News escolhidos tinham que possuir o erro de Acronimo Sem Explicacao. Desta forma,92 sumarios dos 200 foram utilizados. Com o intuito de elaborar, verificar a utilidade emedir a eficiencia das regras e metodos desenvolvidos, os 92 sumarios foram divididosem treino e teste, sendo que o corpus de treino ficou com 68 sumarios (74% dos sumariosconsiderados) e o corpus de teste com 24 sumarios (26% dos sumarios considerados).

O corpus de teste contem 77 anotacoes referentes ao erro acronimo semexplicacao, destas o prototipo construıdo detectou corretamente 76 erros. Desta forma, osresultados da fase de teste foram considerados satisfatorios, tendo em vista que o prototipoatingiu 98,7% de acuracia, cometendo apenas um erro ao nao identificar o acronimo Co-fins (Contribuicao para o Financiamento da Seguridade Social).

A falha ocorreu no metodo de verificacao composto. Tendo em vista que oacronimo Cofins nao e muito comum. Devido a isso a busca atribui o significado a umacidade de Minas Gerais nao a um acronimo

6. Conclusao

Este trabalho inovou ao implementar um prototipo que permite identificar automatica-mente o erro linguıstico, Acronimo Sem Explicacao, considerado um dos erros mais fre-quentes na sumarizacao automatica multidocumento. Com a acuracia de 98,7%, acredi-tamos que as heurısticas desenvolvidas mostraram-se eficientes e diversificadas, mesmocom uma quantidade sumarios nao tanto expressiva. Para trabalhos futuros seria interes-sante aplicar o prototipo em textos maiores e de outros generos. Alem disso, adaptar o


55

prototipo na identificacao de outros tipos de erros linguısticos, assim como aprimorar aeficacia desse prototipo para ser utilizado em uma aplicacao web.

ReferenciasCardoso, P., Castro Jorge, M., and Pardo, T. (2015). Exploring the rhetorical structure

theory for multi-document summarization. In Proceedings of the 5th Workshop RSTand Discourse Studies, pages 1 – 10.

Cardoso, P., Mazieiro, E., Jorge, M., Seno, E., di Felippo, A., Rino, L., Nunes, M.,and Pardo, T. (2011). Cstnews - a discourse-annotated corpus for single and multi-document summarization of news texts in brazilian portuguese. In Proceedings of the3rd RST Brazilian Meeting, pages 88–105.

Castro Jorge, M. L. R. (2015). Modelagem gerativa para sumarizacao automaticamultidocumento. PhD thesis, Instituto de Ciencias Matematicas e de Computacao -ICMC/USP.

Dias, M. S. (2016). Investigacao de modelos de coerencia local para sumarios multidocu-mento. PhD thesis, Instituto de Ciencias Matematica e de Computacao - Universidadede Sao Paulo.

Filho, P. P. B., Pardo, T. A. S., and das Gracas Volpe Nunes, M. (2007). Sumarizacaoautomatica de textos cientıficos: Estudo de caso com o sistema gistsumm. Technicalreport, NILC - ICMC-USP. 23 p.

Friedrich, A., Valeeva, M., and Palmer, A. (2014). Lqvsumm: A corpus of linguisticquality violations in multi-document summarization. In Chair), N. C. C., Choukri, K.,Declerck, T., Loftsson, H., Maegaard, B., Mariani, J., Moreno, A., Odijk, J., and Pi-peridis, S., editors, Proceedings of the Ninth International Conference on LanguageResources and Evaluation (LREC’14), Reykjavik, Iceland. European Language Re-sources Association (ELRA).

Koch, I. G. V. (1998). A coesao textual – Mecanismos de Constituicao Textual, Aorganizacao do Texto, Fenomenos de Linguagem. Linguıstica Contexto – Repensandoa Lıngua Portuguesa, 10 edition.

Mani, I. (2001). Automatic summarization, volume 3. John Benjamins Publishing.

Nenkova, A., McKeown, K., et al. (2011). Automatic summarization. Foundations andTrends R© in Information Retrieval, 5(2–3):103–233.

Otterbacher, J. C., Radev, D. R., and Luo, A. (2002). Revisions that improve cohesionin multi-document summaries: A preliminary study. In Proceedings of the ACL-02Workshop on Automatic Summarization - Volume 4, AS ’02, pages 27–36, Stroudsburg,PA, USA. Association for Computational Linguistics.

Ribaldo, R. (2013). Investigacao de mapas de relacionamento para sumarizacao multido-cumento. Monografia de Conclusao de Curso, Instituto de Ciencias Matematicas e deComputacao, Universidade de Sao Paulo. Sao Carlos-SP, Novembro, 61p.


56

Metodologia de Visão Computacional para Detecção de Olhos

em Imagens de Face Humana

Daniel S. da Silva1, Gabriela N. D. O. Damazio1, Francisco S. Silva Júnior¹,

Jefferson D. Fernandes¹, Emannuel D. G. de Freitas¹

1Instituto Federal de Educação Ciência e Tecnologia do Ceará – (IFCE) Cedro – CE – Brasil

{daniel.ifce2, gabrielanayara10,

juniorsoares716,jerffesson16,emannueldiego}@gmail.com

Resumo. Este trabalho objetiva apresentar o desenvolvimento de uma

metodologia baseada em visão computacional para realizar a detecção de olhos

em imagens com faces humanas. As imagens para análise e teste do método

desenvolvido são de uma base de dados pública do AT&T Laboratories

Cambridge. O objetivo desses testes foi observar o potencial do método

proposto na detecção e extração da área de interesse através do

reconhecimento de padrões provindo da análise de várias imagens. Para o

desenvolvimento do sistema, utilizou-se a linguagem C++ e a biblioteca

multiplataforma OpenCV, que, por sua vez, fornece recursos para o método

desenvolvido. Os testes realizados retornaram resultados promissores, visto

que 94% dos casos foram de acerto e apenas 6% as imagens tiveram marcações

fora da região de interesse.

Abstract. This work aims to present the development of a methodology based on

computer vision to carry out the detection of eyes in images with human faces.

The images for analysis and testing of the developed method are of a public

database of AT&T Laboratories Cambridge. The goal of these tests was to

observe the potential of the proposed method in the detection and extraction of

the area of interest through recognition of patterns coming from the analysis of

several images. For the development of the system, we used the C++ language

and the cross platform library OpenCV, which, in turn, provides resources for

the developed method. The tests returned promising results, since 94% of the

cases were hit, and only 6% of the images had markings outside the region of

interest.

1. Introdução

Os sistemas de visão computacional estão sendo cada vez mais utilizados, pois viabilizam

um grande número de aplicações, obtendo informações a partir de imagens digitais,

buscando a automação de tarefas geralmente associadas à visão humana ou detecção de

padrões (QUINTA, 2009). Para Gonzalez e Woods (2011) a visão computacional possui

uma série de etapas como: aquisição da imagem, pré-processamento, segmentação,

reconhecimento de padrões e tomada de decisão.


57

Dentre as aplicações onde a visão computacional está sendo utilizada, a detecção

de olhos vem tornando-se uma área muito promissora, podendo ser utilizada para diversos

fins, como por exemplo, em técnicas de segurança como a biometria ou técnicas voltadas

a saúde como identificação de anomalias como o glaucoma (LUIZ et al., 2014). Para

Wechsler, Duchowski e Flickner (2005) apoud Leite (2008), o processo de detecção de

olhos em imagens de faces humanas desempenha um papel importante em vários

sistemas computacionais.

O objetivo deste trabalho é apresentar uma metodologia de visão computacional

para a detecção de olhos em imagens com faces humanas. Dito isso, o presente artigo

encontra-se organizado da seguinte forma: a seção 2 apresenta os materiais e métodos, na

seção 3 são apresentados os resultados e discussões. E por fim, na seção 4 as conclusões.

2. Materiais e métodos

Para o desenvolvimento do método de estudo em comento, contou-se com a

contribuição da seguinte equipe: quatro alunos e o professor orientador do respectivo

projeto, que seguiram as seguintes etapas:

Etapa 1: Implementação da aplicação - Criação de uma interface simples e a

implementação inicial da metodologia de visão computacional, com todas as etapas, na

linguagem C++ no ambiente de desenvolvimento QTCreator (THE QT COMPANY, 2014), com o uso da biblioteca multiplataforma OpenCV.

Etapa 2: Aquisição da base de dados pública e seleção das 50 imagens de

diferentes sexos e diferentes tonalidades de pele para estudo.

Etapa 3: Compilação dos dados – A equação de pontos é aplicada com o objetivo

de encontrar colunas verticais com potencial para delimitar as laterais da face, após é

calculada os picos na horizontal para delimitar a região dos olhos.

Etapa 4: Aplicação dos testes e análise da metodologia implementada.

O sistema do método proposto está codificado em linguagem C++ e utiliza a

biblioteca multiplataforma OpenCV (Open Source Computer Vision Library) (ITSEEZ,

2011), que dispõe de vários recursos para processamento digital de imagens, segmentação

e reconhecimento de padrões. Para o desenvolvimento do método, análise e testes, foram

utilizadas imagens adquiridas em uma base de dados pública AT&T Laboratories

Cambridge.

As imagens disponibilizadas na base de dados da AT&T Laboratories Cambridge

são imagens de 40 pessoas em 10 posições diferentes. Para análise da metodologia

proposta foram escolhidas as imagens das 10 pessoas em 5 posições frontais diferentes

por apresentar nitidamente os olhos, totalizando 50 imagens.

2.1 Análise das imagens para identificação da região dos olhos

Para a implementação da metodologia computacional necessária a identificação

da região dos olhos, foram realizadas as etapas observadas conforme ilustrado na Figura1.


58

Figura 1.Fluxograma da implementação do método.

Uma das etapas cruciais para a aplicação de um sistema baseado em visão

computacional é a de pré-processamento. Nesta etapa ocorre o processamento digital de

imagens responsável pela redução de ruídos e o realce das imagens, geralmente, com o

intuito de aumentar a qualidade da imagem para que as etapas posteriores não sofram as

interferências dessas imperfeições (MARQUES FILHO e VIEIRA NETO, 1999).

Como forma de eliminar os ruídos que, eventualmente, viriam junto com a

imagem na aquisição, é utilizado um filtro de suavização que tende a diminuir a evidência

de bordas nas imagens. O filtro de Sobel é aplicado na imagem suavizada para realçar e

intensificar essas bordas, como forma de restaurar a aparência original da imagem a ser

processada, em duas matrizes distintas horizontais e verticais, utilizadas posteriormente

na extração de atributos (FARIA BOTELHO e SILVA CENTENO, 2007).

As matrizes de bordas horizontais e verticais, obtidas por Sobel, não apresentam

uma homogeneidade nas cores que representam as bordas das imagens, fazendo com que

sua exposição seja dada em níveis de cinza. Como forma de aumentar a eficiência na

percepção dessas bordas, é aplicada uma rotina de binarização cujo limiar é obtido por

meio do método de Otsu, que objetiva a partir de uma imagem em tons de cinza,

determinar o valor ideal de um threshold (limiar) que separe os elementos do fundo e da

frente da imagem em dois, atribuindo a cor branca ou preta para cada um deles (OTSU,

1979).

Na Figura 2 é mostrado um exemplo de imagem com bordas horizontais e verticais

binarizadas e não binarizadas.

Figura 2. (a) imagem com bordas horizontais não binarizadas. (b) imagem com bordas

verticais não binarizadas. (c) imagem com bordas horizontais binarizadas. (d) imagem

com bordas verticais binarizadas.

Com os resultados obtidos pelo método de Otsu, percebe-se uma grande

incidência de pixels na área próxima a boca, como é percebido na figura 2, sendo


59

necessária a utilização de técnicas de morfologia matemática para realizar essa correção.

Com tal técnica, é possível manipular a forma dos objetos em uma imagem usando

algumas transformações não lineares, que permitem corrigir algumas imperfeições após

a segmentação. Essa transformação não linear é o Opening, também conhecido como

Abertura, é uma operação morfológica elaborada a partir de uma erosão seguida de uma

dilatação. A erosão é responsável por diminuir a área do objeto na imagem, enquanto a

dilatação expande, aumenta esse objeto na imagem, ou seja, os pixels próximos ao objeto

se reagrupam, agindo na eliminação dos ruídos e imperfeições nas horizontais (PARKER, 2011). Desta forma, a abertura do objeto na imagem é um operador que suaviza seu

contorno. A aplicação de tal técnica pode ser observada na figura 3 a seguir.

Figura 3. Aplicação da Abertura na imagem com bordas horizontais.

Após a realização de todos os processos propostos anteriormente, é realizada a

contagem do número de pixels brancos por linha na matriz horizontal e do número de

pixels brancos por coluna na matriz vertical. As duas colunas com maior número de pixels

brancos são candidatas às demarcações verticais para as duas laterais da face, no entanto,

é provável que duas colunas com um alto número de pixels brancos estejam próximas ao

ponto de invalidar essa premissa.

Como forma de encontrar colunas verticais com potencial para delimitar as

laterais da face, utilizou-se neste trabalho a consideração da quantidade de pixels brancos

nas colunas, mas também a distância entre a coluna com mais pixels e outra que possa

representar a segunda lateral da face. Essa consideração é feita pela seguinte equação:

𝑃𝑜𝑛𝑡𝑜2 = (𝑃𝑜𝑛𝑡𝑜1 − 𝑘)2 ∗ 𝑄𝑡𝑑𝑝𝑏[𝑘] (1)

Onde:

● Ponto2 é o índice daquela que será a coluna para a segunda lateral da face;

● Ponto1 é o índice da coluna com a maior quantidade de pixels brancos

(primeira lateral da face);

● k é o índice de uma coluna a ser observada (0 ≤ k ≤ número de colunas da

imagem);

● 𝑄𝑡𝑑𝑝𝑏[𝑘] é a quantidade de pixels brancos na coluna k.

A equação acima é aplicada em um processo interativo, relacionando o maior pico

com os demais, de forma que, ao seu final, são encontradas as duas linhas com maior

quantidade de pixels brancos.

Na imagem horizontal, o objetivo é encontrar o segundo maior pico, ou seja, a

coluna que possui a segunda maior quantidade de pixels brancos, isto porque, a partir das


60

análises dos testes verificou-se que as bordas horizontais que delimitam a parte superior

da cabeça, ou aquelas que delimitam a parte inferior dos cabelos (entre cabelos e testa),

são tidos como o maior pico.

Nas mesmas observações, foi identificado que o segundo maior pico normalmente

se localiza em duas regiões: sobrancelhas ou olhos, as quais estão na região de interesse,

porém ainda sem a necessária informação da delimitação do início e do fim de região. O

fluxograma ilustrado na Figura 3, mostra como é feita essa distinção. Nele, “larg” é obtido

a partir da distância entre as duas colunas de delimitam as extremidades verticais da face,

ou seja, “larg” traz uma indicação da largura da face e “i” é a linha que passa por avaliação

Figura 4. Fluxograma para identificação do segundo pico encontrado (Sobrancelhas ou

olhos).

Se a linha “i” estiver sobre a sobrancelha, será ela considerada a primeira

demarcação horizontal para a região dos olhos, enquanto que a segunda demarcação será

“i + larg/4”. Caso contrário, se a linha “i” estiver sobre os olhos, a primeira demarcação

horizontal será “i – larg/8”, enquanto que a segunda será “i + larg/4”. A largura da face

foi posta como referência após vários testes que buscaram encontrar uma relação entre

essa medida e a distância entre olhos e sobrancelha.

Na Figura 5 (b) são mostradas as duas demarcações horizontais, em um caso onde

a linha “i” (marcada de verde) ficou sobre as sobrancelhas. Na mesma figura também é

ilustrada uma imagem com as demarcações verticais Figura 5 (a).

Figura 5. (a) Imagens com as demarcações na imagem vertical. (b) Imagens com as

demarcações na imagem horizontal.


61

Os cruzamentos das quatro retas (duas horizontais e duas verticais), indicarão os

quatro pontos de um retângulo que faz a marcação da região de interesse. Na Figura 5(b)

é mostrada uma imagem com esse retângulo. Na mesma Figura também é mostrada a

imagem original, colhida da base utilizada para os testes, da qual só obteve o resultado

demonstrado Figura 6.

Figura 6. (a) Imagem Original. (b) Imagem Final.

3. Resultados e discussão

Para realização dos testes foram utilizados, dentre as imagens disponibilizadas no banco,

5 homens em 5 posições diferentes e 5 mulheres em 5 posições diferentes totalizando 50

imagens. Na Tabela 1, são exibidos os resultados encontrados com a aplicação do método

proposto na referida base.

Tabela 1 – Total de acertos e erros nos testes realizados com homens, mulheres e crianças.

Os testes indicam que 94% das imagens analisadas foram demarcadas de maneira

correta, o equivalente a 47 imagens. Pela mesma análise, constatou-se que 6% foram

demarcados de forma errônea, ou seja, em 3 imagens a região de interesse não esteve

dentro do retângulo demarcado.

Os erros da detecção foram causados por ter uma maior incidência de pixel em

regiões diferentes da região dos olhos, decorrentes de iluminação inadequada ou baixa

resolução da imagem.

Total de acertos e erros

Pessoas

Total

de

pessoas

Total de

posições

Total de

imagens Acertos Erros

Homen

s 5 5 25 24 1

Mulher

es 5 5 25 23 2


62

4. Conclusões

A detecção de olhos é importante para diversas aplicações computacionais, em destaque

aquelas que implementam soluções de biometria ou auxiliam no setor da saúde na

detecção de anomalias. No presente trabalho é apresentando uma versão inicial de um

método desenvolvido com o objetivo de realizar, em uma imagem digital, o destaque de

uma região de interesse onde se encontram os olhos de uma face.

Para primeiros estudos, a partir dos resultados obtidos, após a realização dos testes

o método conseguiu um grande percentual de acertos, mostrando-se relativamente

eficiente por atingir os objetivos almejados, alcançando a correta detecção dos olhos.

Em trabalhos futuros, pretende-se realizar um estudo mais aprofundado sobre

técnicas de pré-processamento como forma de se obter uma imagem mais apropriada para

extrair as informações necessárias para a detecção dos olhos. Pretende-se incluir, também,

o uso de Redes Neurais Artificiais como classificador de pele, como forma de segmentar

a região da pele humana, reduzindo assim o espaço de análise do método proposto, e

aumentado sua precisão, pois espera-se que o classificador elimine a influência de cabelos

e sombras.

Referências

[AT&T Laboratories Cambridge] Laboratório de computação da universidade de

Cambridge. Disponivel em:

<http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html/> Acesso em: 28

de setembro de 2017.

[FARIA BOTELHO, M.; SILVA CENTENO, J. A., 2007], Reconstrução tridimensional

de edificações utilizando dados laser scanner aerotransportados. Boletim de Ciências

Geodésicas, v. 13, n. 1, 2007.

[GONZALEZ R.C., WOODS R.E.,2011] Processamento de Imagens Digitais. 3ª ed. São

Paulo: Pearson.

[ITSEEZ] Open Source Computer Vision. 2.3 Intel Corporation, 2011. Disponível em

<http://opencv.org/downloads.html>

[LEITE, B. B., 2008] “Detecção de Olhos em Imagens com Faces Humanas”,

Universidade Federal De Campina Grande – 2008. p. 1

[LUIZ, J. A. O. et al., 2014], “Auxílio ao Diagnóstico do Glaucoma Baseado em Métodos

de Processamento Digital de Imagens”, Engenharia de Controle e Automação/UNESP,

Sorocaba, Brasil.

[MARQUES FILHO, Ogê; VIEIRA NETO, Hugo.,1999], “Processamento Digital de

Imagens”, Rio de Janeiro: Brasport, 1999. ISBN 8574520098.

[OTSU N., 1979] “A Threshold Selection Method from Gray-level Histograms”, IEEE

Transactions on Systems, Man and Cybernetics, v. SMC 9, no 1, pp.63-66.


63

[PARKER, J R.,2011] Algorithms for Image Processing and Computer Vision. 2. ed.

Indianapolis: Wiley Publishing, Inc.

[QUINTA, L.N.B., 2009] “Desenvolvimento de um Sistema de Visão Computacional

para o Controle Microbiano em Processos de Produção de Etanol”, UCDB - Campo

Grande – MS, Novembro.

[The Qt Company, 2014], Qt Creator. 5.3. 2014. Disponível em:

<https://www.qt.io/download/> Acesso em: 10 ago. 2017.


64

PRÁTICAS E LIÇÕES APRENDIDAS EM PESQUISA DE CAMPO SOBRE O DESENVOLVIMENTO DE JOGOS

DIGITAIS EDUCATIVOS

Lucas Ávila¹, Matheus Matos Machado¹, Gabriel Santos Resende¹, Rafael Zeferino Rossi¹, Gustavo Evangelista Araújo¹, Leandro Agostini Amaral², Elson

Longo3, Thiago Jabur Bittar¹ e Luanna Lopes Lobato¹

¹Departamento de Computação – Universidade Federal de Catalão

²Instituto de Ciências Matemáticas e de Computação – Universidade de São Paulo

³Departamento de Química – Universidade Federal de São Carlos

eu.lucasavila, matos10121999, gaberreu, rafaelzrossibr, gustavoevangelistaaraujo, leandromaral, elson.liec, thiagojabur, luannalopeslobato{@gmail.com}

Abstract This Paper describes, first, the advantages of using Digital Game in the education process, as well as the learning process of Computer Science Students in a real Software Company about the same domain, creating a independent and unattached developing team. Therefore, is described the use of a Game Design Document (GDD) for a better project organization, as well as the most used softwares, focusing on Development for low processing power Computers.

Resumo. Este artigo descreve, primeiramente, sobre as vantagens da utilização de jogos digitais no processo de ensino-aprendizagem, bem como apresenta o aprendizado de estudantes de ciência da computação em uma empresa de software acerca da metodologia de desenvolvimento de jogos para a formação de uma equipe desenvolvedora independente e autônoma. Para tanto, é descrito o uso do Documento de Design do Jogo (Game Design Document, GDD) para uma melhor organização do projeto, assim como os principais softwares utilizados, ressaltando a necessidade do foco em computadores com baixo poder de processamento.

1. Introdução

É notório na sociedade atual a presença, cada vez mais cedo, de dispositivos eletrônicos na vida de crianças e jovens, no qual destacam-se smartphones, tablets, videogames e computadores. Com a facilidade de acesso à tecnologia proporcionada pelos dispositivos móveis, os usuários têm contato frequente com sistemas computacionais, usados diariamente como plataformas para jogos digitais.

Os jogos digitais são responsáveis por grande parte do entretenimento dos usuários e, também, do desenvolvimento lógico e motor, no qual estas capacidades ficam disfarçadas entre os desafios propostos. Porém, nos jogos ditos “comerciais”, esse desenvolvimento não segue necessariamente preceitos educacionais, uma vez que não os


65

tem como objetivo e, por isso, perdem boas chances de explorar suas capacidades de ensino e aprendizagem.

O uso de computadores no processo de ensino-aprendizagem acompanha a própria introdução deste na sociedade. Sua implementação na estrutura escolar sempre foi uma preocupação de desenvolvedores, mas devido às limitações tecnológicas e pedagógicas, quanto as suas potencialidades, o sistema educacional utilizou, primeiramente, apenas de sua capacidade de armazenar informações e apresentá-las ao usuário (VALENTE, 1999). Agora, com o avanço tecnológico, suas potencialidades tomam uma nova perspectiva, revelando a urgência da modernização do sistema educacional para a construção do conhecimento do aprendiz com maior grau de eficiência e eficácia.

Não obstante, Edgar Dale [1946], autor do estudo que ficou conhecido como o cone da aprendizagem (Dale’s Cone of Experience), compara métodos de aprendizado, demonstrando indiretamente, o potencial de ensino do aprendizado por jogos educativos - os quais o usuário é desafiado a todo o tempo a aplicar o que lhe foi ensinado, motivado pela progressão do próprio jogo. Estudo este que foi exposto didaticamente na Figura 1[medium.com, 2018].

Figura 1. Cone de aprendizagem

É observando a capacidade didática e imersiva que o universo digital oferece, que a proposta deste artigo busca se desenvolver, demonstrando principalmente, o processo de produção de jogos educacionais, a fim de formar uma equipe desenvolvedora independente e autônoma.

A análise e implementação dos aspectos supracitados teve como base a perspectiva obtida por meio de uma pesquisa de campo, em que alunos do curso de Ciência da Computação da Universidade Federal de Catalão, estiveram inseridos na realidade de uma empresa de software, para conhecer e aprender métodos utilizados pela própria em projetos de jogos educativos para escolas.

As demais seções são dispostas como segue: Na seção 2 é apresenta a pesquisa e prática de campo, em que o domínio de estudo foi analisado no ambiente real de uma


66

empresa de software. A seguir é demonstrado o GDD, usado para nortear a implementação. Na seção 4 são descritos os softwares utilizados para desenvolvimento deste trabalho, seguido pela apresentação do motor gráfico, edição de mapas e ferramentas de suporte. Na seção 5 são apresentadas as conclusões, bem como os trabalhos futuros.

2. Pesquisa e Prática

Ao longo de uma semana, os alunos do curso de curso de Ciência da Computação da Universidade Federal de Goiás (UFG), Regional Catalão (RC), realizaram uma pesquisa de campo na empresa Aptor Consultoria e Desenvolvimento de Software, localizada em São Carlos/SP, para obter conhecimento sobre as práticas para desenvolvimento de Jogos Digitais Eletrônicos (JDEs). É importante ressaltar que a empresa atua na área desde 2005, portanto apresenta um portfólio já consolidado, bem como tem desenvolvido pesquisas em parceria com a Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) para a produção de jogos educativos, no projeto Ludo Educativo1.

Esta pesquisa de campo foi a primeira experiência do grupo de alunos, totalizando 40 horas distribuídas ao longo de cinco dias, no qual foi analisado, desde a idealização do projeto até a escolha das ferramentas a serem utilizadas. Serão posteriormente pontuadas e esclarecidas as etapas que sucederam essas discussões, tendo como base a avaliação das restrições que o equipamento e contexto que este público exige.

Foram feitas diversas reuniões e palestras para organizar, planejar e executar ideias desenvolvidas pelos alunos com foco em jogos educativos. A equipe da empresa apresentou o Documento de Design do Jogo (Game Design Document, GDD), ferramenta utilizada em seus projetos, e posteriormente acompanhou e orientou em cada etapa, buscando formar uma equipe desenvolvedora capaz de se estruturar e produzir de forma independente e autônoma.

Primeiramente foi apresentado o GDD, em seguida foram escolhidos os softwares que mais se adequam aos projetos idealizados pelos alunos, e ao longo da semana, as práticas e lições aprendidas foram aplicadas em uma experiência real de produção de jogos. A seguir, serão expostas as primeiras instruções recebidas para a idealização e elaboração do escopo de um jogo educativo. Em trabalhos futuros, cabe a demonstração da aplicação deste guia em cada etapa do processo produtivo de um jogo educativo.

3. Game Design Document (GDD) Como visto na Aptor Software, esta ferramenta é tida como um guia e o uso deste torna-se cada vez mais útil ao longo do projeto, pois previne possíveis desvios, desentendimentos ou ambiguidades entre os desenvolvedores. A elaboração do GDD, é dividida em 9 etapas, listadas e explicadas a seguir:

3.1. Conceito Etapa onde se define qual será o conceito básico do jogo. Tendo esta base definida, pode-se descrever seu gênero e público-alvo, uma vez que estes aspectos influenciam no desenvolvimento da linguagem e acesso ao público. Em seguida, é feito um resumo de seu fluxo, que determina não apenas o fluxo do jogador ao longo da experiência em si,

1 http://www.ludoeducativo.com.br


67

mas também entre os menus. Por último é explorado a capacidade de transmitir o conteúdo e seus meios para tal, ditando a identidade visual e as experiências advindas da jogabilidade.

3.2. Gameplay

Estabelecido o conceito do jogo, é necessário planejar nesta etapa, detalhadamente, como será o gameplay, quais mecânicas serão aplicadas e como elas irão interagir entre si nesse mundo fictício. Posteriormente, é descrita sua física e a movimentação dos objetos em cena (como por exemplo, em quantas dimensões o personagem pode se movimentar, sua velocidade, etc.).

Paralelamente, deve-se listar quais ações conferem ao personagem, como ele irá interagir com objetos e outros personagens (jogáveis ou não) e os comandos correspondentes. Nesta etapa também é necessário destacar o funcionamento do fluxo de telas e acesso a cenários, bem como o planejamento do sistema de salvamento (automático ou manual).

3.3. Narrativa Esta é a etapa que possibilita dar vida ao jogo, sua trama e narrativa. Deve-se determinar qual a história por trás dos personagens e ambientes, sua progressão cronológica, é onde os elementos de narrativa que são abordados, sendo esses os personagens do enredo da história, como se relacionam, suas histórias de fundo e, caso haja cutscenes (curtas onde o jogador não tenha controle), como serão elaboradas, onde os personagens estão envolvidos.

Também é necessário comentar sobre o mundo no qual o jogo será ambientado, descrevendo-o detalhadamente, tendo em mente a sensação que se deseja transmitir em cada etapa do cenário, principalmente em jogos de múltiplas regiões. Além de descrevê-las, é essencial discorrer sobre como elas se relacionam, para que todas as transições decorram de maneira orgânica.

3.4. Progressão dos Estágios Se o jogo possuir múltiplos cenários, como os de plataforma, deve-se determinar o que acontecerá no decorrer da fase, quais serão os desafios encontrados pelo jogador em cada etapa, e como isso influenciará em seu aprendizado. Existe um grande desafio quando se trata da elaboração de fases: a criação da fase tutorial.

O ideal é que a fase tutorial seja a última a ser desenvolvida, mesmo sendo a primeira cena jogável, uma vez que deve-se contar de maneira simples e rápida as mecânicas adotadas. Neste trabalho, tomou-se como ideal o exemplo da fase tutorial do MegaMan X, desenvolvido pela Capcom, em 1993, que ensina ao jogador de forma indutiva e bem subjetiva, ao ponto de não se diferenciar de outra fase, quais as principais mecânicas, sem interromper ou dificultar a progressão de eventos. (GREEN, 2017)

3.5. Interface É indispensável discorrer sobre a interface, dentre seus elementos tem-se: sua disposição na tela; as opções exibidas na tela; o modelo de câmera adotado; disposição dos comandos a serem utilizados pelo jogador; o sistema de ajuda (para auxiliar o jogador em caso de dúvidas) e também as músicas e efeitos sonoros utilizados. Todos esses elementos, dentre outros componentes substanciais ao desenvolvimento de um jogo de qualidade, devem


68

constar de forma clara e elucidativa, contemplando todo o público-alvo, da forma mais inclusiva possível, o que confere atenção especial a esta etapa.

3.6. Inteligência Artificial (IA) A inteligência artificial trata, basicamente, sobre como os outros personagens, conhecidos como personagem não jogável (Non-Player Character, NPC) reagirão ao interagir com o protagonista, cenário e eventos. Para esta pesquisa, teve-se uma cautela maior com jogos educativos, os quais devem evitar o uso da violência, bem como dosar os confrontos contra os inimigos, de forma a não desviar do intuito educativo.

3.7. Configurações

Além dos detalhes de desenvolvimento, é necessário discutir sobre os aspectos técnicos: os requisitos de hardware das plataformas-alvo; a necessidade de conexão com a rede; e também os softwares utilizados para a elaboração do jogo (editores de mapas, design de áudio, motor gráfico, e qualquer outro software específico ao projeto). Estas características são de extrema importância e devem ser consideradas em todas etapas de produção. Com o público-alvo também em escolas públicas, onde nem sempre há computadores com alto poder de processamento, os requisitos de hardware impostos devem ser os mínimos possíveis. Para tanto, foi escolhido o Motor gráfico da YoYo Games, o GameMaker Studio, em sua versão 1.4, detalhado posteriormente.

3.8. Game Art Neste tópico é definido o estilo geral do jogo, a paleta de cores, o padrão para criação da interface, ou de forma resumida, tudo que infere sua identidade visual. É necessária uma atenção minuciosa para cada detalhe, uma vez que a impressão visual tem função de guiar a atenção do usuário, e se mal elaborada, pode criar desentendimentos e ambiguidades, comprometendo todo o processo educativo. Para tanto, é necessário buscar harmonia na composição de cenas, animações, estilos, cores, objetos, dentre outros, de forma em que comuniquem entre si.

3.9. Nome De acordo com os estudos no ambiente da empresa, este tópico pode ser elaborado tanto como a última etapa do GDD quanto a primeira, no qual define o nome do jogo. O nome deve representar de maneira simples do que se trata, bem como ser atrativo para, essencialmente, o público-alvo.

4. Softwares utilizados

Nesta seção são discorridos sobre os principais softwares utilizados ao longo do projeto, explanando suas vantagens, seus principais concorrentes, e suas desvantagens, a partir da perspectiva dos usuários, não se atendo apenas aos detalhes técnicos, mas também a experiência de uso.

4.1. Motor Gráfico O motor gráfico, ou também, engine é o software indispensável no desenvolvimento, sendo o alicerce de todo projeto. Sobre ele, o jogo e todas as suas mecânicas serão implementadas e organizadas.


69

O software utilizado, como citado anteriormente, foi o GameMaker Studio, da YoYo Games, em sua versão 1.4, lançada em novembro de 2014, usado com foco em jogos 2D.

A linguagem usual do motor gráfico, a Game Maker Language (GML), que se assemelha muito ao C, agrada desenvolvedores experientes, enquanto o sistema Drag and Drop (DnD) agrada iniciantes, uma vez que permite associar comandos pré-definidos a objetos em cena, descrevendo a mecânica geral. O software utiliza de rooms (salas) para organizar as cenas, o que combinado ao sistema 2D, otimiza o desempenho em computadores com baixa capacidade.

A engine também possibilita o estilo de arte saudosista dos jogos clássicos, no qual priorizam a qualidade de narrativa, jogabilidade e enredo, não focados, necessariamente, em gráficos realistas.

Dentre seus principais concorrentes, pode-se citar as engines com suporte 2D e 3D como Unity, Unreal e Source 2. A vantagem em comum entre estes é o acesso gratuito, enquanto a desvantagem, que tornou o GameMaker a melhor escolha para o projeto é o suporte, interface e aplicações deste, focado inteiramente em jogos 2D, facilitando tanto seu desenvolvimento, quanto desempenho.

4.2. Edição de mapas O software Tiled, usado no projeto, é um editor de mapas gratuito. É uma das ferramentas mais úteis ao projeto, uma vez que o GameMaker possui uma ferramenta de edição de mapas limitada e de difícil manuseio. O Tiled simplifica operações repetitivas presentes no GameMaker, ao possibilitar o preenchimento de grandes porções da grade em poucos comandos.

No início do programa, se especifica o tamanho, largura, altura e orientação de cada tile (subdivisão da cena). Dentre as orientações ortogonal, isométrica e hexagonal, é desenvolvida a cena, onde cada uma infere uma sensação e percepção do jogador distinta. Em seguida, para a criação de sala, é disposta uma plataforma intuitiva e completa no qual todos tiles devem ser inseridos pelo próprio usuário. É importante ressaltar que estes devem ser elaborados ou procurados com cautela, obedecendo aos direitos autorais, ou buscando por pacotes de tiles abertos ao público.

Além das vantagens citadas anteriormente, o Tiled se destaca em mais dois aspectos, primeiro na utilização de camadas sobrepostas, dispondo de forma organizada cada recurso do mapa. O segundo aspecto é sua extrema facilidade de exportar as salas criadas para o GameMaker, uma vez que transforma o arquivo para uma extensão legível ao motor gráfico.

4.3. Adobe Photoshop CS6, Blender e PaletteFuck Air O Adobe Photoshop é um software pago de edição de imagens 2D, a sua utilidade está diretamente atrelada a parte artística, bem como nas ilustrações, cutscenes e até mesmo na criação e edição de tiles. Ao longo deste projeto utilizou-se a versão CS6 do Photoshop.

Assim como o Tiled, o PaletteFuck Air não é amplamente conhecido, entretanto pode fazer toda diferença na definição da identidade artística do jogo. Este é um software gratuito, que possibilita selecionar, mesclar, criar variações de cores, dentre outras funcionalidades, o que facilita no momento de definição da Game Art (veja 3.8).


70

Blender se trata de um software gratuito desenvolvido pela Blender Foundation, lançado em 1998, na qual suas principais funções são a modelagem, texturização e renderização de objetos 3D. Neste projeto ele é usado como uma ferramenta visual para nortear a perspectiva de um cenário 3D por meio da renderização dos objetos da cena para uma imagem 2D, onde no Adobe Photoshop CS6 será alterada para o estilo do jogo em um processo de pintura sobreposta.

4.4. Audacity

O Audacity é um software gratuito, de código aberto e multiplataforma para criação e edição de áudio. Dentre suas principais funções se encontra o equalizador, edição e mixagem de som, gravação do áudio e remoção de ruídos. Outra vantagem é sua interface simples e amigável, atrativa para públicos pouco familiarizados com programas de edição de áudio, ideal para a criação e edição de efeitos sonoros originais.

5. Conclusão

Após um estudo prático dos alunos em um ambiente real de uma empresa de software, foi possível verificar o quanto as práticas de implementação já difundidas e as lições aprendidas em equipes de desenvolvimento de software são extremamente necessárias e altamente relevantes à definição do escopo do projeto e tomadas de decisões.

Com os conhecimentos adquiridos, é crível que os alunos elaborem jogos de qualidade e com fim educacional, respeitando os aspectos trabalhados neste artigo. Como trabalhos futuros, pretende-se a exposição detalhada da aplicação do GDD em jogos iniciados na pesquisa de campo, relatando suas capacidades didáticas acompanhados de relatórios dos resultados adquiridos em sala de aula.

Assim, espera-se com esta pesquisa que possíveis desenvolvedores tenham o mesmo acesso a uma perspectiva específica na grande gama de possibilidades que esta área oferece, no qual agora norteados, podem elaborar novos jogos com um cuidado extra e fim necessariamente educacional, ultrapassando barreiras impostas pelas limitações de hardware que o sistema digital das escolas possui.

6. Referências

A história dos games de simulação. Disponível em: <https://www.tecmundo.com.br/video-game-e-jogos/32684-a-historia-dos-games-de-simulacao.htm>. Acesso em: 20 mar. 2018

DALE, Edgar. The cone of experience. E. Dale, Audio-visual methods in teaching, p. 37-52, 1946. Disponível em: <http://www.queensu.ca/teachingandlearning/modules/active/documents/Dales_Cone_of_Experience_summary.pdf>. Acesso em: 20 mar. 2018.

ESPINOSA, RUTE SC; GÓMEZ, JOSÉ LE. Aprendizagem Baseada em Jogos Digitais Entrevista com Professores que utilizam jogos digitais em suas práticas educativas. XI SBGames 2013 SBC–Proceedings of SBGames (XI SBGames), São Paulo, SP. ISBN, p. 2179-2259, 2013.


71

GREEN, Michael Cerny et al. “Press Space To Fire”: Automatic Video Game Tutorial Generation. 2017.

LEW, J. Making City Planning a Game. The New York Times, (15/06/1989). Home & Garden. Disponível em: <https://www.nytimes.com/1989/06/15/garden/making-city-planning-a-game.html>. Acesso em: 20 mar. 2018.

Pirâmide de William Glasser ou “Cone da Aprendizagem”. Disponível em: <https://medium.com/@renatho/pir%C3%A2mide-de-william-glasser-ou-cone-da-aprendizagem-49a4670afc9a>. Acesso em: 20 mar. 2018.

Panorama do setor de jogos digitais no Brasil | Infográfico. Disponível em: <https://www.bndes.gov.br/wps/portal/site/home/conhecimento/noticias/noticia/jogos-digitais-brasil-infografico/>. Acesso em: 20 mar. 2018.

SAVI, Rafael; ULBRICHT, Vania Ribas. Jogos digitais educacionais: benefícios e desafios. RENOTE, v. 6, n. 1, 2008.

VALENTE, José Armando et al. Informática na Educação no Brasil: análise e contextualização histórica. O computador na sociedade do conhecimento. Campinas: UNICAMP/NIED, p. 1-13, 1999.


72

Refinamento de Malha com Base na Convergencia do Metodode Elementos Finitos

Karla Melissa dos Santos Leandro1, Flavia Goncalves Fernandes2,Samuel Wanberg Lourenco Nery3, Marcos Napoleao Rabelo4, Marco Paulo Guimaraes5,

1Departamento de Engenharia de Producao – Universidade Federal de Catalao (UFCAT)Catalao – GO – Brasil

2Departamento de Ciencias da Computacao – Universidade Federal de Catalao (UFCAT)Catalao – GO – Brasil

3Unidade Academica Especial de Biotecnologia – Universidade Federal de Catalao (UFCAT)Catalao – GO – Brasil

4Unidade Academica Especial de Matematica e Tecnologia – Universidade Federal de Catalao (UFCAT)Catalao – GO – Brasil

5Departamento de Engenharia de Producao – Universidade Federal de Catalao (UFCAT)Catalao – GO – Brasil

{karlaufcat,flavia.fernandes92,samuelwanberg}@gmail.com, [email protected]

[email protected]

Abstract. Computational simulation is widely used to perform analyzes and im-prove the quality of products and projects in civil construction. Traditionalmethods, both structural analysis and design and fault analysis, are usuallybased on the Finite Element Method (MEF). In this perspective, this work hasthe objective to compare the accuracy of the finite element method and to inves-tigate the dependence of the number of nodes and elements, the size and type ofelement of the mesh. After analysis of the results, it was observed that the num-ber of nodes and elements contained in the mesh influences the quality of theresearch, making the work more sensitive to deformation of the beam, subjectedto static or dynamic loads.

Resumo. A simulacao computacional e amplamente utilizada para realizaranalises e melhorar a qualidade dos produtos e projetos na construcao civil. Osmetodos tradicionais, tanto de analise e projeto estrutural, quanto de analisede falhas, sao normalmente baseados no Metodo dos Elementos Finitos (MEF).Nessa perspectiva, este trabalho tem como objetivo comparar a precisao dometodo de elementos finitos e averiguar a dependencia da quantidade de nos eelementos, o tamanho e o tipo de elemento da malha. Apos analise dos resulta-dos, foi observado que o numero de nos e elementos contidos na malha influen-ciam na qualidade da pesquisa, tornando o trabalho mais sensıvel a deformacaoda viga, submetida aos carregamentos estaticos ou dinamicos.

1. IntroducaoA mecanica dos solidos e o ramo da mecanica que estuda o comportamento contınuodeformavel dos solidos. Neste contexto, a materia e constituıda por um meio contınuo


73

de posicoes bem definidas, de modo que deformacoes, translacoes e rotacoes possam serdescritas e dissociadas para futuras analises [Zienkiewicz and Taylor 2005].

Assim, a mecanica dos solidos utiliza tensores para descrever tensoes,deformacoes e descreve as relacoes existentes entre estes dois estados [Magrab 2012].Neste ambito, e possıvel prever o comportamento do solido sob a acao de forcas de con-tato, gradientes de temperatura, campos gravitacionais, campos eletromagneticos, entreoutros agentes internos e externos [Georgoulis and Pryer 2018].

Este trabalho destaca o metodo dos elementos finitos, que consiste na seguinteteoria: a geometria submetida aos carregamentos e restricoes e subdividida em pequenaspartes, denominadas elementos, os quais representam o domınio contınuo do problema.A divisao da geometria em pequenos elementos permite resolver um problema complexo,subdividindo-o em problemas mais simples, o que possibilita ao computador realizar comeficiencia estas tarefas [Benes and Kruis 2018], [Hu et al. 2018]. Esta pesquisa tem comoobjetivo comparar a precisao do metodo dos elementos finitos e averiguar a dependenciada quantidade de nos e elementos, o tamanho e o tipo de elemento da malha. Ou seja,confrontar se quanto menor for o tamanho e quanto maior for o numero de nos e elementosem uma determinada malha, maior sera precisao nos resultados da analise.

Nessa perspectiva, a simulacao computacional e amplamente utilizada nas em-presas para realizar analises e melhorar a qualidade dos produtos e projetos. Grandeparte dessas analises, sao realizadas por meio de softwares que utilizam (MEF), osquais possibilitam a obtencao de respostas para inumeros problemas de engenharia[Duan and Ma 2018].

O presente trabalho foi estruturado da seguinte forma: na secao 2, sao apresen-tados os conceitos basicos utilizados nesta pesquisa; na secao 3, sao descritos trabalhossimilares a esta pesquisa; a secao 4 relatou a metodologia proposta; na secao 5, os re-sultados foram analisados e discutidos; e, na secao 6, foram abordadas as conclusoes dapesquisa.

2. Conceitos BasicosO metodo de Galerkin e usado para resolver problemas em mecanica estrutural, dinamica,fluxo de fluidos, estabilidade hidrodinamica, transferencia de massa, acustica, teoria demicroondas. Este metodo esta inserido como ferramenta basica teorica incluıda para(MEF). Problemas governados por equacoes diferenciais ordinarias, equacoes diferenci-ais parciais e equacoes integrais sao estudados pela formulacao de Galerkin. Deste modo,problemas estaveis, instaveis e de autovalor mostraram-se aplicaveis para um tratamentousando o metodo de Galerkin[Fletcher 1984].

Em Elementos Finitos, devido a complexidade das estruturas, e comum a mode-lagem a partir de metodos numericos, onde, a partir de um modelo numerico, obtem-se aformulacao classica da equacao referente ao problema estudado. Em seguida, realiza-sea formulacao integral e faz-se a aproximacao pelo metodo de Galerkin e discretiza-se odomınio pelo metodo de elementos finitos [Rabelo et al. 2017].

Na formulacao deste metodo, divide-se o intervalo da solucao ([0, 1]) em variossubintervalos ([xi, xi + 1])e i = 1 a n. Considerando um subdomınio com dois nos, umem cada extremidade, como visto na Figura 1.


74

x1 x1 + 1

u1 u1 + 1

x

Figura 1. Intervalo de SolucoesAdaptado de [Bang and Kwon 2000]

Em cada no, o valor de coordenada corresponde (xi; ou xi+1) a variavel nodal(ui; ou ui+1) atribuıda e ω equivale a funcao referente ao peso residual. Sendo assim, afuncao teste desconhecida e apresentada na equacao 1. As equacoes 1 a 8 demonstram demaneira detalhada o processo de formulacao do Metodo de Galerkin.

ui = c1xi + c2 (1)

c1 =

ui+1 − ui

xi+1 − xi

c2 =ui + xi+1 − ui+1xi

xi+1 − xi

(2)

ui+1 = c1xi+1 + c2 (3)

u = H1(x)ui +H2(x)ui+1 (4)

H1(x) =

xi+1 − x

hi

H2(x) =x− xi

hi

hi(x) = xi+1 − xi

(5)

H1x e H2x sao chamados de funcoes de forma linear e satisfazem a seguintecondicao:

1.

{H1(xi) = H2(xi+1) = 1H1(xi+1) = H2(xi+1) = 0

(6)

A formulacao pode ser transformada em:

n∑i=1

∫ xi+1

xi

(− dω

dx

du

dx− ωu+ xω

)dx+

[ωdu

dx

]10

= 0 (7)


75

Logo, obtem-se a formulacao do Metodo de Galerkin:

−∫ xi+1

xi

({H

′1

H′2

}[H ′

1H′2] +

{H1

H2

}[H1H2]

)dx

{ui

ui+1

}+

∫ xi+1

xi

x

{H1

H2

}dx(8)

3. Trabalhos RelacionadosO metodo de elementos finitos pode ser aplicado na resolucao e diagnostico de pro-blemas de analise estrutural por meio da obtencao de deslocamentos, deformacoes etensoes. Tambem permite representar diversos cenarios e avaliar o desempenho de pro-dutos com a aplicacao de criterios de resistencia, rigidez ou fadiga. Alem disso, variacoesdo metodo dos elementos finitos viabilizam a analise termica, acustica, dinamica, ele-tromagnetica e de fluidos para casos mais simples de comportamento linear ou outrosnao-lineares, como quando ha grandes deslocamentos ou contato entre partes de umamontagem [Lossouarn et al. 2018], [Burman et al. 2018].

A partir desses conceitos, sao encontrados trabalhos na literatura que abordamem problemas de analise estrutural, tais como fratura, fadiga ou falhas em estruturas.Modelos matematicos aplicados a vigas e placas tambem sao amplamente aplicados emsistemas eletromecanicos. A dependencia do comportamento elastico nas dimensoes docorpo em microescala ja foi experimentalmente observada em metais, ligas, polımeros ecristais. Alem de utilizar a modelagem linear em numerosas obras, ha a necessidade deestudar a nao-linearidade, que ocorre em experimentos sobre caracterısticas especiais desistemas mecanicos [Krysko et al. 2017].

Em [Gupta et al. 2008], foi abordado o monitoramento online do dano de fadigaem estruturas de liga policristalina, baseado em analises do processamento dos sinais desensores ultrassonicos. O metodo de monitoramento de danos baseia-se nos conceitosderivados da mecanica dos solidos, dinamica estatıstica e reconhecimento de padroes, efoi validado por experimentacao laboratorial em tempo real em um aparelho de teste dedanos por fadiga controlado por computador, que foi equipado com uma variedade deinstrumentos de medicao, incluindo um microscopio de viagem optica e um detector defalhas ultrassonica.

4. MetodologiaOs elementos finitos sao conectados entre si por pontos, os quais sao denominados denos ou pontos nodais. Ao conjunto de todos esses itens, elementos e nos, da-se o nomede malha [Hedayat et al. 2017]. Na representacao da Figura 2, tem-se uma viga engas-tada medindo 60 cm de comprimento especificado na variavel L na Figura 2, 20 cm delargura estabelecido como b, e 1 cm de espessura identificado na variavel h. Para obteros deslocamentos dos elementos discretizados na viga, foram criadas duas malhas para averificacao da hipotese de que a quantidade de nos e elementos de uma malha, melhoraconsideravelmente a solucao do Metodo de Elementos Finitos. Para esta finalidade, foicriada uma malha com 81 nos e 128 elementos, conforme pode ser visto na Figura 3, e asegunda constituıda de 289 nos e 512 elementos, de acordo com a Figura 4.

Em funcao dessas subdivisoes da geometria, estas malhas sao triangulares econtınua. Segundo [Keith et al. 2017], equacoes matematicas que regem os comporta-


76

Figura 2. Viga AnalisadaAdaptado de [Bang and Kwon 2000]

mentos fısicos nao sao resolvidas de maneira exata, mas de forma aproximada por estemetodo numerico.

0 20 40 600

10

20

Figura 3. Malha 1Os Autores

0 20 40 600

10

20

Figura 4. Malha 2Os Autores

5. Resultados e DiscussoesAo determinar o planejamento da malha de controle, foram realizados testes para identi-ficar se a quantidade de nos e elementos influenciaria na qualidade do metodo e, conse-quentemente, nos resultados. Com esta finalidade, testaram-se duas espessuras de malhasgeradas pelo software Octave.

Neste trabalho, foi utilizado o metodo de Galerkin para resolver a equacao dife-rencial descrita pelo modelo de viga de Euler-Bernoulli, analisando a deflexao desta vigasujeita a carregamentos estaticos ou dinamicos, composta de uma equacao diferencial par-cial linear de quarta ordem. Com este intuito, foram testadas duas malhas de tamanhos


77

diversificados, como visto nas Figuras 3 e 4. Notou-se que quanto maior o numero denos e elementos, mais sensıvel o metodo se torna a pequenas flutuacoes de deslocamen-tos. Para explicitar esta sensibilidade em graficos, foram selecionados ao acaso dois nos,representados como no 8 e no 9, mostrados na Figura 5, e, ao plotar as solucoes advindasdo Metodo de Elementos Finitos, foi identificado que, inicialmente, os valores se com-portam praticamente contrarios e, com o passar do tempo, esses valores aproximam-se etornam-se semelhantes, em um curto espaco de tempo.

0 2 4 6 8 10Tempo

-1

0

1

2

3

4

5

Sol

ução

de

acor

do c

om o

s nó

s

Malha 1Solução Resultante do Nó 8Solução Resultante do Nó 9

Figura 5. Resultado Referente a Malha 1Os Autores

Na segunda malha, foi obtido o grafico apresentado na Figura 6. Assim, notou-se que os nos selecionados comportam-se praticamente como iguais em modo numerico.Desta forma, uma malha com maior quantidade de nos consegue maior equilıbrio derestricoes, fornecendo maior entendimento do sistema compatıvel com o modelo de vigade Euler-Bernoulli.

0 2 4 6 8 10Tempo

-0.5

0

0.5

1

1.5

2

Sol

ução

de

acor

do c

om o

s nó

s

Malha 2Solução Resultante do Nó 8Solução Resultante do Nó 9

Figura 6. Resultado Referente a Malha 2Os Autores

6. ConclusoesA partir da mecanica dos solidos, e possıvel prever o comportamento do solido sob a acaode forcas de contato, gradientes de temperatura, campos gravitacionais, campos eletro-


78

magneticos entre outros agentes internos e externos. Dessa forma, ela se mostra uma fer-ramenta fundamental para engenheiros, na concepcao de maquinas, edificacoes e outrosprodutos; para a geologia e para muitos ramos da fısica, tal como ciencia dos materiais.

Alem disso, observou-se que o metodo pode ser aplicado na resolucao e di-agnostico de problemas de analise estrutural por meio da obtencao de deslocamentos,deformacoes e tensoes, mas tambem permite representar diversos cenarios e avaliar o de-sempenho de produtos com a aplicacao de criterios de resistencia, rigidez ou fadiga. Alemdisso, variacoes do metodo dos elementos finitos viabilizam a analise termica, acustica,dinamica, eletromagnetica e de fluidos para casos mais simples de comportamento linearou outros nao-lineares, como quando ha grandes deslocamentos ou contato entre partesde uma montagem.

Em virtude do que foi apresentado, foi alcancado o objetivo inicial e percebe-seque quanto maior a quantidade de nos na malha, maior sera o equilıbrio do modelo de vigapor analise de Euler-Bernoulli. Tambem se verifica que grande parte dessas analises saorealizadas por meio de softwares que utilizam o metodo dos elementos finitos, os quaispossibilitam a obtencao de respostas para inumeros problemas de engenharia.

ReferenciasBang, H. and Kwon, Y. W. (2000). The finite element method using MATLAB. CRC press.

Benes, S. and Kruis, J. (2018). Singular value decomposition used for compression ofresults from the finite element method. Advances in Engineering Software, 117:8–17.

Burman, E., Elfverson, D., Hansbo, P., Larson, M. G., and Larsson, K. (2018). Shapeoptimization using the cut finite element method. Computer Methods in Applied Me-chanics and Engineering, 328:242–261.

Duan, H. and Ma, J. (2018). Continuous finite element methods for reissner-mindlin plateproblem. Acta Mathematica Scientia, 38(2):450 – 470.

Fletcher, C. A. (1984). Computational galerkin methods. In Computational GalerkinMethods, pages 72–85. Springer.

Georgoulis, E. H. and Pryer, T. (2018). Recovered finite element methods. ComputerMethods in Applied Mechanics and Engineering.

Gupta, S., Singh, D. S., and Ray, A. (2008). Statistical pattern analysis of ultrasonicsignals for fatigue damage detection in mechanical structures. NDT & E International,41(7):491–500.

Hedayat, A. A., Afzadi, E. A., and Iranpour, A. (2017). Prediction of the bolt fracture inshear using finite element method. In Structures, volume 12, pages 188–210. Elsevier.

Hu, G., Xie, H., and Xu, F. (2018). A multilevel correction adaptive element method forkohn–sham equation. Journal of Computational Physics, 355:436–449.

Keith, B., Petrides, S., Fuentes, F., and Demkowicz, L. (2017). Discrete least-squaresfinite element methods. Computer Methods in Applied Mechanics and Engineering,327:226–255.

Krysko, A., Awrejcewicz, J., Zhigalov, M., Pavlov, S., and Krysko, V. (2017). Nonlinearbehaviour of different flexible size-dependent beams models based on the modified


79

couple stress theory. part 1: Governing equations and static analysis of flexible beams.International Journal of Non-Linear Mechanics, 93:96–105.

Lossouarn, B., Aucejo, M., and Deu, J.-F. (2018). Electromechanical wave finite elementmethod for interconnected piezoelectric waveguides. Computers & Structures, 199:46–56.

Magrab, E. B. (2012). Vibrations of elastic systems: With applications to MEMS andNEMS, volume 184. Springer Science & Business Media.

Rabelo, M., Silva, L., Borges, R., GonA§alves, R., and Henrique, M. (2017). Computa-tional and numerical analysis of a nonlinear mechanical system with bounded delay.International Journal of Non-Linear Mechanics, 91:36 – 57.

Zienkiewicz, O. C. and Taylor, R. L. (2005). The finite element method for solid andstructural mechanics. Elsevier.


80

Scratch como Ferramenta de Ensino Lógico e Matemático nas Escolas Estaduais

Adalto A. P. Sobrinho, Prof. Me. Wesley B. Thereza, Prof. Dr. Fernando Y. Obana

UNEMAT– Universidade do Estado de Mato Grosso Alto Araguaia – MT – Brazil

[email protected], [email protected], [email protected]

Abstract. The relationship between teaching and learning is being increasingly impaired, due to the low rate of student motivation. This creates learning gaps making subsequent teaching increasingly complicated to be learned and apprehended. This factor is due in part to the uninstructive teaching structure, being practically the same one used since the first industrial revolution. To help spark student interest and increase motivation, several teachers are looking for methodologies to innovate in the classroom. This work proposes the use of educational software Scratch, to improve students' motivation regarding mathematical discipline.

Resumo. A relação ensino aprendizagem está sendo cada vez mais prejudicada, devido ao baixo índice de motivação dos alunos. Isso gera lacunas de aprendizagem tornando o ensino posterior cada vez mais complicado de ser aprendido e apreendido. Esse fator se deve em parte pela estrutura de ensino pouco intuitiva, sendo praticamente a mesma usada desde a primeira revolução industrial. Para ajudar a despertar o interesse dos alunos e aumentar a motivação vários professores buscam metodologias para inovar em sala de aula. Este trabalho propõe o uso do software educacional Scratch, para melhorar a motivação dos alunos em relação a disciplina matemática.

Introdução Alcançar uma elevada qualidade de ensino é algo trabalhoso e que requer muito esforço da instituição de ensino e também do professor. Um atributo que está muito relacionado a isso é o despertar da motivação do aluno. A motivação trabalha diretamente nos interesses do indivíduo, sendo assim ao aumentá-la, é possível potencializar o aproveitamento do mesmo.

Para realizar esse aumento, inúmeros professores realizam suas aulas fazendo uso de ferramentas lúdicas, como: desenhos, músicas, passeios, palestras, vídeos, além de outros. Contudo existem algumas disciplinas nas quais isso é complicado para ser aplicada, a matemática que é a disciplina alvo para esse trabalho, é uma delas, pois suas aplicações práticas são mais complexas de serem executadas quando trata-se das séries mais avançadas do ensino fundamental, como sétimos, oitavos e nonos anos.

Para trabalhar melhor essa disciplina de maneira lúdica, uma opção é utilizar ferramentas computacionais, pois segundo Pinto (2010) atualmente, no Brasil, os computadores são como o lápis para todas as crianças. Este aspecto de inclusão digital


81

presente na escola onde o experimento foi realizado, permitiu a maioria dos alunos o primeiro contato com o computador e simplificou o uso destas ferramentas para demonstrar de modo prático os conhecimentos matemáticos expostos em sala de aula (PROINFO, 2017). A aplicação prática da matemática pode despertar no aluno um desejo maior pela disciplina, minimizando possíveis traumas a cerca de dificuldades passadas e ajudando-o no desenvolvimento lógico matemático.

2. Informática na Escola Segundo Guimarães e Boruchovitch (2004) a motivação no contexto escolar tem sido avaliada como um determinante crítico do nível e da qualidade da aprendizagem e do desempenho. Para aumentar esse nível de motivação inúmeras atitudes podem ser colocadas em práticas, contudo as que mais demonstram resultado é no incremento da questão lúdica para a sala de aula.

Com esse pensamento e para melhor atender alunos de escolas públicas, propõe se o uso de linguagem de programação como auxílio nas aulas de Matemática. Com apenas uma breve ressalva pode-se observar inúmeros recursos tecnológicos que usamos em nosso dia a dia seja em casa, no trânsito, no comércio, etc. A tecnologia vem transformando e moldando os ambientes em que ela é inserida, criando novas rotinas e procedimentos.

Contudo, o local menos alterado com o passar dos anos e mesmo com a inserção de tecnologia é o escolar. Para se ter uma relação mais clara sobre esse aspecto, podemos citar a parábola, “A Máquina das Crianças: Repensando a Escola na Era da Informática” por Papert (1994):

Imagine um grupo de viajantes do tempo de um século anterior, entre eles há um grupo de cirurgiões e outro grupo de professores do primário, cada qual ansioso para ver o quanto as coisas mudaram em sua profissão a cem anos ou mais no futuro. Imagine o espanto dos cirurgiões entrando em uma sala de operações de um hospital moderno. Embora eles pudessem entender que algum tipo de operação estava ocorrendo e pudessem até mesmo ser capazes de adivinhar o órgão-alvo, na maioria dos casos seriam incapazes de imaginar o que o cirurgião estava tentando fazer ou qual a finalidade dos muitos aparelhos estranhos que ele e sua equipe cirúrgica estavam utilizando. Os rituais antissepsiam e anestesia, os aparelhos eletrônicos com seus sinais de alarme e orientação e até mesmo as intensas luzes, tão familiares às plateias de televisão, seriam completamente estranhos para eles. Os professores viajantes do tempo responderiam de uma forma muito diferentes a uma relação de primeiro grau moderna. Eles poderiam sentir-se intrigados com a relação a alguns poucos objetos estranhos. Poderiam perceber que algumas técnicas-padrão mudaram, e provavelmente discordariam entre si quanto as mudanças que observaram foram para melhor ou para pior, mas perceberiam plenamente a finalidade da maior parte dos que estava tentando fazer e poderiam, com bastante facilidade, assumir a classe (PAPERT, 1994).

Assim observa-se que não ocorreram grandes inovações na educação, mesmo no intervalo de um século. A maior inovação que ocorreu no meio acadêmico foi a inserção da tecnologia, na gestão escolar, controle de notas, presença, armazenamento de


82

arquivos, matrículas, transferências, etc. E somente posteriormente foi usado como recurso didático em projeção de filmes, apresentações de trabalhos, realização de pesquisas e trabalhos coordenados ou mesmo recreação com jogos educacionais.

O uso computador como material didático permite a aplicação de inúmeras ferramentas de trabalho na forma de softwares. Dentre eles destacam-se os softwares educacionais, que são programas projetados com a finalidade de fornecer algum tipo de ensino aos usuários.

Segundo Tajra (2004), os softwares que envolvem lógica de programação são ótimos para trabalhar a lógica, matemática e resolução de problemas. Sendo o computador um objeto interativo o aluno pode realizar a programação e observar a execução dele em tempo real.

3. O Scratch Segundo Pinto (2010) o Scratch fez a sua aparição no dia 15 de maio de 2007 e em 2008 realizou sua primeira conferência denominada Scratch@MIT. De acordo com Aureliano e Tedesco (2012) o Scratch é uma nova linguagem de programação desenvolvida pelo Lifelong Kindergarten Group (LLK) no grupo de pesquisa do MIT Media Lab, com o apoio financeiro da National Science Foundation, Microsoft, Intel Foundation, Nokia, e consórcios de investigação do MIT Lab. Criado com a intenção de ensinar crianças a partir de 8 anos a programar através de pseudocódigo.

O Scratch pode ser executado on-line pelo navegador por meio do site www.scratch.mit.edu, sem a necessidade de instalação de nenhum software nos computadores, como em máquinas com o sistema operacional Linux Educacional 4.0 que é a maioria em uso nos laboratórios de computação escolares. E também pode ser usado off-line fazendo o download do mesmo, sendo disponível as versões 1.4 e 2.0 no site www.scratch.mit.edu. A versão 1.4 é compatível com todas os sistemas operacionais, a versão 2.0 que é a mais recente é a mesma que pode ser encontrada on-line só funciona nos sistemas operacionais Windows e MacOS. Para esse trabalho foi usada a versão 1.4, pois é a versão disponível off-line para o Sistema Operacional Linux Educacional.

A interface do Scratch é dividida em três partes: a primeira parte contém comandos, a segunda parte contém o campo para inserir os códigos e a terceira parte apresenta o resultado do código. Essa divisão simples proporciona ao Scratch uma interface simples e convidativa, permitindo ao usuário uma visão clara de tudo o que é feito, podendo testar e ao mesmo momento observar o resultado da criação, manipulando vídeo, áudio e texto.

A maneira de “escrever” os códigos é bem interessante, pois, segundo Andrade, Silva e Oliveira (2013) a criança não precisa se preocupar com os erros de sintaxe, assim a atenção fica voltada apenas para a lógica necessária. Cada comando é alocado em blocoa, que se encaixam seguindo uma sequência lógica, dependendo da forma que forem inseridos. Deste modo o uso da ferramenta, torna simples a assimilação do conteúdo, cabendo ao aluno explorar ao máximo sua criatividade, explorando e testando várias vezes.


83

4. O trabalho com Scratch nas salas de aula Inúmeros professores buscam formas de inovar em sala de aula tornando as aulas mais atrativas e dinâmicas, contudo empregar as mesmas ações é mais complicado quando o assunto é relacionado a área das Exatas. Pois suas aplicações práticas demandam muitos recursos para serem observadas e por esse motivo essas matérias são as mais prejudicadas.

A falta de motivação do aluno no conteúdo escolar, gera lacunas em seu aprendizado, que são posteriormente espelhados em dificuldades em novos conteúdos que tem o conteúdo anterior como pré-requisito.

Lens; Matos e Vansteenkiste (2008) descreve a motivação segundo a teoria da autodeterminação

Faz uma importante distinção entre duas diferentes questões motivacionais são: porquê versus para que. Qual é o objetivo de sua atividade e por que você quer realizar esse objetivo: quais são as razões que o levam ao esforço para atingir esse objetivo? (LENS; MATOS; VANSTEENKISTE, 2008).

Lens; Matos e Vansteenkiste (2008) ressalta também que não é importante o tipo ou o conteúdo das metas dos alunos e dos professores, mas sim uma relação entre motivação do interesse do aluno partindo da sua vontade particular (tarefas e metas intrínsecas versus, desempenho e metas extrínsecas).

Para contrapor esse problema, propõe-se o uso do Scratch como ferramenta de produção de jogos com base matemática. Pois com a produção de trabalhos usando o Scratch o aluno passaria a dinamizar seus conhecimentos matemáticos colocando em prática tudo do que aprendeu na escola. Compreendendo o uso de várias funções matemáticas, desenvolvendo também a lógica computacional metódica analisando problemas e dividindo o mesmo para que se possa ter um resultado mais simples e com menos esforço.

5. Metodologia, Aplicação dos Cursos e Análise dos Dados Como objeto de pesquisa foram escolhidos os alunos de sexto ano até nono ano da Escola Estadual Maria Auxiliadora em Alto Araguaia - MT. Sendo assim são quatro sextos anos, quatro sétimos anos, quatro oitavos anos e três nonos anos.

Todas as turmas tiveram aulas de reforço, porém em algumas turmas as aulas de reforço aconteceram com o uso do Scratch e em outras turmas as aulas de reforço aconteceram sem o uso do Scratch. Foram realizadas análises subjetivas com o uso de Inquérito Avaliativos para os alunos e entrevistas com os professores.

Avaliando o desenvolvimento do trabalho, alguns contrapontos encontrados foram:

- Usar a versão do Scratch off-line, que não necessita de internet para funcionar, diminuindo o tempo de acesso e otimizando as atividades;

- Aplicar as aulas durante o período letivo dos alunos e durante as aulas de matemática, para assim envolver todos os alunos da sala de aula nas atividades, tendo


84

um campo amostral para análise muito grande. Contudo essa metodologia, implica na obrigatoriedade do aluno a participar do projeto, e se caso ele não tivesse interesse os conteúdos abordados não seriam relevantes para o mesmo, podendo também atrapalhar os alunos que tivessem interesse no projeto. Essa metodologia tem o problema, da aula ser restrita ao tempo máximo de aulas que é de 50 minutos. E em 50 minutos o desenvolvimento de lógica e matemática fica prejudicado, pois é notável que se durante as atividades de empenho e concentração a aula se encerra, os alunos dispersam novamente e fica é demorado retomar o mesmo estágio de concentração que tinha anteriormente. Seria necessário também o uso do Laboratório de Informática da escola com todos ou a maioria dos computadores funcionando;

- Usar mais de uma aula sequencial para trabalhar melhor com a turma, assim tendo mais tempo de estudo e aprendizagem. Contudo atrapalharia não somente um professor, mas dois ou mais, em suas atividades.

- Realizar as atividades em contra turno para que eles possam voluntariamente ir até o Curso de Matemática Com Scratch, assim somente os alunos interessados pelo projeto participariam logo nenhum seria obrigado a participar. Realizar em contra turno permite elaboração de aulas mais extensas podendo trabalhar mais intensivamente com cada conteúdo, visando o esclarecimento mais completo das atividades.

Para a escola envolvida foi entregue o projeto de curso. Para realizar a avaliação em relação do conteúdo apresentado e a diferença do aluno nas salas de aula, é necessário assim criar duas turmas distintas, sendo que uma será trabalhado o Scratch (Matemática Com Scratch) e na outra será atividades de reforço convencionais (Matemática Sem Scratch).

No começo de cada curso foi passado um inquérito avaliativo, com perguntas de respostas pessoais, objetivas e subjetivas sobre as suas experiências e interesses sobre a matemática e as atividades desenvolvidas em sala de aula. Depois de ter os nomes dos inscritos foi feito uma avaliação de interesse, participação, atenção, empenho e comunicação através de observação. Para refinar a avaliação foi analisado as médias de notas dos alunos até o dia em que foi começado os cursos, para com esses 3 métodos avaliativos ter um conceito mais aproximado do nível de empenho em relação à matemática de cada aluno. Após o termino do projeto foi realizado as mesmas atividades que no começo das aulas sendo o inquérito final. Foi aplicado também uma avaliação de interesse, participação, atenção, empenho e comunicação para o curso com Scratch e para os alunos sem o Scratch. Por fim é realizada a análise pelo quadro de notas do aluno em seu período final ao curso.

O tempo total dos cursos (Matemática Com Scratch e Matemática Sem Scratch) é de 30 horas/aulas dividido em 10 aulas de 3 horas/aula, sendo as aulas do primeiro realizadas no Laboratório de Computação 2 da UNEMAT – Universidade do Estado de Mato Grosso – Campus Universitário de Alto Araguaia, e o segundo na própria Escola Estadual Maria Auxiliadora.


85

A Figura 1 mostra a relação de desistência dos alunos que frequentaram o Curso Matemática Com Scratch. Houve uma mediana de 10,3 alunos por dia no curso, abaixo do pretendido de 30 alunos, e teve uma baixa de 29% desde o começo do curso

Figura 1: Relação de presença de alunos e dias trabalhados no curso de Matemática com Scratch.

Já na Figura 2, há a relação de desistência para os alunos que frequentaram o Curso de Matemática Sem Scratch. Houve uma média de 4,6 alunos por dia, também abaixo da quantidade esperada de 30 alunos, e teve uma baixa de 92% de alunos em relação ao começo do curso.

Figura 2: Relação de presença de alunos e dias trabalhados no Curso de Matemática Sem Scratch.

As observações inicial e final do Curso de Matemática Com Scratch demonstram uma melhora significativa nos quesitos “Falta de Atenção”, “Falta de Interesse”, “Baixo Empenho” e “Pouca Comunicação”. No entanto, “Pouca Participação” mantive-se estável, conforme descrito na Tabela 1. Já em relação ao Curso de Matemática Sem Scratch, o único aluno que terminou o curso demonstrou melhora em relação a “Falta de Atenção” e os outros itens mantiveram-se sem alteração.


86

Tabela 1: Tabela descritiva dos itens avaliados no início e no fim do Curso de Matemática Com Scratch.

Início do Curso Após o Curso

Falta de atenção 83% 8%

Falta de interesse 25% 8%

Baixo empenho 42% 17%

Pouca comunicação 58% 55%

Pouca participação 27% 27%

É válido ressaltar que as notas dos alunos dos dois cursos mantiveram-se sem alteração na disciplina Matemática, tomando como base as notas do Terceiro Bimestre (antes dos cursos) e do Quarto Bimestre (após os cursos). Isso demonstra que mesmo a matéria abordada na disciplina sendo mais complexa, o rendimento dos alunos não caiu.

6. Considerações finais O principal problema detectado por este trabalho é a falta de interesse dos alunos pelo conhecimento dado em sala de aula. Os dados demonstraram melhora significativa para os alunos que realizaram o curso de Matemática com Scratch em relação aos alunos que realizaram o curso de Matemática Sem Scratch.

A taxa de desistência do curso de Matemática Com Scratch foi 63% menor do que a dos alunos que realizam o Curso de Matemática Sem Scratch. O quadro de observação dos alunos demonstrou aumento de atenção, de interesse, de empenho, de comunicação e 0% de comunicação, após a aplicação de inquérito avaliativo. Enquanto para o aluno que participou do curso de Matemática Sem Scratch teve melhora somente no quesito atenção.

No curso de Matemática Sem Scratch, como houve apenas um aluno avaliado, sua maior mudança foi o aumento no interesse das aulas de matemática e o seu rendimento, segundo o próprio aluno. Na sua avaliação subjetiva em suas facilidades aumentou o cálculo de raízes e as operações básicas.

Com tais dados é possível afirmar que nas séries de sextos anos a nonos anos da Escola Estadual Maria Auxiliadora o Scratch foi objeto fundamental para a melhoria do interesse matemático, cativando a atenção e melhorando a motivação dos alunos pela disciplina. Além disso, em entrevistas, os próprios professores de Matemática perceberam a importância do uso de um software educacional para melhora do desempenho dos alunos, trazendo para o dia-a-dia da sala de aula possibilidades diferentes de aprendizagem via interação com o computador.

Referências ANDRADE, M.; SILVA, C.; OLIVEIRA, T. Desenvolvendo games e aprendendo matemática utilizando o Scratch. Simpósio Brasileiro de Jogos e Entretenimento Digital. São Paulo, p. 260–263, 2013.


87

AURELIANO, V. C. O.; TEDESCO, P. Avaliando o uso do Scratch como abordagem alternativa para o processo de ensino-aprendizagem de programação. In: XX Workshop sobre Educação em Computação, Anais...2012. GUIMARÃES, S. E.; BORUCHOVITCH, E. O estilo motivacional do professor e a motivação intrínseca dos estudantes: uma perspectiva da teoria da autodeterminação. Psicologia: reflexão e crítica, v. 17, n. 2, p. 143–150, 2004.

LENS, W.; MATOS, L.; VANSTEENKISTE, M. Professores como fontes de motivação dos alunos: o quê e o porquê da aprendizagem do aluno. Educação, v. 31, n. 1, 2008. PAPERT, S. A Máquina das Crianças Repensando a Escola na era da Informática [S.I], Artes Médicas, 1994.

PINTO, A. S. Scratch na aprendizagem da Matemática no 1. o Ciclo do Ensino Básico: estudo de caso na resolução de problemas. 2010. 2010. Programa Nacional de Informática na Educação (ProInfo). Disponível na Internet em http://www. proinfo. mec. gov. br/.[Março de 2009], Acesso em: [23/11/2017]. Proinfo Perguntas Frequentes Disponível em < http://portal.mec.gov.br/index.php?option=com_content&view=article&id=236 > Acesso em: [23/11/2017]. TAJRA, S.F. Informática na Educação, 5ª Edição [S.I] Erica, 2004.


88

Uma metodologia para a predição da massa corporal de

codornas europeias por meio de visão computacional

Gabriela N. D. O. Damazio1, Daniel S. da Silva1, Francisco S. Silva Júnior¹,

Expedito A. de Lima¹, Emannuel D. G. de Freitas¹

1Instituto Federal de Educação Ciência e Tecnologia do Ceará – (IFCE)

Cedro – CE – Brasil

{gabrielanayara10,daniel.ifce2,juniorsoares716,expeditoalves2016,emann

ueldiego}@gmail.com

Resumo. Este trabalho apresenta uma metodologia baseada em visão

computacional para estimar de forma automática a massa corporal de

codornas europeias. Para tanto, realiza-se, inicialmente, uma análise da área

superficial, exibidas em imagem digital, e o peso das aves em três períodos de

vida, objetivando encontrar uma relação entre essa área e o peso da codorna,

que será utilizada para alimentar o banco de dados do sistema, para que seja

possível determinar o peso e definir a fase de vida do animal. Utiliza-se a

linguagem C++ com o uso da biblioteca OpenCV na construção do sistema. Os

resultados obtidos, permitiram inferir que a aplicação da metodologia mostrou-

se eficaz, apresentando uma taxa de 91,67% de acertos.

Abstract. This work presents a methodology based on computer vision to

estimate automatically the body mass of the quails in europe. To do so, if,

initially, an analysis of surface area, displayed in the digital image, and the

weight of the birds in the three periods of life, aiming to find a relationship

between this area and the weight of the quail, which will be used to feed the

database of the system, so that it is possible to determine the weight and set the

life stage of the animal. It uses the C++ language with the use of the library

OpenCV in the construction of the system. The results obtained allowed to infer

that the application of the methodology showed to be effective, presenting a rate

of 91.67% of hits.

1. Introdução

No Brasil, o elevado crescimento de coturnicultura tornou-se elemento propulsor da

economia, uma vez que a procura por carne de qualidade, rápido crescimento dos animais,

precocidade na produção e maturidade sexual são fatores característicos da ave (PINTO

et al., 2002). Outras características que também impactam tal crescimento é a alta

produtividade, baixo investimento inicial e o rápido retorno financeiro, que, por tais

fatores, infere-se que a coturnicultura é uma ótima opção, pois pode-se trabalhar com a

produção de carnes ou ovos, sejam os pequenos ou grandes produtores (PASTORE et al.,

2012).


89

Com relação à produção das aves para corte, para se obter sucesso na criação, de

acordo com Moraes e Ariki (2009), é necessário foco na qualidade dos animais, controle

sanitário, manejo e alimentação.

Tomando como base as formas de pesagem e manuseio com as aves, Amaral

(2012) diz que a pesagem dos animais é realizada semanalmente e é realizada de forma

manual, o uso dessa técnica geralmente provoca estresse ao animal, podendo ocorrer

ferimentos para as aves e para os trabalhadores envolvidos na atividade.

Visando fatores como: a redução de custo da criação de codornas, a segurança

física das mesmas, e o auxílio na atividade dos criadores, propõe-se neste trabalho uma

metodologia baseada em visão computacional para avaliação da massa corporal de

codornas europeias.

O presente trabalho busca apresentar a aplicação de um método para determinação

da fase de vida, incluindo a fase de abate de codornas de corte. A pesquisa baseia-se em

imagens retiradas de viveiros, onde cada animal, em idades a partir dos primeiros dias de

vida ao abate, foram devidamente pesados e fotografados. As imagens foram utilizadas

pela aplicação, para a construção dos parâmetros que estimam uma relação entre a área

da codorna na imagem e o seu peso. A binarização local, morfologia matemática e filtro

gaussiano são utilizados para limiarizar as imagens, com o propósito de separar os objetos

do fundo de cada imagem.

Apresentado este panorama, propõe-se a partir da aplicação desta metodologia

auxiliar aos criadores reduzindo os custos com a criação de codornas europeias através

da determinação de um período mínimo ideal para o abate. Para tal, foi desenvolvido uma

metodologia baseada em de visão computacional que aplica processamento digital de

imagens. A aplicação de tal metodologia é construída através da retirada e processamento

das imagens, utilizando a biblioteca OpenCV e o QtCreator para a programação em

linguagem C++. Tal metodologia busca empregar as áreas de visão computacional

visando diminuir o estresse causado ao animal com o manejo, que, converte-se em uma

das maiores dificuldades encontradas pelos criadores para a execução de tal tarefa.

Com base na proposta descrita, este artigo encontra-se organizado da seguinte

forma: a seção 2 descreve os materiais e métodos. Os resultados e a discussão são

apresentados na seção 3, e as conclusões na seção 4.

2. Materiais e métodos

Para desenvolvimento do presente projeto, a equipe executora foi composta por cinco

integrantes, sendo quatro alunos e o professor orientador, cuja elaboração obedeceu às

seguintes etapas:

Etapa 1: Interface da Aplicação - Foram elaboradas a criação de uma interface

simples e a implementação inicial do código em linguagem de programação C++ com

utilização da biblioteca OpenCV para o processamento e análise inicial.

Etapa 2: Construção da base de dados - Foram realizadas as aquisições das

imagens digitais das codornas europeias, submetidas às mesmas condições de altura, de

diferentes períodos e em seguida realizada a pesagem de cada uma utilizando uma balança

digital de alta precisão.


90

Etapa 3: Compilação dos dados - Através da aquisição das imagens foi elaborada

a relação entre o peso e a área superficial do animal para a implementação no código para

definição dos valores base para determinação automática do período de cada codorna.

Etapa 4: Testes - Em seguida foram realizados testes finais para dar precisão aos

resultados obtidos, feitos através da comparação dos dados coletados com os dados

adquiridos, através da implementação final do código, que pode determinar, destarte, o

período mais acertado de abate.

Para a construção da base de dados utilizada no experimento, foram observadas

codornas europeias em três fases de criação: fase inicial dos 15 primeiros dias de vida,

fase intermediária do 16º ao 25º dia de vida, e a fase final do 26º ao abate. Foram obtidas

imagens digitais de aves de cada fase com o objetivo de encontrar a relação entre a massa

corporal de uma codorna e a área da região de seu corpo (𝑅𝑀𝐴), representada na imagem

por uma vista superior. Após estudos, foi possível encontrar tal relação, a partir de uma

equação matemática descrita a seguir.

𝑅𝑀𝐴 = 𝑃𝑒𝑠𝑜𝑐𝑜𝑑𝑜𝑟𝑛𝑎

Á𝑟𝑒𝑎 𝑠𝑢𝑝𝑒𝑟𝑓𝑖𝑐𝑖𝑎𝑙𝑐𝑜𝑑𝑜𝑟𝑛𝑎 (1)

Apesar das codornas terem sido analisadas desde os primeiros dias de vida, a

fórmula apresentada na equação (1) limita-se apenas para codornas com mais de 10 dias

de vida, pois as aves menores não podiam ser manejadas.

O peso das aves foi obtido por meio de uma balança de precisão, no mesmo

momento em que é feito o registro com a câmera digital de 294 dpi (dots per inch, ou

pontos por polegada). Esse procedimento foi realizado com no mínimo 15 aves de cada

fase, divididas em 45 imagens de aves de diferentes idades para análise. Para os testes,

além das 45 codornas, foram utilizadas mais 5 imagens de aves em cada fase totalizando

15 imagens.

Para o desenvolvimento da metodologia proposta, é utilizada a linguagem C++ no

ambiente de desenvolvimento QTCreator (THE QT COMPANY, 2014) e a biblioteca de

multiplataforma OpenCV(Open Source Computer Vision Library) (ITSEEZ, 2011).

2.1 Análise das imagens para definição da massa corporal

Para o desenvolvimento da metodologia computacional necessário à avaliação da massa

corporal das aves, foram realizadas as etapas observadas conforme ilustrado na Figura 1.

Figura 1. Fluxograma das etapas realizadas pela metodologia de visão computacional.


91

O sistema, ao varrer as imagens digitais, realiza o pré-processamento com o

objetivo de diminuir os ruídos oriundos da câmera e posteriormente segmentar a imagem

sem muitas perdas. De acordo com Marques Filho e Vieira Neto (1999), o pré-

processamento é tido como a etapa da visão computacional responsável por melhorar e

garantir a qualidade da imagem para que os objetos presentes na mesma, no caso as

codornas, sejam detectadas com maior precisão.

No pré-processamento, ocorrem as etapas de transformação da imagem em níveis

de cinza e a aplicação do filtro mediano, para em seguida, ser feita a identificação do

objeto em estudo. Para isto, a identificação é feita através da segmentação da imagem,

que ocorre por meio da binarização local, morfologia matemática para abertura da

imagem e, novamente, a aplicação do filtro mediano, responsáveis respectivamente por

deixar a imagem nas cores preto e branco (objeto e fundo), com a máxima área superficial

preenchida sem ruídos. Segundo Cotrim e Paula (2011) segmentar a imagem é identificar

os pixels que pertencem ao objeto em estudo e os que pertencem ao fundo da imagem,

através da binarização, responsável por transformar a imagem em apenas duas cores:

preto e branco.

Concluída esta etapa, a aplicação do método irá realizar a contagem dos pixels

pertencentes à área superficial das codornas, cujos dados obtidos serão armazenados e

utilizados na identificação da fase de vida de cada ave com base na sua área ocupada na

imagem. O método de Canny é utilizado para identificar as bordas do objeto, no caso a

codorna, e posteriormente é somado à imagem com o objetivo de contornar a codorna na

imagem original (DO VALE e DAL POZ, 2002). Todas as etapas descritas na Figura 1,

e descritas anteriormente, podem ser observadas na Figura 2.

Figura 2. (a) Imagem original (b) Imagem em escala de cinza (c) Imagem binarizada (d) Imagem com Aplicação da Abertura (e) Imagem com aplicação do filtro mediana (f) Imagem com aplicação do Método de Canny (g) Imagem original somada a imagem do Método de Canny.


92

Para avaliação da fase de vida, foi atribuído ao sistema, valores padrões de áreas

superficiais em níveis máximo e mínimo. Estes valores foram determinados a partir dos

resultados dos cálculos adquiridos por meio das amostras de imagens em cada fase de

vida das aves, de acordo com a equação (1), sendo o valor mínimo a média de pixels

encontrados para aves com o mínimo de dias e o máximo para a quantidade máxima em

dias. De posse desses dados, e com o auxílio do sistema, avaliaram-se os objetos em

estudo, analisando a partir dos valores padrões, em qual fase se encaixavam, conforme a

Tabela 1.

Tabela 1. Representação dos valores padrões da idade da codorna em dias e a área superficial que cada fase de idade pode representar.

Idade (em dias) Área superficial (pixel) Área superficial (pixel) com 5%

de margem de erro

Mínimo Máximo Mínimo Máximo

10-15 1580 2300 1501 2415

16-25 2857 4680 2714 4914

26 ao abate 4795 6489 4555 6813

As áreas superficiais das codornas foram implementadas de acordo com a Tabela1

adicionado a aplicação uma margem de erro de 5% para mais ou para menos. Os dados

da relação do peso da codorna e a sua área superficial, proveniente da implementação da

metodologia, foram analisados e posteriormente comparados apenas com os dados

proveniente da pesagem das aves. Dessa forma, foi possível a classificação da fase de

cada ave, e a indicação da fase de abate.

3. Resultados e discussão

Os resultados discutidos neste tópico demonstram o potencial do método proposto na

predição do período de vida da codorna. Dos três períodos de vida observados, sabe-se

que o terceiro (a partir do 26º dia) é o ideal para o corte, tais informações podem significar

redução de gastos para o produtor.

A base de imagens utilizada para as análises e testes da aplicação é composta por

20 imagens de cada uma das fases de vida da codorna, totalizando 60 imagens. Cada uma

dessas imagens possui uma codorna.

Através das análises das imagens e considerando a margem de erro de 5% para ou

para menos pode-se chegar aos resultados observados na Tabela 1, indicando que 91,67%

das codornas analisadas foram devidamente classificadas, enquanto 8,33% tiveram seu

período de vida estipulado de forma errônea. Cabe ressaltar que esses números são

obtidos por averiguação sobre 60 codornas contidas em diferentes imagens.


93

Tabela 1. Resultados obtidos com os testes da aplicação da metodologia proposta.

Dias Total de

imagens

Total de

codornas Positivos

Falsos

positivos Negativos

Positivos

em %

até 15 20 20 19 0 1 95%

16 a 25 20 20 18 2 0 90%

26 ao abate 20 20 18 1 1 90%

Total 60 60 55 3 2 91,67

Os erros do processamento, foram divididos em falsos positivos e negativos que

correspondem respectivamente a 5% e 3,33%. Tais erros foram oriundos respectivamente

de excessos de ruídos das imagens e problemas com relação a iluminação dificultando

desta a segmentação etapa essa crucial para o reconhecimento dos objetos, interferindo

na contagem exata dos pixels que constituem a área superficial de uma codorna exibida

na imagem.

A implementação da metodologia para a obtenção do peso válido, as medidas de

peso para cada etapa, permitiu calcular a partir da fórmula descrita na equação (1), o peso

aproximado em que cada ave está determinada de acordo com a fase em que se encontram.

Tabela 2. Média dos pesos obtidos com uma balança e a média de peso calculada pela aplicação proposta.

Dias Total de codornas Média de peso do

sistema(g)

Média do peso

de teste(g)

10-15 20 63.58 66g

16 a 25 20 114.2 111

26 ao abate 20 160.76 164

Os resultados acima descrevem um bom funcionamento da aplicação, uma vez

que as médias de peso correspondem a valores bem próximos. Os valores de peso

descritos para fase de 26 dias ou mais, que caracterizam o período propício ao abate e a

média estudada em comparação com o resultado obtido por meio do software

apresentaram valores próximos, o que indica que os animais se encontram na fase

indicada ao abate.

4. Conclusões

Os resultados obtidos por meio da aplicação da metodologia permitiram perceber o

crescimento positivo do peso variando com a área medida superficialmente de cada ave,

apresentando assim uma correlação entre esses fatores.


94

O modelo experimental aplicado mostrou-se bastante adequado para a verificação

da massa de corte de codornas europeias, para idades variando entre os primeiros dias de

vida até a fase final de abate. Os resultados encontrados apontam para uma validação da

metodologia proposta, uma vez que os resultados esperados foram relativamente

atendidos.

Em trabalhos futuros espera-se que o uso de marcações padrão no solo, próximo

aos animais, tragam uma referência por meio de proporção geométrica, e que a aplicação

de análise de textura possa auxiliar na identificação da ave ensinando o que é ou não pena,

adquirindo assim uma notável melhoria da precisão dos cálculos.

Referências

[AMARAL, A. G.,2012], “Processamento digital de imagens para avaliação do

comportamento e determinação do conforto térmico de codornas de corte”, 82 f. Tese

(Doutorado em Engenharia Agrícola)-Universidade Federal de Viçosa, Minas Gerais.

[COTRIM, F. U. B.; PAULA, M. H. de.,2001] “Watershed: Segmentação de Imagem”.

Disponível em: <http://fcotrim.com/blog/2016/03/21/watershed-segmentacao-de-

imagem/#more-56>. Acesso em: 13 jul. 2016.

[DO VALE, G. M.; DAL POZ, A. P., 2002], Processo de detecção de bordas de

Canny. Boletim de Ciências Geodésicas, v. 8, n. 2, 2002.

[FILHO, O. Marques; NETO, H. Vieira, 1999] “Processamento Digital de Imagens”, Rio

de Janeiro: Brasport,. 331 p. ISBN 8574520098.

[ITSEEZ]. Open Source Computer Vision. 2.3 Intel Corporation, 2011. Disponível em

<http://opencv.org/downloads.html>

[MORAES, V.M.B.; ARIKI, J., 2009] “Importância da nutrição na criação de codornas

de qualidades nutricionais do ovo e carne de codorna”, Universidade estadual paulista,

Jaboticabal-SP.

[PASTORE, S.M.; Oliveira, W.P. de; Muniz, J.C.L., 2012] “Panorama da coturnicultura

no Brasil”, Revista eletrônica nutritime, vol.9, n.6, p.2041–2049,

Novembro/Dezembro.

[PINTO, R.; FERREIRA, A. S.; ALBINO, L. F. T.; GOMES, P. C.; VARGAS, J. G.

J.,2002] “Níveis de Proteína e Energia para Codornas Japonesas em Postura”, Revista

Brasileira de Zootecnia, v.31, n.4.

[The Qt Company, 2014], Qt Creator. 5.3. 2014. Disponível em:

<https://www.qt.io/download/> Acesso em: 10 ago. 2017.


95

Anais - EnAComp · Anais do XIV Encontro Anual de Computação - EnAComp - 2018 - ISSN: 2178-6992...

Documents

Transcript of Anais - EnAComp · Anais do XIV Encontro Anual de Computação - EnAComp - 2018 - ISSN: 2178-6992...