Monografia Sistema de Informação para Acadêmia de Musculação_noPW

download Monografia Sistema de Informação para Acadêmia de Musculação_noPW

of 83

Transcript of Monografia Sistema de Informação para Acadêmia de Musculação_noPW

UNIVERSIDADE DO VALE DO ITAJA CENTRO DE CINCIAS TECNOLGICAS DA TERRA E DO MAR CURSO DE CINCIA DA COMPUTAO

MINERAO DE DADOS PARA AVALIAO DO PERFIL DE USURIOS DO SISTEMA DE INFORMAO DA ACADEMIA DA UNIVALI rea de Inteligncia Artificial por Marlon Kleinschmidt

Benjamin Grando Moreira, Bel. Orientador

Itaja (SC), dezembro de 2007

UNIVERSIDADE DO VALE DO ITAJA CENTRO DE CINCIAS TECNOLGICAS DA TERRA E DO MAR CURSO DE CINCIA DA COMPUTAO

MINERAO DE DADOS PARA AVALIAO DO PERFIL DE USURIOS DO SISTEMA DE INFORMAO DA ACADEMIA DA UNIVALI rea de Inteligncia Artificial

por Marlon Kleinschmidt

Relatrio apresentado Banca Examinadora do Trabalho de Concluso do Curso de Cincia da Computao para anlise e aprovao. Orientador: Benjamin Grando Moreira, Bel.

Itaja (SC), dezembro de 2007

SUMRIO LISTA DE ABREVIATURAS.................................................................iv LISTA DE FIGURAS ...............................................................................v LISTA DE TABELAS..............................................................................vi RESUMO .................................................................................................vii ABSTRACT ............................................................................................viii 1 INTRODUO.....................................................................................11.1 PROBLEMATIZAO ..................................................................................... 1 1.1.1 Formulao do Problema ................................................................................. 2 1.1.2 Soluo Proposta ............................................................................................... 3 1.2 OBJETIVOS ........................................................................................................ 4 1.2.1 Objetivo Geral ................................................................................................... 4 1.2.2 Objetivos Especficos ........................................................................................ 4 1.3 METODOLOGIA................................................................................................ 5 1.4 ESTRUTURA DO TRABALHO ....................................................................... 6

2 FUNDAMENTAO TERICA .......................................................82.1 A ACADEMIA DE MUSCULAO DA UNIVALI....................................... 8 2.1.1 O Sistema de Informao desenvolvido para Academia............................... 9 2.2 INTELIGNCIA ARTIFICIAL ...................................................................... 13 2.3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS............. 13 2.3.1 Compreenso do Domnio de Aplicao ....................................................... 15 2.3.2 Data Warehouse .............................................................................................. 16 2.3.3 Pr-Processamento.......................................................................................... 18 2.3.4 Minerao de Dados ....................................................................................... 19 2.3.5 Ps-Processamento.......................................................................................... 28 2.4 SOLUES SIMILARES ................................................................................ 28 2.4.1 A IA entrando na quadra de vlei: Scout inteligente .................................. 28 2.4.2 A informtica e suas aplicaes em educao fsica .................................... 29 2.5 FERRAMENTAS DE MINERAO DE DADOS ....................................... 30 2.5.1 Anlise das ferramentas de minerao de dados ......................................... 31 2.5.2 Weka................................................................................................................. 33

3 PROJETO............................................................................................423.1 CARACTERIZAO DO DOMNIO DA APLICAO ........................... 43 3.2 NORMALIZAO DOS DADOS................................................................... 43 3.3 FERRAMENTA AUXILIAR PARA CADASTRO DE ALUNOS ............... 45 3.3.1 Normalizao dos dados da aplicao auxiliar ............................................ 48 3.4 FUNCIONAMENTO DA MD NAS APLICAES...................................... 49 3.5 MODELAGEM DO SISTEMA........................................................................ 52ii

3.5.1 Levantamento de Requisitos .......................................................................... 53 3.5.2 Projeto do Sistema .......................................................................................... 54 3.6 IMPLEMENTAO DO SISTEMA .............................................................. 56 3.6.1 Problemas encontrados .................................................................................. 56 3.7 TESTES E VALIDAO DO SISTEMA....................................................... 58

4 CONCLUSES ...................................................................................61 5 REFERNCIAS BIBLIOGRFICAS ..............................................63 A MODELAGEM DO SISTEMA .........................................................67A.1 CASOS DE USO ................................................................................................ 67 A.1.1 Pacote 01: Controle de acesso ........................................................................ 67 A.1.2 Pacote 02: Operaes ...................................................................................... 68

iii

LISTA DE ABREVIATURASBD DCBD DW IA KDD MD RBC SIAMU TCC UML UNIVALI Banco de Dados Descoberta de Conhecimento em Banco de Dados Data Warehouse Inteligncia Artificial Knowledge Discovery in Databases Minerao de Dados Raciocnio Baseado em Casos Sistema de Informao da Academia de Musculao da UNIVALI Trabalho de Concluso de Curso Unified Modelling Language Universidade do Vale do Itaja

iv

LISTA DE FIGURASFigura 1. Tela principal ......................................................................................................................10 Figura 2. Tela de Avaliao de Alunos ..............................................................................................11 Figura 3. Tela de Ficha de Programao Muscular............................................................................12 Figura 4. Taxonomia do processo de KDD........................................................................................14 Figura 5. Viso simplificada de uma arquitetura de DW ...................................................................18 Figura 6. MD utiliza recursos de diferentes reas ..............................................................................19 Figura 7. Regras de associao geradas pelo algoritmo apriori. .......................................................24 Figura 8. Regras de classificao geradas pelo algoritmo NNge. ......................................................25 Figura 9. Aplicao Hipermdia .........................................................................................................30 Figura 10. Arquivo no formato ARFF ...............................................................................................35 Figura 11. Exemplo do arquivo ARFF utilizado................................................................................37 Figura 12. Resultado da classificao com o algoritmo J48. .............................................................38 Figura 13. Adicionando o arquivo weka.jar.......................................................................................39 Figura 14. Cdigo que executa o algoritmo classificador J48. ..........................................................40 Figura 15. Resultado da classificao com o algoritmo J48. .............................................................40 Figura 16. Estrutura do DW criado. ...................................................................................................45 Figura 17. Tela de cadastro da ferramenta auxiliar, horrio. ............................................................46 Figura 18. Tela de cadastro da ferramenta auxiliar, informaes gerais...........................................47 Figura 19. Tela de cadastro da ferramenta auxiliar, prescrio. .......................................................47 Figura 20. Estrutura do DW auxiliar criado. ......................................................................................49 Figura 21. Tela de login. ....................................................................................................................49 Figura 22. Tela de mensagem padro.................................................................................................50 Figura 23. Tela de minerao de dados..............................................................................................51 Figura 24. Tela de visualizao do conhecimento. ............................................................................52 Figura 25. Tela de minerao de dados auxiliar.................................................................................53 Figura 26. Execuo do algoritmo J48...............................................................................................58 Figura 27. Gerao do arquivo apriori.bat. ........................................................................................58 Figura 28. Execuo do arquivo apriori.bat. ......................................................................................58 Figura 29. Diagrama de Pacotes dos Casos de Uso. ..........................................................................67 Figura 30. Casos de Uso do Pacote Controle de Acesso....................................................................67 Figura 31. Casos de Uso do Pacote Operaes. .................................................................................69

v

LISTA DE TABELASTabela 1. Algumas tarefas de KDD e suas tcnicas de minerao de dados .....................................22 Tabela 2. Entrada de dados para a descoberta de regras de associao. ............................................23 Tabela 3. Entrada de dados para a tarefa de classificao. ................................................................25 Tabela 4. Tcnicas de minerao de dados. .......................................................................................27 Tabela 5. Comparao entre as ferramentas de minerao de dados. ................................................32 Tabela 6. Normalizao dos dados.....................................................................................................44

vi

RESUMOKLEINSCHMIDT, Marlon. Minerao de dados para avaliao do perfil de usurios do Sistema de Informao da Academia da UNIVALI. Itaja, 2007. 83 f. Trabalho de Concluso de Curso (Graduao em Cincia da Computao)Centro de Cincias Tecnolgicas da Terra e do Mar, Universidade do Vale do Itaja, Itaja, 2007. A Academia de musculao da UNIVALI possui um Sistema de Informao baseado em Sistemas Especialista e Raciocnio Baseados em Casos, com objetivo de auxiliar os professores na escolha da programao da atividade fsica a ser seguida por um aluno. Porm, o sistema no est utilizando com maior aproveitamento o grande nmero de dados produzidos e armazenados, limitando-se em buscar informaes para gerar a programao da atividade fsica. Novas tecnologias envolvendo recursos de Inteligncia Artificial, entre elas, a Minerao de Dados, permitem a descoberta de conhecimento em grandes bases de dados e extrair informaes que auxiliam na tomada de deciso que, de outra maneira permaneceriam escondidas. O presente TCC prope demonstrar a aplicao da tcnica de minerao de dados, usando como estudo de caso a base de dados do Sistema de Informao da Academia da UNIVALI, com a utilizao de algoritmos de minerao de dados, para uma possvel descoberta de novas correlaes, padres e tendncias significativas por meio da anlise dos dados armazenados. Esse trabalho se concentrar em trs tarefas da Minerao de Dados que so: regras de associao, classificao e agrupamento, com objetivo de descobrir alguma informao til nos dados, procurando encontrar alguma particularidade que possa melhorar o atendimento dos atletas, ou encontrar alguma outra informao relevante. Palavras-chave: Descoberta de Conhecimento. Minerao de Dados.Weka.

vii

ABSTRACTThe body-building gym of the UNIVALI possesss a System of Information based on Systems Based Specialist and Reasoning in Cases, with objective of assisting the professors in the choice of the programming of the physical activity to be followed by a pupil. However, the system is not using with bigger exploitation the great number of produced and stored data, limiting itself in searching information to generate the programming of the physical activity. New technologies involving resources of Artificial Intelligence, between them, the data mining, allow the discovery of knowledge in great databases and to extract information that assist in the decision taking that, in another way would remain hidden. Gift TCC considers to demonstrate the application of the technique of mining of data, using as case study the database of the System of Information of the Academy of the UNIVALI, with the use of algorithms of data mining, for a possible one discovered of new correlations, standards and significant trends by means of the analysis of the stored data. This work will be concentrated in three tasks of the data mining that are: rules of association, classification and grouping, with objective to discover some useful information in the data, looking for to find some particularitity that can improve the attendance of the athletes, or to find some another excellent information. Keywords: Knowledge Discovery in Databases. Data Mining.Weka.

viii

1 INTRODUONos ltimos anos, pde-se notar um grande aumento no armazenamento de dados em meios magnticos. Esses dados produzidos e armazenados em grande escala ficam inviveis de serem analisados por especialistas atravs de mtodos tradicionais, tais como planilhas de clculos e relatrios informativos operacionais, onde o especialista testa sua hiptese contra a base de dados. Entretanto, um grande armazenamento de dados equivale a um maior potencial de informao (AURLIO, VELLASCO & LOPES, 1999). Atualmente, as organizaes aumentaram o investimento em equipamentos e aplicativos para aperfeioar o armazenamento, gerenciamento e compreenso dos seus dados. As bases de dados no so mais interpretadas apenas como um local de armazenamento de informaes, e sim como um importante patrimnio da organizao (SEN & JACOB, 1998 apud OLIVEIRA, 2000, p.1). Durante anos, mtodos manuais foram utilizados para transformar dados em conhecimento. Entretanto, a utilizao desses mtodos tem se tornado muito caro e inviveis quando aplicados a grandes bases de dados (FAYYAD, PIATETSKY-CHAPIRO, & SMYTH, 1996a apud DOMINGUES, 2004, p.1). Devido aos problemas com os mtodos manuais, surgiu a necessidade em desenvolver processos de anlise automtica, como o Processo de Extrao do Conhecimento em Bases de Dados ou Minerao de Dados (MD). Esse processo de natureza iterativa, e interativa, tem despontado por seu desempenho em vrios domnios, por extrair padres vlidos, novos e com grande utilidade na tomada de deciso (ibidem).

1.1

PROBLEMATIZAOEste trabalho prope aplicar tarefas de Minerao de Dados, para extrair informaes dos

dados armazenados pelo Sistema de Informao da Academia da UNIVALI, desenvolvido por Balbinotti (2006). A partir disto, os dados sero transformados em conhecimento, encontrando possveis padres nos dados atravs da utilizao de algoritmos de Minerao de Dados, possibilitando um melhor aproveitamento dos dados armazenados que, de outra maneira, permaneceria escondido na base de dados.

Para Carvalho (2001), Minerao de Dados a utilizao de tcnicas automticas de explorao de grandes quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertos a olho nu pelo ser humano.

1.1.1 Formulao do ProblemaA UNIVALI instalou no ginsio de esportes uma academia de musculao para atender os alunos, professores e funcionrios da UNIVALI. Dois professores so responsveis pelo atendimento e acompanhamento dos alunos. Inicialmente, as informaes referentes aos alunos eram coletadas a partir da aplicao de um questionrio. As informaes coletadas eram preenchidas manualmente em fichas de cartolina, que posteriormente eram armazenadas em um fichrio (BALBINOTTI, 2006). Para gerar a prescrio da atividade fsica, ou seja, a lista de exerccios que o aluno deve seguir, o profissional de Educao Fsica tinha que analisar as informaes contidas nas fichas e decidir quais aparelhos utilizar, suas repeties, pesos e intervalos para cada aluno. O maior problema encontrado pelos professores da academia era analisar essas fichas, devido a pouca informao contida nestas fichas. Outra dificuldade encontrada era o acompanhamento de alguns alunos, devido inexistncia de uma ferramenta que auxiliasse o profissional de Educao Fsica na analise do crescimento e desenvolvimento especfico de cada aluno. Mediante tal situao, uma soluo foi proposta por Balbinotti (2006), que desenvolveu uma ferramenta baseada em Sistemas Especialistas e Raciocnio Baseado em Casos (RBC) para auxiliar os profissionais de Educao Fsica na prtica desportiva na UNIVALI, auxiliando na tomada de deciso na hora da escolha do programa de exerccios. RBC consiste em resolver um novo problema com base na adaptao de solues de problemas similares j conhecidas (WANGENHEIM & WANGENHEIM, 2003). Balbinotti (2006) utilizou RBC para auxiliar na escolha do programa de exerccios do aluno. Entretanto, identificou-se uma limitao na soluo proposta, em que o foco principal gerar uma lista de exerccios para auxiliar na escolha da programao da atividade fsica a ser seguida por um aluno, aps identificar um grau de similaridade com casos ocorridos anteriormente. Com base nessas informaes, pode-se concluir que o sistema no est utilizando com maior

2

aproveitamento o grande nmero de dados e informaes armazenadas, motivando o desenvolvimento de uma nova alternativa para o problema.

1.1.2 Soluo PropostaA proposta deste projeto demonstrar a aplicao da tcnica de minerao de dados, usando como estudo de caso a base de dados do Sistema de Informao da academia da UNIVALI, com a utilizao de algoritmos de minerao de dados, para uma possvel descoberta de novas correlaes, padres e tendncias significativas por meio da anlise dos dados armazenados. Esse trabalho se concentrar em trs tarefas da minerao de dados que so: regras de associao, classificao e agrupamento. Regras de associao procuram determinar que fatos ocorram simultaneamente com probabilidade razovel ou que itens esto presentes juntos com certa chance (CARVALHO, 2001). Para Baptista e Carvalho (2003), regras de associaes procuram identificar afinidades entre registros de um subconjunto de dados. Sendo essas afinidades/associaes expressas na forma de regras. Segundo Aurlio et al. (1999), a classificao a tarefa mais estudada em KDD e tem como objetivo descobrir um conhecimento que possa ser utilizado para prever a classe de um registro. Silva (2003) diz que a classificao busca examinar um conjunto de registros rotulados e elaborar descries das caractersticas dos registros em cada uma das classes. Para Carvalho (2001), a classificao uma das tcnicas mais utilizadas no data mining simplesmente porque uma das tarefas cognitivas humanas mais realizadas no auxilio compreenso do ambiente em que vivemos. Por mais semelhante que algo possa ser, nada exatamente igual. Isso faz com que seja preciso diminuir as exigncias de igualdade e permitir que detalhes sejam desprezados e observar apenas caractersticas principais. J o agrupamento uma tarefa que tem como objetivo segmentar os dados formando grupos homogneos. Conforme Carvalho (2001), agrupar classificar uma massa de dados em classes desconhecidas. Para Silva (2003), o agrupamento aplicado quando ainda no conhecida nenhuma classe e sua funo produzir uma segmentao do conjunto de registros de entrada de acordo com algum critrio.

3

Com a utilizao dessas trs tarefas de minerao de dados, objetiva-se encontrar alguma informao til nos dados, procurando encontrar alguma particularidade que possa melhorar o atendimento dos atletas, ou encontrar alguma outra informao relevante, estudo que ser alvo ao longo da primeira etapa do Trabalho de Concluso de Curso (TCC). O desenvolvimento deste projeto se justifica como um TCC para o Curso de Cincia da Computao, pois se trata do processo de extrair o conhecimento de um grande volume de dados, identificando padres e tendncias significativas por meio da anlise dos dados armazenados que, de outra maneira, permaneceria escondido na base de dados. Esse trabalho aplica conhecimentos adquiridos no decorrer do curso, principalmente os relacionados a banco de dados e Inteligncia Artificial.

1.2

OBJETIVOS

1.2.1 Objetivo GeralDesenvolvimento de uma aplicao que utilize minerao de dados para descoberta de conhecimento contido na base de dados do Sistema de Informao da academia da UNIVALI.

1.2.2 Objetivos EspecficosOs objetivos especficos deste projeto de pesquisa so: Pesquisar e analisar solues similares; Adquirir conhecimento sobre minerao de dados; Pesquisar sobre ferramentas de minerao de dados; Determinar as variveis de interesse para as tarefas de minerao de dados; Determinar os requisitos exigidos para o sistema; Realizar a modelagem conceitual do sistema; Implementar o sistema; Testar e validar a implementao do sistema; e Documentar o desenvolvimento e os resultados do sistema.

4

1.3

METODOLOGIAO presente TCC consiste no desenvolvimento de uma aplicao que utilize minerao de

dados para descoberta de conhecimento contido na base de dados do Sistema de Informao da academia da UNIVALI. Para executar este projeto de pesquisa foram estipuladas 5 etapas. As duas primeiras etapas e parte da quinta etapa foram executadas no TCCI, que consiste na anlise da tecnologia envolvida, modelagem do sistema e documentao. As demais etapas foram executadas no TCCII, elas compreendem o desenvolvimento, validao e documentao do sistema. A metodologia para executar as atividades contidas nas etapas apresentada a seguir. Inicialmente foi necessrio fazer leituras e levantamento de conceitos sobre a descoberta de conhecimento em bases de dados e minerao de dados, para adquirir um maior conhecimento sobre o assunto abordado neste projeto. A pesquisa foi feita atravs de livros, textos selecionados em sites e principalmente atravs de monografias e dissertaes, que tambm serviram para a reviso bibliogrfica deste trabalho. Na primeira etapa tambm foram pesquisados trabalhos acadmicos de desenvolvimento de aplicaes semelhantes, para depois identificar a tecnologia necessria implementao do sistema. No incio do TCCI j se tinha conhecimento da ferramenta de minerao de dados Weka, contudo, foram pesquisadas outras ferramentas para buscar caractersticas semelhantes tais como: possibilidade da utilizao de recursos via API e ser disponibilizada gratuitamente. Porm no foi encontrada nenhuma outra ferramenta com essas caractersticas, sendo assim, adotou-se a ferramenta Weka para dar suporte a minerao de dados neste projeto. Testes referentes integrao com esta ferramenta foram realizados, que podem ser verificados no captulo de Fundamentao Terica. Aps analisar a base de dados do Sistema de Informao proposto para a academia da UNIVALI, foram estipuladas as variveis de interesse para a realizao das tarefas de minerao de dados. J na segunda etapa, foi feita a anlise e projeto do sistema. Foram feitas as definies e documentao do sistema a ser desenvolvido, foram definidos os requisitos funcionais e no funcionais, diagrama de casos de uso, tambm foi definida a interface com o usurio, utilizando a 5

metodologia da notao Unified Modelling Language (UML) para modelar o sistema, atravs da ferramenta Enterprise Architect. A etapa de documentao contemplou todos os processos referentes s etapas: (i) leitura e levantamento de conceitos e (ii) anlise e projeto, seguindo as normas exigidas pela Coordenao de TCC. Esta etapa foi concluda no TCCII.

1.4

ESTRUTURA DO TRABALHOEste trabalho est dividido em quatro captulos: Introduo, Fundamentao Terica,

Desenvolvimento e Concluses. O Captulo 1, Introduo, apresentou uma viso geral do trabalho, estabelecendo os objetivos, descrevendo a metodologia de desenvolvimento e a estrutura da pesquisa. No Captulo 2, Fundamentao Terica, apresentada toda teoria contida neste trabalho. Este captulo est dividido em seis sesses: A Academia de Musculao da UNIVALI: apresenta uma viso geral sobre a academia, a descrio sobre o Sistema de Informao que foi desenvolvido para academia e seu funcionamento; Inteligncia Artificial: uma breve descrio sobre Inteligncia Artificial; Descoberta de conhecimento em bases de dados: apresenta as caractersticas dessa rea da Inteligncia Artificial; Minerao de Dados: descrio de conceitos tais como: definies, caractersticas, dentre outros; Solues Similares: apresenta solues similares pesquisadas; e Ferramentas de minerao de dados: apresenta as caractersticas de algumas ferramentas pesquisadas. O Captulo 3 apresenta o desenvolvimento do projeto, a modelagem do sistema bem como os detalhes tcnicos necessrios para a implementao do sistema.

6

No Captulo 4, Concluses, apresentada a concluso deste projeto, descreve sobre os resultados obtidos, problemas encontrados, objetivos conquistados, dentre outros.

7

2 FUNDAMENTAO TERICAEste captulo aborda os conceitos necessrios ao desenvolvimento do sistema, tais como: descoberta de conhecimento em bases de dados, minerao de dados e ferramentas de minerao de dados. Esse TCC fundamentado em livros e principalmente em monografias e dissertaes.

2.1

A ACADEMIA DE MUSCULAO DA UNIVALIA UNIVALI possui uma academia de musculao, que foi instalada no ginsio de esportes,

em uma sala equipada com 35 aparelhos para a prtica desportiva, possui uma televiso, um microcomputador PC e um aparelho de som, dois professores so responsveis em atender os alunos, com diferentes faixas etrias e objetivos distintos. So atendidos alunos, professores e funcionrios da UNIVALI, bem como os alunos do Colgio de Aplicao da UNIVALI (CAU). O atendimento da academia de musculao oferecido de segunda a sexta-feira durante todo o ano letivo, sendo que no perodo de frias a academia fechada. Os horrios disponveis para a prtica desportiva iniciam s 06h50min e encerram s 21h20min. A princpio, o cadastro das informaes dos alunos da academia de musculao da UNIVALI, era efetuado aps a aplicao de um questionrio em que o aluno respondia questes especficas como: objetivo, nvel de atividade fsica, e questes abrangentes como: nome, endereo, etc. As informaes coletadas eram preenchidas manualmente em fichas de cartolina, que se diferenciavam pelas cores: azul para os homens e rosa para as mulheres. Essas informaes eram armazenadas em um fichrio (BALBINOTTI, 2006). O profissional de Educao Fsica tinha que analisar as informaes contidas nestas fichas e tomar uma deciso sobre o tipo de aparelho necessrio, suas repeties, pesos e intervalos para tal pessoa. Muitas vezes a anlise no era bem sucedida devido a pouca informao contida nesta ficha. Outra preocupao era o acompanhamento de alguns atletas, pois ficava difcil para o profissional de Educao Fsica analisar o crescimento e desenvolvimento especfico do atleta por no ter ferramentas que auxiliassem em seu trabalho.

2.1.1 O Sistema de Informao desenvolvido para AcademiaDevido necessidade do acompanhamento de alguns atletas, uma soluo foi proposta por Balbinotti (2006), foi desenvolvida uma ferramenta baseada em Sistemas Especialistas e Raciocnio Baseado em Casos para auxiliar os profissionais de Educao Fsica na prtica desportiva na UNIVALI, auxiliando na tomada de deciso na hora da escolha do programa de exerccios. Para Fernandes (2003), o processo caracterstico do RBC, Raciocnio Baseado em Casos, consiste em identificar o problema atual, buscar a experincia mais semelhante na memria e aplicar o conhecimento desta experincia passada no problema atual. RBC consiste em resolver um novo problema com base na adaptao de solues de problemas similares j conhecidas (WANGENHEIM e WANGENHEIM, 2003). Balbinotti (2006) utilizou RBC para auxiliar na escolha do programa de exerccios do aluno. O Sistema de Informao foi desenvolvido principalmente para gerar uma lista de exerccios para auxiliar na escolha da programao da atividade fsica a ser seguida por um aluno, aps identificar um grau de similaridade com casos ocorridos anteriormente. 2.1.1.1 Funcionamento do Sistema de Informao A prescrio da atividade fsica gerada pelo sistema aps efetuar duas etapas, o cadastramento do aluno e posteriormente a etapa de avaliao fsica do aluno. Basicamente a prescrio da atividade fsica gerada aps um aluno informar qual seu objetivo em ingressar na academia, em seguida efetuado o cadastro do aluno e cadastro de avaliao fsica, o sistema percorre a base de casos, procurando registros com maior similaridade retornando uma lista de exerccios (BALBINOTTI, 2006). Aps o usurio estar autenticado no sistema, apresentada a tela principal, com todas as opes disponveis para aquele usurio como mostra a Figura 1.

9

Figura 1. Tela principal Fonte: Balbinotti (2006).

Logo aps, o usurio seleciona no menu a opo ATUALIZAES/ALUNOS, e efetua o cadastro do aluno. Na etapa de cadastramento do aluno so coletadas informaes como: nome, endereo, sexo, idade, objetivo do aluno, etc. Aps efetuar o cadastramento do aluno necessrio fazer a avaliao fsica do aluno (ibidem). O usurio seleciona no menu a opo TRANSAES/AVALIAO FSICA e o sistema apresenta a tela de avaliao de alunos como mostra a Figura 2:

10

Figura 2. Tela de Avaliao de Alunos Fonte: Balbinotti (2006).

A etapa de avaliao fsica dividida em sete etapas, que so: Cadastro de Anamnese de Risco: etapa onde o usurio responde questes sobre antecedentes familiares com problema cardaco, se pratica alguma atividade fsica, se a pessoa foi ou fumante, se tem a presso arterial dentro do limite, dentre outras; Cadastro de Anamnese Clnica: armazena informaes sobre aspecto cardiorespiratrio, se fez cirurgias recentes, se utiliza algum medicamento, se possui reaes alrgicas, dentre outras; Cadastro de Antropometria: so cadastradas as medidas corporais do aluno, por exemplo: altura, circunferncia, envergaduras e dobras; Cadastro do ndice de massa corporal: verifica se o aluno esta obeso, acima do peso, peso normal ou abaixo do peso; Cadastro do ndice de atividade fsica: o ndice gerado aps informar se o aluno pratica alguma atividade fsica, qual a intensidade, durao e freqncia; Cadastro da Presso arterial: aps informar a presso Diastlica e Sistlica o sistema retorna se o aluno tem presso normal ou se sofre de hipertenso; e Cadastro de aspecto hemodinmico: aps aplicao do teste de caminhada na esteira 2400m e o teste de corrida 1200m, so coletadas as informao sobre o tempo gasto para realizar os testes. A partir disto calculado e cadastrado o volume de oxignio do aluno. 11

Aps o usurio ter efetuado o cadastro do aluno e a avaliao fsica do aluno o sistema habilita o boto com a opo programao, o usurio seleciona a opo programao, depois disto o sistema apresenta a tela de ficha de programao, com uma lista de sugestes de atividade fsica onde o usurio pode aceitar alguma sugesto ou adicionar uma nova lista de exerccios, como mostra a Figura 3 (ibidem).

Figura 3. Tela de Ficha de Programao Muscular Fonte: Balbinotti (2006).

Caso o usurio decida adicionar uma nova lista de exerccios fsicos, esta ser adiciona ao banco de dados alimentando a base de casos para uma futura busca por similaridade a partir da entrada de dados de um novo aluno (ibidem).

12

2.2

INTELIGNCIA ARTIFICIALO presente TCC visa desenvolver uma aplicao que utilize a tcnica de Minerao de

Dados (MD). Para isso, identificou-se que a MD uma rea das vrias reas contidas na Inteligncia Artificial (IA), e tambm uma maneira de se utilizar a IA. A IA busca prover mquinas com a capacidade de realizar algumas atividades mentais do ser humano (NASCIMENTO JR & YONEYAMA, 2000). Para Feigenbaum (1992, apud FERNANDES, 2003), IA uma rea da cincia da computao destinada ao desenvolvimento de sistemas computacionais inteligentes, com caractersticas que se assemelham com as do ser humano, tais como: a compreenso da linguagem, aprendizado, raciocnio, tomada de deciso, dentre outras.

2.3

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOSDescoberta de conhecimento em bases de dados o processo no trivial de identificar em

dados padres que sejam vlidos, novos (ainda no identificados), potencialmente teis e compreensveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de deciso (FAYYAD et al. 1996 apud SILVA 2004). A tcnica de descobrir padres teis em dados no processados recebeu diversos nomes, dentre eles Knowledge Discovery in Database (KDD, ou em portugus, Descoberta de Conhecimento em Bases de Dados), Data Mining (DM, ou em portugus, Minerao de Dados), extrao de conhecimento, descoberta de informao, processamento de padres de dados. O termo KDD foi criado em 1989 para referenciar o processo de descoberta de conhecimento em dados e, principalmente, a etapa de minerao de dados, esta que transforma dados em informao (MANNILA 1997 apud PIETRO, 2006). Segundo Collazos e Barreto (2003), o KDD uma tcnica que possibilita analisar grandes conjuntos de dados, utilizando mtodos aproximados. A metodologia do KDD constitui-se em duas etapas fundamentais, o armazm de dados e a MD. Primeiro faz-se necessrio criar uma base de dados organizada e com suficientes dados sobre o assunto a analisar, em seguida utilizar mtodos aproximados que permitem minerar os dados, para a descoberta das relaes contidas em tais dados.

13

Para Pacheco et al. (1999), o processo de KDD composto por cinco etapas: o Data Warehounsing (DW), o Pr-processamento, o Enriquecimento, a Minerao de Dados e o Psprocessamento. A Figura 4 mostra uma viso sistemtica do processo de KDD, de forma hierrquica, onde as fases e principais tarefas do processo de KDD, tais como: tarefas e algoritmos empregados; fases; e etapas do pr-processamento (AURLIO et al. 1999).

Figura 4. Taxonomia do processo de KDD Fonte: Adaptado de Aurlio, et al. (1999).

Para Suliman Jr. e Souza (1997) as fases que fazem parte do processo de DCBD so: Desenvolver a compreenso do domnio da aplicao, o conhecimento anterior relevante e os objetivos do usurio final; Criar um conjunto alvo de dados em que a prospeco dever ser efetuada; Realizar a reduo e projeo de dados, reduzindo o nmero efetivo de variveis consideradas ou encontrar representaes no variveis para os referidos dados; Escolher as tarefas de MD: decidindo se o objetivo do processo de DCBD a classificao, associao, agrupamento ou outro;

14

Escolher os algoritmos de MD, selecionando mtodos para o uso na busca de padres nos dados;

Minerao de dados; Interpretaes dos padres obtidos; e Consolidao do conhecimento.

Conforme afirma Aurlio et al. (1999), a utilizao da tcnica de KDD em sistemas de anlise est relacionada a vrias aplicaes: marketing, anlises corporativas, medicina, biologia, entre outras. Existem diversa tarefas de KDD, cada uma est diretamente relacionada ao domnio da aplicao e interesse do usurio. Cada tarefa de KDD extrai um tipo diferente de conhecimento do banco de dados, com isso, necessita de um algoritmo diferente para cada tarefa.

2.3.1 Compreenso do Domnio de AplicaoUm fator importante no processo de DCBD o entendimento do domnio da aplicao, de onde ser extrado o conhecimento necessrio para apoiar a tomada de deciso. Para isso, surge a necessidade de identificar quais so os objetivos e requisitos necessrios para que seja possvel extrair e incorporar o conhecimento adquirido. Segundo Oliveira (2000) no existe um procedimento padro que estabelea um domnio de aplicao, pois cada caso tem suas caractersticas e particularidades prprias. Entretanto, alguns aspectos relevantes podem servir de suporte a identificao do domnio da aplicao, como: Definio dos objetivos e dos requisitos da extrao de conhecimento; Identificao das possveis fontes de dados; Pesquisa do conhecimento prvio existente; Modo de distribuio do conhecimento extrado; Utilizao do conhecimento extrado num sistema de tomada de deciso; e Estudo de viabilidade e custos da aplicao do processo.

Aps a definio do domnio da aplicao, deve-se selecionar e preparar os dados para serem analisados posteriormente.

15

2.3.2 Data WarehouseUm Data Warehouse banco de dados elaborado com a finalidade de dar suporte ao processo decisrio, onde os dados que o povoaro so obtidos atravs dos bancos de dados dos aplicativos operacionais disponveis. Segundo Inmon (1997), um DW um conjunto de dados baseado em assuntos, integrado, no voltil, e varivel em relao ao tempo, que tem por objetivo dar suporte aos processos de tomada de deciso gerenciais. Para Aurlio et al. (1999), um DW pode ser definido como um repositrio integrado, orientado para anlise, histrico, com dados apenas para leitura, destinados apenas para ser utilizado como base para suporte a deciso e sistema KDD. A tecnologia de DW surgiu com o objetivo de suprir as carncias nos sistemas tradicionais, quanto explorao e anlise dos dados, integrando e consolidando dados de diferentes acervos (DEBATIN, 2003). O DW uma arquitetura que organiza, totaliza e armazena os dados permitindo traar estratgias baseadas nos assuntos da empresa de maneira confivel dando suporte ao nvel gerencial nas tomadas de deciso. O objetivo de um DW fornecer uma "imagem nica da realidade do negcio". De uma forma geral, sistemas de DW compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantm, e sistemas que fornecem estes dados aos seus usurios. 2.3.2.1 Caractersticas do Data Warehouse Dentre as principais caractersticas do Data Warehouse pode-se citar a orientao por assunto, a integrao dos dados, a variabilidade no tempo e no volatilidade. Orientao por Assunto Segundo Machado (2001), orientao por assunto significa que um DW armazena as informaes por assuntos de interesse da empresa que so mais importantes, em contraste com os sistemas operacionais que so orientados a processos desenvolvidos para manter as transaes realizadas diariamente. 16

Integrado Segundo Colao Jnior (2004) o DW deve consolidar dados de diversas origens, o que geralmente envolve diversas codificaes. Os dados devem ser perfeitamente integrados para que, quando forem armazenados assumam uma nica conveno. Variante no tempo Os dados contidos em um sistema de DW so temporais, e referem-se a perodos de tempos bem definidos, e isto auxilia na anlise e na confirmao de acontecimentos sazonais dentro de uma determinada atividade ou setor de um negcio. Para Aurlio, Vellasco e Lopes (1999), o horizonte de tempo vlido para o DW significantemente maior do que o dos sistemas operacionais. Um horizonte de tempo de 60 a 90 dias normal para os sistemas operacionais; um horizonte de tempo de 5 a 10 anos normal para o DW. No Voltil Segundo Inmon (1997), as operaes de atualizao, modificao, excluso de dados so realizadas nos bancos de dados operacionais. Estas funes so efetuadas regularmente de acordo com as necessidades dos usurios. No DW o processo de armazenamento dos dados diferente. O DW possui duas operaes bsicas que consiste em carregar e acessar os dados. No nvel do DW os dados no sofrem alteraes ou so excludos, para cada alterao inserido um novo registro com os mesmos dados e contendo a alterao. 2.3.2.2 Arquitetura do Data Warehouse Segundo Debatin (2003), a arquitetura do DW baseada em um sistema de banco de dados relacional. Quando um dado inserido em um DW, ele transformado em uma estrutura integrada. O processo pode envolver filtragem e compactao de dados. A Figura 5 mostra uma viso simplificada de uma arquitetura de DW.

17

Figura 5. Viso simplificada de uma arquitetura de DW Fonte: Adaptado de Costa e Ancies (2003).

Um DW deve ser capaz de responder a consultas avanadas de maneira rpida, sem deixar de mostrar detalhes relevantes resposta. Para isso ele deve possuir uma arquitetura que lhe permita coletar, manipular e apresentar os dados de forma eficiente e rpida. O estudo de uma arquitetura permite compreender como o DW faz para armazenar, integrar, comunicar, processar e apresentar os dados que os usurios utilizaro em suas decises. Um DW pode variar sua arquitetura conforme o tipo de assunto abordado, pois as necessidades variam de empresa para empresa (COLAO JNIOR, 2004).

2.3.3 Pr-ProcessamentoSegundo Pacheco et al. (1999), a etapa de pr-processamento responsvel por consolidar as informaes relevantes para o algoritmo minerador, com objetivo de reduzir a complexidade do problema. O processo de tratamento dos dados pode ser dividido em trs etapas: Limpeza dos dados: etapa responsvel por realizar a consistncia dos dados, a correo

de possveis erros e o preenchimento e eliminao de valores nulos e redundantes. Conforme afirma Aurlio et al. (1999), a execuo dessa fase corrige a base de dados eliminando consultas desnecessrias que seriam executadas pelo algoritmo minerador e que afetariam o seu processamento; Seleo dos dados: etapa que ir definir ou escolher apenas os atributos relevantes do

conjunto de atributos existentes na base de dados; e

18

Codificao dos dados: etapa que divide os valores contnuos dos atributos em uma lista

de intervalos representados por um cdigo, convertendo valores quantitativos em valores categricos. Para Aurlio et al. (1999), em alguns casos a transformao de um valor em um equivalente pode facilitar a MD a encontrar seu objetivo com melhor qualidade de resultados.

2.3.4 Minerao de DadosA Minerao de Dados (MD) uma rea multidisciplinar que incorpora tcnicas utilizadas em diversas reas como IA (especialmente a aprendizagem de mquina), Banco de Dados (recursos para manipular grandes volumes de dados) e Estatstica (comumente na avaliao e validao dos dados), conforme mostrado na Figura 6.

Figura 6. MD utiliza recursos de diferentes reas Fonte: Silva (2003).

A rea de IA tm propiciado aos pesquisadores a possibilidade de utilizar diferentes tcnicas para reconhecimento e extrao de padres. Essa extrao est acompanhada de tcnicas de manipulao de dados e anlises posteriores. Todas essas diferentes tcnicas compem o processo de MD. A Descoberta de Conhecimento de Base de Dados (DCBD) uma tecnologia que possui ferramentas poderosas para a descoberta eficiente de informaes valorosas em grandes bancos de dados, com objetivo de auxiliar no suporte a deciso. MD uma das ferramentas de DCBD mais

19

utilizadas, podendo ser considerada um passo dentro do processo de DCBD (FAYYAD et al., 1996b apud SILVA 2003). Para Dias (2002), os principais objetivos da MD so descobrir relacionamento entre os dados e fornecer subsdios para que possa ser feita uma previso de tendncias futuras baseadas no passado. Segundo Silveira (2004), a MD consiste em obter informaes atravs de uma base de dados existente, usando seus atributos para extrair informaes que no so bvias e que precisam ser trabalhadas para serem teis na tomada de deciso, atravs da utilizao de algoritmos para identificar padres nos dados analisados. Carvalho (2001) define a minerao de dados como a utilizao de tcnicas automticas de explorao de grandes quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertos a olho num pelo ser humano. Machado (2000), afirma que as tcnicas de MD permitem ao usurio avaliar tendncias e padres no conhecidos entre os dados. Este tipo de ferramenta utiliza-se das mais modernas tcnicas de computao, como redes neurais, algoritmos genricos e lgica nebulosa. MD tem sido definida como a extrao no trivial da informao importante, implcita, previamente desconhecida, de dados. Ela usa o aprendizado de mquina, tcnicas estatsticas e de visualizao para descobrir e apresentar o conhecimento em uma forma facilmente compreensvel pelos humanos. A MD tem se mostrado importante em um grande nmero de aplicaes, por exemplo, na rea de segurana para detectar fraudes em cartes de crditos, anlises financeiras e de investimentos, deteco e predio de erros em grandes empresas, anlise de informaes, limpeza em bases de dados, marketing e melhoria no processo industrial. Como a extrao do conhecimento til e compreensvel no se faz apenas com a manipulao de um conjunto de dados, a MD um processo centrado na interao entre diferentes usurios, que geralmente so divididos em trs classes: Especialista do domnio: usurio que deve possuir amplo conhecimento do domnio da

aplicao e fornecer apoio execuo do processo;

20

Analista: usurio especialista no processo de MD e responsvel por sua execuo. Esse

usurio deve ter domnio sobre o processo de DCBD; e Usurio Final: representa os usurios que utilizam o conhecimento extrado no processo

de MD como apoio a tomada de deciso. A MD pode ser classificada em dois tipos: Descoberta direta onde fica explcito o que se deseja encontrar no banco de dados e Descoberta indireta, onde se faz uma espcie de busca aleatria, tentando identificar algum relacionamento entre os dados que representem algum conhecimento til. A MD tem como objetivos a previso e descrio de modelos. A previso pode ser obtida atravs da utilizao de variveis contidas no banco de dados para prever valores desconhecidos ou futuros. A descrio envolve a descoberta de padres interpretveis pelos humanos. Dentro do processo de DCBD descrever modelos possui maior importncia que prever os mesmos. A previso e a descrio dos modelos so conseguidas selecionando as tarefas, algoritmos e tcnicas de extrao de dados (FAYYAD et al., 1996b apud SILVA 2003). Os algoritmos e as tcnicas usados para se criar modelos a partir de dados, normalmente, provm de reas como Aprendizado de Mquina, Reconhecimento de Padres e Estatstica. Estas tcnicas, muitas vezes, podem ser combinadas para se obter melhores resultados (SILVA 2003). Conforme afirma Pacheco et al. (1999), as tarefas de DCBD que funcionam como bases das tcnicas de MD so: Classificao, Associao e Agrupamento. Estas tarefas podem utilizar tcnicas de MD baseadas em RBC, Redes Neurais Artificiais, rvores de Deciso, Estatstica, Computao Evolucionria, entre outras. Existem outras tarefas de DCBD utilizadas com menor escala, tais como: as consultas, a descoberta de dependncia e a regresso. A Tabela 1 mostra as principais tarefas de DCBD e as tcnicas mais utilizadas para MD.

21

Tabela 1. Algumas tarefas de KDD e suas tcnicas de minerao de dados Tarefas de KDD Associao Classificao Clustering ou Agrupamento Previso de sries temporais Tcnicas Estatstica e Teoria dos Conjuntos Algoritmos Genricos, Redes Neurais e rvores de deciso Redes Neurais e estatsticas Redes Neurais, Lgica Nebulosa e Estatstica

Fonte: Adaptado de Aurlio et al. (1999).

Existem diversa tarefas de DCBD, cada uma est diretamente relacionada ao domnio da aplicao e interesse do usurio. Cada tarefa de DCBD extrai um tipo diferente de conhecimento do banco de dados, com isso, necessita de um algoritmo diferente para cada tarefa. 2.3.4.1 Tarefas da DCBD Com o crescimento dos sistemas de MD desenvolvidos para os mais diferentes domnios, a variedade de tarefas para MD vem se tornando cada vez mais diversificada. Essas tarefas podem extrair diferentes tipos de conhecimento, sendo que, inicialmente faz-se necessrio decidir qual o tipo de conhecimento que o algoritmo deve extrair no processo de MD. Regras de Associao A tarefa de associao permite relacionar a ocorrncia de um determinado conjunto de itens com a ocorrncia de outro conjunto de itens. Para Carvalho (2001), regras de associao procuram determinar que fatos ocorram simultaneamente com probabilidade razovel ou que itens esto presentes juntos com certa chance. Segundo Baptista e Carvalho (2003), regras de associaes procuram identificar afinidades entre registros de um subconjunto de dados. Sendo essas afinidades/associaes expressas na forma de regras. Uma regra de associao caracteriza o quanto a presena de um conjunto de itens nos registros de uma base de dados implica na presena de algum outro conjunto distinto de itens nos mesmos registros (AGRAVAL & SRIKANT, 1994 apud DOMINGUES, 2004).

22

Uma regra de associao uma regra do tipo X

Y, onde X e Y so conjuntos de itens, e a

interseo deles X Y o conjunto vazio. Cada regra de associao associada a um fator suporte superior FSup, e a um fator de confidncia FConf. O FSup defenido como, FSup = | X U Y | / N , ou seja, esta frmula representa a razo do nmero de tuplas que satisfazem ambos X e Y sobre o nmero total de tuplas , representado por N. FConf definido como, FConf = | X U Y | / X, o fator de confiana obtido pela razo do nmero de tuplas que satisfazem ambos X e Y sobre o nmero de tuplas que satisfazem X (AURLIO, et al. 1999). Para facilitar o entendimento das regras de associao, pode-se exemplificar com o modelo abaixo representado pela Tabela 2, que mostra uma tabela com os dados de entrada e algumas regras de associao descobertas aps a anlise da base de dados. Tabela 2. Entrada de dados para a descoberta de regras de associao. MASCULINO FEMININO HIPERTROFIA ESTTICA PESO NORMAL Sim No No Sim Sim Sim No No Sim No Sim No No Sim No Sim No Sim Sim No No No Sim Sim No Sim No Sim Sim No Sim No Sim No No Sim Sim Sim Sim No Sim Sim Sim Sim Sim No No Sim Sim Sim No No No Sim No Sim No Sim No Sim No No Sim Sim Sim No Sim No Sim Sim No Sim Sim No No No Sim Sim No Sim ACIMA DO PESO No Sim No Sim No No Sim No No Sim Sim Sim No No Sim No

23

Aps processar os dados da Tabela 2 utilizando a ferramenta de MD Weka, com o algoritmo apriori, algumas regras de associao foram geradas como mostra a Figura 7.

Figura 7. Regras de associao geradas pelo algoritmo apriori.

Classificao Segundo Aurlio et al. (1999), a classificao a tarefa mais estudada em KDD e tem como objetivo descobrir um conhecimento que possa ser utilizado para prever a classe de um registro. Para Carvalho (2001), a classificao uma das tcnicas mais utilizadas no data mining simplesmente porque uma das tarefas cognitivas humanas mais realizadas no auxilio compreenso do ambiente em que vivemos. J para Baptista e Carvalho (2003), a classificao trata-se de uma tcnica que consiste na aplicao de um conjunto de exemplos pr-classificados, para desenvolver um modelo capaz de classificar uma populao maior de registros. Conforme afirma Romo (2002), o objetivo da tarefa de classificao descobrir um relacionamento entre um atributo meta, pr-definido, e um conjunto de atributos previsores. A Tabela 3 ser utilizada como exemplo para mostrar algumas regras de classificao que podem ser descobertas aps a aplicao de um algoritmo de classificao.

24

Tabela 3. Entrada de dados para a tarefa de classificao. SEXO OBJETIVO IDADE ACIMA DO PESO 25 21 23 34 30 21 20 18 34 55 Sim Sim Sim Sim No No No No No No

Masculino Hipertrofia Masculino Esttica Feminino Hipertrofia Feminino Esttica Feminino Hipertrofia Masculino Esttica Masculino Hipertrofia Feminino Condicionamento Feminino Hipertrofia Masculino Condicionamento

Aps processar os dados da Tabela 3 utilizando a ferramenta de MD Weka, com o algoritmo classificador NNge, algumas regras de classificao foram geradas como mostra a Figura 8.

Figura 8. Regras de classificao geradas pelo algoritmo NNge.

Regras do tipo SE... ENTO... , constituem uma forma de representao simblica e possuem o seguinte formato: SE ENTO . O antecedente formado por expresses condicionais envolvendo atributos do domnio da aplicao existentes no banco de dados. J o conseqente, composto por uma expresso que evidencia algum valor para um atributo meta, descoberto em funo dos valores contidos nos atributos que compem o antecedente (ROMO, 2002).

25

As regras de classificao podem ser interpretadas como: SE os atributos preditivos de uma tupla satisfazem as condies no antecedente da regra, ENTO a tupla tem a classe indicada no conseqente da regra. Para Pereira (2004), as rvores de deciso so consideradas pela comunidade cientfica como uma importante tcnica para implementar a tarefa de Classificao, devido a sua representao simples e intuitiva, fcil de ser compreendida. Agrupamento A principal caracterstica desta tarefa descobrir grupos utilizando a similaridade dos valores de seus atributos como fator de deciso. Para Carvalho (2001), o agrupamento um mtodo que tenta baseado em medidas de semelhana, definir quantas e quais classes existem em um conjunto de entidades. O agrupamento uma tarefa que tem como objetivo segmentar os dados formando grupos homogneos. Conforme afirma Carvalho (2001), agrupar classificar uma massa de dados em classes desconhecidas. Para Silva (2003), o agrupamento aplicado quando ainda no conhecida nenhuma classe e sua funo produzir uma segmentao do conjunto de registros de entrada de acordo com algum critrio. Segundo Pacheco et al. (1999) a utilizao do agrupamento tem como meta principal criar classes atravs de parties do banco de dados em conjunto com tuplas. Essa partio feita agrupando tuplas com valores de atributos semelhantes em uma mesma classe. Aps a criao destas classes, possvel aplicar algoritmos de classificao para produzir regras para as mesmas. Conforme Aurlio, et al. (1999), um bom agrupamento caracteriza-se pela produo de segmentos de alta qualidade, onde a similaridade intra-classe alta e a inter-classe baixa. Para Romo (2002), atravs da tarefa de agrupamento pode-se dividir os dados em subconjuntos homogneos fceis de descrever e visualizar. Estes dados podem ser exibidos para o usurio em vez de tentar mostrar todos os dados, o que usualmente resultaria na perda de padres embutidos (FAYYAD, 1997 apud ROMO, 2002). Schenatz (2005) citou a possibilidade da utilizao da tarefa de agrupamento, por exemplo, em um banco de dados escolar, relacionando alunos e disciplinas. Uma regra do tipo 85% dos alunos inscritos em Programao I tambm esto inscritos em Teoria da Computao pode ser 26

usada pela direo ou secretaria no planejamento do currculo anual, ou alocar recursos como sala de aula e professores. 2.3.4.2 Tcnicas de Minerao de Dados De acordo com as tarefas a serem executadas e as classes de problemas em questo, existem diferentes tcnicas de minerao e algoritmos que possibilitam a busca por padres escondidos nos dados. Possuir certo conhecimento sobre essas tcnicas, facilita no momento da escolha de uma delas de acordo com os problemas apresentados (SILVEIRA, 2003). A Tabela 4 apresenta as principais tcnicas de minerao de dados, bem como suas descries, tarefas e exemplos de algoritmos utilizados. Tabela 4. Tcnicas de minerao de dados. Tcnica Descoberta de Regras de Associao rvores de deciso Raciocnio baseado em Casos Algoritmos Genricos Hierarquizao dos dados, baseada em classes e subconjuntos Baseado no mtodo do vizinho mais prximo, combina e compara atributos para estabelecer hierarquia de semelhana Mtodos gerais de busca e otimizao, inspirados na Teoria da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de terem descendentes Redes Neurais Modelos inspirados na fisiologia do crebro, onde o conhecimento fruto do mapa das conexes neuronais e dos pesos dessas conexes Fonte: Adaptado de Dias (2002). Classificao, Segmentao. Perceptron, Rede MLP, Rede Time Delay. Classificao, Segmentao Algoritmo Gentico Simples, Genitor, CHC. Classificao Segmentao BIRCH, CLARANS. Classificao CART, CHAID, C5.0. estgios de deciso (ns) e na separao de Regresso Descrio Tarefas Exemplos Apriori, AprioriTid, AIS.

Estabelece uma correlao estatstica entre Associao atributos de dados e conjuntos de dados

27

2.3.5 Ps-ProcessamentoO ps-processamento utilizado principalmente para avaliar o processo de descoberta, melhorar a compreenso e/ou selecionar conhecimento descoberto que seja mais relevante. Para Pacheco et al. (1999), esta fase envolve a interpretao do conhecimento descoberto, ou algum processamento deste conhecimento. O objetivo principal desta fase melhorar a compreenso do conhecimento descoberto pelo algoritmo minerador atravs da anlise dos dados por um especialista. Muitas vezes a minerao no traz resultados satisfatrios, sendo necessrio uma outra etapa de Enriquecimento, esta que consegue agregar mais informaes de forma que essas contribuam no processo de descoberta de conhecimento (PACHECO et al. 1999). Segundo Silva (2003) a etapa de ps-processamento iniciada com a avaliao dos padres realmente interessantes, que representem conhecimento til, seguido da apresentao do conhecimento extrado para o usurio final, atravs de tcnicas de visualizao e representao do conhecimento.

2.4

SOLUES SIMILARESEsta seo tem o objetivo de apresentar solues similares proposta neste TCC

desenvolvidas em trabalhos acadmicos. Porm, no foram encontradas solues similares especficas proposta deste trabalho, somente solues que utilizaram tcnicas de IA no desenvolvimento de softwares para apoio a prtica desportiva em geral. A seguir sero apresentadas duas propostas.

2.4.1 A IA entrando na quadra de vlei: Scout inteligenteO Scout Inteligente um projeto de software que tem como objetivo principal o monitoramento de jogo de vlei, atravs da utilizao de tcnicas de IA, que combinam agentes inteligentes e minerao de dados para auxiliar os tcnicos na tomada de deciso. Existem vrios softwares estatsticos que auxiliam nesta tarefa, tais como o Data Volley e o Scout Tcnico, porm, so sistemas estatsticos de captura, cruzamento de dados e emisso de relatrios que no levam em considerao o histrico do jogador de toda uma temporada e o contexto de uma partida de vlei (ZAMBERLAM et al. 2005).

28

A proposta do Scout Inteligente utilizar um agente inteligente para fazer o papel de tutor da comisso tcnica, interagindo com ela e com a base de dados criada, contendo informaes semnticas e imagens/vdeos dos seus atletas e da equipe adversria ao longo de vrias temporadas. Os vdeos dos jogos contendo as jogadas da equipe adversria, antes armazenados no banco, passaro por um processo de etiquetao semntica, em que sero informados atletas e seus posicionamentos, jogadas e finalizaes. Podendo assim, serem utilizados no somente antes de um jogo, mas durante uma partida (ibidem). O papel do agente de um auxiliar tcnico com crenas, desejos e intenes. As crenas so informaes do jogo em curso e de outros jogos armazenados na base de dados (como um histrico), contendo todas as situaes de um jogo, como ataque, defesa, posicionamento dos jogadores. Os desejos so os estados do jogo a serem atingidos, situaes mineradas da base de dados, decorrente da anlise semntica descrita nas jogadas da equipe adversria mais os dados estatsticos da prpria equipe. Finalmente, as intenes so representadas pelo planejamento e pela realizao de aes em forma de jogadas efetivas a serem executadas pela prpria equipe, previamente executadas por esse agente (ibidem). Dessa forma, ser possvel traar tticas e estratgias simuladas previamente pelo agente auxiliar, o qual realizou inferncias do ambiente (jogo) com base no resultado de um processo de minerao (ibidem).

2.4.2 A informtica e suas aplicaes em educao fsicaEste projeto de pesquisa props a confeco de uma ferramenta baseada em hipermdia voltada ao pblico de Educao Fsica. Com objetivo de agilizar e qualificar a prestao de servios ao pblico em geral, bem como criar atendimentos mais personalizados (BERG et al. 2004). Foi desenvolvido tutorial envolvendo o tpico de saltos, compreendendo: aspectos fisiolgicos nas faixas etrias de iniciao, uso de materiais alternativos nas aulas de atletismo, leses mais freqentes, materiais e regras (ibidem). O aplicativo utilizou multimdia interativa, possibilitando a interatividade com o usurio, e obtendo-se afinal uma aplicao hipermdia, como mostra a Figura 9.

29

Figura 9. Aplicao Hipermdia Fonte: Berg, Amaral, Streibel (2004).

2.5

FERRAMENTAS DE MINERAO DE DADOSSegundo Goebel & Gruenwald (1999 apud DIAS 2002), atualmente grande parte das

ferramentas disponveis so ferramentas derivadas da IA ou da comunidade de estatstica. Muitas vezes, essas ferramentas no processam os dados diretamente na base de dados, necessitando a exportao e importao de dados, pr-processamento e ps-processamento dos dados e transformao dos dados, gastando um tempo razovel com a manipulao dos mesmos. Para escolher uma ferramenta de descoberta de conhecimento, devem ser observadas as seguintes caractersticas (ibidem): Facilidade de acesso em diferentes fontes de dados; A possibilidade de incluir modelos de dados orientados a objetos ou modelos no

padronizados; O poder de processamento relacionado ao nmero mximo de tabelas/tuplas/atributos; A capacidade de processamento relacionado ao tamanho do banco de dados; Os diferentes tipos de atributos que a ferramenta pode manipular; e Tipo de linguagem de consulta.

30

Um esquema de classificao de caractersticas pode ser utilizado para analisar as ferramentas de descoberta de conhecimento e de minerao de dados. As caractersticas podem ser divididas em trs grupos chamados caractersticas gerais, conectividade de banco de dados e caractersticas de minerao de dados (ibidem). As caractersticas citadas acima foram analisadas para a escolha da ferramenta a ser utilizada neste projeto, porm, optou-se pelo Weka devido principalmente a possibilidade da utilizao de recursos via API e da ferramenta ser distribuda gratuitamente, caractersticas que no foram encontradas nas outras ferramentas pesquisadas.

2.5.1 Anlise das ferramentas de minerao de dadosNo incio do TCCI j se tinha conhecimento da ferramenta de minerao de dados Weka, uma ferramenta gratuita, com possibilidade de utilizao de recursos via API, que possui cdigo aberto e orientado a objetos. Entretanto, foram pesquisadas outras ferramentas de MD procurando encontrar caractersticas semelhantes ferramenta Weka, mas no foram encontradas. Dentre as ferramentas pesquisadas, foram descritas duas ferramentas que mais se destacaram, Clementine e Enterprise Miner, com um quadro comparativo entre seus recursos. Aps analisar as caractersticas das ferramentas apresentadas anteriormente, tais como: tarefas de minerao, algoritmos disponibilizados, conectividade com banco de dados, capacidade de manipulao com grandes quantidades de dados, possibilidade de manipular diferentes tipos de dados, utilizao de recursos via API e o custo de aquisio da ferramenta, foi definida a ferramenta de minerao de dados para dar suporte a este projeto. A ferramenta Weka foi escolhida, devido principalmente a possibilidade da utilizao de recursos via API e da ferramenta ser distribuda gratuitamente, caractersticas que as outras ferramentas citadas no possuam, e tambm pelo fato da ferramenta Weka ser citada por diversos autores como uma excelente ferramenta para dar suporte minerao de dados. Entretanto, no se pode afirmar qual a melhor ferramenta a ser utilizada, cada ferramenta possui caractersticas diferentes, possuindo pontos positivos e negativos, a escolha de uma ferramenta est diretamente relacionada aos objetivos que se pretende alcanar, no caso desse trabalho, a opo foi o Weka.

31

A Tabela 5 mostra de maneira resumida uma comparao entre as ferramentas apresentadas neste projeto. Tabela 5. Comparao entre as ferramentas de minerao de dados. Utilizao de recursos via API Clementine Enterprise Miner Weka No No Sim Ferramenta Gratuita No No Sim

As ferramentas Clementine e Enterprise Miner sero descritas nas sees 2.5.1.1 e 2.5.1.2, respectivamente. A ferramenta Weka ser descrita, bem como exemplificada a utilizao de sua API, na seo 2.5.2. 2.5.1.1 Clementine O Clementine uma ferramenta que possui uma interface grfica que suporta a implementao das tarefas de minerao de dados. possvel a navegao por cones que por sua vez representam as tarefas, o usurio percorre todo o processo de DCBD. O usurio pode arrastar esses cones para a rea de trabalho do Clementine criando uma seqncia de funes a serem executadas (CLEMENTINE, 2007). A ferramenta Clementine possibilita a utilizao de tarefas de Classificao, Previso, Clustering, Associao, Regresso. Outra caracterstica marcante a possibilidade de utilizao das tcnicas de Descoberta de regras de Associao (Apriori), rvores de Deciso (C5.0, C&RT), Redes Neuronais (Kohonen, MLP, RBFN). A ferramenta suporta as plataformas HP/UX, IBM AIX, Sun Solaris, Windows (ibidem). Dentre os pontos positivos e negativos da ferramenta Clementine pode-se citar: Pontos positivos: O Clementine permite operar sobre grandes conjuntos de dados atravs

de um modelo Cliente-Servidor. Pontos Negativos: A Ferramenta no gratuita.

32

2.5.1.2

Enterprise Miner O Enterprise Miner implementa todo o processo DCBD recorrendo a um modelo prprio ao

qual o SAS Institute denominou SEMMA Selecionar (Sample), Explorar (Explore), Modificar (Modify), Modelar (Model) e Avaliar (Assess) (SAS, 2007). A seleo dos dados feita com a criao de tabelas. Estas devem possuir uma quantidade de dados suficientes e significativos, porm, as tabelas no podem ter um tamanho muito grande, o que tornaria lento o processo de descoberta. O Enterprise Miner possui um conjunto de ferramentas de anlise que podem ser combinadas, possibilitando a criao e comparao de vrios modelos. Possui tambm funcionalidades de pr-processamento dos dados, transformao de variveis, amostragem e agrupamento dos dados, teste e validao. As suas ferramentas de visualizao permitem uma fcil interpretao dos resultados extrados (MATOS, 2004). A ferramenta Enterprise Miner possibilita a utilizao das tarefas de Classificao, Previso, Clustering, Associao, Regresso. Prov tcnicas de rvores de Deciso (CART, CHAID), Redes Neuronais (Kohonen, SOM, RBFN), Case-Based Reasoning. A ferramenta suporta as plataformas Cliente Windows; Servidor Unix, Windows (ibidem). Dentre os pontos positivos e negativos do Enterprise Miner pode-se citar: Pontos Positivos: Quantidade de tarefas e tcnicas disponibilizadas. Pontos negativos: A Ferramenta no gratuita.

2.5.2 WekaO Weka uma ferramenta de DCBD que contempla uma srie de algoritmos de preparao de dados, de aprendizagem de mquina (minerao) e de validao de resultados. Weka foi desenvolvido na Universidade de Waikato na Nova Zelndia, sendo escrito em Java e possuindo cdigo aberto. O sistema possui uma interface grfica amigvel e seus algoritmos fornecem relatrios com dados analticos e estatsticos do domnio minerado. A maioria de seus recursos podem ser utilizados atravs de sua interface grfica, sendo que os demais, podem ser utilizados atravs de APIs (SILVA, 2004). 33

O Weka foi implementado na linguagem Java, sua principal caracterstica a portabilidade, desta forma pode rodar em diversas plataformas, aproveitando tambm os benefcios de uma linguagem orientada a objetos, tais como: modularidade, polimorfismo, encapsulamento, reutilizao de cdigo dentre outros, alm disso, um software de domnio pblico estando disponvel em http://www.cs.waikato.ac.nz/ml/weka/. Alguns mtodos de classificao disponveis no pacote Weka: rvore de deciso induzida; Regras de aprendizagem; Naive Bayes; Tabelas de deciso; Regresso local de pesos; Aprendizado baseado em instncia; Regresso lgica; Perceptron; e Perceptron multicamada.

Alguns mtodos para predio numrica: Regresso linear; Geradores de rvores modelo; Regresso local de pesos; Aprendizado baseado em instncia; Tabelas de deciso; e Perceptron multicamadas.

34

2.5.2.1

O arquivo ARFF Segundo Silva (2004) o Weka possui um formato de arquivo prprio, o ARFF, deve-se

descrever o domnio do atributo, pois o mesmo no pode ser obtido automaticamente pelo seu valor. Antes de utilizar algum algoritmo do pacote Weka, os dados devem ser convertidos para o formato ARFF que constitudo por trs partes: Relao: a primeira linha do arquivo, que deve ser igual a @relation, seguida de uma

palavra-chave de identificao da relao; Atributos: um conjunto de linhas onde cada uma inicia com @attribute, seguida do nome

do atributo e seguida do seu tipo, que podem ser nominais ou numricos; e Dados: depois de uma linha contendo @data. Cada linha deve corresponder a uma

instancia e deve ter valores separados por vrgula correspondentes dos atributos da seo atributos. A Figura 10 mostra um exemplo do formato do arquivo ARFF.

Figura 10. Arquivo no formato ARFF Fonte: Adaptado de Silva (2004).

Dentre os pontos positivos e negativos do Weka pode-se citar: Pontos positivos: Portabilidade, o weka possui cdigo aberto e gratuito. Tambm

possvel a utilizao de seus recursos via APIs.

35

Pontos Negativos: Uma limitao da ferramenta sua escalabilidade, e tambm limita o

volume de dados a ser manipulado dimenso de memria principal. 2.5.2.2 Testes de integrao com a ferramenta Weka Aps analisar algumas ferramentas de minerao de dados, foi escolhida a ferramenta Weka para dar suporte a MD neste TCC. Devido as suas caractersticas, tais como: portabilidade, contempla vrios algoritmos de MD, possui o cdigo aberto, linguagem orientada a objetos, seu ambiente prov o desenvolvimento de aplicaes e script e uma ferramenta gratuita. A integrao da ferramenta Weka com a linguagem de programao Java, necessita de alguns requisitos, como: Ter o ambiente de desenvolvimento Java (J2SE, Java 2 Standard Edition) instalado, no

basta ter somente a mquina virtual (J2SE Runtime Environment); e Ter a ferramenta Weka devidamente instalada.

A princpio o teste de integrao foi realizado com o ambiente de desenvolvimento Eclipse, em sua verso 3.1., porem, aps analisar o ambiente de desenvolvimento NetBeans 5.0, evidenciouse que mais simples a integrao com a ferramenta Weka, pois no necessrio configurar variveis de ambiente como acontecia com o Eclipse. A seguir sero mostrados os dois testes de integrao, com o Eclipse e com o NetBeans respectivamente. O arquivo .arff utilizado para ambos os casos foi o arquivo weather.arff, um exemplo de arquivo que vem junto com o pacote Weka, sua estrutura pode ser visualizada na Figura 11.

36

Figura 11. Exemplo do arquivo ARFF utilizado.

2.5.2.3

Integrao com a IDE Eclipse Para a execuo deste teste o ambiente de desenvolvimento utilizado foi o Eclipse, em sua

verso 3.1. Inicialmente necessrio fazer algumas configuraes no ambiente de desenvolvimento (Eclipse), para que o pacote Weka possa ser includo nas classes do projeto teste, deve-se adicionar o arquivo weka.jar no inicio do projeto, configurando as variveis de ambiente. Foi desenvolvida uma pequena aplicao teste, que compreendeu a execuo de alguns passos, o funcionamento da aplicao teste descrito a seguir. Inicialmente o programa apresenta uma tela com a opo de selecionar um arquivo para minerar, o usurio clica na opo selecionar e escolhe um arquivo no formato .arff e confirma, logo aps o programa habilita um boto com a opo minerar, o usurio clica no boto minerar e o programa chama a classe do weka, processa o arquivo e apresenta o resultado em uma caixa de texto. Para este teste de integrao foi utilizado o arquivo weather.arff, e o algoritmo foi o J48. A seguir o trecho de cdigo da aplicao teste que executa o algoritmo J48. java cp /c/ weka-3-4/weka.jar weka.classifiers.trees.J48 -t /c/ weka-3-4/data/ weather.arff 37

Este cdigo deve estar escrito em uma nica linha. A opo cp foi utilizado para indicar o uso de um pacote adicional para a mquina vitual Java, este deve ser composto pelo caminho completo para localizar o arquivo weka.jar, neste caso o pacote Weka foi instalado em c/ weka-34/weka.jar. O nome da classe do algoritmo classificador weka.classifiers.trees.J48. A opo t indica o nome do arquivo utilizado para ser executado o algoritmo minerador, no caso -t /c/ weka-3-4/data/ weather.arff. Aps a execuo do trecho de cdigo apresentado, o seguinte resultado foi obtido como mostra a Figura 12.

Figura 12. Resultado da classificao com o algoritmo J48.

2.5.2.4

Integrao com a IDE NetBeans Para a execuo deste teste o ambiente de desenvolvimento utilizado foi a IDE NetBeans,

em sua verso 5.0. Inicialmente necessrio criar um novo projeto dentro do NetBeans e dar um nome, por exemplo TesteWeka, aps nomear o projeto, necessrio adicionar o arquivo weka.jar na pasta Libraries do projeto, para que o pacote Weka possa ser includo nas classes do projeto teste, como mostra a Figura 13.

38

Figura 13. Adicionando o arquivo weka.jar Foi desenvolvida uma pequena aplicao teste, o funcionamento da aplicao teste descrito a seguir. O arquivo utilizado foi o weather.arff, e o algoritmo foi o J48. Inicialmente o sistema teste apresenta uma tela com a opo de minerar, ento o usurio clica no boto minerar, a partir disto que acionado o comando que executa a integrao com a ferramenta Weka, onde o algoritmo classificador J48 processa o arquivo weather.arff. A seguir a Figura 14 mostra o trecho de cdigo da aplicao teste que executa o algoritmo J48. Para que o cdigo funcione corretamente, necessrio copiar o arquivo weather.arff, que no caso se encontra em C:\Arquivos de programas\Weka-3-4\data, para a pasta onde est o projeto teste, no caso C:\Documents and Settings\TesteWeka.

39

Figura 14. Cdigo que executa o algoritmo classificador J48.

Aps a execuo do trecho de cdigo apresentado na Figura 15, o resultado do processamento do algoritmo minerador J48 mostrado na tela para o usurio, o resultado obtido ilustrado na Figura15.

Figura 15. Resultado da classificao com o algoritmo J48.

40

O resultado no tem uma visualizao amigvel, mediante tal situao, a proposta deste TCC gerar visualizaes textuais com fcil interpretao por parte do especialista, atravs do sistema proposto.

41

3 PROJETOEste projeto trata-se de uma aplicao voltada anlise de banco de dados, desenvolvida utilizando a tecnologia J2SE e utilizando a ferramenta Weka para dar suporte no processo de minerao de dados. Foi desenvolvido para extrair conhecimento dos dados armazenados pelo Sistema de Informao da Academia da UNIVALI, com a utilizao de algoritmos de MD, para uma possvel descoberta de novas correlaes, padres e tendncias significativas por meio da anlise dos dados armazenados, com objetivo de melhorar de alguma maneira o atendimento aos alunos da academia de musculao da UNIVALI. Os dados inicialmente seriam obtidos a partir do Sistema de Informao da Academia da UNIVALI (SIAMU), mas, devido a no utilizao do sistema pela academia, foi desenvolvida uma ferramenta auxiliar para efetuar o cadastro das informaes referentes aos alunos da academia de musculao, onde so coletadas as informaes necessrias para a aplicao da minerao de dados proposta neste projeto e resultar informaes reais que sero vlidas para auxiliar o profissional de educao fsica na tomada de deciso. No TCCI j era sabido da no utilizao do SIAMU, mas era pretendido durante o TCCII, coloc-lo em execuo. Isso no foi possvel devido a problemas tcnicos na implantao do sistema na academia, inviabilizando a utilizao de dados reis para a realizao da MD. Na anlise de riscos, essa possibilidade foi levantada, e foi proposto que caso o SIAMU no fosse utilizado, a fonte de dados para aplicar a MD neste projeto seria a base de dados utilizada por Balbinotti (2006) na validao de seu projeto. Essa estratgia no foi utilizada, pois os dados so hipotticos e no trariam resultados reais que pudessem auxiliar o profissional de educao fsica na tomada de deciso. Devido a isto, optou-se em desenvolver uma ferramenta auxiliar para cadastro dos alunos da academia, com isso, possibilitando uma MD com resultados reais. A ferramenta auxiliar foi desenvolvida com base nas variveis de interesse selecionadas do banco de dados do SIAMU, simulando a consulta feita para a alimentao do DW, com o objetivo de armazenar dados reais em seu banco de dados, para que a aplicao proposta neste projeto faa a consulta nesses dados e seja aplicada a etapa de pr-processamento, etapa onde ocorre a limpeza, seleo e normalizao dos dados. Em seguida, esses dados so armazenados no DW auxiliar e a 42

partir disto o sistema aplica a etapa de MD, etapa onde ocorre o processo automtico de extrao de conhecimento, atravs de algoritmos mineradores disponibilizados pela Ferramenta Weka. Embora a base de dados utilizada para seleo dos dados seja o da ferramenta auxiliar de cadastro de alunos, o sistema desenvolvido continuar utilizando o banco de dados do SIAMU, o banco de dados est sendo alimentado com dados hipotticos e submetido ao processo de minerao de dados descrito neste projeto, porm os resultados no tm validade para auxiliar o profissional de educao fsica, pois sero dados fictcios. Caso o SIAMU venha a ser implantado e utilizado pela academia, esta ferramenta estar apta utilizao das informaes contidas na base de dados do mesmo. Por fim, aps a etapa de MD, o conhecimento extrado avaliado na etapa de psprocessamento, onde ocorre a seleo do conhecimento mais relevante, para depois ser apresentado para usurio final.

3.1 CARACTERIZAO DO DOMNIO DA APLICAOEsse TCC possui dois domnios, com dois BD, ela dever consultar a base de dados do Sistema de Informao da academia e consultar a base de dados da ferramenta auxiliar para cadastro de alunos, posteriormente aplicar a etapa de pr-processamento, onde ocorre a normalizao dos dados, sendo que, a partir disto ir alimentar os DW elaborados com os dados j normalizados, para depois o usurio aplicar a minerao de dados e finalizando o processo de descoberta de conhecimento visualizar os resultados obtidos. Para melhor compreenso do funcionamento do sistema (apresentado a seguir na Subseo 3.4), importante destacar que o DW foi elaborado aps a anlise do banco de dados do SIAMU desenvolvido por Balbinotti (2006). A ferramenta auxiliar baseada nas variveis de interesse selecionadas a partir do SIAMU, e tem como objetivo armazenar apenas os dados que sero minerados.

3.2 Normalizao dos DadosPara o desenvolvimento desta aplicao, inicialmente foi preciso analisar o banco de dados do Sistema de Informao proposto para a academia, o qual serviu como estudo de caso para este projeto. Aps a anlise do banco de dados as variveis de interesse foram estipuladas, e para um

43

melhor entendimento, a seguir uma breve descrio das variveis selecionadas que compe o DW como mostra a Tabela 6. Tabela 6. Normalizao dos dados. Varivel SEXO Banco de dados do SIAMU Assume os valores M e F DataWarehouse Assumir os valores 0 e 1 respectivamente Idade do aluno Agrupado por faixa etria, com intervalos de 6 em 6 anos, sendo que o primeiro grupo assume o valor 1 com intervalo de idade de 15 a 20 anos e o ltimo grupo o valor 8 com intervalo de idade de 57 a 62 anos; Classificado em trs grupos assumindo os valores 1,2 e 3 respectivamente: 1: menor que 1m60cm; 2: maior que 1m60cm e menor ou igual a 1m79cm; 3: for maior que 1m79cm; Assumiro os valores sim ou no, na presena ou no das categorias;

IDADE Idade do aluno FAIXA_ETARIA Idade do aluno

ALTURA

Referente altura do aluno

OBJETIVO

Identifica qual o objetivo que o aluno deseja alcanar, as categorias so as seguintes: Hipertrofia, esttica, reabilitao, correo e condicionamento; Referente ao ndice de aptido fsica do aluno Refere-se ao peso do aluno

IAF

PESO

IMC

Referente ao ndice de massa corporal do aluno Referente presso arterial do aluno

PA

Classificado em trs categorias: insuficiente, aceitvel e alto. Assumindo os valores 0,1 e 2 respectivamente; Agrupado por intervalos de peso, sendo que o primeiro grupo inicia com o peso de 40 a 60 Kilos e assumir o valor 1, e o ltimo grupo grupo inicia com o peso de 121 a 150 Kilos e assumir o valor 5; Classificado em grupos: abaixo do peso, peso normal, acima do peso e obeso, assumindo os valores 1,2 e 3 respectivamente; Classificado por grupos: Baixa, normal, limite e alta. Assumindo os valores 0,1,2 e 3 respectivamente.

44

A estrutura do DW foi criada com o banco de dados MySQL, e pode ser visualizada logo abaixo como mostra a Figura 16.

Figura 16. Estrutura do DW criado. O DW ser carregado a partir do banco de dados do sistema de informao da academia da UNIVALI. O modelo entidade relacionamento do banco de dados do sistema de informao pode ser visualizado no anexo A.

3.3

FERRAMENTA AUXILIAR PARA CADASTRO DE ALUNOSDevido a no implantao e utilizao do Sistema de Informao desenvolvido para

academia, o banco de dados do Sistema de Informao no contem nenhum registro real armazenado. Sendo assim, uma alternativa para a coleta de dados foi desenvolvida para dar continuidade ao projeto, foi desenvolvida uma ferramenta auxiliar para efetuar o cadastro das informaes referentes aos alunos da academia de musculao, onde so coletadas as informaes necessrias para a aplicao da minerao de dados proposta neste projeto. Esta ferramenta foi implementada com a linguagem de programao Delphi 7, utilizando o banco de dados MySQL, mesmo banco de dados utilizado no SIAMU. A ferramenta auxiliar foi desenvolvida para coletar informaes dos alunos previamente selecionadas a partir do Sistema de Informao da academia, ou seja, sero cadastrados somente os dados identificados como variveis de interesse para a minerao de dados eliminando informaes desnecessrias para efetuar o processo de extrao de conhecimento. 45

Para um melhor entendimento do funcionamento da ferramenta auxiliar de cadastro de alunos, a seguir sero apresentados os passos necessrios para efetuar o cadastro dos alunos, bem como a apresentao das telas desenvolvidas para a ferramenta. Inicialmente a ferramenta apresenta a tela principal, com as duas opes, que so: cadastro e sair. Selecionando a opo de cadastro, a ferramenta apresenta a tela de cadastro, referente aos dados dos alunos, estas informaes so armazenadas no banco de dados que posteriormente serviro como base de dados para aplicar o pr-processamento e a partir disto alimentar o data warehouse auxiliar. Esta tela de cadastro foi dividida em trs categorias de informaes como mostram as imagens da Figura 17, Figura 18 e Figura 19 respectivamente, que so: Horrio: Com as opes de turma, semestre, ms e dias da semana em que o aluno freqenta a academia;

Figura 17. Tela de cadastro da ferramenta auxiliar, horrio.

Informaes Gerais: Com as opes de idade, objetivo, sexo, peso, altura, presso arterial, aptido fsica e IMC; e

46

Figura 18. Tela de cadastro da ferramenta auxiliar, informaes gerais.

Prescrio da atividade fsica: Que coleta as informaes sobre os aparelhos utilizados e exerccios atribudos para os alunos.

Figura 19. Tela de cadastro da ferramenta auxiliar, prescrio. O usurio preenche as informaes da tela e clica no boto gravar, sendo assim, o registro j estar gravado no banco de dados. Esta ferramenta foi uma alternativa para coletar os dados dos alunos da academia para se obter resultados reais aps o processo de minerao de dados, que possam auxiliar o profissional de educao fsica na tomada de deciso.

47

3.3.1 Normalizao dos dados da aplicao auxiliarComo mencionado no incio do captulo 3, o Sistema de Informao no foi implantado e utilizado pela academia da UNIVALI, com isso, nenhum dado foi armazenado no banco de dados do Sistema de Informao. Mediante esta situao, uma alternativa para a coleta de dados foi criada, foi desenvolvida uma ferramenta auxiliar para cadastro de alunos, a qual ir armazenar os dados dos alunos em seu banco de dados. O banco de dados desta ferramenta auxiliar ser utilizado como fonte de dados para alimentar um DW auxiliar, que servir como estudo de caso, possibilitando extrair conhecimento com dados reais que permitir auxiliar o profissional de educao fsica na tomada de deciso. As variveis que compem o DW auxiliar contm as mesmas variveis selecionadas do SIAMU, com o acrscimo de mais algumas variveis que foram solicitadas pelo especialista, que so: Horrio: refere-se ao turno em que o aluno freqenta a academia, no banco de dados da

ferramenta auxiliar possui os valores matutino, vespertino e noturno, e assumir respectivamente os valores 1,2 e 3; Semestre: indica o semestre em que o aluno se matriculou na academia, possui os

valores primeiro e segundo, a assumir os valores 1 e 2 respectivamente; Ms: indica o ms que o aluno se matriculou na academia, possui o intervalo de valores

entre 1 e 12 e assumir os mesmos valores no DW auxiliar; Dias da semana: referente aos dias da semana em que o aluno pratica atividade fsica na

academia, dividido em: segunda, tera, quarta, quinta, sexta e sbado, que assumiram os valores sim ou no no DW auxiliar; A estrutura do DW foi criada com o banco de dados MySQL, e pode ser visualizada logo abaixo como mostra a Figura 20.

48

Figura 20. Estrutura do DW auxiliar criado.

3.4 FUNCIONAMENTO DA MD NAS APLICAESCom o objetivo de proporcionar ao leitor deste trabalho o melhor entendimento do uso do sistema proposto, nesta sesso, so apresentados os passos para a utilizao do sistema, baseados nas telas desenvolvidas no projeto, conforme segue. Para iniciar o sistema, o usurio dever efetuar o login (Figura 21). O login apenas para restringir a utilizao do sistema por pessoas alheia, sendo verificado atravz de uma senha padro fornecida para o usurio do sistema.

Figura 21. Tela de login.

49

Tendo efetuado o login com sucesso, ser exibida a tela principal do sistema com as duas opes disponveis, atualizar DataWarehouse e minerao de dados. No primeiro momento o usurio dever selecionar a opo Atualizar Data Warehouse, que ir consultar os dados na base de dados do SIAMU, aplicando um pr-processamento nos dados e eliminando possveis dados invlidos ou nulos, normalizando esses dados, depois ser exibida a tela de mensagem padro (Figura 22).

Figura 22. Tela de mensagem padro. Se a operao de atualizao do DW foi executada corretamente, o sistema apresentar uma mensagem de confirmao, caso contrrio, uma mensagem de erro. Suponhamos que a operao tenha sido executada com sucesso, o usurio clica no boto ok e volta tela principal. A partir deste momento o sistema j pode efetuar a operao de minerao de dados. O usurio seleciona a opo minerao de dados, o sistema apresenta a tela de minerao de dados com suas opes (Figura 23).

50

Figura 23. Tela de minerao de dados. O usurio seleciona o tipo de tarefa e variveis que desejar. Dependendo do tipo de tarefa que o usurio seleciona, algumas variveis no sero disponibilizadas, pois cada algoritmo processa tipos diferentes de dados. Logo aps, o usurio seleciona a opo gerar arquivo ARFF, ento o sistema verifica qual a tarefa de minerao e quais as variveis de interesse foram selecionadas, para a partir disto gerar o arquivo arff para a minerao de dados. Aps executar este passo, o usurio seleciona a opo minerar, ento o sistema inicia o processo de minerao de dados e apresenta a tela de visualizao com o conhecimento extrado. O conhecimento extrado apresentado inicialmente pelo sistema no simples de compreender, nem a maneira mais desejvel, o usurio pode optar por uma melhor visualizao, escolhendo a opo visualizar na tela de visualizao (Figura 24).

51

Figura 24. Tela de visualizao do conhecimento. O usurio seleciona o modo de visualizao que desejar e clica em visualizar, o sistema apresenta o conhecimento em um formato de texto, facilitando a interpretao do conhecimento extrado. Entretanto, a MD realizada nesse momento utilizando a base de dados do SIAMU no traz resultados relevantes, porque os dados so fictcios. Contudo, a aplicao proposta neste TCC estar apta utilizao das informaes contidas na base de dados do mesmo.

3.5 MODELAGEM DO SISTEMAA modelagem do sistema foi realizada utilizando a UML (Unified Modeling Language), foi utilizada a ferramenta Enterprise Architect na diagramao e na especificao de requisitos. Foram elaborados diagramas de Caso de Uso e prottipos das telas. Essa modelagem vlida para as duas aplicaes, a diferena entre as duas est na tela de minerao de dados, onde a aplicao que

52

consulta a base de dados auxiliar possui uma variao das variveis de interesse como mostra a Figura 27.

Figura 25. Tela de minerao de dados auxiliar. Nesta seo apresentada parte da descrio dos diagramas. A descrio completa est contida no Apndice A.

3.5.1 Levantamento de RequisitosO levantamento de requisitos a etapa de compreenso do problema aplicada ao desenvolvimento de software. Os requisitos so uma descrio das necessidades do sistema que se pretende construir, nesta fase o objetivo identificar e documentar o que realmente necessrio, com uma

53

comunicao clara que seja compreendida ao cliente e as pessoas envolvi