Mineração de dados e novas oportunidadesde análise para sistemas de informação
Prof. Dalton [email protected] – São Paulo
Depto. de Tecnologia da Informação
14º Congresso de Tecnologia da Fatec São Paulo17/10/2012
O que é mineração de dados?
● É uma tecnologia que combina métodos tradicionais de análise de dados com
algoritmos sofisticados para processar
grandes volumes de dados;
● É também um processo de descoberta de informações úteis em grandes depósitos de dados;
● Também fornece capacidade de previsão do resultado em uma observação futura.
Mineração e descoberta do conhecimento
Pré-processamentode dados
Mineraçãode dados
Pós-processamentode dados
Entrada de dados
Informações
Seleção de recursosRedução de dimensionalidadeNormalizaçãoCriação de subconjuntos de dados
Padrões de filtragemVisualizaçãoInterpretação de padrões
Desafios motivadores
● Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em giga, tera e mesmo petabytes estão se tornando comuns;
● Alta dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de uma década atrás;
● Dados complexos e heterogêneos: diversificação de tipos de atributos e relacionamento entre eles;
● Propriedade e distribuição dos dados: os dados utilizados para análise nem sempre estão mais num mesmo local e pertencem a múltiplas instâncias organizacionais;
● Análises não tradicionais: novas técnicas para validação de hipóteses têm surgido atualmente.
4 principais tarefas da Mineração
● Modelagem de previsão: se refere à tarefa de construir um modelo para a variável alvo como uma função das variáveis explicativas. – Há dois tipos de tarefas de modelagem de previsão:
● Classificação: usada para variáveis discretas;● Regressão: usada para variáveis contínuas.
● Análise de associação: é usada para descobrir padrões que descrevam características altamente associadas dentro dos dados. – Os padrões descobertos são normalmente representados na
forma de regras de implicação ou subconjuntos de características.
4 principais tarefas da Mineração
● Análise de grupo: procura encontrar grupos de observações intimamente relacionadas de modo que observações que pertençam ao mesmo grupo sejam mais semelhantes entre si do que com as que pertençam a outros grupos;
● Detecção de anomalias: é a tarefa de identificar observações cujas características sejam significativamente diferentes do resto dos dados. Tais observações são conhecidas como anomalias ou fatores estranhos.
Conhecimentos de base do minerador de dados
● Banco de dados: SQL e a estruturação de dados de sua análise em bancos facilitam a tarefa e o esforço envolvido na mineração
● Linguagem de scripts: nem sempre conseguimos os dados no formato que precisamos. Muitas vezes, é preciso mexer e transformar as relações com dados. Linguagens como Python, Perl e PHP podem ajudar muito.
● Planilhas: kit básico do minerador. Facilitam gerar gráficos facilmente e calcular dados de base para avaliação do trabalho;
● Estatística: conhecimento fundamental para análise exploratória e testes de validação de hipóteses;
● Softwares de análise: há muitos softwares hoje em dia que podem ajudar no trabalho, facilitando muitos processos de forma automática. Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....
Alguns exemplos de aplicação
● Veremos dois exemplos de aplicação de algumas técnicas de mineração– Análise de visitações e uso de um site na Internet;
– Análise de padrões de comunicação entre educandos num curso de ensino à distância.
Exemplo 1 – siteda tabela ao mapa
Estados Cidades VisitasAC 2 143 1,29 124,62AL 10 6370 1,47 157,44AM 6 2466 0,65 128,16AP 2 349 2,11 250,16BA 34 19046 88,64 1948,3CE 9 18486 2,46 4632,77DF 2 13637 4,04 292,14ES 14 7072 1,99 149,85GO 12 6709 1,39 66,1MA 6 4813 2 140,29MG 54 35851 140,38 2896,88MS 7 1008 304,82 210,5MT 8 4366 2,2 145,97PA 19 4959 1,13 262,06PB 9 7331 1,31 220,72PE 4 9313 1,78 230,99PI 4 5732 2,12 155,19PR 18 12839 2,7 243,79RJ 30 27724 53,97 125,57RN 14 20066 2,79 187,49RO 4 2360 2,98 175,3RS 46 22173 154,41 17959SC 37 13816 2,03 172,01SE 2 2162 2,27 132,24SP 115 73544 40,01 3961,85TO 5 758 3,08 155,2
Média de páginas/visitas
Média de tempo/visita
Exemplo 1 – site - conversações
Exemplo 1 – siteidentificando padrões
Estados Nós Relações Densidade CentralidadeAC 1 0 0 0 0 0AL 4 0 0 0 0 0AM 8 1 0,02 0,07 0,25 1,00AP 1 0 0,00 0,00 0,00 0,00BA 16 0 0,00 0,00 0,00 0,00CE 37 98 0,07 0,25 5,30 3,00DF 26 22 0,03 0,15 1,69 3,00ES 13 0 0,00 0,00 0,00 0,00GO 3 0 0,00 0,00 0,00 0,00MA 6 0 0,00 0,00 0,00 0,00MG 31 21 0,02 0,16 1,35 3,00MS 18 10 0,03 0,14 1,11 2,00MT 9 4 0,06 0,19 0,89 1,00PA 7 0 0,00 0,00 0,00 0,00PB 3 1 0,17 0,25 0,67 1,00PE 6 0 0,00 0,00 0,00 0,00PI 44 49 0,03 0,17 2,23 3,00PR 30 3 0,00 0,05 0,20 2,00RJ 22 1 0,00 0,02 0,09 1,00RN 58 5 0,00 0,03 0,17 2,00RS 138 368 0,02 0,18 5,33 6,00SC 33 9 0,01 0,09 0,55 3,00SP 138 84 0,00 0,10 1,22 5,00RR 3 0 0,00 0,00 0,00 0,00
Grau médio das
relaçõesDistância geodésica
Exemplo 1 – site - RS
Exemplo 1 – site - SP
Exemplo 2 – EAD – padrões de comunicação
Exemplo 2 – entendendo a rede
Nós com mais de 10 conexões.
Exemplo 2 – entendendo a rede
Nós com mais de 15 conexões.
Exemplo 2 – entendendo a rede
Nós com mais de 20 conexões.
Referências
● TAN, Pang-Ning, STEINBACH, Michel, KUMAR, Vipin. Introdução ao Data Mining: mineração de dados. Editora Ciência Moderna. 2009. 900p.
Top Related