Interfaces para interpretação e Interfaces para interpretação e divulgação do conhecimento divulgação do conhecimento
descoberto descoberto
Cícero Barbosa LimaAna Emilia de Melo Queiroz
RoteiroRoteiro Tipos de interfaces: tabelas, diagramas, gráficos 2D,
gráficos 3D, hipertexto Abrangência e interatividade da interface do usuário
de um ambiente de descoberta de conhecimento Apresentação de caracterização e comparação de
conceito por indução orientada a atributo Apresentação de caracterização e comparação de
dados e conceitos por distribuição estatístico Apresentação de caracterização e comparação de
conceitos por visualização multidimensional Apresentação de classificação por indução de árvore
de decisão Apresentação dados excepcionais em conjuntos de
dados multidimensionais Demo do DBMiner (mpss)
Proporção por sentido de Proporção por sentido de informação sensorial nos seres informação sensorial nos seres
humanoshumanos
Sentido Porcentagem
Gosto 1%
Tato 1,35%
Olfato 3,5%
Audição 11%
Visão 83%
Tipos de interfaces: tabelas, diagramas, Tipos de interfaces: tabelas, diagramas, gráficos 2D, gráficos 3D, hipertextográficos 2D, gráficos 3D, hipertexto
Birch Beer, with a 42% national increase from September to October;
Abrangência e interatividade da interface Abrangência e interatividade da interface do usuário de um ambiente de do usuário de um ambiente de descoberta de conhecimentodescoberta de conhecimento
Permite análise exploratória visual• Dos dados de entrada• Dos conhecimentos de saída. • Do conhecimento prévio e viés de aprendizagem.• Das representações intermediárias (rastreamento) usadas
pelo algoritmo de mineração. Permite especificar visualmente tarefas de KDD
• Para todos os passos do processo de KDD• Compor tarefas elementares arbitrariamente via GUI
Abrangência e interatividade da interface Abrangência e interatividade da interface do usuário de um ambiente de do usuário de um ambiente de descoberta de conhecimentodescoberta de conhecimento
Linguagens de consulta para mineração de dados fornece primitivas que permitem comunicação com o sistema• Apresenta dificuldade de uso para usuários inexperientes• Pode ser usada para implementação de GUIs para efetiva
mineração de dados Componentes funcionais do GUI de mineração de
dados:• Composição de query data mining• Apresentação de padrões descobertos• Especificação e manipulação de hierarquia• Manipulação de primitivas data mining• Mineração interativa multinivel
Indução Orientada a atributoIndução Orientada a atributo Descição de conceitos: Caracterização e
Comparação– Caracterização: fornece um sumário conciso e suscinto da
coleção de dados: Abordagem indução orientada atributo.
• Não se restringe a dados categóricos ou a medidas particulares.• Como é feito?• Colete o conjunto de dados relevantes ( relação inicial) a partir de uma
consulta a uma base de dados relacional• Execute a generalização pela remoção de atributo ou pela generalização de
atributo.• Aplique a agregação fundindo tuplas generalizadas idênticas e acumule
suas contagens respectivas.• Apresentação interativa com usuários
ApresentaçãoApresentação Caracterização de classes: Um exemplo Caracterização de classes: Um exemplo
Name Gender Major Birth-Place Birth_date Residence Phone # GPA
JimWoodman
M CS Vancouver,BC,Canada
8-12-76 3511 Main St.,Richmond
687-4598 3.67
ScottLachance
M CS Montreal, Que,Canada
28-7-75 345 1st Ave.,Richmond
253-9106 3.70
Laura Lee…
F…
Physics…
Seattle, WA, USA…
25-8-70…
125 Austin Ave.,Burnaby…
420-5232…
3.83…
Removed Retained Sci,Eng,Bus
Country Age range City Removed Excl,VG,..
Gender Major Birth_region Age_range Residence GPA Count M Science Canada 20-25 Richmond Very-good 16 F Science Foreign 25-30 Burnaby Excellent 22 … … … … … … …
Birth_Region
GenderCanada Foreign Total
M 16 14 30 F 10 22 32
Total 26 36 62
Tabela relacional com atributos generalizados
TabelaRelacional Primitiva
TabelaCruzada
Apresentação de Descrições Apresentação de Descrições GeneralizadasGeneralizadas
Tabela unidimensional
Visualização em tabela bidimensionais
Location Item Sales(in millions dolars) Count(in thousands)
Asia TV 15 300
Europa TV 12 250
North_America TV 28 450
Asia Computer 120 1000
Europa Computer 150 1200
North_America Computer 200 1800
Location\item TV Computer Both_itens
Sales Count Sales Count Sales count
Asia 15 300 120 1000 135 1300
Europe 12 250 150 1200 162 1450
North_america 28 450 200 1800 228 2250
All_regions 55 1000 470 4000 525 5000
Comparação de conceitos por indução Comparação de conceitos por indução orientado a atributosorientado a atributos
Comparação: Comparação de duas ou mais classes. Método: – Partição do conjunto de dados relevantes em classe alvo e
classe(s) de contraste(s)– Generalize ambas as classes nos mesmos níveis superiores de
conceitos– Compare tuplas de mesmo nível superior de descrição– Apresente para cada tupla a sua descrição e duas medidas:
• suporte – distribuição na classe isolada• comparação – distribuição entre as classes
– Destaques as tuplas com características discriminantes fortes Apresentação:Como relações generalizadas, tabelas cruzadas,
gráfico de barras, gráfico de setores, ou regras
Example: Comparação analíticaExample: Comparação analítica Tarefa
• Comparar os alunos de graduação com os da pos graduação usando regras discriminates
• DMQL query
use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student
Birth_countryAge_rangeGpa Count%Canada 20-25 Good 5.53%Canada 25-30 Good 2.32%Canada Over_30 Very_good5.86%… … … …Other Over_30 Excellent 4.68%
Birth_countryAge_rangeGpa Count%Canada 15-20 Fair 5.53%Canada 15-20 Good 4.53%… … … …Canada 25-30 Good 5.02%… … … …Other Over_30 Excellent 0.68%
Relação Generalizada Para a Classe Alvo: Estudantes de Pós
Relação Generalizada para a Classe de Contraste: Estudantes de Graduação
Apresentação de caracterização Apresentação de caracterização estatística de dados:estatística de dados: tendência centraltendência central
Medidas agregando dados em uma quantidade única caracterizando-os:• ocorrencias• soma (total)• maximo• minimo• média• mediana• mode
Apresentação de caracterização Apresentação de caracterização estatística de dados: estatística de dados: dispersãodispersão
Quartiles, Outliers, Boxplot• Um conjunto de itens vendidos
40
43
47
..
74
75
78
...
115
117
120
275
300
250
...
360
515
540
...
320
270
350
Preço da unidade
Número de itens vendidos
Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas
básicasbásicas Outros gráficos para para mostrar dados sumarizados(summaries) e
distribuições. Nestes estão incluídos Histogramas , quantile plots, q-q plots, scatter plots, and loess curves.
Histogramas: Consiste de um conjunto de retângulos que reflete o número ou freqüências de classes em um conjunto de dados.
Quantile plot é um simples e efetivo meio de ter uma primeira visão da univariância da distribuição de dados.
Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas
básicas básicas
Quantile-Quantile plot (q-q plot) permite o usuário visualizar a dispersão entre duas distribuições
Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas
básicas básicas
Scatter plot é uma dos métodos gráficos mais efetivos para determinar se existe uma relação, padrão ou tendência entre duas variáveis quantitativas.
Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas
básicas básicas
Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas
básicas básicas
Loess curve é um gráfico exploratório que adiciona uma curva suave ao Scatter plot para melhorar a percepção dos padrões de dependência.
Apresentação de caracterização e Apresentação de caracterização e comparação de conceitos por comparação de conceitos por vizualização multidimensionalvizualização multidimensional
A visualização interativa é uma poderosa ferramenta na seleção de atributos e na detecção de outlier.
Em situações reais de mineração de dados existe uma grande quantidade para visualizar simultaneamente e não existe nenhuma alternativa de algoritmo para automatizar a seleção dos atributos.
2 4 6
Íris setosaÍris versicolorÍris virginica
Representação em uma dimensão
Petal length
Apresentação de caracterização e Apresentação de caracterização e comparação de conceitos por comparação de conceitos por visualização multidimensionalvisualização multidimensional
Íris setosaÍris versicolorÍris virginica
Representação em duas dimensão
Peta
l len
gth
6
4
2
Petal width1 2 3
• Adicionando um novo atributo
Apresentação de árvore de decisãoApresentação de árvore de decisão Visualizando dados de saída (Conhecimento) Um exemplo seria arvore de decisão que é uma representação
gráfica do conhecimento descoberto.
Demo do DBMinerDemo do DBMiner
Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados
Motivação:• Crescente demanda de armazenamento de
grandes quantidades de dados de alta dimensionalidade
• Necessidade de analisar e descobrir informações úteis dos dados armazenados
• Apresentação textual é impraticável para grande quantidades de dados
• “Gap” cada vez maior entre os dados que precisam ser visualizados e os dados que de fato podem ser visualizados
A técnica:• São definidas regiões dentro do espaço multidimensional,
onde só os itens que pertencem a estas regiões são apresentados
• A pertinência é determinada por uma função distância para cada dimensão
• As diferentes dimensões são mapeadas em cores
• Os pontos são ordenados e dispostos na tela na forma de um espiral retangular
Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados
Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados
A coloração de cada ponto, dependera da distância ao centro da dimensão em foco
A variação das cores é entre crominância e luminância
Alternativa 1: organização dos dados em 2-D• São determinados os atributos para os eixos e a distribuição
de acordo com a direção da função distância• Vantagens: melhor para dados que tem a idéia inerente de
2-D
Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados
Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados
Desvantagem: pode causar má distribuição dos dados apresentados, deixando algumas áreas vazias
Alternativa 2: agrupando as dimensões para cada item de dado• Apresenta todas as dimensões juntas numa mesma área (uma única janela)
Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados
Mineração de OutliersMineração de Outliers Pode ser dividido em
2 subproblemas:1. Definir quais dados
são aberrantes2. Definir método
eficiente para encontrar tais aberrações
3. Aberrante sempre com referência a algum padrão
Métodos de detecção:• Semi-automático:
Visualização• Automático
Estatística Distância Desvio
Observação:• Usuário tem que
checar se os outliers descobertos são realmente outliers.
Apresentação dados excepcionais em Apresentação dados excepcionais em conjuntos de dados multidimensionais conjuntos de dados multidimensionais via GUIvia GUI
Exemplo de visualização de GUI
Last year, the most atypical sales variations from one month to the next occurred for: Birch Beer, with a 42% national increase from September to October; Diet Soda, with a 40% decrease in the Eastern region from July to August.At the level of idiosyncrasy came: Cola’s Colorado sales, falling 40% from July to August and then a further 32% from September to October; again Diet Soda Eastern sales, falling 33% from September to October.Less aberrant but still notably atypical were: again nationwide Birch Beer sales’ -12% from June to July and -10% from November to December; Cola sales 11% fall from July to August in the Central region and 30% dive in Wisconsin from August to September; Diet Soda sales’ 19% increase in the Southern Region from July to August, followed by its two opposite regional variations from August to September, +10% in the East but -17% in the West; national Jolt Cola sales’ +6% from August to SeptemberTo know what makes one of these variations unusual in the context of this year’s sales, click on it.
Apresentação dados excepcionais em Apresentação dados excepcionais em conjuntos de dados multidimensionais conjuntos de dados multidimensionais via via
hipertextohipertexto
Vantagens de texto x gráficosVantagens de texto x gráficos O texto é familiar e mais intuitivo, considerando que o usuário
final tenha pouco conhecimento em matemática. A linguagem natural pode ser mais clara para fazer analise em
muitas dimensões. • Ex. : “Cola promotional sales’ 20% increase from July to August constituted a strong
exception” A língua natural pode comunicar um único fato interessante de
maneira isolada, facilitando e simplificando o entendimento.• Ex.:“Cola sales peaked at 40% in July".
Pode mais livremente misturar quantitativo e qualitativo, que muitas vezes não é transmitido de maneira intuitiva por tabelas e gráficos
Vantagens de hipertexto x textoVantagens de hipertexto x texto
Evita o problema de eliminar algumas informações( dilema da sumarização).
Se os link forem numerosos os leitores com diferentes interesses podem seguir diferentes formas de navegação dentro de um único sumário hipertextual.
Uma outra vantagem é que as figuras podem ser hipertextuais.
Hipertexto seguindo estratégia Hipertexto seguindo estratégia alternativaalternativa
de apresentação de apresentação Last year, there was 13 exceptions in the beverage product line. The most striking was Birch Beer’s 42% national fall from Sep to Oct.The remaining exceptions, clustered around four products, were: Again, Birch Beer’s sales accounting for other two national exceptions,
both national slumps: -12% from Jun to Jul and -10% from Nov to Dec; Cola sales accounting for four exceptions, all slumps: two medium
ones in Colorado, -40% from Jul to Aug and -32% from Aug. to Sep; and two mild ones, -11% in Wisconsin from Jul to Aug and -30% in the Central region from Aug to Sep;
Diet Soda accounting for five exceptions:• one strong, -40% in the East from Jul to Aug,• one medium, -33% in the East from Sep to Oct;• and three mild ones: two rises, +19% in the South from Jul to Aug
and +10% in the East from Aug to Sep, and one fall, -17% in Western region from Aug to Sep;
Finally, Jolt Cola’s sales accounting for one mild exception, a national 6% fall from Aug to Sep.
MATRIKS intelligent decision support MATRIKS intelligent decision support systemsystem
TransactionalRelationalDatabase
AnalyticalMultidimensionalData Warehouse
OLAP ServerData RemodelingCASE Tool
Data Loader & Preprocessor
Data Mining Suite
HYSSOP
Explorationheurtistics &session base
Data Hypercube Exploration Expert System
Log file
HypertextNatural
LanguageExecutiveSummary KDD
ExpertDecisio
nMaker
InformationExtractor
HYSSOP hypertext summary generatorHYSSOP hypertext summary generatorData Hypercube Exploration
Expert System
Hypertext
Planner
Selected pool of data mining annotated cube cells
Executive hypertext summary
Hypertextplans
Content matrix
Factorization matrix
Discourse tree
Natural language web page
Discourse planner
Lexicalized thematic tree
Sentence planner
Lexicalizer
Syntactic realizer
Discourse Strategies
Sentence planning rules
Lexicalization rules
Grammar rules
Referências BibliográficasReferências Bibliográficas Daniel A. Keim, Has-Peter Kriegel: Possibilities and
Limits in Visualizing Large Databases Jacques Robin, Eloi Favero:HYSSOP: Natural Language
Generation Meets Knowledge Discovery in Databases Han & Kamber : Data Mining, Concepts and Techniques Witten & Frank : Data Mining, Pratical Machine Learning
Tools Kurt Thearling, Barry Becker, Dennis DeCoste, Bill
Mawby, Michel Pilote, and Dan Sommerfield:Visualizing Data Mining Models