Descrição de ConceitosCaracterização e Comparação
XXX
Descrição de Conceitos: Caracterização e Comparação
• O que é Descrição de Conceitos?
• Caracterização baseada em generalização e resumo
• Análise da relevância de atributos
• Comparação de Classes: Discriminação entre
diferentes classes
• Estatística Descritiva em grandes bases de dados
• Discussão
O que é Descrição de Conceitos
• Mineração Descritiva versus Mineração Preditiva– Mineração Descritiva: descreve conceitos ou conjuntos de
dados relevantes de forma concisa, resumida, informativa, discriminante
– Mineração Preditiva: Baseado nos dados constroem-se modelos para a previsão das tendências e das propriedades de dados desconhecidos
• Descrição de Conceitos: – Caracterização: fornece um sumário conciso e suscinto da
coleção de dados – Comparação: fornece as descrições que comparam duas ou
mais coleções dos dados
Descrição de Conceitos vs. OLAP
• Descrição de Conceitos: – pode manipular atributos complexos bem como
suas agregações– um processo mais automatizado
• OLAP: – Restrito a um número pequeno de dimensões e
aos atributos de tipo medida– Processo controlado pelo usuário
Descrição de Conceitos: Caracterização e Comparação
• O que é Descrição de Conceitos?
• Caracterização baseada em generalização e resumo
• Análise da relevância de atributos
• Comparação de Classes: Discriminação entre
diferentes classes
• Estatística Descritiva em grandes bases de dados
• Discussão
Caracterização baseada em Generalização e Sumário
• Generalização– Um processo que abstraia um grande conjunto de dados
relevantes em uma base de dados, de níveis conceptuais baixos para mais elevados
– Abordagens:
• Abordagem Cubo de dados (Abordagem OLAP)
• Abordagem indução orientada atributo
1
2
3
4
5Níveis conceptuais
Caracterização: Abordagem Cubo de Dados
• Realiza os cálculos e armazena os resultados em cubos de dados
• Vantagens– Implementação eficiente da generalização de dados
– Cálculo de vários tipos de medidas• e.g., count( ), sum( ), average( ), max( )
– A generalização e a especialização podem ser executados em um cubo dos dados pelo roll-up e pelo drill-down
• Limitações– Manipula apenas dados não numéricos e de medidas de valores
agregados numéricos simples.
– falta da análise inteligente, não pode dizer que dimensões devem ser usadas e que nível de generalização deve ser alcançado
Indução Atributo-Orientada
• Não se restringe a dados categóricos ou a medidas particulares.
• Como é feito?– Colete o conjunto de dados relevantes ( relação inicial) a
partir de uma interrogação de uma base de dados relacional
– Execute a generalização pela remoção de atributo ou pela generalização de atributo.
– Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas.
– Apresentação interativa com usuários.
Exemplo
• DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de dados Big-Universityuse Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place,
birth_date, residence, phone#, gpafrom studentwhere status in “graduate”
• Interrogação SQl Correspondente:Select name, gender, major, birth_place, birth_date,
residence, phone#, gpafrom studentwhere status in {“Msc”, “MBA”, “PhD” }
Princípios Básicos da Indução Atributo-Orientada
• Focalização dos Dados: conjunto de dados relevantes, incluindo as dimensões, e o resultado na relação inicial
• Remoção de Atributo: remove atributo A se existe um conjunto grande de valores distintos de A mas (1) não há operador de generalização em A, ou (2) Conceitos superiores a A são expressos em termos de outros atributos.
• Generalização de Atributos: se existe um conjunto grande de valores distintos de A, e se existe um conjunto de operadores de generalização em A, então selecione um operador e generalize A.
• Controle Atributo-Limiar: tipicamente 2-8, especificado/automático.
• Controle pelo limiar da relação generalizada: tipicamente 10-30, especificado/automático.
ExemploName Gender Major Birth-Place Birth_date Residence Phone # GPA
Jim Woodman
M CS Vancouver,BC,Canada
8-12-76 3511 Main St., Richmond
687-4598 3.67
Scott Lachance
M CS Montreal, Que, Canada
28-7-75 345 1st Ave., Richmond
253-9106 3.70
Laura Lee …
F …
Physics …
Seattle, WA, USA …
25-8-70 …
125 Austin Ave., Burnaby …
420-5232 …
3.83 …
Removido Conservado
Sci,Eng,Bus
Country Age range City Removido Excl, VG,..
Gender Major Birth_region Age_range Residence GPA Count
M Science Canada 20-25 Richmond Very-good 16 F Science Foreign 25-30 Burnaby Excellent 22 … … … … … … …
Birth_Region
GenderCanada Foreign Total
M 16 14 30
F 10 22 32
Total 26 36 62
RelaçãoGeneralizada
RelaçãoInicial
Algoritmo Básico para a Indução Atributo-Orientada
• InitialRel: Processamento da interrogação do conjunto de dados relevantes para a obtenção da relação inicial
• PreGen: Baseado no número de valores distintos em cada atributo, estabelecer o plano para cada atributo: remoção? ou a que nível generalizar?
• PrimeGen: Baseado na etapa PreGen, realizar a generalização no nível correto e obter a “relação generalizada de referência”, acumulando as contagens.
• Presentation: Interação com o usuário: (1) ajustar os níveis via drilling, (2) giro, (3) associação à regras, tabelas cruzadas, apresentação visual.
Apresentação dos Resultados da Generalização
• Relações Generalizadas: – Relações em que alguns ou todos os atributos são generalizados, com as
contagens ou outros agregados acumulados.
• Tabelas cruzadas:– Mapear os resultados na forma de tabelas cruzadas.
– Técnicas de Visualização:
– Gráfico de setores, gráfico de barras, curvas, cubos, etc.
• Regras características quantitativas:– Mapear os resultados em regras características com informação
quantitativa associada, exemplo,
.%]47:["")(%]53:["")()()(
toestrangeirxnascimentotCanadaxnascimentoxmasculinoxpos
Apresentação—Relação Generalizada
Apresentação—Tabelas Cruzadas
Descrição de Conceitos: Caracterização e Comparação
• O que é Descrição de Conceitos?
• Caracterização baseada em generalização e resumo
• Análise da relevância de atributos
• Comparação de Classes: Discriminação entre
diferentes classes
• Estatística Descritiva em grandes bases de dados
• Discussão
Análise da Relevância de Atributos
• Porque?– Que dimensões devem ser incluídas?
– Qual nível de generalização?
– Automático vs. interativo
– Redução do # atributos; mais fácil a compreensão dos padrões
• Princípios– Métodos estatísticos para o pré-processamento dos dados
• Filtragem dos atributos irrelevantes ou pouco relevantes
• Retenção e ordenação dos atributos relevantes
– Relevância relacionada as dimensões e aos níveis
– Caracterização analítica, comparação analítica
Análise da Relevância de Atributos
• Como?– Coleta de Dados
– Generalização Analítica• Usar o ganho de informações (ex., entropia ou outras medidas)
para identificar dimensões e níveis altamente relevantes.
– Análise de Relevância• Ordenar e selecionar as dimensões e níveis mais importantes.
– Indução Orientada Atributo para a descrição de classes• Nas dimensões/níveis selecionados
Medidas de Relevância
• As medidas de relevância avaliam o poder classificatório de um atributo em um conjunto de dados.
• Métodos– Ganho de informação (ID3)– Razão de ganho (C4.5)– Índice de gini– Etc.
Entropia e Ganho de Informação
• S contem si tuples da classe Ci for i = {1, …, m} • Informação requerida para classificar qualquer tupla
arbitraria
• Entropia do atributo A com valores {a1,a2,…,av}
• Informação ganha ao ramificar no atributo A
s
slog
s
s),...,s,ssI(
im
i
im21 2
1
)s,...,s(Is
s...sE(A) mjj
v
j
mjj1
1
1
E(A))s,...,s,I(sGain(A) m 21
Exemplo: Caracterização Analítica
• Tarefa– Minerar características gerais de estudantes de pós-
graduação usando caracterização analítica
• Dado– atributos name, gender, major, birth_place, birth_date,
phone#, e gpa– Gen(ai) = hierarquias de conceito em ai
– Ui = limiar analítico de atributo para ai
– Ti = limiar para generalização de atributo para ai
– R = limiar de relevância de atributo
Exemplo (Cont.)
• 1. Coleta de Dados– Classe alvo: estudantes de pós– Classe de contraste: estudantes de graduação
• 2. Generalização analítica usando Ui
– Remoção de atributos• Remoção de name e phone#
– Generalização de atributos• generalização de major, birth_place, birth_date and gpa• Contagens acumuladas
– Relação candidata: gender, major, birth_country, age_range and gpa
Exemplo (cont.)gender major birth_country age_range gpa count
M Science Canada 20-25 Very_good 16
F Science Foreign 25-30 Excellent 22
M Engineering Foreign 25-30 Excellent 18
F Science Foreign 25-30 Excellent 25
M Science Canada 20-25 Excellent 21
F Engineering Canada 20-25 Excellent 18
Relação candidata para a classe alvo: Estudantes de Pós (=120)
gender major birth_country age_range gpa count
M Science Foreign <20 Very_good 18
F Business Canada <20 Fair 20
M Business Canada <20 Fair 22
F Science Canada 20-25 Fair 24
M Engineering Foreign 20-25 Very_good 22
F Engineering Canada <20 Excellent 24
Relação candidata para a classe de contraste: Estudantes de graduação (=130)
Exemplo (cont.)
• 3. Análise de Relevância– Cálculo da informação requerida para classificar uma
tupla arbitrária
– Cálculo da entropia de cada atributo: ex. principal
99880250
130
250
130
250
120
250
120130120 2221 .loglog),I()s,I(s
For major=”Science”: S11=84 S21=42 I(s11,s21)=0.9183
For major=”Engineering”: S12=36 S22=46 I(s12,s22)=0.9892
For major=”Business”: S13=0 S23=42 I(s13,s23)=0
Numero de estudantes de pós em “Ciências”
Número de estudantes de graduação em “Ciências”
Exemplo (cont.)
• Cálculo da informação esperada requerida para classificar uma dada amostra se S for particionado segundo o atributo
• Cálculo do ganho de informação para cada atributo
– Ganho de informação de todos os atributos
78730250
42
250
82
250
126231322122111 .)s,s(I)s,s(I)s,s(IE(major)
2115021 .E(major))s,I(s)Gain(major
Gain(gender) = 0.0003
Gain(birth_country) = 0.0407
Gain(major) = 0.2115
Gain(gpa) = 0.4490
Gain(age_range) = 0.5971
Exemplo (cont.)
• 4. Derivação da relação inicial de trabalho (W0) – R = 0.1
– Remoção de atributos irrelevantes ou pouco relevantes da relação candidato => remover gender, birth_country
– Remoção da relação candidato classe de contraste
• 5. Realizar Indução Orientada Atributo em W0 usando Ti
major age_range gpa count
Science 20-25 Very_good 16
Science 25-30 Excellent 47
Science 20-25 Excellent 21
Engineering 20-25 Excellent 18
Engineering 25-30 Excellent 18
Relação inicial de trabalho da classe alvo W0: Estudantes de pós
Descrição de Conceitos: Caracterização e Comparação
• O que é Descrição de Conceitos?
• Caracterização baseada em generalização e resumo
• Análise da relevância de atributos
• Comparação de Classes: Discriminação entre
diferentes classes
• Estatística Descritiva em grandes bases de dados
• Discussão
Mineração da Comparação de Classes
• Comparação: Comparação de duas ou mais classes.• Método:
– Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s)
– Generalize ambas as classes nos mesmos níveis superiores de conceitos
– Compare tuplas de mesmo nível superior de descrição– Apresente para cada tupla a sua descrição e duas medidas:
• suporte – distribuição na classe isolada• comparação – distribuição entre as classes
– Destaques as tuplas com características discriminantes fortes• Análise de Relevância:
– Encontre atributos que melhor distinguem diferentes classes.
Exemplo
• Tarefa– Comparar estudantes de pós e de graduação usando regras
discriminantes.
– Interrogação DMQL
use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student
Exemplo (cont.)
• Dado– atributos name, gender, major, birth_place,
birth_date, residence, phone# e gpa
– Gen(ai) = hierarquias de conceitos nos atributos ai
– Ui = limiar analítico de atributo para ai
– Ti = limiar para generalização de atributo para ai
– R = limiar de relevância de atributo
Exemplo (cont.)
• 1. Coleta de dados– Classes alvo e contraste
• 2. Análise da Relevância de Atributos– Remoção dos atributos name, gender, major, phone#
• 3. Generalização sincronizada– Controlada pelos limiares de dimensão especificados pelo
usuário
Exemplo (cont.)Birth_country Age_range Gpa Count%
Canada 20-25 Good 5.53%
Canada 25-30 Good 2.32%
Canada Over_30 Very_good 5.86%
… … … …
Other Over_30 Excellent 4.68%
Relação Generalizada Para a Classe Alvo: Estudantes de Pós
Birth_country Age_range Gpa Count%
Canada 15-20 Fair 5.53%
Canada 15-20 Good 4.53%
… … … …
Canada 25-30 Good 5.02%
… … … …
Other Over_30 Excellent 0.68%
Relação Generalizada para a Classe de Contraste: Estudantes de Graduação
Exemplo (cont.)
• 4. Apresentação– Como relações generalizadas, tabelas cruzadas,
gráfico de barras, gráfico de setores, ou regras– Medidas de contraste para refletir a comparação
entre as classes alvo e de contraste• ex. contagem%
Regras Discriminantes
• Cj = Classe alvo
• qa = a generalização de uma tupla cobre algumas tupas da classe alvo– Mas também pode cobrir algumas da classe de contraste
• d-weight– range: [0, 1]
• Forma de uma regra discriminante quantitativa
m
a
a
)count(q
)count(qweightd
1i
i
j
C
C
d_weight]:[dX)condition(ss(X)target_claX,
Exemplo
• Regra discriminante quantitativa
– onde 90/(90+120) = 30%
Status Birth_country Age_range Gpa Count
Graduate Canada 25-30 Good 90
Undergraduate Canada 25-30 Good 210
Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla generalizada
%]30:["")("3025")(_"")(_
)(_,
dgoodXgpaXrangeageCanadaXcountrybirth
XstudentgraduateX
Descrição de uma Classe
• Regras características quantitativas
– Condição necessária
• Regra discriminante quantitativa
– Condição suficiente
• Regra de descrição quantitativa
– Condição necessária e suficiente
]w:d,w:[t...]w:d,w:[t nn111
(X)condition(X)condition
ss(X)target_claX,
n
d_weight]:[dX)condition(ss(X)target_claX,
t_weight]:[tX)condition(ss(X)target_claX,
Exemplo
• Regra de descrição quantitativa para classe alvo Europa
Location/item TV Computer Both_items
Count t-wt d-wt Count t-wt d-wt Count t-wt d-wt
Europe 80 25% 40% 240 75% 30% 320 100% 32%
N_Am 120 17.65% 60% 560 82.35% 70% 680 100% 68%
Both_ regions
200 20% 100% 800 80% 100% 1000 100% 100%
Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs e computadores vendidos em AllElectronics em 1998
30%]:d75%,:[t40%]:d25%,:[t )computer""(item(X))TV""(item(X)
Europe(X)X,
Descrição de Conceitos: Caracterização e Comparação
• O que é Descrição de Conceitos?
• Caracterização baseada em generalização e resumo
• Análise da relevância de atributos
• Comparação de Classes: Discriminação entre
diferentes classes
• Estatística Descritiva em grandes bases de dados
• Discussão
Mineração das Características de dispersão dos Dados
• Motivação– Para compreender melhor os dados: tendência central, variação e
espalhamento
• Características de tendência central e de dispersão – Média, mediana, max, min, quantis, variância, etc.
• Dimensões numéricas corresponde aos intervalos ordenados– Dispersão dos dados: analisado com múltiplas granularidades de
precisão
– Análise de Boxplot ou quantl nos intervalos ordenados
• Análise de dispersão em medidas calculadas– Análises Boxplot ou quantl no cubo transformado
Medidas de Tendência Central
• Media
– Média aritmética ponderada
• Mediana: medida holística
– Valor na posição média se o número de valores é par, ou média dos
valores de posição média senão
– Estimação via interpolação
• Moda
– Valor mais frequente nos dados
– Unimodal, bimodal, trimodal
– Formula empírica:
n
iix
nx
1
1
n
ii
n
iii
w
xwx
1
1
cf
lfnLmediana
mediana
))(2/
(1
)(3 medianmeanmodemean
Medidas de dispersão
• Quartis, outliers e boxplots
– Quartils: Q1 (25o percentil), Q3 (75o percentil)
– Amplitude Inter-quartil: IQR = Q3 – Q1
– Resumo cinco números: min, Q1, Mediana, Q3, max
– Boxplot: nas extremidades da caixa estão os quartis, a mediana é a
linha central, extremos, e plota individualmente os outliers
– Outlier: usualmente, um valor maior/menor do que 1.5 x IQR
• Variancia e Desvio-padrão– Variancia s2: (algebraica, cálculo escalável)
– Desvio padrão s é a raiz quadrada da variância s2
n
i
n
iii
n
ii x
nx
nxx
ns
1 1
22
1
22 ])(1
[1
1)(
1
1
Análise com Boxplot
• Sumário cinco números de uma distribuição:Mínimo, Q1, Mediana, Q3, Maximo
• Boxplot– No inicio e no final da caixa estão o primeiro e o
terceiro quartil: a altura da caixa é o IRQ– A mediana é destacada por uma linha dentro da
caixa– Extremos: duas linhas fora da caixa destacam o
mínimo e o máximo
Um Boxplot
Um boxplot
Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados
• Variância
• Desvio padrão: raiz quadrada da variância– Mede a dispersão em torno da média
– É zero se e somente se todos os valores são iguais
– Tanto o desvio quanto a variância são algebraicos
22
1
22 11
1)(
11
ii
n
ii x
nx
nxx
ns
Análise de Histograma
– Histograma de freqüências • Método gráfico univariado
• Consiste em um conjunto de retângulos justapostos que refletem a freqüência das classes presentes nos dados
Diagrama Quantil
• Mostra todos os dados (permite ao usuário acessar tanto o comportamento global como as ocorrências não usuais)
• Diagrama quantil– Para os xi classificados em ordem crescente, fi indica que
aproximadamente 100 fi% dos datas são menores ou iguais a xi
Diagrama Quantil-Quantil (Q-Q)
• Mostra os quantis de uma distribuição univariada contra os correspondentes quantis de uma outra
• Permite que o usuário veja se há um deslocamento ao ir de uma distribuição a outra
Diagrama de Dispersão
• Fornece uma primeira visão de dados bi-variados para identificar clusters de pontos, outliers, etc
• Cada par de valores é tratado como um par de coordenadas e desenhado como pontos no plano
Curva de Loess
• Adiciona uma curva suave em um diagrama de dispersão para fornecer uma melhor percepção dos padrões de dependência
• Uma Curva de Loess é ajustada pelo controle de dois parâmetros: um parâmetro de suavização, e o grau dos polinômios que serão ajustados via regressão
Descrição de Conceitos: Caracterização e Comparação
• O que é Descrição de Conceitos?
• Caracterização baseada em generalização e resumo
• Análise da relevância de atributos
• Comparação de Classes: Discriminação entre
diferentes classes
• Estatística Descritiva em grandes bases de dados
• Discussão
Indução Orientada-Atributo vs Aprendizagem à partir de exemplos
• Diferenças na filosofia e nas suposições básicas– Aprendizagem à partir de exemplos: exemplos positivos
usados para a generalização e negativos para a especialização
– Em mineração apenas exemplos positivos: o drill-down retorna a generalização à um estado prévio
• Diferenças no tamanho do conjunto de treinamento
• Diferença nos métodos de generalização– Aprendizagem de máquina generaliza na base tupla por
tupla
– Mineração generaliza na base atributo por atributo
Mineração Incremental e Paralela para a Descrição de Conceitos
• Mineração Incremental: revisão baseada em dados recentemente adicionados DB– Generalize DB no mesmo nível de abstração da relação
generalizada R para obter R
– União R U R, i.e., fusionar a contagem e as outras estatísticas para produzir uma nova relação R’
• Filosofia similar pode ser aplicada a amostragem de dados, mineração paralela e/ou distribuída, etc.
Top Related