Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L...
Transcript of Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L...
Biologia In Silico - Centro de Informática - UFPE
Ivan G. Costa [email protected]
Centro de InformáticaUniversidade Federal de Pernambuco
Classificação Expressão Gênica
Biologia In Silico - Centro de Informática - UFPE
Tópicos
• O que é classificação?• Representação de dados• Visualização• Classificação
– Classificação de câncer– Analise de sobrevivência
Biologia In Silico - Centro de Informática - UFPE
Representação dos Dados Tabela X com N genes X L amostras
proveniente do pré-processamento Valores absolutos (ex. Affymetrix) Valores relativos (ex. CDNA) Podem conter dados faltosos (NA)
Cond A Cond B Cond CGene 1 -1,1 0,1 1,5Gene 2 3,1 3,4 2,1Gene 3 -2,2 -1,9 NA
Cond A Cond B Cond CGene 1 100 200 400Gene 2 2000 2400 1500Gene 3 100 100 50
Biologia In Silico - Centro de Informática - UFPE
Representação de Dados Valores Relativos (razão do log)
Valoriza genes com mesmo padrão de expressão
Baseado no fato de que certos genes são X-vezes mais expressos que outros
Valores Absolutos Valoriza genes com mesmos valores de
expressão Mantêm informação se expressão média
é baixa ou alta
Biologia In Silico - Centro de Informática - UFPE
Visualização I
Amostras
Gen
es
Gráficos Red-greenQualquer cores
(vermelho/azul)Escala logarítmica
Colunas/linhas são ordenadas para ter vizinhos similaresTree-leave ordering (Bar-
Joseph)Estatísticas de expressão
diferencial (t-score)
Biologia In Silico - Centro de Informática - UFPE
Visualização I
Amostras
Gen
es
Gráficos Red-green Qualquer cores
(vermelho/azul) Escala logarítmica
Colunas/linhas são ordenadas para ter vizinhos similares
Tree-leave ordering (Bar-Joseph)
Estatísticas de expressão diferencial (t-score)
Biologia In Silico - Centro de Informática - UFPE
Visualização II
Gráficos Scatter Pontos
representam amostras
Necessitam técnicas de redução de dimensão (PCA)
Escolha de poucos genes (2-3) discriminativos
Biologia In Silico - Centro de Informática - UFPE
Classificação
Biologia In Silico - Centro de Informática - UFPE
Diagnóstico Personalizado Atualmente diagnostico é baseado em
aspectos macro-moleculares Sintomas do pacientes, morfologia de
tumores, ... Desafio: Realizar diagnostico medico
usando (também) informação genética de pacientes
Expressão gênica, polimorfismos (não vamos ver!)
Previsão de resposta a tratamentos
Biologia In Silico - Centro de Informática - UFPE
Classificação
Dados matriz X (expressão) classificação Y (tipos
de câncer) Achar uma função
f(x) → yGen
e 1
Gene 2
Biologia In Silico - Centro de Informática - UFPE
Classificação
Dados matriz X (expressão) classificação Y (tipos
de câncer) Achar uma função
f(x) → y Diagnosticar novo
paciente f(x') → y'
Gen
e 1
Gene 2
novo paciente ?
Biologia In Silico - Centro de Informática - UFPE
Classificador Linear
Função Linearf (x , A) = a0+a1x1+...+aLxL
f ( x, A) > 0 ⇒ classe A
f ( x, A) ≤ 0 ⇒ classe B
Apenas para 2 classes Achar coeficientes A
estimação Achar genes relevantes
Seleção de atributos
Gen
e 1
Gene 2
Biologia In Silico - Centro de Informática - UFPE
Classificação LinearEstimação
Função Linearf (x , A) = a0+a1x1+...+aLxL
y = -1 (se classe A)
y = 1 (se classe B)Achar A maximizando
Pode ser estimado com perceptron, SVM, programação linear
2
1
( ( , ) )N
i ii
f x A y
¥
Biologia In Silico - Centro de Informática - UFPE
Classificação LinearProblemas
• Nem sempre classes são linearmente separáveis
• Treinamento sempre gera erro!
• Solução: usar funções não lineares
Biologia In Silico - Centro de Informática - UFPE
Avaliação
• Como avaliar métodos de classificação?
– A acurácia de um método é sempre baseado em exemplos não usados no treinamento
• Validação cruzada• Validação Leave-one-out • ...
Biologia In Silico - Centro de Informática - UFPE
Validação cruzada r-Fold
X
Treino Teste
Média e desvio-padrão
de desempenho
r=3
• Quando r = no dados leave-one-out
Biologia In Silico - Centro de Informática - UFPE
Classificação Não-Linear
• Função Polinomialf (x , A) = a0+ a11x
31+...
+aL1x3
L
a12x2
1+...+aL2x
2L
a12x1+...+aL2xL
Exemplo função de terceira ordem
Problema: Mais parâmetros!
Biologia In Silico - Centro de Informática - UFPE
Classificação (Não)-LinearProblemas
• Quais genes usar para a classificação?
• Bases contem poucos pacientes e muitos genes.
Biologia In Silico - Centro de Informática - UFPE
Maldição da Dimensionalidade • Volume do espaço cresce
exponencialmente com a dimensão
• Pontos (pacientes) são distribuídos esparsamente no espaço.
Biologia In Silico - Centro de Informática - UFPE
Maldição da Dimensionalidade
• Exemplo de espaço esparso
– Três genes– 2 exemplos
de treino
Biologia In Silico - Centro de Informática - UFPE
Maldição da Dimensionalidade
• Exemplo de espaço esparso
– Três genes– 2 exemplos
de treino• Milhares de
„bons“ classificadores são possíveis (no treino)
Biologia In Silico - Centro de Informática - UFPE
Maldição da Dimensionalidade
• Novo exemplo para classificação (verde)
• Nenhum dos classificadores generaliza!
• Exemplo clássico de overfitting!
Biologia In Silico - Centro de Informática - UFPE
Maldição da Dimensionalidade II
• Funções complexas (mais parâmetros)
funções polinomiais
• Muito mais alternativas de funções!
• São mais propensas a overfitting
Biologia In Silico - Centro de Informática - UFPE
Maldição da Dimensionalidade na Pratica
• O uso de mais de 30 genes leva a overfitting!
QDA – discriminador quadrático e LDA – discriminador linear
Biologia In Silico - Centro de Informática - UFPE
Maldição da DimensionalidadeSoluções:• Usar classificadores baseados
em modelos com limite de soluções
– Exemplo: classificadores de margem larga
• Reduzir o espaço ao usar apenas dados relevantes
Biologia In Silico - Centro de Informática - UFPE
Classificadores de Margem Larga
• Requer uma margem (m) entre a linha de decisão
• Achar A maximizando
• Sugeito a
• Exemplo: SVMs
m
| ( , ) |if x A m
2
1
( ( , ) )N
i ii
f x A y
¥
Biologia In Silico - Centro de Informática - UFPE
Seleção de Atributos
• Quais genes usar?– Questão biológica: quantos/quais
genes são discriminativos para o diagnostico?
– Estatística: Quantos genes são necessários para realizar classificação sem overfitting?
• Bases contem ate 30.000 genes
Biologia In Silico - Centro de Informática - UFPE
Seleção de Atributos• Muitos atributos são irrelevantes ao
problema (não diferencialmente expressos)
• Muitos atributos (relevantes ou não) são correlacionados
Biologia In Silico - Centro de Informática - UFPE
Estratégias para Seleção de Atributos• Filtros:
• Seleção de genes antes da classificação• Usar métodos de expressão diferencial de
genes.
• Wrappers:• seleção é realizada paralelamente a
aprendizagem• Ex: Nearest Shrunken Centroids, Random
Forests
Biologia In Silico - Centro de Informática - UFPE
Filtros
• Usar métodos de expressão diferencial para escolher atributos• T-test, Willcox Test, …• Requer a definição de um numero de
genes ou p-value
Atenção: seleção de atributos é um parâmetro do método a ser ajustar. Deve ser baseado apenas no conjunto de treinamento!
Biologia In Silico - Centro de Informática - UFPE
Métodos WrapperNearest Shrunken Centroids
Biologia In Silico - Centro de Informática - UFPE
Nearest Shrunken CentroidsEncolher a participação de genes
não discriminativos
Biologia In Silico - Centro de Informática - UFPE
Nearest Shrunken CentroidsResultados
• Resultados:– small round blue
cell tumors
• Valores de seleção média são melhores
• Necessita definição do delta.
Biologia In Silico - Centro de Informática - UFPE
Random Forests
• Inferir varias arvores de decisão• em subconjuntos dos pacientes
• Escolha baseada em bootstrap
• em subconjuntos de variáveis (genes)• Escolhidos aleatoriamente
• Juntar os vários „classificadores usando métodos ensemble.• Não requer seleção de variáveis e
indica peso final das variáveis.
Biologia In Silico - Centro de Informática - UFPE
Atributos Faltosos
• Nem todos os métodos aqui descritos suportam dados faltosos
• Solução: imputar valores faltosos• Weighted Nearest Neighbors
• Procurar os k genes mais próximos• Usar a media ponderada dos valor da
variável faltosa • A ponderação é inversa a distancia dos genes.
Biologia In Silico - Centro de Informática - UFPE
Confiança na Classificação
• Em dados clínicos é importante dar um grau de confiança da classificação.
• Ex: distância do exemplo a margem de decisão
Biologia In Silico - Centro de Informática - UFPE
Alguns Resultados
Biologia In Silico - Centro de Informática - UFPE
Resultados
Biologia In Silico - Centro de Informática - UFPE
Considerações Finais
• Cada um desses conjuntos de dados tem características como:• Numero de pacientes, tamanho das classes,
distribuição dos dados, plataforma do array, presença de ruído, …
• É possível que certos classificadores sejam melhor em determinadas situações.
• Como explorar isto?
Biologia In Silico - Centro de Informática - UFPE
Referencia
• Sandrine Dudoit and Jane Fridlyand, Classification in microarray experiments, Technical Report 2002.