Metodologias de Metodologias de Classificação Classificação
Supervisionada para Supervisionada para Análise de Dados de Análise de Dados de
MicroarraysMicroarrays
Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL)
Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)
20/02/2010
Centro de Estatística e Aplicações da Universidade de Lisboa
Sílvia Pedro Rebouças
1. Introdução2. Objectivos3. Estado da arte4. Aplicação5. Referências bibliográficas
CEAUL Sílvia Pedro Rebouças
SumárioSumário
20/02/2010 2
Monitorização do nível de expressão de milhares de genes em simultâneo, através
de microarrays.
CEAUL Sílvia Pedro Rebouças
1. Introdução1. Introdução
20/02/2010 3
Biologia
EstatísticaAprendizagem
Automática
Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n).
Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003):
◦ Quais os genes com expressão diferencial num conjunto de dados relativamente a outro?
◦ Quais as relações presentes entre os genes ou entre os indivíduos em estudo?
◦Como classificar indivíduos tendo por base as suas medidas de expressão genética?
CEAUL Sílvia Pedro Rebouças 20/02/2010 4
ClassificaçãoClassificação
SupervisionadaSupervisionadaNão
supervisionada
Classificação Supervisionada:
◦ X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos.
◦ xij representa o nível de expressão do j-ésimo gene
(variável) para o i-ésimo indivíduo (observação).
◦ yi identifica o grupo a que pertence o indivíduo.
◦ Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi.
◦ Pretende-se treinar classificadores numa amostra de modelação (learning set)
L = {(x1, y1), …, (xnL, ynL)}
e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set)
T = {x1, …, xnT}CEAUL Sílvia Pedro Rebouças 20/02/2010 5
CEAUL Sílvia Pedro Rebouças
2. Objectivos2. Objectivos
20/02/2010 6
Objectivo geral:Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays.
Objectivos específicos:◦ Implementar, testar e comparar técnicas de:
Pré-processamento Normalização Imputação de valores omissos Redução de dimensionalidade
Classificação supervisionada 2 grupos ou mais Séries temporais
Avaliação da qualidade do ajustamento e da capacidade preditiva
CEAUL Sílvia Pedro Rebouças 20/02/2010 7
◦ Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos;
◦ Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays;
◦ Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área.
Métodos de classificação supervisionada aplicados a dados de microarrays:
◦ Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005);
◦ Regressão logística penalizada (Liao & Chin, 2007);
◦ Árvores de classificação (Boulesteix & Tutz, 2006);◦ Modelos Bayesianos (Roth & Lange, 2004);◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006);◦ Médias difusas (Asyali et al., 2005);◦ Modelos factoriais de misturas (Martella, 2006);◦ Redes neuronais artificiais (O’Neill & Song, 2003);◦ Máquinas de suporte vectorial (Pirooznia & Deng,
2006). CEAUL Sílvia Pedro Rebouças
3. Estado da arte3. Estado da arte
20/02/2010 8
Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005) Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix &
Tutz (2006) e Kim et al. (2006)
A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade.
Métodos de selecção de genes:◦ Selecção de genes com expressão diferencial
teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis;
False Discovery Rate (Benjamini & Hochberg, 1995); Métodos bayesianos (Antunes & Sousa, 2008).
◦ Algoritmos moleculares (Ooi & Tan, 2003) Métodos de redução de dimensionalidade:
◦ Análise de componentes principais;◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004);◦ Padrões de interacção (Boulesteix & Tutz, 2006).
CEAUL Sílvia Pedro Rebouças 20/02/2010 9
A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes.
Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005)
Pré-processamento de dados temporais de microarrays: Liang et al. (2005)
Esta é uma área pouco estudada e um desafio do ponto de vista estatístico!
CEAUL Sílvia Pedro Rebouças 20/02/2010 10
CEAUL Sílvia Pedro Rebouças
4. Aplicação4. Aplicação
20/02/2010 11
Aplicação realizada no Curso de Formação Avançada:◦ Bases de dados:
Leucemia (Golub et al., 1999) Cancro do cólon (Alon et al., 1999)
◦ Métodos de classificação aplicados (biblioteca do R): Regressão logística penalizada (GeneLogit) Àrvores de classificação (tree) Redes neuronais (nnet) Classificador dos vizinhos mais próximos (class)
◦ Pré-processamento: Método 1: thresholding, filtragem e transformação
logarítmica de base 10 (Dudoit et al., 2002) Método 2: Selecção dos genes com expressão diferencial
(teste t)
CEAUL Sílvia Pedro Rebouças 20/02/2010 12
◦ Resultados: Leucemia (modelação: 38 ind., validação: 34 ind. )
Método de classificaçãoPré-proces-
samentoNúmero de
genes
Proporção de erros na amostra de modelação
Proporção de erros na amostra de validação
Regressão logística penalizadaMét. 1 3571 (q = 20) 0,0000 0,0294
Méts. 1 e 2 471 (q = 20) 0,0526 0,0588
Árvore de classificaçãoMét. 1 3571 0,0000 0,0882
Méts. 1 e 2 471 0,0526 0,2647
Rede neuronal (Perceptrão simples)
Mét. 1 e 2 471 0,0000 0,2059
Mét. 1 1 0,0000 0,0882
Mét. 1 2 0,1053 0,0882
Rede neuronal (5un) Mét. 1 2 0,0000 0,2059
Classificador vizinhos mais
próximos
k = 1 Mét. 1 e 2 471 0,0000 0,0882
k = 4 Mét. 1 e 2 471 0,0526 0,0000
k = 3 Mét. 1 3571 0,0000 0,0294
CEAUL Sílvia Pedro Rebouças 20/02/2010 13
Cancro do cólon (modelação: 31 ind., validação: 31 ind. )
Método de classificaçãoPré-proces-
samentoNúmero de
genes
Proporção de erros na amostra de modelação
Proporção de erros na amostra de validação
Regressão logística penalizada
Nenhum 2000 (q = 2) 0,0645 0,1935Mét. 1 1224 (q = 2) 0,3226 0,3871Mét. 2 60 (q = 2) 0,0645 0,2581
Méts. 1 e 2 43 (q = 2) 0,3226 0,3871
Árvore de classificação
Nenhum 2000 0,0526 0,3226Mét. 1 1224 0,0645 0,3226Mét. 2 60 0,0645 0,3226
Méts. 1 e 2 43 0,0645 0,3226
Rede neuronal (Perceptrão simples)
Mét. 1 2 0,0968 0,1613Mét. 2 60 0,1935 0,3226
Méts. 1 e 2 43 0,0000 0,3871
Rede neuronal com 5 unidades na camada escondida
Mét. 1 2 0,0000 0,2903Mét. 2 60 0,1290 0,3871
Méts. 1 e 2 43 0,0323 0,3548
Classificador vizinhos mais
Próximos
k = 1 Nenhum 2000 0,0000 0,1481k = 1 Mét. 1 1224 0,0000 0,1935k = 1 Mét. 2 60 0,0000 0,2258k = 1 Mét. 1 e 2 43 0,0000 0,2258
CEAUL Sílvia Pedro Rebouças 20/02/2010 14
Cancro do cólon (modelação: 40 ind., validação: 22 ind. )
Método de classificaçãoPré-proces-
samentoNúmero de
genes
Proporção de erros na amostra de modelação
Proporção de erros na amostra de validação
Regressão logística penalizada
Nenhum 2000 (q = 2) 0,1000 0,3636
Mét. 1 1224 (q = 2) 0,0750 0,6818
Mét. 2 86 (q = 2) 0,1250 0,1364
Méts. 1 e 2 64 (q = 2) 0,3750 0,6818
Árvore de classificação
Nenhum 2000 0,0750 0,4091
Mét. 1 1224 0,0750 0,4091
Mét. 2 86 0,0750 0,4091
Méts. 1 e 2 64 0,0750 0,4091
Rede neuronal (Perceptrão simples)
Mét. 1 3 0,0750 0,4091
Mét. 2 86 0,0000 0,5909
Méts. 1 e 2 64 0,0250 0,3636
Rede neuronal com 5 unidades na camada escondida
Mét. 1 3 0,0500 0,3636
Mét. 2 86 0,0250 0,3636
Méts. 1 e 2 64 0,0500 0,3636
Classificador vizinhos mais
Próximos
k = 1 Nenhum 2000 0,0000 0,2273
k = 1 Mét. 1 1224 0,0000 0,1818
k = 1 Mét. 2 86 0,0000 0,2727
k = 1 Mét. 1 e 2 64 0,0000 0,1818
CEAUL Sílvia Pedro Rebouças 20/02/2010 15
◦ Conclusões: A regressão logística penalizada é suportada por
uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso.
As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação.
As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet.
CEAUL Sílvia Pedro Rebouças 20/02/2010 16
O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho.
Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados.
Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta.
Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema.
CEAUL Sílvia Pedro Rebouças 20/02/2010 17
Principais linhas de investigação futura
◦ Metodologias de redução de dimensionalidade
Análise de Componentes Principais Robustas (Branco & Pires, 2009)
◦ Análise comparativa de métodos de classificação supervisionada
◦ Classificação supervisionada de dados temporais de microarrays
CEAUL Sílvia Pedro Rebouças
5. Referências 5. Referências bibliográficasbibliográficas
20/02/2010 18
Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750.
Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), 824-836.
Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, 644-649.
Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57, 289 -300.
Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97.
20/02/2010
CEAUL Sílvia Pedro Rebouças 19
Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, 783-802.
Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido.
Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), 77-87.
Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, 147-157.
Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, 531-537.
Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, 1643-1655.
20/02/2010
CEAUL Sílvia Pedro Rebouças 20
Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, 965-979.
Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, 869-885.
Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, 2429-2437.
Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20.
Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), 399-413.
Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, 1945-1951.
Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, 202-208.
20/02/2010
CEAUL Sílvia Pedro Rebouças 21
Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, 407-425.
O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13.
Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), 37-44.
Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25.
Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718.
Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press.
Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, 475-485.
Top Related