Autogating em Dados de Citometria de Fluxo Utilizando ......Cordeiro, Elionai Moura. Autogating em...

95
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE INSTITUTO METRÓPOLE DIGITAL PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA ELIONAI MOURA CORDEIRO AUTOGATING EM DADOS DE CITOMETRIA DE FLUXO UTILIZANDO CLASSIFICADORES SVM PARA IDENTIFICAÇÃO DE BACTERIOPLÂNCTON NATAL - RN 2018

Transcript of Autogating em Dados de Citometria de Fluxo Utilizando ......Cordeiro, Elionai Moura. Autogating em...

  • UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

    INSTITUTO METRÓPOLE DIGITAL

    PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA

    ELIONAI MOURA CORDEIRO

    AUTOGATING EM DADOS DE CITOMETRIA DE FLUXO UTILIZANDO

    CLASSIFICADORES SVM PARA IDENTIFICAÇÃO DE BACTERIOPLÂNCTON

    NATAL - RN

    2018

  • 2

    ELIONAI MOURA CORDEIRO

    AUTOGATING EM DADOS DE CITOMETRIA DE FLUXO UTILIZANDO

    CLASSIFICADORES SVM PARA IDENTIFICAÇÃO DE BACTERIOPLÂNCTON

    Defesa de Mestrado apresentanda ao Programa de

    Pós-Graduação em Bioinformática da Universidade

    Federal do Rio Grande do Norte.

    Área de concentração: Bioinformática

    Linha de Pesquisa: Desenvolvimento de produtos e

    processo

    Orientador: Prof. Dr. Adrião Duarte Dória Neto

    NATAL-RN

    2018

  • Cordeiro, Elionai Moura. Autogating em dados de citometria de fluxo utilizandoclassificadores SVM para identificação de bacterioplâncton /Elionai Moura Cordeiro. - Natal, 2018. 95 f.: il.

    Dissertação (Mestrado) - Universidade Federal do Rio Grandedo Norte. Instituto Metrópole Digital. Programa de Pós-Graduaçãoem Bioinformática. Orientador: Prof. Dr. Adrião Duarte Dória Neto.

    1. Citometria de Fluxo - Dissertação. 2. Autogating -Dissertação. 3. Máquina de Vetor de Suporte - Dissertação. 4.Aprendizagem de Máquina - Dissertação. 5. Análise Ambiental -Dissertação. I. Dória Neto, Adrião Duarte. II. UniversidadeFederal do Rio Grande do Norte. III. Título.

    RN/UF/BSE-CB CDU 616.15

    Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

    Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Leopoldo Nelson - -Centro de Biociências - CB

    Elaborado por KATIA REJANE DA SILVA - CRB-15/351

  • 4

    ELIONAI MOURA CORDEIRO

    AUTOGATING EM DADOS DE CITOMETRIA DE FLUXO UTILIZANDO

    CLASSIFICADORES SVM PARA IDENTIFICAÇÃO DE BACTERIOPLÂNCTON

    Defesa de Mestrado apresentanda ao Programa de Pós-Graduação em Bioinformática da

    Universidade Federal do Rio Grande do Norte.

    Área de concentração: Bioinformática

    Linha de Pesquisa: Desenvolvimento de produtos e processos

    Orientador: Prof. Dr. Adrião Duarte Dória Neto

    Natal, 22 de março de 2018.

    BANCA EXAMINADORA

    ___________________________________________

    Prof. Adrião Duarte Dória Neto – Presidente

    Universidade Federal do Rio Grande do Norte

    (Presidente)

    ___________________________________________

    Prof. Dr. Daniel Sabino Amorim de Araújo

    Universidade Federal do Rio Grande do Norte

    (Co-orientador)

    ___________________________________________

    Prof. Dr. Jorge Estefano Santana de Souza

    Universidade Federal do Rio Grande do Norte

    (Examinador Interno do Programa)

    ___________________________________________

    Prof. Dr. Araken de Medeiros Santos

    Universidade Federal Rural do Semi-árido

    (Examinador Externo à Instituição)

  • Agradecimentos

    Antes de tudo, agradeço imensamente à minha mãe, primeira educadora e nortea-dora que me apoia desde sempre a perseguir a vida acadêmica.

    Ao Laboratório de Limnologia do Departamento de Oceanografia e Limnologia daUniversidade Federal do Rio Grande do Norte na pessoa do amigo Msc. Bruno Wanderley,que fez o link necessário para viabilidade desse projeto com a disponibilização dos dadosfornecidos pela equipe que analisou as amostras dos lagos dos Pirineus, especialmente oscolegas Dr. Fernando Unrein - Instituto de Investigaciones Biotecnológicas – INTECH eDr. Hugo Sarmento – Departamento de Hidrobiologia – UFSCAR.

    Aos orientadores Prof. Dr. Adrião Duarte e Prof. Dr. Daniel Sabino, que sempreme apoiaram e não me deixaram desistir, nem desistiram de mim, mesmo nas maioresdificuldades enfrentadas no desenvolvimento deste.

    Ao Programa de Pós-Graduação em Bioinformática – PPGBIONF, do InstitutoMetrópole Digital da Universidade Federal do Rio Grande do Norte, pela disponibilidadede infraestrutura, de material e de recursos humanos – colegas e professores indispensáveisem todas as horas.

  • “Geralmente quando os problemas aparecem a gente estádesprevenido, né não? Errado!

    É você que perdeu o controle da situação sangue bom.Perdeu a capacidade de controlar os desafios.Principalmente quando a gente foge das liçõesque a vida coloca na nossa frente, tá ligado?

    Você se acha sempre incapaz de resolver, se acovarda, morô?O pensamento é força criadora.

    O amanhã é ilusório, por que ainda não existe.O hoje é real, é a realidade que você pode interferir.

    As oportunidades de mudança estão no presente.Não espere o futuro mudar sua vida, por que o futuro seráa consequência do presente. Parasita hoje, coitado amanhã.

    Corrida hoje, vitória amanhã. Nunca se esqueça disso.(Edi Rock, Racionais MC’s, A Vida é Desafio)

  • ResumoNeste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - junta-mente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica deaprendizagem de máquina, SVM, para análise automatizada de dados de citometria defluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amos-tras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhasde elevada altitude que foram classificados manualmente no Laboratório de Limnologiado Departamento de Oceanografia e Limnologia da UFRN. Previamente, iniciou-se comalguns testes de configuração da função kernel e uma análise quantitativa com base nonúmero médio de acertos na classificação automatizada, na qual percebeu-se que a taxade erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapasde desenvolvimento da metodologia proposta, onde foram criados modelos de prediçãoe realizados uma série de testes com as bases de dados criadas a partir das informaçõesdisponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativase qualitativas, inclusive utilizando PCA para entender a importância de cada variávelnos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologiaproposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelosde predição, que tem por base a classificação final apontada pelo algoritmo de SupportVector Machine.

    Palavras-chave: Citometria de Fluxo. Máquina de Vetor de Suporte. Autogating. Apren-dizagem de máquina. Análise ambiental.

  • AbstractThis master tesis shows the proposal to develop a methodology - together with thepresentation of the results of its application - that uses a machine learning technique,SVM, for automated analysis of flow cytometry data in samples of aquatic environments,identification of bacterioplankton. The samples used in the execution of this methodologywere collected in 19 high altitude mountain lakes that were manually classified in theLaboratory of Limnology of the Department of Oceanography and Limnology of UFRN.Previously, it started with some tests of kernel configuration and a quantitative analysisbased on the average number of hits in the automated classification, in which it was noticedthat the prediction error rate varied between 1.86 % and 3, 35 % on average. Two stagesof development of the proposed methodology were carried out, where prediction modelswere created and a series of tests were carried out with the databases created from theavailable information. The results were exposed to a series of quantitative and qualitativeanalyzes, including using PCA to understand the importance of each variable in the sampledata sets. For a qualitative evaluation of the proposed methodology, a statistical analysiswas applied to compare both strategies of prediction models, which is based on the finalclassification indicated by the algorithm of Support Vector Machine.

    Keywords: Flow Cytometry. Support Vector Machine. Enviromental Analysis. Autogating.Machine Learning.

  • Lista de ilustrações

    Figura 1 – Exemplo dos passos executados para análise de dados em CF. . . . . . 22Figura 2 – Região da Nhecolândia no Pantanal brasileiro. . . . . . . . . . . . . . . 29Figura 3 – Abstração gráfica da dispersão de luz em um citômetro de fluxo. . . . . 31Figura 4 – Exemplo dos passos executados para análise de dados em CF. . . . . . 33Figura 5 – Exemplo de aplicação de função kernel em SVM. . . . . . . . . . . . . 35Figura 6 – Abstração gráfica da aplicação de vetores de suporte na separação de

    dados linearmente e não-linearmente separáveis. . . . . . . . . . . . . . 36Figura 7 – Abstração gráfica da aplicação de uma função gaussiana do tipo RBF. 37Figura 8 – Esquema simplificado da metodologia proposta. . . . . . . . . . . . . . 39Figura 9 – Comparativo, em porcentagem (%), dos resultados de classificação

    quando utilizada a base de dados DBA74 como objeto de testes. . . . . 42Figura 10 – Gráfico quantitativo da razão sinal/ruído por base de dados. . . . . . . 46Figura 11 – Gráfico resultante da separação dos dados de interesse com gating manual. 47Figura 12 – Gráfico quantitativo do uso de cada base de dados nos modelos de

    predição. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48Figura 13 – Comparativo de densidade dos dados antes e depois da classificação

    manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

  • Lista de tabelas

    Tabela 1 – Visão tabular parcial da base de dados DBA74 . . . . . . . . . . . . . 47Tabela 2 – Distribuição, por modelo de predição, das bases de dados que os compõem. 48Tabela 3 – Comparativo, a partir da análise de PCA no Modelo Base #1, indicando

    a importância de cada componente. . . . . . . . . . . . . . . . . . . . . 51Tabela 4 – Comparativo, analisando com PCA o Modelo Base #2, indicando a

    importância de cada componente. . . . . . . . . . . . . . . . . . . . . . 51Tabela 5 – Comparativo entre as variáveis do modelo de predição Modelo Base #1,

    indicando a importância de cada canal. . . . . . . . . . . . . . . . . . . 52Tabela 6 – Comparativo entre as variáveis do Modelo Base #2, indicando a impor-

    tância de cada canal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Tabela 7 – Taxas de erro de predição utilizando SVM por Modelos de Predição

    (MP#) e Bases de Dados (DBA#) em porcentagem (%). . . . . . . . . 53Tabela 8 – Índice Qualitativo F-Measure por Modelos de Predição (MP#) e Bases

    de Dados (DBA#) em porcentagem (%). . . . . . . . . . . . . . . . . . 54Tabela 9 – Descrição quantitativa dos registros para cada base de dados. . . . . . 75

  • Lista de abreviaturas e siglas

    CF Citometria de fluxo.

    DB Do inglês, Database, isto é, base de dados.

    DCM Índice que determina a profundidade máxima em ambientes aquáticos,de acordo com a incidência de luz solar, onde é possível a presença demicroorganismos fotossintetizantes.

    DDR4 Do inglês, Double Data Rate version 4, significando que o dispositivopossui uma taxa de dados baseada na versão quatro da tecnologia DDR.

    FL1 Sensor dedicado ao marcador de identificação de DNA usado na análisedas amostras em CF.

    FL3 Sensor dedicado ao marcador de identificação de clorofila na análise dasamostras em CF.

    FSC Do inglês, Foward Scatter, significando o sensor que capta a dispersãodo laser à frente das partículas presentes nas amostras analisadas emCF.

    GB Do inglês, Gigabyte, significando uma quantidade informacional igual a8x230, ou seja, 1GB corresponde a 8.589.934.592 bits, sendo um bit amenor unidade de informação na computação.

    Gb/s Do inglês, Gigabits per second, isto é, quantos bits são transmitidos porsegundo.

    GB/s Do inglês, Gigabytes per second, isto é, quantos bytes são transmitidospor segundo.

    GHz Do inglês, Gigahertz, significando uma frequência de bilhões de cálculospor segundo.

    IMD Instituto Metrópole Digital.

    MB Do inglês, Megabyte, significando uma quantidade informacional igual a8x220 bits.

    MB/s Do inglês, Megabytes per second, isto é, quantos bytes são transmitidospor segundo.

  • MHz Do inglês, Megahertz, significando uma frequência de milhões de cálculospor segundo.

    UFRN Universidade Federal do Rio Grande do Norte.

    SSC Do inglês, Side Scatter, significando o sensor que capta a dispersãolateral das partículas capturadas na CF.

    SSD Do inglês, Solid State Drive, isto é, dispositivo de estado sólido.

    SVM Do inglês, Support Vector Machine, isto é, máquina de vetor de suporte,uma técnica de aprendizagem computacional.

  • Sumário

    1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.3 Organização desta dissertação . . . . . . . . . . . . . . . . . . . . . . 24

    2 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . 252.1 Bacterioplâncton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Citometria de fluxo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3 Máquinas de vetores de suporte . . . . . . . . . . . . . . . . . . . . . 27

    3 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 293.1 O estudo do bacterioplâncton . . . . . . . . . . . . . . . . . . . . . . 293.2 A análise de dados em CF . . . . . . . . . . . . . . . . . . . . . . . . 303.2.1 A técnica de CF e os materiais utilizados . . . . . . . . . . . . . . . . . . 303.2.2 A análise manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3 Estrutura e funcionamento do SVM . . . . . . . . . . . . . . . . . . . 343.3.1 Classificação de dados usando SVM . . . . . . . . . . . . . . . . . . . . . 343.3.2 Funções de Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3.3 Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4 ANÁLISE AUTOMATIZADA DE DADOS DE CF APLICANDOTÉCNICAS DE APRENDIZAGEM DE MÁQUINA. . . . . . . . . . 39

    4.1 Passo a passo da metodologia proposta . . . . . . . . . . . . . . . . . 394.1.1 Coleta - preparação das bases de dados . . . . . . . . . . . . . . . . . . . 394.1.2 Amostragem - definição dos dados . . . . . . . . . . . . . . . . . . . . . . 404.1.3 Rotulagem - identificação de dados . . . . . . . . . . . . . . . . . . . . . 414.1.4 Treinamento - aprendizado a partir dos dados . . . . . . . . . . . . . . . . 414.1.5 Validação - provando os dados . . . . . . . . . . . . . . . . . . . . . . . . 41

    5 ESTUDO DE CASO APLICANDO AUTOGATING COM SVM PARACLASSIFICAÇÃO DE BACTERIOPLÂNCTON . . . . . . . . . . . . 43

    5.1 Preparação das bases de dados . . . . . . . . . . . . . . . . . . . . . . 435.2 O Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.2.1 Coleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.2.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.2.3 Rotulagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

  • 5.2.4 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.2.5 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.3 O ambiente computacional . . . . . . . . . . . . . . . . . . . . . . . . 49

    6 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 516.1 Da importância das variáveis selecionadas . . . . . . . . . . . . . . . 516.2 Como medir qualitativamente os resultados obtidos . . . . . . . . . . 536.3 Mais um pouco sobre os dados . . . . . . . . . . . . . . . . . . . . . . 54

    7 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    APÊNDICES 63

    APÊNDICE A – ARTIGO ACEITO PARA PUBLICAÇÃO NA 4THANNUAL CONFERENCE ON COMPUTATIONALSCIENCE & COMPUTATIONAL INTELLIGENCE. 65

    APÊNDICE B – CARTA DE ACEITE DO ARTIGO SUBMETIDO 71

    ANEXOS 73

    ANEXO A – TABELA DESCRITIVA DAS BASES DE DADOS . . 75

    ANEXO B – GRÁFICOS DE DENSIDADE . . . . . . . . . . . . . . 77

  • 21

    1 Introdução

    De acordo com Lee (2011), citometria de fluxo (CF) consiste na análise espectralde uma ou mais amostras, que produz um conjunto de dados complexo e é amplamenteutilizada no contexto das áreas clínicas e biomédicas para análise celular (BARROSO;ALVAREZ; VALDESPIN, 2016) e identificação e diagnóstico de doenças como leucemia,linfomas etc. (GAJENDRA, 2016) bem como na análise do desenvolvimento clínico dopaciente (BRINKMAN et al., 2016).

    Dada a complexidade das amostras, a CF é pouco utilizada para análise de ambientesaquáticos (GASOL; MORÁN, 2015) pois, quando compara-se com o ambiente de dadosclínicos, encontra-se nas amostras ambientais uma maior dificuldade na identificação dosdados de interesse (NEUENSCHWANDER; SALCHER; PERNTHALER, 2015). Observa-se que Li (1997), Neuenschwander, Salcher e Pernthaler (2015), Sarmento et al. (2015),Quiroga et al. (2016) demonstram interesse e abordagens do uso da citometria de fluxopara o estudo de métricas ecológicas em ambientes aquáticos (rios, lagos e oceanos) everifica-se em Araujo e Costa (2007) a importância de monitoramento constante dessaspopulações em reservatórios de água (rios, lagos, açudes etc.), principalmente em regiõessemiáridas como, por exemplo, parte do nordeste brasileiro, onde podem acontecer períodoscom vários meses sem chuva.

    Em (ARAUJO; COSTA, 2007) é definido como importante o monitoramento depopulações microbianas, em ambientes aquáticos em geral, devido o "(...) importante papelque desempenham na rede trófica planctônica"(ARAUJO; COSTA, 2007). Entende-se queestes desempenham papel importante no ciclo do oxigênio, na fixação de nitrogênio e noprocesso de nitrificação e desnitrificação dos ambientes aquáticos. Segundo (MANTI; PAPA;BOI, 2012), pode-se identificar e classificar estes organismos com base nas característicasde espalhamento do laser e da fluorescência (pigmentação), tornando-os especialmenteviáveis para análise através da citometria de fluxo.

    Tradicionalmente, para analisar os dados de um citograma de fluxo, o pesquisadorgeralmente utiliza um computador para gerar gráficos de dispersão e, através de um softwareespecífico (ver exemplo na Figura 1) separa graficamente os conjuntos de pontos de interessetidos como sendo do padrão desejado, desenhando bordas (gates) ao redor destes, separandoda informação restante, considerada ruído. Em seguida, é gerada uma nova visualizaçãoexcluindo-se os dados de ruído (AGHAEEPOUR et al., 2013; BRINKMAN et al., 2016).

    Com vistas a acelerar o processo de classificação de dados e melhorar a padronizaçãoda análise, faz-se necessária a utilização de algoritmos computacionais que realizam deforma automática a construção destas bordas, cabendo ao pesquisador o refinamento da

  • 22 Capítulo 1. Introdução

    classificação e posterior uso dos dados classificados (LEE; STOOLMAN; SCOTT, 2012;AGHAEEPOUR et al., 2013; VERSCHOOR et al., 2015). A automatização de classificaçãodos padrões e demarcação das bordas de separação entre os pontos de interesse dosconjuntos de dados recebe o nome de autogating ou ainda análise automatizada em CF(do inglês, automatized FC analysis).

    Figura 1 – Exemplo dos passos executados para análise de dados em CF.

    Nesta figura é possível observar os dados de um citograma sendo classificado a partir degating manual usando visualizações em gráficos de dispersão: A) com os canais que sedeseja analizar selecionados, nesse caso SSC e FL1; B) manualmente são desenhadas bordasao redor do grupo de interesse; C) isolando os primeiros dados, altera-se os canais devisualização para os próximos canais de análise desejados, nesse caso os canais FL1 e FL3;D) em seguida, inverte-se a posição de cada canal de modo a facilitar a visualização dasinformações; E) desenhando-se novas bordas, desta vez reduzindo ainda mais o conjunto dedados; F) visualização final com o grupo de interesse isolado do restante. Fonte: o autor.

    Diversos algoritmos podem ser utilizados na tarefa de autogating, sendo maisamplamente usados na literatura de referência aqueles que são baseados em técnicas deaprendizagem computacional, como as redes neurais, por exemplo. Dentre as diversas inici-ativas, encontramos em Manti, Papa e Boi (2012) e Aghaeepour et al. (2013) argumentosque reforçam a escolha de uma técnica baseada em redes neurais, mais especificamenteo algoritmo comumente conhecido como máquina de vetor de suporte (SVM, do inglês,Support Vector Machine) como uma ferramenta viável de classificação automatizada dedados de citometria de fluxo.

  • 1.1. Objetivo geral 23

    De acordo com Haykin (2001), Boddy, Wilkins e Morris (2001) e Wang (2002),uma máquina de vetor de suporte é um dispositivo matemático linear capaz de fornecerum bom desempenho em generalização de problemas de classificação de padrões. Isto é,dado que o algoritmo de SVM utiliza transformações e funções de kernel para separarpontos de interesse em classes distintas, depende de como os parâmetros destas funçõessejam ajustados e os dados dos conjuntos de treinamento fornecidos para que se tenha umdesempenho ideal.

    No presente trabalho, inicialmente foram utilizados os dados referentes a umconjunto de amostras obtidas a partir da coleta em 19 lagos de elevada altitude, distribuídosna cadeia de montanhas da região conhecida como Pirineus, localizada na fronteira entrea Espanha e a França. Tais amostras foram primariamente classificadas através de gatingmanual, seguindo o protocolo descrito em (GASOL; MORÁN, 2015), gerando um totalde 74 citogramas, a partir das quais desenvolveu-se uma metodologia para classificaçãoautomática das diversas populações do grupo bacterioplâncton utilizando-se a técnica deautogating em citometria de fluxo com SVM.

    Posteriormente, foram utilizadas um total de 10 amostras de ambientes aquáticosbrasileiros, sendo 6 do estado da Paraíba e 4 do Rio Grande do Norte, que foram usadascomo teste de classificação com os modelos de predição iniciais e também compuseramum novo modelo de predição com o intuito de testar a metodologia proposta com dadoscompletamente distintos do estudo inicial e verificar os resultados obtidos. Por último, foramselecionadas amostras de diversos ambientes dos mais variados locais para a construçãode um modelo de predição ainda mais diverso e robusto, o qual foi também testado e osresultados obtidos são discutidos no Capítulo 6 desta dissertação.

    Estes citogramas serviram como fonte de dados para o algoritmo utilizado nopresente trabalho sendo, por isso, aqui denominados bases de dados (DB, do inglês,database).

    1.1 Objetivo geral

    Pretendemos com este trabalho propor uma abordagem baseada em aprendizagemde máquina que se aplique na automatização do processo de classificação de padrõespresentes em dados de citometria de fluxo, com o objetivo de fazer a separação dos pontosde interesse para as análises realizadas pelos pesquisadores e demonstrar um estudo decaso usando a técnica de aprendizagem computacional denominada SVM.

    Nosso objetivo é desenvolver uma metodologia assistida por software que a) realizea classificação automática de dados de análise por CF, executando a separação de dadosde interesse do analista e b) facilitar a produção de gráficos de dispersão a partir de dadosresultantes desta classificação extraídos de citogramas de amostras que contenham uma

  • 24 Capítulo 1. Introdução

    maior presença de ruído, isto é, onde o ambiente e, consequentemente, os dados a seremanalisados são significativamente complexos.

    1.2 Objetivos específicos

    • Construir uma metodologia capaz de fornecer, de maneira automatizada, informaçõesmais significativas de forma rápida e precisa de citogramas de ambientes aquáticos;

    • Realizar a modelagem de classificadores autoajustáveis de bacterioplâncton baseadosem máquinas de vetor de suporte;

    • Desenvolver um processo computacional apto a realizar a separação automática eprecisa de grupos de bacterioplâncton;

    • Aplicar uma abordagem multidisciplinar em parceria com grupos de pesquisa distintosque tem interesse em colaborar neste trabalho.

    1.3 Organização desta dissertaçãoEsta dissertação de mestrado está dividida em sete capítulos, incluindo este capítulo

    introdutório. O capítulo dois faz uma apresentação aprofundada dos temas relevantes aotrabalho a partir de uma revisão da literatura. O capítulo três fundamenta a teoria daanálise de dados em citometria de fluxo e o algoritmo SVM. No capítulo quatro estãodescritos os materiais utilizados e os métodos que possibilitaram o desenvolvimento destetrabalho. O capítulo cinco mostra a aplicação da metodologia proposta através de umestudo de caso. No capítulo seis tem-se um apanhado dos resultados obtidos com umabreve discussão a respeito dos mesmos, que levaram as conclusões que estão expostas nocapítulo sete.

  • 25

    2 Revisão da literatura

    2.1 Bacterioplâncton

    Conforme (POMMIER, 2011; SOUZA; ABREU, 2009) plâncton é um termo deri-vado do idioma grego (plagktos), que identifica microrganismos que flutuam a esmo emambientes aquáticos, sendo arrastados pelas correntes ou pelo simples movimento das águasde rios, lagos, reservatórios e mares. Bacterioplâncton, por sua vez, são micro-organismosprocariontes que vivem flutuando em ambientes aquáticos e geralmente não possuem meiopróprio de locomoção (POMMIER, 2011).

    Por serem responsáveis pela captação de carbono e produção do oxigênio, entreoutras atividades do ciclo básico da cadeia trófica (SOUZA; ABREU, 2009), os organismosque compõem o plâncton desempenham papel fundamental na sobrevivência de milharesde espécies, compondo a base da cadeia alimentar, isto é, bacterioplâncton é a porçãodo plâncton composta de bactérias que podem ser tanto produtores primários quantoconsumidores primários. No trabalho de Araujo e Costa (2007) alerta-se para a importânciade monitoramento constante dessas populações em reservatórios de água (rios, lagos, açudesetc.), principalmente em regiões semiáridas como, por exemplo, parte do nordeste brasileiro,onde podem acontecer longos períodos sem chuva.

    Embora exista consenso sobre a importância e o papel do bacterioplâncton nabase das cadeias tróficas, sendo responsáveis pelo equilíbrio e possibilitando a vida maiscomplexa, ainda é bastante escasso, na literatura, o conhecimento específico de como se dáa estruturação da rede de alimentação microbiana quanto à sua composição, abundânciaetc, porquanto Sarmento et al. (2015) afirmam sobre a importância de estudar as relaçõesambientais representadas nas amostras usadas neste estudo:

    (...) existe pouca informação disponível na estrutura da rede de alimentomicrobiano in situ (isto é, abundância e composição dos pracariontesheterotróficos, picoplanctons fototróficos e nanoflagelados heterotróficos)e da atividade celular e fisiologia bacteriana, que poderia ilustrar osprocessos ecológicos moldando vida (SARMENTO et al., 2015).

    Em (ROLAND et al., 2011) é descrito que bacterioplâncton tem papel crucial noestudo de produção de gases do efeito estufa, principalmente em reservatórios artificiais epropõe a verificação de índices de respiração bacteriana ao invés do índice de crescimentobacteriano para verificação do impacto dessas populações na produção mundial de gáscarbônico, por exemplo. Pommier (2011) destaca ainda que, somente no oceano, existemmais bactérias do que o número de estrelas conhecidas e o papel do bacterioplâncton,

  • 26 Capítulo 2. Revisão da literatura

    enquanto biomassa, é definitivo para todo o ecossistema aquático, compreendendo a maiorfração de atividade biológica do planeta e ocupando diversos nichos biológicos.

    2.2 Citometria de fluxo

    Conforme a literatura, aponta-se como sendo as principais áreas e utilizações dacitometria de fluxo: a) laboratórios clínicos para contagem de células como, por exemplo,na busca de diagnósticos de células cancerígenas em pacientes com leucemia (GAJEN-DRA, 2016); b) contagem de espermatozoides em sêmen, seja para inseminação artificial,seja para determinação de uma medida de saúde reprodutiva (BARROSO; ALVAREZ;VALDESPIN, 2016); c) para o entendimento do quadro evolutivo de síndromes, como porexemplo a AIDS (BRINKMAN et al., 2016); d) em ambientes aquáticos para determinaçãode populações bacterianas (NEUENSCHWANDER; SALCHER; PERNTHALER, 2015;GASOL; MORÁN, 2015) ou da diversidade de plânctons (SARMENTO et al., 2015);e) em hospitais veterinários(NAKAGE et al., 2005), com uso de marcadores de célulasnão-humanas para uso de anticorpos, entre outros.

    Entre as atividades que podem ser realizadas com os dados gerados a partir doprocesso de citometria estão contagem, separação, exame e classificação das partículasanalisadas (AGHAEEPOUR et al., 2013). Como formas de classificação podemos encontrardiversas técnicas, sendo que a análise de gráficos de dispersão, cruzando dados de parâmetrosespecíficos através de separação da região de interesse a ser estudada (gating), é a maisutilizada. Quando essa separação da região de interesse é feita com auxílio de algoritmosde classificação automática, damos o nome de autogating (AGHAEEPOUR et al., 2013;LEE; STOOLMAN; SCOTT, 2012).

    Um software proposto em (BRUGGNER et al., 2014) denominado Citrus, (acrônimoem inglês para cluster indentification, characterization and regression, isto é, identificaçãode agrupamento, caracterização e regressão) através de uma abordagem para estratificaçãoe identificação em dados de CF, tem por objetivo suprir algumas lacunas onde outrossoftwares similares falham, que é exatamente quando precisam lidar com dados multidi-mensionais de alta complexidade. Ainda em Bruggner et al. (2014), são demonstradosresultados promissores da aplicação do Citrus em dados de Leucemia Mieloide Aguda(LMA) e de vacinas para HIV (HIV Vaccine Trials Network, HVTN).

    No campo da análise ambiental, encontra-se pesquisas com dados de ambientesmarinhos (LI, 1997; SOSIK; OLSON, 2007; MANTI; PAPA; BOI, 2012), de lagos deelevada altitude (SARMENTO et al., 2015) e de turfas sub-antárticas (QUIROGA etal., 2016), mas também percebemos uma preocupação com reservatórios de água potável(NEUENSCHWANDER; SALCHER; PERNTHALER, 2015).

  • 2.3. Máquinas de vetores de suporte 27

    2.3 Máquinas de vetores de suporte

    Encontra-se, na literatura, a aplicação de SVM em diversas áreas, desde a vi-são computacional e construção de superfícies aproximadas, segundo Santos (2002), naidentificação de padrões e predição etc. Na bioinformática, conforme vemos em (WANG,2002; SANTOS, 2002; CHICCO, 2012), SVM tem uso na aplicação em reconhecimento decaracterísticas funcionais e estruturais de proteínas, classificação e predição de expressãogênica, sequências de DNA, análise de microarrays etc.

    É possível encontrar também aplicações que aliam a versatilidade e facilidadespromovidas pela plataforma web no desenvolvimento de ferramentas de bioinformática,como visto em (PAVLIDIS; WAPINSKI; NOBLE, 2004).

    Em (WANG, 2002) tem-se um a compilação das diversas aplicações de SVMna bioinformática, principalmente na análise estrutural de proteínas e como os padrõesapresentados correlacionam-se com as características funcionais.

    Visando construir um benchmark da eficiência dos diversos algoritmos de aprediza-gem computacional que podem ser aplicados na construção automatizada de gatings, surgiuo consórcio FlowCAP (Flow Cytometry: Critical Assessment of Population IdentificationMethods),uma competição científica com dados e métodos abertos que pretende padronizaros processos de análise em CF (AGHAEEPOUR et al., 2013; VERSCHOOR et al., 2015;BRINKMAN et al., 2016).

    De acordo com (VERSCHOOR et al., 2015), a primeira edição do FlowCAP tevecomo foco testar exaustivamente a abordagem de autogating contra a abordagem manual,onde 14 softwares analizaram 5 bases de dados previamente classificados por especialistasdos campos da medicina e da imunologia. Ainda em (VERSCHOOR et al., 2015), asegunda edição da competição realizada por este consórcio, FlowCAP-II, promoveu umaabordagem mais prática, onde uma série de pacotes de software foram testados quanto àsua capacidade de classificar um conjunto de indivíduos com base em seus conjuntos dedados de CF.

    Conforme visto em Brinkman et al. (2016), dentre as principais contribuições doFlowCAP-IV, podemos citar o desenvolvimento de uma pipeline que utiliza modelos deregressão para entender o desenvolvimento clínico de pacientes diagnosticados com ovírus HIV, e uma outra pipeline que inclui os algoritmos flowType e flowDensity para,adicionalmente à análise de citogramas, incluir dados externos, como correlações entre aabundância celular com a sobrevida do paciente, o estado da doença, e a identificação defenotipos nas formas mais simples.

    Outra iniciativa de consórcio em busca de padronização das técnicas de análise deCF, desta vez com o foco em imunofenotipagem humana, está descrita em (FINAK et al.,2016).

  • 28 Capítulo 2. Revisão da literatura

    Como visto em (AGHAEEPOUR et al., 2013), diversas aplicações de softwaresdistintos implementando SVM que, durante a realização do FlowCAP, foram utilizadospara as seguintes atividades: a) aplicação de autogating com base em gating manual (RadialSVM); b) histogramas bidimensionais usando pares de canais de informações (2DhistSVM);c) agrupamento (clustering) baseado em densidade unindo SVM e um outro algoritmodenominado k-means (flowPeakSVM e KmeansSVM).

    Ainda sobre o uso de SVM durante o FlowCAP, Aghaeepour et al. (2013) ressaltaque os diversos algoritmos, como o RadialSVM por exemplo, não puderam ser aplicadospara todos os desafios propostos pelo consórcio, visto a limitação de necessitarem de dadosde treinamento para estabelecimento das regras de classificação.

  • 29

    3 Fundamentação Teórica

    3.1 O estudo do bacterioplâncton

    Bacterioplâncton são microorganismos procariontes, que vivem flutuando em ambi-entes aquáticos e geralmente não possuem meio próprio de locomoção (POMMIER, 2011).O termo bacterioplâncton, sempre no singular, diz respeito ao corpo flutuante formadogeralmente por bactérias, embora também são citadas grupos de archeas em sua compo-sição. Tanto bactérias quanto archeas desempenham um papel de estrema importânciana cadeia trófica do ambiente que estão inseridas, dado que desempenham funções deprodutores primários e de consumidores primários. Como podemos observar na Figura 2,a diversidade de composição das populações de bacterioplâncton é imensa. Na imagemvemos uma região de lagos no Pantanal brasileiro, conhecida como Nhecolândia, ondepraticamente cada lago possui uma coloração única, devido a ação dos corpos formadospor bacterioplâncton presentes em cada lago.

    Figura 2 – Região da Nhecolândia no Pantanal brasileiro.

    Nesta imagem fotográfica da região de lagos conhecida como Nhecolândia, observamosuma diversidade imensa de planctons e sua influência no ambiente como um todo. Fonte:Acervo.

  • 30 Capítulo 3. Fundamentação Teórica

    Em Araujo e Costa (2007) é definido como importante o monitoramento de popu-lações microbianas em reservatórios e açudes, isto é, em ambientes aquáticos em geral,devido o “... importante papel que desempenham na rede trófica planctônica” (ARAUJO;COSTA, 2007). Entende-se que estes desempenham papel importante no ciclo do oxigênio,na fixação de nitrogênio e no processo de nitrificação e desnitrificação dos ambientesaquáticos. Em (ROLAND et al., 2011) é descrito que bacterioplâncton tem papel crucialno estudo de produção de gases do efeito estufa, principalmente em reservatórios artificiaise propõe a verificação de índices de respiração bacteriana ao invés do índice de crescimentobacteriano para verificação do impacto dessas populações na produção mundial de gáscarbônico, por exemplo.

    Pommier (2011) destaca ainda que, somente nos oceanos, existem mais bactériasdo que o número de estrelas conhecidas e o papel do bacterioplâncton, enquanto biomassa,é definitivo para todo o ecossistema aquático, compreendendo a maior fração de atividadebiológica e ocupando diversos nichos biológicos.

    Observa-se que os microorganismos que compõem o grupo bacterioplâncton po-dem ser ou autótrofos ou heterótrofos, isto é, podem ou não depender da luz solar eda fotossíntese para seu próprio alimento. Segundo (MANTI; PAPA; BOI, 2012), emCitometria de Fluxo (CF), pode-se identificar e classificar estes organismos com base nascaracterísticas de espalhamento do laser (seja pela composição complexa da estrutura físicados organismos ou biomarcadores para certas partes bem conhecidas, como DNA) e dafluorescência (pigmentação natural ou artificialmente ativada de acordo com os objetivosdo estudo), tornando-os especialmente viáveis para análise através da CF.

    3.2 A análise de dados em CF

    3.2.1 A técnica de CF e os materiais utilizados

    Citometria de fluxo é uma técnica de análise que consiste de um aparato quecombina um meio de suspensão das partículas que se deseja analisar orientadas a um fluxolaminar, onde serão interceptadas por um feixe de luz (laser) uma a uma, permitindo umaanálise de diversos parâmetros a respeito de tais partículas (LEE; STOOLMAN; SCOTT,2012).

    A luz incidida sobre estas partículas gera diferentes difrações no laser, que sãopercebidas por diversos sensores espalhados perpendicularmente ao feixe de luz (apresentadona base de dados como o canal SSC, do inglês, side scatter) e um diametralmente opostoa origem do laser (gerando o canal FSC, do inglês, forward scatter).

    Além destes sensores, podem ser adicionados outros, por exemplo, podem serutilizados detectores de fluorescência para medir marcadores específicos, de forma que

  • 3.2. A análise de dados em CF 31

    estes passam a compor outros canais de dados (AGHAEEPOUR et al., 2013). Em umaabstração gráfica, podemos descrever esse processo conforme o exemplo na Figura 3,

    Figura 3 – Abstração gráfica da dispersão de luz em um citômetro de fluxo.

    É possível observar nesta figura o laser incidindo sobre uma partícula complexa e sendocaptado pelos sensores que por sua vez irão gerar os dados representados nos canaistanto de dispersão de laser (Forward Scatter, Side Scatter etc) quanto de fluorescências(representados como as cores que emergem do prisma gerando no grid as sombras coloridas).Fonte: BitesizeBio. Disponível em: https://bitesizebio.com/20123/seeing-is-believing-an-introduction-to-imaging-flow-cytometry. Acessado em: 12/09/2017.

    As fluorescências detectadas irão variar com base no espectro de luz onde atuam ena composição, que pode ser ou um corante e seus derivados ou uma proteína. Combinandoa assinatura de dispersão única de cada partícula suspensa e as frequências fluorescentesdos biomarcadores, faz-se possível analisar os mais diversos tipos de informações químicase físicas destas. os canais adicionais baseados na biofluorescência dos marcadores ou daspartículas observadas, podem receber por nome de identificação um código em série, comoFL1 (Fluorescence channel 1 ), FL2 (Fluorescence channel 2 ) e FL3 (Fluorescence channel3 ), significando ordinariamente cada sensor. Outra forma de identificar esses dados éutilizando um nome com base na substância ou nos fluoróforos utilizados, por exemplo:

  • 32 Capítulo 3. Fundamentação Teórica

    FITC, que pode ser representado pelos nomes de FITC, FITC-H ou simplesmente FL1,que é o sensor de fluorescência com sensibilidade de aproximadamente 496nm; São exemplotambém os marcadores PE, PI (Propidium Iodide) e OFP geralmente detectados pelosensor FL2 e, ainda mais relevante para este trabalho, os biomarcadores que atuam nafrequência do vermelho e atuam através do sensor FL3 identificando organismos queproduzem e/ou emitem clorofila, como os corantes PE-Cy5, PerCP e PerCP-Cy5.5, porexemplo.

    Neste trabalho, as principais fontes de informação para a análise realizada nasbases de dados são os canais side scatter - SSC, o FL1 e o FL3, pois são estas informaçõesque, de fato, durante todo o estudo, foram observadas pelo técnico na geração das basesde dados a partir do gating manual. O canal SSC é usado como filtro de tamanho, isto é,para indicar metricamente o grupo de interesse, dadas as dimensões dos microorganismosque se quer classificar. O canal FL1 traz informações com base na reflexão da luz porum biomarcador derivado que se liga ao DNA (dna-biding dye), e é excitado por umlaser com frequência de emissão na faixa do azul. O sensor FL3 recebe sinal de reflexãodo laser excitado pelo vermelho a fim de perceber luminescência a partir da presençade clorofila nos objetos estudados, indicando organismos autotróficos fotossintetizantes(através do fluoróforo PerCP-Cy5.5). A apresentação de DNA e a presença de clorofila sãocaracterísticas que identificam o grupo biológico estudado.

    3.2.2 A análise manual

    Com os arquivos digitais (chamados citogramas), fruto de cada análise realizadanas amostras selecionadas com o equipamento de citometria de fluxo, passa-se, em geral,para uma segunda fase de análise, a partir da qual, usando a abordagem de gating manual,são classificadas e separadas as informações ali contidas.

    A abordagem de gating manual consiste da habilidade de, através de um softwareque lê os dados gravados e exibe gráficos de dispersão com base nos canais selecionados, otécnico analista seleciona visualmente os dados que são de interesse daqueles dados quepodem ser considerados como ruído ou sujeira.

    Considerando essa maneira clássica para analisar os dados de um citograma defluxo, o pesquisador utiliza-se de um computador para gerar gráficos de dispersão e, atravésde um software específico, separa graficamente todos os conjuntos de pontos de interesse,isto é, aqueles dados tidos como sendo do padrão desejado. A partir da inspensão visual, oanalista segue desenhando bordas (gates) ao redor destes pontos, separando da informaçãorestante, considerada ruído. Isso pode ser feito sequencialmente no mesmo citogramaselcionando vários canais em cada etapa de visualização, como podemos ver no exemploda Figura 4. Por fim, é gerada uma nova visualização excluindo-se os dados de ruído(AGHAEEPOUR et al., 2013; BRINKMAN et al., 2016).

  • 3.2. A análise de dados em CF 33

    Figura 4 – Exemplo dos passos executados para análise de dados em CF.

    Nesta figura é possível observar os dados de um citograma sendo classificado a partir degating manual usando visualizações em gráficos de dispersão: A) com os canais que sedeseja analizar selecionados, nesse caso SSC e FL1; B) manualmente são desenhadas bordasao redor do grupo de interesse; C) isolando os primeiros dados, altera-se os canais devisualização para os próximos canais de análise desejados, nesse caso os canais FL1 e FL3;D) em seguida, inverte-se a posição de cada canal de modo a facilitar a visualização dasinformações; E) desenhando-se novas bordas, desta vez reduzindo ainda mais o conjunto dedados; F) visualização final com o grupo de interesse isolado do restante. Fonte: o autor.

    Nos citogramas que geraram as bases de dados utilizadas, os canais e dadosdisponibilizados são: FSC.H, SSC.H, FL1.H, FL2.H, FL3.H, FL1.A, FL1.W e Time (tempode exposição do sinal luminoso). Sobre a nomenclatura utilizada, foram discriminados emcada canal também que aspecto foi medido, isto é: se a intensidade máxima de pico dosinal (do inglês Height, como em FSC.H, SSC.H etc), se a área do pico do sinal (em inglês,Area como em FL1.A) ou ainda a largura de pico do sinal, em inglês Width, usualmentetido como a razão A/H (como em FL1.W). Dessa forma é possível, caso necessário, analizarmais de um aspecto de fluorescência de um biomarcador ou proteína, dando maior robustezà classificação realizada.

    Importante ressaltar aqui que, diferentemente do que aplica-se à classificação debacterioplâncton, outros canais de dados nos citogramas utilizados podem ser mais oumenos úteis na definição de padrões para outros microorganismos, ou para separação detodo o material biológico útil do lixo presente nas amostras coletadas (LEE; STOOLMAN;

  • 34 Capítulo 3. Fundamentação Teórica

    SCOTT, 2012). A escolha dos canais de dados utilizados no presente trabalho se devemexclusivamente a uma otimização aplicada para os casos selecionados nesse estudo.

    3.3 Estrutura e funcionamento do SVM

    3.3.1 Classificação de dados usando SVM

    A técnica de SVM pode ser usada como um conjunto de classificadores de dados quesejam linearmente separáveis ou não. De acordo com Chicco (2012), SVM é uma máquinalinear capaz de fornecer um bom desempenho em generalização de problemas de classificaçãode padrões, percebida como uma técnica, ou conjunto de algoritmos de aprendizadosupervisionado (HAYKIN, 2001), que se utiliza de transformações matemáticas e funçõesde kernel independentemente do domínio a ser analisado, permitindo sua utilização emdiferentes áreas para reconhecimento de padrões, classificação e agrupamento (do inglês,cluster) de dados.

    Essa característica inerente ao SVM, de transformar dimensionalmente os problemasapresentados, torna-o especialmente versátil e poderoso. Dado um determinado conjuntode elementos como entrada, e um conjunto de classes como saída, SVM irá tomar cadaelemento de entrada, e com base no aprendizado a partir destes, tentar classificá-los, istoé, predizer o pertencimento de cada elemento às classes de saída informadas (HAYKIN,2001; BODDY; WILKINS; MORRIS, 2001; WANG, 2002).

    Usar qualquer função de similaridade não garante um kernel válido. Existe anecessidade de se utilizar funções que satisfaçam o teorema de Mercer, onde condiçõestécnicas precisam existir de forma a garantir que a otimização ocorra, ao invés de divergir.Vemos em Takahashi (2012) que, de acordo com o teorema de Mercer, o kernel, definidocomo kij = k(xi, xj), deve ser uma matriz positiva definida, isto é, devem existir autovetoresmaior que 0 (zero) para todo i,j = 1, 2, 3, ..., n.

    Outra preocupação que se deve ter ao utilizar SVM para classificação de umconjunto de dados, é realizar um escalonamento nos dados, de forma a garantir que umadeterminada característica não se sobreponha a outra por conta dos valores de mediçãodestas variáveis (BODDY; WILKINS; MORRIS, 2001).

    A técnica de escalonamento é uma estratégia bem comum em bases de dados ondeos dados, quando são comparadas as variáveis, sejam muito discrepantes entre si. Paraefeito de exemplo imagine o caso de dados descrevendo um automóvel: pode-se ter umavariável de comprimento, em metros ou mesmo em centímetros, que seria completamentediferente (em escala) da variável preço, em Reais (R$) que facilmente chegaria aos seisdígitos na parte inteira do valor. Ao escalonar, permite-se a possibilidade de que cadavariável tenha a sua escala normalizada reduzindo assim a sua discrepância em relação às

  • 3.3. Estrutura e funcionamento do SVM 35

    outras.

    3.3.2 Funções de Kernel

    Dado um conjunto de treinamento, onde cada elemento está marcado como per-tencente a uma das classes de saída, o algoritmo de treinamento do SVM aplica a funçãokernel desejada pelo pesquisador, elevando as dimensões do conjunto de dados e, a partirdisso, consegue separar pontos que antes não seriam linearmente separáveis. Em seguida,com base nas transformações reversas, se constrói um modelo de predição que poderádeterminar a que categoria pertence quaisquer novos elementos que sejam apresentados(CHICCO, 2012). A Figura 5 ilustra um exemplo onde a função kernel é utilizada paraelevar a dimensão do problema apresentado.

    Figura 5 – Exemplo de aplicação de função kernel em SVM.

    Observa-se aqui que o problema original de classificação pertence a um plano, isto é, temduas dimensões e quando é aplicada uma transformação através de uma função de kernel,o problema passa a ser tratado como tridimensional, possibilitando que a partir de umhiperplano, também chamada de superfície de separação (do inglês, decision surface),seja realizada a correta classificação dos dados. Fonte: Blog Hacker Earth. Disponível em:http://blog.hackerearth.com/simple-tutorial-svm-parameter-tuning-python-r. Acessadoem: 12/09/2017.

    Uma das funções kernel mais comuns (TAKAHASHI, 2012), além das funções dekernel polinomiais e sigmoidais, e provavelmente a mais utilizada, é o kernel gaussianoou ainda RBF (do inglês, Radial Basis Function, função de base radial), onde podemosescrever a função como sendo:

    f = exp(−‖x1−x2‖

    2

    2σ2

    ), x ∈ R

  • 36 Capítulo 3. Fundamentação Teórica

    Além do kernel RBF encontramos diversas outras funções aplicadas no algoritmode SVM de acordo com os problemas a que se aplicam: kernel polinomial, string kernel,kernel chi-quadrado, kernel de interseção, histograma etc. (HAYKIN, 2001).

    3.3.3 Vetores de Suporte

    Após aplicada a função kernel e realizada as transformações dimensionais, quepermitam uma separação desses dados, são elencados os vetores de suporte (do inglês,support vector), isto é, aqueles pontos de análise que foram determinantes para a definiçãodas margens e a superfície, denominada hiperplano, que separa as classes de dadosdesejadas.

    O exemplo da Figura 6 permite visualizar detalhadamente um exemplo de como osvetores de suporte e a superfície de separação são aplicadas em um determinado conjuntobidimensional.

    Figura 6 – Abstração gráfica da aplicação de vetores de suporte na separação de dadoslinearmente e não-linearmente separáveis.

    Verifica-se que tanto em casos linearmente separáveis (a) quanto em casos não-linearmenteseparáveis (b), a técnica SVM cria superfícies com base nos vetores de suporte que melhordefinem uma margem de separação entre as classes de dados analisadas. Fonte: O autor.

    Esses vetores de suporte, que dão o nome à técnica, são então armazenados emum objeto denominado modelo de predição, juntamente com outras informações como osparâmetros da função, custo etc., de forma que este objeto possa então servir como umamáquina capaz de classificar quaisquer novos dados que lhe sejam apresentados.

  • 3.3. Estrutura e funcionamento do SVM 37

    Quando observa-se o comportamento espacial de algumas funções gaussianas, comovisto no exemplo da Figura 7, verifica-se semelhança com a análise baseada em gattingmanual de citogramas de fluxo. A maneira como os vetores de suporte se posicionam"ao redor"dos outros dados de uma determinada classe quase que imita as bordas deseleção realizadas manualmente pelo técnico analista através da abordagem manual usandosoftwares gráficos. Dada a natureza espacial dos dados analisados em citometria de fluxo,aliando-se à isso a possibilidade de flexibilização das funções gaussianas de personalizaçãode seus parâmetros, para a metodologia aqui proposta, será utilizado como método deSVM o kernel RBF.

    Figura 7 – Abstração gráfica da aplicação de uma função gaussiana do tipo RBF.

    Vemos que o comportamento espacial apresentado pelos vetores de suporte tem grandesemelhança com as bordas de seleção do gating manual utilizado em análise de dados deCitometris de Fluxo. Fonte: O autor.

  • 39

    4 Análise automatizada de dados de CF apli-cando técnicas de aprendizagem de má-quina.

    4.1 Passo a passo da metodologia proposta

    Como explicitado no exemplo da Figura 8, a metodologia proposta neste trabalhopode ser dividida em cinco passos simples, como apresentado ao longo deste capítulo. Ospassos são: Coleta, Amostragem, Rotulagem, Treinamento e Validação.

    Figura 8 – Esquema simplificado da metodologia proposta.

    Esquema da metodologia proposta, exibindo o passo-a-passo para o desenvolvimento deuma análise automatizada de citometria de fluxo usando uma abordagem de aprendizagemde máquina. Fonte: o autor.

    4.1.1 Coleta - preparação das bases de dados

    Em um primeiro momento, deve ser realizada uma seleção nas bases de dados decitogramas previamente rotulados usando gating manual, de forma a criar um repositórioatualizado e conciso com as informações padronizadas e consolidadas de maneira a garantirum cenário de análise ideal.

  • 40 Capítulo 4. Análise automatizada de dados de CF aplicando técnicas de aprendizagem de máquina.

    Os citogramas que irão gerar as bases de dados neste passo podem conter informa-ções variadas em grande número de canais de dados diferentes, podendo variar com basenas configurações do equipamento, das amostras utilizadas ou dos marcadores e sensoresescolhidos. Nem toda informação presente pode ser traduzida em dado útil na análiseautomatizada. Não existem garantias de que sequer estejam em uma escala normalizada.

    Só para exemplificar, observando os citogramas do estudo de caso que será exploradono Capítulo 5 onde, das oito variáveis encontradas em cada registro, foram selecionadasapenas três na realização do gating manual para compor as bases de dados, conformeos canais utilizados pelo técnico especialista, sendo estas descritas como as variáveis deentrada usadas para treinar o algoritmo e construir os modelos de predição. As oitovariáveis que descrevem os canais de dados para cada citograma receberam os nomes deFSC.H, SSC.H, FL1.H, FL2.H, FL3.H, FL1.A, FL1.W e Time, descritas anteriormente nasubseção 3.2.2. As observáveis selecionadas foram os canais SSC, FL1 e FL3.

    4.1.2 Amostragem - definição dos dados

    A seleção dos canais que irão produzir o modelo ou os modelos de predição para umaclassificação otimizada e eficiente como é desejado, é de suma importância. É importantetambém que esses dados possam traduzir, numa linguagem estatística, numérica, a naturezadas coisas que se quer classificar, como podemos ver no exemplo do parágrafo seguinte:

    Como observado no Capítulo 3, mantendo o exemplo dos citogramas de bacteri-oplancton, o canal de dados SSC contém as informações a respeito das medidas físicasdos organismos. O canal FL1 denota a presença, ou ausência, de uma estrutura físicaespecífica: o DNA. No canal FL3 estão presentes as leituras que informam sobre existênciade clorofila. Essas três variáveis centrais nos permitem abstrair o conjunto total dos dadospara uma análise mais simplificada, pois nos permite avaliar o tamanho dos organismosque compõem as amostras e se os mesmos possuem DNA, juntamente com a presençade clorofila, o que denotariam organismos fotossintetizantes autótrofos - uma descriçãoque significativamente representa as populações de bacterioplancton, conforme expostoanteriormente.

    Para garantir a isonomia analítica de cada variável, ou seja, reduzir a diferençaentre as variáveis e a sua influência na classificação final, pode ser aplicada uma regra denormalização, isto é, uma transformação, utilizando-se uma função (log10, p. e.), paratodos os registros, de todas as bases de dados, de forma a normalizar os valores de maneirageral, dando a todas as entradas o mesmo tratamento. Esta etapa de normalização podeser aplicada tanto em todas as variáveis originais ou somente naquelas selecionadas para acomposição das bases de dados que seguirão para os próximos passos.

  • 4.1. Passo a passo da metodologia proposta 41

    4.1.3 Rotulagem - identificação de dados

    Durante a consolidação das bases de dados (DB, do inglês Database), segue-se aseparação dos registros para cada classe desejada, de maneira a comporem novos arquivoscom todas as bases de dados rotuladas, criando mais uma variável, denominada label,na estrutura definida. Esta variável representa binariamente, isto é, através dos valores0 (zero) ou 1 (um), a classificação resultante do gating manual, sendo que os pontos deinteresse recebem valor 1 enquanto o restante recebe o valor 0.

    Dado que a abordagem proposta se baseia em uma técnica de aprendizagem demáquina nomeadamente supervisionada, a rotulagem, ou classificação prévia dos dadosestudados é uma fase importante que compõe o processo inicial da construção dos modelosde predição. Essa fase de preparação só pode ser descartada naquelas bases de dados ondese quer realizar a predição e servirão de alvo aos modelos classificadores.

    Obviamente pela característica de classificação inerente aos rótulos que são aplicadosa partir das classes de dados que se deseja obter, realizar testes preditivos com basesde dados em que já se conhece sua rotulagem permite avaliar a qualidade das prediçõesdaquele modelo sobre a base de dados alvo.

    4.1.4 Treinamento - aprendizado a partir dos dados

    De posse de todas as bases e o conhecimento prévio da natureza e das classesas quais pertecem os dados, é possível avançar para a fase de treinamento, onde um oumais modelos de predição podem ser construídos tendo por base o aprendizado construídoa partir dos dados. Em outras palavras, as bases de dados permitem que, através deum algoritmo computacional, seja possível uma ferramenta (software) automatizada"aprender"a classificar quaisquer novos dados que venham a ser apresentados.

    4.1.5 Validação - provando os dados

    A validação é a fase final da análise automatizada, através da qual verifica-se, apartir de alguns milestones pré-definidos, o quão robusto os modelos de predição utilizadossão para a classificação dos objetos analisados.

    É possível exemplificar a validação dos resultados obtidos, ilustrando a partir do usodos modelos de predição para classificar a base de dados DBA74, realizadas previamente àaplicação desta metodologia propostas e que guiou um melhor conhecimento a respeitodas bases utilizadas como estudo de caso.

    Foram criados dois modelos de predição sendo: a) ModeloBase #1 (compostopor 73 bases de dados) e b) ModeloBase #2 (composto de apenas 10 bases de dadosselecionadas de maneira aleatória). Quando observados os valores da classificação realizada

  • 42 Capítulo 4. Análise automatizada de dados de CF aplicando técnicas de aprendizagem de máquina.

    em duas etapas distintas, tem-se a conformação dada na Figura 9, em que comparamosas abordagens de gating manual e autogating usando SVM, sendo que o ModeloBase #1exibe uma média de taxa de erros de predição de 1,86%, ou seja, aqueles registros sãocomputados como falsos positivos ou falsos negativos.

    Figura 9 – Comparativo, em porcentagem (%), dos resultados de classificação quandoutilizada a base de dados DBA74 como objeto de testes.

    Comparativo (em %) entre os resultados de classificação automática e a abordagem degating manual. *Total de registros com erros de classificação em relação à abordagemutilizando gating manual. Fonte: o autor.

    Para os resultados apresentados pelo Modelo Base #2, verifica-se uma taxa deerro média de 3,35%, isto é, a percentagem de registros classificados de maneira diversa àclassificação empírica do técnico especialista. Quando falamos de erro de predição nos testesrealizados devemos ter em mente que o que consideramos erro de classificação, estamosdizendo da diferença entre o resultado do autogating computacional quando comparadocom o gating manual realizado pelo técnico.

  • 43

    5 Estudo de caso aplicando autogating comSVM para classificação de bacterioplânc-ton

    5.1 Preparação das bases de dados

    Alguns experimentos avulsos foram realizados inicialmente para identificação dosmelhores parâmetros de configuração do algoritmo, assim como determinar o conjuntoideal de bases de dados para os modelos de predição, de forma que não fosse demoradodemais o processo de análise, mas que o mesmo tivesse resultados satisfatórios. Com basenesses resultados preliminares, foi decidido que o ideal a ser trabalhado na construção dosmodelos de predição seriam 10 bases de dados para cada modelo, utilizando apenas osmesmos canais de informação (SSC, FL1 e FL3) utilizados pelos técnicos especialistas nogating manual, dado que nos experimentos onde foram utilizados até 73 bases de dadosem um único modelo de predição, ou na utilização dos demais canais dos registros, nãoforam obtidos resultados que, de acordo com os objetivos deste trabalho, justificassem talabordagem. De fato, a taxa de acerto não superou 2% de diferença para a estratégia aquiadotada, enquanto que a demora na execução dos testes chegou a consumir 6 vezes maistempo.

    Por conseguinte, foi efetuada uma Pipeline, onde reuniu-se 74 bases de dados deamostras provenientes de 19 lagos de uma mesma região geográfica (fronteira entre Espanhae França), sendo que foram usadas, para a construção de cada modelo de predição, apenas10 bases de dados selecionadas de maneira aleatória, o que gerou modelos enxutos, menoscomplexos do que aqueles dos primeiros experimentos.

    De forma a identificar univocamente todas as bases de dados e os modelos depredição, foram adotadas as seguintes nomenclaturas para cada: a) DBA#, isto é, asletras DBA seguidas de um número, para indicar as bases de dados do conjunto inicialde 74 citogramas, como por exemplo, DBA74 (Base de dados no 74); b) MP#, isto é, asletras MP seguidas de um número, para indicar os modelos de predição criados a partirdos conjuntos de bases de dados, como será explicado mais adiante (por exemplo MP10,significando o modelo de predição no 10).

    Esta pipeline contou com uma fase de testes, onde foram realizadas dez rodadas declassificação de algumas bases de dados que não faziam parte da composição dos modelos,de modo a se obter uma média comparada entre a classificação automática e o gatingmanual, também possibilitando medir o custo computacional, isto é, o tempo que foi

  • 44 Capítulo 5. Estudo de caso aplicando autogating com SVM para classificação de bacterioplâncton

    necessário para o algoritmo realizar a classificação, ainda que, na prática, o tempo deexecução do autogating não seja uma problemática real da motivação desta metodologia.

    Como fase posterior à obtenção dos resultados de classificação a partir da execuçãodeste estudo de caso, foi aplicado um método de análise estatística, denominado PCA(do inglês, Principal Component Analysis, análise dos componentes principais), para umentendimento mais aprofundado a respeito da estrutura final dos modelos de predição e acorrelação entre os canais que os compunham. Esta análise serviu de base para a discussãoque é apresentada no Capítulo 6 a seguir. A técnica recebe o nome de PCA devido àestratégia de realizar combinações lineares entre as variáveis originais na busca daquelascomponentes que respondem com maior propriedade pela variação dos dados.

    5.2 O Estudo de Caso

    5.2.1 Coleta

    Conforme Sarmento et al. (2015) as amostras foram coletadas entre os dias de 17a 24 de junho de 2008 sendo que para cada lago foi coletada pelo menos uma amostraem cada uma das seguintes camadas: a) Micro-camada da superfície (do inglês, SurfaceMicro Layer, SML) os primeiros 400 micrômetros, aproximadamente; b) Até 0.5 metros deprofundidade – considerada a camada de superfície – c) Entre 2m a 30m de profundidade,obedecendo a profundidade equivalente ao índice DCM, profundidade máxima de clorofilano verão, que varia de lago para lago. Convém relatar que os dados foram obtidos em umperíodo daquele ano onde receberam o máximo de irradiação solar.

    Após a coleta, todas as amostras foram analisadas por um citômetro de fluxo, comobjetivo principal de identificar estruturalmente as diferentes comunidades microbiológicas,sendo os principais grupos contidos os neuston (que vivem na SML, que faz interfaceágua/ar), sendo possível encontrar mesmo os menores piconeuston (com menos de 2 micrô-metros). Enquanto que picoplâncton, bactérias e archeas (principalmente Crenarchaeota eEuryarchaeota) são encontradas não somente na SML, mas nas outras camadas também.

    Os dados que foram utilizados para montagem dos modelos de predição e paraconjuntos de testes foram todos previamente analisados por um técnico especialista doLaboratório de Limnologia do Departamento de Oceanografia e Limnologia da UniversidadeFederal do Rio Grande do Norte – UFRN, através do protocolo descrito por Gasol e Morán(2015).

    As coletas iniciais geraram diversas análises em citômetro de fluxo, o que resultouem um total de 74 citogramas, aqui denominados bases de dados, onde cada registro écomposto de oito observáveis (variáveis dispostas em colunas que compõem cada registro)e possuem informações de dispersão do laser (FSC.H, SSC.H), refração de certos espectros

  • 5.2. O Estudo de Caso 45

    de luz (FL1.H, FL2.H, FL3.H, FL1.A, FL1.W) e até mesmo o tempo de exposição (Time)de cada análise para a detecção daquele sinal que originou o registro.

    5.2.2 Amostragem

    As bases de dados resultantes variam em quantidade de registros, de acordo com omaterial presente nas amostras de origem, sendo a menor base de dados aquela identificadacomo DBA31, composto por 9.715 (nove mil, setecentos e quinze) registros, enquanto amaior, a base de dados DBA51, tem um total de 556.139 (quinhentos e cinquenta e seismil, cento e trinta e nove). Verifica-se que cada registro é composto de oito observáveis, ouseja, possuem oito canais de valores diferentes, o que pode levar a atingir, se contar, porexemplo, a base de dados DBA51, a um total de 4.449.112 (quatro milhões, quatrocentose quarenta e nove mil, cento e doze) pontos de análise como entrada para o algoritmo,somente desta amostra.

    Essa variação se dá principalmente pela característica mista da solução analisadano citômetro de fluxo, onde grande parte dos dados são ruído de configurações do equi-pamento ou outros equívocos provocados por composição das amostras, como materialgenético diverso, moléculas complexas ou material biológico semelhante a vírus etc. (LEE;STOOLMAN; SCOTT, 2012; GASOL; MORÁN, 2015). O Anexo A exibe uma tabelacom o quantitativo de registros para cada base de dados.

    Tomando a base de dados DBA74 como exemplo dessa diferença entre sinal/ruídopresente na amostragem de dados, indentificou-se 6.866 (seis mil, oitocentos e sessentae seis) registros classificados como sinal (label = 1 ) contra 57.278 (cinquenta e sete mil,duzentos e setenta e oito) registros classificados como ruído (label = 0 ), o que nos dáuma razão de aproximadamente 1:8 (um para oito), isto é, para cada registro positivo,temos pelo menos oito registros classificados como ruído. A métrica da relação sinal/ruídoexibe alguns detalhes qualitativos a respeito das bases de dados e, consequentemente, dasamostras. Por exemplo, a base de dados DBA51 possui 58 vezes mais ruído do que sinal,enquanto que as bases de dados DBA30 e DBA44 são as únicas onde a quantidade deregistros positivos superam a quantidade de ruído.

    Dessa maneira, podemos afirmar que enquanto as amostras que geraram as basesde dados DBA30 e DBA44 tem uma excelente qualidade, aquela que gerou a base de dadosDBA51, é definitivamente uma amostra suja. A Tabela 9, presente no Anexo A, exibe arazão sinal/ruído para as bases de dados indentificadas como DBA#. É importante terem mente, porém, que esta classificação vem da abordagem de gating manual e serviu decontraponto para o resultado obtido através do gating automatizado, já que possibilitou aquantificação do número de registros que foram classificados usando os modelos de prediçãoconstruídos, como será exposto no Capítulo 6, Resultados e Discussão.

  • 46 Capítulo 5. Estudo de caso aplicando autogating com SVM para classificação de bacterioplâncton

    A Figura 10 a seguir exibe graficamente a relação sinal/ruído em todas as 74 basesde dados do conjunto inicial referente às amostras coletadas nos lagos dos Pirineus. NaFigura 10, a altura máxima da barra corresponde aos dados totais (quantidade de pontosna base de dados), enquanto que a cor laranja corresponde a quantidade de ruído, isto é,registros que, ao serem processados, devem ser descartados, sendo complementada pela corazul, que indica quantos pontos de interesse, isto é, sinal, estão presentes naquela base dedados.

    Figura 10 – Gráfico quantitativo da razão sinal/ruído por base de dados.

    Nesta imagem observa-se um gráfico de barras onde pode-se comparar a quantidade deregistro por cada base de dados, sendo que cada barra representa uma base de dados, acor laranja denota a quantidade de ruído, enquanto que a cor azul representa os pontos deinteresse, isto é, sinal presentes nas amostras. Fonte: o autor.

    5.2.3 Rotulagem

    Em uma representação tabular, vemos os registros de leitura como cada linha databela, compostos pelas observáveis que são os canais de dados candidatos a serem anali-sados pelo algoritmo de aprendizagem. Cada registro pode ser visualmente representadoem partes, usando duas dimensões, em um gráfico de dispersão como os diversos pontosespalhados por todo o plano cartesiano.

    Exemplos de visualização de um citograma na representação gráfica e no modotabular podem ser observados na Tabela 1 e na Figura 11, respectivamente.

    Na Tabela 1, encontramos alguns exemplos de registros constituídos das observáveisSSC, FL1 e FL3, além da classificação dada pelo analista usando gating manual (a colunalabel) utilizada como base neste trabalho. Os passos finais de organização e consolidaçãodos dados e a classificação utilizada como parâmetros de entrada no algoritmo de SVMforam realizados seguindo o mesmo protocolo descrito por (GASOL; MORÁN, 2015) naconstrução das bases de dados individuais para cada citograma.

  • 5.2. O Estudo de Caso 47

    Figura 11 – Gráfico resultante da separação dos dados de interesse com gating manual.

    Nesta imagem observa-se um gráfico de dispersão usando as variáveis FL1 e SSC da basede dados DBA74. Os dados exibidos na imagem são somente os classificados positivamentecomo sendo os objetos de interesse do pesquisador, no caso da análise realizada no presentetrabalho, os microorganismos do grupo bacterioplâncton presentes na amostra. Fonte: oautor.

    Tabela 1 – Visão tabular parcial da base de dados DBA74.

    SSC FL1 FL3 label2,5234375 1,1757813 1,8476562 12,4140625 1,4609375 1,8789063 12,6210937 1,7656250 2,2070313 12,4257813 1,3476526 1,8750000 12,0156250 0,5703125 1,0742188 01,9804687 0,3593750 1,0703125 0

    Nesta tabela, tem-se uma visão de como os dados dos citogramas, após serem classificadosmanualmente, estão representados nas base de dados. É possível perceber as observáveisSSC, FL1 e FL3, além da classe (label) a que pertence cada registro, onde label = 1 é odado de interesse e label = 0 representa ruído, sujeira, dados a serem descartados no final.Fonte: o autor

    5.2.4 Treinamento

    A Figura 12 exibe, para cada base de dados, em quantos modelos de prediçãocada DB foi utilizada. Aquelas bases de dados que não foram utilizadas nos modelos depredição, ou seja, exibem a quantidade 0 (zero) foram, naturalmente, a escolha ideal paraa realização dos testes de classificação. É possível observar na Tabela 2 quais bases dedados compuseram cada modelo de predição desta etapa.

  • 48 Capítulo 5. Estudo de caso aplicando autogating com SVM para classificação de bacterioplâncton

    Figura 12 – Gráfico quantitativo do uso de cada base de dados nos modelos de predição.

    Nesta imagem observa-se a relação de quais bases de dados foram utilizadas nos modelosde predição, inclusive quantos modelos utilizou cada DB. Fonte: o autor.

    Tabela 2 – Distribuição, por modelo de predição, das bases de dados que os compoem.

    Modelos depredição

    Bases de dados

    MP1 DBA5, DBA16, DBA20, DBA21, DBA22, DBA30,DBA37, DBA58, DBA61, DBA63

    MP2 DBA7, DBA14, DBA19, DBA25, DBA47, DBA49,DBA52, DBA56, DBA57, DBA63

    MP3 DBA1, DBA5, DBA8, DBA10, DBA14, DBA25, DBA58,DBA59, DBA70, DBA71

    MP4 DBA8, DBA17, DBA22, DBA46, DBA46, DBA61,DBA62, DBA63, DBA68, DBA71

    MP5 DBA2, DBA10, DBA12, DBA17, DBA37, DBA38,DBA43, DBA45, DBA71, DBA72

    MP6 DBA1, DBA10, DBA13, DBA18, DBA19, DBA32,DBA36, DBA44, DBA57, DBA64

    MP7 DBA10, DBA18, DBA22, DBA42, DBA44, DBA45,DBA46, DBA51, DBA55, DBA65

    MP8 DBA2, DBA25, DBA28, DBA29, DBA36, DBA39,DBA41, DBA51, DBA66, DBA72

    MP9 DBA2, DBA22, DBA26, DBA40, DBA41, DBA46,DBA51, DBA58, DBA62, DBA64

    MP10 DBA4, DBA11, DBA18, DBA19, DBA21, DBA22,DBA26, DBA30, DBA65, DBA66

    Nesta tabela, é possível visualizar como cada modelo de predição foi composto nesta etapa.As bases de dados foram escolhidas aleatoriamente em grupos de 10 sem repetição debases dentro de um mesmo grupo. Fonte: o autor

    5.2.5 Validação

    Como dito anteriormente, a fase de validação consiste no estudo dos resultadosalcançados e verificação, a partir das métricas pré-existentes, o sucesso da predição realizadapelos modelos construídos nas bases de dados submetidas ao teste de classificação. Paraefeito de formato da estrutura deste documento de dissertação de mestrado, a validação

  • 5.3. O ambiente computacional 49

    desta pipeline será apresentada no Capítulo 6.

    5.3 O ambiente computacionalO próximo passo, após a preparação e consolidação dos dados, foi a análise compu-

    tacional a que este trabalho se propõe, que se deu utilizando-se a suíte de ferramentasestatísticas R e alguns pacotes disponíveis, como por exemplo o pacote e1071 (MEYER etal., 2017), que fornece implementação do algoritmo SVM, possibilitando uma análise eclassificação de grupos de bacterioplâncton presentes nas amostras, através de definição dediversos modelos de predição baseados nos dados coletados.

    De acordo com R Core Team (2016), R é um ambiente de software livre paracomputação estatística e gráficos. Pacote é o termo usado para identificar diversos softwa-res e rotinas escritos em diversas linguagens de programação, que são disponibilizadosabertamente em repositórios na internet, para a realização de tarefas rotineiras ou comoaplicação de metodologias e algoritmos amplamente conhecidos.

    O sistema de computação utilizado para o desenvolvimento deste trabalho: aplicaçãoda metodologia proposta, a produção e análise dos resultados, é composto, principalmente,dos seguintes dispositivos:

    • Processador Intel Core i5 de sétima geração, clock básico de 3GHz, 6MB de memóriacache e 4 núcleos de processamento, embora não tenha sido feito o uso de computaçãoparalela;

    • Memória principal modelo DDR4, com velocidade de 2400MHz e capacidade dearmazenamento de 16GB;

    • Unidade de armazenamento do tipo dispositivo de estado sólido (SSD, do inglês,solid state drive), da marca Kingston, com interface de conexão de 6Gb/s e taxas detransmissão de dados de até 500MB/s para leitura e 320MB/s para gravação.

  • 51

    6 Resultados e Discussão

    6.1 Da importância das variáveis selecionadasNos testes iniciais, que levaram ao desenvolvimento da metodologia proposta, foram

    analisadas, utilizando um algoritmo de PCA, as relações entre as variáveis que compunhamdois tipos básicos de modelos de predição, inicialmente construídos e testados com oobjetivo de validar a operacionalidade e viabilidade das metodologias possíveis para essadissertação de mestrado. Estes modelos de predição utilizados como uma forma de mediro desempenho das abordagens que vieram a fazer parte da metodologia deste trabalho. Oprimeiro tipo de modelo de predição, foram compostos de 73 bases de dados cada e é aquiidentificado como Modelo Base #1, enquanto que os do segundo tipo, compostos deapenas 10 bases de dados, foram denominados como Modelo Base #2.

    A Tabela 3 exibe as relações das componentes encontradas (PC1, PC2 e PC3),quando executado o algoritmo PCA, com intuito de entender como se comportam os dadosem relação principalmente à proporção de variância e desvio padrão no Modelo Base #1,enquanto a Tabela 4 mostra as mesmas relações no Modelo Base #2.

    Tabela 3 – Comparativo, a partir da análise de PCA no Modelo Base #1, indicando aimportância de cada componente.

    Análise PC1 PC2 PC3Desvio padrão 1,5093 0,6842 0,50380Proporção de variância 0,7593 0,1561 0,08461Proporção cumulativa 0,7593 0,9154 1,0

    Tabela 4 – Comparativo, analisando com PCA o Modelo Base #2, indicando a importânciade cada componente.

    Análise PC1 PC2 PC3Desvio padrão 1,5451 0,6754 0,39555Proporção de variância 0,7958 0,1520 0,05215Proporção cumulativa 0,7958 0,9478 1,0

    Ao observar a proporção de variância das componentes principais em ambos modelosde predição, é possível verificar que as componentes principais PC1 e PC2 explicam comum grau elevado de variância os objetos analisados, sendo que no Modelo Base #1 avariância acumulada nessas componentes somadas é de 91,5% e no Modelo Base #2 somam94,7%.

  • 52 Capítulo 6. Resultados e Discussão

    No Modelo Base #1 indentifica-se uma correlação negativa alta da PC1 com oscanais FL1 (-0,5776) e FL3 (-0,6044), e uma correlação positiva alta da PC2 com o canalSSC (0,7994). Já para o Modelo Base #2, a componente PC2 tem uma alta correlaçãonegativa para o canal SSC (-0,7029) e positiva para o canal FL1 (0,7112), enquanto que acomponente PC1 exibe uma correlação alta positiva para o canal FL3 (0,6149). A Tabela 5permite observar a relação de cada variável de entrada com as componentes principaisno modelo de predição denominado Modelo Base #1 e na Tabela 6 têm-se as relaçõescorrespondentes ao Modelo #2.

    Tabela 5 – Comparativo entre as variáveis do modelo de predição Modelo Base #1, indi-cando a importância de cada canal.

    CANAIS PC1 PC2 PC3SSC -0,5485940 0,7994021 -0,2449510FL1 -0,5776824 -0,5742052 -0,5801478FL3 -0,6044235 -0,1767617 -0,5801478

    Tabela 6 – Comparativo entre as variáveis do Modelo Base #2, indicando a importânciade cada canal.

    CANAIS PC1 PC2 PC3SSC 0,5583291 -0,702958376 -0,4405884FL1 0,5569242 0,711206811 -0,4289759FL3 0,6149017 -0,005864576 0,7885820

    As correlações, conforme encontramos nas tabelas Tabela 3 e Tabela 4, nos permitemobservar a importância de cada uma das variáveis que compõem as bases de dados originais.Podemos notar que as componentes PC1 e PC2 são responsáveis por explicar mais de 90%dos dados, o que reforça a ideia da importância destas. Por outro lado, na Tabela 5 eTabela 6 verificamos as correlações das componentes com os principais canais de dadosdas bases de dados.

    Dando continuidade no desenvolvimento dos novos modelos de predição, dessavez selecionando aleatoriamente 10 grupos de 10 bases de dados cada, conforme expostoanteriormente, chegamos aos resultados que demonstram o sucesso da metodologia propostaem conformidade com as expectativas iniciais dos questionamentos que levaram a estetrabalho.

    A Tabela 7 exibe, correlacionando cada base de dados (DBA#) que serviu de testepara cada modelo classificatório de predição (MP#), as taxas de erro de predição (emporcentagem). O resultado com a menor taxa de erro de predição foi 0,23%, obtido aoaplicar o modelo MP6 para predizer os dados da base de dados DBA24, enquanto que o

  • 6.2. Como medir qualitativamente os resultados obtidos 53

    pior resultado encontrado foi 9,19% com a classificação realizada pelo modelo MP7 nabase de dados DBA35.

    Tabela 7 – Taxas de erro de predição utilizando SVM por Modelos de Predição (MP#) eBases de Dados (DBA#) em porcentagem (%).

    DBA3 DBA6 DBA15 DBA24 DBA27 DBA33 DBA35 DBA48 DBA50 DBA74MP1 4,29 6,38 0,96 1,43 7,16 3,6 6,06 1,19 0,93 0,76MP2 4,85 7,67 1,23 1,37 6,56 5,42 5,47 1,22 0,81 0,41MP3 2,04 4,31 0,69 0,51 6,18 1,45 5,77 1,19 0,51 0,97MP4 3,7 6,8 0,85 1,11 7,38 3,32 3,13 1,07 0,65 0,6MP5 1,84 4,05 1,13 0,53 6,67 2,04 6 1,93 0,49 0,87MP6 1,76 3,61 1,04 0,23 7,35 1,6 1,23 1,27 0,68 0,96MP7 1,92 4,44 1,48 0,71 7,9 2,33 9,19 4,29 1,58 2,54MP8 3,06 6,23 0,91 0,81 5,01 3,6 5,49 3,75 0,79 2,33MP9 2,29 5,51 1,02 0,81 4,79 3,13 8,91 3,6 0,8 2,06MP10 2,43 4,75 0,27 0,33 4,11 2,4 5,89 0,59 0,28 0,62DESVIOPADRÃO

    1,14 1,35 0,32 0,41 1,27 1,19 2,34 1,34 0,35 0,78

    MÉDIA 2,84 5,38 0,96 0,78 6,31 2,89 5,71 2,01 0,75 1,21Nesta tabela, é possível observar os resultados obtidos a partir da análise de dez bases dedados não utilizadas anteriormente, sendo todas testadas contra a classificação sugeridapor cada modelo de predição. Fonte: o autor

    6.2 Como medir qualitativamente os resultados obtidosPara a aplicação prática da metodologia apresentada, necessita-se entender - qualita-

    tivamente - os resultados obtidos, isto é, não apenas as quantidades devem ser consideradas,mas a qualidade dos números obtidos também deve ser condizente com o objetivo desejado.Portanto se faz necessário aplicar uma medida de qualidade para tais resultados, de formaa entender o quanto a acurácia dos classificadores se aproxima do que é entendido comoideal.

    Primeiramente é necessário entender que existem, na predição dos dados analisados,quatro possibilidades de definição quanto à predição, sendo elas: a) PV - positivo verdadeiro(quando a predição classifica como positivo um dado que de fato é positivo); b) FP – falsopositivo (quando um dado é erroneamente classificado como positivo); c) NV – negativoverdadeiro (se o dado negativo é classificado corretamente como negativo pela predição)e d) FN – falso negativo (quando um dado originalmente positivo é predito como sendonegativo).

    Neste trabalho, foi aplicada uma medida considerada qualitativa, chamada Cluste-ring F-measure, conforme proposto em Aghaeepour et al. (2013), tida como sendo a médiaharmônica entre precisão e revisão (do inglês precision e recall). Para calcular o índice deprecisão (Pr) proposto por Aghaeepour (2013) utiliza-se PV/(PV+FP) enquanto que para

  • 54 Capítulo 6. Resultados e Discussão

    calcular o índice de revisão (Re) é usada a equação PV/(PV + FN). A medida F-measure(definida aqui simbolicamente pela letra F) pode ser calculada da seguinte maneira: F =(2 x Pr x Re)/(Pr + Re). As medidas de F-measure estarão sempre no intervalo entre 1(um) e 0 (zero), sendo o valor 1, o indicativo de uma predição perfeita (AGHAEEPOURet al., 2013).

    Seguindo a equação proposta, foram executados nos resultados de testes de prediçãoo cálculo de tais medidas para observar a acurácia dos mesmos, onde podemos observarna Tabela 8, a relação de modelos de predição e banco de dados e os seus respectivosresultados qualitativos.

    Tabela 8 – Índice Qualitativo F-Measure por Modelos de Predição (MP#) e Bases deDados (DBA#) em porcentagem (%).

    DBA3 DBA6 DBA15 DBA24 DBA27 DBA33 DBA35 DBA48 DBA50 DBA74MP1 0,85 0,88 0,93 0,94 0,85 0,93 0,90 0,93 0,84 0,83MP2 0,85 0,85 0,95 0,95 0,86 0,90 0,90 0,96 0,89 0,91MP3 0,92 0,92 0,93 0,95 0,85 0,97 0,91 0,93 0,85 0,85MP4 0,88 0,87 0,94 0,95 0,85 0,94 0,95 0,94 0,87 0,87MP5 0,94 0,92 0,93 0,95 0,83 0,96 0,90 0,92 0,87 0,91MP6 0,94 0,93 0,93 0,95 0,82 0,97 0,96 0,93 0,86 0,87MP7 0,94 0,91 0,91 0,95 0,81 0,95 0,85 0,87 0,84 0,82MP8 0,91 0,88 0,95 0,96 0,88 0,94 0,90 0,90 0,89 0,84MP9 0,93 0,90 0,94 0,96 0,88 0,94 0,85 0,90 0,88 0,86MP10 0,91 0,91 0,96 0,96 0,89 0,95 0,90 0,97 0,88 0,90MÉDIA 0,91 0,90 0,94 0,95 0,85 0,95 0,90 0,92 0,87 0,87DESVIOPADRÃO

    0,03 0,03 0,01 0,01 0,03 0,02 0,04 0,03 0,02 0,03

    Nesta tabela, observamos a correlação, entre modelos de predição e as bases de dadostestadas, através da medida F-measure, onde os valores próximos de 1 significam melhoresresultados (exceto no caso dos desvios padrões, que seguem lógica inversa). Fonte: o autor

    6.3 Mais um pouco sobre os dadosTambém para entender a natureza das informações presentes nas bases de dados

    utilizadas para análise de ambientes aquáticos, é possível observar, ainda usando a base dedados DBA74 de exemplo, conforme visto na Figura 13, de que maneira a densidade dosregistro se comporta no estágio inicial, sem classificação, e posterior à classificação, ondeisolamos apenas os dados identificados como positivos para os grupos de bacterioplânctonalvo deste estudo.

    No Anexo B encontra-se uma compilação de gráficos de densidade abrangendo as74 bases de dados do conjunto inicial.

    A análise de gráficos de densidade a partir das bases de dados estudadas denotamum comportamento que denuncia a principal dificuldade nos algoritmos de classificação em

  • 6.3. Mais um pouco sobre os dados 55

    Figura 13 – Comparativo de densidade dos dados antes e depois da classificação manual.

    (a) Densidade comparativa da base de dados 74, con-siderando todos os registros.

    0

    1

    2

    3

    0 1 2 3

    Valores por canal

    Den

    sida

    de

    Canais

    SSC

    FL1

    FL3

    (b) Densidade dos dados na base de dados 74, classi-ficados como bacterioplâncton (sinal).

    0

    1

    2

    3

    0 1 2 3

    Valores por canal

    Den

    sida

    de

    Canais

    SSC

    FL1

    FL3

    Nesta figura é possível visualizar os dados referentes ao citograma 74 e verificar o quãocomplexo pode se tornar a análise das amostras, visto que os gráficos de densidadeobservados denotam a sobreposição dos dados de cada canal. Fonte: o autor.

    realizar a separação desejada: uma parcela significativa dos dados presentes nos registrosse sobrepõem, isto é, tem uma similaridade muito acentuada, fazendo com que uma partedesses registros sejam apontados ou como falso-positivos ou como falso-negativos, isto é,sejam classificados de forma equivocada pelo algoritmo aplicado.

  • 57

    7 Conclusão

    Esta dissertação de mestrado descreveu o desenvolvimento e a aplicabilidade deuma metodologia baseada em uma pipeline, que aplica a abordagem de aprendizagemcomputacional denominada SVM em dados de citometria de fluxo, obtendo resultadosnotadamente positivos e em grande medida satisfatórios. Os resultados apresentadosdemonstram a viabilidade, com um grau de confiança bastante elevado (92,33% de acertono pior cenário), da utilização de softwares baseados em aprendizagem computacional,para a realização de classificação e identificação de populações de bacterioplâncton emamostras de ambientes aquáticos. Isso demonstra que a metodologia proposta, bem como oferramental utilizado, obteve sucesso na tese que originou a motivação deste trabalho, isto é,da possibilidade em aplicar a estratégia de autogating de maneira apropriada com modelosde predição gerados a partir da abordagem manual utilizando o algoritmo conhecido comoSVM.

    Observou-se também que n�