Análise Discriminante Linear

download Análise Discriminante Linear

of 8

description

A expressão Análise Discriminante tem sido utilizada para identificar diversas técnicas multivariadasque, no entanto, têm um objectivo comum. Parte-se do conhecimento de que os n indivíduos observadospertencem a diversos subgrupos e procura-se determinar funções das p variáveis observadas que melhorpermitam distinguir ou discriminar entre esses subgrupos ou classes.

Transcript of Análise Discriminante Linear

  • Captulo 3

    Anlise Discriminante Linear

    A expresso Anlise Discriminante tem sido utilizada para identificar diversas tcnicas multivariadas

    que, no entanto, tm um objectivo comum. Parte-se do conhecimento de que os n indivduos observados

    pertencem a diversos subgrupos e procura-se determinar funes das p variveis observadas que melhor

    permitam distinguir ou discriminar entre esses subgrupos ou classes.

    3.1 Introduo

    Como foi visto no Captulo 2, Componentes Principais no so necessariamente boas solues para efeitos

    de discriminao, pois as direces de variabilidade principal no tm que coincidir com as direces

    de melhor discriminao. Em Anlise Discriminante coloca-se explicitamente o objectivo de separar

    subgrupos de individuos, subgrupos esses que so previamente conhecidos nos dados observados.

    Neste Captulo ser abordada uma tcnica discriminante, vlida no contexto descritivo onde nos situ-

    amos, conhecida por Anlise Discriminante Linear, ou de Fisher. Existem outras tcnicas discriminantes,

    nomeadamente tcnicas que se baseiam em modelos probabilisticos, que no sero abordadas aqui. A

    discriminao de Fisher tem a virtude de ser facilmente visualizvel em termos geomtricos. Alm disso,

    no exige hipteses adicionais (ao contrrio das tcnicas baseadas em modelos probabilisticos). Tem

    tambm a vantagem de permitir discriminar mais que dois diferentes sub-grupos (classes) sem grande

    complexidade, facto que nem sempre se verifica nos mtodos baseados em consideraes inferenciais.

    Na Anlise Discriminante de Fisher procuram-se as combinaes lineares Xa das p variveis observadas

    que melhor separem os subgrupos de individuos indicados, segundo um critrio de separabilidade que

    adiante se discute em mais pormenor.

    As solues Xa obtidas designam-se eixos discriminantes ou tambm variveis cannicas1. Podem

    1Embora tal designao aparea tambm associada a um conceito completamente diferente, no mbito duma tcnica

    designada Anlise das Correlaes Cannicas.

    90

  • 3.2. O MTODO EM MAIS PORMENOR

    ser utilizados para obter uma representao grfica que saliente a distino entre as classes. E podem

    tambm ser de utilidade para classificar futuros indivduos (observados nas mesmas variveis), do qual

    seja desconhecido partida o subgrupo a que pertence.

    Na Seco 3.2 descreve-se de forma mais pormenorizada o mtodo.

    3.2 O mtodo em mais pormenor

    O ponto de partida para uma Anlise Discriminante uma matriz X de dados observados, mas desta vez

    acompanhada pelo conhecimento de que os n indivduos observados se distribuem por k classes (gerando

    uma partio, i.e., cada indivduo pertence a uma e uma s classe). Neste contexto (e ao

    contrrio da notao usada no Captulo 2 sobre Anlise em Componentes Principais) designamos por

    X a matriz de dados sem centragem prvia das colunas.

    O critrio que preside determinao de solues na Anlise Discriminante de Fisher baseia-se na seguinte

    ideia: de entre as possveis combinaes lineares Xa das variveis observadas, pretende-se

    escolher aquela em que os indivduos de cada classe se tornam mais homogneos, e as

    diversas classes se tornam mais heterogneas entre si; por outras palavras, pretendemos que os

    valores dos ni indivduos da i-sima classe na varivel y = Xa sejam parecidos, e claramente distintos

    dos valores que os restantes indivduos (no pertencentes classe i) assumem, nessa combinao linear.

    Ver-se- em seguida que a soluo envolve uma projeco ortogonal da matriz dos dados cen-

    trados sobre o subespao gerado pelas colunas indicatrizes da constituio de cada classe.

    De facto, considere-se a matriz C, cuja i-sima coluna uma coluna indicatriz de pertena ao i-simo

    subgrupo de indivduos2. Admitindo (sem perda de generalidade) que os indivduos duma mesma classe

    esto arrumados sequencialmente, a matriz C ter o aspecto indicado na equao (3.1).

    2Esta matriz desempenha o papel que, no contexto da Anlise de Varincia desempenhado pela matriz do delineamento.

    Nesse contexto, opta-se por construir uma matriz do delineamento com uma coluna de uns, e, para evitar os problemas de

    multicolinearidade, as restantes colunas eram dadas pelas variveis indicatrizes de todos os nveis do Factor menos um. Esta

    opo justificada, na disciplina de Modelao Estatstica I, pelo facto de ser a que melhor se generaliza para ANOVAs com

    mais do que um Factor, e melhor permitir a integrao da ANOVA no mbito geral do Modelo Linear. Mas neste contexto,

    em que apenas existe um nico Factor (os subgrupos) no existe a necessidade de assegurar uma soluo que se possa

    generalizar para outras situaes. Assim, mais fcil expr as ideas admitindo que a matriz do delineamento/classificao

    constituda pelas k variveis indicatrizes dos k subgrupos.

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 91

  • CAPTULO 3. ANLISE DISCRIMINANTE LINEAR

    C =

    2666666666666666666666666666666666666666666666666664

    1 0 0 0

    1 0 0 0

    ......

    .... . .

    ...

    1 0 0 0

    0 1 0 0

    0 1 0 0

    ......

    .... . .

    ...

    0 1 0 0

    0 0 1 0

    0 0 1 0

    ......

    .... . .

    ...

    0 0 1 0

    ......

    .... . .

    ...

    0 0 0 1

    0 0 0 1

    ......

    .... . .

    ...

    0 0 0 1

    3777777777777777777777777777777777777777777777777775

    (3.1)

    Observao: A matriz C designa-se a matriz da classificao uma vez que as suas colunas definem a

    classe a que cada indivduo pertence. Note-se que as colunas de C so sempre ortogonais entre si, uma

    vez que nenhum indivduo pode pertencer a mais do que uma classe. Note-se ainda que a soma das k

    colunas da matriz C o vector dos uns, 1n, uma vez que cada indivduo pertence a uma (e uma s)

    classe. O quadrado da norma da j-sima coluna de C nj, o nmero de indivduos que pertencem

    j-sima classe.

    Assinale-se que qualquer vector pertencente ao subespao de Rn gerado pelas colunas da matriz C

    caracteriza-se por ter valor igual nos elementos associado s observaes de cada subgrupo. Ou seja,

    os elementos z C(C) so da forma:

    zt = [ z1 z1 ... z1 n1 vezes

    | z2 z2 ... z2 n2 vezes

    | | zk zk ... zk nk vezes

    ] (3.2)

    onde ni (i = 1 : k) indica o nmero de individuos associados i-sima classe.

    A matriz de projeces ortogonais sobre o subespao (de IRn) gerado pelas colunas de C :

    PC = C(CtC)1Ct (3.3)

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 92

  • 3.2. O MTODO EM MAIS PORMENOR

    Regressemos ao problema de determinar uma boa combinao linear das colunas da matriz de dados,

    Xa, para efeitos de separao de subgrupos.

    Pelo que ficou dito, uma combinao linear Xa prxima do subespao C(C) gerado pelas colunas da

    matriz C ser uma nova varivel na qual os valores de individuos associados a uma mesma classe sero

    semelhantes entre si. Mas existe ainda o outro aspecto do problema a considerar: desejamos que os valores

    associados a individuos de classes diferentes sejam tanto quanto possvel diferentes. E a proximidade de

    Xa a C(C) apenas no garante essa condio. De facto, o subespao C(C) tambm inclui os mltiplos

    escalares do vector 1n (confirme!), pelo que inclui vectores que em nada distinguem os individuos de

    classes diferentes. Assim, desejamos uma combinao linear Xa prxima de C(C), mas ao mesmo tempo

    o mais diferente possvel dos vectores em C(1n), ou seja, desejamos uma combinao linear o mais prxima

    possvel do subespao C(C) C(1n). A forma mais simples de garantir essa condio ser proceder

    centragem de qualquer combinao linear Xa, uma vez que esses vectores, dados por (InP1n)Xa,

    pertencem necessariamente a C(1n). Assim, o nosso objectivo ser determinar a combinao

    linear centrada (In P1n)Xa mais prxima possvel do subespao C(C), o que sabemos resulta

    da projeco ortogonal dessa combinao linear centrada sobre o referido subespao3.

    Explicitemos a operao de centragem das colunas de X (como foi feito na pg. 45). A matriz de dados

    centrados (In P1n)X, e uma combinao linear das colunas desta matriz centrada da forma:

    z = (In P1n)Xa

    Vamos agora escrever este vector como a soma da sua componente no subespao gerado pelas colunas de

    C e da sua componente no complemento ortogonal desse subespao, isto , vamos recorrer decomposio

    em soma directa

    Rn = C(C) C(C) (3.4)

    obtendo-se ento a seguinte decomposio do vector z:

    (In P1n)Xa = PC(In P1n)Xa + (In PC)(In P1n)Xa

    Repare-se ainda que, pelo Teorema 1.27 (p. 26):

    PCP1n = P1n

    uma vez que o vector 1n pertence ao subespao gerado pelas colunas deC. Da resulta que a decomposio

    acima referida se pode ainda escrever como:

    (In P1n)Xa = (PC P1n)Xa + (In PC)Xa

    3De forma mais formal, e trabalhando com os conceitos de somas directas de mais do que dois subespaos estudados

    na disciplina de Modelao Estatstica I, podemos dizer que consideramos o espao Rn como soma directa de trs seus

    subespaos: Rn = C(1n) C(C) C(1n)

    C(C). Procura-se a combinao linear Xa que esteja mais prxima do

    segundo desses subespaos.

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 93

  • CAPTULO 3. ANLISE DISCRIMINANTE LINEAR

    Uma vez que se trata duma decomposio associada a uma projeo ortogonal, podemos aplicar o Teorema

    de Pitgoras (pgina 24) e concluir que:

    (In P1n)Xa2 = (PC P1n)Xa

    2 + (In PC)Xa2 (3.5)

    A natureza das projeces efectuadas torna cada uma destas normas ao quadrado relevantes para o

    problema sob estudo.

    J sabemos que o membro esquerdo ((In P1n)Xa2) proporcional varincia dos valores dos in-

    divduos na varivel y = Xa (ver pgina 46), pelo que representa uma medida da variabilidade total

    dos valores observados de y = Xa. A fim de interpretar a natureza das parcelas do membro direito da

    igualdade, olhemos para a forma da matriz de projeo PC.

    Como vimos h pouco, a matriz de projeces ortogonais sobre o subespao (de IRn) gerado pelas colunas

    de C : PC = C(CtC)1Ct. Ora, a ortogonalidade das colunas de C implica que a matriz CtC uma

    matriz diagonal, e que os seus k elementos diagonais so as dimenses de cada classe, {nj}kj=1. Logo, a

    matriz inversa (CtC)1 tambm uma matriz diagonal, cujos elementos diagonais so os recprocos das

    dimenses das classes, 1/nj.

    Do que acaba de ser dito resulta que a matriz de projees ortogonais PC tem a forma:

    PC =

    1n1

    1n1

    1n1

    ......

    . . ....

    1n1

    1n1

    1n1

    0n1xn2 0n1xnk

    0n2xn1

    1n2

    1n2

    1n2

    ......

    . . ....

    1n2

    1n2

    1n2

    0n2xnk

    ......

    . . ....

    0nkxn1 0nkxn2

    1nk

    1nk

    1nk

    ......

    . . ....

    1nk

    1nk

    1nk

    Exerccio 3.1 Confirme esta afirmao sobre a natureza da matriz PC. Verifique que, se k = n, tem-se

    PC = In. Se k = 1, tem-se PC = P1n . Veja as consequncias desta forma da matriz PC nestes dois

    casos extremos.

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 94

  • 3.2. O MTODO EM MAIS PORMENOR

    Assim sendo, o vector PCy = PCXa ser da forma:

    PCy =

    y(1)

    ...

    y(1)

    y(2)

    ...

    y(2)

    ...

    y(k)

    ...

    y(k)

    Isto , o vector PCy o vector n-dimensional cujas n1 primeiros elementos so todos iguais mdia dos

    valores de y na classe 1, os n2 elementos seguintes so todos iguais mdia dos valores de y para os

    indivduos da segunda classe, e por a fora.

    Tem-se ento:

    (In PC)y =

    y(1)1 y

    (1)

    y(1)2 y

    (1)

    ...

    y(1)n1 y

    (1)

    y(2)1 y

    (2)

    y(2)2 y

    (2)

    ...

    y(2)n2 y

    (2)

    ...

    y(k)1 y

    (k)

    y(k)2 y

    (k)

    ...

    y(k)nk y

    (k)

    onde y(j)i o valor de y para o i-simo elemento da j-sima classe. Da resulta que

    (In PC)y2 =

    kj=1

    nji=1

    (y(j)i y

    (j))2

    ou seja, (InPC)y2 a soma dos numeradores das varincias de y em cada uma das k classes.

    Uma boa varivel y = (I P1n)Xa ser uma combinao linear para a qual esta parcela pequena,

    uma vez que esse facto reflectir a existncia de classes internamente homogneas. Designaremos esta

    parcela por variabilidade intra-classes dos dados.

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 95

  • CAPTULO 3. ANLISE DISCRIMINANTE LINEAR

    Por outro lado, temos:

    (PC P1n)y =

    y(1) y...

    y(1) y

    y(2) y...

    y(2) y...

    y(k) y...

    y(k) y

    A norma ao quadrado deste vector , pois:

    (PC P1n)y2 =

    kj=1

    nj(y(j) y)2

    Ou seja, esta parcela mede a disperso das mdias de y de cada classe, em torno da mdia geral dos

    valores de y. Uma boa combinao linear dever produzir valores elevados desta parcela, uma vez que

    tal facto reflectir a heterogeneidade entre classes dessa varivel y. Designaremos esta parcela por

    variabilidade inter-classes dos dados.

    Resumindo: A decomposio da combinao linear (centrada) y = (I P1n)Xa na sua parcela pro-

    jectada sobre o subespao gerado pelas colunas da matriz da classificao e a sua parcela no respectivo

    complemento ortogonal gera uma aplicao do Teorema de Pitgoras que se resume na frase: o numer-

    ador da varincia dos indivduos no eixo y = Xa resulta da soma da variabilidade intra-

    classes com a variabilidade inter-classes. Uma vez que a variabilidade total de y no depende da

    classificao definida pela matriz C, tem-se que uma combinao linear adequada para salientar

    a estrutura de subgrupos ser um vector Xa que minimize a variabilidade intra-classes e,

    ao faz-lo, estar simultaneamente a maximizar a variabilidade inter-classes.

    Como determinar essa combinao linear, i.e., como determinar o vector de coeficientes a na combinao

    y = Xa? A fim de facilitar a obteno dessa soluo, a expresso acima obtida ser re-escrita em notao

    matricial. Assim:

    (In P1n)Xa2 = (PC P1n)Xa

    2 + (In PC)Xa2

    atXt(In P1n)Xa = atXt(PC P1n)Xa + a

    tXt(In PC)Xa

    Designe-se:

    = 1nXt(In P1n)X Matriz de varincias-covarincias de X

    H = 1nXt(PC P1n)X Matriz da variabilidade inter-classes

    E = 1nXt(In PC)X Matriz da variabilidade intra-classes

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 96

  • 3.2. O MTODO EM MAIS PORMENOR

    Tem-se:

    = H+E (3.6)

    Exerccio 3.2 Demonstrar esta relao.

    A equao resultante do Teorema de Pitgoras pode agora re-escrever-se de forma simples como:

    ata = atHa + atEa (3.7)

    Com base nestas novas designaes, possvel re-formular o objectivo da Anlise Discriminante que

    j havia sido enunciado na Seco 3.1: de entre as combinaes lineares Xa, escolher a que

    maximiza o quociente:atHa

    atEa(3.8)

    Essa ser a primeira funo discriminante4, ou primeiro eixo discriminante em Rn.

    Assim, o problema de identificar a combinao linear que maximiza a discriminao, um caso particular

    do problema geral de maximizao de um quociente de formas quadrticas, problema estudado no Teorema

    1.38 (p.38). Sabemos ento que, se E fr uma matriz definida positiva o vector de coeficientes a que

    se procura o vector prprio da matriz E1H associado ao maior valor prprio de E1H, digamos

    o valor 1. Chegmos, pois, primeira soluo do nosso problema.

    A existncia da soluo acima indicada depende da existncia da inversa da matriz E. Ora, E uma

    matriz de tipo p p. Ser invertvel se fr de caracterstica plena p (ver o ponto 3, pgina 29). Uma vez

    que a caracterstica de um produto de matrizes no pode exceder a menor das caractersticas dos factores

    nesse produto (ponto 1.19, pgina 29), tem-se:

    car(Xt(In PC)X

    ) min{car(X), car(In PC), car(X

    t)}

    = min{p, n k} (admitindo car(X) = p)

    Logo, se k > n p, E no pode ser invertvel. Em geral, para k n p haver invertibilidade.

    A razo de ser do adjectivo primeira nas concluses anteriores advm do facto de podermos estar in-

    teressados em determinar novas combinaes lineares discriminantes, caso o primeiro eixo discriminante

    tenha uma fraca capacidade discriminante (e caso haja mais do que dois subgrupos de indivduos, por

    razes que adiante se compreendero). Tais novas combinaes lineares devero ser solues dum prob-

    lema anlogo ((In P1n)Xa mais prxima de C(C)), mas agora sujeito condio adicional de serem

    no-correlacionadas com a(s) soluo(es) anterior(es), isto , de ata1 = 0. Tendo em conta as pro-

    priedades de a1 (sabemos ser um vector prprio de E1H, associado ao valor prprio 1), podemos

    4Assinale-se que, ao contrrio do que acontece numa Anlise em Componentes Principais, no necessrio impor qualquer

    exigncia sobre a dimenso do vector de coeficientes a. De facto, multiplicaes do vector de coeficientes a por um escalar

    deixam invariante o quocientea

    tHa

    atEa, pelo que o critrio (3.8) depende apenas da direco do vector a, e no da sua

    magnitude.

    ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 97