Disciplina: Análise Multivariada I I Prof. Dr. Admir ...ºdo-6-–-2N_Abordagens... · teoria de...

1

Disciplina: Análise Multivariada I

Prof. Dr. Admir Antonio Betarelli Junior

AULA 6.2

ANÁLISE COMPARATIVA QUALITATIVA (QCA)

A Análise Qualitativa Comparativa (Qualitative Comparative Analysis – QCA) é

uma abordagem analítica para dados multivariados (RAGIN, 2000). A QCA usa a

teoria de conjuntos e álgebra Booleana para avaliar as combinações de fatores que são

presentes ou ausentes quando um fenômeno de interesse ocorre ou não. Ou melhor, a

QCA fornece um conjunto de combinaçoes distintas de fatores (multicausalidade) que

podem levar ao mesmo fenômeno (equifinalidade), evidenciando também combinações

não associadas ao fenômeno de estudo. Juntas, a multicausalidade e a equifinalidade

conferem ao fenômeno uma causalidade complexa, justamente por sugerir diferentes

caminhos teóricos ao mesmo (RAGIN, 1987; 2000). Entretanto, os resultados obtidos

pela QCA não "provam" estritamente as relações causais. Em vez disso, os mesmos

revelam padrões de associações entre os conjuntos, proporcionando assim um apoio

para a existência de tais relações causais (SCHNEIDER; WAGEMANN, 2010). Esses

padrões são avaliados em termos de suficiência e de necessidade.

Assim, a QCA não funciona como um processo de "push-button", mas depende dos

esforços dos usuários para refletir sobre se os padrões identificados que poderiam

descrever um vínculo de causalidade (RIHOUX, 2009; SCHNEIDER; WAGEMANN,

2010). Até porque, por exemplo, uma associação pode revelar uma relação ontológica

[i.e., dois eventos estão ligados porque um constitui o que o outro é, em vez de causá-lo;

Goertz e Mahoney( 2005)] ou um vínculo de causalidade falsa [i.e., dois eventos são

associados, porque eles são ambos causados por um terceiro fator, sem ser observado –

Brady (2008)].

Dessa maneira, os resultados fornecidos pela QCA devem ser avaliados

qualitativamente e, uma vez que a mesma fornece as configurações para todos os casos

(“observações”), a técnica favorece para uma detalhada análise de dentro dos casos com

as comparações formalizadas entre os casos de análise [i.e., fatores que explicam o

porquê para certo resultado podem estar ausentes ou serem diferentes entre os casos

I

2

(SCHNEIDER; WAGEMANN, 2012)]. Em suma, a QCA aborda as hipóteses teóricas

que preveem como “múltiplos fatores” irão operar em conjunto em níveis específicos

para produzir os resultados.

Em vista da dificuldade de tratar essas interações num modelo de regressão, a

QCA, de forma explícita e direta, testa cada possível combinação de fatores em níveis

específicos com um determinado resultado (SCHNEIDER; WAGEMANN, 2012). Além

disso, em regressões, a preocupação reside nas influências dos fatores sobre alguma

variável, gerando escores com mesma influência (GEORGE; BENNETT, 2005;

MAHONEY;GOERTZ, 2006). Alternativamente, a QCA captura as configurações

específicas de cada “observação”.

Em linhas gerais, conforme Schneider e Wagemann (2010), a QCA deve ser usada

para:

a) resumir os dados;

b) checar se os dados são coerentes com as alegadas relações entre os conjuntos;

c) testar hipóteses e teorias;

d) dar uma rápida visão global sobre as suposições básicas da análise;

e) desenvolver novos argumentos teóricos;

f) criar tipologias empíricas.

A QCA requer um número mínimo de 10 casos. Tamanhos pequenos encontram-se

entre 10 e 15 casos. Já uma situação intermediaria situa-se entre 50 e 100 casos. Nessa

situação intermediária, a QCA fornece uma maneira útil para transmitir as conclusões

centrais de um estudo para o leitor ou o público.

1 Dois princípios de uso

Em termos gerais, QCA pode ser descrita por dois princípios fundamentais: (i) a

causalidade complexa como pressuposto subjacente; e (ii) a combinação de análise

detalhada de dentro do caso com as comparações formalizadas entre os casos.

No primeiro princípio (i), o objetivo central do QCA é uma explicação exaustiva do

fenômeno. Usando QCA, os pesquisadores fazem perguntas como:

a) O conjunto X é uma condição causal para um determinado fenômeno ou

evento Y?

3

b) Quais são as combinações de condições que produzem um determinado

fenômeno ou evento?

c) Os grupos dos casos compartilham uma dada combinação de condições?

Em QCA, a preocupação reside: (1) conjuntos causais se combinam um com o

outro para conduzir a ocorrência de um evento ou fenómeno; (2) diferentes

combinações de condições causais podem levar à ocorrência de um determinado tipo de

evento ou fenómeno; e (3) os conjuntos causais podem ter efeitos opostos, dependendo

das combinações com outros conjuntos no qual estão situados (WAGEMANN;

SCHNEIDER, 2010, p.382). Pode-se ainda averiguar as condições necessárias e

suficientes. Condições suficientes e necessárias, indentificadas pela QCA, tratam-se dos

rspectivos padrões de associação que fazem sentido teórico e empírico (LEGEWIE,

2013).

Por seu turno, no segundo princípio (ii), a QCA combina uma análise detalhada

de dentro do caso com as comparações sistemáticas e formalizadas entre os casos. O

processo de pesquisa com QCA é iterativo, geralmente envolvendo várias rodadas de

comparações de análise dentro de cada caso e entre os casos. Os primeiros resultados

obtidos devem induzir a seleção dos casos e/ou redefinição dos conjuntos que

descrevem as condições e o resultado. Certamente os resultados irão fornecer maiores

conhecimentos sobre os casos (LEGEWIE, 2013).

2 Conceitos

Por definição, a QCA trata de objetos que podem ser entendidos a partir da teoria

dos conjuntos – em que as observações têm natureza qualitativa e podem ser separadas

em grupos com características distintivas – e analisam sua associação sistemática por

meio de testes lógicos que seguem os princípios da álgebra booleana (RAGIN, 1987;

2000). Portanto, a técnica buscar encontrar condições necessárias e suficientes que

produzem o fenômeno de “ causalidade complexa” a partir da teoria dos conjuntos

(SCHNEIDER; WAGEMANN, 2010).

Para tanto, é preciso apresentar as noções de conjuntos e as relações de necessidade

e suficiência, os parâmetros de ajustes (consistência e cobertura), a Tabela Verdade

como ferramenta central de análise dos dados, o processo de minimização e os

diferentes termos de soluções oferecidos pelo QCA. Entender esses conceitos é um pré-

requisito para o uso QCA, uma vez que os mesmos ajudam a compreender o que está

4

acontecendo durante a análise e fornecem a base para a interpretação dos resultados

(LEGEWIE, 2013).

2.1 Termos, tipos de conjuntos e operações Booleanas

A QCA usa a teoria de conjuntos e álgebra Booleana para avaliar as combinações

de fatores que são presentes ou ausentes quando um fenômeno de interesse ocorre ou

não. Em QCA, fatores que são tratados como causas de um fenômeno são chamados de

“condições”, enquanto que o fenômeno propriamente é denominado como “resultado”.

Por sua vez, as observações são definidas como “casos” e as equações são rotuladas

como “soluções”. A combinação das “condições causais” ou dos “conjuntos

individuais” para um caso é referida como uma configuração específica. Os conjuntos

são rotulados de acordo com a convenção: em letras maiúsculas e minúsculas. As seções

seguintes apresentam as formas (SHNEIDER; GROFMAN, 2006).

Em uma fórmula de solução, o resultado e as condições causalmente relevantes

são representados em letras que estão relacionados com operadores booleanos. Tais

condições, pensadas como causas de um fenômeno, podem ser necessárias ou

suficientes, por si próprias ou pela combinação entre as condições. QCA utiliza as

correspondentes relações teóricas de sobreconjuntos e subconjuntos e a álgebra

Booleana para operar com diferentes conjuntos (LEGEWIE, 2013).

Técnicas estatísticas tradicionais QCA

Variável dependente Resultado

Variáveis explicativas Conjuntos ou Condições causais

Observações Casos

Equação Termo de solução ou formula de solução

Análise dos coeficientes Configurações específicas

Os conjuntos podem ser entendidos como representações formalizadas de

conceitos. Os casos podem ser avaliados em termos da sua participação nesses

conjuntos. Para fazê-lo, os casos são primeiro analisados utilizando uma técnica de

análise qualitativa [e.g., Blatter (2012); George e Bennett (2005); Strauss e Corbin

(1998)]. Após esta análise inicial, o pesquisador deve ter identificado um conjunto de

condições que ele espera para gerar o resultado, bem como ter construído conceitos que

5

podem capturar essas condições. Com base no conhecimento adquirido sobre os casos,

o pesquisado pode atribuir escores de pertencimento (fuzzy) sobre os casos tanto para

diferentes condições quanto para o resultado [consulte Goertz (2006) para uma

explicação de como codificar os dados para atribuir escores de pertencimento para

conjuntos fuzzy; e para conjunto crisp, consulte Basurto e Speer (2012)]. Este

procedimento representa o primeiro passo para preparar os dados em QCA (LEGEWIE,

2013).

Como percebido, para a QCA há dois tipos de conjunto de informações possíveis

de se operacionalizar: conjuntos fuzzy (fuzzy set - fsQCA) e os conjuntos crisp (crisp set

- csQCA)1. A lógica entre os dois conjuntos em crisp set corresponde a um conjunto

binário convencional com apenas duas categorias de informações (0 ou 1) (RAGIN,

2005, 2006). Intuitivamente a teoria dos conjuntos nessa variante (csQCA) traz consigo

uma noção dicotômica fundamental: pertencer ou não pertencer. Em outras palavras,

definir um conjunto clássico implica tomar uma decisão binária quanto à pertinência de

determinado indivíduo (objeto, elemento) numa dada classe (grupo, categoria): aceitar

(“= 1”) ou rejeitar (“= 0”) tal proposição. Os conjuntos são rotulados de acordo com a

convenção: em letras maiúsculas e minúsculas. Por exemplo, dado um resultado Y e

dois conjuntos, A e B. Se o conjunto é rotulado em letras maiúsculas significa 1 (e.g.,

plenamente em A) e em letras minúsculas significa 0 (i.e., totalmente fora de A). A

relação entre os conjuntos, A*B, e o resultado (Y) pode ser avaliado por meio de

probabilidades condicionais, Pr (Y | A*B). Em termos de teoria dos conjuntos, altas

probabilidades condicionais indicam maior correspondência empírica com a afirmação

"A*B é um subconjunto de Y", ou, em termos lógicos, se “A*B, então Y".

Já o fsQCA, fuzzy set QCA, fornece meios adequados de acomodar

complementariedades complexas e relacionamentos não lineares entre as proposições

(condições causais) (GANTER; HECKER, 2014). A grande vantagem do conjunto fuzzy

reside sobre a possibilidade de escalonar diferentes escores de associação e, por

conseguinte, fornece associações parciais ou completas. Ou melhor, ao usar conjuntos

1 A abordagem booleana pode ser encontrada nos trabalhos de John Stuart Mill (Mill, 1967), no qual se esforça em sistematizar as investigações comparativas com o método de semelhanças e diferenças. A utilização da minimização Booleana permite reduzir uma longa e complexa expressão para uma menor e mais parcimoniosa (por isso é chamada de minimização Booleana) (RAGIN, 1987; OLSEN; NOMURA, 2009).

6

fuzzy, a adesão de um conjunto pode assumir qualquer valor entre 0 e 1. Assim, essa

variante descreve o grau e o tipo de casos pertencentes em um conjunto. Três pontos de

ancoragem definem um conjunto: a adesão plena (indicada por um escore de

pertencimento 1); nenhuma adesão (escore 0); e um ponto de corte (escore 0,5). Entre

os extremos da adesão plena e nula, podem-se refinar os níveis de adesão em um

conjunto, gerando quatro níveis (e.g.: 0, 0,33, 0,67, e 1 ) em conjuntos contínuos (sendo

o escore-fuzzy variando entre 0 e 1).

Casos sobre diferentes escores-fuzzy são qualitativamente distintos, enquanto os

casos com diferentes pertencimentos sobre o mesmo lado do ponto de corte diferem em

grau (RAGIN, 2008, p.72). A atribuição dos escores de pertencimento é denominada de

método de calibragem. A necessidade de calibração surge pela sua superioridade aos

demais métodos convencionais, na medida em que o conjunto fuzzy oferece um caminho

intermediário entre a análise qualitativa e quantitativa. Pode-se, por exemplo, calibrar

parâmetros para melhor retratar as “mudanças de fases” na escala Celsius (entre 0o C e

100o C)(RAGIN, 2008). Para atribuir pontuações de pertencimento (adesão) sobre os

casos, portanto, são especificadas âncoras qualitativas (LEGEWIE, 2013).

A vantagem do Fuzzy-set em relação ao crisp-set é que se podem transformar

variáveis originais sem perder a variação associada das dicotomias entre as categorias

ou medidas contínuas, A e B. Operacionalmente transformam-se as “variáveis

originais” em conjuntos fuzzy.

Para analisar os dados sobre a base dos conjuntos de pertencimento atribuído,

QCA baseia-se na álgebra booleana. Usando álgebra booleana para QCA, três operações

básicas podem ser aplicadas aos conjuntos fuzzy: intersecção [E (*)], união [Ou (+)], e

negação (Não) (em QCA, para negação substitui uma letra maiúscula com uma letra

minúscula). A figura abaixo apresenta uma visão geral sobre essas operações. (As áreas

tracejadas nas ilustrações demarcam o resultado das respectivas operações.)

7

Fonte: Adaptado de Legewie (2013).

Definir intersecção (lógica E, "*") em uma operação significa avaliar o escore de

pertencimento dos casos em uma combinação de condições (conjuntos) para o resultado.

Definir união (lógica OU, "+") como operação corresponde avaliar o escore de adesão

em condições alternativas para um determinado resultado. Definir negação (lógica

NÃO, "~") em uma operação denota a ausência de uma condição em um resultado. Na

prática, software como Stata, fsQCA, Tosmana e R computam tais operações de

conjunto. Ainda assim, é importante entender a lógica básica por trás dessas operações e

as notações usadas para descrevê-las.

A Tabela 1 fornece um exemplo de Ragin (2000, p.286-300) por conjunto crisp

sobre os estados de bem-estar (W) em 18 países democráticos e avançados

industrialmente. Existem quatro conjuntos estabelecidos, quais sejam: forte partido de

esquerda (P); sindicatos fortes (U), um sistema corporativista industrial (C), e uma

homogeneidade sócio-cultural (S). Os primeiros cinco casos – Áustria, Dinamarca,

Finlândia, Noruega, Suécia – estão dentro de todos os conjuntos. Em outras palavras,

eles estão mais próximos do tipo ideal de uma sociedade descrita como PUCS. Outros

Interseção de conjuntos (lógica E) § refere-se à parte compartilhada de A e B. § denotada por A*B ou AB. § A*B=min(A;B);i.e., se A=0,33 e B=1, então

A*B=min(0,33;1)=0,33. § Principal uso em QCA: combinações das

condições que formam a condição suficiente para um resultado: A*B→Y.

União de conjuntos (lógica OU)

§ refere-se à combinação de A e B. § denotada por A+B. § A+B=max(A,B); i.e., se A=0,33 e B=1, então

A+B=max(0,33,1)=1. § Principal uso em QCA: alternativos caminhos

(i.e., combinações de condições) para um resultado: A+B→Y.

União de conjuntos (lógica NÃO)

§ refere-se à parte excluída de um conjunto. § denotada ~A ou a. § ~A=1-A; i.e., se A=0,33, então

~A=1-A =1-0,33 = 0,67. § Principal uso em QCA: mostra como a ausência

ou oposto de um conjunto funciona como uma condição ou resultado.

8

grupos de casos compartilham outras semelhanças e são resumidas em outras linhas da

tabela verdade.

Para mostrar a lógica dos três operadores fundamentais, toma-se um país com um

escore de filiação crisp no conjunto de “sociedade homogênea" (S) de 0 e em “união

forte" (U) de 1.

a) Negação

Tanto em conjuntos crips e fuzzy, a negação é calculado subtraindo-se o

escore original de 1. Consequentemente, o escore do país em “não-

homogêneo” é:

(S) = 1- S = 1-0 = 1

b) Lógica E (interseção de conjuntos)

No conjunto de casos, a filiação de países como “sociedades homogêneas”

e “fortes uniões” é determinada pelo valor mínimo dos dois conjuntos:

S*U = min(S, U) = min(0, 1) = 0

c) Lógica OU (união dos conjuntos)

No conjunto de casos, a filiação de países como “ sociedades

homogêneas” ou “fortes uniões” é determinada pelo valor mínimo dos dois

conjuntos:

S + U = max(S, U) = max(0, 1) = 1

A fórmula de solução do resultado (W) é definida como:

PUCS + pUCs + PUCs → W

O sinal → (juntamente com o seu oposto, ←) pode ser usado para indicar a lógica

de relacionamentos. Tais relações são potencialmente causais, mas eles podem, na

9

verdade, representam simplesmente particulares de concordâncias empíricas observadas

de condições e resultado que não são verdadeiramente causais na natureza. Cabe

lembrar que QCA é apenas um método e, como tal, só é capaz de exibir as relações

entre as condições. A definição se ou não essas relações podem ser lidas como causais é

determinada pela teoria (SHNEIDER; GROFMAN, 2006).

2.2 Relações de conjuntos: necessária e suficiente

O objetivo da QCA é identificar condições ou combinações de condições que são

necessárias e suficientes para o resultado. Enquanto QCA opera com os conceitos

estabelecidos pela teoria de conjuntos (i.e., sobreconjuntos e subconjuntos), busca-se

simplificar a análise dessa técnica pelo termo lógico de condições necessárias e

suficientes (LEGEWIE, 2013).

A condição A é necessária para o resultado Y se a ocorrência de Y não é possível

sem a presença de A, mas ela por si só não é suficiente para produzir Y. Ou seja, A é

necessária, mas não suficiente, se existir combinações vinculadas com o resultado, que

não permite a condição A produzir sozinha (SHNEIDER; GROFMAN, 2006):

A*R + A*p = A*(R + p) → Y (1) em que também: Não A→ Não Y

Em termos de conjunto fuzzy, uma relação necessária existe se o resultado Y é

um subconjunto da condição causal A; isto é, em cada caso o grau de pertencimento em

Y é inferior a ou igual ao grau de adesão em A (Y ≤ A). Como a figura abaixo, pode-se

visualizar a necessidade de duas maneiras: (a) diagramas de Venn e (b) gráfico XY.

Usando um diagrama de Venn (a), o círculo que representa resultado Y é completamente

coberto pelo círculo (maior) que representa a condição A; há casos incluídos no

conjunto A que não estão no conjunto Y, mas todos os casos em conjunto Y também

estão no conjunto A. O gráfico XY (b) no contexto da QCA é diferente da lógica de uma

análise de regressão. Ao plotar a condição causal A contra resultado Y, se todos os casos

cair sobre ou abaixo da diagonal principal (área polvilhada), isso indica necessidade.

Casos referidos acima da diagonal principal (área listrada) contradiz a necessidade. Ou

melhor, casos presentes em A, mas não em Y, contradiz com a necessidade (LEGEWIE,

2013).

10

Fonte: Legewie (2013).

A Figura também apresenta a relação de suficiência. A condição A é suficiente

para o resultado Y se Y irá sempre ocorrer se A estiver presente, mas outras condições,

além de A, podem produzir Y. Isto significa que todos os casos presentes em A, situam

em Y. Em termos de conjunto fuzzy, a relação suficiente existe se A é um subconjunto do

resultado Y. Todos os casos o grau de adesão na condição A ou combinação de

condições é consistentemente inferior ou igual ao grau de pertencimento no resultado Y

(A ≤ Y) (LEGEWIE, 2013). Em suma, a condição A é suficiente, mas não necessária, se

tal condição é capaz de produzir o resultado, mas ao mesmo tempo existem outras

combinações também vinculadas com o resultado (SHNEIDER; GROFMAN, 2006):

A + R*p → Y (2)

Visualizado como um diagrama de Venn, o círculo que representa a condição A

é completamente coberto pelo círculo (maior) que representa resultado Y. Quando A é

plotado contra Y, todos os casos em ou acima da diagonal principal indicam suficiência,

enquanto os casos abaixo da diagonal principal desafiam a suficiência. Como ambas as

ilustrações apontam, casos em que Y ocorre, mas não estão presentes em A, contradiz

11

com a suficiência (LEGEWIE, 2013). Se os casos estiverem exatamente sobre a

diagonal principal, então a condição A é necessária e suficiente (SHNEIDER;

GROFMAN, 2006):

A → Y (3)

em que também: Não A→ Não Y

Cabe destacar que a QCA ajuda a identificar diferentes padrões empíricos que podem

ser interpretados em termos de condições necessárias e suficientes. Estes padrões podem

incluir uma ou mais condições individuais, mas também as combinações de duas ou

mais condições. Na realidade empírica, geralmente o pesquisador encontrará

combinações de condições sendo suficientes para um resultado melhores que as

avaliadas isoladamente (GOERTZ; LEVY, 2007, p.22). Nesses casos, as condições

individuais que fazem parte da combinação das condições (e.g., "INUS") não são nem

necessárias nem suficientes, mas parte de uma ou mais das combinações de condições

que sejam suficientes para o resultado Y (LEGEWIE, 2013). Exemplificando, a

condição A não é suficiente e nem necessária para o resultado, se A produz Y somente

se combinado com outras condições (SHNEIDER; GROFMAN, 2006):

A*p + R*P + a*R → Y (4)

Em linhas gerais, em termos da teoria dos conjuntos, a combinação de duas ou mais

condições (X) é mais provável que seja suficiente para um resultado porque a

suficiência é definida como X ≤ Y e porque as combinações de condições são calculadas

tomando o mínimo dos valores de adesão (A*B = min (A, B)). Assim, se X representa

uma combinação das condições A, B, e C, a adesão de cada caso em X será sempre

menor ou igual à sua adesão nas condições individuais (LEGEWIE, 2013).

2.3 Tabelas Verdade

Tabelas Verdade representam o coração de qualquer QCA. As mesmas ajudam a

classificar a informação obtida nos casos de uma maneira logicamente estruturada.

Nelas, podem: (a) a detectar semelhanças analíticas e diferenças entre casos; (b)

revelam linhas contraditórias, isto é, combinações idênticas de condições revelam

resultado distinto; e (c) o grau de diversidade nos dados, i.e., que possíveis combinações

12

de condições são e não observadas empiricamente. Todas estas partes de informação,

quando examinado de forma adequada, pode ajudar o pesquisador a especificar o

universo de casos e conceituar os vínculos entre as condições causais e os resultados

(SHNEIDER; GROFMAN, 2006). Em suma, a análise sobre uma Tabela Verdade serve

para identificar padrões causais da suficiência, bem como as combinações de condições

que são suficientes para o resultado. Sua análise representa, pois, uma forma distinta de

representar os casos em um conjunto de configurações de condições de dados.

Em tabelas verdade, cada linha apresenta informações sobre uma das possíveis

combinações lógicas entre as condições causais. Classificando as informações contidas

na Tabela 1 em uma Tabela Verdade, têm-se várias partes de informação. A Tabela 2

representa uma Tabela Verdade (SHNEIDER; GROFMAN, 2006). Em primeiro lugar,

existem 2k=4 = 16 (k é número de condições) possíveis de combinações lógicas. Três

delas estão ligadas à ocorrência de um generoso estado de bem-estar (W = 1), enquanto

que quatro delas estão ligadas a não ocorrência (W = 0).2 Ou seja, a linha 1 exibe os

casos presentes em todas as quatro condições (indicado por 1), enquanto a linha 4 revela

casos ausentes em todas as condições em que todas as condições (indicado por 0). Dessa

forma, cada configuração (combinação) é representada como uma linha na tabela

verdade.

2 Para codificar um país com o valor em W*, a linha da Tabela Verdade que pertence deve cumprir dois critérios: um valor de consistência de 1 e pelo menos um caso com uma adesão maior que 0,5 nesta combinação de condições. Para fins ilustrativos, relatam-se os escores fuzzy de pertencimento dos países em W entre parênteses. Eles são irrelevantes para a presente análise.

13

Além disso, apesar de ter 18 países no conjunto de dados, existe uma diversidade

limitada, i.e., nem todas as possíveis combinações lógicas entre as condições de P, U, C

e S são empiricamente observadas. Isto é indicado por W * = -, como na Tabela 2

(SHNEIDER; GROFMAN, 2006). Ou melhor, não existem casos identificados que

apresentam W * = 1 ou W * = 0. Diversidade limitada manifesta-se pelo fato de

algumas linhas normalmente permanecerão vazias na tabela verdade, isto é, não há

casos empíricos nestas linhas. Estas linhas vazias são também chamadas de "restos

lógicos" (LEGEWIE, 2013).

Há alguns enganos quando se analisa a tabela verdade. Muitas pessoas tendem a

pensar que a diferença entre duas possíveis combinações lógicas que só diferem no

valor de uma das suas condições causais representa uma distinção de grau. Ou seja, que

essa diferença, se pequena, pode ser negligenciada. No âmbito do QCA, isso é errado.

Em QCA a suposição é que a diferença entre possíveis combinações lógicas é uma

diferença no tipo, e não no grau. Em segundo lugar, para mentes estatisticamente

treinadas, é difícil aceitar que a pequena frequência de certas combinações seja

relevante para a representação de dados, incluindo em formato de tabela verdade.

Contudo, em QCA não importa se uma linha tabela verdade contém 1 ou 100 casos.

Existem duas advertências críticas a esta declaração. Em QCA, o número de casos nas

linhas desempenha um papel crucial se esse número é 0. Pesquisadores de QCA devem

prestar atenção nestas linhas quando há uma diversidade limitada na pesquisa (ou em

razão das implicações nos resultados esperados). Além disso, em aplicações mais

avançadas da QCA, o número de casos tem um papel na avaliação de ajuste do modelo

(SHNEIDER; GROFMAN, 2006).

2.4 Parâmetros de ajuste em QCA: consistência e cobertura

Em dados reais, são raras as condições ou combinações de condições em que

todos os casos atendem a relação de necessidade e suficiência, ou seja, pelo menos

poucos casos desviarão do padrão geral. Nesse sentido, é oportuno avaliar o quão bem

os casos em um conjunto de dados se encaixam em termos de necessidade ou

suficiência. Em QCA existem duas medidas centrais para avaliar o bom ajuste dos

resultados: consistência e cobertura (RAGIN, 2006, 2008).

14

Medidas de "consistência" avaliam o grau em que uma relação de necessidade

ou suficiência entre uma condição causal (ou combinação de condições) e um resultado

(RAGIN, 2006). Ou melhor, o quanto a combinação causal leva ao resultado.

Assemelha-se a noção de significância em modelos estatísticos (THIEM, 2010, p.6). Na

maioria dos estudos de QCA, condições ou combinações de condições são "quase-

necessárias" ou "quase-suficientes", de maneira que alguns casos desviam-se do padrão.

Ragin (2006) introduziu uma fórmula para calcular os escores de consistência, que

variam entre 0 e 1. Em suma, essa medida avalia a participação do número de casos

presente simultaneamente entre a combinação x e o resultado y sobre o total de casos em

x. Quanto mais próximo de 1 for o valor dessa medida (IXY), maior a consistência dos

dados com a afirmação de que X é um subconjunto de Y, ou, em termos lógicos, com a

declaração "se X, então Y". Formalmente, tem-se que:

åå

=i

ii

XY x

yxI

),min( (5)

sendo X a configuração (e.g., A*B), Y o resultado, xi a adesão de cada caso na

configuração X; e yi a adesão de cada caso em Y (o min ordena a seleção dos dois

menores escores). Ragin (2000, 2006) define IXY >0,8 como referência para todas as

configurações.

Uma vez avaliada a consistência das combinações ou condições individuais em

termos de necessidade ou suficiência, pode-se avaliar quanto do resultado está coberto

por tais combinações (ou condições). A medida de cobertura seria análoga ao R2 em

modelos estatísticos3 (THIEM, 2010, p.6). Essa cobertura avalia a parcela dos casos

presentes simultaneamente em x e y em relação ao total de casos em y (RAGIN, 2008,

p.57), com valores variando entre 0 e 1. Ademais, a cobertura aborda um aspecto

diferente do que a consistência. Por exemplo, o conjunto de falhas de paraquedismo

seria um subconjunto quase perfeito (i.e., alta consistência) do conjunto de mortes.

Entretanto, esta combinação pode não ser muito útil (i.e., baixa cobertura) para

3 Contudo, é importante evitar certas comparações entre as duas metodologias, justamente para não aumentar a “confusão” conceitual da QCA e contribuir para a sua melhor compreensão metodológica (SCHNEIDER; GROFMAN, 2006).

15

determinar os caminhos mais comuns ou significativos para a mortalidade em uma

determinada população. Essa medida é definida por:

åå

=i

ii

XY y

yxC

),min( (6)

Assim, uma cobertura igual a 1 indica uma sobreposição total entre x e y, isto é,

a condição de X abrange todos os casos pertencentes ao resultado y (RAGIN, 2006).

Quando há vários caminhos (maneiras) para um mesmo resultado, a cobertura de uma

configuração específica pode ser pequena. Por outro lado, uma alta cobertura denota que

a configuração específica tem relevância empírica quanto ao resultado (Y). As duas

medidas (consistência e cobertura) frequentemente são forças opostas, uma vez que uma

combinação com elevada consistência pode acarretar em uma baixa cobertura, e vice-

versa (KENT, 2008).

Se o interesse não é só na parte do resultado coberto por qualquer condição

suficiente, mas na cobertura total de todas as possíveis combinações suficientes para o

resultado, então, calcula-se a cobertura global de ambas as combinações em uma

fórmula de solução. Isto é feito simplesmente ao calcular o escore aderido de cada caso

na fórmula de solução. Entretanto, pode-se calcular a cobertura de cada combinação

suficiente em relação ao resultado (i.e., chamada cobertura única). Para tanto,

primeiramente calcula-se a cobertura solução; em seguinda, calcula a cobertura das

combinações, exceto aquela cobertura específica de interesse; e, posteriromente, subtrair

esse valor a partir da cobertura da solução. O número situa entre 0 e 1, e expressa o

quanto o resultado é coberto unicamente por uma condição específica - líquido de todas

as outras combinações suficientes (SHNEIDER; GROFMAN, 2006).

Pode-se, então, calcular a consistência e cobertura da PUC e UCS com base no

crisp set - csQCA. A Tabela 2 mostra que os 7 casos exibir W. A expressão PUC + UCS

abrange todos os 7 casos. Assim, a cobertura total de solução é 1. Somente a

combinação lógica PUC abrange 6 casos (linhas 1 e 3). Esta cobertura linha (raw

coverage) é 6/7. UCS também cobre 6 casos (linhas 1 e 2), o que resulta em uma

cobertura linha de 6/7. A cobertura única da combinação PUC é calculada ao subtrair

da cobertura total (7/7) a cobertura linha da combinação UCS (6/7), ou seja, (Cobertura

única)PUC = 7/7 -6/7 = 1/7. Similarmente, a (Cobertura única)UCS = 7/7 -6/7 = 1/7.

Portanto, as coberturas únicas seriam 1/7 (SHNEIDER; GROFMAN, 2006).

16

A Tabela 3 contém os dados fuzzy, com o mesmo número de casos e condições

da Tabela 2. Se aplicada a fórmula de consistência e de cobertura para os dados fuzzy,

pode-se obter os resultados apresentados na Tabela 4. fuzzy no resultado W. A

cobertura linha de ambos PUC e UCS é de aproximadamente O termo de solução PUC

+ UCS é 100% consistente, que abrange cerca de 60% dos escores 50%, mas as suas

coberturas únicas são bastante baixas (PUC 7% e UCS 10%) (SHNEIDER;

GROFMAN, 2006).

Da análise de csQCA, observaram-se que as duas conjunções sobrepõem

fortemente e isso é expresso aqui novamente pelos escores baixos de cobertura únicas.

O termo de solução, quando permitida a simplificação da suposição UC→W, teve uma

cobertura ligeiramente superior. Uma vez que existe somente uma combinação de

condições causais (UC), o valor da cobertura única é igual a cobertura linha e a solução

de cobertura. A consistência do termo solução UC é um pouco menor, o que sugere que

existem alguns casos em UC e não em W.

17

2.5 Minimização

Procura-se identificar as configurações básicas de condições que são suficientes

para o resultado, os chamados "expressões primitivas." Por exemplo, conforme o

seguinte termo de solução:

a*B*C + A*B*C→ Y (7)

Entretanto, muitas vezes essas expressões primitivas são bastante complexas, por

incluírem um número grande (maior que 3) de condições causais. QCA usa a

"minimização booleana" para reduzir as expressões primitivas e para identificar as mais

gerais combinações de condições suficientes para que o resultado que permaneça

logicamente verdadeiro. Para tanto, aplica-se o algoritmo Quine-McCluskey. Dessa

forma, pode-se obter uma descrição lógica das condições suficientes para produzir

(probabilisticamente) um determinado resultado. Aplicando esse algoritmo em (7), tem-

se que:

B*C→ Y (8)

Ou melhor, essa representação simplificada ocorreu ao comparar {A e BC} e {não A e

PUC} e, portanto, resulta em {BC}. Em tal solução, a presença ou ausência de A não

influencia a ocorrência do resultado Y (SCHNEIDER; WAGEMANN, 2007, pp.63-73).

18

Isto reduz a expressão primitiva para as combinações simples de condições; por

exemplo, ~ABC ≤ Y e ABC ≤ Y são simplificadas para BC ≤ Y. Assim, essa solução

minimizada descreve ou sintetiza os padrões no conjunto de dados.

2.6 Gráficos x-y

Uma forma particular de mostrar as relações entre conjuntos fuzzy é chamada de

gráfico x-y. Sobre o eixo y estão os valores fuzzy dos casos pertencentes no resultado

(y). Já sobre o eixo x se encontram os escores fuzzy dos casos pertencentes na

condição.

Esse gráfico tem propriedades importantes. Em primeiro lugar, nele existe

fronteiras bem definidas. Ambos os eixos estão valorados entre 0 e 1, o que denotam

níveis mínimos e máximos de pertencimentos. Assim, todos os casos situam-se dentro

da região (quadrado) bem definidas. Segundo, devido à igualdade de escala de ambos os

eixos, a linha diagonal define os casos que apresentam a mesma participação de x e y.

Isto leva para a terceira propriedade, a mais importante. A diagonal principal corta o

quadrado em dois triângulos de tamanho similar. O triângulo superior delimita a zona

em que xi <= yi. Em contraste, o triângulo abaixo da diagonal principal delimita a zona

onde xi>=yi. Assim, se todos os casos situam abaixo da diagonal principal, então tem-

se uma condição necessária para y. Finalmente, se todos os casos reduzem valores ao

longo da diagonal principal, a condição é necessária e suficiente para y.

Mesmo se todos os casos reduzirem valores acima da diagonal principal

(consistência de 100%), é possível que esta condição suficiente não cubra muito escores

no resultado y. O grau de cobertura é visualizado por identificar quantos dos casos se

aproximadamente do eixo y (resultado). Nesses casos, terão muito mais escores

envolvidos em y que em x. Consequentemente, é particularmente prejudicial para a

cobertura os casos situados no canto superior esquerdo, em que a diferença entre x e y é

muito expressiva. A partir da diagonal principal, o movimento para a esquerda implica

no aumento da consistência, porém a cobertura diminui. Em contraste, como se mover

para a direita no sentido da diagonal principal, aumenta a cobertura, mas pode

comprometer a condição de suficiência em razão da queda da consistência. Finalmente,

se tudo casos caem na diagonal principal, o valor a consistência é tanto uma condição

necessária quanto suficiente e o valor de cobertura é 1.

19

Considere o termo de solução PUC + UCS → W. Para a combinação PUC,

observa-se que nenhum dos casos situam abaixo da diagonal principal, indicando uma

consistência de 1 (Figura 6). Isso nem sempre isso acontece. Em uma situação de

consistência menor do que 1, um ou mais casos irá caem abaixo da diagonal principal.

Ao indicar os rótulos de cada caso, é possível identificar o caso que se desvia do padrão

geral de suficiência, cuja análise melhora a interpretação analítica do resultado ao

apontar a razão pela qual a cosistência é menor que 1.

.

20

Conforme a Figura 6, alguns dos casos situam-se perto da diagonal principal. Isso

significa que eles estão bem cobertos por este caminho no sentido de W. Outros casos,

no entanto, estão longe da diagonal principal. Não só estes ilustram uma cobertura

inferior a 1 (na verdade, é 0,49), mas, para além disso, indica que estes casos não estão

bem cobertos pela PUC. Por exemplo, a Itália e a Irlanda são dois casos com escores

bastante elevados de adesão em y (0,64 e 0,67, respectivamente), mas com escores

muito baixos na PUC (0,1 e 0,11, respectivamente). O Japão, com um escore de y =

0,52, não apresenta qualquer filiação parcial na PUC.

Pode-se averiguar a localização destes países no segundo gráfico x-y, que retrata

a combinação UCS contra W (Figura 6). Novamente, a consistência é 100% e a

cobertura é inferior a 100% (é 0,53, ver Tabela 4). Entretanto, a Itália e a Irlanda

mudaram para a direita e, portanto, muito mais perto da diagonal principal. Isso mostra

que a UCS é o caminho para W que os cobre melhor do que PUC. Até mesmo o Japão

apresenta algum grau de pertencimento na combinação UCS.

Finalmente, se alguém está interessado na cobertura global do termo de solução inteiro

(PUC + UCS → W), i.e., todos os caminhos em direção ao resultado (W), pode-se

simplesmente calcular o escore de pertencimento da expressão PUC + UCS, fazendo o

uso da regra mínima e máxima, por conseguinte, traçar os seus valores contra o

resultado W (Figura 8).

21

2.7 Algumas recomendações

Conforme Schneider e Wagemann (2010), a QCA deve ser aplicada:

a) para propósitos originais;

b) em conjunto com outras técnicas de análise de dados;

c) com justificativa explícita e detalhada da seleção dos casos;

d) com um número moderado de condições;

e) com Condições e Resultado conceituados por teoria ou pesquisa empírica;

f) com descrição da calibração dos scores de pertencimento aos conjuntos;

g) com a utilização apropriada das terminologias;

h) e as condições necessárias e suficientes devem ser analisadas em etapas

separadas;

i) com níveis apropriados de Consistência (>0,75) e Cobertura;

j) com Tabelas Verdade minimizadas.

Disciplina: Análise Multivariada I I Prof. Dr. Admir ...ºdo-6-–-2N_Abordagens... · teoria de...

Documents

Transcript of Disciplina: Análise Multivariada I I Prof. Dr. Admir ...ºdo-6-–-2N_Abordagens... · teoria de...