Capitulo 1 Hair

23
Objetivos de aprendizagem Ao concluir este capítulo, você deverá ser capaz de: Explicar o que é análise multivariada e quando sua aplicação é adequada. Definir e discutir as técnicas específicas incluídas na análise multivariada. Determinar qual técnica multivariada é apropriada a um problema específico de pesquisa. Discutir a natureza das escalas de medida e sua relação com técnicas multivariadas. Descrever os aspectos conceituais e estatísticos inerentes à análise multivariada. O Capítulo 1 apresenta uma visão geral simplificada da análise multivariada. Enfatiza que os métodos de análise multivariada irão influenciar cada vez mais não apenas os aspectos analíticos de pesquisa, mas também o planejamento e a abordagem da coleta de dados para decisões e resolução de problemas. Apesar de as técnicas multivariadas terem muitas característi- cas em comum com suas contrapartes univariada e bi- variada, várias diferenças importantes surgem na tran- sição para uma análise multivariada. Para ilustrar essa transição, este capítulo apresenta uma classificação das técnicas multivariadas. Em seguida, oferece linhas gerais para a aplicação dessas técnicas, bem como uma abordagem estruturada para a formulação, estimação e interpretação dos resultados multivariados. O capí- tulo conclui com uma discussão da base de dados uti- lizada ao longo da maior parte do livro para ilustrar a aplicação das técnicas. Capítulo 1 Introdução Apresentação do capítulo Antes de começar o capítulo, leia os termos-chave para comprender os conceitos e a terminologia empregados. Ao longo do capítulo, os termos-chave aparecem em ne- grito. Outros pontos que merecem destaque, além das re- ferências cruzadas nos termos-chave, estão em itálico. Alfa (α) Ver Erro Tipo I. Análise multivariada Análise de múltiplas variáveis em um único relacionamento ou conjunto de rela- ções. Termos-chave

Transcript of Capitulo 1 Hair

Page 1: Capitulo 1 Hair

Objetivos de aprendizagem

Ao concluir este capítulo, você deverá ser capaz de:

• Explicar o que é análise multivariada e quando sua aplicação é adequada.• Definir e discutir as técnicas específicas incluídas na análise multivariada.• Determinar qual técnica multivariada é apropriada a um problema específico de pesquisa.• Discutir a natureza das escalas de medida e sua relação com técnicas multivariadas.• Descrever os aspectos conceituais e estatísticos inerentes à análise multivariada.

O Capítulo 1 apresenta uma visão geral simplificadada análise multivariada. Enfatiza que os métodos deanálise multivariada irão influenciar cada vez maisnão apenas os aspectos analíticos de pesquisa, mastambém o planejamento e a abordagem da coleta dedados para decisões e resolução de problemas. Apesarde as técnicas multivariadas terem muitas característi-cas em comum com suas contrapartes univariada e bi-variada, várias diferenças importantes surgem na tran-

sição para uma análise multivariada. Para ilustrar essatransição, este capítulo apresenta uma classificaçãodas técnicas multivariadas. Em seguida, oferece linhasgerais para a aplicação dessas técnicas, bem como umaabordagem estruturada para a formulação, estimaçãoe interpretação dos resultados multivariados. O capí-tulo conclui com uma discussão da base de dados uti-lizada ao longo da maior parte do livro para ilustrar aaplicação das técnicas.

Capítulo 1Introdução

Apresentação do capítulo

Antes de começar o capítulo, leia os termos-chave paracomprender os conceitos e a terminologia empregados.Ao longo do capítulo, os termos-chave aparecem em ne-grito. Outros pontos que merecem destaque, além das re-ferências cruzadas nos termos-chave, estão em itálico.

Alfa (α) Ver Erro Tipo I.Análise multivariada Análise de múltiplas variáveis

em um único relacionamento ou conjunto de rela-ções.

Termos-chave

Page 2: Capitulo 1 Hair

24 ANÁLISE MULTIVARIADA DE DADOS

Análise univariada de variância (ANOVA) Técnica es-tatística para determinar, com base em uma medida de-pendente, se várias amostras são oriundas de popula-ções com médias iguais.

Beta (β) Ver Erro Tipo II.

Confiabilidade Extensão em que uma variável ou umconjunto de variáveis é consistente com o que se pre-tende medir. Se medidas repetidas forem executadas,as medidas confiáveis serão consistentes em seus valo-res. É diferente de validade, por se referir não ao quedeveria ser medido mas do modo como é medido.

Correlação parcial bivariada Correlação simples (duasvariáveis) entre dois conjuntos de resíduos (variânciasinexplicadas) que permanecem depois que a associaçãode outras variáveis independentes é removida.

Dados métricos Também chamados de dados quantitati-vos, dados intervalares ou dados proporcionais, essas medi-das identificam ou descrevem indivíduos (ou objetos)não apenas na posse de um atributo, mas também pelaquantia ou grau em que o indivíduo pode ser caracteri-zado pelo atributo. Por exemplo, a idade ou o peso dealguém são dados métricos.

Dados não-métricos Também chamados de dados qua-litativos, são atributos, características ou proprieda-des categóricas que identificam ou descrevem um in-divíduo ou objeto. Diferem dos dados métricos no sen-tido de indicarem a presença de um atributo, mas nãoa quantia. Exemplos são ocupações (médico, advoga-do, professor) ou status do comprador (comprador,não-comprador). São também conhecidos como dadosnominais ou dados ordinais.

Erro de especificação Omissão de uma variável-chaveda análise, que causa um impacto sobre os efeitos esti-mados de variáveis incluídas.

Erro de medida Imprecisão na mensuração dos valores“verdadeiros” das variáveis devido à falibilidade doinstrumento de medida (ou seja, escalas de respostasinapropriadas), erros na entrada de dados ou enganosdos respondentes.

Erro Tipo I Probabilidade de rejeitar incorretamente ahipótese nula – na maioria dos casos, isso significa dizerque existe uma diferença ou correlação quando na ver-dade não é o caso. Também chamado de alfa (α). Níveiscomuns são 5 ou 1%, chamados de nível 0,05 ou 0,01,respectivamente.

Erro Tipo II Probabilidade de falhar incorretamente narejeição da hipótese nula – em termos simples, a proba-bilidade de não encontrar uma correlação ou diferençana média quando ela existe. Também chamado de beta(β), está inversamente relacionado ao erro Tipo I. O valor1 menos o erro Tipo II é definido como poder.

Escalas Múltiplas Método de combinação de diversasvariáveis que medem o mesmo conceito em uma única

variável como tentativa de aumentar a confiabilidade damedida por meio de medida multivariada. Na maioriados exemplos, as variáveis separadas são somadas e emseguida seu escore total ou médio é usado na análise.

Indicador Variável única utilizada em conjunção comuma ou mais variáveis diferentes para formar uma me-dida composta.

Medida Composta Ver Escala múltipla.

Medida multivariada Uso de duas ou mais variáveiscomo indicadores de uma única medida composta. Porexemplo, um teste de personalidade pode oferecer asrespostas a diversas questões individuais (indicado-res), as quais são então combinadas para formar umescore único (escala múltipla), que representa o tipo depersonalidade.

Multicolinearidade Extensão em que uma variável po-de ser explicada pelas outras variáveis na análise. Àmedida que a multicolinearidade aumenta, fica maiscomplicada a interpretação da variável estatística, umavez que se torna mais difícil verificar o efeito de qual-quer variável, devido a suas inter-relações.

Poder Probabilidade de rejeitar corretamente a hipótesenula quando a mesma é falsa, ou seja, de encontrar cor-retamente um suposto relacionamento quando ele exis-te. Determinado como uma função (1) do nível de signi-ficância estatística (α) dado pelo pesquisador para umerro Tipo 1, (2) do tamanho da amostra utilizada na aná-lise e (3) do tamanho do efeito examinado.

Significância prática Método de avaliar resultados daanálise multivariada baseado em suas descobertassubstanciais, em vez de sua significância estatística. En-quanto a significância estatística determina se o resulta-do pode ser atribuído ao acaso, a significância práticaavalia se o resultado é útil (i.e., substancial o bastantepara garantir ação).

Tamanho do efeito Estimativa do grau em que o fenô-meno estudado (p. ex., correlação ou diferença em mé-dias) existe na população.

Técnica de dependência Classificação de técnicas esta-tísticas diferenciadas por terem uma variável ou umconjunto de variáveis identificado como a(s) variável(eis)dependente(s) e a(s) variável(eis) remanescente(s) comoindependente(s). O objetivo é a previsão da(s) variá-vel(eis) dependente(s) pela(s) variável(eis) independen-te(s). Um exemplo é a análise de regressão.

Técnica de interdependência Classificação de técnicasestatísticas nas quais as variáveis não são divididas emconjuntos dependentes e independentes (p. ex., análise fato-rial), todas as variáveis são analisadas como um únicoconjunto.

Tratamento Variável independente que o pesquisadormanipula para ver o efeito (se houver) sobre a(s) variá-vel(eis) dependente(s), como em um experimento.

Page 3: Capitulo 1 Hair

INTRODUÇÃO 25

Validade Extensão em que uma medida ou um conjuntode medidas representa corretamente o conceito do estu-do – o grau em que se está livre de qualquer erro siste-mático ou não-aleatório. A validade se refere a quãobem o conceito é definido pela(s) medida(s), enquantoconfiabilidade se refere à consistência da(s) medida(s).

Variável dependente Efeito presumido, ou resposta, auma mudança na(s) variável(eis) independente(s).

Variável dicotômica Variável não-métrica transformadaem uma variável métrica designando-se 1 ou 0 a um ob-jeto, dependendo se este possui ou não uma caracterís-tica particular.

Variável estatística Combinação linear de variáveis for-mada na técnica multivariada determinando-se pesosempíricos aplicados a um conjunto de variáveis especi-ficado pelo pesquisador.

Variável independente Causa presumida de qualquermudança na variável dependente.

O que é análise multivariada?

A tecnologia computacional hoje disponível, quase inima-ginável apenas duas décadas atrás, tem feito avanços ex-traordinários na análise de dados psicológicos, sociológi-cos e outros tipos de dados comportamentais. Esse im-pacto é mais evidente na relativa facilidade com que com-putadores podem analisar grandes quantidades de dadoscomplexos. Praticamente qualquer problema atual é facil-mente analisado por vários programas estatísticos em mi-crocomputadores. Além disso, os efeitos do progresso tec-nológico têm se estendido para além da habilidade demanipular dados, libertando pesquisadores de restriçõesdo passado na análise de dados e conferindo-lhes condi-ções de se engajarem em um desenvolvimento e uma ava-liação mais importantes de seus modelos teóricos. Limita-ções metodológicas não são mais uma preocupação cru-cial para o teórico que se esforça por apoio empírico. Boaparte dessa crescente compreensão e domínio da análisede dados vem do estudo de estatística e inferência estatís-tica. Igualmente importante, contudo, têm sido o entendi-mento e a aplicação cada vez maiores de um grupo de téc-nicas estatísticas conhecido como análise multivariada.

Técnicas analíticas multivariadas estão sendo am-plamente aplicadas na indústria, no governo e em cen-tros de pesquisa acadêmica. Além disso, poucas áreasde estudo ou pesquisa têm falhado na integração de téc-nicas multivariadas em suas “ferramentas” analíticas.Para atender a esse interesse crescente, têm sido publi-cados muitos livros e artigos que tratam dos aspectosteóricos e matemáticos dessas ferramentas, e textos in-trodutórios também têm surgido em quase todas asáreas. Poucos livros, porém, têm sido escritos para opesquisador que não é especialista em matemática ou

estatística. Menos livros ainda discutem as aplicações daestatística multivariada, oferecendo uma discussão con-ceitual dos métodos estatísticos. Este livro foi escritopara preencher tal lacuna.

Livros orientados a aplicações são de interesse cru-cial para cientistas do comportamento e administrado-res, sejam do governo ou de empresas, que têm de ex-pandir seu conhecimento de análise multivariada paracompreender melhor os fenômenos complexos em seuambiente de trabalho. Qualquer pesquisador que exami-ne apenas relações entre duas variáveis e evite análisemultivariada estará ignorando poderosas ferramentasque podem dar informações potencialmente úteis. Comojá foi dito, “Para os propósitos de… qualquer… área apli-cada, a maioria de nossas ferramentas é, ou deveria ser,multivariada. Somos levados à conclusão de que a me-nos que um… problema seja tratado como multivariado,será tratado superficialmente” [7, p. 158]. De acordo comos estatísticos Hardyck e Petrinovich [8, p. 7]:

Os métodos de análise multivariada predominarão no fu-turo e resultarão em drásticas mudanças na maneira co-mo profissionais de pesquisa pensam em problemas eplanejam sua pesquisa. Esses métodos tornam possível le-vantar questões específicas e precisas de considerávelcomplexidade em cenários naturais. Isso viabiliza a con-dução de pesquisas teoricamente importantes e a avalia-ção dos efeitos de variações paramétricas que natural-mente ocorrem no contexto em que elas normalmenteaparecem. Dessa maneira, as correlações naturais entre asmúltiplas influências de comportamento podem ser pre-servadas e efeitos separados dessas influências, estuda-dos estatisticamente sem causar um isolamento comumde qualquer indivíduo ou variável.

Por exemplo, os homens de negócios de hoje não conse-guem seguir a abordagem simplista na qual os consumi-dores são considerados homogêneos e caracterizados porum pequeno número de variáveis demográficas. Ao in-vés disso, eles devem desenvolver estratégias que ape-lem a inúmeros segmentos de clientes com característicasdemográficas e psicográficas variadas em um mercadocom múltiplas restrições (p. ex., legais, econômicas, com-petitivas, tecnológicas). É somente por meio de técnicasmultivariadas que essas múltiplas relações podem seradequadamente examinadas para se obter uma com-preensão mais completa e realista na tomada de decisões.

Ao longo do texto, usamos o termo genérico “pesqui-sador” quando nos referimos a um analista de dados,profissional ou acadêmico. Julgamos inapropriado fazerdistinção entre essas duas áreas, uma vez que a atividadede pesquisa deve se sustentar em bases teóricas e quanti-tativas. A despeito de os objetivos da pesquisa e da ênfa-se na interpretação poderem variar, um pesquisador emqualquer área deve abordar todos os tópicos, sejam con-ceituais ou empíricos, que surgem nas discussões sobreos métodos estatísticos.

Page 4: Capitulo 1 Hair

26 ANÁLISE MULTIVARIADA DE DADOS

O impacto da revolução na informática

É quase impossível discutir a aplicação de técnicas mul-tivariadas sem uma discussão do impacto do computa-dor. Como anteriormente mencionado, a ampla aplica-ção de computadores (primeiro de grande porte e depoiscomputadores pessoais) para processar bancos de dadosgrandes e complexos tem incentivado significativamen-te o uso de métodos estatísticos multivariados. A teoriaestatística para técnicas multivariadas de hoje foi desen-volvida bem antes do surgimento de computadores,mas essas técnicas permaneceram quase desconhecidasfora da área de estatística teórica até o momento em queo poder computacional tornou-se disponível para execu-tar seus cálculos cada vez mais complexos. Os avançostecnológicos contínuos em computação, particularmen-te em computadores pessoais, têm oferecido, a qualquerpesquisador interessado, rápido acesso a todos os recur-sos necessários para abordar problemas multivariadosde praticamente qualquer tamanho. De fato, muitos pes-quisadores referem-se a si mesmos como analistas de da-dos, em vez de estatísticos ou (como no vernáculo)“quantitativistas”. Esses analistas de dados têm contri-buído substancialmente para o aumento do uso e daaceitação da estatística multivariada em setores priva-dos e do governo. Dentro da comunidade acadêmica,disciplinas em todas as áreas têm adotado técnicas mul-tivariadas, e cada vez mais freqüentemente acadêmicosdevem ser versados nas técnicas multivariadas apro-priadas para suas pesquisas empíricas. Mesmo para pes-soas com forte qualificação quantitativa, a disponibilida-de de pacotes computacionais para análise multivariadatem facilitado a complexa manipulação de matrizes dedados que há muito tempo têm dificultado o desenvol-vimento de técnicas multivariadas.

Muitas universidades de porte já exigem que os ca-louros comprem seus próprios computadores antes damatrícula, e estudantes e professores agora rotineira-mente analisam dados multivariados para responder aquestões em áreas de estudo que vão da antropologia àzoologia. Todos os pacotes estatísticos abrangentes ela-borados para computadores de grande porte (p. ex.,SPSS, SAS e BMDP) estão agora disponíveis também emcomputadores pessoais. Programas especializados paraoutros tipos de análise multivariada, incluindo escalo-namento multidimensional, modelagem de equações si-multâneas e estruturais e análise conjunta, estavam aoalcance apenas – mas com limitações – em computado-res de grande porte, porém hoje eles são compatíveiscom computadores pessoais. Sistemas especialistas es-tão sendo desenvolvidos para tratar até mesmo de ques-tões como a seleção de uma técnica estatística [4] ou odelineamento de um plano de amostragem para garan-tir objetivos estatísticos e práticos almejados [3].

Programas estatísticos não são mais primeiramentedesenvolvidos para sistemas de grande porte e entãoadaptados para computadores pessoais; em vez disso,eles agora são incialmente desenvolvidos para o micro-computador. Talvez a categoria de programas estatísticosde mais rápido crescimento seja a dos pacotes estatísticosprojetados especificamente para tirar proveito da flexibi-lidade do computador pessoal. Técnicas multivariadassão tão difundidas que todas as técnicas ilustradas nestetexto podem ser avaliadas com pacotes estatísticos pron-tamente disponíveis tanto para computadores de grandeporte quanto minicomputadores ou computadores pes-soais. Uma lista abrangente dos principais programasdisponíveis de análise multivariada pode ser encontradano Apêndice A. Dedica-se especial atenção a programasde computadores pessoais.

Definição de análise multivariada

Não é fácil definir análise multivariada. De um modogeral, ela refere-se a todos os métodos estatísticos quesimultaneamente analisam múltiplas medidas sobre ca-da indivíduo ou objeto sob investigação. Qualquer aná-lise simultânea de mais de duas variáveis de certo mo-do pode ser considerada análise multivariada. Assim,muitas técnicas multivariadas são extensões da análiseunivariada (análise de distribuições de uma única va-riável) e da análise bivariada (classificação cruzada, cor-relação, análise de variância e regressão simples usadapara analisar duas variáveis). Por exemplo, regressãosimples (com uma variável preditora) é estendida nocaso multivariado para incluir várias variáveis predito-ras. Do mesmo modo, a variável dependente isoladaencontrada na análise de variância é estendida de for-ma a incluir múltiplas variáveis dependentes em análi-se multivariada de variância. Em muitos casos, técnicasmultivariadas são um meio de executar em uma únicaanálise aquilo que antes exigia múltiplas análises usan-do técnicas univariadas. Outras técnicas multivariadas,contudo, são unicamente projetadas para lidar comquestões multivariadas, como análise fatorial, que iden-tifica a estrutura subjacente a um conjunto de variáveis,ou análise discriminante, que discrimina grupos combase em um conjunto de variáveis.

Uma razão para a dificuldade de definir análise mul-tivariada é que o termo multivariada não é usado de ma-neira consistente na literatura. Alguns pesquisadores outilizam simplesmente para designar o exame de rela-ções entre mais de duas variáveis. Outros, somente emproblemas nos quais todas as variáveis múltiplas sãoconsideradas como tendo uma distribuição normal mul-tivariada. Para ser considerada verdadeiramente comomultivariada, contudo, todas as variáveis devem ser

Page 5: Capitulo 1 Hair

INTRODUÇÃO 27

aleatórias e inter-relacionadas de maneira que seus dife-rentes efeitos não podem ser significativamente interpre-tados de forma separada. Alguns autores estabelecem queo propósito da análise multivariada é medir, explicar eprever o grau de relacionamento entre variáveis estatísti-cas (combinações ponderadas de variáveis). Desse modo,o caráter multivariado consiste nas múltiplas variáveis es-tatísticas (combinações múltiplas de variáveis) e não ape-nas no número de variáveis ou observações. Para os pro-pósitos deste livro, não insistimos em uma definição rígi-da. A análise multivariada incluirá tanto as técnicas demúltiplas variáveis quanto as técnicas verdadeiramentemultivariadas, uma vez que acreditamos que o conheci-mento de técnicas de múltiplas variáveis é um primeiropasso essencial na compreensão da análise multivariada.

Alguns conceitos básicos de análisemultivariada

Apesar de a análise multivariada ter suas raízes nas esta-tísticas univariada e bivariada, a extensão para o domí-nio multivariado introduz conceitos adicionais e ques-tões que têm particular relevância. Esses conceitos va-riam da necessidade de uma compreensão conceitual doconstructo da análise multivariada – a variável estatísti-ca – até pontos específicos que lidam com os tipos de es-calas de medida empregadas e as questões estastíticas detestes de significância e níveis de confiança. Cada concei-to tem um papel significativo na aplicação bem-sucedidade qualquer técnica multivariada.

A variável estatística

Como anteriormente mencionado, o constructo da análi-se multivariada é a variável estatística, uma combinaçãolinear de variáveis com pesos empiricamente determina-dos. As variáveis são especificadas pelo pesquisador,sendo os pesos determinados pela técnica multivariadapara atingir um objetivo específico. Uma variável estatís-tica de n variáveis ponderadas (X1 até Xn) pode ser enun-ciada matematicamente como:

Valor da variável estatística =w1X1 + w2X2 + w3X3 + … + wnXn

onde Xn é a variável observada e wn é o peso determina-do pela técnica multivariada.

O resultado é um único valor que representa umacombinação do conjunto inteiro de variáveis que melhoratinge o objetivo da análise multivariada específica. Emregressão múltipla, a variável estatística é determinadade modo a melhor se correlacionar com a variável a serprevista. Em análise discriminante, a variável estatísticaé formada de modo a criar escores para cada observação

que diferencie de forma máxima entre grupos de obser-vações. Em análise fatorial, variáveis estatísticas são for-madas para melhor representarem a estrutura subjacenteou a dimensionalidade das variáveis como representadaspor suas intercorrelações.

Em cada caso, a variável estatística captura o carátermultivariado da análise. Assim, em nossa discussão decada técnica, a variável estatística é foco da análise emmuitos aspectos. Devemos compreender não apenas seuimpacto coletivo em satisfazer o objetivo da técnica, mastambém a contribuição de cada variável separada para oefeito geral da variável estatística.

Escalas de medida

A análise de dados envolve a partição, a identificação e amedida de variação em um conjunto de variáveis, seja en-tre elas ou entre uma variável dependente e uma ou maisvariáveis independentes. A palavra-chave aqui é medida,pois o pesquisador não pode repartir ou identificar varia-ção a menos que ela possa ser medida. A mensuração éimportante para representar com precisão o conceito deinteresse e é instrumental na seleção do método multiva-riado apropriado para análise. A seguir, discutimos comoo conceito de medida se relaciona à análise de dados eparticularmente às várias técnicas multivariadas.

Há dois tipos básicos de dados: não-métricos (quali-tativos) e métricos (quantitativos). Dados não-métricossão atributos, características ou propriedades categóricasque identificam ou descrevem um objeto. Descrevem di-ferenças em tipo ou espécie, indicando a presença ou au-sência de uma característica ou propriedade. Muitas pro-priedades são discretas, no sentido de terem uma caracte-rística particular, sendo todas as outras características ex-cluídas; por exemplo, se alguém é do sexo masculino, nãopode ser do sexo feminino. Não existe qualquer “quan-tia” de sexo; há apenas o estado de ser masculino ou femi-nino. Em contrapartida, medidas de dados métricos sãofeitas de modo que os indivíduos podem ser identificadoscomo diferenciados em quantia ou grau. Variáveis metri-camente medidas refletem quantidade relativa ou grau.Medidas métricas são apropriadas para casos que envol-vem quantia ou magnitude, como nível de satisfação oucompromisso com um emprego.

Escalas de medida não-métrica

As medidas não-métricas podem ser feitas com uma es-cala nominal ou ordinal. A medida com uma escala no-minal designa números usados para rotular ou identifi-car indivíduos ou objetos. As escalas nominais, tambémconhecidas como escalas categóricas, fornecem o núme-ro de ocorrências em cada classe ou categoria da variá-vel em estudo. Portanto, os números ou símbolos desig-nados aos objetos não têm significado quantitativo além

Page 6: Capitulo 1 Hair

28 ANÁLISE MULTIVARIADA DE DADOS

da indicação da presença ou ausência do atributo ou ca-racterística sob investigação. Exemplos de dados esca-lonados nominalmente incluem o sexo , a religião ou opartido político de um indivíduo. Ao trabalhar com es-ses dados, o pesquisador pode designar números paracada categoria, por exemplo, 2 para mulheres e 1 parahomens. Esses números simplesmente representam ca-tegorias ou classes e não implicam quantias de um atri-buto ou característica.

Escalas ordinais são o próximo nível superior deprecisão em medida. Variáveis podem ser ordenadas ouranqueadas com escalas ordinais em relação à quantiado atributo possuída. Toda subclasse pode ser compara-da com outra em termos de uma relação da forma“maior que” ou “menos que”. Por exemplo, diferentesníveis de satisfação de um consumidor em relação a di-versos novos produtos podem ser ilustrados em umaescala ordinal. A escala a seguir mostra a opinião de umrespondente sobre três produtos. Ele está mais satisfei-to com A do que com B e mais satisfeito com B do quecom C.

Os números utilizados em escalas ordinais, como esses,são não-quantitativos, pois indicam apenas posições re-lativas em uma série ordenada. Não existe medida degrau de satisfação do consumidor em termos absolutos,e o pesquisador também não sabe a diferença exata en-tre pontos na escala de satisfação. Muitas escalas emciências do comportamento recaem nessa categoria or-dinal.

Escalas de medida métrica

As escalas intervalares e escalas de razão (ambas métri-cas) fornecem o mais alto nível de precisão de medida,permitindo que quase todas as operações matemáticassejam executadas. Essas duas escalas têm unidadesconstantes de medida e, portanto, diferenças entrequaisquer dois pontos adjacentes em qualquer parte daescala são iguais. A única diferença real entre escalas in-tervalares e escalas de razão é que as primeiras têm umponto zero arbitrário, enquanto as segundas têm umponto zero absoluto. As escalas intervalares mais fami-liares são as escalas de temperatura Fahrenheit e Cel-sius. Cada uma tem um ponto zero arbitrário diferentee nenhuma indica uma quantia nula ou ausência detemperatura, já que podemos registrar temperaturasabaixo do ponto zero em ambas. Logo, não é possíveldizer que qualquer valor em uma escala intervalar é um

múltiplo de algum outro ponto da escala. Por exemplo,não se pode considerar que um dia de 80ºF tenha o do-bro de temperatura de um dia de 40ºF, pois sabemosque 80ºF, em uma escala diferente, como Celsius, é26,7ºC. Do mesmo modo, 40ºF em Celsius é 4,4ºC. Ape-sar de 80ºF ser de fato o dobro de 40ºF, não podemosafirmar que o calor de 80ºF é o dobro do calor de 40ºF, jáque, usando diferentes escalas, o calor não tem o dobroda intensidade, isto é, 4,4ºC × 2 ≠ 26,7ºC.

As escalas de razão representam a mais elevada for-ma de precisão de medida, pois possuem as vantagensde todas as escalas inferiores somadas à existência deum ponto zero absoluto. Todas as operações matemáti-cas são possíveis com medidas de escala razão. As ba-lanças de banheiros ou outros aparelhos comuns paramedir pesos são exemplos dessas escalas, pois têm umponto zero absoluto, e assim podemos falar em termosde múltiplos quando relacionamos um ponto da escalacom outro; por exemplo, 100 libras é duas vezes o pesode 50 libras.

Compreender os diferentes tipos de escalas de me-dida é importante por duas razões. Primeiro, o pesqui-sador deve identificar a escala de medida de cada va-riável usada, de forma que dados não-métricos não se-jam incorretamente usados como dados métricos e vi-ce-versa. Segundo, a escala de medida é crítica ao de-terminar quais técnicas multivariadas são as mais apli-cáveis aos dados, com considerações feitas para ambasas variáveis, independentes e dependentes. Na discus-são sobre as técnicas e sua classificação em seções,apresentadas mais adiante, as propriedades métricas enão-métricas de variáveis independentes e dependen-tes são os fatores determinantes na escolha da técnicaapropriada.

Erro de medida e medida multivariada

O uso de variáveis múltiplas e a confiança em sua combi-nação (a variável estatística) em técnicas multivariadastambém concentra a atenção em uma questão comple-mentar – o erro de medida. Erro de medida é o grau emque os valores observados não são representativos dosvalores “verdadeiros”. Tem muitas fontes, que variamdesde os erros na entrada de dados devido à imprecisãoda medida (p. ex., impor escalas com sete pontos paramedida de atitude quando o pesquisador sabe que osrespondentes podem responder precisamente apenasem escalas de três pontos) até a falta de habilidade derespondentes em fornecerem informações precisas (p.ex., respostas como a renda familiar podem ser razoa-velmente corretas, mas raramente exatas). Assim, todasas variáveis usadas em técnicas multivariadas devemser consideradas como tendo um certo grau de erro demedida. O impacto de erro de medida é o acréscimo de

Muito satisfeito Insatisfeito

Produto A Produto B Produto C

Page 7: Capitulo 1 Hair

INTRODUÇÃO 29

“ruído” às variáveis observadas ou medidas. Logo, ovalor observado obtido representa tanto o nível “verda-deiro” quanto o “ruído”. Quando usado para computarcorrelações ou médias, o efeito “verdadeiro” é parcial-mente mascarado pelo erro de medida, causando umenfraquecimento nas correlações e menor precisão nasmédias. O impacto específico de erro de medida e suaacomodação em relacionamentos de dependência éabordado mais detalhadamente no Capítulo 11.

O objetivo do pesquisador de reduzir o erro de medi-da pode seguir diversos caminhos. Ao avaliar o grau deerro presente em qualquer medida, o pesquisador develevar em conta a validade e a confiabilidade da medida.Validade é o grau em que uma medida representa preci-samente aquilo que se espera. Por exemplo, se queremosmedir renda discricionária, não devemos perguntar arenda familiar total. A garantia da validade começa comuma compreensão direta do que deve ser medido e entãorealizar a medida tão “correta” e precisa quanto possível.No entanto, valores exatos não garantem validade. Emnosso exemplo de renda, o pesquisador poderia definircom grande exatidão o que é renda familiar, mas aindater uma medida inválida de renda discricionária porquea pergunta “correta” não foi formulada.

Se a validade está garantida, o pesquisador deve ain-da considerar a confiabilidade das medidas. Confiabili-dade é o grau em que a variável observada mede o valor“verdadeiro” e está “livre de erro”; assim, é o oposto deerro de medida. Se a mesma medida for feita repetida-mente, por exemplo, medidas mais confiáveis mostrarãomaior consistência do que medidas menos confiáveis. Opesquisador sempre deve avaliar as variáveis emprega-das e se medidas alternativas válidas estão disponíveis, eentão escolher a variável com a maior confiabilidade.

Além disso, o pesquisador pode querer desenvolvermedidas multivariadas, também conhecidas como esca-las múltiplas, nas quais diversas variáveis são reunidasem uma medida composta para representar um conceito(p. ex., escalas de personalidade com múltiplos itens ouescalas múltiplas de satisfação com um produto). O obje-tivo é evitar o uso de apenas uma variável para represen-tar um conceito e, ao invés disso, usar várias variáveiscomo indicadores (ver Termos-Chave), todos represen-tando diferentes facetas do conceito, para se obter umaperspectiva mais “ampla”. O uso de múltiplos indicado-res permite ao pesquisador especificar mais precisa-mente as respostas desejadas. Não deposita total con-fiança em uma única resposta, mas na resposta “média”ou “típica” de um conjunto de respostas relacionadas.Por exemplo, ao medir satisfação, poder-se-ia perguntarsimplesmente “Quão satisfeito você está?” e basear aanálise nesta única resposta. Ou uma escala múltiplapoderia ser desenvolvida combinando-se várias respos-tas de satisfação, talvez em diferentes formatos de res-

posta e em diferentes áreas de interesse imaginadas pa-ra constituir a satisfação geral. A premissa é que respos-tas múltiplas refletem a resposta “verdadeira” commaior precisão do que uma única resposta. Avaliação deconfiabilidade e incorporação de escalas na análise sãométodos que o pesquisador deve empregar. Para umaintrodução mais detalhada a modelos de múltiplas me-didas e construção de escalas, ver discussão suplemen-tar no Capítulo 3 (Análise Fatorial) e no Capítulo 11(Modelagem de Equações Estruturais) ou textos adicio-nais [10]. Além disso, compilações de escalas que podemfornecer ao pesquisador uma escala “pronta para usar”com confiabilidade demonstrada têm sido publicadas re-centemente [1,5].

O impacto de erro de medida e a confiabilidade ruimnão podem ser diretamente percebidos, uma vez que es-tão embutidos nas variáveis observadas. Portanto, o pes-quisador sempre deve trabalhar para aumentar a confia-bilidade e a validade, que em contrapartida resultarãoem uma descrição “mais verdadeira” das variáveis de in-teresse. Resultados pobres não são sempre devido a errode medida, mas a presença de erro de medida certamen-te distorce as relações observadas e torna as técnicas mul-tivariadas menos poderosas. Reduzir erro de medida,apesar de demandar esforço, tempo e recursos adicio-nais, pode melhorar resultados fracos ou marginais, bemcomo fortalecer resultados demonstrados.

Significância estatística versuspoder estatístico

Todas as técnicas multivariadas, exceto análise de agru-pamentos e escalonamento multidimensional, são ba-seadas na inferência estatística dos valores ou relaçõesde uma população entre variáveis de uma amostra alea-tória extraída daquela população. Se conduzimos umcenso da população inteira, então a inferência estatísti-ca é desnecessária, pois qualquer diferença ou relação,não importa quão pequena, é “verdadeira” e existe. En-tretanto, raramente, ou nunca, um censo é realizado; lo-go, o pesquisador é obrigado a fazer inferências a partirde uma amostra.

Interpretar inferências estatísticas requer que o pes-quisador especifique os níveis de erro estatístico aceitá-veis. A abordagem mais comum é especificar o nível doerro Tipo I, também conhecido como alfa (α). O erro Ti-po I é a probabilidade de rejeitar a hipótese nula quan-do a mesma é verdadeira, ou, em termos simples, achance de o teste exibir significância estatística quandona verdade esta não está presente – o caso de um “posi-tivo falso”. Ao especificar um nível alfa, o pesquisadorestabelece os limites permitidos para erro, especifican-

Page 8: Capitulo 1 Hair

30 ANÁLISE MULTIVARIADA DE DADOS

do a probabilidade de se concluir que a significânciaexiste quando na realidade esta não ocorre.

Quando especifica o nível de erro Tipo I, o pesquisa-dor também determina um erro associado, chamado deerro Tipo II ou beta (β). O erro Tipo II é a probabilidadede não rejeitar a hipótese nula quando na realidade esta éfalsa. Uma probabilidade ainda mais interessante é 1 – β,chamada de poder do teste de inferência estatística. Po-der é a probabilidade de rejeitar corretamente a hipótesenula quando esta deve ser rejeitada.

Logo, poder é a probabilidade de a significância esta-tística ser indicada se estiver presente. A relação das dife-rentes probabilidades de erro na situação hipotética deteste para a diferença em duas médias é mostrada aqui:

Apesar de a especificação de alfa estabelecer o nível designificância estatística aceitável, é o nível de poder quedetermina a probabilidade de “sucesso” em encontrar asdiferenças se elas realmente existirem. Então por que nãofixar alfa e beta em níveis aceitáveis? Porque os erros Ti-po I e Tipo II são inversamente relacionados e, à medidaque o erro Tipo I se torna mais restritivo (se aproxima dezero), o erro Tipo II aumenta. Reduzir erros Tipo I, por-tanto, reduz o poder do teste estatístico. Assim, o pesqui-sador deve jogar com o equilíbrio entre o nível alfa e opoder resultante.

O poder não é apenas uma função de α. É na verda-de determinado por três fatores:

1. Tamanho do efeito – A probabilidade de atingir sig-nificância estatística, é baseada não apenas em consi-derações estatísticas, mas também na verdadeiramagnitude do efeito de interesse (p. ex., uma diferen-ça de médias entre dois grupos ou a correlação entrevariáveis) na população, denominado tamanho doefeito* (ver Termos-Chave). Como era de se esperar,um efeito maior é mais facilmente encontrado do queum efeito menor, o que causa impacto no poder doteste estatístico. Para avaliar o poder de qualquer tes-te estatístico, o pesquisador deve primeiro com-preender o efeito sendo examinado. Os tamanhos deefeito são definidos em termos padronizados para fa-cilitar a comparação. As diferenças de média são da-das em termos de desvios-padrão, de modo que umtamanho de efeito de 0,5 indica que a diferença demédia é metade de um desvio-padrão. Para correla-

ções, o tamanho do efeito é baseado na real correla-ção entre as variáveis.

2. Alfa (α) – Como já foi discutido, quando alfa se tornamais restritivo, o poder diminui. Isso significa quequando o pesquisador reduz a chance de encontrarum efeito significante incorreto, a probabilidade decorretamente encontrar um efeito também diminui.Diretrizes convencionais sugerem níveis de alfa de0,05 ou 0,01. Entretanto, o pesquisador deve conside-rar o impacto dessa decisão sobre o poder antes deselecionar o nível alfa. A relação dessas duas probabi-lidades é ilustrada em discussões posteriores.

3. Tamanho da amostra – Em qualquer nível alfa, tama-nhos de amostras aumentados sempre produzemmaior poder do teste estatístico. No entanto, aumentaro tamanho da amostra também pode produzir poder“em excesso”. Isso significa que se aumentarmos o ta-manho da amostra, efeitos cada vez menores serãoconsiderados estatisticamente significantes, até o pon-to em que para tamanhos de amostra muito grandespraticamente qualquer efeito será significante. O pes-quisador sempre deve estar ciente de que o tamanhoda amostra pode impactar o teste estatístico, tornan-do-o insensível (com amostras pequenas) ou exagera-damente sensível (com amostras muito grandes).

As relações entre alfa, tamanho da amostra, tama-nho do efeito e poder são muito complicadas, e muitasreferências de orientação estão disponíveis. Cohen [6]examina o poder para a maioria dos testes de inferênciaestatística e apresenta uma orientação para níveis acei-táveis de poder, sugerindo que estudos devem ser pla-nejados para atingir níveis alfa de pelo menos 0,05 comníveis de poder de 80%. Para atingir tais níveis de po-der, os três fatores – alfa, tamanho da amostra e tama-nho do efeito – devem ser considerados simultanea-mente. Essas inter-relações podem ser ilustradas pordois exemplos simples. O primeiro envolve o teste paraa diferença entre os escores médios de dois grupos.Considere que o tamanho do efeito deva variar entrepequeno (0,2) e moderado (0,5). O pesquisador agoradeve determinar o nível alfa necessário e o tamanho daamostra de cada grupo. A Tabela 1.1 ilustra o impactodo tamanho da amostra e do nível alfa necessário sobreo poder. Como se vê, o poder se torna aceitável com ta-manhos de amostra de 100 ou mais em situações comum tamanho de efeito moderado nos dois níveis alfa.Todavia, quando o tamanho do efeito é pequeno, os tes-tes estatísticos têm pouco poder, mesmo com níveis alfaexpandidos ou amostras de 200 ou mais. Por exemplo,uma amostra de 200 em cada grupo, com um alfa de0,05, ainda tem apenas 50% de chance de diferenças sig-nificantes serem encontradas se o tamanho do efeito forpequeno. Isso sugere que se o pesquisador anteciparque os efeitos serão pequenos, ele deverá planejar o es-

H0: sem diferença

H0: semdiferença

Ha: com diferença

Ha: comdiferença

Realidade

Decisãoestatística

βErro Tipo II

αErro Tipo I

1 – βPoder

1 – α

* N. de R.T. Em inglês, effect size (ES).

Page 9: Capitulo 1 Hair

INTRODUÇÃO 31

tudo com tamanhos de amostra muito maiores e/ou ní-veis alfa menos restritivos (0,05 ou 0,10).

No segundo exemplo, a Figura 1.1 apresenta grafica-mente o poder para níveis de significância 0,01, 0,05 e0,10 para tamanhos de amostra de 30 a 300 por grupo,quando o tamanho do efeito (0,35) está entre pequeno emoderado. Diante de tais perspectivas, a especificação deum nível de significância de 0,01 requer uma amostra de200 por grupo para atingir o nível desejado de 80% depoder. No entanto, se o nível alfa é relaxado, um poder

de 80% é alcançado com amostras de 130 para um nívelalfa de 0,05 e de 100 para um nível alfa de 0,10.

Tais análises permitem que o pesquisador tenhamais informações para tomar decisões sobre o planeja-mento de estudo e a interpretação dos resultados. Aoplanejar uma pesquisa, o pesquisador deve estimar otamanho do efeito e então selecionar o tamanho daamostra e alfa para atingir o nível de poder desejado.Além de seus usos para planejamento, a análise de po-der também é utilizada depois que a análise está com-

TABELA 1.1 Níveis de poder para a comparação de duas médias: variações por tamanho de amostra, nível de significância e tamanho do efeito

alfa (α) = 0,05 alfa (α) = 0,01

Tamanho do efeito (ES - Effect Size) Tamanho do efeito (ES)_________________________________________ ____________________________________________Tamanho da amostra Pequeno (0,2) Moderado (0,5) Pequeno (0,2) Moderado (0,5)

20 0,095 0,338 0,025 0,14440 0,143 0,598 0,045 0,34960 0,192 0,775 0,067 0,54980 0,242 0,882 0,092 0,709

100 0,290 0,940 0,120 0,823150 0,411 0,990 0,201 0,959200 0,516 0,998 0,284 0,992

Fonte: Solo Power Analysis, BMDP Statistical Software, Inc.

FIGURA 1.1 Impacto do tamanho da amostra sobre o poder para vários níveis alfa (0,01, 0,05, 0,10) com tamanho do efeito de 0,35.

Tamanho da amostra por grupo

Poder sugerido: 0,80

Pod

er

Tamanho do efeito: 0,35

1,0

0,8

0,6

0,4

0,2

0,030 50 70 90 110 130 150 170 190 210 230 250 270 290

α = 0,01

α = 0,10

α = 0,05

Page 10: Capitulo 1 Hair

32 ANÁLISE MULTIVARIADA DE DADOS

pleta para determinar o real poder alcançado, de modoque os resultados possam ser apropriadamente inter-pretados. Os resultados são devido a tamanhos de efei-to, tamanhos das amostras ou níveis de significância? Opesquisador pode avaliar cada um desses fatores porseu impacto na significância ou não-significância dosresultados. O pesquisador de hoje pode consultar estu-dos publicados que detalham as especificações da de-terminação de poder [6] ou apelar para diversos progra-mas de computador que auxiliam no planejamento deestudos com o propósito de atingir o poder desejado oucalcular o poder de resultados reais [2,3]. Orientaçõesespecíficas para regressão múltipla e análise multivaria-da de variância – as aplicações mais comuns de análisede poder – são discutidas com mais detalhes nos Capí-tulos 4 e 6.

Após termos abordado as questões de estender técni-cas multivariadas a partir de suas origens univariadas ebivariadas, agora introduzimos brevemente cada méto-do multivariado discutido no texto. Após as introduçõesdas técnicas, apresentamos um esquema de classificaçãopara auxiliar na seleção da técnica apropriada, especifi-cando os objetivos da pesquisa (relação de independên-cia ou dependência) e os tipos de dados (métricos ounão-métricos).

Tipos de técnicas multivariadas

Análise multivariada é um conjunto de técnicas para análi-se de dados que está sempre em expansão. Dentre as técni-cas mais estabelecidas discutidas neste livro, estão (1) aná-lise de componentes principais e análise dos fatores co-muns, (2) regressão múltipla e correlação múltipla, (3) aná-lise discriminante múltipla, (4) análise multivariada de va-riância e covariância, (5) análise conjunta, (6) correlação ca-nônica, (7) análise de agrupamentos e (8) escalonamentomultidimensional. Dentre as técnicas emergentes, tambémestão incluídas (9) análise de correspondência, (10) modeloslineares de probabilidade, como logit e probit, e (11) a mode-lagem de equações simultâneas/estruturais. Aqui introdu-zimos cada uma das técnicas multivariadas, definindo bre-vemente a técnica e o objetivo para sua aplicação.

Análise de componentes principais eanálise dos fatores comuns

Análise fatorial, que inclui análise de componentesprincipais e análise dos fatores comuns, é uma aborda-gem estatística que pode ser usada para analisar inter-relações entre um grande número de variáveis e expli-car essas variáveis em termos de suas dimensões ine-rentes comuns (fatores). O objetivo é encontrar um

meio de condensar a informação contida em um nú-mero de variáveis originais em um conjunto menor devariáveis estatísticas (fatores) com uma perda mínimade informação. Pelo fato de fornecer uma estimativaempírica da “estrutura” das variáveis consideradas, aanálise fatorial se torna uma base objetiva para criarescalas múltiplas.

Regressão múltipla

Regressão múltipla é o método de análise apropriadoquando o problema de pesquisa envolve uma única va-riável dependente métrica considerada relacionada aduas ou mais variáveis independentes métricas. O obje-tivo da análise de regressão múltipla é prever as mudan-ças na variável dependente como resposta a mudançasnas variáveis independentes. Esse objetivo é alcançado,com freqüência, por meio da regra estatística dos míni-mos quadrados.

Sempre que o pesquisador estiver interessado emprever a quantia ou magnitude da variável dependente,a regressão múltipla será útil. Por exemplo, despesasmensais com jantares fora de casa (variável dependen-te) podem ser previstas a partir de informações referen-tes a renda familiar, tamanho da família e idade do che-fe da família (variáveis independentes). Do mesmo mo-do, o pesquisador pode tentar prever as vendas de umaempresa a partir de informações sobre suas despesasem publicidade, o número de vendedores e o númerode lojas que vendem seus produtos.

Análise discriminante múltipla

Análise discriminante múltipla (MDA – multiple discri-minant analysis) é a técnica multivariada adequadaquando a única variável dependente é dicotômica (p.ex., masculino-feminino) ou multicotômica (p. ex., alto-médio-baixo) e, portanto, não-métrica. Como na regres-são múltipla, pressupõe-se que as variáveis indepen-dentes sejam métricas. A análise discriminante é aplicá-vel em situações nas quais a amostra total pode ser divi-dida em grupos baseados em uma variável dependentenão-métrica que caracteriza diversas classes conheci-das. Os objetivos primários da análise discriminantemúltipla são entender diferenças de grupos e prever aprobabilidade de que uma entidade (indivíduo ou obje-to) pertencerá a uma classe ou grupo em particular combase em diversas variáveis independentes métricas. Porexemplo, a análise discriminante poderia ser emprega-da para distinguir inovadores de não-inovadores deacordo com seus perfis demográficos e psicográficos.Outras aplicações incluem a distinção de usuários depeso daqueles que não o são, sexo masculino de sexofeminino, consumidores de marcas nacionais de consu-

Page 11: Capitulo 1 Hair

INTRODUÇÃO 33

midores de marcas importadas e bons riscos de créditode riscos ruins de crédito. Até mesmo o Internal Reve-nue Service dos EUA usa análise discriminante paracomparar restituições de impostos federais seleciona-das com uma restituição hipotética de contribuintecomposta e normal (com diferentes níveis de renda) pa-ra identificar as restituições mais promissoras e áreaspara auditoria.

Análise multivariada de variânciae covariância

A análise multivariada de variância (MANOVA – multi-variate analysis of variance and covariance) é uma técnicaestatística que pode ser usada para explorar simulta-neamente as relações entre diversas variáveis indepen-dentes categóricas (geralmente chamadas de tratamen-tos) e duas ou mais variáveis dependentes métricas. Co-mo tal, representa uma extensão da análise univariadade variância (ANOVA – univariate analysis of variance).A análise multivariada de covariância (MANCOVA –multivariate analysis of covariance) pode ser usada emconjunção com MANOVA para remover (após o experi-mento) o efeito de quaisquer variáveis independentesmétricas não controladas (conhecidas como covariáveisestatísticas) sobre as variáveis dependentes. O procedi-mento é análogo ao envolvido na correlação parcial bi-variada, na qual o efeito de uma terceira variável é re-movido da correlação. MANOVA é útil quando o pes-quisador planeja uma situação experimental (manipu-lação de várias variáveis não-métricas que representamtratamento) para testar hipóteses referentes à variânciaem respostas nos grupos sobre duas ou mais variáveisdependentes métricas.

Análise conjunta

A análise conjunta é uma técnica emergente de depen-dência que tem trazido nova sofisticação para a avalia-ção de objetos, como produtos novos, serviços ouidéias. A aplicação mais direta é no desenvolvimento denovos produtos ou serviços, viabilizando a avaliação deprodutos complexos e mantendo um contexto realistade decisão para o respondente. O pesquisador de mer-cado é capaz de avaliar a importância de atributos, bemcomo os níveis de cada atributo, enquanto consumido-res avaliam apenas uns poucos perfis do produto, osquais são combinações de níveis de produto. Por exem-plo, considere que um dado produto tenha três atribu-tos (preço, qualidade e cor), cada um com três níveispossíveis (p. ex., vermelho, amarelo e azul). Em vez deavaliar as 27 (3 × 3 × 3) combinações possíveis, um sub-conjunto (9 ou mais) pode ser avaliado por seu apeloperante consumidores, e o pesquisador sabe não apenas

o quão importante cada atributo é, mas também a im-portância de cada nível (a atratividade de vermelho ver-sus amarelo versus azul). Além disso, quando as avalia-ções do consumidor são concluídas, os resultados daanálise conjunta podem igualmente ser usados em si-muladores de planejamento do produto, os quais mos-tram a aceitação do consumidor a qualquer número deformulações do produto e ajudam no planejamento doproduto ótimo.

Correlação canônica

A análise de correlação canônica pode ser vista comouma extensão lógica da análise de regressão múltipla.Lembre que a análise de regressão múltipla envolve umaúnica variável dependente métrica e várias variáveis in-dependentes métricas. Com a análise canônica, o objeti-vo é correlacionar simultaneamente diversas variáveisdependentes métricas e diversas variáveis independen-tes métricas. A regressão múltipla envolve uma única va-riável dependente; a correlação canônica envolve múlti-plas variáveis dependentes.

O princípio subjacente é desenvolver uma combina-ção linear de cada conjunto de variáveis (independentese dependentes) para maximizar a correlação entre osdois conjuntos. Em outras palavras, o procedimento en-volve a obtenção de um conjunto de pesos para as va-riáveis dependentes e independentes que fornece a cor-relação simples máxima entre o conjunto de variáveisdependentes e o de variáveis independentes.

Análise de agrupamentos

A análise de agrupamentos é uma técnica analítica paradesenvolver subgrupos significativos de indivíduos ouobjetos. Especificamente, o objetivo é classificar umaamostra de entidades (indivíduos ou objetos) em um pe-queno número de grupos mutuamente excludentes, combase nas similaridades entre as entidades. Na análise deagrupamentos, diferentemente da análise discriminante,os grupos não são predefinidos. Ao invés disso, a técnicaé usada para identificar os grupos.

A análise de agrupamentos geralmente envolve pelomenos três passos. O primeiro é a medida de alguma for-ma de similaridade ou associação entre as entidades pa-ra determinar quantos grupos realmente existem naamostra. O segundo é o próprio processo de agrupamen-to, nas quais entidades são particionadas em grupos(agrupamentos). O último passo é estabelecer o perfil daspessoas ou variáveis para determinar sua composição.Muitas vezes, isso é possível pela aplicação da análisediscriminante aos grupos identificados pela técnica deagrupamento.

Page 12: Capitulo 1 Hair

34 ANÁLISE MULTIVARIADA DE DADOS

Escalonamento multidimensional

Em escalonamento multidimensional, o objetivo é trans-formar julgamentos de consumidores sobre similaridadeou preferência (p. ex., preferência por lojas ou marcas)em distâncias representadas em um espaço multidimen-sional. Se os respondentes julgam os objetos A e B osmais semelhantes, comparados com todos os outros pos-síveis pares de objetos, técnicas de escalonamento multi-dimensional colocarão os objetos A e B de tal forma que adistância entre eles no espaço multidimensional seja me-nor do que a distância entre quaisquer outros pares deobjetos. Os mapas perceptuais resultantes exibem a posi-ção relativa de todos os objetos, mas análises adicionaissão necessárias para descrever ou avaliar quais atributosditam a posição de cada objeto.

Análise de correspondência

A análise de correspondência é uma técnica de interde-pendência recentemente desenvolvida que facilita tantoa redução dimensional da classificação de objetos (p. ex.,produtos, pessoas) em um conjunto de atributos quantoo mapeamento perceptual de objetos relativo a essesatributos. Os pesquisadores são constantemente defron-tados com a necessidade de “quantificar os dados quali-tativos” encontrados em variáveis nominais. A análisede correspondência difere das técnicas de interdepen-dência discutidas anteriormente em sua habilidade paraacomodar tanto dados não-métricos quanto relaçõesnão-lineares.

Em sua forma mais básica, a análise de correspon-dência emprega uma tabela de contingência, que é a ta-bulação cruzada de duas variáveis categóricas. Ela entãotransforma os dados não-métricos em um nível métrico efaz redução dimensional (análoga à análise fatorial) emapeamento perceptual (semelhante à análise multidi-mensional). Por exemplo, preferências de respondentes amarcas podem ser tabuladas no cruzamento com variá-veis demográficas (p. ex., sexo, categorias de renda, ocu-pação), indicando quantas pessoas que preferem cadamarca recaem em cada categoria das variáveis demográ-ficas. Por meio de análise de correspondência, a associa-ção ou “correspondência” de marcas e diferentes caracte-rísticas daqueles que preferem cada marca é então mos-trada em um mapa bi ou tridimensional de marcas e ca-racterísticas dos respondentes. Marcas que são percebi-das como semelhantes são colocadas próximas umas dasoutras. Do mesmo modo, as características mais eminen-tes de respondentes que preferem cada marca tambémsão determinadas pela proximidade das categorias devariáveis demográficas às posições das marcas. A análisede correspondência fornece uma representação multiva-riada de interdependência para dados não-métricos quenão é possível com outros métodos.

Modelos lineares de probabilidade

Os modelos lineares de probabilidade, freqüentementechamados de análise logit, são uma combinação de regres-são múltipla com análise discriminante múltipla. Esta téc-nica é similar à análise de regressão múltipla no sentidoem que uma ou mais variável(is) independente(s) é/sãoempregada(s) para prever uma única variável dependen-te. O que diferencia um modelo linear de probabilidadede regressão múltipla é que a variável dependente é não-métrica, como no caso da análise discriminante. A escalanão-métrica da variável dependente requer diferenças nométodo de estimação e nas suposições sobre o tipo de dis-tribuição inerente, ainda que em muitos outros aspectosseja bastante semelhante à regressão múltipla. Assim,uma vez que a variável dependente seja corretamente es-pecificada e a técnica de estimação apropriada seja em-pregada, os fatores básicos considerados em regressãomúltipla também serão usados aqui. Os modelos linearesde probabilidade diferem da análise discriminante princi-palmente no sentido em que eles acomodam todos os ti-pos de variáveis independentes (métricas e não-métricas)e não requerem a suposição de normalidade multivaria-da. Não obstante, em muitos casos, particularmente commais de dois níveis de variável dependente, a análise dis-criminante é a técnica mais apropriada.

Modelagem de equações estruturais

Modelagem de equações estruturais, comumente chama-da de LISREL (o nome de um dos programas de compu-tador mais conhecidos), é uma técnica que permite sepa-rar relações para cada conjunto de variáveis dependen-tes. Em seu sentido mais simples, a modelagem de equa-ções estruturais fornece a técnica de estimação apropria-da e mais eficiente para uma série de equações de regres-são múltipla separadas estimadas simultaneamente. Écaracterizada por dois componentes básicos: (1) o mode-lo estrutural e (2) o modelo de mensuração. O modelo es-trutural é o modelo de “caminhos”, que relaciona variá-veis independentes com dependentes. Em tais situações,teoria, experiência prévia ou outras orientações permi-tem ao pesquisador distinguir quais variáveis indepen-dentes prevêem cada variável dependente. Os modelosdiscutidos anteriormente que acomodam múltiplas va-riáveis dependentes – análise multivariada de variânciae correlação canônica – não se aplicam nessa situação,pois eles permitem apenas uma única relação entre variá-veis dependentes e independentes.

O modelo de mensuração permite ao pesquisador usardiversas variáveis (indicadores; ver Termos-Chave) parauma única variável independente ou dependente. Porexemplo, a variável dependente poderia ser um conceitorepresentado por uma escala múltipla, como auto-estima.No modelo de mensuração, o pesquisador pode avaliar a

Page 13: Capitulo 1 Hair

INTRODUÇÃO 35

contribuição de cada item da escala, bem como incorpo-rar a maneira como a escala mede o conceito (confiabili-dade) na estimação das relações entre variáveis depen-dentes e independentes. Esse procedimento é semelhantea executar uma análise fatorial (discutida em seção ante-rior) dos itens da escala e usar os escores fatoriais na re-gressão.

Outras técnicas multivariadas emergentes

O advento do disseminado poder computacional intro-duziu a era da análise multivariada como hoje a conhe-cemos, com algumas técnicas especializadas aplicáveisa uma vasta gama de situações. No entanto, estamosdiante do começo de uma era na qual a análise multiva-riada incorpora novos métodos para identificar e repre-sentar relações multivariadas. Uma área de desenvolvi-mento é a de sistemas multivariados, que envolve tra-balho em mineração de dados e redes neurais. Minera-ção de dados é a tentativa de quantificar relações entregrandes quantidades de informações com uma mínimapré-especificação da natureza das relações. Uma técnicabastante usada em conjunção com a mineração de da-dos é a de redes neurais, uma técnica flexível de análisecapaz de executar tanto a identificação de relações (si-milar à regressão múltipla ou análise discriminante) oua redução de dados quanto a análise estrutural (análogaà análise fatorial ou de agrupamentos). As redes neuraisdiferem das técnicas multivariadas mais tradicionaisdiscutidas previamente no sentido da formulação domodelo e também dos tipos de relações mais complexasque podem ser acomodadas. Outra área envolve umdistanciamento da teoria de estatística tradicional deestatística inferencial por meio do desenvolvimento datécnica de reamostragem ou bootstrapping. Essa técnicaelimina a necessidade das suposições estatísticas de dis-tribuições amostrais (tais como a normalidade), na ver-dade usando o computador para fazer a “reamostra-gem” da amostra original com substituição e gerar umaestimativa empírica da distribuição amostral. Uma visãogeral dessas novas técnicas é fornecida no Capítulo 12.

Uma classificação de técnicasmultivariadas

Para ajudá-lo a se familiarizar com as técnicas multiva-riadas específicas, apresentamos uma classificação demétodos multivariados na Figura 1.2. Essa classificação ébaseada em três julgamentos que o pesquisador deve fa-zer sobre o objetivo da pesquisa e a natureza dos dados:(1) As variáveis podem ser divididas em dependentes eindependentes, com base em alguma teoria? (2) Se pude-rem, quantas variáveis serão tratadas como dependentes

em uma única análise? (3) Como são medidas as variá-veis, sejam dependentes ou independentes? A escolha datécnica multivariada apropriada depende das respostas aessas três questões.

Quando se considera a aplicação de técnicas estatísti-cas multivariadas, a primeira questão é: as variáveis po-dem ser divididas em uma classificação de dependentese independentes? A resposta a essa questão indica seuma técnica de dependência ou interdependência deveser usada. Note que na Figura 1.2 as técnicas de depen-dência estão do lado esquerdo e as de interdependência,do lado direito. Uma técnica de dependência pode serdefinida como aquela na qual uma variável ou conjuntode variáveis é identificado(a) como a variável dependen-te a ser predita ou explicada por outras variáveis conhe-cidas como variáveis independentes. Um exemplo detécnica de dependência é a análise de regressão múltipla.Em contraste, uma técnica de interdependência é aque-la na qual nenhuma variável ou grupo de variáveis é de-finida(o) como independente ou dependente. Em vezdisso, o procedimento envolve a análise simultânea detodas as variáveis no conjunto. Análise fatorial é umexemplo de uma técnica de interdependência. Vamos nosconcentrar primeiramente em técnicas de dependência eusar a classificação da Figura 1.2 para selecionar o méto-do multivariado apropriado.

As diferentes técnicas de dependência podem serclassificadas por duas características: (1) o número devariáveis dependentes e (2) o tipo de escala de medidaempregada nas variáveis. Primeiro, quanto ao númerode variáveis dependentes, as técnicas de dependênciapodem ser classificadas como as que têm uma única va-riável dependente, diversas variáveis dependentes oumesmo diversas relações entre variáveis dependentes eindependentes. Segundo, as técnicas de dependênciatambém podem ser classificadas como as que têm variá-veis dependentes métricas (quantitativas/numéricas)ou não-métricas (qualitativas/categóricas). Se a análiseenvolve uma única variável dependente que é métrica,a técnica apropriada é a análise de regressão múltiplaou análise conjunta. A análise conjunta é um caso espe-cial. É um procedimento de dependência que pode tra-tar a variável dependente como não-métrica ou métrica,dependendo do tipo de dados coletados. Contudo, se avariável dependente for não-métrica (categórica), entãoas técnicas adequadas serão análise discriminante múl-tipla e modelos lineares de probabilidade. Em contra-partida, quando o problema de pesquisa envolve diver-sas variáveis dependentes, outras quatro técnicas deanálise são adequadas. Se as várias variáveis dependen-tes são métricas, devemos então olhar para as variáveisindependentes. Se as variáveis independentes são nãométricas, a técnica de análise multivariada de variância(MANOVA) deveria ser escolhida. Se as variáveis inde-

Page 14: Capitulo 1 Hair

36 ANÁLISE MULTIVARIADA DE DADOS

FIGURA 1.2 Seleção de uma técnica multivariada.

Qual tipo derelação está

sendo examinado?

Dependência

Quantasvariáveis estão

sendoprevistas?

Uma variável dependente em uma única relação

Diversas variáveis dependentes em

uma única relação

Múltiplas relações de variáveis dependentes

e independentes

Qual é a escala de medida da

variável dependente?

Qual é a escala de medida da

variável dependente?

Modelagem de equações estruturais

(Capítulo 11)

Métrico Não-métrico Métrico Não-métrico

Métrico Não-métrico

Qual é a escala de medida da

variável preditora?

Análise discriminante

múltipla (Capítulo 5)

Regressão múltipla (Capítulo 4)

Modelos lineares de probabilidade

(Capítulo 4)

Análise conjunta (Capítulo 7)

Análise de correlação

canônica com variáveis

dicotômicas (Capítulo 8)

Análise multivariada de variância (Capítulo 6)

Análise de correlação canônica

(Capítulo 8)

Page 15: Capitulo 1 Hair

INTRODUÇÃO 37

Interdependência

A estrutura de relações

ocorre entre:

Variável Casos/Respondentes Objeto

Como os atributos são

medidos?

Análise de agrupamentos

(Capítulo 9)

Análise fatorial (Capítulo 3)

Métrico Não-métrico

Não-métrico

Análise de correspondência

(Capítulo 10)

Escalonamento multidimensional

(Capítulo 10)

Legenda

Ponto de decisão

Técnicamultivariada

escolhida

Page 16: Capitulo 1 Hair

38 ANÁLISE MULTIVARIADA DE DADOS

pendentes são métricas, a correlação canônica é adequa-da. Se as diversas variáveis dependentes são não-métri-cas, elas podem ser transformadas por meio de uma co-dificação de variáveis dicotômicas (0-1) e a análise ca-nônica pode novamente ser utilizada.1 Finalmente, seum conjunto de relações entre variáveis dependen-tes/independentes é postulado, então a modelagem deequações estruturais é apropriada.

Existe uma forte relação entre os vários procedimen-tos de dependência, os quais podem ser vistos como umafamília de técnicas. A Tabela 1.2 define as diversas técni-cas multivariadas de dependência em termos da naturezae do número de variáveis dependentes e independentes.Como podemos ver, a correlação canônica pode ser consi-derada o modelo geral no qual muitas outras técnicasmultivariadas se baseiam, pois esta coloca o mínimo derestrições sobre o tipo e número de variáveis tanto nas va-riáveis estatísticas dependentes quanto nas independen-tes. À medida que restrições são feitas sobre as variáveisestatísticas, conclusões mais precisas podem ser conse-guidas, baseadas na escala específica de mensuração dedados empregada. Desse modo, as técnicas multivariadasvariam do método mais geral de análise canônica até atécnica mais especializada de modelagem de equações es-truturais.

Técnicas de interdependência são exibidas no lado di-reito da Figura 1.2. Os leitores recordarão que, nas técnicasde interdependência, as variáveis não podem ser classifi-cadas como dependentes ou independentes. Em vez dis-so, todas as variáveis são analisadas simultaneamente emum esforço para encontrar uma estrutura subjacente aoconjunto inteiro de variáveis ou indivíduos. Se a estruturade variáveis deve ser analisada, então a análise fatorial é atécnica apropriada. Se os casos ou respondentes devemser agrupados para representar a estrutura, então a análi-se de agrupamento é selecionada. Finalmente, se o interes-se é na estrutura de objetos, as técnicas de escalonamentomultidimensional devem ser empregadas. Assim como nocaso de técnicas de dependência, as propriedades de me-dida das técnicas devem ser consideradas. Geralmente, aanálise fatorial e análise de agrupamento são considera-das técnicas métricas de interdependência. No entanto,dados não-métricos podem ser transformados pela codifi-cação de variáveis dicotômicas para uso com formas espe-ciais de análise fatorial e análise de agrupamentos. Os tra-

tamentos métrico e não-métrico para escalonamento mul-tidimensional têm sido desenvolvidos. Se as interdepen-dências de objetos medidos por dados não-métricos sãoanalisadas, a análise de correspondência também é umatécnica adequada.

Diretrizes para análises multivariadas e interpretaçãoComo mostrado anteriormente, a análise multivariadatem um caráter muito diverso e pode ser muito poderosa.Esse poder é especialmente tentador quando o pesquisa-dor está inseguro sobre o planejamento de análise maisapropriado e confia na técnica multivariada como umsubstituto para o desenvolvimento conceitual necessário.Mesmo quando corretamente aplicada, a eficácia na aco-modação de múltiplas variáveis e relações cria complexi-dade nos resultados e suas interpretações. Logo, fazemosa advertência sobre seu uso sem a fundamentação concei-tual necessária para apoiar a técnica escolhida de acordocom os conceitos básicos discutidos anteriormente e emaspectos apresentados na próxima seção.

Já discutimos diversas questões particularmenteaplicáveis à análise multivariada e, apesar de não haver

TABELA 1.2 A relação entre métodos multivariados dedependência multivariada

Correlação CanônicaY1 + Y2 + Y3 + … + Yn = X1 + X2 + X3 + … + Xn

(métrico, não-métrico) (métrico, não-métrico)

Análise Multivariada de VariânciaY1 + Y2 + Y3 + … + Yn = X1 + X2 + X3 + … + Xn

(métrico) (não-métrico)

Análise de VariânciaY1 = X1 + X2 + X3 + … + Xn

(métrico) (não-métrico)

Análise Discriminante MúltiplaY1 = X1 + X2 + X3 + … + Xn

(não-métrico) (métrico)

Análise de Regressão MúltiplaY1 = X1 + X2 + X3 + … + Xn

(métrico) (métrico, não-métrico)

Análise ConjuntaY1 = X1 + X2 + X3 + … + Xn

(não-métrico, métrico) (não-métrico)

Modelagem de Equações EstruturaisY1 = X11 + X12 + X13 + … + X1n

Y2 = X21 + X22 + X23 + … + X2n

Ym = Xm1 + Xm2 + Xm3 + … + Xmn

(métrico) (métrico, não-métrico)

1 Variáveis dicotômicas (ver Termos-Chave) serão discutidas em de-talhes mais adiante. Resumidamente, codificação de variáveis di-cotômicas é um meio de transformar dados não métricos em dadosmétricos. Envolve a criação das variáveis ditas dicotômicas, nasquais 1s e 0s são designados a indivíduos, dependendo se eles pos-suem ou não uma característica em questão. Por exemplo, se umindivíduo é do sexo masculino, assinale 0 ao mesmo, e se for do se-xo feminino, atribua 1, ou o inverso.

Page 17: Capitulo 1 Hair

INTRODUÇÃO 39

uma “resposta” única, julgamos que a análise e a inter-pretação de qualquer problema multivariado podem serauxiliadas seguindo-se uma série de diretrizes gerais. Es-sas diretrizes representam mais uma “filosofia de análisemultivariada” que nos tem sido útil, do que uma listacompleta de considerações. As seções seguintes discutemesses pontos sem obedecer a uma ordem particular, ecom igual ênfase em todos.

Estabeleça significância prática, bem comosignificância estatística

A força da análise multivariada é sua forma aparente-mente mágica de ordenar um grande número de possí-veis alternativas e encontrar as que têm significância es-tatística. Entratanto, com esse poder vem também acautela. Muitos pesquisadores ficam míopes ao se con-centrar somente na significância alcançada dos resulta-dos sem compreender suas interpretações, sejam boasou ruins. Ao invés disso, o pesquisador deve olhar nãoapenas a significância estatística dos resultados, mastambém sua significância prática. A significância práti-ca faz a pergunta “E daí?” para qualquer aplicação ad-ministrativa, os resultados devem ter um efeito de-monstrável que justifique que a ação. Em termos acadê-micos, a pesquisa está se concentrando não apenas emresultados de estatisticamente significantes, mas tam-bém em suas implicações substantivas e teóricas, asquais são muitas vezes extraídas de sua significânciaprática.

Por exemplo, uma análise de regressão é usada pa-ra prever intenções de recompra, medidas como a pro-babilidade entre 0 e 100 de que o cliente comprará no-vamente da firma. O estudo é conduzido e os resulta-dos retornam significantes no nível de significância de0,05. Os executivos se apressam em acatar os resultadose modificar a estratégia da firma de acordo com eles. Noentanto, passa despercebido que, mesmo que a relaçãofosse significante, a habilidade de previsão era pobre –tão pobre que a estimativa de probabilidade de recom-pra poderia variar ± 20% no nível de significância de0,05. A relação “estatisticamente significante” poderia,portanto, ter uma margem de erro de 40 pontos percen-tuais! Um cliente previsto como tendo 50% de chancede retornar poderia realmente ter probabilidades de 30a 70%, representando níveis inaceitáveis para uma ação.Pesquisadores e administradores não sondaram a signi-ficância prática ou administrativa dos resultados, naqual teriam percebido que a relação ainda precisava derefinamento, caso devesse ser confiável a ponto deorientar qualquer estratégia.

O tamanho da amostra afeta todosos resultados

A discussão sobre poder estatístico demonstrou o im-pacto profundo que o tamanho da amostra representapara atingir a significância estatística, tanto para tama-nhos pequenos quanto grandes. Para amostras meno-res, a sofisticação e complexidade da técnica multivaria-da podem facilmente resultar em (1) baixíssimo poderestatístico para o teste identificar realisticamente resul-tados significantes ou (2) um “ajuste” muito fácil dosdados, de modo que os resultados são artificialmentebons porque se ajustam muito bem na amostra, massem poder de generalização. Um impacto semelhantetambém ocorre para amostras muito grandes, as quais,como anteriormente discutido, podem tornar os testesestatísticos muito sensíveis. Sempre que tamanhos deamostras excederem 200 ou 400 respondentes, o pesqui-sador deverá examinar todos os resultados significantespara garantir que tenham significância prática devidoao poder estatístico aumentado pelo tamanho da amos-tra. Tamanhos de amostra também afetam os resultadosquando a análise envolve grupos de respondentes, co-mo na análise discriminante ou em MANOVA. Tama-nhos de amostra diferentes entre grupos influenciam osresultados e exigem interpretação e/ou análise adicio-nal. Logo, um pesquisador ou usuário de técnicas mul-tivariadas sempre deve avaliar os resultados à luz daamostra usada na análise.

Conheça seus dados

As técnicas multivariadas, por natureza, identificam re-lações complexas muito difíceis de serem representadasde maneira simples. Conseqüentemente, a tendência éaceitar os resultados sem o exame comum que se promo-ve nas análises univariada e bivariada (p. ex., diagramasde dispersão de correlações e gráficos de caixas em com-parações de médias). No entanto, tais “atalhos” podemser um prelúdio para o desastre. A análise multivariadademanda um exame até mesmo mais rigoroso dos dados,pois a influência de observações atípicas, violações dassuposições e dados perdidos pode aparecer em diversasvariáveis com efeitos substanciais. Para utilizar todos osbenefícios das técnicas multivariadas, o pesquisador de-ve “saber onde olhar” com formulações alternativas domodelo original, tais como relações não-lineares e intera-tivas. O pesquisador tem, contudo, um conjunto crescen-te de técnicas de diagnóstico que permitem que essas re-lações multivariadas sejam descobertas de maneirasmuito semelhantes aos métodos univariados e bivaria-dos. O pesquisador multivariado deve dispor de tempopara usar essas medidas diagnósticas para uma melhorcompreensão dos dados e das relações básicas existentes.

Page 18: Capitulo 1 Hair

40 ANÁLISE MULTIVARIADA DE DADOS

Esforce-se por modelos parcimoniosos

As técnicas multivariadas são planejadas para acomo-dar múltiplas variáveis na análise. Essa característica,contudo, não deve substituir o desenvolvimento do mo-delo conceitual antes de as técnicas multivariadas seremaplicadas. Apesar de sempre ser mais importante evitara omissão de uma variável preditora crítica, o que sechama de erro de especificação, por várias razões opesquisador também deve evitar a inserção indiscrimi-nada de variáveis, esperando que a técnica multivaria-da “arrume” as variáveis relevantes. Primeiro, as variá-veis irrelevantes geralmente aumentam a habilidade datécnica de ajustar os dados da amostra, mas ao preço desuperajustar os dados e torná-los menos generalizáveisà população. Segundo, as variáveis irrelevantes nãochegam a viesar as estimativas das variáveis relevantes,mas podem mascarar os verdadeiros efeitos por causada multicolinearidade, a qual representa o grau em quequalquer efeito de variável pode ser previsto ou expli-cado pelas outras variáveis na análise. Quando a multi-colinearidade aumenta, a habilidade de definir qual-quer efeito de variável diminui. Logo, incluir variáveisconceitualmente irrelevantes pode ter vários efeitos po-tencialmente danosos, ainda que as variáveis adicionaisnão influenciem diretamente os resultados do modelo.

Examine seus erros

Mesmo com o alcance estatístico das técnicas multivaria-das, raramente atingimos a melhor previsão na primeiraanálise. O pesquisador deve encarar a questão “Para on-de vamos a partir daqui?” A melhor resposta é examinaros erros na previsão, se eles são os resíduos da análise deregressão, os erros na classificação de observações naanálise discriminante, ou observações atípicas na análisede agrupamentos. Em cada caso, o pesquisador deve us-ar os erros na previsão não como uma medida de falhaou algo que simplesmente deve ser eliminado, mas comoum ponto de partida para diagnosticar a validade dos re-sultados obtidos e uma indicação das relações restantessem explicação.

Valide seus resultados

A habilidade da análise multivariada para identificarinter-relações complexas também significa que podemser encontrados resultados específicos apenas para aamostra e não generalizáveis para a população. O pes-quisador sempre deve garantir que haja observaçõessuficientes por parâmetro estimado, para evitar “supe-rajustamento” da amostra, como já discutido. Contudo,igualmente importantes são os esforços para validar osresultados por qualquer dentre os vários métodos, in-cluindo (1) separar a amostra em duas partes e usar

uma subamostra para estimar o modelo e a outra paraestimar a precisão de previsão, (2) empregar a técnicabootstrapping [9], ou (3) mesmo juntar uma amostra se-parada para garantir que os resultados sejam apropria-dos para outras amostras. Qualquer que seja a técnicamultivariada empregada, o pesquisador deve se esfor-çar não apenas para estimar um modelo significante,mas para garantir que ele seja representativo da popu-lação como um todo. Lembre-se de que o objetivo não édeterminar o melhor “ajuste” apenas para os dados daamostra, mas desenvolver um modelo que melhor des-creva a população como um todo.

Um tratamento estruturado para construirmodelos multivariados

À medida que discutimos as numerosas técnicas mul-tivariadas disponíveis ao pesquisador e a miríade dequestões envolvidas em suas aplicações, fica aparenteque a conclusão bem-sucedida de uma análise multi-variada envolve mais do que a seleção do método cor-reto. Questões que variam da definição do problema àdiagnose crítica dos resultados devem ser abordadas.Para ajudar o pesquisador ou o usuário a aplicar méto-dos multivariados, um tratamento com seis passos pa-ra a análise multivariada é apresentado. A meta não éfornecer um conjunto rígido de procedimentos a seremseguidos, mas sim orientações que enfatizam uma ma-neira de construir modelos. Um tratamento para aconstrução de modelos concentra a análise em um pla-no de pesquisa bem-definido, começando com um mo-delo conceitual que detalhe as relações a serem exami-nadas. Uma vez definido em termos conceituais, asquestões empíricas podem ser abordadas, incluindo aseleção da técnica multivariada específica e os proble-mas de implementação. Depois que foram obtidos re-sultados significantes, sua interpretação se transformano foco, com especial atenção à variável estatística. Fi-nalmente, as medidas diagnósticas garantem que omodelo não é válido apenas para os dados da amostra,mas que é tão generalizável quanto possível. A discus-são que se segue brevemente descreve cada passo des-se tratamento.

Esse processo de seis passos para construir modelosfornece uma estrutura para desenvolver, interpretar evalidar qualquer análise multivariada. Cada pesquisa-dor deve desenvolver critérios para “sucesso” ou “fa-lha” em cada estágio, mas as discussões de cada técnicafornecem orientações sempre que disponíveis. Nesteponto, a ênfase em um tratamento de construção de mo-delos, em vez de simplesmente apontar as especificida-des de cada técnica, deve fornecer uma base mais amplapara o desenvolvimento, estimação e interpretação de

Page 19: Capitulo 1 Hair

INTRODUÇÃO 41

modelos, que irão melhorar a análise multivariada doprofissional e do acadêmico.

Estágio 1: definição do problema dapesquisa, dos objetivos e da técnicamultivariada a ser usada

O ponto de partida para qualquer análise multivariada édefinir o problema da pesquisa e os objetivos de análiseem termos conceituais, antes de especificar quaisquer va-riáveis ou medidas. O papel do desenvolvimento do mo-delo conceitual, ou da teoria, não pode ser estabelecidocom exagero. Não importa se é pesquisa aplicada ou aca-dêmica, o pesquisador deve primeiro ver o problema emtermos conceituais, definindo os conceitos e identifican-do as relações fundamentais a serem investigadas. De-senvolver um modelo conceitual não é atribuição exclu-siva de acadêmicos; é tão somente algo ajustado paraaplicação no mundo real.

Um modelo conceitual não precisa ser complexo edetalhado; pode ser uma simples representação das re-lações a serem estudadas. Se uma relação de dependên-cia é proposta como o objetivo de pesquisa, o pesquisa-dor precisa especificar os conceitos dependentes e inde-pendentes. Para uma aplicação de uma técnica de inter-dependência, as dimensões de estrutura ou similarida-de devem ser especificadas. Note que um conceito, dife-rentemente de uma variável, é definido em ambas as si-tuações, sejam de dependência ou de interdependência.O pesquisador primeiro identifica as idéias ou os tópi-cos de interesse, em vez de se concentrar nas medidasespecíficas a serem usadas. Isso minimiza a chance deconceitos relevantes serem omitidos no esforço de de-senvolver medidas e de definir as especificidades doplano de pesquisa. Os leitores interessados no desen-volvimento de modelos conceituais devem ver o Capí-tulo 11.

Com os objetivos e o modelo conceitual especifica-dos, o pesquisador deve apenas escolher a técnica multi-variada apropriada. Após escolher entre um método dedependência ou interdependência, a última decisão é se-lecionar a técnica em particular com base nas caracterís-ticas de medidas das variáveis dependentes e indepen-dentes. As variáveis podem ser especificadas antes do es-tudo em seu planejamento ou depois que os dados foramcoletados, quando análises específicas são definidas.

Estágio 2: desenvolvimento do plano de análise

Com o modelo conceitual estabelecido e a técnica multi-variada selecionada, a atenção se volta para a implemen-tação. Para cada técnica, o pesquisador deve desenvolverum plano de análise que aborde as questões particularesa seu propósito e projeto. As questões incluem considera-

ções gerais, como tamanho mínimo ou desejado daamostra, tipos permitidos ou exigidos de variáveis (mé-tricas versus não-métricas) e métodos de estimação, alémde aspectos específicos, como o tipo de medidas de asso-ciação usadas em escalonamento multidimensional, a es-timação de resultados agregados ou desagregados emanálise conjunta ou o uso de formulações especiais de va-riáveis para representar efeitos não-lineares ou interati-vos em regressão. Em cada caso, essas questões resolvemdetalhes específicos e finalizam a formulação do modeloe exigências para a coleta de dados.

Estágio 3: avaliação das suposições inerentes àtécnica multivariada

Com os dados coletados, a primeira tarefa não é esti-mar o modelo multivariado, mas avaliar as suposiçõessubjacentes. Todas as técnicas multivariadas têm supo-sições inerentes, estatísticas e conceituais, que influen-ciam muito suas habilidades para representar relaçõesmultivariadas. Para as técnicas baseadas em inferênciaestatística, as suposições de normalidade multivaria-da, linearidade, independência de termos de erro eigualdade de variâncias em uma relação de dependên-cia devem ser satisfeitas. A avaliação dessas suposi-ções é discutida em maiores detalhes no Capítulo 2.Cada técnica também tem uma série de suposiçõesconceituais que lidam com questões como a formula-ção de modelo e os tipos de relações representadas.Antes de qualquer estimação de modelo, o pesquisa-dor deve garantir que as suposições estatísticas e con-ceituais estejam satisfeitas.

Estágio 4: estimação do modelo multivariado eavaliação do ajuste geral do modelo

Com as suposições satisfeitas, a análise inicia a verdadei-ra estimação do modelo multivariado e uma avaliação doajuste geral do modelo. No processo de estimação, o pes-quisador dispõe de opções para atender características es-pecíficas dos dados (p. ex., uso de covariáveis estatísticasem MANOVA) ou maximizar o ajuste dos dados (p. ex.,rotação de fatores ou funções discriminantes). Depois queo modelo é estimado, o seu ajuste geral é avaliado paraestabelecer se atinge níveis aceitáveis sobre os critérios es-tatísticos (p. ex., nível de significância), se identifica as re-lações propostas e se tem significância prática. Muitas ve-zes, o modelo é reespecificado, em uma tentativa de atin-gir melhores níveis de ajuste e/ou explicação geral. Emtodos os casos, contudo, um modelo aceitável deve serobtido antes de se prosseguir.

Não importa qual nível de ajuste geral do modelo se-ja conseguido, o pesquisador também deve determinarse os resultados são excessivamente afetados por alguma

Page 20: Capitulo 1 Hair

42 ANÁLISE MULTIVARIADA DE DADOS

observação ou pequeno conjunto de observações que in-dique que os resultados podem ser instáveis ou não-ge-neralizáveis. Esses esforços garantem que os resultadossão “robustos” e estáveis, aplicando-se razoavelmentebem a todas as observações na amostra. Observações deajustes prejudiciais podem ser identificadas como obser-vações atípicas, observações influentes ou resultados er-rôneos (p. ex., agrupamentos unitários ou casos muitomal classificados em análise discriminante).

Estágio 5: interpretação da(s) variável(eis) estatística(s)

Com um nível aceitável de ajuste do modelo, interpretara(s) variável(eis) estatística(s) revela a natureza da rela-ção multivariada. A interpretação de efeitos para variá-veis individuais é feita examinando-se os coeficientes es-timados (pesos) para cada variável na variável estatística(p. ex., pesos de regressão, cargas fatoriais ou utilidadesconjuntas).

Além disso, algumas técnicas também estimam múl-tiplas variáveis estatísticas que representam dimensõeslatentes de comparação ou associação (i.e., funções dis-criminantes ou componentes principais). A interpretaçãopode conduzir a reespecificações adicionais das variáveise/ou da formulação do modelo, onde o modelo é reesti-mado e então novamente interpretado. O objetivo é iden-tificar evidência empírica de relações multivariadas nosdados da amostra que possam ser generalizados para apopulação total.

Estágio 6: validação do modelo multivariado

Antes de aceitar os resultados, o pesquisador deve sub-metê-los a um conjunto final de análises diagnósticas queavaliem o grau de generabilidade dos resultados pelosmétodos de validação disponíveis. As tentativas de vali-dar o modelo são direcionadas no sentido de demosntrara generalidade dos resultados para a população total (verdiscussão anterior sobre técnicas de validação). Essasanálises diagnósticas acrescentam pouco à interpretaçãodos resultados, mas podem ser vistas como uma “garan-tia” de que os resultados são os melhores descritivos dosdados e generalizáveis à população.

Um fluxograma de decisão

Para cada técnica multivariada, a abordagem de seispassos para a construção de modelos multivariadosserá retratada em um fluxograma de decisão divididoem duas seções. A primeira seção (estágios 1 a 3) lidacom as questões relativas à preparação para a estima-ção do modelo do real (i.e., objetivos da pesquisa, con-

siderações sobre planejamento da pesquisa e teste dassuposições).

A segunda seção do fluxograma de decisão (está-gios 4 a 6) trata dos aspectos pertinentes à estimação domodelo, interpretação e validação. O fluxograma de de-cisão fornece ao pesquisador um método simplificado,mas, sistemático, de uso da abordagem estrutural deconstrução do modelo multivariado em qualquer apli-cação da técnica multivariada.

Bases de dados

Para melhor explicar e ilustrar cada técnica multivariada,usamos conjuntos de dados hipotéticos ao longo do li-vro. Esses dados foram obtidos a partir da Hair, Ander-son, and Tatham Company (HATCO), um grande forne-cedor industrial (apesar de inexistente). Cada conjuntode dados foi conseguido de entrevistas de clientes daHATCO realizadas por uma empresa de pesquisa demercado.

Base de dados primária

A base de dados primária, que consiste em 100 observa-ções sobre 14 variáveis separadas, é um exemplo de umestudo de segmentação para uma situação de negócios,especificamente um levantamento de clientes existentesda HATCO. Três tipos de informação foram coletados. Oprimeiro é a percepção da HATCO sobre sete atributosidentificados em estudos anteriores como os mais in-fluentes na escolha de fornecedores. Os respondentes,executivos que compram da HATCO, a avaliaram a emcada atributo. O segundo tipo de informação se refere acompras reais, tanto às avaliações da satisfação de cadacliente com a HATCO como ao percentual de compras daHATCO daquele cliente. O terceiro tipo de informaçãocontém características gerais das companhias comprado-ras (p. ex., tamanho da empresa, tipo de indústria).

Os dados fornecidos deveriam dar à HATCO umamelhor compreensão das características de seus clientes edas relações entre suas percepções sobre a HATCO e suasações sobre a mesma (compras e satisfação). Uma brevedescrição das variáveis da base de dados é dada na Tabe-la 1.3, na qual as variáveis são classificadas como inde-pendentes ou dependentes e métricas ou não-métricas.Uma lista da base de dados é fornecida no Apêndice Apara quem desejar reproduzir as soluções relatadas nestelivro. Uma definição de cada variável e uma explicaçãode sua codificação é dada nas seções que se seguem.

Page 21: Capitulo 1 Hair

INTRODUÇÃO 43

Percepções da HATCO

Cada variável foi medida em uma escala gráfica, ondeuma linha de 10 centímetros foi desenhada entre os pon-tos extremos chamados de “Ruim” e “Excelente”.

Os respondentes indicaram suas percepções fazendouma marca em qualquer ponto da linha. A marca eraentão medida e a distância a partir de 0 (em centíme-tros) era anotada. O resultado foi uma escala que variade 0 a 10, arredondada para uma casa decimal. Os seteatributos da HATCO avaliados por cada respondentesão os seguintes:

X1 Velocidade de entrega – tempo total necessáriopara entregar o produto assim que a encomendafoi confirmada

X2 Nível de preço – nível percebido de preço cobra-do por fornecedores do produto

X3 Flexibilidade de preço – disposição percebida derepresentantes da HATCO em negociar preçosem todos os tipos de compras

X4 Imagem do fabricante – imagem geral do fabri-cante ou fornecedor

X5 Serviço geral – nível geral de serviço necessáriopara manter uma relação satisfatória entre forne-cedor e comprador

X6 Imagem da força de vendas – imagem geral daforça de vendas do fabricante

X7 Qualidade do produto – nível percebido de qua-lidade de um produto em particular (p. ex., fun-cionamento ou produtividade)

Resultados das compras

Foram obtidas duas medidas específicas, que refletiramos resultados das relações das compras dos respondentescom a HATCO. Essas medidas incluem:

X9 Nível de uso – quanto do produto total da em-presa é comprado da HATCO, medido em umaescala de 100 pontos percentuais, que varia de 0a 100%.

X10 Nível de satisfação – quão satisfeito está o com-prador com compras feitas no passado, da HAT-CO, medido na mesma escala gráfica de percep-ções empregada de X1 a X7.

Características do comprador

As cinco características das empresas respondentes usa-das no estudo, algumas métricas e outras não-métricas,são as seguintes:

X8 Tamanho da empresa – tamanho da empresa emrelação a outras neste mercado. Essa variável temduas categorias: 1 = grande, 0 = pequeno.

X11 Especificação de compra – o quanto um com-prador em particular avalia cada compra sepa-radamente (análise de valor total) versus o usode especificações de compra, as quais detalhamprecisamente as características procuradas doproduto. Essa variável tem duas categorias: 1 =emprega análise de valor total, avaliando cadacompra separadamente; 0 = uso de especifica-ção de compra.

X12 Estrutura de aquisição – método de adquirir oucomprar produtos em uma empresa em particular.Essa variável tem duas categorias: 1 = aquisiçãocentralizada, 0 = aquisição não-centralizada

X13 Tipo de indústria – classificação da indústria àqual um comprador pertence. Essa variável temduas categorias: 1 = indústria A, 0 = outras in-dústrias.

X14 Tipo de situação de compra – tipo de situaçãoque o comprador enfrenta. Essa variável tem trêscategorias: 1 = nova tarefa, 2 = nova compra mo-dificada, 3 = nova compra simples.

Ruim Excelente

TABELA 1.3 Descrição de variáveis da base de dados

Descrição da variável Tipo de variável

PERCEPÇÕES DA HATCO

X1 Velocidade de entrega Métrica

X2 Nível de preço Métrica

X3 Flexibilidade de preço Métrica

X4 Imagem do fabricante Métrica

X5 Serviço geral Métrica

X6 Imagem da força de vendas Métrica

X7 Qualidade do produto Métrica

RESULTADOS DAS COMPRAS

X9 Nível de uso Métrica

X10 Nível de satisfação Métrica

CARACTERÍSTICAS DO COMPRADOR

X8 Tamanho da empresa Não-métrica

X11 Especificação de compra Não-métrica

X12 Estrutura de aquisição Não-métrica

X13 Tipo de indústria Não-métrica

X14 Tipo de situação de compra Não-métrica

Page 22: Capitulo 1 Hair

44 ANÁLISE MULTIVARIADA DE DADOS

Este capítulo introduziu o tópico empolgante e desafia-dor da análise multivariada de dados. Os capítulos quese seguem discutem cada técnica em detalhes suficien-tes para capacitar o pesquisador iniciante a entender oque uma técnica em particular pode fazer, quando e co-

mo ela deve ser aplicada e como os resultados de suaaplicação devem ser interpretados. Os resumos de fimde capítulo de obras da literatura profissional e acadê-mica demonstram melhor a aplicação e interpretaçãodas técnicas.

Outras bases de dados

Outras três bases de dados especializadas são emprega-das no texto. O Capítulo 2 usa uma base de dados menorde muitas dessas variáveis obtidas em algumas pesqui-sas preliminares. O objetivo é ilustrar a identificação deobservações atípicas, o manuseio de dados perdidos e oteste de suposições estatísticas. Os Capítulos 8 e 10 exa-minam bases de dados com os únicos dados necessáriospara essas técnicas. Em cada caso, a base de dados é maisbem descrita nesses capítulos. Uma lista completa dasbases de dados é dada no apêndice A.

Organização dos demais capítulosOs outros capítulos do livro são organizados em quatroseções; cada uma aborda um estágio separado para exe-cutar uma análise multivariada.

• Seção 1: Preparação para uma análise multivaria-da lida com questões que devem ser resolvidasantes que uma análise multivariada possa ser apli-cada. Essa seção começa com o Capítulo 2, o qualcobre os tópicos de acomodação de dados perdi-dos, a garantia de atender as suposições estatísti-cas inerentes e a identificação de observações atípi-cas que poderiam influenciar desproporcional-mente os resultados. O Capítulo 3 cobre a análisefatorial, uma técnica particularmente adequadapara examinar as relações entre variáveis e asoportunidades de criar escalas múltiplas. Essesdois capítulos se combinam para fornecer ao pes-quisador não apenas as ferramentas diagnósticasnecessárias para preparar os dados para análise,mas também os meios para redução de dados econstrução de escala que podem ser incluídos emoutras técnicas multivariadas.

• Seção 2: Técnicas de dependência trata de cinco téc-nicas de dependência – regressão múltipla, análisediscriminante, análise multivariada de variância,análise conjunta e correlação canônica (Capítulos 4-8,respectivamente). Como observado anteriormente,as técnicas de dependência permitem ao pesquisadoravaliar o grau de relação entre as variáveis depen-dentes e independentes. As técnicas de dependênciavariam no tipo e caráter da relação, o que se refletenas propriedades de medida das variáveis depen-dentes e independentes. Cada técnica é examinadasob sua perspectiva única de avaliar uma relação dedependência e sua habilidade de tratar com um tipoparticular de objetivo de pesquisa.

• Seção 3: Técnicas de interdependência (Capítulos9-10) cobre as técnicas de análise de agrupamentose escalonamento multidimensional. Essas técnicasapresentam ao pesquisador ferramentas particular-mente adequadas para avaliar estruturas, focalizan-do-se na descrição das relações entre objetos, sejamrespondentes (análise de agrupamentos), ou objetoscomo empresas, produtos e assim por diante (escalo-namento multidimensional). Deve-se notar que umadas técnicas primárias de interdependência, análisefatorial e sua habilidade para avaliar a relação entrevariáveis, já foi abordada na Seção 1.

• Seção 4: Técnicas avançadas e emergentes (Capítu-los 11 e 12) fornece ao pesquisador uma introdução auma técnica multivariada avançada amplamente em-pregada, modelagem de equações estruturais, bemcomo algumas técnicas emergentes novas nas áreasde mineração de dados, redes neurais e bootstrapping.O objetivo desses dois capítulos não é apresentar umtratamento completo dos aspectos e usos dessas téc-nicas, mas fornecer uma introdução que capacitará opesquisador a avaliar o potencial uso dessas técnicasem situações específicas de pesquisa.

Resumo

Page 23: Capitulo 1 Hair

INTRODUÇÃO 45

1. Bearden, William O., Richard G. Netemeyer, and MaryF. Mobley (1993), Handbook of Marketing Scales, Multi-Item Measures for Marketing and Consumer Behavior.Newbury Park, Calif.: Sage.

2. BMDP Statistical Software, Inc. (1991), SOLO PowerAnalysis. Los Angeles.

3. Brent, Edward E., Edward J. Mirielli, and AlanThompson (1993), Ex-SampleTM: An Expert System toAssist in Determining Sample Size, Version 3.0. Columbia,Mo.: Idea Works.

4. Brent, Edward E., et al. (1991), Statistical NavigatorProfessionalTM: An Expert System to Assist in SelectingAppropriate Statistical Analyses, Version 1.0. Columbia,Mo.: Idea Works.

5. Brunner, Gordon C., and Paul J. Hensel (1993),Marketing Scales Handbook, A Compilation of Multi-

Item Measures. Chicago: American MarketingAssociation.

6. Cohen, J. (1977), Statistical Power Analysis for theBehavioral Sciences. New York: Academic Press.

7. Gatty, R. (1966), “Multivariate Analysis for MarketingResearch: An Evaluation.” Applied Statistics 15(November): 157-172.

8. Hardyck, C. D., and L. F. Petrinovich (1976),Introduction to Statistics for the Behavioral Sciences, 2d ed.Philadelphia: Saunders.

9. Mooney, Christopher Z., and Robert D. Duval (1993),Bootstrapping: A Nonparametric Approach to StatisticalInference. Beverly Hills, Calif.: Sage.

10. Sullivan, John L., and Stanley Feldman (1979), MultipleIndicators: An Introduction. Beverly Hills, Calif.: Sage.

1. Com suas próprias palavras, defina análise multiva-riada.

2. Cite vários fatores que têm contribuído para a aplica-ção crescente de técnicas de análise multivariada dedados nos últimos anos.

3. Liste e descreva as técnicas de análise multivariadade dados descritas neste capítulo. Cite exemplos nosquais cada técnica é apropriada.

4. Explique por que e como os diversos métodos mul-tivariados podem ser entendidos como uma famí-lia de técnicas.

5. Por que o conhecimento sobre escalas de medida é im-portante para entender análise multivariada de dados?

6. Quais são as diferenças entre significância estatísticae significância prática? Uma delas é pré-requisito pa-ra a outra?

7. Quais são as implicações de baixo poder estatístico?Como o poder poderá ser melhorado se é considera-do muito baixo?

8. Detalhe o tratamento de construção de modelos paraa análise multivariada, concentrando-se nas questõesmais importantes em cada passo.

Referências

Questões