Pesquisa em Expresso de Emoes em Personagens Sintticas · 4.1 O Erro de Descartes ... 6.2 Modelos...
Transcript of Pesquisa em Expresso de Emoes em Personagens Sintticas · 4.1 O Erro de Descartes ... 6.2 Modelos...
ÍNDICE Índice ............................................................................................................................ 2 introdução ..................................................................................................................... 3 1 O que são Emoções?............................................................................................. 5
1.1 Teorias de Emoções...................................................................................... 5 1.2 Os temas controversos .................................................................................. 8
2 Como se Manifestam as Emoções nos Humanos? ............................................. 15 2.1 Como se Expressam Fisiologicamente as Emoções? ................................. 15 2.2 Como se Expressam as Emoções Externamente?....................................... 17
3 O que são Agentes com Emoções?..................................................................... 19 3.1 Teoria de Agentes....................................................................................... 21 3.2 Definição de Agente com Emoções............................................................ 22
4 Porquê modelar Agentes com Emoções? ........................................................... 23 4.1 O Erro de Descartes.................................................................................... 23 4.2 A teoria de Reeves e Nass .......................................................................... 25 4.3 Aplicações da Teoria de Agentes com Emoções........................................ 25
5 Expressão Corporal ............................................................................................ 29 5.1 O Espectro da Expressão Corporal Humana .............................................. 29 5.2 Expressão Corporal Comunicativa ............................................................. 31 5.3 Expressão Corporal Emocional .................................................................. 37 5.4 Qualidades de Movimento.......................................................................... 44
6 Expressão Facial ................................................................................................. 47 6.1 Modelos da Psicologia................................................................................ 47 6.2 Modelos da Ciência da Computação .......................................................... 50
7 Expressão vocal .................................................................................................. 58 7.1 Fundamentos da Expressão Vocal.............................................................. 58 7.2 Síntese de Expressão Vocal........................................................................ 61
8 Referências ......................................................................................................... 64 8.1 Referências impressas ................................................................................ 64 8.2 Referências online ...................................................................................... 66
Anexo i – expressões faciais são universais? ............................................................. 68
2
INTRODUÇÃO
Este documento apresenta uma pesquisa sobre Agentes com Emoções focando na
componente da expressão emocional.
Os objectivos da pesquisa são:
1. Perceber os fundamentos teóricos da expressão emocional Humana.
2. Motivar e definir a noção de Agente com Emoções.
3. Elaborar um documento que sirva de referência para uma audiência abrangente. Ao
nível introdutório, deverá fornecer a visão geral da área e dos tópicos chave. Ao nível
intermédio, deverá fornecer referências e descrições não detalhadas de todas as áreas
relevantes para o desenvolvimento ou início de investigação na área de Agentes com
Emoções.
Importa salientar que o foco da pesquisa é na expressão e não na arquitectura de Agentes com
Emoções. Neste sentido, será dada ênfase às várias teorias das Ciências Humanas que
expliquem a Expressão Humana, mencionando apenas superficialmente implementações
computacionais destas.
O documento está dividido em três partes:
Na primeira parte é explorado o conhecimento das várias áreas das Ciências Humanas
(Psicologia, Neurociência, Ciência Cognitiva, etc.) sobre emoções. Assim, o Capítulo 1 procura
perceber o que são as emoções, abordando, entre outras, a importante questão da
universalidade das emoções. O Capítulo 2 procura perceber qual é a manifestação, interna e
externa, das emoções nos Humanos;
Na segunda parte o foco passa para a Ciência da Computação explorando a área dos
Agentes com Emoções. O Capítulo 3 procura definir o conceito de Agente com Emoções. O
Capítulo 4 procura explicar a relevância e aplicações dos Agentes com Emoções;
Na terceira parte a expressão Humana é explorada em detalhe. O Capítulo 5 aborda
em detalhe a expressão corporal. O Capítulo 6 aborda a expressão Facial. Por fim, o Capítulo
7 aborda a expressão vocal.
3
PARTE I
EMOÇÕES
4
1 O QUE SÃO EMOÇÕES? “a: o aspecto afectivo da consciência b: um estado de sentimento c: uma reacção física e
psíquica (como raiva ou medo) experienciada subjectivamente como um sentimento forte e
envolvendo alterações fisiológicas que preparam o corpo para acção vigorosa e imediata.”
[DicionárioMerrianWebster]
Emoção pode ser interpretada como um sentimento associado a uma reacção a eventos
importantes ou pensamentos. Emoções podem ser agradáveis ou desagradáveis. As pessoas
expressam as suas emoções através de palavras, sons, expressões faciais e gestos. As
pessoas aprendem maneiras de expressar as suas emoções com os membros da sociedade
em que se integram, embora a hereditariedade possa determinar algum comportamento
emocional. A investigação demonstrou que pessoas diferentes e isoladas expressam emoções
através de expressões faciais idênticas. Até crianças nascidas cegas tem expressões faciais
semelhantes às de crianças normais. [a2zPsychology]
Perceber as emoções é uma tarefa difícil; depois de um século de investigação, ainda não se
chegou a acordo sobre o que são emoções e sobre como estas se expressam. Existem
actualmente dezenas de teorias de emoção [Picard_b]. Algumas das mais influentes são
descritas na Secção 1.1. Por sua vez, a Secção 1.2 explora superficialmente algumas das
questões actuais que tem gerado mais desacordo entre os teóricos.
1.1 Teorias de Emoções Charles Darwin, no seu livro The Expression of Emotions in Man and Animals (1872), diz que o
comportamento emocional serve originalmente tanto como um suporte à sobrevivência e como
um método para comunicar intenções. Por exemplo, pessoas zangadas mostram os seus
dentes porque herdaram padrões de comportamento que os seus antecessores pré-históricos
necessitavam para lutar. Dentes cerrados expressam também a intenção de ataque.
[a2zPsychology]
Na década de 1880, o psicólogo americano William James e o fisiólogo dinamarquês Carl G.
Lange chegaram independentemente a conclusões semelhantes acerca das emoções. De
acordo com a sua teoria, acções precedem as emoções. Quando um estímulo ocorre o cérebro
interpreta a situação gerando uma resposta fisiológica. Esta resposta inclui, por exemplo,
elevação do ritmo cardíaco, expressão facial e gestual. Estas respostas reflexivas ocorrem
antes de se ter consciência que se está a experienciar uma emoção; apenas quando o cérebro
percepciona cognitivamente a resposta fisiológica é que lhe denomina “emoção”. Por outras
palavras, as reacções fisiológicas são as emoções. [a2zPsychology][Amaral&Oliveira]
Em 1927, o fisiólogo americano Walter B. Cannon e o seu colega Philip Bard propuseram a
teoria de emoções Cannon-Bard. Esta teoria opõem-se à teoria de emoções de James-Lange
5
dado que afirma que as emoções são sentidas primeiro e só posteriormente é que se segue a
acção, i.e., quando um estímulo ocorre este é sujeito a uma percepção cognitiva no cérebro
que origina, em simultâneo, reacções fisiológicas e expressão da emoção.
[AffectiveComputingGroupMIT] [Amaral&Oliveira]
Fig. 1.1 - Resumo das teorias de emoções de James-Lange e Cannon-Bard. [Amaral&Oliveira].
Em 1962, o psicólogo americano Stanley Schachter em conjunto com Jerome E. Singer
propuseram a teoria das emoções Schachter-Singer. Esta teoria concorda com a teoria de
James-Lange no sentido em que a emoção surge da percepção cognitiva posterior às
sensações fisiológicas. Contudo, dizia ainda que este facto não era suficiente para justificar as
diferenças mais subtis na auto-percepção das emoções, i.e., a diferença entre fúria e medo.
Afirma, pois, que existem dois factores que determinam diferentes emoções: reacções
fisiológicas no corpo; e a razão atribuída, pela pessoa, para justificar essas alterações
fisiológicas. [a2zPsychology] [AffectiveComputingGroupMIT]
Fig. 1.2 – A teoria de dois factores de Schachter. A emoção de medo é o resultado da reacção fisiológica que
resulta do evento, que é um carro que se aproxima, e do processamento cognitivo realizado.
Recentemente, teorias de aprazimento tem vindo a ganhar popularidade. Estas descrevem as
emoções como sendo o resultado da interpretação cognitiva dos eventos do mundo [Picard_b].
6
Destas, a teoria de Ortony, Clore e Collins (OCC) é uma das mais conhecidas. A teoria de OCC
define as emoções como reacções com valência a eventos, agentes ou objectos, sendo a sua
natureza particular determinada pelo modo como a situação é construída cognitivamente
[Ortony_b]. A teoria tenta responder a duas questões: “Qual é a estrutura cognitiva do sistema
emocional como um todo?” e “Qual é a estrutura das emoções individuais?”. A resposta
proposta para a primeira questão é uma estrutura cognitiva de emoções onde as emoções são
agrupadas de acordo com a sua origem cognitiva – veja Fig. 1.3. A resposta proposta para a
segunda é “baseada na assumpção que cada emoção experimentada em cada instante é
determinada pelo modo como o indivíduo constrói o mundo cognitivamente”. Adicionalmente, a
teoria propõe 22 tipos de emoção, tal como variáveis globais e locais que as influenciam.
Uma das razões pelas quais esta teoria tem tido bastante sucesso no meio informático é a
facilidade de implementação computacional.
Fig. 1.3 A teoria de OCC. Existem 22 tipos de emoção representados nos rectângulos. O grafo representa a origem
cognitiva de cada um destes tipos.
Actualmente, existem muitas mais teorias do que as descritas, surgindo uma nova quase todos
os dias. O pensamento actual é que as emoções envolvem um estado dinâmico que consiste
tanto de eventos cognitivos como físicos. [AffectiveComputingGroupMIT] A Secção seguinte
explora as controvérsias actuais na teoria das emoções.
7
1.2 Os temas controversos Esta Secção procura compreender, de entre os relevantes, os temas mais controversos
actualmente existentes no estudo das emoções. O objectivo não é fazer um estudo
aprofundado, mas perceber a essência da controvérsia em cada um dos tópicos.
1.2.1 Sobre a origem das emoções No que diz respeito à origem das emoções, existem duas posições em conflito: a da filogenia
das emoções; e a da etologia das emoções.
A primeira posição, que aborda as emoções segundo uma perspectiva filogenética, defende
que as emoções são uma consequência da selecção natural – um processo natural que resulta
da evolução dos organismos que melhor se adaptam ao seu ambiente (definição de “selecção
natural” em [DIENET]). [Cosmides], por exemplo, diz que uma perspectiva de evolução leva a
conceber o cérebro humano como um conjunto de programas específicos. Cada programa
apresenta uma função especializada para resolver um problema adaptativo que surgiu durante
a evolução humana na história. Contudo, diz que a existência de todos estes programas
levanta um novo problema de adaptação: certos programas são contraditórios. Por exemplo, na
presença de um predador, ataque e fuga são duas reacções contraditórias. Assim, Cosmides
conclui que as emoções são programas de alto nível, resultantes da evolução, que controlam
os restantes programas de modo a minimizar conflitos.
A segunda posição, que aborda as emoções segundo uma perspectiva etológica, defende que
as emoções são um resultado da aprendizagem do ser humano enquanto organismo que se
integra num ecossistema maior. [Allport], defende que as emoções surgem como consequência
da formação de hábitos. Numa base hereditária de indiferença afectiva nos recém nascidos, diz
que os estados emocionais surgem à medida que a criança experiencia e aprende com as
várias respostas somáticas a eventos da sua vida. Deste modo, as emoções mais do que uma
consequência da selecção natural são consequência da aprendizagem social.
1.2.2 Sobre a existência de emoções básicas A discussão sobre a existência e definição de “emoções básicas” é ainda muito controversa
entre os estudantes de emoções humanas. Não existe acordo quanto ao número e conjunto de
emoções básicas, nem quanto às características essenciais que as distinguem. [Ortony_a]
apresenta um bom resumo desta discussão (veja-se a tabela da Fig. 1.4).
Contudo, como uma descrição genérica de emoções básicas podemos distinguir três
perspectivas dominantes [Ekman_a]:
A primeira defende que existem emoções separadas que diferem entre si em aspectos importantes. Nesta perspectiva, por exemplo, o medo e a tristeza diferem entre
si em características específicas (aprazibilidade, eventos antecedentes, etc.). A perspectiva
8
de emoções básicas contrasta com aquela que diz que as emoções são fundamentalmente
as mesmas, apenas diferindo na intensidade e no quão agradável são;
A segunda defende que as emoções evoluíram no seu valor adaptativo ao lidar com as tarefas fundamentais da vida. A ideia é que existem situações típicas universais aos
Humanos (frustrações, conquistas, etc.). As emoções encaminham-nos, então, na direcção
que a melhores resultados conduz em cada uma destas situações, isto é, a nossa
aprazibilidade de um evento actual depende do nosso passado;
A terceira refere-se a elementos que se podem combinar para formar emoções mais complexas.
Basic Emotions Basis for Inclusion
Arnold Anger, aversion, courage,
dejection, desire, despair,
fear, hate, hope, love,
sadness
Relation to action tendencies
Ekman, Friesen e Ellsworth Anger, disgust, fear, joy,
sadness, surprise
Universal facial expressions
Frijda Desire, happiness, interest,
surprise, wonder, sorrow Forms of action readiness
Gray Rage and terror, anxiety, joy Hardwired
Izard Anger, contempt, disgust,
distress, fear, guilt, interest,
joy, shame, surprise Hardwired
James Fear, grief, love, rage Bodily involvement
McDougall Anger, disgust, elation, fear,
subjection, tender-emotion,
wonder Relation to instincts
Mowrer Pain, pleasure Unlearned emotional states
Oatley and Johnson-Laird Anger, disgust, anxiety,
happiness, sadness
Do not require propositional
content
Panksepp Expectancy, fear, rage, panic Hardwired
Plutchik Acceptance, anger,
anticipation, disgust, joy, fear,
sadness, surprise
Relation to adaptive biological
processes
Tomkins Anger, interest, contempt,
disgust, distress, fear, joy,
shame, surprise Density of neural firing
Watson Fear, love, rage Hardwired
Weiner and Graham Happiness, sadness Attribution independent Fig. 1.4 - O conjunto das emoções básicas e os princípios de definição segundo vários estudantes de
emoções. Tabela apresentada [Ortony_a].
9
Compreende-se facilmente a relevância e o interesse na existência de um conjunto básico de
emoções, que explicassem a totalidade dos fenómenos afectivos nos humanos, no sentido que
possibilitaria uma organização e orientação com precisão da evolução da investigação na área.
1.2.3 Sobre a relação entre emoções e reacções fisiológicas Se a cada emoção estão associadas reacções fisiológicas internas diferentes, então, do ponto
de vista teórico, a modelação das emoções consegue-se modelando as reacções fisiológicas
internas. Adicionalmente, esta questão tem muito interesse para a área da Computação
Afectiva, onde se pretende que uma máquina seja capaz de reconhecer as emoções dos seus
utilizadores.
Actualmente, esta questão ainda não foi respondida pelos teóricos das emoções. A
movimentação fisiológica dos músculos que compõem o que parece, a um observador externo,
uma expressão facial específica pode não corresponder ao estado emocional interno da
pessoa. Emoção consiste em mais do que a sua expressão exterior; consiste também em
sentimentos internos, pensamentos, e processos internos dos quais a pessoa pode nem ter
consciência. [Cacciopo&Tassinary]
Contudo, alguns psicólogos defenderam que as emoções são reconhecíveis a partir de sinais
psicológicos se forem utilizadas técnicas de reconhecimento de padrões adequadas.
Infelizmente, até ao momento, ninguém demonstrou quais são esses sinais psicológicos ou que
métodos de reconhecimento possibilitam o reconhecimento seguro de emoções.
[Cacciopo&Tassinary]
1.2.4 Sobre a universalidade das emoções Elfenbein ([Elfenbein], 2002) apresentou uma meta-análise extensa sobre o reconhecimento de
emoções em várias culturas. Este estudo abrangeu 87 artigos, descrevendo 97 estudos
separados. Os artigos seleccionados abrangeram um total de 182 amostras de diferentes
grupos culturais, envolvendo aproximadamente 22,500 participantes, com uma média de 100
participantes por estudo. Os grupos abrangidos incluíram 42 diferentes nações, 23 grupos
étnicos e 2 grupos regionais. Esta Subsecção apresenta um breve resumo deste estudo.
1.2.4.1 Definições No debate sobre a universalidade das emoções existem duas posições extremas:
Existência de emoções universais – Neste caso, defende-se que as emoções são
consequência da selecção natural e, portanto, inerentes à espécie humana. Deste modo, a
expressão e reconhecimento de emoções é idêntica para qualquer indivíduo
independentemente da cultura;
10
Emoções são culturalmente definidas – Neste extremo, defende-se que as emoções são
consequência de uma adaptação à sociedade e que, portanto, culturas diferentes
apresentam expressão e reconhecimento de emoções de modo diferente.
Recentemente, verificou-se uma tendência para tentar conciliar as duas posições extremistas.
Por exemplo, Matsumono (1989) defendeu que, embora as emoções sejam biologicamente
programadas, o processo de aprendizagem da expressão e reconhecimento das emoções é
influenciado pelas sociedades.
É importante, também, a distinção entre expressão e reconhecimento de emoções. Expressão
de emoções refere-se com as consequências internas ou externas das emoções nos indivíduos
que a sentem, enquanto que reconhecimento tem a ver com a percepção que um indivíduo tem
sobre a emoção que outro experiencia. O artigo de Elfenbein estuda a universalidade do
reconhecimento de emoções, contudo permite extrapolar uma ideia sobre a universalidade da
expressão das emoções.
1.2.4.2 O estudo Conforme acima mencionado o primeiro objectivo do estudo é examina as evidências
existentes que existem a favor da universalidade e especificidade cultural para a área do
reconhecimento de emoções.
Foram já realizados vários estudos multiculturais por parte dos defensores da universalidade
das emoções usando o reconhecimento de expressões faciais como fonte primordial de
evidência. Estudos clássicos abrangem o de Paul Ekman (1972), apresentado no Anexo I, e
Carrol Izard (1971). O sucesso destes estudos em comprovar a universalidade das emoções é
ainda tópico de acesa discussão. Contudo, contrastando com o foco dos investigadores na
altura, actualmente os mesmos dados obtidos tem sido alvo de novas análises em busca de
discrepâncias culturais. Isto acontece porque, embora os resultados destes estudos
comprovassem a universalidade dos estudos a níveis “acima da coincidência1”, revelavam
também diferenças no sucesso da identificação das emoções associadas às figuras conforme a
cultura. Por exemplo, o sucesso dos indivíduos europeus rondava os 80%, enquanto que os
africanos apenas 50%. Deste modo, um segundo objectivo do estudo de Elfenbein é examinar
os dados relativos às possíveis explicações para a diversidade cultural das emoções. Diversas
explicações foram avançadas, incluindo as seguintes:
Regras de Apresentação e Regras de Descodificação – Regras de Apresentação e de
Descodificação surgem como uma imposição da sociedade no indivíduo. Estas controlam a
expressão e descodificação de emoções com base na adequação ao contexto social
particular. Deste modo, por exemplo, o indivíduo pode “fabricar” emoções com base em
convenções sociais;
1 Tradução de above-chance levels.
11
Língua nativa – Diversidade cultural das emoções foi também atribuída aos
constrangimentos que a língua nativa impõe sobre o raciocínio e representação de
emoções. Este aspecto parece ser particularmente notório na expressão vocal de
emoções. De acordo com estudos de Mesquita e Frijda (1992), expressões vocais de um
determinado grupo são mais facilmente reconhecidas pelos membros do grupo que por
indivíduos exteriores;
Vantagem Interior ao Grupo – Diversidade cultural no reconhecimento de emoções tem
sido também atribuída à familiaridade existente no interior de um grupo. Habitualmente, os
membros do grupo apresentam uma percentagem de sucesso superior a indivíduos
externos no reconhecimento de emoções de indivíduos do grupo.
Um terceiro objectivo do estudo foi verificar se o reconhecimento de emoções variava conforme
o canal de expressão não verbal utilizado. Os estudos clássicos acima utilizados utilizaram em
geral fotografias de expressões faciais. Este tem sido um dos aspectos mais criticados dado
que é amplamente reconhecido que as emoções se expressam por vários canais não verbais –
veja Secção 2.2.
Um quarto objectivo do estudo foram os universais culturais, i.e., se existe um conjunto de
emoções que existem em todas as culturas.
1.2.4.3 Os resultados Os resultados são apresentados sob o formato pergunta/resposta:
As expressões emocionais são reconhecidas a níveis de precisão “acima da coincidência” nas várias culturas? Em 162 estudos que compuseram a meta-análise
apenas 5 apresentaram resultados que respondem negativamente à pergunta. Assim, a
meta-análise apresenta resultados que favorecem a resposta afirmativa à questão. Existem evidências que suportem a Vantagem Interior ao Grupo? Foram efectuados 4
testes estatísticos aos dados obtidos dos vários estudos e todos indicaram a existência de
evidências que suportam a Vantagem Interior ao Grupo. A precisão de reconhecimento de emoções varia de acordo com o canal não verbal
utilizado para expressar emoções? A análise revelou algumas diferenças na precisão do
reconhecimento em função do canal não verbal utilizado. Em particular, estudos
multiculturais revelaram menor precisão de reconhecimento quando a expressão vocal era
utilizada, relativamente aos outros canais. Esta afirmação é consistente com as afirmações
de Galati (1997) que dizem que os estímulos vocais são mais complexos e estilizados que
os estímulos faciais. No conjunto dos estudos realizados dentro de fronteiras, diferenças
entre o reconhecimento nos vários canais são negligenciáveis. A nível da relação entre
emoções e o canal, alegria foi mais facilmente reconhecida na expressão facial que na
12
vocal. Raiva e tristeza foram melhor reconhecidas na expressão vocal que na expressão
facial. A Vantagem Interior ao Grupo foi inferior para a alegria na expressão facial que na
vocal. Medo demonstrou uma Vantagem Interior ao Grupo tanto na expressão facial como
na vocal, contrariamente ao caso da raiva.
Existem universais culturais? O estudo explora muitas emoções diferentes, embora só
fossem utilizadas sete emoções discretas – raiva, alegria, nojo, medo, surpresa, tristeza,
contentamento – e uma dimensão global – positivo-negativo. Contentamento foi a emoção
menos reconhecida a nível multicultural. Medo e nojo foram também pouco reconhecidas,
enquanto que alegria foi a mais reconhecida. A Vantagem Interior ao Grupo foi menor para
alegria e raiva, e maior para medo e nojo. A exposição a outras culturas diminui a Vantagem Interior ao Grupo? Os resultados
sugerem que grupos sujeitos a outras culturas apresentam um decréscimo na Vantagem
Interior ao Grupo.
1.2.4.4 Discussão A meta-análise de Elfenbein sugere uma aproximação intermédia relativamente aos extremos
apresentados na Subsecção1.2.4.1. Os resultados sugerem a existência de certas emoções
fulcrais universais que são provavelmente biológicas. Contudo, os resultados apresentam
também evidências que a expressão emocional pode perder algum do seu significado nas
várias culturas: existem emoções que parecem melhor reconhecidas por indivíduos da mesma
nacionalidade, etnia ou grupo regional. Esta Vantagem Interior ao Grupo sugere que a cultura
influencia o reconhecimento emocional dos indivíduos.
Relativamente à explicação da diversidade cultural no reconhecimento de emoções, a
Vantagem Interior ao Grupo parece ser uma das possíveis explicações. Os resultados sugerem
que Regras de Apresentação e de Descodificação não fornecem uma justificação completa da
diversidade cultural. Relativamente ao impacto da linguagem, os resultados são consistentes
com algumas das explicações da diversidade cultural com base na linguagem – por exemplo,
dificuldades de tradução e distracção devido às diferenças de entoação na expressão vocal de
em culturas diferentes do ouvinte. Contudo, os resultados não suportam outras explicações
baseadas na linguagem – por exemplo, o impacto da diferença de vocabulário para descrever
emoções.
Relativamente à variação da precisão de reconhecimento nos vários canais não verbais,
os resultados sugerem a existência de diferenças. Estímulos dinâmicos (voz e vídeo
reproduzido) estão associados a um decréscimo marginal da Vantagem Interior ao Grupo face
a estímulos estáticos (fotografias de caras e posturas corporais), mas também a um
decréscimo no reconhecimento de emoções nas várias culturas.
13
Relativamente às implicações teóricas, os resultados indicam que as emoções não perdem
todo o seu significado nas várias culturas – mas perdem algum. Estes resultados ecoam
evidências encontradas sobre a universalidade e diversidade cultural em certos domínios
semânticos e representações cognitivas. Dialectos linguísticos referem-se a variações de uma
língua de base na pronúncia, gramática, sintaxe ou vocabulário por influência geográfica,
nacional, cultural e social. De modo semelhante, a linguagem básica de expressão emocional
pode ter dialectos emocionais que variam no modo de expressão e reconhecimento de
emoções e que tem origem na diversidade cultural.
14
2 COMO SE MANIFESTAM AS EMOÇÕES NOS HUMANOS? 2 figura
Este Capítulo explora as reacções, internas e externas, das emoções nos Humanos. Pela sua
natureza, o Capítulo adopta uma perspectiva mais próxima da neurociência do que da
psicologia.
A Secção 2.1 explora o modo como as emoções se manifestam internamente, explorando qual
o origem das emoções ao nível cerebral e como é que estas originam as reacções fisiológicas.
Por fim, a Secção 2.2 explora as manifestações externas da emoção – expressão corporal,
facial e vocal.
2.1 Como se Expressam Fisiologicamente as Emoções? Primeiro explora-se qual é origem das emoções ao nível cerebral, de seguida como é que se
propagam para o resto do corpo originando as reacções fisiológicas típicas (como por exemplo
o aumento do ritmo cardíaco).
2.1.1 O sistema límbico: o centro das emoções Esta Subsecção é baseada em [Amaral&Oliveira].
Ao longo da evolução o cérebro humano adquiriu três componentes sobrepostos que surgiram
progressivamente. Recorde-se que a evolução humana, cronologicamente, inicia-se nos répteis
até atingir o homo sapiens.
Fig. 2.1 – As três componentes do cérebro humano.
15
Os três componentes do cérebro são:
O cérebro primitivo (ou archipallium) – Responsável pelos mecanismos de preservação
humana. É aqui que os comportamentos repetitivos e agressivos surgem. É aqui que
surgem as reacções instintivas e os comandos que originam acções involuntárias e
funções viscerais;
O cérebro intermédio (ou paleopallium) – Corresponde ao cérebro dos mamíferos
inferiores e contêm as estruturas do sistema límbico. Este sistema controla certos
comportamentos essenciais à sobrevivência de todos mamíferos. Aqui certas funções
afectivas desenvolvem-se como, por exemplo, aquelas que induzem uma fêmea a cuidar
das suas crias. O sistema límbico é a origem das emoções do ponto de vista físico;
O cérebro racional (ou paleopallium) – Responsável pelo raciocínio. Esta é a
componente do cérebro que nos separa de espécies inferiores. É constituído por uma rede
complexa de células neuronais que são capazes de produzir linguagem simbólica
permitindo, então, ao Homem o exercício de capacidades intelectuais como leitura, escrita
e processamento matemático.
Já sabemos que as emoções têm origem no sistema límbico localizado no cérebro intermédio.
Então como é surgem as reacções fisiológicas associadas às emoções? Estas não são mais
do que reflexos, tal como é invertebrados inferiores, cujos sinais se iniciam no cérebro primitivo.
A Subsecção 2.1.2 explora este aspecto.
2.1.2 A propagação das reacções fisiológicas O sistema nervoso divide-se em: sistema nervoso central (SNC); e sistema nervoso periférico
(SNP), que é o foco desta pesquisa. O SNP divide-se em: sistema somático; e sistema nervoso
autónomo (SNA). [SistemaNervoso]
O sistema somático é responsável pelo controlo dos movimentos voluntários e controla, para o
efeito, os músculos. O SNA regula o funcionamento individual dos órgãos e mantêm um
ambiente interno estável (homeoestase). O SNA divide-se em: sistema nervoso simpático;
sistema nervoso parassimpático; e sistema entérico. Para esta pesquisa os dois primeiros são
do nosso interesse. [SistemaNervoso]
O sistema nervoso simpático é o responsável pelas reacções de ataque ou de fuga. Em
situações de perigo este sistema é responsável pelo aumento de energia disponível, ajustes
cardio-pulmonares para actividade intensa, ajustes no fluxo sanguíneo para consumo máximo
de energia. Quando a situação que originou o perigo deixa de existir, o sistema nervoso
parassimpático retorna o corpo ao seu estado anterior, exercendo uma função contrária ao do
sistema nervoso simpático – veja a Fig. 2.1. [SistemaNervoso]
16
Fig. 2.1 – O sistema nervoso autónomo controla a excitação fisiológica. Informação utilizada na construção da
tabela obtida em [PVCC].
2.2 Como se Expressam as Emoções Externamente? De acordo com [Picard_b], três tipos de manifestação externas de emoção são sobejamente
reconhecidas:
Expressão corporal – que diz respeito a posturas e gestos que reflectem o estado
emocional interno. Este tópico é explorado no Capítulo 5;
Expressão facial – que diz respeito às poses faciais assumidas pelo indivíduo que
experiencia determinada emoção. Esta pode ser interpretada como uma sub componente da
expressão corporal. Este tópico é explorado no Capítulo 6;
Expressão vocal – que diz respeito à modulação da voz de modo a reflectir uma
emoção interna. Por vezes, o conteúdo da comunicação não importa, mas apenas o modo
como este é comunicado. Por exemplo, sabe-se que os bébes conseguem percepcionar
emoção com base no tom de voz dos pais. Este tópico é explorado no Capítulo 7.
Um quarto modo de expressão diz respeito a essentic forms. De acordo com Clynes (1977)
emoção pode ser conferida por qualquer motor do corpo desde que este possua um número de
graus de liberdade suficiente. Por exemplo, emoção pode ser inferida a partir da pressão que o
dedo efectua sobre uma superfície ou pelo movimento que executa enquanto o indivíduo
escuta uma melodia. [Picard_b] Este tópico não será mais explorado nesta pesquisa.
17
PARTE II
AGENTES COM
EMOÇÕES
18
3 O QUE SÃO AGENTES COM EMOÇÕES? 3 figura
Este Capítulo propõe-se a apresentar uma definição de Agente com Emoções (ou Agentes
Emocionais). Considerando que este é o tópico desta pesquisa facilmente se perceberia o
interesse em tal definição.
Considerem-se os seguintes exemplos:
As personagens do Microsoft Chat
O Assistente de Ajuda do Microsoft Office
O Papous, o contador de histórias
As personagens do Microsoft Chat representam o utilizador em salas de conversação. As
emoções expressas por estas personagens são totalmente controladas pelo utilizador.
Podemos considerar estas personagens como Agentes com Emoções?
Fig. 3.1 – No Microsoft Chat as emoções das personagens são totalmente controladas pelo utilizador.
Contrastando com o caso anterior, o Assistente de Ajuda do Microsoft Office já expressa
algumas emoções. Contudo, estas são muito rudimentares e ocorrem de forma previsível e
repetitiva. Podemos considerar esta personagem um Agente com Emoções?
Fig. 3.2 – O Assistente do Microsoft Office apresenta algum comportamento emocional autónomo.
19
O Papous ([Silva,Vala&Paiva]), o contador de histórias virtual, por sua vez propõe-se a modelar
expressões de emoções faciais, gestuais e vocais com base em teorias de Ciências Humanas.
Podemos considerar o Papous como um Agente com Emoções?
Fig. 3.3 – O Papous, o contador de histórias, propõe-se a expressar emoções com base em teorias das
Ciências Humanas.
De momento, não existe uma definição consensual sobre o que é um Agente com Emoções.
Analisemos, por exemplo, duas das taxonomias de agentes mais mencionadas na literatura:
A taxonomia de [Gilbert]: Situa os agentes num espaço tridimensional cujas dimensões
são: Agência, que mede o grau de autonomia atribuída ao agente; Inteligência, que avalia a
capacidade de raciocínio e capacidade de aprendizagem do agente; Mobilidade, que mede
a capacidade do agente viajar na rede. A Fig. 3.4 resume esta taxonomia;
A tipologia de [Nwana]: Classifica os agentes de acordo com as seguintes dimensões:
Mobilidade – se o agente é estático ou dinâmico; Presença de um modelo deliberativo – se
o agente é deliberativo ou reactivo; Exibição de propriedades ideais e primárias,
nomeadamente a autonomia, cooperação e aprendizagem; Papeis desempenhados pelos
agentes; Aproximações híbridas, que conjugam várias alternativas; Atributos secundários –
versatilidade; benevolência; veracidade; fidelidade; continuidade temporal; capacidades
mentais; capacidades emocionais; etc.
Fig. 3.4 A taxonomia de agentes de [Gilbert]. Onde situar os agentes com emoções?
20
Olhando para a taxonomia de [Gilbert] observamos que esta nem sequer abrange agentes com
capacidades emocionais. Esta taxonomia precisaria de uma quarta dimensão para o efeito. Por
sua vez, a tipologia de [Nwana] remete para atributos secundários as capacidades emocionais
de uma agente. Adicionalmente, nem sequer é capaz de distinguir entre as três possibilidades
descritas acima (dado que ambos apresentam “capacidades emocionais”).
Assim, o que parece faltar na literatura é um continuum que permita distinguir, entre outros, os
exemplos acima mencionados. Intuitivamente, não parece correcto denominar agente a uma
personagem que é totalmente controlada pelo utilizador, como é o caso do Microsoft Chat. O
caso do Assistente do Office já é um pouco mais complicado, dado que este apresenta de facto
algum comportamento emocional autónomo. Contudo, este é previsível e repetitivo.
Essencialmente, é pouco credível. A denominá-lo de Agente com Emoções seria, no máximo,
um Agente com Emoções fraco. Por fim, o caso do Papous parece corresponder ao que se
pretende que um Agente com Emoções seja.
A definição rigorosa deste continuum vai para além da abrangência desta pesquisa. Ainda
assim, até ao final do Capítulo, propõe-se uma definição de Agente com Emoções que servirá
para os propósitos desta pesquisa. A ideia é simples. Um Agente com Emoções é, em primeiro
lugar, um agente. Assim, a primeira preocupação será explorar a Teoria dos Agentes em busca
de uma definição de agente. Em segundo lugar, um Agente de Emoções tem de apresentar
capacidades emocionais. Assim, um Agente com Emoções estará, certamente, algures na
interSecção entre a teoria de agentes e as teorias de emoções.
O resto do Capítulo está organisado como se segue. A Secção 3.1 revê a teoria de agentes. A
Secção 3.2 sugere, então, uma definição para Agentes com Emoções.
3.1 Teoria de Agentes A Teoria de Agentes apresenta três tópicos centrais [Wooldrige&Jennings]:
Formalismos2 de Agentes – O que são agentes? Que propriedades devem ter? Como
representar formalmente e raciocinar sobre estas propriedades?
Arquitecturas de Agentes – Como construir agentes que apresentam as propriedades
que deles esperamos? Que estruturas de software e de hardware é que são apropriadas?
Linguagens de Agentes – Como programar agentes? Quais são as primitivas adequadas
para a tarefa? Como compilar efectivamente e executar programas de agentes?
No contexto desta pesquisa, o interesse reside nos Formalismos de Agentes e em concreto na
definição de agente. Contudo, a própria definição de agente é neste momento alvo de bastante
controvérsia. Não existe ainda uma definição universalmente aceite. Essencialmente, parece
2 Originalmente, em [Wooldrige&Jennings], é utilizada a expressão “Teorias de Agentes” para descrever o que denominei “Formalismos de Agentes”. Optei por esta última expressão porque julgo que a expressão “Teoria de Agentes” seria mais adequada para denotar os três tópicos descritos em conjunto.
21
existir consenso quanto à necessidade de um agente demonstrar autonomia mas, para além
disto, existe pouca concordância. Parte da dificuldade deve-se ao facto de a relevância de
determinadas propriedades dos agentes diferir com os diferentes domínios de aplicação
[Wooldrige].
Esta controvérsia é conhecida na área e foi já demasiado debatida. Não será, por isso,
explorada em detalhe nesta pesquisa. Para mais informações veja-se [Wooldridge&Jennings] e
o Capítulo 2 de [Coelho&Paiva].
3.2 Definição de Agente com Emoções
Um Agente com Emoções é um agente que tem capacidades emocionais credíveis.
Em primeiro lugar, a definição diz que um Agente com Emoções é um agente, seja lá o que um
agente for. Esta porção da definição é suportada pela teoria de agentes.
Em segundo lugar, a definição diz que um Agente com Emoções deve apresentar capacidades
emocionais, i.e., deve ser capaz de sintetizar, percepcionar, e expressar emoções. Mais à
frente é discutida a comunicação da emoção através de: expressão vocal; expressão facial; e
expressão gestual.
Em terceiro lugar, um Agente com Emoções deve sintetizar emoções credíveis, i.e., a
interacção com o utilizador deve induzir a suspensão da descrença – a disposição do
utilizador em suspender as suas faculdades críticas de modo a “deixar-se levar pela história”.
Para o efeito, um Agente com Emoções deverá sintetizar e expressar as suas emoções com
base em teorias das Ciências Humanas.
Fig. 3.5 – Definição de Agentes com Emoções.
22
4 PORQUÊ MODELAR AGENTES COM EMOÇÕES? 4 figura
É fácil pensar em emoção como um luxo desnecessário para funcionamento inteligente básico.
Adicionalmente, a sua modelação computacional é difícil.Assim, porquê modelar emoções nos
computadores?
Recentemente, uma constelação de descobertas, na área da neurociência, psicologia e ciência
cognitiva sugerem que a emoção desempenha um papel fundamental no comportamento
racional e inteligente. De facto, estudos na área da neurociência demonstraram que pacientes
que tem deficiências na capacidade de geração de emoção revelam grandes lacunas no
comportamento inteligente do dia-a-dia, sugerindo que falta de emoção pode prejudicar o
comportamento inteligente. [Picard_a] A teoria de [Damasio] salienta exactamente este ponto,
conforme discutido na Secção 4.1.
Cientistas demonstraram que capacidades emocionais são uma componente básica da
inteligência, principalmente no que diz respeito às preferências de aprendizagem e adaptação
ao que é importante. Com o aumento do desenvolvimento de sistemas adaptativos, como por
exemplo agentes de interface que aprendem com os utilizadores, a capacidade de
percepcionar e responder às emoções do utilizador adquire uma crescente relevância.
Inteligência emocional consiste na capacidade de reconhecer, expressar e ter emoções, em
conjunto com a habilidade de regular e manipular as emoções dos outros. Inclusive, existe
quem defenda que as capacidades de inteligência emocional constituem uma melhor base do
que a medição do QI para medir os aspectos de sucesso da vida. [Picard_a]
Provavelmente as máquinas nunca necessitarão de ter todas as capacidades sociais e
emocionais dos Humanos; contudo, existem evidências que estas terão de ter, pelo menos,
algumas destas capacidades para demonstrarem comportamento inteligente perante os
Humanos. Uma teoria relevante neste aspecto é a de Reeves e Nass de Stanford
([Reeves&Nass]) que diz que a interacção Homem-Máquina é intrinsecamente natural e social,
seguindo as bases da interacção Homem-Homem – veja Secção 4.2. [Picard_a]
A Secção 4.3 apresenta explora algumas das aplicações dos Agentes com Emoção.
4.1 O Erro de Descartes A referência de base para esta Secção é [Damasio], contudo o texto é obtido de várias outras
fontes: [Albuquerque] e [Sabbattini].
Damásio, um neurologista luso-americano, tem uma teoria que diz que a razão e a emoção não
são entidades antagonistas no nosso cérebro, mas que um é importante para o outro na
construção da nossa personalidade sadia. Este foi, aliás o erro de Descartes, que dizia que
23
existe uma separação entre o racional e o irracional (emoções, sentimentos), e que ser
unicamente racional seria a melhor coisa para a Humanidade.
A ciência admite a existência de “dois cérebros", divididos pela diferença de suas funções
ligadas às regiões que as operam. Recorde-se que a neurociência admite a divisão do cérebro
em três componentes (veja a Secção 2.1.1). Nesta Secção entenda-se o cérebro emocional
como o par cérebro primordial e intermédio.
Segundo o pesquisador, as emoções são conjuntos de reacções químicas e neurais que
ocorrem na região do cérebro emocional, determinados biologicamente, que usam o corpo
como "teatro". Seu papel é auxiliar o organismo a preservar a vida. O cérebro emocional teria,
assim, uma ligação mais próxima com o corpo do que com o cérebro cognitivo. Embora
suportando funções diferentes, o cérebro emocional e cognitivo comunicam. E é nesse
contacto e diálogo que Damásio mostra a interferência da emoção em todo o sistema. Com
casos de pacientes nos seus livros, o pesquisador comprova que os sentimentos normalmente
acompanham as escolhas que fazemos e acabam por determinar a direcção das opções
racionais. [Albuquerque]
A teoria de Damásio poderia explicar porque pacientes com distúrbios provocados por lesões
no cérebro frontal ventromedial (e, por extensão, sociopatas) têm problemas emocionais. A sua
“Hipótese do Marcador Somático” diz que indivíduos normais activam os chamados "estados
somáticos" (alterações na frequência cardíaca e respiração, dilatação das pupilas, sudorese,
expressão facial, etc.) em resposta à punição associada às situações sociais. Por exemplo,
uma criança quando parte alguma coisa valiosa e é punida severamente por seus pais evoca
estes estados somáticos. Da próxima vez que ocorra uma situação similar, os marcadores
somáticos são activados e a mesma emoção associada à punição é sentida. De modo a evitar
isto, a criança suprime o comportamento indesejado. [Sabbattini]
De acordo com Damásio, pessoas com danos no lobo frontal são incapazes de activar estes
marcadores somáticos. Ele diz que "isto privaria o indivíduo de um dispositivo automático para
sinalizar consequências deletérias relativas a respostas que poderiam trazer a recompensa
imediata". Isto explica também porque os sociopatas e pacientes com danos no lobo pré-frontal
mostram poucas respostas autonómicas a palavras condicionadas socialmente e imagens com
conteúdo emocional, mas têm respostas normais a estímulos incondicionados como outras
pesquisas de Damasio demonstraram. [Sabbattini]
24
4.2 A teoria de Reeves e Nass Esta Secção é baseada exclusivamente em [Reeves&Nass].
De acordo com a sabedoria popular, Humanos nunca se relacionam com o computador ou com
um programa de televisão do mesmo modo que se relacionam com outro Humano. Ou será
que se relacionam? Baseando-se em experiências efectuadas, Byron Reeves e Clifford Nass
demonstram em [Reeves&Nass] que interacções com computadores, televisão e novas
tecnologias são idênticas às relações sociais e à navegação em espaços físicos reais.
Numerosos estudos psicológicos efectuadas levaram a concluir que as pessoas tratam os
computadores, televisão e os novos media como pessoas e lugares reais. Estes estudos
demonstram que as pessoas são simpáticas para os computadores; que tratam computadores
com vozes femininas de modo diferente de computadores com vozes masculinas; que caras
largas no ecrã podem invadir o espaço pessoal do utilizador; e que movimento no ecrã afecta a
pessoa do mesmo modo que movimento real afecta. Uma das suas conclusões mais
espantosas é que o cérebro humano não evoluiu suficientemente rápido para acomodar a
tecnologia do século XXI. Em [Reeves&Nass] é também explicado como é que este
conhecimento pode conduzir a melhores desenhos e avaliação de tecnologia multimédia,
incluindo computadores e software Internet, entretenimento da televisão, notícias e publicidade.
4.3 Aplicações da Teoria de Agentes com Emoções 4.3.1 Interfaces Pessoa-Máquina A seguinte citação resume a visão dos agentes de interface:
“A melhor metáfora que consigo conceber para interfaces Homem-Máquina é a de um
mordomo inglês bem treinado. O “agente” atende o telefone, reconhece o interlocutor,
interrompe-te quando for apropriado, e pode ainda dizer uma mentira branca por ti. O mesmo
agente está bem treinado em regulação de tempo (timing) …e respeita idiossincrasias.”
[Negroponte] (traduzido)
A tese de [Laurel] é que antropomorfismo sem restrições no desenho de interfaces Homem-
Máquina é tanto natural como apropriado. Primeiro, a representação de agentes com
personalidade e capazes de sintetizar emoção utiliza de forma óptima a nossa capacidade de
inferir sobre em que um agente pensa, como decide, e age de acordo com os seus traços de
personalidade externos. Segundo, o agente com personalidade (seja humanóide, canino ou
tipo boneco animado) convida a diálogo sem necessariamente processamento elaborado de
linguagem natural. E, por fim, a metáfora da personalidade atrai a nossa atenção com sucesso
para exactamente aqueles aspectos essenciais de um agente de interface: capacidade de
resposta, competência, acessibilidade e a capacidade de realizar acções em nosso nome.
25
[Picard_a] acrescenta que o reconhecimento de feedback afectivo é importante para interacção
Pessoa-Máquina inteligente. Apresenta ainda o exemplo de um algoritmo de aprendizagem que
decide quando interromper o utilizador. Um Humano aprende isto olhando para como responde
o seu interlocutor quando interrompido em determinada situação. A interrupção foi recebida de
forma negativa, neutra ou positiva? Descurar a resposta do interlocutor pode ser interpretado
como falta de etiqueta e como uma atitude pouco inteligente. É, pois, possível prever uma
atitude semelhante perante computadores que interrompam o utilizador continuamente sem
prestar atenção ao seu feedback afectivo.
4.3.2 Validação de Teorias de Humanas Agentes com Emoção podem desempenhar um papel importante no que diz respeito à
validação e actualização de teorias de Psicologia, Neurociência, Ciência Cognitiva e
Sociologia. A modelação de um sistema emocional pode ser uma tentativa de instanciar parte
de uma teoria sobre um fenómeno natural com um computador ou um robot. O investigador
aspira a que o sistema ajude na formalização, validação da consistência interna dos seus
postulados teóricos. O sistema permite ainda uma experimentação flexível e de baixo custo.
Estes sistemas podem ainda ser muito úteis do ponto de vista pedagógicos. [Wehrle]
4.3.3 Agentes Pedagógicos Agentes pedagógicos animados que habitam ambientes virtuais de aprendizagem podem exibir
comportamento Humano. Para além de aconselhar na resolução de problemas em resposta às
actividades dos estudantes, estes agentes podem ainda desempenhar um importante papel
motivador. Para desenhar agentes efectivos neste tipo de ambiente, é necessário que perceber
como os estudantes percepcionam um agente pedagógico animado no que diz respeito às
dimensões afectivas como encorajamento, utilidade, credibilidade e clareza. [Lester]
O estudo descrito em [Lester] demonstra o efeito persona que diz que a presença de uma
personagem com personalidade num ambiente virtual de aprendizagem – mesmo que este não
seja muito expressivo – pode ter um forte impacto positivo na percepção dos alunos acerca da
experiência de aprendizagem. Este efeito é válido mesmo para agentes diferentes dos
Humanos.
Fig. 4.1 – Vincent, um agente pedagógico com personalidade desenvolvido pelo GAIPS. Vincent exterioriza
emoções base no comportamento dos alunos. [Paiva]
26
4.3.4 Entretenimento A aplicação de Agentes com Emoções na indústria do entretenimento (jogos, filmes, narrativa,
etc.) é por demais óbvia.
Fig. 4.2 – Smeagel do Senhor dos Anéis [LordOfTheRings]. O dia em que personagens como esta possam ser
modeladas (em vez de animadas) já esteve mais distante.
Fig. 4.3 – The Sims, o jogo de simulação da vida real da Electronic Arts. [TheSims]
Fig. 4.4 – Papous, o contador de histórias em desenvolvimento no GAIPS [Silva,Vala&Paiva]. Este é um
exemplo de aplicação na área da Narrativa.
27
PARTE III
EXPRESSÃO DE
EMOÇÕES
28
5 EXPRESSÃO CORPORAL 5 figura
Revista a teoria das emoções e definido o conceito e interesse de agentes com emoções, é
altura de explorar a expressão humana. Este estudo concentra-se, conforme mencionado na
introdução, na expressão das emoções e não em arquitecturas computacionais. Deste modo, o
foco reside nas várias teorias de expressão emocional das Ciências Humanas.
Este Capítulo estuda a expressão corporal humana. Nesta poder-se-ia incluir a expressão
facial, contudo, tendo sido este tópico bastante explorado individualmente, é-lhe dedicado o
próximo Capítulo.
Relativamente à organização do Capítulo, a Secção 5.1 apresenta o espectro da expressão
corporal humana. A Secção 5.2 explora a expressão corporal comunicativa, uma área que tem
sido alvo de bastante investigação. A Secção Error! Reference source not found. aborda a
teoria de Laban que apresenta um mecanismo para representar o movimento humano. Esta
teoria permitirá representar o impacto que a emoção terá na expressão corporal em geral.
Expressão corporal comunicativa, contudo, tem mais a ver com expressão do pensamento do
que de emoções. Deste modo, a Secção 5.3 concentra-se na expressão corporal emocional,
explorando a Arte e, em particular, a expressão dramática e a animação.
5.1 O Espectro da Expressão Corporal Humana De acordo com [Zhao], o movimento humano varia entre movimentos voluntários, orientados a
objectivos, e movimentos involuntários, inconscientes. Movimentos voluntários incluem, por
exemplo, caminhar para determinado local ou falar. Movimentos involuntários ocorrem por
razões biológicas incluindo, por exemplo, piscar os olhos e respirar. Uma série de subclasses
de movimentos, situadas entre estes dois extremos, tem sido estudada.
A primeira consiste na expressão corporal comunicativa: expressão facial, posturas e
gestos. A maior parte da investigação nas Ciências Humanas enquadra-se nesta subclasse. O
objectivo primordial é perceber a relação entre o pensamento e os gestos. A área dos Agentes
Conversadores Encorpados3, que se propõe a construir parceiros de conversação sintéticos,
tem-se concentrado acima de tudo nesta dimensão da expressão corporal humana. Esta
subclasse será o foco da Secção 5.2.
A segunda consiste na expressão corporal emocional. Esta, até ao momento, mais do que
explorada pelas Ciências Humanas, tem-no sido pelas Artes (expressão dramática no teatro,
na dança e animação). Esta é a subclasse que distingue, por exemplo, a credibilidade das
personagens da Disney da credibilidade das personagens sintéticas até ao momento
desenvolvidas. Esta subclasse abrange, portanto, todos os gestos que são consequência do
3 Tradução de Embodied Conversacional Agents.
29
estado afectivo interno da pessoa que o executa e aproxima-se, certamente, mais da
extremidade dos movimentos involuntários. Um exemplo é o gesto de baixar os ombros e a
cabeça perante a tristeza. Outro conjunto significativo de exemplos consiste nas expressões
faciais emocionais. Esta subclasse é objecto de estudo na Secção 5.3.
Adicionalmente foram estudadas diversas subclasses, mais específicas, que não irão ser
exploradas em detalhe nesta pesquisa. Contudo uma breve descrição destas, tal como
referências relevantes, é apresentada de seguida:
O estudo da expressão corporal no exercício de mentira é um tópico de bastante
interesse, em particular para a área jurídica, política e militar. Para mais informações sobre
esta subclasse o leitor poderá dirigir-se a [Ekman_b] ou [NonverbalBehaviour];
Expressão corporal de consentimento sexual é um tópico também com bastante
interesse do ponto de vista jurídico, no sentido que permite clarificar situações de assédio
sexual e violação. Por exemplo, actualmente nos EUA a lei diz, em traços gerais, que se
considera uma relação sexual como não consentida a não ser que exista consentimento
explícito. Contudo esta lei não se baseia em pesquisas científicas. Mais informação sobre
este tópico podem ser encontrada em [Burrow] ou [NonverbalBehaviour];
Expressão corporal na educação explora tópicos como, por exemplo, a interpretação da
expressão corporal da audiência e a pedagogia da expressão corporal do professor. Mais
informações sobre este tópico poderão ser encontradas em [NonverbalBehaviour];
Expressão corporal no trabalho explora tópicos como, por exemplo, a expressão
corporal nos escritórios, expressão não verbal de poder, entrevistas, etc. Mais referências
sobre este tópico poderão ser encontradas em [NonverbalBehaviour].
A Fig. 5.1 resume o espectro da expressão corporal humana2, destacando apenas as 2
subclasses que irão ser exploradas neste documento.
Fig. 5.1 – O espectro da expressão corporal humana. Na figura represento apenas as subclasses da expressão
corporal emocional e expressão corporal comunicativa.
30
5.2 Expressão Corporal Comunicativa Nos últimos anos a subclasse da expressão corporal comunicativa tem sido alvo de renovado
interesse por parte das Ciências Humanas e Informática. Este interesse comprova-se pela
quantidade de artigos e publicações realizadas sobre o tópico.
Em traços gerais, existem dois ramos principais na investigação na área. Num ramo, existe o
trabalho dos linguistas, psicólogos, neurocientistas, coreógrafos, fisioterapeutas, entre outros.
Essencialmente, este ramo não se preocupa em desenvolver sistemas computacionais que
verifiquem as suas teorias. A sua principal preocupação é a compreensão conceptual e
funcional dos gestos. Embora este trabalho envolva análises profundas, os modelos resultantes
são, em geral, qualitativos e teóricos dificultando, assim, a sua verificação. Num segundo ramo
existe o trabalho desenvolvido pela área da Interacção Pessoa-Máquina, Computação Gráfica,
Visão e Personagens Sintéticas. A principal preocupação deste ramo reside no
desenvolvimento de sistemas que permitam o reconhecimento, análise e síntese de gestos.
Neste documento, relativamente ao primeiro ramo, a Subsecção 5.2.1 explora a área das
ciências psico-linguísticas cujo contributo tem sido significativo. Adicionalmente, é uma área
que já atingiu um certo nível de maturidade, possibilitando o acordo, pelo menos em premissas
de base, por parte dos teóricos da área. Deste modo, torna-se possível a exploração das suas
teorias em outras áreas como por exemplo, e enquadrado no segundo ramo de investigação
acima mencionado, a área dos Agentes Conversadores Encorpados (ACE). Neste sentido, é
apresentado brevemente o trabalho da Justine Cassell na Subsecção 5.2.2.
Antes, contudo, importa salientar que o foco destas teorias reside na relação entre pensamento
e gestos e não na relação entre emoção e gestos. Assim, qual é o interesse para esta
pesquisa? Três razões são apresentadas: 1) É na síntese deste tipo de gestos que a grande
maioria dos sistemas computacionais desenvolvidos se concentra; 2) Segundo [McNeill00]
estes gestos constituem a maioria dos gestos exibidos pelo ser humano; 3) A emoção afecta a
execução (não a escolha) destes gestos.
5.2.1 Modelos gestuais na Psicologia e Linguística O estudo moderno dos gestos sofreu uma mudança em dois sentidos face à tradição que data
dos tempos romanos que enfatizava a retórica dos gestos – utilização de gestos premeditados
por parte de oradores para embelezar discursos públicos. A primeira mudança, começa com
Efron na década de 1930, onde os gestos começam a ser estudados na vida, do modo como
ocorrem espontaneamente durante a conversação e discurso. Este estudo foi facilitado em
grande medida pelo surgimento do vídeo e da câmara lenta. A segunda mudança começa com
Kendon em 1972 e continua com crescente vigor até aos dias de hoje, onde os gestos passam
a ser observados mas como componente integral da própria linguagem – e não como adornos
ou elaborações desta. O desenvolvimento desta linha de raciocínio permite uma nova maneira
31
de olhar para a natureza da conversa, raciocínio, memória e interacção com as palavras num
contexto social. [McNeill01]
Actualmente, existem ainda muitas questões em aberto e muita investigação por realizar.
Contudo, a teoria de McNeill, construída sobre a teoria de Kendon e de Efron, parece constituir
uma norma de facto na área. Deste modo, a Subsecção 5.2.1.1 descreve superficialmente esta
teoria e a Subsecção 5.2.1.2 descreve uma taxonomia de gestos proposta em [McNeill01].
Para mais informação sobre as restantes teorias sugere-se o Capítulo 2 de [Zhao].
5.2.1.1 Teoria de McNeill Esta Subsecção baseia-se em [Zhao] que, por sua vez, se baseia em [McNeill00].
McNeill e colegas conduziram diversas experiências que consistiam em mostrar um filme de
bonecos animados a indivíduos e posteriormente pedir que estes o relatassem a outros
indivíduos que nunca tinham estado em contacto com o filme. McNeill chega às mesmas
conclusões que Kendon: conversação e gesticulação4 são parte de um todo coerente. De
acordo com McNeill através da gesticulação a informação é comunicada de um modo
fundamentalmente diferente da fala: 1) gesticulação é não combinatória – dois gestos
produzidos em conjunto não se combinam para formar um maior, com significado complexo; 2)
não existe estrutura hierárquica em gesticulação, tal como existe na linguagem; 3) gesticulação
não partilha determinadas propriedades linguísticas com a linguagem. Apesar destas
diferenças, McNeill argumenta que gesticulação se relaciona intimamente com a linguagem e
que ambos são consequência de um processo unificado. Neste sentido, aponta cinco razões:
1) gesticulação ocorre apenas durante a conversação; 2) ambos estão coordenados ao nível
semântico e pragmático; 3) são síncronos; 4) desenvolvem-se em conjunto nas crianças; 5)
deterioram-se em conjunto perante a afasia.
Efron foi o primeiro a introduzir a distinção de três fases numa gesto: preparação, onde os
braços e mãos se posicionam para iniciar o gesto; execução5, onde o gesto em si é executado;
descanso, onde os braços e mãos se deslocam para uma posição neutra. McNeill estudou,
também, a sincronização entre a gesticulação e a conversação relacionando cada uma das
fases da gesticulação com as componentes estruturais da linguagem. Este tópico não é
explorado nesta pesquisa, podendo o leitor obter mais informações em [McNeill00].
5.2.1.2 Taxonomia de gestos de McNeill De acordo com Kendon, é possível distinguir quatro tipos de gestos: gesticulação; pantomima;
emblemas; língua dos sinais. [McNeill01]
4 A diferença entre gesto e gesticulação percebe-se melhor na subsecção seguinte. Entretanto, posso adiantar que existem vários tipos de gestos. Os gestos inconscientes que ocorrem na convesação denominam-se gesticulação. 5 Escolhi execução como tradução de stroke.
32
Pantomima é difícil de definir, mas geralmente significa gestos sem conversação. É um
movimento, habitualmente complexo e sequencial, que não acompanha a conversação e não
faz parte do “código” de gestos. Um exemplo simples é um dedo que executa um movimento
circulatório quando alguém pergunta “O que é um vortex?”. [McNeill01]
Emblemas são gestos culturalmente específicos no sentido que um gesto pode variar de
significado conforme a cultura. Um exemplo é o símbolo americano V de vitória, efectuado com
a palma da mão virada para o ouvinte. Contudo, um gesto de V efectuado com a palma da mão
virada para a pessoa que efectua o gesto, na Inglaterra, constitui uma ofensa. [Cassell_a]
Fig. 5.2 – Exemplo de gesto emblemático. “…sirvam [a vitela]…” diz Shrek enquanto executa o gesto emblemático
de OK. [Shrek]
Línguas de sinais consistem em linguagens de comunicação expressas através de gestos
visíveis da mão [TheFreeDictionary]. Exemplos são as linguagens utilizadas pelos surdos.
Gesticulação constitui a maioria dos gestos expressos em conversação. Estes não são
premeditados e inconscientes. Estes gestos, na sua maioria, não são acessíveis a um acesso
consciente, quer para a pessoa que os produz quer para a pessoa que escuta [Cassell_a].
Através destes gestos as pessoas demonstram visualmente os seus pensamentos íntimos e
modos de percepcionar os eventos do mundo [McNeill00]. Gesticulação, por sua vez,
subdivide-se em quatro categorias:
Gestos icónicos – demonstram através da forma do gesto alguma característica da acção
ou evento que é descrito. Um exemplo é executar o gesto de condução (agarrar o volante)
quando se diz “O Camões foi dar uma volta pela praia.”. Note-se que na expressão verbal
não é expresso o modo como o Camões se deslocou para a praia, apenas através da via
não verbal.
33
Fig. 5.3 – Exemplo de gesto icónico. “Você pode [escrever] um cheque” enquanto realiza o gesto de escrever com a
mão direita e pega num cheque imaginário com a mão esquerda. [Cassell_b]
Gestos metafóricos – são também representativos como os icónicos, contudo os
conceitos que representam são abstractos. Um exemplo é afirmar “O Camões anda a
tentar resolver aquele problema a horas…” enquanto é executado o gesto de rotação com
a mão (do tipo rodas de engrenagem a rolar) que demonstra um processo em andamento.
Este caso descrito enquadra-se nos gestos metafóricos de processo. A “objectificação” de
entidades abstractas através do gesto constitui gestos metafóricos de conduta.
Fig. 5.4 - Exemplo de um gesto metafórico. “Podia-me ajudar a obter 50 dólares?” enquanto realiza gesto habitual
de proposta (no sentido de apresentar proposta de ajuda ao interlocutor). [Cassell_b]
Deícticos – gestos que localizam no espaço físico situado em frente do narrador, aspectos
do discurso [Cassell_a]; estes podem ser entidades do discurso existentes fisicamente,
como por exemplo quando o narrador afirma “…aquela espada…” enquanto aponta para a
espada localizada fisicamente à sua frente; podem também referir-se a entidades não
físicas como por exemplo a descrição de várias opções por parte do narrador enquanto que
“as distribui” ao longo do espaço localizado à sua frente e posteriormente se refere a estas
apontando para o espaço correspondente.
34
Fig. 5.5 – Exemplo de gesto deíctico. “…vou mandar-vos para [o sitio] de onde vieram…” enquanto aponta na
direcção de onde a audiência veio. [Shrek]
Gestos de Ritmo – são pequenos gestos como que se o narrador estivesse a conduzir
com uma batuta uma orquestra, e que não adicionam conteúdo ao discurso que os
acompanha. Gestos de ritmo podem sinalizar que a informação fornecida no discurso não
avança no enredo da história, mas antes constitui uma avaliação ou comentário orientador.
[Cassell_a]
O estudo destes gestos levou McNeill a desenvolver quatro continua [McNeill01]:
O primeiro continuum define a relação dos gestos com o discurso
Gesticulação Emblemas Pantomima Língua de Sinais
Presença obrigatória
de discurso
Presença opcional de
discurso
Ausência obrigatória
de discurso
Ausência obrigatória
de discurso
O segundo continuum define a relação dos gestos com propriedades linguísticas Gesticulação Pantomima Emblemas Língua de Sinais
Ausência obrigatória
de propriedades
linguísticas
Ausência obrigatória
de propriedades
linguísticas
Algumas
propriedades
linguísticas presentes
Propriedades
linguísticas presentes
O terceiro continuum define a relação com convenções
Gesticulação Pantomima Emblemas Língua de Sinais
Não convencionada Não convencionada Parcialmente
convencionada
Totalmente
convencionada
O quarto continuum define a semiótica dos gestos. Neste, ser global refere-se ao
facto de que a determinação do significado da gesticulação procede-se de cima para baixo,
35
i.e., o significado das partes resulta da análise do significado do todo. Esta propriedade
contrasta com segmentação da linguagem verbal. Ser sintético refere-se ao facto de que uma
gesticulação concentra em uma única forma simbólica significados distintos que se expandem
ao longo da superfície da expressão verbal que acompanha.
Gesticulação Pantomima Emblemas Língua de Sinais
Global e sintético Global e analítico Segmentado e
sintético
Segmentado e
analítico
5.2.2 Agentes Conversadores Encorpados A aplicação da teoria de McNeill em sistemas informáticos tem sido liderada pelo trabalho da
Justine Cassell. Este trabalho enquadra-se na área dos Agentes Conversadores Encorpados,
cujo objectivo é desenvolver personagens sintéticas que são capazes de interagir com
utilizadores humanos, através de conversa, de modo natural. Deste modo, tem como um dos
objectivos a síntese e reconhecimento da expressão corporal, facial e vocal humana. No que
diz respeito à expressão corporal, a teoria de McNeill tem sido consistentemente adoptada.
Em 1994, é apresentado o sistema Animated Conversation desenvolvido na University of
Pennsylvania. Este sistema, baseado em regras, é capaz de gerar e animar conversas entre
múltiplos agentes do tipo humano com voz sincronizada, entoação de voz, expressões faciais e
gestos da mão. No que diz respeito aos gestos o sistema é capaz de sintetizar todos os tipos
de gesticulação e de os sincronizar correctamente com o discurso. Exemplos podem ser
encontrados nas figuras 5.3 e 5.4. [Cassell_b]
Contudo, o sistema Animated Conversation não gerava dinamicamente os gestos, no sentido
que estes eram escolhidos de uma biblioteca predefinida. Este problema levou a que conversa
entre os agentes parecesse repetitiva e artificial. A solução encontrada para o problema foi a
introdução de uma camada adicional no processo de geração dos gestos e discurso. A ideia
central, baseada na teoria de McNeill, era que o gesto e o discurso surgiam de uma fonte
comum – uma linguagem universal do pensamento. Posteriormente, a informação contida
nesta fonte era distribuída convenientemente pelos canais verbal e não verbal. Assim, o
sistema poderia afirmar por vezes que “…ele foi até lá…” enquanto executava o gesto de
correr, mas outras vezes afirmaria “…ele correu até lá…” com um simples gesto de ritmo.
[Cassell_c]
A concretização da ideia realizou-se na REA (Real Estate Agent) em 1999. Este projecto, que
ainda decorre, contudo, é mais abrangente que os anteriores e tem como objectivos não só a
síntese mas também a interpretação da expressão corporal do utilizar. Um novo aspecto
interessante introduzido neste sistema refere-se às funções comunicativas dos gestos. Estas
não adicionam conteúdo ao discurso mas regulam o fluxo da conversa – por exemplo,
determinam quando é que um interlocutor passa a palavra a outro. [Cassell_d]
36
Fig. 5.6 – REA a apresentar uma sala de estar ao utilizador. [REA]
Actualmente, pode-se considerar que foi obtido um relativo sucesso na construção de Agentes
Conversadores Encorpados. Relativamente aos passos que se seguem, [Zhao] sugere a
integração de emoções nestes agentes. Para o efeito sugere a aplicação dos parâmetros de
esforço e forma da teoria de análise de movimento de Laban (AML) à expressão corporal dos
agentes. Este tópico é extensamente explorado na Secção 5.4.
5.3 Expressão Corporal Emocional Observe-se com atenção a expressão corporal apresentada na figura 5.8 por Woody, uma das
personagens no filme Toy Story 2 da Disney ([ToyStory2]). O que vê o leitor?
Fig. 5.7 – Woody é posto na prateleira em Toy Story 2 [ToyStory2]. Woody, que é um brinquedo, sofre um rasgão
no seu braço direito e o seu dono deixa-o na prateleira em vez de o levar consigo para uma viagem que ia
realizar.
A figura transmite, de uma forma quase que indescritível por palavras, um sentimento de
tristeza em Woody. O corpo inclinado, a cabeça baixa, os olhos desolados, a fraca iluminação
37
da cena, o aspecto desgastado da prateleira e objectos, tudo se conjuga na cena com um
único objectivo – suspender a descrença do espectador, transparecendo o pensamento,
emoção e personalidade da personagem. O que existe na expressão corporal de Woody que
difere de todo o estudo efectuado até ao momento? Qual é o segredo dos animadores?
Observe-se agora a Fig. 5.8 relativa a uma cena do musical The Phantom of the Opera.
Fig. 5.8 – A cena “The music of the night” do musical “The Phantom of the Opera” [PhantomOfTheOpera]. Nesta
cena, o Fantasma da Opera canta para a sua amada e aprendiz a sua “música da noite” (O Fantasma “é o
dono da música que é tocada no teatro em questão”).
Consegue o leitor notar a diferença entre a expressão do Fantasma da Opera relativamente a
toda a expressão corporal até ao momento abordada? O que nos oferece a Expressão
Dramática que não encontramos, actualmente, em qualquer teoria das Ciências Humanas?
O progresso científico na compreensão do Ser Humano é indiscutível. Temos hoje teorias das
Ciências Humanas que nos explicam, pelo menos parcialmente, o nosso comportamento
afectivo, a relação entre a sociedade e a expressão do Homem, a relação entre gestos e
linguagem, a fisionomia a nível cerebral das emoções, a relação entre emoção e a razão.
Olhamos, contudo, para exemplos como aos apresentados e compreendemos as limitações da
Ciência. Na Arte reconhecemos estas limitações.
Se o nosso objectivo é conceber Agentes com Emoções realmente credíveis, então é
necessário compreender melhor e explorar o que a Arte tem para nos oferecer. O nome
expressão corporal emocional foi escolhifo para referir-se a este tipo de expressão,
exemplificado nas figuras anteriores, que tendendo a involuntários, surge como consequência
do estado afectivo interno de cada indivíduo. Até ao momento, não existem modelos concretos
das Ciências Humanas para este tipo de expressão. Note-se que esta expressão difere
fundamentalmente do tipo de gestos estudado por McNeill, que surge como consequência do
pensamento e assume um papel comunicativo. Esta expressão é aquele que se encontra
perfeitamente representada, por exemplo, nos filmes de animação da Disney.
38
Deste modo, esta Secção propõe-se a explorar a expressão corporal emocional. Dois domínios
são abordados: na Subsecção 5.4.1, a área da animação; na Subsecção 5.4.2, por sua vez, a
expressão dramática. Para concluir, na Subsecção 5.3.3, o Projecto de Oz, que procurou
utilizar muitas das técnicas aqui mencionadas, é apresentado.
5.3.1 Expressão na animação Em [Porter] Tom Porter, director técnico da Pixar Studios, fala sobre a criação de personagens
credíveis no seu estúdio. Este artigo ilustra algumas das limitações actuais da Ciência no
desenvolvimento de personagens sintéticas.
Segundo [Porter], é certo que técnicas de computação gráfica, como melhores modelos das
personagens, das roupas, de cenários com mais texturas e superfícies elaboradas contribuem
para a criação de histórias, cenários e personagens mais credíveis. Contudo, afirmar que o
sucesso dos filmes e personagens da Pixar se devem exclusivamente a maior poder de
processamento, memória e largura de banda é erróneo. Os artistas e as tecnologias que estes
utilizam têm de ser cuidadosamente guiadas de modo a conformar com a visão do director do
filme. A essência dos filmes são as personagens credíveis, credibilidade atribuída primeiro ao
controlo criativo (a dimensão artística), que ao poder técnico (a dimensão científica).
De acordo com [Porter], não existe nada de novo, no que diz respeito à criação de
personagens credíveis, que a Walt Disney Studios não esteja a fazer a décadas. Computação
Gráfica, de acordo com Porter, fornece bons mecanismos para a representação de movimento
nas personagens. Contudo, o que é necessário transparecer ao público é a mente das
personagens (veja-se a figuraFig. 5.9).
Fig. 5.9 – Woody descobre que é uma importante peça de colecção. Nesta cena Woody descobre que pode atingir
a imortalidade num museu como uma peça importante de colecção. Este objectivo é contraditório com o de
39
continuar a ser o brinquedo favorito do seu dono. De modo a transparecer na cena a miríade de sentimentos
contraditórios que Woody sente os animadores tem de “entrar” na mente da personagem.
[Porter] vai ainda mais longe e diz que se o objectivo é oferecer personagens realmente
credíveis, então por vezes é necessário prescindir de parte do realismo da cena para conferir
mais carga dramática à cena. Existem uma série de “truques” que podem ser utilizados que
descrevo de seguida.
5.3.1.1 Princípios de animação [Lassater] apresenta 11 princípios de animação que têm sido utilizados nos estúdios da Disney
desde 1930 para criar personagens mais credíveis:
Espalmar e esticar – Não importa o quão deformável um objecto seja, este deve manter
aproximadamente o seu volume.
Timing – A velocidade de execução da acção, i.e., o timing, confere significado físico e
emocional ao movimento. O animador deve despender tempo suficiente na antecipação da
acção, na acção e na reacção à acção. Se muito tempo for dispendido o espectador pode
distrair-se, se pouco tempo for dispendido o espectador pode não assimilar a acção.
Antecipação – A antecipação antecede uma acção. Antecipação pode ser uma
preparação anatómica para a acção. Uma antecipação correctamente elaborada permite
ao espectador compreender acções que sucedem muito rapidamente.
Encenação – Encenação consiste em transmitir uma ideia de modo claro. A ideia pode ser
uma acção, uma personagem ou o ambiente da cena. A implementação deste princípio
consiste em conduzir a atenção do espectador de modo a que esta não perca nada.
Continuação e sobreposição de acções – Continuação de acção refere-se à parte
terminal da acção. Quando uma personagem atira uma bola, o seu braço continua na
direcção desta. Sobreposição de acções significa iniciar um movimento secundário antes
do primário concluir. Deste modo não existem tempos mortos nas transições entre acções.
Acção contínua e baseada em poses – Acção contínua ocorre quando um animador
desenha a primeira frame e continua, sucessivamente, até à última frame. Acção baseada
em frames ocorre quando o animador desenha a primeira, a última e algumas intermédias.
A geração das restantes frames pode ser feita posteriormente por outros animadores ou
automaticamente no computador.
Entrada e saída lentas – Este princípio refere-se ao espaçamento entre as frames
intermédias nas posições extremas. Em vez de utilizar uma velocidade constante, por
vezes é mais realista utilizar velocidades que variam em posições extremas.
Arcos – A maior parte do movimento descrito pelos objectos é não linear. Este movimento
deve ser realista.
Exagero – Consiste em exagerar a expressão corporal das personagens de modo a
conferir uma ideia ao espectador.
40
Acção secundária – Acção secundária consiste em acções que suportam ou
acompanham a primária. Estas podem não ser fundamentais para o desenrolar da história,
mas a sua ausência diminui o realismo da cena. Um exemplo é o movimento das antenas
de uma formiga quando esta se desloca.
Personagens apelativas – As personagens devem apelar à audiência de algum modo.
Estas não tem necessariamente de ser giras, contudo devem ser providas de aspectos de
interesse.
5.3.2 Expressão Dramática O artigo de [Johnson] é representativo do potencial que a arte pode ter na área dos Agentes
com Emoções. Neste artigo Johnson, também um cantor amador de ópera, explora, com base
na sua experiência pessoal, o potencial que as técnicas de expressão dramática utilizadas na
ópera podem ter em Agentes Conversadores Encorpados.
[Johnson] reconhece o valor de se retirar conhecimento das técnicas de animação. Contudo,
afirma que a transição para a área dos agentes não é linear dado estes irão funcionar,
potencialmente, em diferentes tipos de aparelhos. Afirma, também, que a técnica de captura de
movimentos de actores poderá não ser facilmente extensível para contextos que não aqueles
para os quais a actuação foi directamente realizada.
No seu artigo Jonhson apresenta as seguintes lições:
Estrutura dramática – Grandes peças de ópera definem uma estrutura dramática que
ajuda a envolver a audiência. Habitualmente o triângulo de Freytag estrutura a acção
principal da peça. A figura Fig. 5.10 exemplifica um arco dramático. A aplicação desta
técnica poderá servir para organizar a narrativa de uma determinada aplicação que envolva
agentes, onde o utilizador controla determinada personagem. O objectivo é que,
independentemente das acções do utilizador, a narrativa deve seguir uma estrutura
dramática adequada;
Fig. 5.10 – Um exemplo de arco dramático.
Desenvolvimento de personalidade – Em adição ao arco dramático geral da história de
uma ópera normalmente são desenvolvidos também arcos de desenvolvimentos das
personalidades dos personagens. Os traços de personalidade de uma personagem devem
41
ser claramente expostos de modo a que a audiência perceba as suas acções.
Adicionalmente, quando estes traços evoluem, em função de eventos externos, as
alterações tem de ser feitas de modo claro para que a audiência perceba a evolução da
personagem. Para estender este mecanismo a agentes com emoções é necessário
fornecer-lhes traços de personalidade consistentes e mecanismos de evolução de
personalidade. Actualmente, tem-se observado bastante progresso na definição dos traços
de personalidade de agentes, embora a evolução destes exija ainda mais investigação;
Expressão verbal – Naturalmente, na ópera a expressão vocal é fundamental. Existe uma
série de propriedades de sons que podem ser manipuladas pelos actores para transmitir
emoções diferentes com as expressões verbais. Deste modo, sintetizadores de voz
utilizados por agentes devem ter a flexibilidade suficiente para a transmissão da emoção
correcta com as expressões verbais. Este tópico será explorado em detalhe no Capítulo 8;
Gestos dramáticos – Nas óperas, os gestos complementam a voz na definição da
personalidade das personagens, tornando as intenções claras, e estendem a actuação em
períodos de silêncio quando os outros actores cantam. A expressão gestual tem de
funcionar dentro de constrangimentos impostos pela música que acompanha o desenrolar
da peça. Os gestos acompanham a emoção subjacente da cena, e assim deve também ser
para a expressão gestual de agentes com emoções. Esta é uma das desvantagens na
utilização de gestos gravados obtidos por captura de imagem de actores. Os gestos devem
adaptar-se ao modelo interno emocional do sistema e não ser obtidos de “dicionários”;
Dar e receber – Uma peça de ópera envolve várias personagens e a acção conjunta
destas pode-se tornar confusa para a audiência. Os actores devem, por isso, saber “dar” a
atenção às personagens centrais da cena através da sua expressão corporal. Saber
“receber” o foco também é importante. Um actor deve antecipar a recepção estabelecendo
contacto visual com a personagem que dá o foco. Em ambientes com vários agentes com
emoções, em que um inclusive por representar o utilizador, há que ter considerações
semelhantes de modo a não confundir o utilizador.
Para concluir [Jonhson] salienta a importância de ter em conta a perspectiva da audiência. Na
ópera existem vários truques que os actores realizam de modo a tornar a acção visível à
audiência. Por exemplo, a orientação do corpo dos actores pode ser orientada em direcção à
audiência ou os gestos dos actores mais distantes podem ser exagerados para se tornarem
visíveis. Aplicações com agentes podem, potencialmente, funcionar em aparelhos com ecrãs
pequenos, neste caso a técnica do exagero dos gestos poderá também ser utilizada.
5.3.3 O Projecto Oz
42
O Projecto Oz, desenvolvido na Carnegie Mellon University, é um sistema computacional que
permite aos utilizadores interacção dramática em micro-mundos habitados por agentes
competentes e emocionais. Um mundo de Oz é composto por: (1) um mundo físico simulado;
(2) os agentes que habitam o ambiente; (3) uma interface para o utilizador e a teoria de
apresentação associada; (4) uma teoria de drama que controla e planeia suavemente o
desenrolar da história no mundo. [Reilly]
Existem três focos de investigação no Projecto Oz: personagens, apresentação e drama. A
área da apresentação relaciona-se com a interface do mundo para o utilizador e não será
explorada nesta pesquisa.
Relativamente às personagens, a intenção do projecto era que estas fossem credíveis, no
sentido de credibilidade explorado na Subsecção 5.4.1. [Mateas] faz um esforço para distinguir
os agentes credíveis dos mundos de Oz dos agentes segundo as abordagens de IA Clássica e
IA Comportamental. Salienta o contraste do foco na competência por parte dos agentes de IA,
com o foco na personalidade dos agentes de Oz. Estúpido ou inteligente o agente têm é de
apresentar uma personagem consistente. Salienta também que a medida de sucesso em
sistemas do género é determinado pela percepção da audiência, em contraste com as medidas
quantitativas de IA (por exemplo, quantos problemas resolve). Salienta, por fim, que agentes
com personalidade relacionam-se com especificidade, em contraste com a generalidade dos
agentes de IA.
Segundo [Mateas], focar o específico relaciona-se com o objectivo do sistema de servir de
suporte à criação artística de personagens. A ideia não é fornecer um conjunto de parâmetros
cuja atribuição de valores define univocamente a personalidade do agente, mas fornecer uma
espécie de tela e pincel de pintura ao autor.
Relativamente ao conceito de drama interactivo, muitos observaram que o conceito em si
parece contraditório. Um drama segue um arco dramático onde existe exposição, incidente,
tensão crescente, clímax, e retorno a um estado de equilíbrio. A figura 5.10 acima exemplifica
um arco dramático. Interactividade, contudo, tem a ver com controlo absoluto do utilizador, tem
a ver com uma história aparentemente sem estrutura interna. Daí uma contradição. Para
resolver o problema, o sistema Oz introduz o conceito de Gestor Dramático que controla a
história ao nível de “pontos da trama”. Estes definem pontos relevantes na evolução da história.
A permutação destes constitui o espaço das histórias. A interacção do utilizador com o sistema
é que acaba por determinar qual das permutações é que acaba por ocorrer. [Mateas]
5.3.3.1 Resultados obtidos Foram desenvolvidos várias aplicações no contexto do Projecto Oz. O sub-projecto que
menciono nesta Subsecção é o Edge of Intention que é mais relevante para a pesquisa em
43
questão. O Edge of Intention é uma peça de arte animada. O seu objectivo é demonstrar o
conceito de personagens credíveis. Este mundo não possui uma história subjacente. As
personagens, neste caso, são os Woogles. Os Woogles têm personalidade, demonstram
emoções, participam em comportamento social e reagem ao ambiente dinâmico. Comunicam
através de rotações e actos de espalmar e movem-se aos saltos. O interessante destas
personagens é que mesmo sendo semelhantes a berlindes conseguem expressar-se de um
modo bastante autêntico. [OzWorlds]
Fig. 5.11 – Os Woogles.
5.4 Qualidades de Movimento Qualidades de Movimento (QM) são essencialmente modificadores de movimento. Por
exemplo, a velocidade de movimento pode ser vista como uma QM. Um mesmo gesto
efectuado com diferentes valores de uma QM pode expressar coisas totalmente diferentes.
É com base na ideia de Qualidades de Movimento que o Center for Human Modeling &
Simulation da University of Pennsylvania desenvolve o EMOTE. Este sistema sintetiza e
analisa gestos com base nas componentes de Esforço e Forma da teoria de Análise de
Movimentos de Laban (AML), que é uma teoria que permite o estudo analítico do movimento
humano e tem origem na dança. Este trabalho introduziu uma série de ideias interessantes cuja
aplicação aos Agentes com Emoções poderá ser muito benéfica. A Subsecção 5.4.1 explora a
AML e a Subsecção 5.4.2 explora superficialmente o EMOTE.
5.4.1 Análise de Movimentos de Laban Análise de Movimentos de Laban (AML) é consequência do trabalho de Rudolf Laban (1879-
1958). Laban era dançarino, coreógrafo e teórico do movimento. As suas contribuições para o
campo da dança foram vastas. Com o intuito de elevar a dança ao mesmo estatuto cultural que
a música, desenvolveu um sistema denominado Labanotação que descreve uma coreografia
de dança do mesmo modo que uma pauta de notas musicais descreve uma composição
44
musical. Adicionalmente, desenvolve a AML que posteriormente viria a ser aperfeiçoada pelos
seus discípulos. [Sandlos]
A AML é um método para observar, descrever, anotar e interpretar o movimento humano com o
propósito de aperfeiçoar a consciência, eficiência e facilidade do movimento e melhorar a
comunicação e expressão no quotidiano. A AML foi já aplicada a diversas áreas como teatro,
coreografia, psicologia, ergonomia, antropologia, terapia física e clínica, entre outros.
Tendo em conta as relações entre gestos e emoção, gestos e discurso, gesto e pensamento,
[Zhao] defende que os princípios desta teoria podem ser utilizados para a síntese e aquisição
de gestos.
A AML é constituída por cinco componentes que em conjunto constituem uma linguagem
textual e simbólica para descrever o movimento humano:
Corpo – lida com as partes do corpo que se movem, onde o movimento se inicia e como
se propaga o movimento pelo corpo;
Espaço – estuda a integração do movimento no espaço circundante e baseia-se em
padrões espaciais, caminhos e linhas de tensão espacial;
Forma – descreve as várias formas que o corpo realiza no espaço; Esforço – envolve as qualidades dinâmicas do movimento; Relacionamento – descreve modos de relacionamento consigo próprio, com os outros e
com o ambiente circundante. [Zhao]
Mais informação sobre esta teoria pode ser encontrada no cap.3 de [Zhao] ou em [Sandlos].
5.4.2 EMOTE O EMOTE (Expressive MOTion Engine) é um sistema que parametriza e modula a execução
de movimentos humanos. Baseia-se nos elementos de Forma e Esforço da teoria AML.
EMOTE não é uma biblioteca de acções, mas antes um software que permite modificar a
execução de movimentos através dos parâmetros de modelam as Qualidades de Movimento. O
EMOTE consegue controlar um grande conjunto de movimentos com base num número
relativamente pequeno de parâmetros. [EMOTE]
Este projecto não se concentra, contudo, apenas na síntese de gestos com base em
parâmetros fornecidos, mas também na aquisição dos próprios parâmetros de Esforço e Forma
a partir de filmagens gravadas ou em tempo real. [EMOTE]
45
Fig. 5.12 – O EMOTE modifica gestos com base nos parâmetros de Esforço e Forma da AML. À esquerda um
exemplo de síntese de gestos parametrizados e à direita um exemplo de captura dos parâmetros com base em
filmagens em tempo real.
O EMOTE surge posteriormente após os primeiros trabalhos de síntese de gestos de Cassell
baseados na teoria de McNeill. De acordo com [Badler01], o EMOTE pode ser visto como uma
extensão à aproximação de McNeill/Cassell: gestos de qualquer tipo existem não só porque
possuem movimentos subjacentes, mas porque possuem alguma distinção nos seus
parâmetros de Esforço e Forma.
Em [EMOTE] o leitor poderá encontrar informação mais detalhada sobre este sistema, tal como
um conjunto de vídeos que exemplificam como é que os parâmetros de Esforço e Forma
podem afectar a mensagem transmitida pelos gestos.
46
6 EXPRESSÃO FACIAL 6 figura
Este Capítulo explora técnicas para codificação, interpretação e animação de expressões
faciais. Na Secção 6.1 são explorados modelos utilizados na psicologia para a codificação e
interpretação das expressões faciais. O interesse para os Agentes com Emoções dos modelos
da psicologia reside nos seguintes aspectos:
Avaliar a expressividade dos modelos computacionais utilizados para a animação facial, i.e., verificar se conseguem, pelo menos, descrever todas as expressões utilizadas
pelos psicólogos;
Perceber a relação entre expressões faciais e emoções;
Retirar inspiração para a concepção de modelos computacionais de animação facial.
Na Secção 6.2 o foco é nos modelos da Ciência da Computação. É explorado,
superficialmente, a área da animação facial e a norma MPEG-4 que permite a transmissão de
informação de síntese de expressões faciais em redes de baixa largura de banda.
6.1 Modelos da Psicologia Facial Action Coding System (FACS) é um método para descrever movimento baseado numa
análise anatómica da acção facial. Este método, na área da Psicologia, constitui uma norma de
facto na codificação de movimento facial. A Subsecção 6.1.1 descreve, então, o FACS.
Do ponto de vista de Agentes com Emoções, o interesse não reside no FACS em si mas, nas
teorias de expressão facial – teorias que descrevem a emoção, ou informação em geral,
associada a cada expressão facial – que se podem construir em cima do FACS. Até ao
momento, não existe uma teoria consensual construída sobre o FACS. Aliás, como vimos atrás,
a investigação ainda se debate com várias questões relativas à essência da emoção em si.
Contudo, na Subsecção 6.1.2 é apresentado o FACSAID que constitui uma espécie de
“dicionário emocional” construído sobre o FACS pelos criadores do FACS e respectivos alunos.
Do ponto de vista da animação das expressões faciais, naturalmente o FACS poderá ter
imenso interesse. Existem, contudo, imensas outras técnicas de animação facial como se verá
na Secção 6.2.
6.1.1 Facial Action Coding System (FACS) Esta Subsecção é baseada em [FACSInvestigatorGuide], exceptuando nos parágrafos
explicitamente assinalados com outra referência.
O FACS foi desenvolvido por Paul Ekman, Wallace V.Friesen e Joseph C.Hager. O objectivo
primordial do FACS é o desenvolvimento de um sistema compreensivo capaz de distinguir
47
todos os movimentos faciais visualmente distinguíveis. Deste modo, o FACS tanto permite a
descrição de expressões faciais associadas a emoções, como todas as outras.
O FACS só lida com os aspectos visíveis da face, ignorando as alterações invisíveis e
rejeitando alterações demasiado subtis para identificação fiável. Esta decisão, de acordo com
os autores, apresenta, pelo menos, duas vantagens:
A avaliação não requer leitura de electromiografia, nem sempre acessível
Possibilita a avaliação das expressões faciais sem o conhecimento do indivíduo sob
análise. Os autores acreditam que a consciência da avaliação poderá afectar os resultados
obtidos.
O FACS lida apenas com movimento ignorando com outros fenómenos visíveis. Deste modo, o
FACS exclui alterações no tônus muscular que não resultam em movimento. Alterações na
coloração da face, suor, lágrimas, etc., são excluídas pelo FACS.
O FACS foi concebido para avaliação por um utilizador humano e não uma máquina. Deste
modo está limitado aos movimentos que os humanos conseguem distinguir. O FACS baseia-se
na avaliação segundo unidades mínimas de comportamento e não numa hipotética lista
exaustiva de todas as expressões faciais existentes. Esta opção prende-se com o elevado
número de expressões faciais existentes. Uma das principais características do FACS é que
avalia a expressão facial em si, e não a informação que, segundo o observador, é transmitida
pela expressão. Deste modo, as avaliações no FACS são independentes da interpretação das
expressões. Deste modo, o FACS constitui uma boa opção para registar evidências que
poderão ser posteriormente sujeitas a interpretações.
O FACS foi desenvolvido a partir de uma base anatómica do movimento facial. Deste modo, o
FACS supera problemas resultantes de variações fisionómicas dos indivíduos. A base
muscular é idêntica a todos os Humanos.
O FACS descreve toda a actividade visualmente distinguível da face com base em 44
Unidades de Acção (UAs), tal como em várias categorias das posições e movimento dos olhos
e cabeça. Cada UA tem um código numérico. A Fig. 6.1 e a Fig. 6.2 apresentam a lista das
UAs codificadas no FACS, tal como os grupos musculares envolvidos em cada acção.
[FACSTables]
Note-se que as medições foram denominadas Unidades de Acção e não Unidades Musculares.
Isto acontece porque existem UAs que correspondem a mais do que um músculo e existem
músculos aos quais estão associados mais do que uma UA. Estas particularidades da
associação entre UAs e músculos podem ser observadas na Fig. 6.1.
48
Posteriormente, foram ainda estudadas combinações de 2, 3 e 4 UAs. Algumas destas
combinações não eram simplesmente aditivas e foram adicionadas ao FACS. Foram também
desenvolvidas relações de dominância, substituição e a alternativas entre UAs.
O processo de avaliação no FACS corresponde a quatro passos:
1. Determinar que UAs são responsáveis pelo movimento observado.
2. Atribuir a intensidade a 5 das 44 UAs disponíveis. Apenas foram definidas intensidades
a 5 UAs dado que, segundo os autores, nessas, intensidades diferentes poderiam conduzir
a observações diferentes. A intensidade pode ser: baixa, média ou alta.
3. Determinar se cada UA ocorre em um ou ambos os lados da cara.
4. Classificar a posição da cabeça e dos olhos durante a expressão facial.
Uma questão fundamental relaciona-se com a fiabilidade do FACS, i.e., a concordância de
pessoas independentes nas avaliações das mesmas expressões faciais. Esta questão
subdivide-se em vários aspectos e é, ainda, alvo de investigação. Contudo, os resultados
existentes apontam para uma boa fiabilidade do FACS.
Fig. 6.1 - Unidades de Acção de granularidade fina no FACS. [FACSTabless]
49
Fig. 6.2 - Unidades de Acção de maior granularidade do FACS. [FACSTables]
6.1.2 FACSAID Facial Action Coding System Affect Interpretation Dictionary (FACSAID) tem origem no trabalho
de Ekman e Friesen na década de 1980. O seu objectivo é associar expressões faciais às suas
interpretações psicológicas. A informação do FACSAID, inserida por peritos, é armazenada
numa base de dados. Actualmente, as expressões faciais armazenadas são descritas apenas
com base nas avaliações no FACS, e as interpretações relacionam-se apenas com os
significados emocionais, ignorando outros aspectos psicológicos. O sistema é descrito como
um dicionário porque o utilizador pode procurar o significado de determinada expressão facial
ou, contrariamente, procurar as expressões faciais associadas a determinada emoção.
[FACSAID]
6.2 Modelos da Ciência da Computação 6.2.1 Animação facial Esta Secção apresenta o estado-da-arte na área da animação facial. Independentemente dos
modelos que relacionam expressões faciais e emoções, a credibilidade de um Agente com
Emoções passa pela qualidade gráfica das suas expressões faciais.
Noh em [Noh] apresenta uma descrição do estado-da-arte da área da animação facial até
1998. Esta Secção é exclusivamente baseada neste artigo.
50
O objectivo primordial da área da investigação na modelação e animação de expressões faciais
é: 1) criação de animação realista; 2) operação em tempo real; 3) automatização; 4) adaptação
fácil a caras individuais.
Investigação na modelação e animação facial recai sobre duas categorias principais, aquela
baseada em manipulação geométrica e aquela baseada em manipulação de imagem. A Fig.
6.3 apresenta uma taxonomia da investigação na área da Animação Facial. Cada uma das
técnicas da taxonomia é explorada (muito) superficialmente de seguida.
6.2.1.1 Interpolações Tipicamente, uma função de interpolação especifica uma transição suave entre duas frames
chave em posições extremas, sobre um intervalo de tempo normalizado. Interpolação linear é
habitualmente utilizada, contudo interpolação utilizando co-seno (ou variações) podem
introduzir efeitos de aceleração e desaceleração no início e fim da animação.
6.2.1.2 Parametrizações Técnicas de parametrização superam algumas das limitações das restrições das interpolações
simples. Parametrizações ideais especificam qualquer face e expressão através de uma
combinação de parâmetros independentes. Contrariamente às interpolações, parametrizações
permitem o controlo explícito de configurações faciais específicas.
Contudo, animações muito pouco realistas podem surgir quando se tenta misturar expressões
com base em parâmetros conflituosos que afectam os mesmos vértices. Deste modo,
parametrizações costuma ser utilizadas apenas para afectar zonas faciais específicas, contudo
isto introduz limitações de movimento observáveis. Adicionalmente, o conjunto de parâmetros a
utilizar depende da malha utilizada, tornando, assim, impossível a existência de um conjunto
genérico de parâmetros.
6.2.1.3 Transformação 2D e 3D6 Esta técnica efectua uma metamorfose entre duas imagens ou modelos com base em pontos
seleccionados correspondentes em cada uma das imagens ou modelos. Os métodos de
transformação 2D e 3D podem produzir expressões faciais realistas, mas partilham as mesmas
limitações que as técnicas de interpolação. A selecção de pontos nas imagens é manualmente
intensa, dependente do ponto de vista e não generalizável a faces diferentes.
6 Tradução do inglês “2D and 3D morphing”.
51
Fig. 6.3 - Taxonomia da investigação na área da Animação Facial.
Fig. 6.4 - Interpolação linear.
6.2.1.4 Modelação muscular baseada na Física Habitualmente, estas técnicas baseiam-se no FACS. Modelação muscular baseada na Física
descreve matematicamente as propriedades e comportamento da pele, ossos e sistemas
musculares. As técnicas recaem em três categorias: mass spring systems, representações
vectoriais, e layered spring meshes. Métodos mass spring propagam as forças musculares
numa malha de molas elásticas que modelam a deformação da pele. As representações
vectoriais deformam a malha facial usando campos de movimento em regiões de influência
delineada. As técnicas de layered spring mesh estendem a estrutura de malha de molas
elásticas em três camadas de malhas ligadas, modelando a anatomia facial com maior rigor.
52
6.2.1.5 Músculos simulados Modelos de músculos simulados simulam a dinâmica do tecido humano através de heurísticas
de deformação geométrica. Em contraste com a técnica de modelação muscular baseada em
física, a anatomia humana subjacente não é modelada.
6.2.1.6 Rugas Rugas conferem realismo às expressões faciais. Ajudam no reconhecimento da expressão, tal
como na percepção da idade da personagem. Existem dois tipos de rugas: as temporárias, que
surgem por períodos curtos de tempo; e permanentes que se formam ao longo do tempo e
persistem. Simulação de músculos e parametrizações não constituem boas técnicas para
modelação de rugas, dado que estas técnicas têm o intuito de produzir deformações suaves.
Habitualmente utilizam-se técnicas próprias para o efeito.
6.2.1.7 Expressões vasculares Modelação realista da face envolve, para além da deformação da face, alterações da cor da
pele conforme o estado emocional da pessoa. Não existe muita investigação nesta área,
contudo, alguns modelos computacionais que relacionam emoção com a cor da pele já foram
apresentados.
6.2.1.8 Manipulação de texturas A utilização de texturas, em vez de técnicas de sombreamento, permitem modelar variações
complexas na superfície facial ao nível do pixel, conferindo deste modo mais realismo à face.
Foram desenvolvidas várias técnicas que exploram as texturas para conferir realismo às faces.
6.2.1.9 Modelação de faces individuais Um problema importante da Animação Facial é a modelação tridimensional da face de uma
pessoa específica. Os modelos faciais obtidos através de scanners tridimensionais não são
adequados para animação por vários motivos: falta informação sobre as estruturas faciais;
ruído é introduzido; modelos por vezes são incompletos faltando-lhes olhos, cabelo, etc.
Uma aproximação para modelar faces individuais é criar, arduamente, uma malhar poligonal
genérica que contenha a informação estrutural necessária. Este modelo genérico é
posteriormente deformado de modo a representar a face de um indivíduo em particular.
Existem várias técnicas para proceder a esta deformação. Veja um exemplo na figura 6.5.
6.2.1.10 Animação usando captura de imagem As dificuldades na obtenção de expressões faciais credíveis levaram à utilização de técnicas
de captura de imagem para obtenção de animação controlada por actores.
53
6.2.1.11 Animação da boca De entre as várias regiões da face, a boca é a mais complicada em termos de estrutura
anatómica e deformações possíveis. A sua complexidade levou à consideração da sua
modelação independente do resto da face. Muitas das ideias de base na modelação da boca
surgem como variações optimizadas das técnicas genéricas de modelação da face.
Fig. 6.5 - Construção do modelo de uma face individual a partir de um modelo genérico e de uma malha obtida
através de um scanner a laser.
6.2.2 MPEG-4 O MPEG-4 é a primeira norma internacional que normaliza comunicação multimédia em toda a
sua dimensão – inclui áudio sintético e natural, vídeo sintético e natural, tal como gráficos 3D.
Integrado na sua norma está a possibilidade de definir e animar humanos virtuais consistindo
de corpos e cabeças sintéticas. Numa aplicação de comunicação, o codificador pode definir o
modelo facial utilizando o formato MPEG-4 Binary Format for Scenes (BIFS) e transmiti-lo ao
descodificador. Alternativamente, o descodificador poderá utilizar um modelo facial residente.
[Ostermann]
No contexto desta pesquisa, o interesse da norma MPEG-4 reside no seu potencial como
codificador de expressões faciais. Do meu conhecimento, ainda não existe uma teoria, válida
do ponto de vista psicológico, que relacione expressões faciais com emoções construída sobre
a norma. Essa teoria seria conveniente para o desenvolvimento de Agentes com Emoções.
54
Contudo, em termos práticos, verifica-se que em conjunto com o FACS, a norma MPEG-4
constitui uma das opções mais populares para codificação de expressões faciais nos esforços
mais recentes da investigação e será, por isso, explorada nesta Subsecção.
O resto da Subsecção é baseado em [Ostermann].
MPEG-4 define um conjunto de parâmetros faciais de animação (FAPs7), cada um
correspondente a uma acção facial que deforma um modelo facial no seu estado neutro. O
valor FAP indica, para a FAP particular, a magnitude da acção correspondente, i.e., se, por
exemplo, o sorriso é grande ou pequeno. Para que o renderizador interprete os valores FAP
usando o seu modelo facial, devem ser modeladas regras específicas de animação que
produzam as acções faciais correspondentes a cada FAP. Como as FAPs tem de animar faces
de dimensões variáveis, os valores FAP estão definidos em unidades de parâmetros de
animação facial (FAPU8s). As FAPU são definidas como fracções de distâncias entre pontos-
chave da face. Veja-se a Fig. 6.6.
Fig. 6.6 - FAPUs. Exemplo de FAPUs são a separação dos olhos, separação nariz-olhos, separação boca-nariz, etc.
Todas as FAPUs são definidas na face neutra.
De modo a definir parâmetros de animação facial para modelos faciais arbitrários a norma
especifica 84 pontos característicos9 localizados na face de acordo com a Fig. 6.7. Os pontos
característicos forma agrupamentos como as bochechas, olhos e boca (Fig. 6.8).
As FAPs baseiam-se no estudo de acções minimamente perceptíveis e estão intimamente
relacionadas com a acção muscular. Os 68 parâmetros estão categorizados em 10 grupos
relacionados com as partes da face (figura 6.8). FAPs representam o conjunto completo de
acções faciais básicas. Podem também ser utilizadas para definir Unidades de Acção do
FACS. Valores exagerados das FAPs permitem ter comportamento do tipo bonecos animados.
7 Do inglês “Facial Animation Parameters”. 8 Do inglês “Face Animation Parameter Units”. 9 Do inglês “Feature Points”.
55
Fig. 6.7 - Pontos característicos definidos pela MPEG-4.
Fig. 6.8 - Agrupamentos de FAPs.
O primeiro dos agrupamentos de FAPs é de alto nível e permite representar visemas e
expressões faciais. Visemas são os equivalentes visuais de fonemas. Apenas 14 visemas
claramente distinguíveis fazem parte do conjunto de base. O parâmetro de expressão define 6
56
expressões faciais de alto nível, correspondo às 6 emoções que se supõe serem as básicas –
alegria, tristeza, surpresa, raiva, nojo e medo (veja Secção 1.2.2).
6.2.2.1 Uma aplicação da norma - Greta Greta, desenvolvido por Pasquariello e Pelachaud, é o núcleo de um descodificador MPEG-4
capaz de gerar a estrutura de um modelo tridimensional e de o animar em tempo real. Na
realidade, o descodificador é compatível com o “Simple Facial Animation Object Profile” da
MPEG-4. [Pasquariello]
Fig. 6.9 - O modelo tridimensional da Greta.
Este projecto teve, também, bastante interesse do ponto de vista da Animação Facial na
medida que utilizou várias das técnicas mencionas na Secção 6.2, nomeadamente: músculos
simulados; e rugas. [Pasquariello]
57
7 EXPRESSÃO VOCAL 7 figuras
A investigação na expressão vocal pode ser dividida em duas áreas:
Fundamentos da expressão vocal, a que corresponde o trabalho das Ciências Humanas
(psicologia, investigação acústica e linguística). A Secção 7.1 explora, então, o que se sabe
actualmente acerca da relação entre emoção e voz. A questão da universalidade da
expressão vocal, que também é importante para o desenvolvimento de Agentes com
Emoções, foi já explorada na Secção 1.2.4;
Síntese da expressão vocal, a que corresponde a área a que se poderia denominar
Síntese de Expressão Vocal que se enquadra na Síntese de Voz. Nesta, o objectivo é
conceber sistemas computacionais capazes de sintetizar expressão vocal. Este tópico é
explorado na Secção 7.2;
7.1 Fundamentos da Expressão Vocal Esta Secção, à excepção de parágrafos devidamente assinalados, é baseada em [Cahn].
Na Subsecção 7.1.1 são definidos vários termos relevantes na área. De seguida, na
Subsecção 7.1.2 é explorada, então, a relação entre voz e emoção.
7.1.1 Termos Fonemas são os sons básicos da linguagem a partir dos quais todas as palavras são
construídas. Frequência fundamental da fala, ou F0, é a frequência a que as cordas vocais
vibram. O pitch da voz percepcionado refere-se a esta frequência. Às harmónicas enfatizadas
num fonema denominam-se formantes do fonema. A formante situada acima da F0 denomina-
se F1 e assim sucessivamente. Apenas são necessárias as formantes de F1 a F5 para o
reconhecimento de fonemas por parte dos humanos.
Entonação refere-se a alterações no pitch da voz que conferem informação linguística e
pragmática não perceptível das palavras pronunciadas.
Embora a definição da informação linguística e pragmática se deva principalmente à F0, o
ritmo – períodos de silêncio, ênfase das palavras, etc. – e a intensidade – volume da voz –
também contribuem. Prosódia refere-se ao controlo do pitch, ritmo e intensidade na
comunicação de informação, linguística e pragmática, não lexical. É a prosódia que torna o
discurso coerente, clarificando as relações semânticas entre as expressões verbais e
sinalizando funções comunicativas como a passagem da palavra.
58
7.1.2 Relação entre fala e emoção A investigação de investigadores acústicos nos sinais da voz, dos linguistas nos efeitos
prosódicos e léxicos, e dos psicólogos na percepção da emoção na voz, levaram a que muitos
dos componentes da voz que conferem emoção tenham sido identificados.
7.1.2.1 Impacto fisiológico da emoção na voz Na Secção 2.1 explorei, genericamente, o impacto fisiológico dos sistemas simpático e
parassimpático dos Humanos. Nesta Subsecção o foco é no impacto na voz.
Perante uma situação de raiva ou medo, o sistema simpático é excitado e os seguintes efeitos
verificam-se na voz Humana:
Maior rapidez e volume
Mais energia nas frequências mais altas relativamente às mais baixas
Expansão do intervalo da F0
Perturbação no ritmo
Aumento da flutuação no contorno da F0
Aumento da precisão na articulação
Perante a inibição do sistema simpático e, portanto, excitação do parassimpático verificam-se
as seguintes características da voz:
Lenta e de baixo pitch
Fracas frequências altas
Articulação imprecisa
7.1.2.2 Impacto acústico da emoção Fairbanks e Pronovost (1939) e Fairbanks e Hoaglin (1941) estudaram, com base na fala de
actores, a relação entre as propriedades acústicas da voz e cinco emoções – raiva, medo,
indiferença, rancor e contentamento. Os seus resultados são apresentados na Fig. 7.1.
Williams e Stevens (1969), com base em gravações de pilotos em apuros, um comentador de
rádio que anunciava a queda do Hindenburg, e actuações de actores, estudaram também a
relação entre propriedades acústicas e quatro estados emocionais – raiva, medo, tristeza e
neutro. Os resultados são apresentados na Fig. 7.2.
7.1.2.3 Impacto da emoção na prosódia Se nas duas Subsecções anteriores o foco foi no modo como a voz é alterada na perspectiva
do locutor, nesta o foco está na percepção por parte do ouvinte. A emoção no locutor afecta o
pitch, ritmo e intensidade da voz. Efeitos locais ocorrem na sílaba, enquanto que efeitos globais
na frase.
59
Fig. 7.1 - Resultados dos estudos de Fairbanks, Pronovost e Hoaglin.
Fig. 7.2 - Resultados dos estudos de Williams e Stevens.
O pitch da voz relaciona-se com o contorno da F0 ao longo da expressão verbal. Conforme o
estado emocional, as transições da F0 podem ser suaves ou descontínuas.
60
No que diz respeito ao impacto no ritmo, à medida que a agitação do locutor aumenta, a
duração média das sílabas diminui e a velocidade de discurso aumenta. As pausas são curtas
e ocorrem infrequentemente. Conversamente, depressão baixa a velocidade do discurso e
introduz pausas mais longas e frequentes. Emoções agradáveis, como afecto, originam um
ritmo regular, contrariamente às desagradáveis que causam irregularidades.
7.1.2.4 Impacto da emoção no léxico Estados emocionais afectam também a gramática e o léxico. Busemann (1925, 1926) concluiu
que o quociente verbos/adjectivos aumenta com a ansiedade. Osgood (1960) concluiu que a
excitação do locutor conduz a um aumento do quociente nome-verbo/adjectivo-advérbio.
7.2 Síntese de Expressão Vocal Esta área é relativamente recente contando não muito mais que 10 anos. A Subsecção 7.2.1
apresenta um resumo de Schroder do estado-da-arte na área em 2001. A Subsecção 7.2.2
apresenta um exemplo de aplicação.
7.2.1 Estado-da-arte Esta Subsecção é baseada em [Schroder].
A modelação da emoção na voz baseia-se em vários parâmetros tais como, entre outros, a
frequência fundamental, qualidade de voz e precisão da articulação. Diferentes técnicas de
síntese fornecem controlo em diferentes graus dos parâmetros.
Síntese de formantes, também conhecida como síntese baseada em regras, cria a acústica
da voz em função de regras definidas com base nas relações entre as propriedades acústicas
dos sons Humanos. Nesta técnica não são utilizadas gravações de vozes Humanas em tempo
de execução. A voz resultante, do tipo robot, é menos natural que os melhores sistemas
concatenativos (descritos à frente), contudo os parâmetros de voz podem ser variados com
bastante liberdade. Este aspecto é relevante para a modelação de expressividade na voz. O
famoso Affect Editor de Janet Cahn é baseado nesta técnica.
Em sistemas concatenativos, gravações de um locutor humano são concatenadas de modo a
gerar a voz sintética. É habitual esticar o sinal sonoro do meio de um som para o meio do
próximo. As gravações são habitualmente efectuadas com um pitch monótono. Em tempo de
execução, o contorno da F0 é gerado deformando a gravação de base. Esta técnica apresenta
melhores resultados, em termos de naturalidade de voz, que a técnica anterior. Contudo, nesta
técnica apenas a F0 e a duração (possivelmente a intensidade) podem ser controladas, sendo
impossível controlar a qualidade da voz. Uma questão fundamental para estes sistemas é se é
possível abranger toda a expressão vocal sem considerar a qualidade de voz.
61
A técnica de síntese de voz que se considera apresentar melhores resultados em termos de
naturalidade de voz é a de selecção de unidade. Nesta, em vez de se armazenar uma
quantidade mínima de voz, é armazenada uma grande quantidade. Desta larga base de dados,
são seleccionadas unidades de tamanho variável que melhor se aproximam a uma expressão
verbal desejada, previamente influenciada por determinados parâmetros. Os parâmetros
podem ou não ser os mesmos que na técnica de concatenação. Esta técnica pode apresentar
muito bons resultados, contudo se a unidade desejada não existir na base de dados os
resultados produzidos podem ser maus.
Na literatura da Síntese de Expressão Vocal parâmetros prosódicos globais são tratados como
indicativos universais de emoção, ainda que esta questão seja alvo de discussão (veja Secção
1.2.4). Em sistemas de síntese de formantes estas regras estão no centro do comportamento
vocal expressivo. Estas regras ou foram obtidas da literatura, ou resultam de estudos
realizados pelos próprios investigadores. O tipo de parâmetros modelados varia entre os
diferentes estudos. Contudo, todos os estudos concordam na importância de parâmetros
prosódicos globais, tais como o nível e intervalo da F0, tempo da voz, e eventualmente
intensidade. A Fig. 7.3 apresenta as regras prosódicas que foram aplicadas com maior sucesso
para expressão de determinadas emoções.
Fig. 7.3 - Exemplos de regras prosódicas de
sucesso na geração de expressão vocal. Taxas de reconhecimento são apresentadas
para comparação. Tristeza e surpresa: Cahn
utiliza escalas de -10 a +10, sendo 0 natural.
Aborrecimento: Mozzicionacci indica padrões
de entoação de acordo com uma gramática
holandesa de entoação.
7.2.2 Exemplo de Aplicação – Kismet Esta Subsecção é baseada em [Kismet].
O projecto Sociable Machines, no MIT, desenvolveu um robot expressivo antropomórfico
denominado Kismet que interage face-a-face com as pessoas de um modo natural. Este
62
projecto é muito abrangente envolvendo diversas áreas, contudo nesta Subsecção irei explorar
apenas o seu sistema de expressão vocal.
Fig. 7.4 - Kismet.
A expressão vocal do Kismet baseia-se no trabalho da Janet Cahn que desenvolveu o Affect
Editor sobre o sintetizador comercial DECtalk. Dada uma frase em inglês e uma emoção, Cahn
desenvolveu uma metodologia para mapear a relação entre emoção e parâmetros de voz sobre
o DECtalk. Um ponto de adicional de interesse no Kismet é que o discurso não apresenta
estrutura gramatical. Deste modo, o único aspecto realmente relevante é a síntese da emoção
subjacente na voz.
63
8 REFERÊNCIAS 8.1 Referências impressas [Allport] – Allport, F. H.; Social Psychology ; Boston ; Houghton Mifflin ; 1924
[Badler00] – Badler, N.; Simulating Humans: Computer Graphics, Animation, and Control;
Oxford University Press; New York; 1993
[Badler01] – Badler, N.; Costa, M.; Zhao, L.; Chi, D.; To Gesture or Not to Gesture: What is
the question? em Proceedings of Computer Graphics International 2000, pp. 1-6
[Burrow] – Burrow, J.; Hall, D.; College Students’ perceptions of women’s verbal an
nonverbal consent for sexual intercourse; 1998
[Cacciopo&Tassinary] – Cacciopo, J.T.; Tassinary, L.G.; Infering
psychological significance from physiological signals em American
Psychologist,vol.45, pp.16-28; 1990
[Cahn] – Cahn, J.; Generating Expression in Synthesized Speech; 1989 [Casmides] – Casmides, L.; Tooby, J.; Evolutionary Psychology and Emotions; 2000
[Cassell_a] – Cassell, J; Sullivan, J.; Prevost Scott; Churchill, E.; Embodied Conversational
Agents; The MIT Press; 2000
[Cassell_b] – Cassell, J.; Pelachaud, C.; Badler, N.; Steedman, M.; Achorn, B.; Becket, T.;
Douville, B.; Prevost, S.; Stone, M.; Animated Convesation: Rule-Based Generation of
Facial Expression, Gesture & Spoken Intonation for Multiple Conversational Agents; 1994
[Cassell_c] – Cassell, J.; A Framework for Gesture Generation and Interpretation; 1998
[Cassell_d] – Cassell, J.; Living hand to Mouth: Psychological Theories about Speech and
Gesture in Interactive Dialogue Systems; 1999
[Coelho&Paiva] – Hélder Coelho; Ana Paiva; Computação Baseada em Agentes (textos de
apoio a cadeira de Introduçao aos Agentes Autónomos); 2000
[Damasio] – A. R. Damasio; Descartes’ Error: Emotion, Reason, and the Human Brain;
New York NY: Gosset Putnam Press
[Elfenbein] – Elfenbein, H. A.; Ambady, N.; On the Universality and Cultural Specificity of
Emotion Recognition: A Meta-Analysis; Harvard University; 2002
[Ekman_a] – Ekman, P.; Capítulo 3 – Basic Emotion em Handbook of Cognition and
Emotion; 1999; New York; John Wiley & Sons Ltd. [Ekman_b] – Ekman, P.; Who Can Catch a Liar? em American Psychologist pp.913-920;
1991
[FACSInvetigatorGuide] – Ekman, P.; Friesen, W.; Hager, J.; Facial Action Coding System
Investigator’s Guide; 2002
[Gilbert] - Don Gilbert, Manny Aparicio, Betty Atkinson, Steve Brady, Joe Ciccarino,
Benjamin Grosof, Pat O'Connor, Damian Osisek, Steve Pritko, Rick Spagna, and Les
Wilson. IBM intelligent agent strategy. White paper, 1995.
64
[Johnson] – Johnson, W. L.; Dramatic Expression in Opera, and its Implications for
Conversational Agents; 2003
[Laurel] – Brenda Laurel; Capítulo 4 – Interface Agents: Metaphors with Characters - em
An Introduction to Software Agents; Editado por Jeffrey M. Bradshaw; The MIT Press; 1997
[Lesseter] – Lasseter, J.; Principles of Traditional Animation Applied to 3D Computer
Animation em Computer Graphics, pp. 35-44, Julho 1987
[Lester] - Lester, J., Converse, S., Kahler, S., Barlow, S., Stone, B. & Bhoga, R. (1997). The
Persona effect: Affective Impact of Animated Pedagogical Agents. CHI'97 Electronic
Publications, 1997.
[Mateas] – Mateas, M.; An Oz-Centric Review of Interactive Drama and Believable Agents;
1997
[McNeill00] – McNeill, D.; Hand and Mind: What gestures reveal about thought; The
University of Chicago Press; 1992
[McNeill01] – McNeill, D.; Language and Gesture; Cambrige University Press; 2000
[Negroponte] – Nicholas Negroponte; Capítulo 3 – Agents: From Direct manipulation to
Delegation - em An Introduction to Software Agents; Editado por Jeffrey M. Bradshaw; The
MIT Press; 1997
[Noh] – Noh, J.; A Survey of Facial Modeling and Animation Techniques; 1998
[Nwana] – Nwana, H. S.; Software Agents: An Overview.; 1996
[Ortony_a] – Ortony, A., & Turner, T. J. (1990). What's basic about basic emotions?
Psychological Review, 97, 315-331.
[Ortony_b] – Ortony, A.; Clore, G.; Collins, A.; The Cognitive Structure of Emotions;
Cambridge University Press; 1988.
[Ostermann] – Ostermann, J.; Antimation of Synthetic Faces in MPEG-4; 1998
[Paiva] – Ana Paiva; Life-long Training with Vincent, a web-based pedagogical
agent;GAIPS, Inesc-Id; 2002
[Pasquariello] – Pasquariello, S.; Pelachaud, C.; Greta : A Simple Facial Animation Engine ;
2001
[Perlin] – Perlin, K.; Real time responsive animation with personality. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 9(4): 523-532, 1987
[Picard_a] – Rosalind W. Picard; Elias Vyzas; Jennifer Healey; Toward Machine Emotional
Intelligence: Analysis of Afective Physiological State; MIT Media Laboratory
[Picard_b] – Rosalind W. Picard; Affective Computing; The MIT Press; 1997
[Reeves&Nass] – B, Reeves and C. Nass; The Media Equation; Cambridge University
Press Center for the Study of Language and Information
[Reilly] – Reilly, W. S.; Building Emotional Agents; 1992
[Reynolds] – Reynolds, C.; Flocks, Herds, and Schools: A Distributed Behavioural Model;
1987
[Sabbattini] – Renato M. E. Sabbattini; O Cérebro do Psicopata;
[Schroder] – Schroder, M.; Emotional Speech Synthesis: A Review; 2001
65
[Schrek] – Shrek; DVD; Dreamworks; 2001 [Shoham] – Shoham, Y; An Overview of Agent-Oriented Programming.; 1997
[Silva,Vala&Paiva] – Silva, A.; Vala, M.; Paiva, A.; Papous:The Virtual Storyteller; 2001;
GAIPS, Inesc-Id
[ToyStory2] – Toy Story 2; DVD; Disney; 1999
[Wehrle] – Thomas Wehrle; Motivations behind modeling emotional agents: Whose emotion
does your robot have?; University of Geneve; 1998
[Witman&Kass] – Witman, A.; Kass, M.; Spacetime constraints; 1988
[Wooldrige] – Wooldrige, M; An Introduction to Multiagent Systems; 2002; John Wiley &
Sons, ltd.
[Wooldridge&Jennings] – Wooldridge, M. J.; Jennings, N. R.; 1995; Agent theories,
Architectures and Languages: A Survey.;
[Zhao] – Zhao, L.; Synthesis and Acquisition of Laban Movement Analysis Qualitative
Parameters for Communicative Gestures; PhD thesis; University of Pennsylvania; 2001
8.2 Referências online a2zPsychology] – a2zPsychology.com;
www.a2zpsychology.com/a2z%20guide/emotions.htm
[AffectiveComputingGroupMIT] – Affective Computing Group Home Page, MIT Media Lab;
affect.media.mit.edu/
[Albuquerque] – Vinicius Albuquerque in FolhasOnline;
www1.folha.uol.com.br/folha/sinapse/ult1063u624.shtml [Amaral&Oliveira] – do Amaral, J. R.; de Oliveira, J. M.; Limbic System: The Center of
Emotions; www.epub.org.br/cm/n05/mente/limbic_i.htm
[AnimationTechniques] – The Relation of Computer Facial Animation to
Conventional Animation; interface.digital.com/developers/anim_techs.htm [DicionárioMerrianWebster] – Merrian-Webster Online – The Language Center; 2003;
www.m-w.com/home.htm
[DIENET] – die.net; www.die.net
[EMOTE] – EMOTE: Synthesis and Analysis of Communicative Gesture; hms.upenn.edu/software/EMOTE/
[FACSAID] – Facial Action Coding System Affect Interpretation Dictionary (FACSAID); face-
and-emotion.com/dataface/facsaid/description.jsp
[FACSTables] – FACS Tables; www.uni-duesseldorf.de/WWW/MathNat/Ruch/PSY356-
Handouts/FACS-Tables.pdf
[Fellous&Hudlicka] – The Emotion Home Page; The Salk Institute for Biological Studies;
emotion.salk.edu/emotion.html
[Kismet] – Kismet’s Expressive Speech; www.ai.mit.edu/projects/sociable/expressive-
speech.html
66
[LordOfTheRings] – Site oficial do Lorf of The Rings; www.lordoftherings.net/index.html
[NonverbalBehaviour] – Nonverbal Behaviour Nonverbal Communication
Links; www3.usal.es/~nonverbal/introduction.htm
[OzWorld] – Oz Project > World and Images; www-
2.cs.cmu.edu/afs/cs.cmu.edu/project/oz/web/worlds.html [PhantomOfTheOpera] – The Phantom of The Opera;
www.thephantomoftheopera.com [PVCC] – Effects of Sympathetic and Parasympathetic Divisions on Various Organs;
Piedmont Virgina Community College;
www.pvcc.vccs.edu/bionas/cousteau/downloads/Effects%20of%20Parasympathetic%20and
%20Sympathetic%20Divisions.htm
[REA] - The Conversational Humanoid Home Page; GNL, MIT Media Lab; gn.www.media.mit.edu/groups/gn/projects/humanoid/
[Sandlos] – Sandlos, L.; Laban Movement Analysis: Unlocking the Mysteries
of Movement; www.xoe.com/LisaSandlos/lma.html [SistemaNervoso] – Sistema Nervoso Home Page; www.sistemanervoso.com/home.php
[TheFreeDictionary] – The Free Dictionay; www.thefreedictionary.com
[TheSims] – Home of The Sims; Electronic Arts; thesims.ea.com/
67
ANEXO I – EXPRESSÕES FACIAIS SÃO UNIVERSAIS? 8 figura
A discussão sobre se as expressões faciais são universais ou específicas de cada cultura já
decorre a mais de 100 anos. Em [Ekman00] podemos encontrar um resumo dos principais
argumentos e estudos realizados em favor e contra a universalidade das expressões faciais até
1999. Esta Secção apresenta um breve resumo dessa referência.
I.1 Evidências recolhidas O trabalho de Charles Darwin pode-se considerar como o início desta discussão. Em [Darwin]
ele defende a universalidade das expressões faciais. Contudo, os seus estudos apresentavam
um baixo nível de rigor científico de acordo com os padrões actuais da ciência. A sua
argumentação foi, por isso, facilmente contestada.
Nos últimos 30 anos o interesse pela questão da universalidade da Expressão Humana
ressurgiu e foram realizados diversos estudos. Os primeiros estudos realizados eram
denominados “Estudos de Julgamento”. Nestes, fotografias com expressões faciais diferentes
são mostradas a nativos em países de culturas diferentes com o intuito de identificarem as
emoções expressadas. Se os nativos das várias culturas atribuíssem a mesma emoção às
mesmas fotografias, então era concluída a universalidade das expressões faciais.
Fig. I.1 – Exemplos de fotografias utilizadas em estudos de julgamento. O leitor tente associar as
seguintes emoções às fotografias: nojo; surpresa; medo; tristeza; alegria; zangado.
68
Estes estudos foram realizados em 21 países, dos quais 10 não ocidentais, por diferentes
psicólogos. Os estudos de julgamento subdividiram-se ainda estudos com ou sem escolha
livre. Os de escolha livre pediam aos nativos para denominarem as emoções expressadas na
fotografia utilizando as suas palavras versus a denominação a partir de uma listagem de
emoções predefinida nos estudos sem escolha livre. O objectivo dos estudos de escolha livre
era rebater a argumentação que dizia que os nativos eram induzidos a escolher determinadas
emoções pela listagem predefinida.
Em ambos os estudos os nativos fizeram atribuições muito semelhantes de emoções às
fotografias, sugerindo, pois, a universalidade das expressões faciais.
Contudo, surge o contra-argumento que todos os estudos efectuados até à altura tinham sido
realizadas em sociedades “alfabetizadas”, i.e., sociedades que pudessem estar de algum modo
viciadas dado que tinham sido expostas, por exemplo através da televisão, a expressões
faciais conhecidas.
Seguiram-se, então, estudos realizados em sociedades “não alfabetizadas”, i.e., sociedades
isoladas que, com uma grande probabilidade, não tinham sido expostas a outras culturas.
Neste contexto, Ekman realizou um estudo conhecido, em que se deslocou para Papua Nova
Guiné, em 1967, para estudar a cultura South Fore. Este povo era essencialmente isolado
tanto que a maior parte das pessoas nem sequer tinha visto estrangeiros.
Os estudos de julgamento realizados voltaram a suportar a universalidade das expressões
faciais.
Fig. I.2 – Expressões faciais do povo da Nova Guiné eram semelhantes às encontradas em outras culturas.
69
Surge, então, o contra-argumento que diz que os estudos de julgamento só demonstram a
universalidade de expressões faciais predefinidas, mas não das espontâneas.
Realizaram-se, então, estudos que procuravam avaliar a universalidade das expressões
espontâneas. Para o efeito submeteram-se estudantes americanos e japoneses à visualização
de filmes (uns impressionantes que induziam emoção, outros neutros) e filmaram-se as
expressões faciais. Posteriormente, pediam-se aos estudantes de um país para identificar as
emoções expressas pelos estudantes do outro país. Mais uma vez os resultados suportaram a
universalidade das expressões faciais.
Adicionalmente, foram realizados estudos das expressões faciais espontâneas de crianças.
Estes estudos tinham o potencial de constituírem uma forte evidência, dado que as crianças,
tendo poucos anos de existência, tinham sido ainda pouco submetidas à influência da
sociedade e, por outro lado, estas expressam com mais vigor as suas emoções. Até ao
momento estes estudos ainda não foram contestados.
Em paralelo, um outro ramo dos estudos, o da continuidade das espécies, procurava
determinar se os nossos antecedentes primatas possuíam expressões faciais semelhantes às
dos humanos. O raciocínio subjacente a estes estudos era o seguinte: se as emoções são um
resultado da selecção natural, isto é, um mecanismo que resultou da evolução das espécies,
então a universalidade das expressões faciais é inquestionável.
Deste modo foram realizados estudos utilizando expressões faciais de chimpanzés, os
primatas mais próximos do Homem, que consistiam em pedir a humanos para identificar as
emoções expressadas nas fotografias. As respostas eram comparadas com a análise, por
parte de primatólogos, das emoções do chimpanzé quando as fotografias tinham sido tiradas.
Estes estudos, mais uma vez, suportaram a universalidade da expressão facial.
Fig.I.3 – Será que as emoções são apenas um resultado da selecção natural?
70
I.2 Conclusões Os resultados destes estudos levaram Ekman a concluir que: o universal das expressões faciais é a ligação entre configurações faciais particulares e emoções específicas. Esta
conclusão não quererá, no entanto, dizer que expressões faciais ocorram sempre que se
sintam emoções, dado que as pessoas são capazes de esconder as suas emoções até um
certo ponto. Nem quer dizer que uma pessoa esteja a sentir uma emoção sempre que
demonstre uma expressão facial, dado que as pessoas são também capazes de fabricar
expressões, embora estas difiram, contudo, das expressões espontâneas.
Não é certo ainda quantas expressões faciais diferentes são universais para cada emoção.
Existem evidências, por exemplo, que para a emoção de medo a expressão facial pode ter ou
não a boca aberta. Não se sabe ao certo, também, quantas emoções tem expressões faciais
universais. Existem evidências para alegria, fúria, nojo, tristeza e medo/surpresa. A distinção
entre as expressões de medo e surpresa, até ao momento, só foram diferenciadas em
sociedades “alfabetizadas”.
Apesar de na sua base as expressões faciais (aparentarem) ser universais, existem diferenças
nas expressões faciais associadas às emoções. Existem diferenças na expressão em si, e no
que a expressão significa para a pessoa que a demonstra a outros:
Uma diferença principal surge nas palavras que determinada linguagem disponibiliza para
expressar as emoções.
Ekman especula também que existirão diferenças culturais nas filosofias de meta-emoções
– crenças de uma pessoa sobre as suas emoções e sobre as dos outros.
As culturas diferem também nos eventos que podem induzir uma emoção. Por exemplo,
nem todos os Humanos sentem nojo perante a perspectiva de comer um gato.
I.3 Referências [Darwin] – Darwin, C.; The Expression of Emotions in Man and Animals; 1872; Disponível
online em human-nature.com/darwin/emotion/contents.htm
[Ekman00] – Ekman P.; Capítulo 16 - Facial Expressions em Handbook of Cognition and
Emotion; 1999; New York; John Wiley & Sons Ltd.
71