Campinas, 08 e 09 de Novembro de 2018 Planejamento de ...

4
XI Encontro de Alunos e Docentes do DCA/FEEC/UNICAMP (EADCA) XI DCA/FEEC/University of Campinas (UNICAMP) Workshop (EADCA) Campinas, 08 e 09 de Novembro de 2018 Campinas, Brazil, November 08-09, 2018 Planejamento de ações para robôs sociais baseado no contexto de interações iniciais usando dados multimodais Diego Cardoso Alves , Paula Dornhofer Paro Costa (Orientador) Departamento de Engenharia de Computação e Automação Industrial (DCA) Faculdade de Engenharia Elétrica e de Computação (FEEC) Universidade Estadual de Campinas (Unicamp) CEP 13083-852 – Campinas, SP, Brasil {d189729,paula}@dca.fee.unicamp.br Abstract – The human-robot interaction may lead many challenges and for that reason, artificial intelligence researchers are frequently trying to improve scene perception, social navigation, and engagement. In addition, new computer vision technologies and applications are launched every year, making it possible to update social robot systems and increase the model accuracy. Most of recent techniques related to social robots usually rely on the engagement process with focus on maintaining a previously established conversation. This paper brings up the study of initial human-robot interaction, proposing a system that is able to analyze social contexts through person and surrounding features. RGB-D frame and audio capturing were used in order to achieve a better performance during indoor scene tracking and human behavior extraction. Keywords – Human-robot interaction; Social interaction; Robot vision systems 1. Introdução Robô social é um tópico de grande interesse no mundo acadêmico e comercial, com o número de aplicações crescendo em um cenário multidiscipli- nar que permite pesquisadores de diferentes áreas se aprofundarem sob suas perspectivas. A interação humano-robô vem sendo discutida e inserida em vá- rios contextos, atraindo pesquisadores a se especi- alizarem desenvolvendo softwares experimentais e melhorando a navegação, engajamento e a tomada de decisões. A comunidade de pesquisa relacionada à in- teração humano-robô tem utilizado diferentes téc- nicas relacionadas à visão robótica e algoritmos de aprendizado de máquina, com análises avançadas objetivando a obtenção de um engajamento realista durante conversações e locomoção. Como estas metodologias requerem um alto número de atribu- tos para melhorar a acurácia do modelo, frequente- mente conjuntos de dados multimodais são usados como sendo a melhor solução para reduzir falso po- sitivos. Métodos comumente utilizados estão rela- cionados à tentativa de desvio de obstáculos físicos presentes no ambiente e ao entendimento do com- portamento de pessoas durante conversações parti- culares. Entretanto, o início de uma interação deve ser levado em consideração pois diversas situações podem ocasionar reações que devem ser completa- mente analisadas. A extração da percepção do ambiente e atri- butos individuais durante uma aproximação inicial pode conduzir o robô a uma significante melhoria para tomar uma decisão correta. Neste caso, intera- ções subsequentes entre humano e robô podem ser mais intuitivas e assertivas, prevenindo interações indesejáveis. O entendimento do contexto em que o robô social está inserido lhe permite lidar com situa- ções complexas e agir de maneira realista. Através da união de metodologias a interação humano-robô pode ganhar com a integração do engajamento ini- cial e contínuo em busca de consolidar estudos e aplicações. 2. Trabalhos relacionados Alguns estudos têm apresentado técnicas e análises para determinar o comportamento humano e a nave- gação de robôs. Devido à complexidade de extrair atributos que indicam um engajamento inicial liga- dos a situação social do ambiente, poucos estudos têm se dedicado a buscar melhorias nas ações inici- ais a serem tomadas por robôs sociais. Projetos que envolvem a interação humano- robô e sua adaptabilidade são largamente utilizados para busca de melhorias de conversas particulares e de longa duração, como pode ser visto em [1], onde os autores discutem sobre diferentes pesqui- sas relacionadas ao uso de robôs adaptativos que são utilizados para área de saúde, educação e pro- pósitos particulares. O principal objetivo citado é a importância de aumentar o engajamento monito- rando características da pessoa como expressões fa-

Transcript of Campinas, 08 e 09 de Novembro de 2018 Planejamento de ...

Page 1: Campinas, 08 e 09 de Novembro de 2018 Planejamento de ...

XI Encontro de Alunos e Docentes do DCA/FEEC/UNICAMP (EADCA)XI DCA/FEEC/University of Campinas (UNICAMP) Workshop (EADCA)

Campinas, 08 e 09 de Novembro de 2018Campinas, Brazil, November 08-09, 2018

Planejamento de ações para robôs sociais baseado no contexto deinterações iniciais usando dados multimodaisDiego Cardoso Alves , Paula Dornhofer Paro Costa (Orientador)

Departamento de Engenharia de Computação e Automação Industrial (DCA)Faculdade de Engenharia Elétrica e de Computação (FEEC)

Universidade Estadual de Campinas (Unicamp)CEP 13083-852 – Campinas, SP, Brasil

{d189729,paula}@dca.fee.unicamp.br

Abstract – The human-robot interaction may lead many challenges and for that reason, artificial intelligenceresearchers are frequently trying to improve scene perception, social navigation, and engagement. In addition, newcomputer vision technologies and applications are launched every year, making it possible to update social robotsystems and increase the model accuracy. Most of recent techniques related to social robots usually rely on theengagement process with focus on maintaining a previously established conversation. This paper brings up thestudy of initial human-robot interaction, proposing a system that is able to analyze social contexts through personand surrounding features. RGB-D frame and audio capturing were used in order to achieve a better performanceduring indoor scene tracking and human behavior extraction.

Keywords – Human-robot interaction; Social interaction; Robot vision systems

1. Introdução

Robô social é um tópico de grande interesse nomundo acadêmico e comercial, com o número deaplicações crescendo em um cenário multidiscipli-nar que permite pesquisadores de diferentes áreasse aprofundarem sob suas perspectivas. A interaçãohumano-robô vem sendo discutida e inserida em vá-rios contextos, atraindo pesquisadores a se especi-alizarem desenvolvendo softwares experimentais emelhorando a navegação, engajamento e a tomadade decisões.

A comunidade de pesquisa relacionada à in-teração humano-robô tem utilizado diferentes téc-nicas relacionadas à visão robótica e algoritmos deaprendizado de máquina, com análises avançadasobjetivando a obtenção de um engajamento realistadurante conversações e locomoção. Como estasmetodologias requerem um alto número de atribu-tos para melhorar a acurácia do modelo, frequente-mente conjuntos de dados multimodais são usadoscomo sendo a melhor solução para reduzir falso po-sitivos.

Métodos comumente utilizados estão rela-cionados à tentativa de desvio de obstáculos físicospresentes no ambiente e ao entendimento do com-portamento de pessoas durante conversações parti-culares. Entretanto, o início de uma interação deveser levado em consideração pois diversas situaçõespodem ocasionar reações que devem ser completa-mente analisadas.

A extração da percepção do ambiente e atri-

butos individuais durante uma aproximação inicialpode conduzir o robô a uma significante melhoriapara tomar uma decisão correta. Neste caso, intera-ções subsequentes entre humano e robô podem sermais intuitivas e assertivas, prevenindo interaçõesindesejáveis.

O entendimento do contexto em que o robôsocial está inserido lhe permite lidar com situa-ções complexas e agir de maneira realista. Atravésda união de metodologias a interação humano-robôpode ganhar com a integração do engajamento ini-cial e contínuo em busca de consolidar estudos eaplicações.

2. Trabalhos relacionadosAlguns estudos têm apresentado técnicas e análisespara determinar o comportamento humano e a nave-gação de robôs. Devido à complexidade de extrairatributos que indicam um engajamento inicial liga-dos a situação social do ambiente, poucos estudostêm se dedicado a buscar melhorias nas ações inici-ais a serem tomadas por robôs sociais.

Projetos que envolvem a interação humano-robô e sua adaptabilidade são largamente utilizadospara busca de melhorias de conversas particularese de longa duração, como pode ser visto em [1],onde os autores discutem sobre diferentes pesqui-sas relacionadas ao uso de robôs adaptativos quesão utilizados para área de saúde, educação e pro-pósitos particulares. O principal objetivo citado éa importância de aumentar o engajamento monito-rando características da pessoa como expressões fa-

Page 2: Campinas, 08 e 09 de Novembro de 2018 Planejamento de ...

XI Encontro de Alunos e Docentes do DCA/FEEC/UNICAMP (EADCA)XI DCA/FEEC/University of Campinas (UNICAMP) Workshop (EADCA)

Campinas, 08 e 09 de Novembro de 2018Campinas, Brazil, November 08-09, 2018

ciais, comportamento do olhar e linguagem corporalpara escolher a fala correta do robô. Nesta situa-ção, além do fato que estes métodos não propõema análise de dados multimodais, a interação entre apessoa e o robô pode ser considerada limitada de-vido ao pré-requisito de se possuir uma conversa jáiniciada, sem a análise da intenção do humano.

O uso de procedimentos que verificam e in-terpretam movimentos humanos em ambientes po-pulosos também tem tido sua importância, sendo ca-paz de planejar e designar modelos de ações preven-tivas à colisão. Um trabalho voltado a navegação derobôs em mapas de larga escala[3] é um exemploque propõe a identificação dinâmica de pessoas erespectivas atividades (caminhada, trabalho e con-versação), em busca de se obter a melhor ação aser realizada pelo robô e aumentando a confiançado sistema. Os resultados obtidos mostram que omódulo proposto pode avaliar humanos e reconhe-cer ações usando dados RGB-D com performanceconsiderável. Apesar disto, o método é limitado auma estrutura que não permite robôs sociais a veri-ficarem se as pessoas pretendem falar ou mover aoredor deles. Além disso, um cenário com complexassituações e um alto número de pessoas pode causarmovimentos artificiais do robô prejudicando o con-ceito de adaptabilidade.

Um projeto importante que busca proverum melhor entendimento de situações sociais antesde iniciar interações com grupos de humanos é dis-cutido em [2]. Ele é baseado em categorias do inter-relacionamento entre humanos como indivíduo-indivíduo, indivíduo-robô, robô-indivíduo, grupo-robô, robô-grupo, discussão individual e discussãoem grupo. Como resultado, o sistema é capaz de ex-trair características de grupos e inferir a correta açãodo robô de interagir ou não com o grupo correspon-dente.

3. PropostaComo pode ser observado, diversos estudos apre-sentam como proposta principal aumentar o enga-jamento entre humanos e robôs, melhorando a con-versação e locomoção na tentativa de manter umainteração social, mas sem ter como foco a análisedas interações iniciais. Com base nisto, este projetoapresenta um planejamento de tomada de decisõespara robôs sociais usando dados RGB-D multimo-dais. O uso de diferentes atributos e situações, assimcomo os modelos, são baseados no contexto de inte-

rações iniciais com foco nas classes de ações ativo,proativo e passivo.

3.1. Coleta de dados

A câmera Intel Realsense R200 foi utilizada paracaptura das imagens, já que possui foco em mé-dias distâncias e consegue capturar RGB-D (ima-gens RGB e de profundidade) com detecção má-xima de 60 frames por segundo. Como este pro-jeto possui limitações de armazenamento (cada co-leta ocupa considerável espaço em disco) e o nú-mero de frames por segundo não precisa ser elevadopara este objetivo, o valor considerado foi 30 fra-mes por segundo. Os últimos experimentos usandoframes infravermelho também não obtiveram resul-tados significativos, então somente imagens RGB ede profundidade foram coletadas com a resoluçãomáxima de 1920x1080 para RGB e 640x480 paraprofundidade.

Diversas opções de configuração são des-critas na documentação da Intel Realsense para tra-balhar com a câmera R200 em diferentes cenários.A ferramenta de código livre chamada cpp-config-ui[4] foi utilizada para obtenção dos melhores pa-râmetros de gravação através de uma interface in-teligente que permite comparação entre frames emtempo real.

O conjunto de dados contém imagens ad-quiridas com aproximadamente um metro de alturacom o objetivo de evitar possíveis oclusões. Como princípio de se atingir cenários genéricos, foramconsiderados os seguintes ambientes internos:

• Social: Locais públicos fechados como aca-demia e sala de jogos

• Casa: Ambientes internos como sala de es-tar e sala de TV

• Trabalho: Ambientes internos como escri-tório e sala de reunião

As classes propostas estão relacionadas àação mais adequada na qual o robô pode realizar ba-seado na situação social detectada. Abaixo temos osignificado de cada classe:

• Ativo: Robô participa e se envolve na situ-ação social

• Proativo: Robô tenta se engajar tomandoiniciativa

• Passivo: Robô não se envolve na situaçãosocial

Page 3: Campinas, 08 e 09 de Novembro de 2018 Planejamento de ...

XI Encontro de Alunos e Docentes do DCA/FEEC/UNICAMP (EADCA)XI DCA/FEEC/University of Campinas (UNICAMP) Workshop (EADCA)

Campinas, 08 e 09 de Novembro de 2018Campinas, Brazil, November 08-09, 2018

Cada classe tem 100 amostras diferentescoletadas para permitir a análise de diferentes pes-soas e locais. Além disso, o tempo de gravação es-colhido foi de 8 segundos, baseado no período maisapropriado para reconhecer características dos indi-víduos e do entorno.

3.2. Atributos utilizados

Vários métodos e variáveis relacionados à visãocomputacional foram utilizados neste trabalho, es-pecialmente àquelas baseadas na detecção facial eemocional, reconhecimento do corpo e análise deáudio. Devido à complexidade dos dados, estu-dos preliminares foram conduzidos para clarificar osatributos corretos a se trabalhar.

Após uma análise detalhada, concluiu-seque os atributos necessários para a tomada de açõesdo robô social são:

• Detecção de pessoas: Análise do númerode pessoas que pertencem a região deinteresse, detecção de face, rastreamentodo corpo e distância em relação ao robô.Mesmo que em várias amostras estes atribu-tos individualmente não são assertivos paradeterminar a situação social, eles contri-buem como informações adicionais de con-texto.

• Análise facial: Localizações de landmarksda face em 2D e 3D como visto na figura1, atributos relacionados ao olhar (incluindovetores de direção do olhar, direções em ra-dianos, localização de landmarks 2D e 3Dda região dos olhos) como visto na figura 2,atributos da posição de cabeça (localizaçãoda cabeça em relação à câmera e rotação emradianos) e descritores HOG (considerandoRGB e frames de profundidade).

• Análise do áudio: Contorno de volume(root mean square da magnitude do sinalde cada frame), contorno de pitch (usandoo algoritmo da função de diferença de mag-nitude média) e derivação de atributos comodetecção de voz ou música, assim como de-tecção de ruído.

4. ResultadosO objetivo do projeto é atingir com resultados sa-tisfatórios a classificação de ações de robôs sendocapaz de prover um robusto cenário de detecção de

Figura 1. Localização de landmarks da face.

Figura 2. Marcações de landmarks do olhar.

situações sociais, sendo utilizados diferentes algo-ritmos de aprendizado de máquina com avançadastécnicas como cross-validation, grid-search e fea-ture engineering. Devido ao alto número de atri-butos, provavelmente algumas técnicas de clusteri-zação e redução de dimensionalidade serão usadaspara ajustar o modelo, selecionando as característi-cas mais relevantes.

Inicialmente, o modelo consistirá na aná-lise de cada frame e posteriormente alguns meiosde assimilar detecções adjacentes de frames de umamesma pessoa, descartando detecções que não con-tém continuidade no tempo. Deste modo, RGB eframes de profundidade poderão ser combinados emtermos de análise para a mesma região de interesse,melhorando a extração de atributos.

Outros métodos irão ser considerados fu-turamente com o objetivo de tratar múltiplos fra-mes fazendo parte de uma mesma sequência. Osalgoritmos que trabalham diretamente com o domí-nio espaço-temporal irão classificar cada sequênciacomo uma determinada situação social e sua respec-tiva tomada de ação pelo robô. Como este projetoé baseado em iniciativas recentes de determinaçãode ações no contexto de interações iniciais, espera-se atingir bons resultados e contribuir para futurasoportunidades de melhoria para pesquisadores inte-ressados nesta área.

Page 4: Campinas, 08 e 09 de Novembro de 2018 Planejamento de ...

XI Encontro de Alunos e Docentes do DCA/FEEC/UNICAMP (EADCA)XI DCA/FEEC/University of Campinas (UNICAMP) Workshop (EADCA)

Campinas, 08 e 09 de Novembro de 2018Campinas, Brazil, November 08-09, 2018

5. Conclusões

Devido ao rápido crescimento da indústria robóticaao redor do mundo, pesquisadores e empresas es-tão investindo em medidas para lidar com novossoftwares e métodos tentando aprimorar a intera-ção humano-robô, alcançando o estado da arte noque diz respeito ao comportamento de robôs soci-ais. A conversação humano-robô é um tópico co-mum em conferências de visão computacional e temsido estudado devido a rápida mudança e comple-xidade proporcionada. A análise apresentada nestetrabalho tem sido conduzida com o foco de detec-tar características do local e de pessoas para decidiras ações a serem tomadas por robôs no contexto dasinterações iniciais.

A análise de dados multimodais da cena ede pessoas ajudam em casos onde a classificação so-fre com o alto número de situações e reduzido tempode reação. Existem diversas técnicas usadas para de-tectar o comportamento de humanos na presença derobôs ou para modelar a navegação em ambientes,trabalhando com a extração de áudio e vídeo. Nesteprojeto, o robô social irá ser capaz de assimilar oque está ocorrendo na cena em segundos e tomaruma ação conscientemente.

Os resultados esperados são alcançar ummodelo efetivo no contexto de interações iniciaispara robôs sociais e obter melhorias comparadas aostrabalhos atuais. Isto significa que atualizações apli-cadas a esta proposta no futuro irão contribuir parauma análise aprofundada e prover melhores meto-dologias de engajamento e tomadas de decisão.

Referências

[1] Muneeb Ahmad, Omar Mubin, and Joanne Or-lando. A systematic review of adaptivity inhuman-robot interaction. pages 1–14, 2017.

[2] Yen Chao, Li-Chen Fu, Ching Lin, and Shih-Huan Tseng. Service robots: System design fortracking people through data fusion and initia-ting interaction with the human group by infer-ring social situations. pages 188–202, 2016.

[3] Konstantinos Charalampous, Antonios Gastera-tos, and Ioannis Kostavelis. Robot navigation inlarge-scale social maps: An action recognitionapproach. pages 261–273, 2016.

[4] Intel. Librealsense. https://github.com/IntelRealSense/librealsense/blob/v1.12.1/

examples/cpp-config-ui.cpp. (aces-sado em 07/07/2018).