UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE ... · vivemos e já fazem parte do modo de...

101
UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA RAFAEL FACCIO VALIDAÇÃO DE HEURÍSTICAS DE USABILIDADE PARA CELULARES TOUCHSCREEN POR MEIO DE TESTES DE USABILIDADE FLORIANÓPOLIS 2014

Transcript of UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE ... · vivemos e já fazem parte do modo de...

UNIVERSIDADE FEDERAL DE SANTA CATARINA

DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA

RAFAEL FACCIO

VALIDAÇÃO DE HEURÍSTICAS DE USABILIDADE PARA CELULARES

TOUCHSCREEN POR MEIO DE TESTES DE USABILIDADE

FLORIANÓPOLIS

2014

Rafael Faccio

VALIDAÇÃO DE HEURÍSTICAS DE USABILIDADE PARA CELULARES

TOUCHSCREEN POR MEIO DE TESTES DE USABILIDADE

Trabalho de Conclusão de Curso

apresentado ao Departamento de

Informática e Estatística da Universidade

Federal de Santa Catarina para a

obtenção do Grau de Bacharel em

Sistemas de Informação.

Orientadora: Prof.Dr.rer.nat. Christiane

Gresse von Wangenheim, PMP

Coorientador: Prof. Dr. Adriano Ferreti

Borgatto

FLORIANÓPOLIS

2014

Rafael Faccio

VALIDAÇÃO DE HEURÍSTICAS DE USABILIDADE PARA CELULARES

TOUCHSCREEN POR MEIO DE TESTES DE USABILIDADE

Trabalho de Conclusão de Curso

apresentado ao Departamento de

Informática e Estatística da Universidade

Federal de Santa Catarina para a

obtenção do Grau de Bacharel em

Sistemas de Informação.

Florianópolis, 2014

_____________________________________________

Profa. Christiane Gresse von Wangenheim, INE/UFSC

Professora Orientadora

_____________________________________________

Prof. Adriano Ferreti Borgatto INE/UFSC

Professor Coorientador

_____________________________________________

Juliane Vargas Nunes

Membro da Banca Examinadora

RESUMO

FACCIO, Rafael. Validação De Heurísticas De Usabilidade Para Celulares Touchscreen Por Meio De Testes De Usabilidade. 78 p. Trabalho de Conclusão de Curso (Bacharel em Sistemas de Informação) – Departamento de Informática e Estatística. Universidade Federal de Santa Catarina, Florianópolis, 2014.

Atualmente celulares cada vez mais modernos e capazes estão fazendo parte de

nossas vidas que nos apresentam novas formas de interação. Dentre eles,

destacam-se os touchscreen smartphones, aparelhos com tela sensível ao toque e

capacidade de processamento avançado. Na engenharia de usabilidade existem

vários conjuntos de heurísticas de usabilidade voltados para sistemas desktop, mas,

devido às diferenças de uso apresentadas pelos smartphones, faz-se necessário

conjuntos de heurísticas de usabilidade focadas neles. Ou seja, para que estes

dispositivos ofereçam a melhor experiência de uso de maneira eficiente e eficaz.

Para isso, foi desenvolvido no GQS/INCoD/UFSC um conjunto de heurísticas de

usabilidade e um checklist para medir a usabilidade de aplicativos em celulares

touchscreen chamado MATcH. O presente trabalho tem como objetivo validar esse

conjunto de heurísticas de usabilidade para celulares touchscreen por meio de um

estudo empírico comparativo entre resultados obtidos na aplicação do MATcH com

resultados obtidos por meio de testes de usabilidade, buscando uma maior

confiabilidade no uso do MATcH. Foram realizadas duas iterações de testes e um

total de 9 aplicativos foram testados através de tarefas pré-definidas por meio de

testes presenciais e à distância (online). Após a análise dos resultados obtidos foi

possível perceber uma inconsistência em quase 70% dos resultados comparados,

percebendo uma propensão do MATcH em avaliar mais firmemente questões de

usabilidade ligadas ao projeto e design da interface quando os testes de usabilidade

têm uma propensão de avaliar a experiência geral do usuário. Com base nesta

análise foi realizada a validação, e discutida a necessidade de um refinamento para

aproximar os resultados do MATcH com o resultado dos testes de usabilidade de

forma mais confiável.

Palavras-chave: Usabilidade. Celulares Touchscreen. Heurísticas de

Usabilidade. Teste de Usabilidade.

LISTA DE FIGURAS

FIGURA 1: METODOLOGIA .................................................................................... 14

FIGURA 2: USO E CONTEXTO DA INTERAÇÃO HUMANO-COMPUTADOR ..................... 17

FIGURA 3: DEFINIÇÃO DO ESTUDO COMPARATIVO ................................................. 32

FIGURA 4: PÁGINA DO QUESTIONÁRIO ONLINE ATRAVÉS DO LIMESURVEY ................ 33

FIGURA 5: APLICATIVOS SELECIONADOS E DEFINIÇÃO DA ITERAÇÃO 1 ..................... 34

FIGURA 6: APLICATIVOS SELECIONADOS E DEFINIÇÃO DA ITERAÇÃO 2 ..................... 37

FIGURA 7: PARTICIPANTE RESPONDENDO O QUESTIONÁRIO PRESENCIALMENTE ....... 38

FIGURA 8: PLANILHA EXCEL COM AS RESPOSTAS DOS QUESTIONÁRIOS UNIFICADAS .. 41

FIGURA 9: RESULTADOS OBTIDOS ........................................................................ 43

FIGURA 10: GRÁFICO COMPARATIVO ENTRE OS RESULTADOS DO SUS E DO SURE. 48

LISTA DE TABELAS

TABELA 1: HEURÍSTICAS DE NIELSEN .................................................................... 19

TABELA 2: CONJUNTO UNIFICADO DE HEURÍSTICAS PARA CELULARES (SALAZAR, ET AL.,

2012) .......................................................................................................... 22

TABELA 3: ESCALA DE MEDIÇÃO DE USABILIDADE .................................................. 23

TABELA 4: EXTRAÇÃO DE DADOS ......................................................................... 26

TABELA 5: EXEMPLO DE ESCALA LIKERT DE RESPOSTA .......................................... 29

TABELA 6: CRITÉRIOS DE ESCOLHA DE APLICATIVOS (OLIVEIRA, 2013) ................. 34

TABELA 7: TAREFAS POR APLICATIVO NA ITERAÇÃO 1 ............................................ 35

TABELA 8: APLICATIVOS PRÉ-SELECIONADOS PARA ITERAÇÃO 2 .............................. 36

TABELA 9: TAREFAS DEFINIDAS PARA OS APLICATIVOS DA 2ª ITERAÇÃO ................... 37

TABELA 10: ESPECIFICAÇÕES DO IPHONE 4S ........................................................ 38

TABELA 11: ESPECIFICAÇÕES DO SAMSUNG GALAXY Y TV .................................... 39

TABELA 12: RESUMO DEMOGRÁFICO DOS PARTICIPANTES DA 2ª ITERAÇÃO .............. 40

TABELA 13: DADOS UNIFICADOS DA ITERAÇÃO 1 E 2 .............................................. 42

TABELA 14: MÉDIA DE NOTAS POR PLATAFORMA (ITERAÇÕES 1 E 2) ....................... 47

TABELA 15: DIVERGÊNCIA NA CLASSIFICAÇÃO DE USABILIDADE (ITERAÇÕES 1 E 2) .. 51

LISTA DE ABREVIATURAS E SIGLAS

ANATEL – Agência Nacional de Telecomunicações

TRI - Teoria de Resposta ao Item

IHC - Interação Humano-Computador

UFSC – Universidade Federal de Santa Catarina

CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

GQS – Grupo de Qualidade de Software

INCoD - Instituto Nacional de Convergência Digital

SUS – System Usability Scale

SURE - Smartphone Usability questionnaiRE

INE – Departamento de Informática e Estatística

SUMÁRIO

1 INTRODUÇÃO ...................................................................................... 10

1.1 PROBLEMA ........................................................................................... 12

1.2 OBJETIVOS ........................................................................................... 13

1.3 MÉTODO DE PESQUISA .......................................................................... 14

1.4 ESTRUTURA DO DOCUMENTO ................................................................ 16

2 FUNDAMENTAÇÃO TEÓRICA ............................................................ 17

2.1 ENGENHARIA DE USABILIDADE ............................................................... 17

2.2 HEURÍSTICAS DE USABILIDADE ............................................................... 18

2.2.1 Heurísticas para Celulares .......................................................................... 21

2.2.1.1 MATcH – Measuring Usability of Touchscreen Phone Applications ......... 22

3 ESTADO DA ARTE ............................................................................... 24

3.1 DEFINIÇÃO ............................................................................................ 24

3.2 EXECUÇÃO ........................................................................................... 25

3.3 EXTRAÇÃO DE DADOS E ANÁLISE ............................................................ 26

4 VALIDAÇÃO DO CONJUNTO DE HEURÍSTICAS MATCH ................. 31

4.1 DEFINIÇÃO ............................................................................................ 31

4.1.1 Primeira Iteração ........................................................................................ 34

4.1.2 Segunda Iteração ....................................................................................... 35

4.2 EXECUÇÃO ........................................................................................... 37

4.3 ANÁLISE DOS DADOS ............................................................................ 40

4.3.1 Pergunta De Pesquisa ................................................................................ 42

4.3.2 A Plataforma Influencia Na Avaliação? ....................................................... 47

4.3.3 O Tipo Do Questionário Influencia Na Avaliação? ...................................... 48

4.3.4 O Tipo Do Aplicativo Influencia Na Avaliação? ........................................... 49

5 DISCUSSÃO ......................................................................................... 50

5.1 DISCUSSÃO GERAL ............................................................................... 50

5.2 AMEAÇAS A VALIDADE ........................................................................... 53

6 CONCLUSÃO ....................................................................................... 54

REFERÊNCIAS ............................................................................................ 55

APENDICE A – TAREFAS POR APLICATIVO ........................................... 60

APENDICE B - TERMO DE CONSENTIMENTO LIVRE E ESCLARECIDO67

ANEXO A – CHECKLIST MATCH ............................................................... 69

ANEXO B – SURE ....................................................................................... 72

ANEXO C – SURE RESUMIDO ................................................................... 75

10

1 INTRODUÇÃO

Celulares são dispositivos que rapidamente se integraram ao mundo em que

vivemos e já fazem parte do modo de vida das pessoas sendo considerados

aparelhos imprescindíveis para grande parte delas. Sua rápida aceitação chegou a

um ponto em que existem tantas linhas de celulares quanto pessoas no mundo (UN,

2013), isto significa quase 7 bilhões de linhas ativadas. As vendas mundiais de

dispositivos móveis atingiram 1,75 bilhões de unidades em 2012, e o quarto período

desse mesmo ano viu um acréscimo de 38,3% (GARTNER, 2013) em relação ao

mesmo período do ano passado. A previsão de aumento de unidades vendidas é de

50% até 2014 (LEE, 2011), comprovando a popularidade da tecnologia e justificando

uma concentração de pesquisa nesta área, visando seu aprimoramento. No Brasil, a

situação é promissora também, tendo registrado mais de 271,1 milhões linhas ativas

e 9,92 milhões de novas linhas ativadas no ano de 2013, um crescimento de 3,35%

em relação ao ano passado. Também é importante notar o crescimento de acessos

à banda larga 3G (tecnologia introduzida por smartphones), um aumento de 75,85%

de janeiro a dezembro de 2013 (ANATEL, 2014).

Os celulares surgiram em meados da década de 70, e na época não eram os

aparelhos compactos e leves que conhecemos hoje. Eles foram bastante

aprimorados nas suas funcionalidades e capacidades desde lá, partindo do conceito

de um telefone móvel para legítimos computadores de bolso, com tecnologias como

câmera, GPS e sensores diversos, para citar alguns. Dentre os vários modelos de

celulares, os que viram uma maior ascensão e destaque nos últimos anos foram os

chamados smartphones. Smartphones, ou “celulares inteligentes” em tradução livre,

diferenciam-se de outros celulares pela sua capacidade de processamento mais

avançada e alta conectividade. Usualmente, são acompanhados de um Sistema

Operacional padronizado que oferece uma plataforma para desenvolvedores de

aplicações. Considera-se que são dispositivos que estão em uma categoria

intermediária entre computadores e os chamados feature phones, celulares mais

simples, com menor suporte a aplicações integradas desenvolvidas por terceiros.

Fisicamente, os smartphones diversificam entre si em relação ao número de botões,

tamanho e formas de entrada de dados e comandos. Dentre essas variedades, a

que mais se espera crescer, de acordo com uma pesquisa feita pela Strategy

11

Analytics (2008), são os touchscreen smartphones, com um total de 425 milhões de

aparelhos vendidos até o fim de 2013. Touchscreen phones são celulares que

possuem a tela sensível ao toque, dispensando o uso de teclados para interação

com os elementos na tela, sendo esta feita através de toques diretamente sobre a

representação gráfica dos elementos. Além de interação por toques, os touchscreen

phones podem oferecer uma série de sensores diferentes, como de luz,

proximidade, GPS e acelerômetros (WASSERMAN, 2010).

Outro fator a ser levado em consideração é o ambiente onde estes

dispositivos são utilizados, sendo bastante variados, diferentemente de

computadores pessoais. Um smartphone pode ser utilizado em qualquer ambiente

que uma pessoa pode imaginar (por exemplo: em movimento, em um local com

muito barulho, muita luz ou pouca luminosidade ou em casa calmamente). Estes

perfis variados de usuário modificam muito a experiência que uma pessoa poderá ter

com o aparelho, portanto, projetar aplicações com isto em mente pode vir a ser um

fator de sucesso (SALAZAR, et al., 2012), já que segundo Preece (2005), é de

grande importância que interfaces sejam eficientes e eficazes durante o uso

oferecendo uma experiência agradável ao usuário, ou seja, interfaces devem possuir

boa usabilidade. Segundo a ISO9241, usabilidade é a “medida na qual um produto

pode ser usado por usuários específicos para alcançar objetivos específicos com

eficácia, eficiência e satisfação em um contexto específico de uso”.

Como forma de mensurar e avaliar usabilidade, existem heurísticas de

usabilidade que podem ser utilizadas na hora de projetar a interface ou após, para

avaliá-la de forma padronizada. Segundo Nielsen (1994), heurísticas de usabilidade

são definidas como um conjunto de regras gerais que descrevem propriedades

comuns em interfaces usáveis derivado do conhecimento de aspectos psicológicos,

computacionais e sociológicos dos domínios do problema. Dentro do conjunto,

“Consistência e Padrões”, “Prevenção de erros” e “Feedback” são alguns exemplos.

Apesar de criadas para interfaces desktop, estas heurísticas foram adaptadas a

diferentes paradigmas (como tablets e TVs), existindo também conjuntos de

heurísticas especificamente para celulares (Salazar et al., 2012) (Bertini et al., 2006).

Uma forma de colocar em prática estas heurísticas é a avaliação heurística,

que é um método de inspeção de interfaces realizado por pesquisadores

especialistas em usabilidade e interação humano-computador, onde são

diagnosticados problemas de forma sistematizada. Segundo Nielsen (1994), a

12

necessidade de um grupo pequeno de avaliadores e o uso de regras pré-definidas

para encontrar problemas (heurísticas) é o que garante a praticidade e baixo custo

das avaliações heurísticas.

Uma ferramenta para operacionalizar a avaliação heurística é o checklist, e

sua elaboração é de grande importância para os resultados da avaliação. Segundo

Tezza (2009), checklists bem elaborados devem produzir resultados mais uniformes

e abrangentes, em termos de identificação de problemas de usabilidade. Em função

disso, o checklist MATcH passou por um processo de validação de suas questões,

apresentado por Witt (2013).

1.1 Problema

Foi desenvolvido no GQS/INCoD/UFSC um conjunto de heurísticas de

usabilidade e um checklist para avaliar a usabilidade de sistemas em dispositivos

touchscreen phones. Chamado de MATcH (Measuring Usability of Touchscreen

Phone Applications), este é um conjunto de heurísticas organizadas com base em

Nielsen e customizadas especificamente para os dispositivos móveis. Como

instrumento de avaliação heurística, o checklist do MATCH é composto de uma série

de itens que buscam identificar as características que representam efetivamente

uma boa usabilidade em interfaces touchscreen para celulares.

O problema que surge é a necessidade destas heurísticas customizadas para

smartphones em serem validadas quanto a sua confiabilidade e eficácia. A validação

de heurísticas deve ocorrer para determinar seu potencial em detecção de erros. Se

não validadas, os problemas por elas detectados podem não representar erros reais

ou ignorar problemas existentes, não cumprindo o propósito das heurísticas de

conduzir a um melhor desenvolvimento das interfaces.

Em Witt (2013), foi dado um primeiro passo para a validação deste conjunto

de heurísticas, realizando um estudo empírico composto de várias avaliações

heurísticas utilizando o checklist desenvolvido para este propósito. Este trabalho

resultou na identificação da relevância de cada item do checklist utilizando a TRI –

Teoria da Resposta ao Item (ANDRADE, 200) aplicando-o para avaliação de uma

série de aplicativos. A validação das heurísticas foi feita através da validação destes

itens; eliminando os itens que apresentavam problemas após a análise dos

13

resultados (itens com falta de consistência se comparados ao conjunto) e criando

uma escala padronizada de grau de usabilidade.

Em Oliveira (2013), foi então definido um questionário a ser aplicado ao final

de testes de usabilidade para celulares touchscreen e identificado que ele é

adequado para avaliação da usabilidade de aplicativos para celulares touchscreen.

Este questionário será utilizado para a captação dos resultados dos testes de

usabilidade neste trabalho.

Dessa forma a pergunta de pesquisa a ser analisada no presente trabalho é:

O conjunto de heurísticas e o checklist de usabilidade para dispositivos de celulares

touchscreen (MATcH) é valido quando comparado com os resultados de testes de

usabilidade?

1.2 Objetivos

Objetivo Geral:

O objetivo geral deste trabalho é validar as heurísticas e checklist de usabilidade

MATcH customizada para celulares touchscreen. Para este fim é realizando um

estudo empírico comparativo, onde são realizadas avaliações heurísticas utilizando

o checklist desenvolvido e uma série de testes de usabilidade referente aos mesmo

aplicativos para celulares touchscreen. Durante os testes de usabilidade, os dados

relativos a percepção dos usuários sobre a usabilidade do aplicativo serão coletadas

sistematicamente, a partir de um questionário pós-teste.

Objetivos Específicos:

Os objetivos específicos são:

O1. Analisar a teoria da área de usabilidade em termos de heurísticas de

usabilidade focando dispositivos celulares touchscreen.

14

O2. Analisar o estado da arte em relação a avaliações de heurísticas de

usabilidade em geral e para dispositivos celulares touchscreen.

O3. Comparar os resultados das avaliações heurísticas com MATcH com os

resultados de uma série de testes de usabilidade de 9 aplicativos.

Limites:

O presente trabalho possui as seguintes limitações:

1. É focado na avaliação do MATcH enquanto checklist para medir a

usabilidade de dispositivos celulares touchscreen.

2. A avaliação só é realizada em dispositivos celulares touchscreen que

possuam sistema operacional iOS ou Android. De acordo com a International Data

Corporation (IDC, 2014), estas duas plataformas representam juntas 95,7% do

mercado de sistemas operacionais para smartphones.

1.3 Método de Pesquisa

A metodologia de desenvolvimento deste trabalho é dividida em três etapas,

como mostra a figura 1:

Figura 1: Metodologia

Estudo de Caso

Iteração 1 Iteração 2Análise e

comparação

Revisão do Estado da Arte

Avaliações heurísticas existentes para interfaces de celulares touchscreen

Revisão da Literatura

Área Interação Humano-ComputadorÁrea de testes de usabilidade em

dispositivos móveis

15

Etapa 1 - Revisão da Literatura: Será levantado, a partir da literatura, a

definição sobre conceitos pertinentes a área de interação humano-computador em

geral e posteriormente com ênfase na área de heurísticas de usabilidade para

dispositivos celulares touchscreen.

Atividade 1.1: Definir conceitos da área a área de IHC/Engenharia de

usabilidade/Heurísticas de Usabilidade.

Atividade 1.2: Analisar a área de testes de usabilidade com dispositivos

moveis.

Etapa 2 – Revisão do estado da arte: Analisar o estado da arte em relação à

avaliação de heurísticas de usabilidade existentes para o design de interface para

celulares touchscreen. Para esta etapa será utilizada a técnica de revisão

sistemática de literatura (KITCHENHAM, 2007).

Atividade 2.1: Definir a revisão sistemática da literatura

Atividade 2.2: Executar a revisão sistemática da literatura

Atividade 2.3: Analisar e interpretar as informações extraídas

Atividade 2.4: Documentar e discutir os resultados

Etapa 3 - Estudo de Caso: Nessa etapa será realizado o estudo empírico

comparativo. Serão definidos o objetivo e o design do estudo. As avaliações dos

aplicativos para celulares touchscreen para plataformas iOS ou Android serão

realizadas em duas iterações utilizando de testes de usabilidade de forma remota e

presencial.

Atividade 3.1: Definir o estudo

Atividade 3.2: Realizar as avalições heurísticas usando o MATcH

Atividade 3.3: Executar a iteração 1 dos testes de usabilidade

Atividade 3.3.1: Executar os testes de usabilidade remota não-moderada

Atividade 3.3.2: Executar os testes de usabilidade no laboratório

Atividade 3.4: Executar a iteração 2 dos testes de usabilidade

Atividade 3.4.1: Executar os testes de usabilidade remota não-moderada

Atividade 3.4.2: Executar os testes de usabilidade no laboratório

16

Atividade 3.5: Analisar os resultados dos testes de usabilidade

Atividade 3.6: Comparar resultados

1.4 Estrutura Do Documento

Este trabalho está estruturado em seis capítulos. No capítulo dois, o autor

apresenta a fundamentação teórica, onde aborda os conceitos de sustentação do

estudo. Conceitos de engenharia de usabilidade, heurísticas de usabilidade e

heurísticas para celulares, bem como a apresentação do conjunto de heurísticas a

ser validado neste estudo de caso.

No capítulo três, é apresentado um estudo do estado da arte, analisando o

panorama atual de pesquisas elaboradas na mesma área deste trabalho a partir de

uma revisão sistemática da literatura. Trabalhos sobre validação de heurísticas

voltadas aos dispositivos móveis são estudados.

No capítulo quatro é realizada a validação de um conjunto de heurísticas

para celulares touchscreen. São definidos os testes realizados e os resultados

obtidos são analisados.

No capítulo cinco os dados analisados são então discutidos de forma mais

geral, bem como são discutidas as ameaças à validade deste trabalho.

No capítulo seis são realizadas as conclusões deste estudo de caso

comparativo e também aborda-se os possíveis trabalhos futuros nesta área de

pesquisa.

17

2 FUNDAMENTAÇÃO TEÓRICA

Neste capítulo são apresentados conceitos e definições teóricas acerca de

usabilidade e seus assuntos relacionados, como avaliações heurísticas, interfaces e

interações humano-computador e abordagens para validação em dispositivos

móveis.

2.1 Engenharia De Usabilidade

Ao iniciar o estudo de engenharia de usabilidade, podemos começar pela

conceituação da interação humano-computador (IHC). Esta área da Ciência da

Computação surgiu no início dos anos 80 e tem se expandido rapidamente até os

dias de hoje, adotando um caráter multidisciplinar a medida que sua popularidade

aumenta e sua importância no dia a dia é reconhecida (CARROL, 2009). A IHC foca

num melhor desenvolvimento da interface utilizada para nos comunicarmos com as

máquinas e computadores e, por consequência, aperfeiçoarmos as tarefas

cotidianas através de tecnologias que se misturam ao ambiente analógico com o

mínimo de fricção possível. Ou seja, visa o melhor desempenho das tarefas

realizadas por seres humanos em máquinas e a estrutura que possibilita isso, bem

como analisar a capacidade de aprendizado do ser humano das diferentes interfaces

existentes até a sua devida especificação e implementação (ACM, 2009).

Figura 2: Uso e Contexto da Interação Humano-Computador

Fonte: ISO 9241-11 Requisitos Ergonômicos para Trabalho de Escritórios com Computadores.

18

Segundo a ISO 9241-11, usabilidade é a “medida na qual um produto pode

ser usado por usuários específicos para alcançar objetivos específicos com eficácia,

eficiência e satisfação em um contexto específico de uso”. Esta se refere à relação

que se estabelece entre usuário, tarefa, interface, equipamento e demais aspectos

do ambiente no qual o usuário utiliza o sistema. Eficiência neste contexto está

relacionada ao quão bem o produto faz o que é esperado dele; eficácia está

relacionada ao modo como este produto melhora a realização das tarefas dos

usuários e satisfação é uma medida de conforto e de atitude do usuário em relação

ao uso deste produto (PREECE, 2005) (ISO 9241-11).

A Engenharia de Usabilidade é uma área da ciência que tem como objetivo

apresentar técnicas que possam ser implementadas metodicamente para garantir

um nível de qualidade de usabilidade da interface dos produtos. O conceito de

qualidade de usabilidade de um produto ou interface é determinado por um processo

de avaliação e atividades validadas (PÁDUA, 2011).

O termo “interface” começou a ser utilizado em computação como o ponto de

interação entre o software e o hardware para o usuário realizar tarefas. Com o

passar do tempo e a popularização da computação, o termo abrange agora aspectos

emocionais e cognitivos do usuário enquanto ocorre esta interação com o sistema

(ROCHA; BARANAUSKAS, 2003). Carvalho (2003) diz que o desenvolvimento

destas interfaces de modo profissional é uma etapa complexa devido aos aspectos

humanos (e bastante variáveis) das relações e por isso esta área de estudo pode

definir a adoção de uma nova tecnologia e, portanto deve ser considerado com igual

importância ao projetar novos produtos.

Preece (1994) propõe uma sequência de processos de engenharia de

usabilidade que é composta, em ordem, de: definição dos objetivos de usabilidade

utilizando métricas, especificar níveis de usabilidade a serem alcançados, analisar

impactos de soluções de projeto, utilizar o feedback proveniente dos usuários

durante o projeto e repetir o ciclo até alcançar os níveis planejados.

2.2 Heurísticas De Usabilidade

A usabilidade em seu conceito mais abrangente pode se referir à facilidade de

uso do design aplicado a diferentes tipos de usuário e ambientes. Para melhor

19

qualificar usabilidade em um produto, podem ser implementados alguns parâmetros

pelos desenvolvedores a fim de auxiliar no desenvolvimento e tornar o desenho da

interface menos complexa e frustrante. Heurísticas são, segundo Nielsen (1994),

regras/diretrizes para encontrar uma melhor maneira de resolver um problema de

forma eficiente com um bom custo-benefício e resultados confiáveis. Elas descrevem

propriedades comuns em interfaces. Estas propriedades são derivadas de estudos

de aspectos psicológicos, computacionais e sociológicos do problema. Estas regras

são utilizadas tanto para direcionar o design de interface quanto na avaliação da

usabilidade. A seguir na tabela 1 estão descritas as 10 heurísticas de Nielsen.

Tabela 1: Heurísticas de Nielsen

Heurística Definição

Visibilidade de Status do Sistema Identificar o estado atual do sistema ao efetuar ações para que o

usuário possa saber o que está acontecendo.

Relacionamento entre a interface do

sistema e o mundo real

A interface precisa estar contextualizada com o domínio de

comunicação que o usuário alvo possui

Liberdade e controle do usuário O usuário deve se sentir no comando podendo desfazer e cancelar

ações indesejadas ou retornar facilmente a um estado anterior

Consistência Indicar ações iguais de maneira igual e utilizar o mesmo tipo de

linguagem através de toda a interface para facilitar aprendizagem

Prevenção de erros Ações definitivas (de deleção ou envio de dados) serem

acompanhadas por avisos claros e possibilidade de cancelamento

Reconhecimento no lugar de

lembrança

Utilizar símbolos contextualizados e em lugares coerentes para que

o usuário não precise lembrar o que cada área ou função do sistema

executa

Flexibilidade e eficiência de uso O sistema precisa ser fácil para usuários leigos, mas flexível o

bastante para se tornar ágil aos usuários avançados.

Estética e design minimalista Textos e design simples, diretos e de acordo com a necessidade

apenas

Ajudar usuários a reconhecer,

diagnosticar e resolver erros

As mensagens de erro devem ser claras quanto ao que ocorreu

indicando uma saída ou solução construtiva

Ajuda e documentação Quando necessária, a documentação de ajuda deve ser encontrada

facilmente, com linguagem simples e indicação clara dos passos

para realizar as tarefas necessárias.

Fonte: NIELSEN (1994)

20

É importante reconhecer que as heurísticas de Nielsen não são o único

conjunto de heurísticas possível. Dentre estes outros, podemos destacar também as

8 Regras de Design de Interface de Shneiderman (“Shneiderman’s 8 Golden Rules

of Interface Design”) (SHNEIDERMAN, 1998). Shneiderman propôs este conjunto de

heurísticas derivadas de sua experiência na Ciência da Computação e é aplicável a

grande parte de sistemas com interações humano-computador. É possível notar

várias semelhanças entre os conjuntos, como por exemplo as heurísticas de

“Consistência”, “Feedback” e a importância no tratamento de erros.

Uma avaliação heurística, segundo Nielsen, é um método de avaliação

sistemático a fim de encontrar problemas de usabilidade em designs de interface. A

avaliação é feita por especialistas em usabilidade, que revisam a interface

comparando-a com os princípios pré-definidos (heurísticas). O resultado desta

avaliação são os problemas de usabilidade, não é do objetivo da avaliação

heurística propor soluções. Avaliações heurísticas são baseadas em modelos, a fim

de poder inferir um grau de usabilidade ao alinhar o modelo às heurísticas.

Os responsáveis pela avaliação podem ser um grupo pequeno de

especialistas (de 3 a 5 avaliadores) que examinarão a interface e irão avaliá-la de

acordo com as heurísticas definidas. Estas avaliações são relativamente de baixo

custo e manutenção, não necessitando muito tempo para implementação. A eficácia

de sua aplicação é comprovada não só no início do desenvolvimento, mas em

qualquer estágio em que o projeto se encontra.

A avaliação de cada membro do grupo avaliador deve ser feita de forma

individual e imparcial. Para auxílio, podem ser definidos checklists que

compreendem os tópicos relevantes ao sistema; dessa forma, a análise se torna

padronizada entre os avaliadores e melhor preparada para análises estatísticas

(SALAZAR et al., 2012). É importante notar que, dependendo do caso, é possível

juntar e desenvolver um conjunto focado ao propósito ou contexto da avaliação.

21

2.2.1 Heurísticas para Celulares

Quando pensamos na época em que foram desenvolvidas as heurísticas de

Nielsen, é fácil imaginar o contexto em que o usuário se encontrava, já que a

variedade e capacidade dos aparelhos era menor. Hoje, smartphones possuem uma

série de aplicações feitas por terceiros que ampliam suas funcionalidades iniciais

(como redes sociais, email, resultados esportivos, entre outros). Estes aplicativos

são utilizados de forma bastante casual, por períodos de tempo curto (se

comparados ao desktop) e em ambientes em constante movimento ou com

distrações, sendo o uso do dispositivo realizado paralelamente. Os usuários estão

normalmente engajados em outras atividades maiores, onde o celular é um

dispositivo de ajuda ou consulta e estão mais sujeitos à interrupção de uso

(SALAZAR et al., 2012).

É em busca de melhor atender esta variedade de características dos

aplicativos de celulares que surge o interesse em customizar as heurísticas de

usabilidade. Heurísticas específicas tendem a oferecer melhor suporte para a

inspeção de interfaces touchscreen.

Dentre os conjuntos de heurísticas, em Salazar et al. (2013) foi analisada esta

questão para definir quais deles possuem este enfoque em dispositivos móveis e,

mais especificamente celulares touchscreen. A revisão sistemática encontrou artigos

considerados relevantes ao tópico e analisou-os em comparação com o conjunto de

heurísticas clássicas de Nielsen. O resultado encontrado foi que heurísticas como

“design minimalista” e “diálogo e linguagens naturais ao usuário” continuaram

presentes nestes conjuntos, enquanto “prevenção de erros” e “ajuda e

documentação” praticamente não aparecem. Alguns trabalhos, como Salazar et al.

(2013) e Bertini et al. (2006) ainda elaboram conjuntos com alguma adaptação e

heurísticas de usabilidade novas, frisando a necessidade destes dispositivos em

serem confortáveis e rápidos de usar (interação física e ergonomia) e de terem foco

claro com apenas a informação que o usuário realmente procura ao utilizá-lo; a

compatibilidade entre diferentes plataformas também é um ponto citado entre

algumas destas pesquisas como uma nova heurística.

22

2.2.1.1 MATcH – Measuring Usability of Touchscreen Phone Applications

Foi desenvolvido no GQS/INCoD/UFSC um conjunto de heurísticas de

usabilidade e um checklist para avaliar a usabilidade de sistemas em dispositivos

touchscreen phones (Salazar, et al., 2012) (Nunes, et al., 2013). O MATcH

(Measuring Usability of Touchscreen Phone Applications) é um conjunto de

heurísticas adaptadas de Nielsen para os dispositivos móveis e decompostas em

uma série de itens de medida que representem efetivamente uma boa usabilidade.

Tabela 2: Conjunto Unificado de Heurísticas para Celulares (Salazar, et al., 2012)

Conjunto Unificado de Heurísticas para Celulares

Tradicionais

Visibilidade e Status do Sistema

Compatibilidade entre o Sistema o Mundo Real

Liberdade e Controle do Usuário

Consistência e Padrões

Prevenção de Erros

Reconhecimento em vez de Lembrança

Flexibilidade e Eficiência de Uso

Estética e Design Minimalista

Ajudar os usuários a reconhecer, diagnosticar e

recuperar de erros

Ajuda e documentação

Novas

Compatibilidade entre Diferentes Plataformas

Pouca interação homem/dispositivo

Interação Física e Ergonomia

Legibilidade e Layout

Ele foi operacionalizado através de um checklist baseado em problemas

específicos para este ambiente de uso (Anexo A).

23

O conjunto de heurísticas e o checklist foram analisados por meio de um

estudo empírico usando a técnica de estatística de TRI – Teoria de Resposta ao

Item (WITT, 2013). A TRI é um conjunto de modelos matemáticos que procuram

representar a probabilidade de um indivíduo dar uma certa resposta a um item como

função dos parâmetros do item e da habilidade (ou habilidades) do respondente

(ANDRADE, et al., 2000). A Teoria da Resposta ao Item também possibilita a criação

de escalas a partir de um checklist que utiliza os conceitos de usabilidade (TEZZA,

2009). Essa validação foi realizada com base na aplicação do checklist em 247

aplicativos. As respostas ao checklist destas aplicações foram então analisados

utilizando a Teoria da Resposta ao Item, a fim de identificar itens problemáticos. O

checklist inicial continha 92 itens que, após análises de consistência do traço latente,

foi finalizado com 48 itens para avaliação. A partir da relevância estatística destes

itens comprovada pela TRI, e com base na análise apresentada em Witt (2013), as

heurísticas MATcH podem ser também consideras válidas para medir o grau de

usabilidade. Como resultado, também foi definida uma escala padronizada de

medição de usabilidade. Esta pesquisa pode ser acessada via o website:

http://www.gqs.ufsc.br/MATcH-measuring-usability-of-touchscreen-phone-

applications/.

Tabela 3: Escala de Medição de Usabilidade

Faixa Descrição

Até 20 pontos Usabilidade Muito Baixa

30 Usabilidade Baixa

40 Usabilidade Razoável

50 Usabilidade Alta

60 Usabilidade Muito Alta

24

3 ESTADO DA ARTE

Este capítulo tem como objetivo apresentar o estado atual em que se

encontram as pesquisas relacionadas a validações de conjuntos de

heurísticas/checklists desenvolvidos para a avaliação heurística de dispositivos

móveis touchscreen.

3.1 Definição

Com o objetivo de analisar o estado da arte sobre pesquisas relacionadas a

validações de conjuntos de heurísticas/checklists desenvolvidos para a avaliação

heurística de dispositivos móveis touchscreen. A questão principal a ser avaliada

nesta seção é: Como são avaliados os conjuntos de heurísticas de usabilidade para

dispositivos móveis?

Para responder esta questão, é realizada uma revisão sistemática da

literatura, seguindo o procedimento proposto por Kitchenham (1994). O objetivo é

buscar artigos e publicações descrevendo pesquisas que validam conjuntos de

heurísticas e checklists desenvolvidos para a avaliação heurística de dispositivos

móveis, mais especificamente dispositivos touchscreen.

Critérios de Inclusão/Exclusão:

O trabalho deve ser focado em analisar interfaces de dispositivos móveis

touchscreen

O trabalho deve apresentar o uso de algum conjunto de heurística

O objetivo do trabalho deve ser avaliar a usabilidade da interface um dispositivo

móvel

O trabalho deve apresentar relação com métodos de avaliação heurísticas

O trabalho deve apresentar a validação dos conjuntos de heurísticas nele

propostos

25

A pesquisa foi feita utilizando o mecanismo de pesquisa acadêmica online

Google Scholar e nas bases da IEEE. Para padronizar a busca foi utilizado o

seguinte termo de busca:

“interface usability heuristics evaluation mobile OR smartphone OR handheld

OR cellphones touch screen”.

Foram levados em consideração artigos em inglês e português publicados no

período de 2008 até 2013. Devido ao caráter de rápida evolução na tecnologia

envolvida em celulares e a popularização recente dos que possuem tela sensível ao

toque, artigos anteriores à 2008 foram considerados desatualizados e não

agregariam informações relevantes hoje em dia. Nos termos de busca, por causa do

fato de dispositivos móveis possuírem diversos sinônimos na língua inglesa, foram

incluídos na pesquisa palavras intercambiáveis para "mobile" (smartphone,

handheld, cellphone), a fim de ampliar o número de resultados.

3.2 Execução

A busca foi realizada em setembro de 2013, e resultou em aproximadamente

3,780 resultados no Google Scholar, sendo que pesquisa na base de dados

IEEExplore retornou 7 resultados aplicados os mesmos termos de inclusão e

exclusão, porém aqui não refinando de acordo com o período por causa do número

bastante reduzido de resultados.

Foram excluídas publicações que: não tratassem de dispositivos móveis

touchscreen; não possuíssem o foco da pesquisa em avalição heurística; não

citassem a forma de pesquisa com foco em usabilidade.

Após analisar os resultados do Google Scholar até a página 10 e os 7

resultados na IEEE, levando em consideração o título, resumo apresentado e

aplicando-se os critérios de inclusão e exclusão, restaram 9 artigos considerados

relevantes. Destes artigos, realizando uma leitura e análise aprofundada de cada

um, restaram 4 artigos relevantes para discussão.

26

3.3 Extração de Dados e Análise

A tabela 4 apresenta os artigos relevantes encontrados na pesquisa.

Tabela 4: Extração de Dados

Referência Tipo de objeto avaliado

Heurísticas Design de pesquisa (experimento/estudo de caso)

Avaliação heurística

Teste de usabilidade

Sistema/ software/app

Técnica estatística para fazer análise

(Jeongyun, H.; Dong-Han, H.; Sanghyun, P.; Chiwon, S.; Wan Chul, Y.; 2009)

Não informado (N. I.)

Combinado das heurísticas de Nielsen (1994), ISO/IEC 9241-11 (1998), e Hix and Hartson’s principles (1993). Número total não informado.

Estudo de caso de um framework de avaliação heurística contemplando vários tipos de UI (interfaces de usuário)

8 avaliadores

Utilizando um checklist com Likert-scale de 5 pontos

Sistema Operacional de Celulares (não informado quais dispositivos)

Não apresentada uma análise estatística

(Ji, Y. G.; Park, J. H.; Lee, C.; Yun, M. H.; 2006)

3 Celulares

tradicionais

distintos

(dispositivos

pre-

smartphone

s)

21 heurísticas extraídas de diversas fontes (Constantine, 1994; Nielsen, 1994; Treu, 1994; Dix, Finlay, Abowd and Beale, 1998; Lauessen e Younessi, 1998; Preece, Rogers e Sharp, 2002;)

Estudo de caso comparando resultados de avaliação heurística com testes de usabilidade

10 avaliadores (5 homens, 5 mulheres, usuarios com experiência no uso dos celulares) para realizar tarefas e graduar a experiência de uso

Checklist com Likert-scale de 7 pontos

Sistema pré-instalado nos dispositivos

ANOVA (análise de variância)

27

(Inostroza, R.; Rusu, C.; Roncagliolo, S.; Jimenez, C.; Rusu, V., 2012)

Blackberry Storm 2 (9550)

Definidas a partir de uma metodologia de 6 Passos (C. Rusu, et al, “A methodology to establish usability heuristics”) em conjunto com uma adaptação das Heurísticas de Nielsen. Resultou em 11 heurísticas (10 baseadas em Nielsen e adaptadas ao paradigma mobile/touchscreen, 1 resultante de análises das características dos dispositivos e problemas de usabilidade encontrados)

Estudo de caso utilizando heurísticas tradicionais (Nielsen) comparando com heurísticas focadas em dispositivos móveis touchscreen utilizando um checklist.

4 avaliadores, 2 avaliando sob o conjunto tradicional de Nielsen, 2 sob o conjunto de 11 heurísticas adaptadas

Não realizado Blackberry Operating System (v. 5.0.0.1015)

N.I.

(Bertini, E.; Gabrielli, S.; Kimani, S.; 2006)

N. I. 8 heurísticas definidas a partir de uma adaptação das heurísticas de Nielsen (1994) em comparação com problemas comuns de usabilidade em dispositivos móveis

Estudo de caso comparando resultados de avaliação heurística com testes de usabilidade

8 avaliadores, 4 utilizando as heurísticas de Nielsen e 4 utilizando o conjunto adaptado de 8 heurísticas

O teste ocorreu com o uso das aplicações e o avaliador descrevendo as tarefas que estava realizando e identificando os problemas na escala SRS proposta por Nielsen

Aplicativo de supermercado de PDAs e um aplicativo de e-mail de PDAs

N. I.

28

Analisando estes artigos e com base nos resultados das pesquisas, fica

evidente que o número de artigos que tratam e validam os conjuntos de heurísticas

propostos para estes dispositivos é muito baixo e, muitas vezes, estão

desatualizados com o padrão touchscreen dos dias atuais. Com base nos números

divulgados por Gartner (2013), pela ANATEL (2014) e pela IDC (2014), é evidente a

popularidade crescente de celulares.

De acordo com estes artigos, as interfaces são avaliadas por meio de

avaliações heurísticas ou com base em testes de usabilidade. Normalmente

envolvendo poucos participantes e em ambiente controlado (em laboratório). Pela

quantidade baixa de artigos encontrados que descrevem algum tipo de avaliação

heurística, elas não parecem estar sendo amplamente executadas, e quando feitos

testes de usabilidade, a escala de participantes, aplicações e dispositivos é bastante

reduzida. Por consequência, os resultados encontrados não demonstram números

significativos de um ponto de vista estatístico, e portanto, podem não ser

considerados conclusivos, de acordo com os próprios autores dos artigos

analisados.

A partir dos artigos encontrados pode ser visto que este tipo de avaliação e

geralmente é feito a) comparando os resultados da avaliação heurística realizada

com conjuntos tradicionais e da avaliação com um conjunto específico para a

pesquisa ou b) realizando também testes de usabilidade, para posteriormente

comparar os resultados destes testes com os resultados das avaliações heurísticas.

As avaliações heurísticas foram aplicadas em sua grande maioria em apenas

um dispositivo e focando em funcionalidades do sistema operacional destes (ao

invés de aplicativos de terceiros). Ele foi conduzido por profissionais ligado à área de

Usabilidade ou de Interação Humano-Computador, e que possuíam conhecimento

prévio de como realizar uma avaliação deste tipo. Também foi amplamente utilizada

uma escala de satisfação do tipo Likert, variando entre 5 e 7 pontos, dependendo do

estudo. A escala Likert é útil para indicar o nível de concordância ou discordância

dos participantes de testes (PADILHA, 2004). A tabela 5 demonstra um exemplo de

como seria uma escala likert de 4 pontos.

29

Tabela 5: Exemplo de escala Likert de Resposta

Escala Descrição

1 Discordo Totalmente

2 Discordo

3 Concordo

4 Concordo Totalmente

Os testes de usabilidade foram aplicados definindo primeiramente uma série

de tarefas a serem executadas nos sistemas/aplicativos em grupos de até 10

pessoas, que já possuíam alguma familiaridade com dispositivos móveis. Após a

realização das tarefas, cada participante respondeu a um questionário para medir

sua satisfação. Estes participantes foram compensados pelo tempo dedicado ao

experimento. Os resultados dos testes coletados pelo checklist foram comparados

com os resultados obtidos pelos profissionais avaliadores normalmente encaixando

as perguntas dos questionários às heurísticas da avaliação e assim obtendo médias

de satisfação para cada aspecto das interfaces.

Das publicações selecionadas, apenas Inostroza et al. (2012) realizaram o

teste em um dispositivo touchscreen (Blackberry Storm), e validaram comparando os

resultados provenientes da análise através das heurísticas de Nielsen (1994) com

um novo conjunto proposto com base no tipo de dispositivo em avaliação. Dois

grupos distintos de avaliadores se utilizaram cada um de um dos conjuntos mas

aplicados sob o mesmo dispositivo. Esta é uma abordagem que parece ser popular

entre as observadas nos artigos, sendo que Bertini (2006) também se utilizou dela

anos antes.

O resultado encontrado dentro destas publicações foi uma maior eficiência em

identificar problemas de usabilidade através dos conjuntos adaptados do que com o

conjunto tradicional.

Nas outras duas publicações, apesar de não apresentarem a comparação

com conjuntos tradicionais, a criação do conjunto voltado aos dispositivos móveis

também se deu a partir destas heurísticas já pré-estabelecidas (englobando

inclusive outras além das de Nielsen).

30

Finalizada a pesquisa, observa-se que conjuntos de heurísticas voltadas para

celulares touchscreen ainda é pouco explorado. Por isso, o presente trabalho

procura expandir o estado atual desta área.

31

4 VALIDAÇÃO DO CONJUNTO DE HEURÍSTICAS MATCH

Neste capitulo é apresentada a definição dos testes de usabilidade realizados

para atingir o objetivo deste trabalho. Por meio de um estudo de caso comparativo

entre avaliações heurísticas utilizando MATcH e uma série de testes de usabilidade

será feita a validação das heurísticas de usabilidade MATcH.

4.1 Definição

O objetivo da validação do conjunto de heurísticas MATcH é avaliar a

confiabilidade e eficácia de uma avaliação heurística através do MATcH em

comparação com o grau de usabilidade percebido por usuários através de testes de

usabilidade de aplicativos móveis para celulares touchscreen.

Esta validação é feita através de um estudo de caso comparativo entre os

resultados de avaliações heurísticas usando MATcH e os resultados de duas

iterações de testes de usabilidade.

O questionário pós-teste de usabilidade utilizado nesta pesquisa foi elaborado

e avaliado em Oliveira (2013) e chamado de SURE - Smartphone Usability

Questionnaire1, composto de 37 itens. Este questionário foi aplicado em alguns

aplicativos pré-selecionados pelos pesquisadores. Isto ocorre para ser possível

concentrar um maior número de usuários por aplicativo (obtendo quantidade de

dados suficientes para análise), dada a enorme quantidade de aplicativos

disponíveis no mercado. Deste modo, tanto os usuários quanto os pesquisadores

avaliarão os mesmos aplicativos, facilitando comparações.

Os aplicativos selecionados estão distribuídos entre dois principais sistemas

operacionais de celulares touchscreen no momento, Android e iOS. De acordo com

1 Primeiramente batizado de TULIP - Touchscreen Usabilidade Pós-teste, mas rebatizado

posteriormente para SURE - Smartphone Usability Questionnaire.

32

o IDC (2014), o sistema operacional Android tem uma maior representatividade no

mercado atualmente, e por isso foram selecionados mais deste sistema do que de

iOS.

Em ambas iterações, o teste foi feito de maneira presencial e de maneira

online. Foi definido um termo de consentimento livre e esclarecido (apêndice B)

tanto para a aplicação no laboratório do Grupo de Qualidade de Software, da

Universidade Federal de Santa Catarina e em salas de aula, bem como na aplicação

à distância (por meio online em http://www.gqs.ufsc.br/teste) e apresentado aos

participantes antes do início dos testes, que assinavam após a leitura completa do

documento. Na figura 3, é possível visualizar o design do estudo, onde as flechas

representam a comparação que será feita entre os resultados em ambas as

iterações.

A pesquisa foi aprovada pelo Comitê de Ética em Pesquisas com Seres

Humanos, parecer nº 19988413.6.0000.0121.

Figura 3: Definição do Estudo Comparativo

No teste de usabilidade presencial, o voluntario é convidado a participar do

teste, onde são disponibilizados aparelhos no laboratório do GQS (podendo utilizar o

próprio celular se assim preferir) e as folhas de teste. Os aplicativos são sorteados

através de uma pilha de folhas de teste previamente embaralhadas, e que o próprio

participante retirava. Antes de realizar as tarefas, o participante lê e assina o Termo

de Consentimento Livre e Esclarecido. Então, o voluntário executava as tarefas

33

específicas presentes na sua folha e respondiam as questões (folhas de teste

compostas dos Apêndices A e B e do Anexo B).

O teste de usabilidade online consiste no participante voluntariamente

acessar o questionário disponibilizado pelo servidor do GQS. O questionário online

(Figura 4) foi realizado utilizando a plataforma Limesurvey

(https://www.limesurvey.org), ferramenta open source para realização de formulários.

A escolha desta plataforma se deu por permitir realizar um sorteio aleatório dos

aplicativos a serem testados, bem como randomização das questões dentro do

próprio questionário, a fim de evitar respostas inválidas resultantes de fadiga por

parte do voluntário.

Após passar a página introdutória da pesquisa, o participante é apresentado

com perguntas demográficas e sua identificação (nome, email) é opcional. Nas

páginas seguintes ocorrem a identificação do sistema operacional que o participante

irá utilizar (no caso, o que ele tem disponível em mãos) e é feito o sorteio do

aplicativo e reveladas as tarefas específicas a serem feitas (juntamente com um link

para o download do aplicativo caso o participante ainda não possua ele instalado), e

só então é apresentado ao participante o questionário pós-teste.

Figura 4: Página do Questionário Online através do Limesurvey

34

4.1.1 Primeira Iteração

A primeira atividade é definir os critérios de seleção de aplicativos para depois

realizar a avaliação heurística de aplicativos. Os critérios estão descritos na tabela 6.

Tabela 6: Critérios de escolha de aplicativos (OLIVEIRA, 2013)

1. Aplicativos gratuitos;

2. Aplicativos com diversas recomendações nas páginas que disponibilizam;

3. Aplicativos com número elevado de download

4. Aplicativos que não necessitam de informações bancárias do Usuário

5. Um aplicativo por cada faixa de usabilidade com base numa avaliação heurística através do MATcH (um aplicativo com usabilidade baixa, razoável, alta e muito alta).

Para esta primeira iteração, foram aproveitados parte dos resultados das

avaliações heurísticas realizadas em Witt (2013), limitando a seleção para apenas 5

aplicativos. Os selecionados encontram-se destacados nas caixas em cinza na

figura 5.

Figura 5: Aplicativos Selecionados e Definição da Iteração 1

*aplicativos para iOS

Foram então definidas tarefas específicas para cada aplicativo, com o objetivo

de padronizar a experiência de uso e obter resultados passíveis de comparação

entre os participantes (Apêndice A). Estas tarefas estão explicitadas na tabela 7.

35

Tabela 7: Tarefas por Aplicativo na Iteração 1

Aplicativo Tarefas

Buscapé

1.Faça uma busca pelo livro "Não me faça pensar".

2.Filtre os resultados pelo menor preço.

3.Calcule a oferta para o frete com menor preço.

Globoesporte.com

1.Veja notícias sobre o time Cruzeiro

2.Veja notícias sobre basquete.

3.Veja a classificação do Campeonato Brasileiro 2013 e leia em voz alta o nome do quinto colocado.

Gmail 1. Escreva um novo e-mail 2. Abra o e-mail da caixa de entrada 3. Delete o e-mail

Qual é a resposta?

1.Inicie um jogo

2. Pule a primeira questão.

3.Continue respondendo até o final do jogo.

Weather Channel

1.Veja a previsão do tempo para amanhã para a cidade de São Paulo.

2.Compartilhe a previsão com [email protected].

3.Leia em voz alta a previsão para a temperatura máxima.

4.1.2 Segunda Iteração

Para a segunda iteração os critérios de escolha de aplicativos foram os

mesmo da primeira (vide tabela 6), mas com base nas experiências e

conhecimentos obtidos na primeira iteração, optou-se por selecionar apenas

aplicativos dentro de um mesmo tema “Saúde”, para o caso desta iteração.

36

Para a escolha dos aplicativos nesta iteração também é preciso seleciona-los

com avaliações MATcH dentro de faixas de usabilidade diferentes. Foi feita então

novamente uma busca por aplicativos que já possuíam avaliação em Witt (2013)

dentro dos critérios definidos e encontrados sete pré-candidatos. Como os

aplicativos não se encaixavam dentro de todos os critérios simultaneamente, a lista

de candidatos foi completada incluindo aplicativos que se encaixassem em todos os

critérios e em faixas de usabilidade não representadas pelos já pré-selecionados.

Foi necessário o autor deste trabalho realizar novas avaliações nos que não

possuíam, através do questionário de avaliação MATcH disponível em

www.gqs.ufsc.br/MATcH, adicionando mais seis aplicativos à lista de pré-seleção.

Para estas avaliações heurísticas adicionais, três alunos bolsistas de iniciação

científica do laboratório do GQS e o autor deste trabalho discutiram, selecionaram e

testaram os novos aplicativos. A lista completa está na tabela 8.

Tabela 8: Aplicativos pré-selecionados para iteração 2

Aplicativo Plataforma

Appediatria Android

Bulas LinkSaude iOS

Cardiograph Android

Cruzi Android

Dieta e Saude Android

Eu Atleta Android

Medscape Android e iOS

Myway Diabetes Manager Android

Nike+ Running Android e iOS

Pressão Arterial Android

Resultados iOS

Runkeeper Android

Runtastic Android

Aplicando os critérios de seleção, foram então eliminados aplicativos em que

era obrigatório o cadastro de informações, que não eram gratuitos e que se

encaixavam em faixas de usabilidade diferentes. Resultando nos seguintes

aplicativos selecionados para os testes conforme Figura 6.

37

Figura 6: Aplicativos Selecionados e Definição da Iteração 2

*aplicativo para iOS

Próximo passo foi a definição das tarefas para estes aplicativos, da mesma

forma como foi realizado na primeira iteração. As tarefas estão representadas na

tabela 9.

Tabela 9: Tarefas Definidas para os aplicativos da 2ª Iteração

Aplicativo Tarefas

Resultados 1. Acessar o exame através do protocolo fornecido 2. Acessar as imagens do exame realizado 3. Acessar através do histórico um exame do ano passado.

Cruzi 1. Buscar informações sobre a doença Febre Amarela e ler o Médico Especialista 2. Procurar pelo remédio "Paracetamol" e citar suas indicações.

3. Ler as doenças que a Especialidade Médica "Cardiologista" trata.

Cardiograph 1. Medir os batimentos cardíacos por 30 segundos e dizer a média indicada. 2. Olhar o histórico de medições e ler a última medição.

3. Apagar a última medição feita.

Runkeeper

1. Selecionar uma atividade do tipo caminhada 2. Selecionar uma "rotina de exercícios" como "meta de ritmo" e para um tempo de 20 minutos. 3. Dar início à atividade por 10 segundos e selecionar "parar" e depois "salvar".

4.2 Execução

A iteração 1 foi executada em setembro de 2013 aplicando-se o teste de

usabilidade com o questionário SURE - Smartphone Usability Questionnaire

(Oliveira, 2013) composto por 37 itens para avaliar a usabilidade dos aplicativos. Na

primeira iteração, 305 pessoas participaram no total, 185 através do teste de

38

usabilidade online e 120 no teste de usabilidade presencial, aplicado no laboratório e

em salas de aula cedidas por alguns professores da universidade.

Em maio de 2014 foi realizada à segunda iteração dos testes. Ao fim do

período de testes, um total de 48 pessoas participaram, sendo 36 através no

questionário online e 12 através dos questionários e aparelhos disponibilizados no

laboratório do GQS.

Figura 7: Participante respondendo o questionário presencialmente

Os participantes que realizaram seus testes no laboratório do GQS utilizaram

os aparelhos pré-selecionados iPhone 4S (Apple) e Galaxy Y TV (Samsung),

especificados nas tabelas 10 e 11.

Tabela 10: Especificações do iPhone 4S

Tamanho da Tela 3.5 polegadas

Resolução da tela 640 x 960 pixels

Método touchscreen TFT capacitive touchscreen

Sistema operacional iOS 7

Peso 140 g

Fonte: http://www.apple.com/br/iphone-4s/specs/

39

Tabela 11: Especificações do Samsung Galaxy Y TV

Tamanho da Tela 3.14 polegadas

Resolução da tela 240 x 320pixels

Método touchscreen TFT capacitive touchscreen

Sistema operacional Android 2.3

Peso 98 g

Fonte: http://www.samsung.com/br/consumer/cellular-phone/cellular-phone-

tablets/smartphones/GT-S5367MAPZTO

Para participar online, os voluntários acessavam o teste através do link

http://survey.gqs.ufsc.br/index.php/641732/lang-pt-BR. Um dos aplicativos

selecionados para a segunda iteração (“Resultados”) foi desenvolvido pela UFSC e

não estava presente nas lojas de aplicativos da plataforma iOS, portanto precisou

ser removido do teste de usabilidade online e mantido apenas nos testes

presenciais. Para guiar os participantes que poderiam responder possuir um celular

com sistema iOS ou outro que não fosse Android, foi inserida uma função no

Limesurvey que finalizava o questionário e o teste para estes usuários após

responder a seção de perguntas demográficas do questionário.

Já os participantes que selecionavam “Android” como o sistema operacional

de seus aparelhos eram então guiados para o sorteio de aplicativo. Na primeira

iteração não ocorreu nenhuma diferença entre os testes presenciais e online.

Os testes de usabilidade presenciais foram realizados com pessoas ligadas à

universidade (e comunidade acadêmica) e com uma população diversa nos

questionários online, alcançado divulgando-o via listas de e-mail e redes sociais.

40

Pode-se observar na tabela 12 a distribuição demográfica entre os

participantes da segunda iteração.

Tabela 12: Resumo demográfico dos participantes da 2ª Iteração

Frequência De Uso Do Celular Quantidade

De Vez Em Quando 2

Diariamente 6

Várias Vezes Por Dia 40

Escolaridade Quantidade

Ensino Médio (2º Grau) Completo 3

Ensino Superior Completo 24

Ensino Superior Incompleto 17

Mestrado 4

Faixa Etária Quantidade

18 a 25 anos 30

26 a 45 anos 10

46 a 60 anos 8

4.3 Análise Dos Dados

Oliveira (2013) sugeriu para a parte de análise dos dados uma versão

reduzida do SURE, com 11 itens, e outro instrumento de avaliação chamado SUS -

System Usability Scale (Brooke, 1996), cuja totalidade de suas questões estão

presentes dentro do SURE original de 37 itens. A seleção das 11 questões para o

SURE resumido foi feita eliminando-se questões que apresentariam dificuldades

para o usuário responder, questões muito similares entre si, entre outros critérios

discutidos por Oliveira (2013). Os documentos SURE e SURE-resumido estão

disponíveis nos Anexos B e C, e são utilizados para a análise dos dados desta

pesquisa como indicadores extras.

As respostas das iterações foram agrupadas em uma planilha Excel (figura 8)

contendo um número identificador do participante, o Sistema Operacional do celular,

o aplicativo sorteado e as respostas preenchidas. Foram desconsiderados testes

incompletos, ou seja, questionários com 5 ou mais respostas faltantes, de

participantes que desistiram no andamento do preenchimento. Foram também

41

desconsideradas respostas aparentemente não válidas (p.ex. todas as perguntas

respondidas com a mesma categoria na escala Likert).

Figura 8: Planilha Excel com as respostas dos questionários unificadas

Com o auxílio do Prof. Dr. Adriano F. Borgatto, as respostas foram avaliadas

e agrupadas em 3 categorias para análise: notas derivadas de todos os itens do

questionário (SURE completo), notas derivadas dos itens do SUS e do SURE

resumido (11 itens), definição essa feita com base na análise estatística utilizando a

Teoria de Resposta ao Item realizada na iteração 1 por Oliveira (2013), onde foi

possível avaliar a qualidade dos itens e do instrumento em relação à usabilidade e

classificar os itens respondentes em relação à sua usabilidade. Ao estabelecer as

notas, busca-se descobrir na análise se estes resultados dos testes de usabilidade

conferem com os resultados da avaliação heurística.

42

4.3.1 Pergunta De Pesquisa

O conjunto de heurísticas e o checklist de usabilidade para dispositivos de

celulares touchscreen (MATcH) são válidos quando comparados com os resultados

de testes de usabilidade?

Tabela 13: Dados unificados da iteração 1 e 2

Aplicativo SUS SURE 11 itens MATcH

Iteração 1

Buscapé 49,18 50,05 50,12 48,3

Globoesporte.com 51,06 52,01 52,02 57,3

Gmail 50,63 50,86 50,81 62

Qual é a resposta? 49,73 49,33 49,31 27,7

Weather Channel 48,48 48,54 47,89 37,8

Iteração 2

Cardiograph 49,96 49,76 50,25 37,6

Cruzi 51,92 53,47 52,63 53,9

Runkeeper 47,97 48,99 48,58 65,3

Resultados 60,53 61,81 60,33 48,9

Na tabela 13, podemos observar que tanto na iteração 1 quanto na iteração 2

os questionários pós-teste mantiveram uma média de avaliações bastante regular,

indicando boa seleção de seus itens. Já se compararmos com a coluna do MATcH,

há uma grande variação de aplicativo para aplicativo, estando bastante claro onde

houve uma aproximação nos resultados.

43

Figura 9: Resultados Obtidos

Seguindo a ordem e dados da figura 9 e tabela 13, primeiramente analisando

o aplicativo Buscapé, que obteve notas extremamente próximas, observa-se uma

semelhança grande de resultados entre o SUS e o MATcH, com o SURE tendo

avaliado o aplicativo levemente melhor, estando quase ou no limiar entre a faixa de

usabilidade razoável e a alta. Questões como o aprendizado e a facilidade no

manuseio do aplicativo obtiveram respostas favoráveis, já perguntas que indagavam

o usuário sobre ter gostado de o utilizar não foram. Respostas negativas também

acusaram o aplicativo de não fornecer informações suficientes para completar as

tarefas. Com estas informações é possível traçar um paralelo entre os testes de

usabilidade e a avaliação heurística e inferir que, apesar de possuir uma boa

usabilidade, ele apresenta dificuldades em alguma tarefa menos frequente

(possivelmente a de adicionar um produto aos favoritos), que pode ser decorrente de

botões ou rótulos mal destacados ou de não possuir uma ordem de utilização lógica,

características definidas pelo MATcH como sendo de aplicativos com notas

superiores a 50 (com usabilidade alta).

44

No aplicativo Globoesporte.com, o MATcH avaliou-o com cerca de 5 pontos a

mais do que o SURE2, e 6 pontos a mais do que o SUS. Isso pode ter ocorrido

devido ao tema do aplicativo ser “futebol” e que pode ter levado (como constatado

por alguns verbalmente depois do teste) a uma baixa avaliação em perguntas como

“Eu recomendaria este aplicativo...” ou “Eu gostei de usar este aplicativo”, que

possuem um viés mais voltado ao gosto pessoal. Diferentemente, as questões

levantadas pela avaliação heurística são menos voltadas à sensação de satisfação,

e sim mais ligadas à apresentação visual do aplicativo.

O Gmail foi um aplicativo Android com boa avaliação por parte dos usuários

(atingindo usabilidade alta pelos 3 modelos de questionário) mas ficando diferente

da sua avaliação MATcH com usabilidade muito alta. Fatores que podem ter levado

o Gmail a receber “usabilidade alta” nos testes de usabilidade com usuários pode ter

sido sua popularidade e uso frequente por parte dos participantes, tendo assim

maior familiaridade com o aplicativo e eliminando avaliações ruins quanto à

dificuldade de uso, como demonstram as respostas para questões com esse viés.

Porém, mesmo assim, não atingiu a mesma nota do MATcH. Durante alguns testes,

participantes manifestaram problemas com a internet, e por se tratar de um serviço

dependente de conexão com um servidor remoto, uma conexão ruim entre estas

duas partes enfraquece e muito a experiência de uso, algo que em escala reduzida

como a avaliação heurística é mais difícil de acontecer. Outro ponto a se levar em

consideração e identificado ao realizar a avaliação heurística é a competente

apresentação de seus símbolos e tipos, trazendo aspectos já bem estabelecidos no

ambiente de e-mails (como a caixa de entrada, anexo, envio) e a sua boa adaptação

à estética do sistema operacional (característica de aplicativos com usabilidade

muito alta), talvez pelo fato do Gmail ter sido desenvolvido pela empresa Google,

também responsável pelo Android, onde este aplicativo foi testado.

No caso do aplicativo “Qual é a Resposta?” os questionários do SUS e

SURE/SURE resumido obtiveram notas muito próximas, classificando o aplicativo na

faixa de usabilidade razoável, enquanto a avaliação heurística com o MATcH

resultou em uma classificação de usabilidade muito baixa (2 faixas abaixo). Este fato

2 (Ocorrendo também no SURE resumido, sempre muito próximos, indicando boa distribuição das

perguntas)

45

pode ser proveniente do fato de que o aplicativo apresente elementos e esquema de

cores carregado. O posicionamento mau posicionamento destes elementos são mais

profundamente abordados no MATcH, com perguntas como “Possibilitam o retorno a

tela anterior a qualquer momento” e “Apresentam título e rótulo curtos, o

alinhamento favorece a leitura, em como as fontes e o espaçamento entrelinhas”,

entre outras similares. Um outro fenômeno que pode acontecer num aplicativo como

este também é o de “diversão” ou “satisfação do usuário”, já que se trata de um jogo

e a experiência pode estar diretamente ligada ao desempenho do usuário durante

seu uso.

Quanto ao aplicativo Weather Channel podemos inferir análise semelhante ao

Qual é a Resposta, apesar de haver diferença menor (de apenas uma faixa de

usabilidade, sendo “Razoável” pelo SURE/SUS e “Baixa” pelo MATcH). Aqui a

diferença menor pode ser pelo fato de que, durante a avaliação heurística, foi

possível perceber que os elementos estão melhor apresentados do que no aplicativo

anterior, como pode ser inspecionado através da questão presente no MATcH

“Permitem que as funções mais utilizadas sejam facilmente acessadas. “, algo que

acontece neste aplicativo e que não acontecia no anterior. Também é possível

observar que há grande quantidade de informação numa mesma tela, fato

constatado por tanto pelos participantes quanto pelo avaliador.

Iniciando a análise dos aplicativos da segunda iteração, o Cardiograph,

considerado com usabilidade muito próxima de alta pelo questionário pós-teste e

com usabilidade baixa pelo MATcH, pode ter sofrido com perguntas como “Possuem

botões e links com a área clicável ocupando toda a dimensão dos mesmos” e

“Possuem botões com tamanho adequado ao clique e os mesmos podem ser

acessados com qualquer uma das mãos”, observando-se através da avaliação

heurística botões pequenos e escolha de cores com pouco contraste. Nele também

não ocorreu consistência no modo em que se interage com o aplicativo, sendo

muitas vezes por botões, e para uma ação apenas (deletar um item no histórico) por

um gesto de deslizar o dedo que não é claramente indicado, apenas pelo uso da

metáfora de “folha de papel” que a tela apresenta. Por outro lado, perguntas no

SURE como “Eu achei este aplicativo consistente... ” podem avaliar o mesmo

aspecto, portanto indicando aqui algum outro fator mais ligado à disposição dos

elementos na tela ou ainda pelo fato de que, apesar de terem respondido que não

46

acharam o design atraente e que não usariam com frequência, acharam ele fácil de

aprender, e talvez mais importante, concordaram ou concordaram totalmente que

conseguiram completar as tarefas e gostaram de usar, ou seja, atendendo ao

objetivo do aplicativo.

No aplicativo Cruzi apresentam-se valores muito próximos, talvez, como

constatado pelo avaliador, pela interface ser bastante simples e clara, com boa

definição de botões e das diferentes áreas do aplicativo, textos com tamanho

adequado e lógica de interação consistente. As questões do SURE que obtiveram

maior índice não concordância foram as relacionadas à utilização dele em casos

especiais (com pressa, em movimento) e à frequência do uso, talvez por se tratar de

um aplicativo de consulta especifico para área da saúde.

Com relação ao aplicativo Runkeeper, considerado pelos usuários como

tendo usabilidade razoável e pelo MATcH como usabilidade muito alta, talvez tenha

se encaixado em situação semelhante ao do aplicativo Gmail na iteração 1. Aqui o

caso de ser um aplicativo bastante atraente e com uso de cores, símbolos e botões

claros e consistentes através das telas pode ter garantido uma nota alta na

avaliação heurística, principalmente pelas perguntas “Permitem identificar o número

de passos necessários para a realização de uma tarefa e também permitem que o

usuário cancele uma ação em progresso”, “Realçam conteúdos mais importantes,

deixando-os maiores, mais brilhosos, negrito ou mais detalhados” e “todas as telas

mantêm acessíveis menus e funções comuns do aplicativo”. A diferença nas

avaliações pode se dar pelo fato do aplicativo ter um uso difícil de se testar em

laboratório, talvez exigindo que mais pessoas tenham um contato prévio com ele

para melhor compreender todas as suas funções (por se tratar de um aplicativo que

necessita de movimentação). Nas respostas do SURE, os usuários refletiram sob

este aspecto de forma um pouco contraditória nas respostas, tendo respondido que

não acharam o aplicativo de fácil aprendizado em uma pergunta positiva “Foi fácil de

aprender a usar este aplicativo” e discordaram nas perguntas negativas “Eu precisei

aprender muitas coisas para usar este aplicativo” e “Eu achei o aplicativo

desnecessariamente complexo”.

O aplicativo Resultados obteve um caso comparável com o Weather Channel

na iteração anterior, onde os usuários o avaliaram em uma faixa de usabilidade

superior ao MATcH, neste caso usabilidade muito alta, por parte do teste de

usabilidade, e razoável, por parte da avaliação heurística. Fatos que podem ter

47

levado à esta diferença, no entanto, se mostram diferentes, visto que um dos fatores

importantes na hora da avaliação heurística são “Utilizam objetos (ícones) ao invés

de botões e o significado de símbolos e ícones são compreensíveis e intuitivos” e

“Não apresentam problemas durante a interação”. O primeiro fator neste aplicativo

foi mal avaliado no que diz respeito aos símbolos, que, apesar de terem um

significado compreensível, estão num padrão de cores que sugere que os mesmo

estão “desabilitados” (em cinza), já no segundo fator, talvez o que mais pesou, foi

que o aplicativo apresentou diversos erros durante a avaliação e testes, como por

exemplo na hora do acesso utilizando o protocolo que apresentava um aviso de

carregando sem possibilidade de cancelamento e quando ocorrido o erro, a

formatação da tela inicial era completamente desfeita (as imagens e textos

desalinhavam ou sumiam da tela), sendo necessária a reinicialização do aplicativo.

Em outro momento, quando o erro ocorria já dentro das funções principais

(visualização dos dados), a mensagem de erro era editável e não possuía opção de

cancelamento, impossibilitando o uso novamente. Ainda nas telas de erro, durante

os testes de usabilidade, talvez os participantes não se depararam com uma

situação em que estas aconteceram, portanto não avaliando de forma ruim este

aspecto através de questões como “As mensagens de erro ajudam a corrigir os

problemas” e “Eu achei que a ajuda/dica dada pelo aplicativo foi útil” e como suas

respostas indicam “não se aplica” em praticamente todos os testes.

4.3.2 A Plataforma Influencia Na Avaliação?

Tabela 14: Média de notas por Plataforma (iterações 1 e 2)

Plataforma SUS SURE 11 itens MATcH

Android 49,82 50,17 49,94 47,38

iOS 55,37 56,44 55,76 50,85

Continuando a análise, desta vez de modo mais alto nível, através dos dados

podemos inferir que, apesar de não muito proeminente, a plataforma iOS costuma

receber notas melhores nos instrumentos de teste de usabilidade. Algo que pode

estar ligado à maneira como estes aplicativos são desenvolvidos e à curadoria das

lojas que os disponibilizam. A Apple (desenvolvedora do iOS) possui diretrizes e

48

práticas bem mais rígidas na hora de oferecer um aplicativo na sua loja,

diferentemente do Android, que é (desde sua concepção), mais aberto a qualquer

desenvolvedor, permitindo desde aplicativos muito bons até aplicativos bem ruins.

4.3.3 O Tipo Do Questionário Influencia Na Avaliação?

Figura 10: Gráfico Comparativo entre os Resultados do SUS e do SURE

A partir do gráfico acima (figura 10), é possível observar que a curva

desenhada pelos resultados obtidos pelo questionário SURE é muito similar à curva

desenhada pelos resultados obtidos nas questões do SUS. Isto indica que o SURE

está bem alinhado com um questionário já bem estabelecido e utilizado há anos.

Portanto, não pode se afirmar que o tipo do questionário influenciou na avaliação.

0

10

20

30

40

50

60

70

SUS SURE

Buscapé

Globoesporte.com

Gmail

Qual é a resposta?

Weather Channel

Cardiograph

Cruzi

Runkeeper

Resultados

49

4.3.4 O Tipo Do Aplicativo Influencia Na Avaliação?

Para responder esta pergunta foram diferenciados os aplicativos por tema,

comparando por exemplos os da segunda iteração (tema “Saúde”). É possível

perceber visualizando o gráfico da figura 10 também, que não há uma indicação de

que há tendência em avaliar melhor ou pior aplicativos de um dado tema comum. Os

aplicativos foram classificados em graus de usabilidade diversos, portanto, não

interferindo na avaliação.

50

5 DISCUSSÃO

Neste capítulo é feita a discussão acercado dos resultados obtidos com os

testes de usabilidade, a avaliação heurística e o que as notas obtidas representam

para a validação destas heurísticas.

5.1 Discussão Geral

Feita a análise, é possível observar que avaliações heurísticas com o

checklist MATcH podem sim gerar alguns resultados que condizem com os obtidos

nos testes de usabilidade, porém são necessários ajustes para que isso ocorra de

forma mais confiável.

Quanto aos questionários utilizados nos testes de usabilidade, pode ser

observado que as notas do questionário SURE e sua versão resumida de 11 itens se

mantiveram muito próximas entre todos os testes, com uma diferença máxima de

1,47 pontos. A versão resumida obteve notas 1 ponto mais baixas em 3 casos

(Weather Channel, Cruzi e Resultados), e em 1 caso com nota 1 ponto maior

(Cardiograph). O restante obteve diferença ínfima (alguns décimos), e ao fim em

apenas um dos aplicativos (Cardiograph) isto significou uma classificação em faixa

diferente de usabilidade. Portanto, o SURE resumido se mostra uma boa alternativa

para testes de usabilidade que necessitem de algo mais rápido e menos trabalhoso

para o participante. O mesmo pode ser dito se compararmos os resultados do SURE

com os itens pertencentes ao SUS, aqui obtendo notas com uma diferença máxima

de 1,55 pontos (tendendo para notas levemente mais baixas no SUS) e com um dos

casos resultando no aplicativo (Buscapé) ser categorizado em faixa de usabilidade

diferente.

Ao compararmos os resultados dos testes de usabilidade com os resultados

obtidos na avaliação heurística, há uma maior disparidade de resultados. Entre o

MATcH e o SURE, em apenas 2 casos (Globoesporte.com e Cruzi) os aplicativos

foram avaliados na mesma faixa de usabilidade (“usabilidade alta”). Isto indica uma

51

boa calibragem no peso dos itens de heurísticas como “visibilidade e status do

sistema”, “flexibilidade e eficiência de uso” e “legibilidade e layout”, característicos

desta faixa de usabilidade.

Em cinco casos (Buscapé, “Qual é a Resposta?”, Weather Channel,

Cardiograph e Resultados) o MATcH classificou os aplicativos em faixas de

usabilidade abaixo do avaliado pelo SURE. O “Qual é a resposta” e o “Respostas”

sendo os únicos que foram classificados duas faixas abaixo do avaliado pelo teste

de usabilidade, na classificação de “usabilidade muito baixa” e “razoável”,

respectivamente. Já nos outros 4 aplicativos, a divergência foi de apenas uma faixa

de usabilidade abaixo. É importante ressaltar que no caso do Buscapé, esta

diferença foi de apenas 1,75 pontos, enquanto nos outros 4 aplicativos a diferença

passa dos 10 pontos.

Nos dois casos restantes (Gmail e Runkeeper), o MATcH avaliou de forma

melhor. Sendo no Gmail uma faixa de usabilidade acima (de “alta” para “muito alta”)

e no Runkeeper duas faixas acima (de “razoável” para “muito alta”). No caso do

Runkeeper pode-se ressaltar que sua avaliação em 48,9 pontos está muito próxima

de “alta”, diminuindo a divergência para apenas uma faixa.

Tabela 15: Divergência na Classificação de Usabilidade (iterações 1 e 2)

Aplicativo SURE MATCH Divergência

Buscapé Usabilidade alta Usabilidade razoável 1 grau

Globoesporte.com Usabilidade alta Usabilidade alta -

Gmail Usabilidade alta Usabilidade muito alta 1 grau

Qual é a Resposta? Usabilidade razoável Usabilidade muito baixa 2 graus

Weather Channel Usabilidade razoável Usabilidade baixa 1 grau

Cardiograph Usabilidade razoável Usabilidade baixa 1 grau

Cruzi Usabilidade alta Usabilidade alta -

Runkeeper Usabilidade razoável Usabilidade muito alta 2 graus

Resultados Usabilidade muito alta Usabilidade razoável 2 graus

52

Outro fator interessante observado foi o SURE não ter identificado aplicativos

com usabilidade baixa ou muito baixa, enquanto o MATcH identificou aplicativos em

todas as faixas de usabilidade. Isto pode demonstrar uma tendência do SURE em

não identificar problemas de interface com a mesma eficácia que as heurísticas

identificam, como por exemplo questões mais ligadas à consistência e padrões e ao

uso de textos e símbolos, características avaliadas pelas heurísticas nesta faixa de

usabilidade baixa.

Por outro lado, o MATcH parece não avaliar a satisfação da experiência que o

usuário terá ao usar o aplicativo, algo que ele levará em conta na hora de responder

o questionário. Os itens do MATcH são todos voltados aos conceitos e modelos de

design interface, não havendo nenhum item que o avaliador deva responder com

base em algo subjetivo como satisfação. Há vários pontos que seus itens abordam

que um usuário realizando o teste de usabilidade dificilmente levaria em conta na

hora de responder.

Quanto a validade das heurísticas MATcH em avaliarem a usabilidade de um

aplicativo, elas pareceram funcionar do ponto de vista técnico de um especialista.

Isto é, ao realizar a avaliação heurística, a tendência é avaliar cada elemento ou

caso de uso da interface de modo imparcial e isolado, pelo avaliador. Para o

problema ser corrigido é necessário incluir questões que abordem aspectos mais

abrangentes da interface (mais ligados ao psicológico), itens que contenham o ponto

de vista do usuário (incluindo a mesma linguagem utilizada) ou a adição de novas

heurísticas. Rever a exclusão dos itens retirados na elaboração do checklist pode

preencher as lacunas necessárias para uma aproximação dos resultados ou a

redistribuição dos itens na escala, movendo questões mais irrelevantes ao usuário

para faixas mais abaixo (como “No caso de aplicativos associados a cadastro de

login ou contas de e-mail, permite o fácil acesso de mais de um usuário?”, um item

da faixa de usabilidade muito alta).

53

5.2 Ameaças A Validade

O presente trabalho tem como ameaça principal à sua validade a qualidade

das respostas dadas pelos participantes voluntários. Não é possível garantir que

tenham completados todos os passos dos testes com honestidade, principalmente

nos realizados à distância em que não era possível a monitoração e tutoria para com

os usuários. Como tentativa de mitigar este problema foram analisadas e retiradas

respostas com padrões de erro, tais como um usuário preenchendo a mesma

alternativa em todas as respostas, sendo que haviam questões de caráter negativo

que não poderiam seguir este padrão.

Também pode-se citar como ameaça à validade a escolha dos aplicativos

para teste. Poderia ocorrer de não haver representação fiel de aplicativos

diversificados o suficiente para validar a pesquisa. Para isso foram definidos critérios

de escolha, entre eles destaca-se a necessidade de escolher um aplicativo por faixa

de usabilidade e dentro de um mesmo tema, para melhor correlacionar os

resultados.

Outra ameaça a validade é a população dos participantes, tanto em

quantidade como em diversidade. Para obter uma população com características

variadas e com maior alcance foi utilizado o teste online, para evitar que todos os

voluntários fossem do mesmo perfil.

Por fim, algo que pode invalidar esta pesquisa é a qualidade do questionário

SURE. Suas questões podem não abordar de maneira satisfatória todos os pontos

necessários para se classificar um aplicativo em determinada categoria de modo

condizente com a avaliação heurística. Um item como “Foi fácil de aprender a usar

este aplicativo.” pode, por exemplo, não remeter ao usuário dos problemas que a

interface possui com a mesma capacidade das heurísticas MATcH.

54

6 CONCLUSÃO

Este trabalho tem como objetivo validar as heurísticas e o checklist de

usabilidade MATcH para celulares touchscreen através de um estudo comparativo.

O estudo comparativo foi feito comparando os resultados das avaliações

heurísticas aos testes de usabilidade com os usuários finais. Ambas avaliações

foram realizadas com os mesmos aplicativos, sendo estes pré-selecionados pelo

pesquisador e com tarefas pré-definidas. Os testes de usabilidade e as avaliações

heurísticas foram realizados em duas iterações com uma amostra de aplicativos

diferente em cada iteração. No total 353 pessoas participaram dos testes, sendo 305

na primeira iteração e 48 na segunda. Os resultados obtidos com os testes de

usabilidade foram então comparados aos resultados obtidos nas avaliações

heurísticas. Uma análise foi feita levando-se em conta as respostas dadas nos itens

e as faixas de usabilidade em que cada aplicativo foi encaixado após cada

avaliação. Foi constatado que, apesar das heurísticas com o checklist e os testes de

usabilidade terem avaliado igualmente em 2 casos (3 se contarmos o Buscapé), há

uma inconsistência em quase 60% dos casos. Para resolver isso pode ser que seja

necessário um refinamento dos itens para que isto aconteça de maneira mais

confiável e consistente.

Este refinamento pode ser focado na introdução de novas heurísticas ou itens

no checklist, ou na redistribuição dos pesos na hora de montar a escala em itens

que possuam características irrelevantes ao usuário.

A contribuição deste trabalho está na análise feita acerca da validade das

heurísticas para celulares touchscreen e nos itens que devem ser revistos para

futuras versões.

O presente trabalho deixa como oportunidade de futuras pesquisas na área

de usabilidade o refinamento de heurísticas para celulares touchscreen utilizando-se

os dados e análises aqui observados. Também é possível expandir a pesquisa para

áreas de user experience dentro do escopo de aplicativos móveis touchscreen.

Recomenda-se utilizar mais aplicativos em cada faixa de usabilidade e participantes

mais demograficamente variados.

55

REFERÊNCIAS

ACM SIGCHI. ACM Special Interest Group on Computer-Human

Interaction. 2009. Disponível em: <http://old.sigchi.org/cdg/>. Acesso em: 22 out.

2013.

AGÊNCIA NACIONAL DE TELECOMUNICAÇÕES. Ministério das

Comunicações. Relatório de Acompanhamento 2011. Brasília, 2011. Disponível

em <

http://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublicac

ao=273912&pub=principal&filtro=1&documentoPath=273912.pdf> Acesso em: 21 jun

2013.

AGÊNCIA NACIONAL DE TELECOMUNICAÇÕES. Ministério das

Comunicações. Relatório Anual 2010. Brasília, 2011. Disponível em

<http://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublica

cao=260639&assuntoPublicacao=Relatorio%20Anual%202010&caminhoRel=Cidada

o-Biblioteca-Acervo%20Documental&filtro=1&documentoPath=260639.pdf> Acesso

em: 21 jun 2013.

ANDRADE, D. F.; TAVARES, H. R. e VALLE, R. C. Teoria de Resposta ao

Item: conceitos e aplicações. ABE — Associação Brasileira de Estatística, 14º

Simpósio Nacional de Probabilidade e Estatística, Caxambu/Brasil, 2000.

BERTINI, E., GABRIELLI, S., e KIMANI, S. Appropriating and assessing

heuristics for mobile computing. In Proceedings of the Working Conference on

Advanced visual interfaces. Veneza/Itália, 2006.

CYBIS, W.; BETIOL, A. H.; FAUST, R. Ergonomia e usabilidade:

conhecimentos, métodos e aplicações. São Paulo: Novatec 2007.

56

FALK, T.; There are (almost) as many cell phone subscriptions as

people. Disponível em: < http://www.smartplanet.com/blog/bulletin/there-are-almost-

as-many-cell-phone-subscriptions-as-people/23353 >

GARTNER. Gartner Says Sales of Mobile Devices Grew 5.6 Percent in

Third Quarter of 2011; Smartphone Sales Increased 42 Percent. Disponível em:

<http://www.gartner.com/it/page.jsp?id=1848514>. Acesso em 21 jun 2013.

GARTNER. Gartner Says Worldwide Mobile Phone Sales Declined 1.7

Percent in 2012. Disponível em: <http://www.gartner.com/newsroom/id/2335616>.

Acesso em 21 jun 2013.

HEO, J., HAM, D. H., PARK, S., SONG, C., e YOON, W. C. A framework

for evaluating the usability of mobile phones based on multi-level, hierarchical

model of usability factors. Interacting with Computers, 21(4), pp. 263-275. 2009.

INOSTROZA, R., et al. "Usability Heuristics for Touchscreen-based

Mobile Devices." In Proceedings of the Ninth International Conference on

Information Technology: New Generations (ITNG), Las Vegas/EUA, 2012.

JI, Y. G., et al. A usability checklist for the usability evaluation of mobile

phone user interface. International Journal of Human-Computer Interaction, 20(3),

2006, pp. 207-231.

KITCHENHAM, B. A. Procedures for Performing Systematic Reviews.

Tech. Report TR/SE-0401, Keele University, Inglaterra. 2004.

LEE, D. The State of the Touch-Screen Panel Market. Disponível em:

<http://www.walkermobile.com/March_2011_ID_State_of_the_Touch_Screen_Marke

t.pdf>. Acesso em: 21 jun 2013.

NIELSEN, J., (1994) Heuristic evaluation. In J. Nielsen & R. L. Mack (Eds.),

Usability Inspection Methods. New York: John Wiley & Sons, Inc.

57

NUNES, J. V.; GRESSE VON WANGENHEIM, C.; WITT, A. T.; BORGATTO,

A. F.; LACERDA, T. C.; KRONE, C.; SOUZA, L. O. Elaboração e validação de um

checklist para avaliação de usabilidade de aplicativos para celular

touchscreen. In Proceedings of Conference Interaction South America (ISA),

Recife/Brazil, 2013.

PÁDUA, C. I.P S. Engenharia de Usabilidade – Material de Referência.

UFMG, Belo Horizonte, MG.

PREECE, J.; ROGERS, Y.; SHARP, H. Design de interação: além da

interação homem-computador. Porto Alegre (RS): Bookman, 2005. 548p. ISBN

9788536304946

ROCHA, H. V. da; BARANAUSKAS, M. C. C.. Design e avaliação de

interfaces humano-computador. Campina: NIED/ UNICAMP, 2003.

SALAZAR, L. H. A.; LACERDA, T. C.; GRESSE VON WANGENHEIM, C.;

BARBALHO, R. A. Customizando Heurísticas De Usabilidade Para Celulares. In

Proceedings Of Simpósio Brasileiro De Fatores Humanos Em Sistemas

Computacionais, Cuiabá/Brazil, 2012.

SHNEIDERMAN, B. Use the eight golden rules of interface design.

Designing the user interface: Strategies for effective human-computer interaction. 3rd

ed. Boston: Addison-Wesley Professional, 1998.

TEZZA, R. Proposta de um construto para medir usabilidade em sites

de e-commerce utilizando a Teoria da Resposta ao Item. 139 f.. Dissertação

(Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa

de Pós-Graduação em Engenharia de Produção. Florianópolis, SC, 2009.

TEZZA, R.; BORNIA, A. C. Teoria da Resposta ao Item: vantagens e

oportunidades para a engenharia de produção. In Proceedings of XXIX Encontro

58

Nacional de Engenharia de Produção – ENEGEP, 2009, Salvador – BA. Rio de

Janeiro – RJ: ABEPRO, 2009. v 1.

UNITED NATIONS; The Millennium Development Goals Report 2013.

Disponível em: <http://www.un.org/millenniumgoals/pdf/report-2013/mdg-report-

2013-english.pdf >

WITT, A. T. Aplicação da Técnica Estatística Teoria da Resposta ao Item

para avaliar um conjunto de Heurísticas de Usabilidade para dispositivos

celulares touchscreen.164f. Trabalho de Conclusão de Curso (Bacharel em

Sistemas de Informação) – Departamento de Informática e Estatística. Universidade

Federal de Santa Catarina, Florianópolis, 2013.

OLIVEIRA, R. Proposta de um questionário pós-teste para medir

usabilidade de aplicativos de celulares touchscreen. Trabalho de Conclusão de

Curso (Bacharelado em Sistemas de Informação) – Departamento de Informática e

Estatística, Universidade Federal de Santa Catarina, Florianópolis, 2013.

BROOKE, J. SUS - A quick and dirty usability scale. Usability evaluation

in industry, 189, 194. 1996.

WASSERMAN, A. I. Software Engineering Issues for Mobile Application

Development. In Proceedings of Workshop on Mobile Software

Engineering/MobiCASE, Santa Clara/USA. 2010.

ANATEL. Brasil fecha 2013 com 271,10 milhões de acessos móveis

http://www.anatel.gov.br/Portal/exibirPortalNoticias.do?acao=carregaNoticia&codigo

=32359. 2014.

IDC. Android and iOS Continue to Dominate the Worldwide Smartphone

Market with Android Shipments Just Shy of 800 Million in 2013, According to

59

IDC. Disponível em: <http://www.idc.com/getdoc.jsp?containerId=prUS24676414>.

2014

PADILHA, A. Usabilidade na Web: uma Proposta de Questionário para

Avaliação do Grau de Satisfação de Usuários do Comércio Eletrônico.

Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro

Tecnológico. Programa de Pós-Graduação em Ciências

da Computação. Florianópolis, SC, 2004.

60

APENDICE A – Tarefas Por Aplicativo

Tarefa - Gmail

Se você já possui o Gmail instalado no seu celular, pule para as tarefas.

Download

1. Conecte o seu celular à internet.

2. Acesse a página: Gmail

3. Clique no botão Instalar para baixar o aplicativo gratuitamente.

4. Faça o login com a sua conta Google.

5. Clique no botão Instalar para fazer o download.

Tarefas

Após instalar o aplicativo:

1. Escreva um novo e-mail com o assunto: “Teste da usabilidade do gmail”, anexe

uma imagem e o envie para o seu endereço de email.

2. Abre o e-mail da caixa de entrada com o assunto “Teste da usabilidade do

gmail”.

3. Delete o e-mail com o assunto “Teste da usabilidade do gmail”.

Você conseguiu completar as tarefas?

Tarefa – Qual é a Resposta?

61

Se você já possui o aplicativo Qual é a Resposta instalado no seu celular, pule para

as tarefas

Download

1. Conecte o seu celular à internet.

2. Acesse a página: Qual é a Resposta?

3. Clique no botão Instalar para baixar o aplicativo gratuitamente.

4. Faça o login com a sua conta Google.

5. Clique no botão Instalar para fazer o download.

Tarefas

Após instalar o aplicativo:

1.Inicie um jogo na categoria diversão.

2.Pule a primeira questão.

3.Continue respondendo as questões até a o final do jogo.

Você conseguiu completar as tarefas?

Tarefa – Weather Channel

Se você já possui o Weather Channel instalado no seu celular, pule para as tarefas.

Download

1. Conecte o seu celular à internet.

2. Acesse a página: Weather Channel

3. Clique no botão Instalar para baixar o aplicativo gratuitamente.

4. Faça o login com a sua conta Google.

62

5. Clique no botão Instalar para fazer o download.

Tarefas

Após instalar o aplicativo:

1.Veja a previsão do tempo para amanhã para a cidade de São Paulo.

2.Compartilhe a previsão com [email protected]

3.Leia em voz alta a previsão para a temperatura máxima.

Você conseguiu completar as tarefas?

Tarefa – GloboEsporte.com

Se você já possui o aplicativo globoEsporte.com instalado no seu celular, pule para as tarefas.

Download

1. Conecte o seu celular à internet.

2. Para fazer o download gratuito do aplicativo acesse a página: globoEsporte.com

3. Clique em "Ver no Itunes".

4. No iTunes, clique em "Grátis".

5. Faça o login com o seu ID Apple.

Tarefas

Após instalar o aplicativo:

1.Veja notícias sobre o time Cruzeiro

2.Veja notícias sobre basquete.

3.Veja a classificação do Campeonato Brasileiro 2013 e leia em voz alta o nome do

quinto colocado.

63

Você conseguiu completar as tarefas?

Tarefa – BuscaPé (iPhone)

Se você já possui o BuscaPe instalado no seu celular, pule para as tarefas.

Download

1. Conecte o seu celular à internet.

2. Para fazer o download gratuito do aplicativo acesse a página: BuscaPé

3. Clique em "Ver no Itunes".

4. No iTunes, clique em "Grátis".

5. Faça o login com o seu ID Apple.

Tarefas

Após instalar o aplicativo:

1.Faça uma busca pelo livro "Não me faça pensar" .

2.Filtre os resultados pelo menor preço.

3.Calcule a oferta para o frete com menor preço.

Você conseguiu completar as tarefas?

• Tarefa - Cruzi (Android)

Se você já possui o Cruzi instalado no seu celular, pule para as tarefas.

Download

• Conecte seu celular à internet.

64

• Acesse a página: http://goo.gl/afCIWE

• Clique no botão Instalar para baixar o aplicativo gratuitamente.

• Faça o login com a sua conta Google.

• Clique no botão Instalar para fazer o download.

Tarefas

Após abrir o aplicativo:

• Buscar informações sobre a doença Febre Amarela e ler o Médico Especialista

• Procurar pelo remédio "Paracetamol" e citar suas indicações.

• Ler as doenças que a Especialidade Médica "Cardiologista" trata.

Você conseguiu completar as tarefas?

• Tarefa – Cardiograph (Android)

Se você já possui o Cardiograph instalado no seu celular, pule para as tarefas.

Download

1. Conecte seu celular à internet.

2. Acesse a página: http://goo.gl/PxIgrz

3. Clique no botão Instalar para baixar o aplicativo gratuitamente.

4. Faça o login com a sua conta Google.

5. Clique no botão Instalar para fazer o download.

Tarefas

Após abrir o aplicativo:

• Medir os batimentos cardíacos por 30 segundos e dizer a média indicada.

• Olhar o histórico de medições e ler a ultima medição.

• Apagar a ultima medição feita.

Você conseguiu completar as tarefas?

• Tarefa – Runkeeper (Android)

Se você já possui o Weather Channel instalado no seu celular, pule para as tarefas.

Download

65

• Conecte seu celular à internet.

• Acesse a página: http://goo.gl/RKMQhk

3. Clique no botão Instalar para baixar o aplicativo gratuitamente.

4. Faça o login com a sua conta Google.

5. Clique no botão Instalar para fazer o download.

Tarefas

Após abrir o aplicativo:

1. Selecionar uma atividade do tipo caminhada

2. Selecionar uma "rotina de exercícios" como "meta de ritmo" e para um tempo de

20 minutos.

3. Dar inicio à atividade por 10 segundos e selecionar "parar" e depois "salvar".

Você conseguiu completar as tarefas?

• Tarefa – Resultados (iPhone)

Se você já possui o Resultados instalado no seu celular, pule para as tarefas.

Download

1. Disponível apenas na Telemedicina

Tarefas

Após abrir o aplicativo:

1. Acessar o exame através do protocolo fornecido

2. Acessar as imagens do exame realizado

3. Acessar através do histórico um exame do ano passado.

Você conseguiu completar as tarefas?

66

67

APENDICE B - Termo de Consentimento Livre e Esclarecido

Termo de Consentimento Livre e Esclarecido

Eu ............................................................................................................ estou sendo convidado(a)

a participar do teste de usabilidade de aplicativos para celulares touchscreen, desenvolvidos n o

p r o j e t o Avaliação de Questionários de Usabilidade de Aplicativos para Celulares Touchscreen, que está

sendo desenvolvido no GQS/INCoD/UFSC, sendo coordenado pela Profª. Dra. rer. nat. Christiane

A. Gresse von Wangenheim, PMP, cujo objetivo é avaliar e melhorar a usabilidade de aplicativos para

celulares touchscreen. A minha participação no referido projeto será no sentido de auxiliar na

identificação de pontos fortes e fracos no design de interface destes aplicativos.

O benefício esperado do estudo é obter informações referente a corretude dos questionários de

usabilidade sendo desenvolvidos e obter dados como base para criar escalas de medição do conceito de

usabilidade visando a melhoria da usabilidade de aplicativos para celulares touchscreen.

Para minimizar os possíveis riscos do estudo:

- Os aplicativos escolhidos para esse teste são gratuitos (não há risco financeiro ao participante),

comumente reconhecidos e seguros (não há riscos de danos ao celular do participante). Não é utilizado

nenhum tipo de aplicativo com conteúdo antiético (não há risco ético em termos do conteúdo dos

aplicativos).

- Todos os dados dos participantes são coletados em um servidor próprio do grupo de pesquisa

com os devidos mecanismos de segurança de acesso instalados (prevenindo o risco de acesso aos

dados). A indicação de informações que permitem a identificação do participante (nome e email) também é

opcional e não obrigatória para a participação.

- Não existem riscos á saúde dos participantes, visto que se trata de um teste.de usabilidade de

aplicativos para celulares touchscreen.

Recebi esclarecimentos sobre a pesquisa e estou ciente de que minha privacidade será respeitada,

ou seja, meu nome será mantido em sigilo.

Eu autorizo a gravação de áudio e vídeo durante os testes de usabilidade e entendo que as

gravações de áudio e vídeo serão utilizadas somente para os fins desta pesquisa e não serão

divulgados fora do contexto desta pesquisa.

Fui informado(a) de que posso me recusar a participar do estudo, ou retirar meu consentimento

a qualquer momento, sem precisar justificar.

É assegurada a assistência durante toda a pesquisa. Manifesto meu livre consentimento em participar.

68

Florianópolis, de de 2014

Assinatura do participante

Nome e assinatura do pesquisador

69

ANEXO A – CHECKLIST MATCH

N

ível Descrição Heurística

Os aplicativos avaliados utilizando o checklist para avaliação de aplicativos para toucscreen phones quase sempre ou

sempre.....

3

0

13.É o usuário quem inicia e encerra tarefas e não o aplicativo? Controle e liberdade do usuário

81.A área clicável dos botões e links ocupa toda a dimensão dos mesmos? Interação física e ergonomia

60.Em textos o uso de abreviaturas é evitado? Estética e design minimalista

35.Os links são tratados de forma consistente entre as telas?

Consistência e padrões

30.Todas as informações textuais do aplicativo utilizam o mesmo idioma?

32.Funções semelhantes são apresentadas de forma similar?

4

0

4. As mensagens sobre o status do aplicativo possuem uma linguagem

clara e concisa?

Visibilidade do status do sistema

7. Fornece um update do status para operações mais lentas?

17. É possível retornar a tela anterior a qualquer momento? Controle e liberdade do usuário

26. As telas com o mesmo tipo de conteúdo possuem o mesmo título?

Consistência e padrões

31. Funções diferentes são apresentadas de maneira distinta ao usuário?

33. Controles que realizam a mesma função ficam em posições

semelhantes na tela?

34. A forma de navegação é consistente entre as telas no aplicativo?

36. As informações textuais são apresentadas de forma padronizada?

(tamanho da

fonte, cor)

44. O aplicativo utiliza em seus textos e rótulos, uma linguagem habitual

e conhecida pelo usuário?

Reconhecimento em vez de

lembrança 45. Os títulos das telas descrevem adequadamente seu conteúdo?

54. As funções mais utilizadas são facilmente acessadas? Flexibilidade e eficiência de uso

58. São exibidas apenas informações relacionadas a tarefa que esta sendo

realizada?

Estética e design minimalista

59. São usados textos somente quando estes são realmente

indispensáveis?

76. Possui botões com tamanho adequado ao clique?

Interação física e ergonomia 80. Os botões e controles podem ser facilmente acessados com qualquer

uma das mãos ou há opção para destro ou canhoto?

86. Os ícones possuem contraste suficiente em relação ao plano de

fundo?

Legibilidade e layout 87. Os textos tem contraste suficiente em relação ao plano de fundo?

89. As imagens possuem cor e detalhamento favoráveis a leitura em uma

tela pequena?

70

5

0

1. Para cada ação do usuário o aplicativo oferece feedback imediato e

adequado sobre seu status?

Visibilidade do status do sistema

02. Os componentes interativos selecionados são claramente distintos

dos demais?

11. O significado de símbolos e ícones são compreensíveis e intuitivos?

12. As informações são dispostas em uma ordem lógica e natural?

25. O aplicativo deixa claro qual o próximo passo para realizar a tarefa? Controle e liberdade do usuário

27. Controles e botões se distinguem do restante do layout, deixando

evidente que Consistência e padrões

são clicáveis?

41. Os títulos e rótulos são curtos?

Reconhecimento em vez de

lembrança 42. Os dados e mensagens mais importantes encontram-se na posição

padrão dos aplicativos para esta plataforma?

48. O aplicativo apresenta problemas durante a interação (trava, botões

não funcionam no primeiro clique, etc)?

Flexibilidade e eficiência de uso 50. As tarefas são relativamente simples de serem executadas?

57. O aplicativo utiliza objetos (ícones) ao invés de botões?

61. O menu é esteticamente simples e claro? Estética e design minimalista

71. A navegação do aplicativo é intuitiva? Pouca interação homem/dispositivo

82. O espaçamento entrelinhas utilizado favorece a leitura?

Legibilidade e layout

83. As fontes utilizadas favorecem a leitura?

90. O aplicativo realça conteúdos mais importantes, deixando-os maiores,

mais brilhosos, negrito ou mais detalhados?

91. O alinhamento utilizado favorece a leitura?

6

0

6. Todas as telas mantêm acessíveis menus e funções comuns do

aplicativo? Visibilidade e status do sistema

14. É possível identificar o número de passos necessários para a

realização de uma tarefa?

Controle e liberdade do usuário

18. No caso de aplicativos associados a cadastro de login ou contas de e-

mail, permite o fácil acesso de mais de um usuário?

20. O usuário pode cancelar uma ação em progresso (ex.: download)?

62. O aplicativo exibe quantidades pequenas de informações em cada

tela? Estética e design minimalista

79. A navegação principal encontra-se na posição padrão dos aplicativos

para esta plataforma? Interação física e ergonomia

71

72

ANEXO B – SURE

Perguntas

1

. Discordo

totalmente

2

. Discordo

3

. Concordo

4

. Concordo

totalmente

N

ão se

aplica

1. Eu achei fácil inserir dados nestes

aplicativos. Por exemplo, utilizando código

QR, listas de opções etc.

2. Quando eu cometo um erro é fácil de

corrigi-lo.

3. Eu achei que a ajuda/dica dada pelo

aplicativo foi útil.

4. As mensagens de erro ajudam a

corrigir os problemas.

5. Eu achei fácil usar o aplicativo com

apenas uma das mãos.

Perguntas

1

. Discordo

totalmente

2

. Discordo

3

. Concordo

4

. Concordo

totalmente

6. Foi fácil encontrar as informações que precisei.

7. Eu me senti no comando usando este aplicativo.

8. Eu achei adequado o tempo que levei para

completar as tarefas.

9. Foi fácil de aprender a usar este aplicativo.

10. A sequencia das ações no aplicativo corresponde

a maneira como eu normalmente as executo. Por

exemplo, a ordem de botões, campos de dados, etc.

11. É fácil fazer o que eu quero usando este

aplicativo.

73

12. Foi fácil navegar nos menus e telas do aplicativo.

13. O aplicativo atende as minhas necessidades.

14. Eu recomendaria este aplicativo para outras

pessoas.

15. Mesmo com pressa eu conseguiria executar as

tarefas nesse aplicativo.

16. Eu achei o aplicativo consistente. Por exemplo,

todas as funções podem ser realizadas de uma

maneira semelhante.

17. É fácil lembrar como fazer as coisas neste

aplicativo.

18. Eu achei fácil inserir dados neste aplicativo. Por

exemplo, indicando locais via mapas, listas de opções

etc.

19. Eu usaria este aplicativo com frequência.

20. A organização dos menus e comandos de ação

(como botões e links) é lógica, permitindo encontrá-

los facilmente na tela.

21. O design de interface do aplicativo é atraente.

Perguntas

1

. Discordo

totalmente

2

. Discordo

3

. Concordo

4

. Concordo

totalmente

22. Eu consegui completar as tarefas com sucesso

usando este aplicativo.

23. Eu gostei de usar este aplicativo.

24. O aplicativo fornece todas as informações

necessárias para completar as tarefas de forma clara e

compreensível.

25. Eu achei o aplicativo muito complicado de usar.

74

26. Eu precisei aprender muitas coisas para usar este

aplicativo.

27. Os símbolos e ícones são claros e intuitivos.

28. A interface é semelhante dos demais aplicativos

Android/iOS.

29. Eu achei os textos fáceis de ler.

30. Eu achei o aplicativo desnecessariamente

complexo. Precisei lembrar, pesquisar ou pensar

muito para completar as tarefas.

31. A terminologia utilizada nos textos, rótulos,

títulos etc. é fácil de entender.

32. Eu precisaria de apoio de uma pessoa para usar

este aplicativo.

33. Eu conseguiria realizar as tarefas com esse

aplicativo em qualquer lugar. Por exemplo, em

movimento andando pela rua.

34. Eu me senti confortável usando este aplicativo.

35. O aplicativo se comportou como eu esperava.

36. Eu achei frustrante usar este aplicativo.

37. Eu achei que as várias funções do aplicativo são

bem integradas.

38. Eu me senti muito confiante usando este

aplicativo

75

ANEXO C – SURE resumido

1 É fácil fazer o que eu quero usando este aplicativo.

2 Eu me senti no comando usando este aplicativo.

3 Foi fácil encontrar as informações que precisei.

4 O aplicativo se comportou como eu esperava.

5 Eu achei o aplicativo muito complicado de usar.

6 Foi fácil de aprender a usar este aplicativo.

7 Eu achei adequado o tempo que levei para completar as tarefas.

8 Foi fácil navegar nos menus e telas do aplicativo.

9 A organização dos menus e comandos de ação (como botões e links) é

lógica, permitindo encontrá-los facilmente na tela.

10 Eu achei o aplicativo desnecessariamente complexo. Precisei lembrar

pesquisar ou pensar muito para completar as tarefas.

11 Eu consegui completar as tarefas com sucesso usando este aplicativo.

Validação De Heurísticas De Usabilidade Para Celulares

Touchscreen Por Meio De Testes De Usabilidade

Rafael Faccio¹

¹Departamento de Informática e Estatística

Universidade Federal de Santa Catarina (UFSC) – Florianópolis, SC – Brazil

[email protected]

Resumo. Atualmente temos aparelhos celulares cada vez mais modernos e

capazes que estão se tornando ubíquos em nossas vidas e desse modo nos

apresentam novas formas de interação. Neste segmento, destacam-se os

touchscreen smartphones, aparelhos móveis com tela sensível ao toque e

capacidade de processamento avançado. Na engenharia de usabilidade

existem hoje vários conjuntos de heurísticas de usabilidade voltados,

principalmente, para sistemas desktop, mas, devido às diferenças de uso

apresentadas claramente por esses dispositivos móveis, faz-se necessária a

análise de questões de design de interface e usabilidade focada nos

smartphones. Ou seja, se alinhando às necessidades modernas para que estes

dispositivos ofereçam a melhor experiência de uso de maneira eficiente e

eficaz. Para tanto, foi desenvolvido no GQS/INCoD/UFSC um conjunto de

heurísticas de usabilidade e um checklist para medir a usabilidade de sistemas

em dispositivos móveis touchscreen chamado MATcH. Nesse sentido, o

presente trabalho tem como objetivo validar esse conjunto de heurísticas de

usabilidade para celulares touchscreen por meio de um estudo empírico

comparativo entre resultados obtidos na aplicação do MATcH com resultados

obtidos por meio de testes de usabilidade, tentando gerar assim uma maior

confiabilidade no uso do MATcH. Foram realizadas duas iterações de testes,

sendo que foram aplicados 305 testes de usabilidade na primeira e 48 testes

de usabilidade na segunda. Um total de 9 aplicativos foram testados através

de tarefas pré-definidas por meio de testes presenciais e à distância (online).

Após a análise dos resultados obtidos foi possível perceber uma inconsistência

em quase 60% dos resultados comparados, percebendo uma propensão do

MATcH de avaliar mais firmemente questões de usabilidade fundamentais

ligadas ao projeto e design da interface quando os testes de usabilidade têm

uma propensão de avaliar melhor a satisfação geral da experiência de uso.

Com base nesta análisefoi possível realizar a validação, necessitando um

refinamento para aproximar os resultados das demais faixas com o resultado

do teste de usabilidade de forma mais consistente e confiável, mas observando

boa capacidade das heurísticas em avaliar aplicativos que possuam

usabilidade alta.

1. Introdução

Celulares são dispositivos que rapidamente se integraram ao mundo em que vivemos e

já fazem parte do modo de vida das pessoas sendo considerados aparelhos

imprescindíveis para grande parte delas. Sua rápida aceitação chegou a um ponto em

que existem tantas linhas de celulares quanto pessoas no mundo [UN, 2013], isto

significa quase 7 bilhões de linhas ativadas. As vendas mundiais de dispositivos móveis

atingiram 1,75 bilhões de unidades em 2012, e o quarto período desse mesmo ano viu

um acréscimo de 38,3% [Gartner, 2013] em relação ao mesmo período do ano passado.

A previsão de aumento de unidades vendidas é de 50% até 2014 [Lee, 2011],

comprovando a popularidade da tecnologia e justificando uma concentração de pesquisa

nesta área, visando seu aprimoramento. No Brasil, a situação é promissora também,

tendo registrado mais de 271,1 milhões linhas ativas e 9,92 milhões de novas linhas

ativadas no ano de 2013, um crescimento de 3,35% em relação ao ano passado.

Também é importante notar o crescimento de acessos à banda larga 3G (tecnologia

introduzida por smartphones), um aumento de 75,85% de janeiro a dezembro de 2013

[ANATEL, 2014].

Smartphones, ou “celulares inteligentes” em tradução livre, diferenciam-se de

outros celulares pela sua capacidade de processamento mais avançada e alta

conectividade. Fisicamente, os smartphones diversificam entre si em relação ao número

de botões, tamanho e formas de entrada de dados e comandos. Dentre essas variedades,

a que mais se espera crescer, de acordo com uma pesquisa feita pela Strategy Analytics

(2008), são os touchscreen smartphones, com um total de 425 milhões de aparelhos

vendidos até o fim de 2013. Touchscreen phones são celulares que possuem a tela

sensível ao toque, dispensando o uso de teclados para interação com os elementos na

tela, sendo esta feita através de toques diretamente sobre a representação gráfica dos

elementos.

Um smartphone pode ser utilizado em qualquer ambiente que uma pessoa pode

imaginar (por exemplo: em movimento, em um local com muito barulho, muita luz ou

pouca luminosidade ou em casa calmamente). Estes perfis variados de usuário

modificam muito a experiência que uma pessoa poderá ter com o aparelho, portanto,

projetar aplicações com isto em mente pode vir a ser um fator de sucesso [Salazar, et al.,

2012], já que segundo Preece (2005), é de grande importância que interfaces sejam

eficientes e eficazes durante o uso oferecendo uma experiência agradável ao usuário, ou

seja, interfaces devem possuir boa usabilidade.

Como forma de mensurar e avaliar usabilidade, existem heurísticas de

usabilidade que podem ser utilizadas na hora de projetar a interface ou após, para avaliá-

la de forma padronizada. Segundo Nielsen (1994), heurísticas de usabilidade são

definidas como um conjunto de regras gerais que descrevem propriedades comuns em

interfaces usáveis derivado do conhecimento de aspectos psicológicos, computacionais e

sociológicos dos domínios do problema. Apesar de criadas para interfaces desktop, estas

heurísticas foram adaptadas a diferentes paradigmas (como tablets e TVs), existindo

também conjuntos de heurísticas especificamente para celulares [Salazar et al., 2012]

[Bertini et al., 2006].

Uma forma de colocar em prática estas heurísticas é a avaliação heurística, que é

um método de inspeção de interfaces realizado por pesquisadores especialistas em

usabilidade e interação humano-computador, onde são diagnosticados problemas de

forma sistematizada. Uma ferramenta para operacionalizar a avaliação heurística é o

checklist, e sua elaboração é de grande importância para os resultados da avaliação.

Segundo Tezza (2009), checklists bem elaborados devem produzir resultados mais

uniformes e abrangentes, em termos de identificação de problemas de usabilidade.

Foi desenvolvido no GQS/INCoD/UFSC um conjunto de heurísticas de

usabilidade e um checklist para avaliar a usabilidade de sistemas em dispositivos

touchscreen phones. Chamado de MATcH (Measuring Usability of Touchscreen Phone

Applications), este é um conjunto de heurísticas organizadas com base em Nielsen e

customizadas especificamente para os dispositivos móveis. Como instrumento de

avaliação heurística, o checklist do MATcH é composto de uma série de itens que

buscam identificar as características que representam efetivamente uma boa usabilidade

em interfaces touchscreen para celulares.

Em Witt (2013), foi dado um primeiro passo para a validação deste conjunto de

heurísticas, realizando um estudo empírico composto de várias avaliações heurísticas

utilizando o checklist desenvolvido para este propósito.

O problema que surge é a necessidade destas heurísticas customizadas para

smartphones em serem validadas quanto a sua confiabilidade e eficácia. A validação de

heurísticas deve ocorrer para determinar seu potencial em detecção de erros. Se não

validadas, os problemas por elas detectados podem não representar erros reais ou

ignorar problemas existentes, não cumprindo o propósito das heurísticas de conduzir a

um melhor desenvolvimento das interfaces.

Dessa forma a pergunta de pesquisa a ser analisada no presente trabalho é: O

conjunto de heurísticas e o checklist de usabilidade para dispositivos de celulares

touchscreen (MATcH) é valido quando comparado com os resultados de testes de

usabilidade?

2. Metodologia

O objetivo geral deste trabalho é validar as heurísticas e checklist de usabilidade

MATcH customizada para celulares touchscreen. Para este fim é realizando um estudo

empírico comparativo, onde são realizadas avaliações heurísticas utilizando o checklist

desenvolvido e uma série de testes de usabilidade referente aos mesmo aplicativos para

celulares touchscreen. Durante os testes de usabilidade, os dados relativos a percepção

dos usuários sobre a usabilidade do aplicativo serão coletadas sistematicamente, a partir

de um questionário pós-teste.

A metodologia definida para a realização deste trabalho é dividida em três etapas

(como mostra a figura 1). Cada etapa é subdividida em atividades, que definem cada

passo para atingir o objetivo.

Figura 1. Metodologia

Etapa 1 - Revisão da Literatura: Será levantado, a partir da literatura, a definição sobre

conceitos pertinentes a área de interação humano-computador em geral e posteriormente

com ênfase na área de heurísticas de usabilidade para dispositivos celulares touchscreen.

Atividade 1.1: Definir conceitos da área a área de Interação Humano-

Computador/Engenharia de usabilidade/Heurísticas de Usabilidade.

Atividade 1.2: Analisar a área de testes de usabilidade com dispositivos moveis.

Etapa 2 – Revisão do estado da arte: Analisar o estado da arte em relação à avaliação de

heurísticas de usabilidade existentes para o design de interface para celulares

touchscreen. Para esta etapa será utilizada a técnica de revisão sistemática de literatura

[Kitchenham, 2007].

Atividade 2.1: Definir a revisão sistemática da literatura

Atividade 2.2: Executar a revisão sistemática da literatura

Atividade 2.3: Analisar e interpretar as informações extraídas

Atividade 2.4: Documentar e discutir os resultados

Etapa 3 - Estudo de Caso: Nessa etapa será realizado o estudo empírico comparativo.

Serão definidos o objetivo e o design do estudo. As avaliações dos aplicativos para

celulares touchscreen para plataformas iOS ou Android serão realizadas em duas

iterações utilizando de testes de usabilidade de forma remota e presencial.

Atividade 3.1: Definir o estudo

Atividade 3.2: Realizar as avalições heurísticas usando o MATcH

Atividade 3.3: Executar a iteração 1 dos testes de usabilidade

Atividade 3.3.1: Executar os testes de usabilidade remota não-moderada

Atividade 3.3.2: Executar os testes de usabilidade no laboratório

Atividade 3.4: Executar a iteração 2 dos testes de usabilidade

Atividade 3.4.1: Executar os testes de usabilidade remota não-moderada

Atividade 3.4.2: Executar os testes de usabilidade no laboratório

Atividade 3.5: Analisar os resultados dos testes de usabilidade

Atividade 3.6: Comparar resultados

3. Fundamentação Teórica

3.1 Heurísticas de Usabilidade para Celulares Touchscreen

Ao iniciar o estudo de engenharia de usabilidade, podemos começar pela conceituação

da interação humano-computador (IHC). A IHC foca num melhor desenvolvimento da

interface utilizada para nos comunicarmos com as máquinas e computadores. Ou seja,

visa-se interfaces com melhor usabilidade.

Segundo a ISO 9241-11, usabilidade é a “medida na qual um produto pode ser

usado por usuários específicos para alcançar objetivos específicos com eficácia,

eficiência e satisfação em um contexto específico de uso”. Eficiência neste contexto está

relacionada ao quão bem o produto faz o que é esperado dele; eficácia está relacionada

ao modo como este produto melhora a realização das tarefas dos usuários e satisfação é

uma medida de conforto e de atitude do usuário em relação ao uso deste produto

[Preece, 2005] [ISO 9241-11]. O conceito de qualidade de usabilidade de um produto ou

interface é determinado por um processo de avaliação e atividades validadas [Pádua,

2011].

Para se avaliar usabilidade, é possível a utilização de heurísticas de usabilidade.

Heurísticas são, segundo Nielsen (1994), regras/diretrizes para encontrar uma melhor

maneira de resolver um problema de forma eficiente com um bom custo-benefício e

resultados confiáveis. Elas descrevem propriedades comuns em interfaces. Estas

propriedades são derivadas de estudos de aspectos psicológicos, computacionais e

sociológicos do problema. Estas regras são utilizadas tanto para direcionar o design de

interface quanto na avaliação da usabilidade.

Uma avaliação heurística, segundo Nielsen, é um método de avaliação

sistemático a fim de encontrar problemas de usabilidade em designs de interface. A

avaliação é feita por especialistas em usabilidade, que revisam a interface comparando-a

com os princípios pré-definidos (heurísticas). O resultado desta avaliação são os

problemas de usabilidade, não é do objetivo da avaliação heurística propor soluções.

Quando pensamos na época em que foram desenvolvidas as heurísticas de

Nielsen, é fácil imaginar o contexto em que o usuário se encontrava, já que a variedade

e capacidade dos aparelhos era menor. Hoje, smartphones possuem uma série de

aplicações feitas por terceiros que ampliam suas funcionalidades iniciais (como redes

sociais, email, resultados esportivos, entre outros). Heurísticas específicas tendem a

oferecer melhor suporte para a inspeção de interfaces touchscreen.

Dentre os conjuntos de heurísticas, em Salazar et al. (2013) foi analisada esta

questão para definir quais deles possuem este enfoque em dispositivos móveis e, mais

especificamente celulares touchscreen. A revisão sistemática encontrou artigos

considerados relevantes ao tópico e analisou-os em comparação com o conjunto de

heurísticas clássicas de Nielsen. O resultado encontrado pela revisão foi que heurísticas

como “design minimalista” e “diálogo e linguagens naturais ao usuário” continuaram

presentes nestes conjuntos, enquanto “prevenção de erros” e “ajuda e documentação”

praticamente não aparecem. Alguns trabalhos, como Salazar et al. (2013) e Bertini et al.

(2006) ainda elaboram conjuntos com alguma adaptação e heurísticas de usabilidade

novas, frisando a necessidade destes dispositivos em serem confortáveis e rápidos de

usar (interação física e ergonomia) e de terem foco claro com apenas a informação que o

usuário realmente procura ao utilizá-lo; a compatibilidade entre diferentes plataformas

também é um ponto citado entre algumas destas pesquisas como uma nova heurística.

3.1.1 MATcH – Measuring Usability of Touchscreen Phone Applications

Foi desenvolvido no GQS/INCoD/UFSC um conjunto de heurísticas de usabilidade e

um checklist para avaliar a usabilidade de sistemas em dispositivos touchscreen phones

[Salazar, et al., 2012] [Nunes, et al., 2013]. O MATcH (Measuring Usability of

Touchscreen Phone Applications) é um conjunto de heurísticas adaptadas de Nielsen

para os dispositivos móveis e decompostas em uma série de itens de medida que

representem efetivamente uma boa usabilidade. O conjunto completo está demonstrado

na tabela 1. Ele foi operacionalizado através de um checklist baseado em problemas

específicos para este ambiente de uso (Anexo A).

Tabela 1. Heurísticas MATcH

Conjunto Unificado de Heurísticas para Celulares

Tradicionais

[Nielsen, 1994] Visibilidade e Status do Sistema

Compatibilidade entre o Sistema o Mundo Real

Liberdade e Controle do Usuário

Consistência e Padrões

Prevenção de Erros

Reconhecimento em vez de Lembrnaça

Flexibilidade e Eficiência de Uso

Estética e Design Minimalista

Ajudar os usuários a reconhecer, diagnosticar e recuperar de erros

Ajuda e documentação

Novas Compatibilidade entre Diferentes Plataformas

Pouca interação homem/dispositivo

Interação Física e Ergonomia

Legibilidade e Layout

O conjunto de heurísticas e o checklist foram analisados por meio de um estudo

empírico usando a técnica de estatística de TRI – Teoria de Resposta ao Item [Witt,

2013]. As respostas ao checklist destas aplicações foram então analisados utilizando a

Teoria da Resposta ao Item, a fim de identificar itens problemáticos. O checklist inicial

continha 92 itens que, após análises de consistência do traço latente, foi finalizado com

48 itens para avaliação. Como resultado, também foi definida uma escala padronizada

de medição de usabilidade. Esta pesquisa pode ser acessada via o website

http://www.gqs.ufsc.br/MATcH-measuring-usability-of-touchscreen-phone-

applications/.

Tabela 2. Escala de Graus de Usabilidade

Faixa Descrição

Até 20 pontos Usabilidade Muito Baixa

30 Usabilidade Baixa

40 Usabilidade Razoável

50 Usabilidade Alta

60 Usabilidade Muito Alta

4. Estado da Arte

Com o objetivo de analisar o estado da arte sobre pesquisas relacionadas a validações de

conjuntos de heurísticas/checklists desenvolvidos para a avaliação heurística de

dispositivos móveis touchscreen. A questão principal a ser avaliada nesta seção é: Como

são avaliados os conjuntos de heurísticas de usabilidade para dispositivos móveis?

Para responder esta questão, é realizada uma revisão sistemática da literatura,

seguindo o procedimento proposto por Kitchenham (1994). O objetivo é buscar artigos e

publicações descrevendo pesquisas que validam conjuntos de heurísticas e checklists

desenvolvidos para a avaliação heurística de dispositivos móveis, mais especificamente

dispositivos touchscreen.

Critérios de Inclusão/Exclusão:

• O trabalho deve ser focado em analisar interfaces de dispositivos móveis

touchscreen

• O trabalho deve apresentar o uso de algum conjunto de heurística

• O objetivo do trabalho deve ser avaliar a usabilidade da interface um dispositivo

móvel

• O trabalho deve apresentar relação com métodos de avaliação heurísticas

• O trabalho deve apresentar a validação dos conjuntos de heurísticas nele

propostos

A pesquisa foi feita utilizando o mecanismo de pesquisa acadêmica online

Google Scholar e nas bases da IEEE. Para padronizar a busca foi utilizado o seguinte

termo de busca:

• “interface usability heuristics evaluation mobile OR smartphone OR handheld

OR cellphones touch screen”.

Foram levados em consideração artigos em inglês e português publicados no

período de 2008 até 2013. Devido ao caráter de rápida evolução na tecnologia envolvida

em celulares e a popularização recente dos que possuem tela sensível ao toque, artigos

anteriores à 2008 foram considerados desatualizados e não agregariam informações

relevantes hoje em dia. Nos termos de busca, por causa do fato de dispositivos móveis

possuírem diversos sinônimos na língua inglesa, foram incluídos na pesquisa palavras

intercambiáveis para "mobile" (smartphone, handheld, cellphone), a fim de ampliar o

número de resultados.

A busca foi realizada em setembro de 2013, e resultou em aproximadamente

3,780 resultados no Google Scholar, sendo que pesquisa na base de dados IEEExplore

retornou 7 resultados aplicados os mesmos termos de inclusão e exclusão, porém aqui

não refinando de acordo com o período por causa do número bastante reduzido de

resultados.

Foram excluídas publicações que: não tratassem de dispositivos móveis

touchscreen; não possuíssem o foco da pesquisa em avalição heurística; não citassem a

forma de pesquisa com foco em usabilidade.

Após analisar os resultados do Google Scholar até a página 10 e os 7 resultados

na IEEE, levando em consideração o título, resumo apresentado e aplicando-se os

critérios de inclusão e exclusão, restaram 9 artigos considerados relevantes. Destes

artigos, realizando uma leitura e análise aprofundada de cada um, restaram 4 artigos

relevantes para discussão, com os dados mais relevantes extraídos e dispostos na tabela

3.

Tabela 3. Extração dos Dados

Referência Tipo de

objeto

avaliado

Heurísticas Design de pesquisa

(experimento/estud

o de caso)

Avaliação

heurística

Teste de

usabilidade

Sistema/

software/ap

p

Técnica

estatística

para fazer

análise

(Jeongyun,

H.; Dong-

Han, H.;

Sanghyun,

P.; Chiwon,

S.; Wan

Chul, Y.;

2009)

Não

informado

(N. I.)

Combinado das

heurísticas de

Nielsen (1994),

ISO/IEC 9241-11

(1998), e Hix and

Hartson’s

principles (1993).

Número total não

informado.

Estudo de caso de

um framework de

avaliação heurística

contemplando

vários tipos de UI

(interfaces de

usuário)

8

avaliadores

Utilizando

um checklist

com Likert-

scale de 5

pontos

Sistema

Operacional

de Celulares

(não

informado

quais

dispositivos)

Não

apresentada

uma

análise

estatística

(Ji, Y. G.;

Park, J. H.;

Lee, C.;

Yun, M. H.;

2006)

3 Celulares

tradicionais

distintos

(dispositivos

pre-

smartphones

)

21 heurísticas

extraídas de

diversas fontes

(Constantine,

1994; Nielsen,

1994; Treu, 1994;

Dix, Finlay,

Abowd and Beale,

1998; Lauessen e

Younessi, 1998;

Preece, Rogers e

Sharp, 2002;)

Estudo de caso

comparando

resultados de

avaliação heurística

com testes de

usabilidade

10

avaliadores

(5 homens,

5 mulheres,

usuarios

com

experiência

no uso dos

celulares)

para relizar

tarefas e

graduar a

experiência

de uso

Checklist

com Likert-

scale de 7

pontos

Sistema pré-

instalado nos

dispositivos

ANOVA

(análise de

variância)

(Inostroza,

R.; Rusu,

C.;

Roncagliolo

, S.;

Jimenez, C.;

Rusu, V.,

2012)

Blackberry

Storm 2

(9550)

Definidas a partir

de uma

metodologia de 6

Passos (C. Rusu, et

al, “A

methodology to

establish usability

heuristics”) em

conjunto com uma

adaptação das

Heurísticas de

Nielsen. Resultou

em 11 heurísticas

(10 baseadas em

Nielsen e

adaptadas ao

paradigma

mobile/touchscree

n, 1 resultante de

análises das

características dos

dispositivos e

Estudo de caso

utilizando

heurísticas

tradicionais

(Nielsen)

comparando com

heurísticas focadas

em dispositivos

móveis touchscreen

utilizando um

checklist.

4

avaliadores,

2 avaliando

sob o

conjunto

tradicional

de Nielsen,

2 sob o

conjunto de

11

heurísticas

adaptadas

Não

realizado Blackberry

Operating

System (v.

5.0.0.1015)

N.I.

problemas de

usabilidade

encontrados)

(Bertini, E.;

Gabrielli,

S.; Kimani,

S.; 2006)

N. I. 8 heurísticas

definidas a partir

de uma adaptação

das heurísticas de

Nielsen (1994) em

comparação com

problemas comuns

de usabilidade em

dispositivos

móveis

Estudo de caso

comparando

resultados de

avaliação heurística

com testes de

usabilidade

8

avaliadores,

4 utilizando

as

heurísticas

de Nielsen

e 4

utilizando o

conjunto

adaptado de

8

heurísticas

O teste

ocorreu com

o uso das

aplicações e

o avaliador

descrevendo

as tarefas

que estava

realizando e

identificand

o os

problemas

na escala

SRS

proposta por

Nielsen

Aplicativo de

supermercad

o de PDAs e

um aplicativo

de e-mail de

PDAs

N. I.

Analisando estes artigos e com base nos resultados das pesquisas, fica evidente que o

número de artigos que tratam e validam os conjuntos de heurísticas propostos para estes

dispositivos é muito baixo e, muitas vezes, estão desatualizados com o padrão

touchscreen dos dias atuais.

De acordo com estes artigos, as interfaces são avaliadas por meio de avaliações

heurísticas ou com base em testes de usabilidade. Normalmente envolvendo poucos

participantes e em ambiente controlado (em laboratório). Pela quantidade baixa de

artigos encontrados que descrevem algum tipo de avaliação heurística, elas não parecem

estar sendo amplamente executadas, e quando feitos testes de usabilidade, a escala de

participantes, aplicações e dispositivos é bastante reduzida. Por consequência, os

resultados encontrados não demonstram números significativos de um ponto de vista

estatístico, e portanto, podem não ser considerados conclusivos, de acordo com os

próprios autores dos artigos analisados.

A partir dos artigos encontrados pode ser visto que este tipo de avaliação e

geralmente é feito a) comparando os resultados da avaliação heurística realizada com

conjuntos tradicionais e da avaliação com um conjunto específico para a pesquisa ou b)

realizando também testes de usabilidade, para posteriormente comparar os resultados

destes testes com os resultados das avaliações heurísticas.

As avaliações heurísticas foram aplicadas em sua grande maioria em apenas um

dispositivo e focando em funcionalidades do sistema operacional destes (ao invés de

aplicativos de terceiros). Ele foi conduzido por profissionais ligado à área de

Usabilidade ou de Interação Humano-Computador, e que possuíam conhecimento

prévio de como realizar uma avaliação deste tipo. Também foi amplamente utilizada

uma escala de satisfação do tipo Likert, variando entre 5 e 7 pontos, dependendo do

estudo. A escala Likert é útil para indicar o nível de concordância ou discordância dos

participantes de testes [Padilha, 2004].

Os testes de usabilidade foram aplicados definindo primeiramente uma série de

tarefas a serem executadas nos sistemas/aplicativos em grupos de até 10 pessoas, que já

possuíam alguma familiaridade com dispositivos móveis. Após a realização das tarefas,

cada participante respondeu a um questionário para medir sua satisfação. Estes

participantes foram compensados pelo tempo dedicado ao experimento. Os resultados

dos testes coletados pelo checklist foram comparados com os resultados obtidos pelos

profissionais avaliadores normalmente encaixando as perguntas dos questionários às

heurísticas da avaliação e assim obtendo médias de satisfação para cada aspecto das

interfaces.

Das publicações selecionadas, apenas Inostroza et al. (2012) realizaram o teste

em um dispositivo touchscreen (Blackberry Storm), e validaram comparando os

resultados provenientes da análise através das heurísticas de Nielsen (1994) com um

novo conjunto proposto com base no tipo de dispositivo em avaliação. Dois grupos

distintos de avaliadores se utilizaram cada um de um dos conjuntos mas aplicados sob o

mesmo dispositivo. Esta é uma abordagem que parece ser popular entre as observadas

nos artigos, sendo que Bertini (2006) também se utilizou dela anos antes.

O resultado destas publicações foi uma maior eficiência em identificar

problemas de usabilidade através dos conjuntos adaptados do que com o conjunto

tradicional. Nas outras duas publicações, apesar de não apresentarem a comparação com

conjuntos tradicionais, a criação do conjunto voltado aos dispositivos móveis também se

deu a partir destas heurísticas já pré-estabelecidas (englobando inclusive outras além das

de Nielsen).

Finalizada a pesquisa, observa-se que conjuntos de heurísticas voltadas para

celulares touchscreen ainda é pouco explorado. Por isso, o presente trabalho procura

expandir o estado atual desta área.

5. Validação do Conjunto de Heurísticas MATcH

O objetivo da validação do conjunto de heurísticas MATcH é avaliar a confiabilidade e

eficácia de uma avaliação heurística através do MATcH em comparação com o grau de

usabilidade percebido por usuários através de testes de usabilidade de aplicativos

móveis para celulares touchscreen.

Esta validação é feita através de um estudo de caso comparativo entre os

resultados de avaliações heurísticas usando MATcH e os resultados de duas iterações de

testes de usabilidade.

O questionário pós-teste de usabilidade utilizado nesta pesquisa foi elaborado e

avaliado em Oliveira (2013) e chamado de SURE - Smartphone Usability

Questionnaire, composto de 37 itens. Este questionário foi aplicado em alguns

aplicativos pré-selecionados pelos pesquisadores. Isto ocorre para ser possível

concentrar um maior número de usuários por aplicativo (obtendo quantidade de dados

suficientes para análise), dada a enorme quantidade de aplicativos disponíveis no

mercado. Deste modo, tanto os usuários quanto os pesquisadores avaliarão os mesmos

aplicativos, facilitando comparações.

Em ambas iterações, o teste foi feito de maneira presencial e de maneira online.

Foi definido um termo de consentimento livre e esclarecido (apêndice B) tanto para a

aplicação no laboratório do Grupo de Qualidade de Software, da Universidade Federal

de Santa Catarina e em salas de aula, bem como na aplicação à distância (por meio

online em http://www.gqs.ufsc.br/teste) e apresentado aos participantes antes do início

dos testes, que assinavam após a leitura completa do documento. Na figura 2, é possível

visualizar o design do estudo, onde as flechas representam a comparação que será feita

entre os resultados em ambas as iterações.

A pesquisa foi aprovada pelo Comitê de Ética em Pesquisas com Seres Humanos,

parecer nº 19988413.6.0000.0121.

Figura 2. Definição do Estudo Comparativo

No teste de usabilidade presencial, o voluntario é convidado a participar do teste, onde

são disponibilizados aparelhos no laboratório do GQS (podendo utilizar o próprio

celular se assim preferir) e as folhas de teste. Os aplicativos são sorteados através de

uma pilha de folhas de teste previamente embaralhadas, e que o próprio participante

retirava. Antes de realizar as tarefas, o participante lê e assina o Termo de

Consentimento Livre e Esclarecido. Então, o voluntário executava as tarefas específicas

presentes na sua folha e respondiam as questões (folhas de teste compostas dos

Apêndices A e B e do Anexo B).

O teste de usabilidade online consiste no participante voluntariamente acessar o

questionário disponibilizado pelo servidor do GQS. O questionário online (Figura 4) foi

realizado utilizando a plataforma Limesurvey (https://www.limesurvey.org), ferramenta

open source para realização de formulários. A escolha desta plataforma se deu por

permitir realizar um sorteio aleatório dos aplicativos a serem testados, bem como

randomização das questões dentro do próprio questionário, a fim de evitar respostas

inválidas resultantes de fadiga por parte do voluntário.

5.1 Primeira Iteração

A primeira atividade é definir os critérios de seleção de aplicativos para depois realizar a

avaliação heurística de aplicativos. Os critérios estão descritos na tabela 4.

Tabela 4. Critérios de Escolha de Aplicativos

1. Aplicativos gratuitos;

2. Aplicativos com diversas recomendações nas páginas que disponibilizam;

3. Aplicativos com número elevado de download

4. Aplicativos que não necessitam de informações bancárias do

Usuário

5. Um aplicativo por cada faixa de usabilidade com base numa avaliação heurística

através do MATcH (um aplicativo com usabilidade baixa, razoável, alta e muito alta).

Para esta primeira iteração, foram aproveitados parte dos resultados das avaliações

heurísticas realizadas em Witt (2013), limitando a seleção para apenas 5 aplicativos. Os

selecionados encontram-se destacados nas caixas em cinza na figura 3.

Figura 3. Aplicativos Selecionados e Definição para Iteração 1

Foram então definidas as tarefas específicas para cada aplicativo, com o objetivo de

padronizar a experiência de uso e obter resultados passíveis de comparação entre os

participantes (Apêndice A). Estas tarefas estão explicitadas na tabela 5.

Tabela 5. Tarefas para Aplicativos da Iteração 1

Aplicativo Tarefas

Buscapé

1.Faça uma busca pelo livro "Não me faça pensar".

2.Filtre os resultados pelo menor preço.

3.Calcule a oferta para o frete com menor preço.

Globoesporte.com

1.Veja notícias sobre o time Cruzeiro

2.Veja notícias sobre basquete.

3.Veja a classificação do Campeonato Brasileiro 2013 e leia em voz

alta o nome do quinto colocado.

Gmail

1. Escreva um novo e-mail

2. Abra o e-mail da caixa de entrada

3. Delete o e-mail

Qual é a resposta?

1.Inicie um jogo

2. Pule a primeira questão.

3.Continue respondendo até o final do jogo.

Weather Channel

1.Veja a previsão do tempo para amanhã para a cidade de São

Paulo.

2.Compartilhe a previsão com [email protected].

3.Leia em voz alta a previsão para a temperatura máxima.

5.2 Segunda Iteração

Para a segunda iteração os critérios de escolha de aplicativos foram os mesmo da

primeira (vide tabela 4), mas com base nas experiências e conhecimentos obtidos na

primeira iteração, optou-se por selecionar apenas aplicativos dentro de um mesmo tema

“Saúde”, para o caso desta iteração.

Para a escolha dos aplicativos nesta iteração também é preciso seleciona-los com

avaliações MATcH dentro de faixas de usabilidade diferentes. Foi feita então

novamente uma busca por aplicativos que já possuíam avaliação em Witt (2013) dentro

dos critérios definidos e encontrados sete pré-candidatos. Como os aplicativos não se

encaixavam dentro de todos os critérios simultaneamente, a lista de candidatos foi

completada incluindo aplicativos que se encaixassem em todos os critérios e em faixas

de usabilidade não representadas pelos já pré-selecionados.

Foi necessário o autor deste trabalho realizar novas avaliações nos que não

possuíam, através do questionário de avaliação MATcH disponível em

www.gqs.ufsc.br/MATcH, adicionando mais seis aplicativos à lista de pré-seleção.

Para estas avaliações heurísticas adicionais, três alunos bolsistas de iniciação

científica do laboratório do GQS e o autor deste trabalho discutiram, selecionaram e

testaram os novos aplicativos. Aplicando os critérios de seleção, foram então eliminados

aplicativos em que era obrigatório o cadastro de informações, que não eram gratuitos e

que se encaixavam em faixas de usabilidade diferentes. Resultando nos seguintes

aplicativos selecionados para os testes conforme Figura 5.

Figura 4. Aplicativos Selecionados para Iteração 2

Próximo passo foi a definição das tarefas para estes aplicativos, da mesma forma como

foi realizado na primeira iteração. As tarefas estão representadas na tabela 9.

Tabela 6. Tarefas para os Aplicativos da Segunda Iteração

Aplicativo Tarefas

Resultados

1. Acessar o exame através do protocolo fornecido

2. Acessar as imagens do exame realizado

3. Acessar através do histórico um exame do ano passado.

Cruzi

• Buscar informações sobre a doença Febre Amarela e ler o Médico

Especialista

• Procurar pelo remédio "Paracetamol" e citar suas indicações.

• Ler as doenças que a Especialidade Médica "Cardiologista" trata.

Cardiograph

• Medir os batimentos cardíacos por 30 segundos e dizer a média

indicada.

• Olhar o histórico de medições e ler a última medição.

• Apagar a última medição feita.

Runkeeper

1. Selecionar uma atividade do tipo caminhada

2. Selecionar uma "rotina de exercícios" como "meta de ritmo" e para um

tempo de 20 minutos.

3. Dar início à atividade por 10 segundos e selecionar "parar" e depois

"salvar".

5.3 Execução

A iteração 1 foi executada em setembro de 2013 aplicando-se o teste de usabilidade com

o questionário SURE - Smartphone Usability Questionnaire [Oliveira, 2013] composto

por 37 itens para avaliar a usabilidade dos aplicativos. Na primeira iteração, 305 pessoas

participaram no total, 185 através do teste de usabilidade online e 120 no teste de

usabilidade presencial, aplicado no laboratório e em salas de aula cedidas por alguns

professores da universidade.

Em maio de 2014 foi realizada a segunda iteração dos testes. Ao fim do período

de testes, um total de 48 pessoas participaram, sendo 36 através no questionário online e

12 através dos questionários e aparelhos disponibilizados no laboratório do GQS.

Os participantes que realizaram seus testes no laboratório do GQS utilizaram os

aparelhos pré-selecionados iPhone 4S (Apple) e Galaxy Y TV (Samsung), especificados

nas tabelas 10 e 11.

Tabela 7. Especificações do iPhone 4S

Tamanho da Tela 3.5 polegadas

Resolução da tela 640 x 960 pixels

Método touchscreen TFT capacitive touchscreen

Sistema operacional iOS 7

Peso 140 g

Tabela 8. Especificações do Samsung Galaxy Y TV

Tamanho da Tela 3.14 polegadas

Resolução da tela 240 x 320pixels

Método touchscreen TFT capacitive touchscreen

Sistema operacional Android 2.3

Peso 98 g

Para participar online, os voluntários acessavam o teste através de um link. Um dos

aplicativos selecionados para a segunda iteração (“Resultados”) foi desenvolvido pela

UFSC e não estava presente nas lojas de aplicativos da plataforma iOS, portanto

precisou ser removido do teste de usabilidade online e mantido apenas nos testes

presenciais. Para guiar os participantes que poderiam possuir um celular com sistema

iOS (ou outro que não fosse Android), foi inserida uma função no Limesurvey que

finalizava o questionário e o teste para estes usuários após a identificação do aparelho.

Já os participantes que selecionavam “Android” como o sistema operacional de

seus aparelhos eram então guiados para o sorteio de aplicativo. Na primeira iteração não

ocorreu nenhuma diferença entre os testes presenciais e online.

Os testes de usabilidade presenciais foram realizados com pessoas ligadas à

universidade (e comunidade acadêmica) e com uma população diversa nos questionários

online, alcançado divulgando-o via listas de e-mail e redes sociais. Pode-se observar na

tabela 9 a distribuição demográfica entre os participantes da segunda iteração.

Tabela 9. Distribuição Demográfica da Segunda Iteração

Frequência De Uso Do Celular Quantidade

De Vez Em Quando 2

Diariamente 6

Várias Vezes Por Dia 40

Escolaridade Quantidade

Ensino Médio (2º Grau) Completo 3

Ensino Superior Completo 24

Ensino Superior Incompleto 17

Mestrado 4

Faixa Etária Quantidade

18 a 25 anos 30

26 a 45 anos 10

46 a 60 anos 8

5.4 Análise dos Dados

As respostas das iterações foram agrupadas em uma planilha Excel (figura 8) contendo

um número identificador do participante, o Sistema Operacional do celular, o aplicativo

sorteado e as respostas preenchidas. Foram desconsiderados testes incompletos, ou seja,

questionários com 5 ou mais respostas faltantes, de participantes que desistiram no

andamento do preenchimento. Foram também desconsideradas respostas aparentemente

não válidas (p.ex. todas as perguntas respondidas com a mesma categoria na escala

Likert).

Com o auxílio do Prof. Dr. Adriano F. Borgatto, as respostas foram avaliadas e

agrupadas através da nota média por aplicativo. Ao estabelecer as notas, busca-se

descobrir na análise se estes resultados dos testes de usabilidade conferem com os

resultados da avaliação heurística. Os resultados são apresentados na figura 5.

Figura 5. Resultados Obtidos

Seguindo a ordem da figura 5, primeiramente analisando o aplicativo Buscapé, que

obteve notas extremamente próximas, observa-se uma semelhança grande de resultados

entre o SUS e o MATcH, com o SURE tendo avaliado o aplicativo levemente melhor,

estando quase ou no limiar entre a faixa de usabilidade razoável e a alta. Questões como

o aprendizado e a facilidade no manuseio do aplicativo obtiveram respostas favoráveis,

já perguntas que indagavam o usuário sobre ter gostado de o utilizar não foram.

Respostas negativas também acusaram o aplicativo de não fornecer informações

suficientes para completar as tarefas. Com estas informações é possível traçar um

paralelo entre os testes de usabilidade e a avaliação heurística e inferir que, apesar de

possuir uma boa usabilidade, ele apresenta dificuldades em alguma tarefa menos

frequente (possivelmente a de adicionar um produto aos favoritos), que pode ser

decorrente de botões ou rótulos mal destacados ou de não possuir uma ordem de

utilização lógica, características definidas pelo MATcH como sendo de aplicativos com

notas superiores a 50 (com usabilidade alta).

No aplicativo Globoesporte.com, o MATcH avaliou-o com cerca de 5 pontos a

mais do que o SURE, e 6 pontos a mais do que o SUS. Isso pode ter ocorrido devido ao

tema do aplicativo ser “futebol” e que pode ter levado (como constatado por alguns

verbalmente depois do teste) a uma baixa avaliação em perguntas como “Eu

recomendaria este aplicativo...” ou “Eu gostei de usar este aplicativo”, que possuem um

viés mais voltado ao gosto pessoal. Diferentemente, as questões levantadas pela

avaliação heurística são menos voltadas à sensação de satisfação, e sim mais ligadas à

apresentação visual do aplicativo.

O Gmail foi um aplicativo Android com boa avaliação por parte dos usuários

(atingindo usabilidade alta tanto pelos 3 modelos de questionário) mas ficando diferente

da sua avaliação MATcH com usabilidade muito alta. Fatores que podem ter levado o

Gmail a receber “usabilidade alta” nos testes de usabilidade com usuários pode ter sido

sua popularidade e uso frequente por parte dos participantes, tendo assim maior

familiaridade com o aplicativo e eliminando avaliações ruins quanto à dificuldade de

uso, como demonstram as respostas para questões com esse viés. Porém, mesmo assim,

não atingiu a mesma nota do MATcH. Durante alguns testes, participantes manifestaram

problemas com a internet, e por se tratar de um serviço dependente de conexão com um

servidor remoto, uma conexão ruim entre estas duas partes enfraquece e muito a

experiência de uso, algo que em escala reduzida como a avaliação heurística é mais

difícil de acontecer. Outro ponto a se levar em consideração e identificado ao realizar a

avaliação heurística é a competente apresentação de seus símbolos e tipos, trazendo

aspectos já bem estabelecidos no ambiente de e-mails (como a caixa de entrada, anexo,

envio) e a sua boa adaptação à estética do sistema operacional (característica de

aplicativos com usabilidade muito alta), talvez pelo fato do Gmail ter sido desenvolvido

pela empresa Google, também responsável pelo Android, onde este aplicativo foi

testado.

No caso do aplicativo “Qual é a Resposta? ” os questionários do SUS e

SURE/SURE resumido obtiveram notas muito próximas, classificando o aplicativo na

faixa de usabilidade razoável, enquanto a avaliação heurística com o MATcH resultou

em uma classificação de usabilidade muito baixa (2 faixas abaixo). Este fato pode ser

proveniente do fato de que o aplicativo apresente elementos e esquema de cores

carregado. O posicionamento mau posicionamento destes elementos são mais

profundamente abordados no MATcH, com perguntas como “Possibilitam o retorno a

tela anterior a qualquer momento” e “Apresentam título e rótulo curtos, o alinhamento

favorece a leitura, em como as fontes e o espaçamento entrelinhas”, entre outras

similares. Um outro fenômeno que pode acontecer num aplicativo como este também é

o de “diversão” ou “satisfação do usuário”, já que se trata de um jogo e a experiência

pode estar diretamente ligada ao desempenho do usuário durante seu uso.

Quanto ao aplicativo Weather Channel podemos inferir análise semelhante ao

Qual é a Resposta, apesar de haver diferença menor (de apenas uma faixa de

usabilidade, sendo “Razoável” pelo SURE/SUS e “Baixa” pelo MATcH). Aqui a

diferença menor pode ser pelo fato de que, durante a avaliação heurística, foi possível

percebeu que os elementos estão melhor apresentados do que no aplicativo anterior,

como pode ser inspecionado através da questão presente no MATcH “Permitem que as

funções mais utilizadas sejam facilmente acessadas. “, algo que acontece neste

aplicativo e que não acontecia no anterior. Também é possível observar que há grande

quantidade de informação numa mesma tela, fato constatado por tanto pelos

participantes quanto pelo avaliador.

Iniciando a análise dos aplicativos da segunda iteração, o Cardiograph,

considerado com usabilidade muito próxima de alta pelo questionário pós-teste e com

usabilidade baixa pelo MATcH, pode ter sofrido com perguntas como “Possuem botões

e links com a área clicável ocupando toda a dimensão dos mesmos” e “Possuem botões

com tamanho adequado ao clique e os mesmos podem ser acessados com qualquer uma

das mãos”, observando-se através da avaliação heurística botões pequenos e escolha de

cores com pouco contraste. Nele também não ocorreu consistência no modo em que se

interage com o aplicativo, sendo muitas vezes por botões, e para uma ação apenas

(deletar um item no histórico) por um gesto de deslizar o dedo que não é claramente

indicado, apenas pelo uso da metáfora de “folha de papel” que a tela apresenta. Por

outro lado, perguntas no SURE como “Eu achei este aplicativo consistente... ” podem

avaliar o mesmo aspecto, portanto indicando aqui algum outro fator mais ligado à

disposição dos elementos na tela ou ainda pelo fato de que, apesar de terem respondido

que não acharam o design atraente e que não usariam com frequência, acharam ele fácil

de aprender, e talvez mais importante, concordaram ou concordaram totalmente que

conseguiram completar as tarefas e gostaram de usar, ou seja, atendendo ao objetivo do

aplicativo.

No aplicativo Cruzi apresentam-se valores muito próximos, talvez, como

constatado pelo avaliador, pela interface ser bastante simples e clara, com boa definição

de botões e das diferentes áreas do aplicativo, textos com tamanho adequado e lógica de

interação consistente. As questões do SURE que obtiveram maior índice não

concordância foram as relacionadas à utilização dele em casos especiais (com pressa,

em movimento) e à frequência do uso, talvez por se tratar de um aplicativo de consulta

especifico para área da saúde.

Com relação ao aplicativo Runkeeper, considerado pelos usuários como tendo

usabilidade razoável e pelo MATcH como usabilidade muito alta, talvez tenha se

encaixado em situação semelhante ao do aplicativo Gmail na iteração 1. Aqui o caso de

ser um aplicativo bastante atraente e com uso de cores, símbolos e botões claros e

consistentes através das telas pode ter garantido uma nota alta na avaliação heurística,

principalmente pelas perguntas “Permitem identificar o número de passos necessários

para a realização de uma tarefa e também permitem que o usuário cancele uma ação em

progresso”, “Realçam conteúdos mais importantes, deixando-os maiores, mais

brilhosos, negrito ou mais detalhados” e “todas as telas mantêm acessíveis menus e

funções comuns do aplicativo”. A diferença nas avaliações pode se dar pelo fato do

aplicativo ter um uso difícil de se testar em laboratório, talvez exigindo que mais

pessoas tenham um contato prévio com ele para melhor compreender todas as suas

funções (por se tratar de um aplicativo que necessita de movimentação). Nas respostas

do SURE, os usuários refletiram sob este aspecto de forma um pouco contraditória nas

respostas, tendo respondido que não acharam o aplicativo de fácil aprendizado em uma

pergunta positiva “Foi fácil de aprender a usar este aplicativo” e discordaram nas

perguntas negativas “Eu precisei aprender muitas coisas para usar este aplicativo” e “Eu

achei o aplicativo desnecessariamente complexo”.

O aplicativo Resultados obteve um caso comparável com o Weather Channel na

iteração anterior, onde os usuários o avaliaram em uma faixa de usabilidade superior ao

MATcH, neste caso usabilidade muito alta, por parte do teste de usabilidade, e razoável,

por parte da avaliação heurística. Fatos que podem ter levado à esta diferença, no

entanto, se mostram diferentes, visto que um dos fatores importantes na hora da

avaliação heurística são “Utilizam objetos (ícones) ao invés de botões e o significado de

símbolos e ícones são compreensíveis e intuitivos” e “Não apresentam problemas

durante a interação”. O primeiro fator neste aplicativo foi mal avaliado no que diz

respeito aos símbolos, que, apesar de terem um significado compreensível, estão num

padrão de cores que sugere que os mesmo estão “desabilitados” (em cinza), já no

segundo fator, talvez o que mais pesou, foi que o aplicativo apresentou diversos erros

durante a avaliação e testes, como por exemplo na hora do acesso utilizando o protocolo

que apresentava um aviso de carregando sem possibilidade de cancelamento e quando

ocorrido o erro, a formatação da tela inicial era completamente desfeita (as imagens e

textos desalinhavam ou sumiam da tela), sendo necessária a reinicialização do

aplicativo. Em outro momento, quando o erro ocorria já dentro das funções principais

(visualização dos dados), a mensagem de erro era editável e não possuía opção de

cancelamento, impossibilitando o uso novamente. Ainda nas telas de erro, durante os

testes de usabilidade, talvez os participantes não se depararam com uma situação em que

estas aconteceram, portanto não avaliando de forma ruim este aspecto através de

questões como “As mensagens de erro ajudam a corrigir os problemas” e “Eu achei que

a ajuda/dica dada pelo aplicativo foi útil” e como suas respostas indicam “não se aplica”

em praticamente todos os testes.

6. Discussão

Feita a análise, é possível observar que avaliações heurísticas com o checklist MATcH

podem sim gerar alguns resultados que condizem com os obtidos nos testes de

usabilidade, porém são necessários ajustes para que isso ocorra de forma mais confiável.

Quanto aos questionários utilizados nos testes de usabilidade, pode ser

observado que as notas do questionário SURE e sua versão resumida de 11 itens se

mantiveram muito próximas entre todos os testes, com uma diferença máxima de 1,47

pontos. A versão resumida obteve notas 1 ponto mais baixas em 3 casos (Weather

Channel, Cruzi e Resultados), e em 1 caso com nota 1 ponto maior (Cardiograph). O

restante obteve diferença ínfima (alguns décimos), e ao fim em apenas um dos

aplicativos (Cardiograph) isto significou uma classificação em faixa diferente de

usabilidade. Portanto, o SURE resumido se mostra uma boa alternativa para testes de

usabilidade que necessitem de algo mais rápido e menos trabalhoso para o participante.

O mesmo pode ser dito se compararmos os resultados do SURE com os itens

pertencentes ao SUS, aqui obtendo notas com uma diferença máxima de 1,55 pontos

(tendendo para notas levemente mais baixas no SUS) e com um dos casos resultando no

aplicativo (Buscapé) ser categorizado em faixa de usabilidade diferente.

Ao compararmos os resultados dos testes de usabilidade com os resultados

obtidos na avaliação heurística, há uma maior disparidade de resultados. Entre o

MATcH e o SURE, em apenas 2 casos (Globoesporte.com e Cruzi) os aplicativos foram

avaliados na mesma faixa de usabilidade (“usabilidade alta”). Isto indica uma boa

calibragem no peso dos itens de heurísticas como “visibilidade e status do sistema”,

“flexibilidade e eficiência de uso” e “legibilidade e layout”, característicos desta faixa

de usabilidade.

Em cinco casos (Buscapé, “Qual é a Resposta?”, Weather Channel, Cardiograph

e Resultados) o MATcH classificou os aplicativos em faixas de usabilidade abaixo do

avaliado pelo SURE. O “Qual é a resposta” e o “Respostas” sendo os únicos que foram

classificados duas faixas abaixo do avaliado pelo teste de usabilidade, na classificação

de “usabilidade muito baixa” e “razoável”, respectivamente. Já nos outros 4 aplicativos,

a divergência foi de apenas uma faixa de usabilidade abaixo. É importante ressaltar que

no caso do Buscapé, esta diferença foi de apenas 1,75 pontos, enquanto nos outros 4

aplicativos a diferença passa dos 10 pontos.

Nos dois casos restantes (Gmail e Runkeeper), o MATcH avaliou de forma

melhor. Sendo no Gmail uma faixa de usabilidade acima (de “alta” para “muito alta”) e

no Runkeeper duas faixas acima (de “razoável” para “muito alta”). No caso do

Runkeeper pode-se ressaltar que sua avaliação em 48,9 pontos está muito próxima de

“alta”, diminuindo a divergência para apenas uma faixa.

Tabela 10. Divergência dos Graus de Usabilidade

Aplicativo SURE MATCH Divergência

Buscapé Usabilidade alta Usabilidade razoável 1 grau

Globoesporte.com Usabilidade alta Usabilidade alta -

Gmail Usabilidade alta Usabilidade muito alta 1 grau

Qual é a Resposta? Usabilidade razoável Usabilidade muito baixa 2 graus

Weather Channel Usabilidade razoável Usabilidade baixa 1 grau

Cardiograph Usabilidade razoável Usabilidade baixa 1 grau

Cruzi Usabilidade alta Usabilidade alta -

Runkeeper Usabilidade razoável Usabilidade muito alta 2 graus

Resultados Usabilidade muito alta Usabilidade razoável 2 graus

Outro fator interessante observado foi o SURE não ter identificado aplicativos com

usabilidade baixa ou muito baixa, enquanto o MATcH identificou aplicativos em todas

as faixas de usabilidade. Isto pode demonstrar uma tendência do SURE em não

identificar problemas de interface com a mesma eficácia que as heurísticas identificam,

como por exemplo questões mais ligadas à consistência e padrões e ao uso de textos e

símbolos, características avaliadas pelas heurísticas nesta faixa de usabilidade baixa.

Por outro lado, o MATcH parece não avaliar a satisfação da experiência que o

usuário terá ao usar o aplicativo, algo que ele levará em conta na hora de responder o

questionário. Os itens do MATcH são todos voltados aos conceitos e modelos de design

interface, não havendo nenhum item que o avaliador deva responder com base em algo

subjetivo como satisfação. Há vários pontos que seus itens abordam que um usuário

realizando o teste de usabilidade dificilmente levaria em conta na hora de responder.

Quanto a validade das heurísticas MATcH em avaliarem a usabilidade de um

aplicativo, elas pareceram funcionar do ponto de vista técnico de um especialista. Isto é,

ao realizar a avaliação heurística, a tendência é avaliar cada elemento ou caso de uso da

interface de modo imparcial e isolado, pelo avaliador. Para o problema ser corrigido é

necessário incluir questões que abordem aspectos mais abrangentes da interface (mais

ligados ao psicológico), itens que contenham o ponto de vista do usuário (incluindo a

mesma linguagem utilizada) ou a adição de novas heurísticas. Rever a exclusão dos

itens retirados na elaboração do checklist pode preencher as lacunas necessárias para

uma aproximação dos resultados ou a redistribuição dos itens na escala, movendo

questões mais irrelevantes ao usuário para faixas mais abaixo (como “No caso de

aplicativos associados a cadastro de login ou contas de e-mail, permite o fácil acesso de

mais de um usuário?”, um item da faixa de usabilidade muito alta).

7. Conclusão

Este trabalho tem como objetivo validar as heurísticas e o checklist de usabilidade

MATcH para celulares touchscreen através de um estudo comparativo.

O estudo comparativo foi feito comparando os resultados das avaliações

heurísticas aos testes de usabilidade com os usuários finais. Ambas avaliações foram

realizadas com os mesmos aplicativos, sendo estes pré-selecionados pelo pesquisador e

com tarefas pré-definidas. Os testes de usabilidade e as avaliações heurísticas foram

realizados em duas iterações com uma amostra de aplicativos diferente em cada

iteração. No total 353 pessoas participaram dos testes, sendo 305 na primeira iteração e

48 na segunda. Os resultados obtidos com os testes de usabilidade foram então

comparados aos resultados obtidos nas avaliações heurísticas. Uma análise foi feita

levando-se em conta as respostas dadas nos itens e as faixas de usabilidade em que cada

aplicativo foi encaixado após cada avaliação. Foi constatado que, apesar das heurísticas

com o checklist e os testes de usabilidade terem avaliado igualmente em 2 casos (3 se

contarmos o Buscapé), há uma inconsistência em quase 60% dos casos. Para resolver

isso pode ser que seja necessário um refinamento dos itens para que isto aconteça de

maneira mais confiável e consistente.

Este refinamento pode ser focado na introdução de novas heurísticas ou itens no

checklist, ou na redistribuição dos pesos na hora de montar a escala em itens que

possuam características irrelevantes ao usuário.

A contribuição deste trabalho está na análise feita acerca da validade das

heurísticas para celulares touchscreen e nos itens que devem ser revistos para futuras

versões.

O presente trabalho deixa como oportunidade de futuras pesquisas na área de

usabilidade o refinamento de heurísticas para celulares touchscreen utilizando-se os

dados e análises aqui observados. Também é possível expandir a pesquisa para áreas de

user experience dentro do escopo de aplicativos móveis touchscreen. Recomenda-se

utilizar mais aplicativos em cada faixa de usabilidade e participantes mais

demograficamente variados.

Referências

ACM SIGCHI. ACM Special Interest Group on Computer-Human Interaction. 2009.

Disponível em: <http://old.sigchi.org/cdg/>. Acesso em: 22 out. 2013.

Agência Nacional De Telecomunicações. Ministério das Comunicações. Relatório de

Acompanhamento 2011. Brasília, 2011. Disponível em <

http://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublica

cao=273912&pub=principal&filtro=1&documentoPath=273912.pdf> Acesso em: 21

jun 2013.

Agência Nacional De Telecomunicações. Ministério das Comunicações. Relatório

Anual 2010. Brasília, 2011. Disponível em

<http://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublic

acao=260639&assuntoPublicacao=Relatorio%20Anual%202010&caminhoRel=Cida

dao-Biblioteca-Acervo%20Documental&filtro=1&documentoPath=260639.pdf>

Acesso em: 21 jun 2013.

Andrade, D. F.; Tavares, H. R. E Valle, R. C. Teoria de Resposta ao Item: conceitos e

aplicações. ABE — Associação Brasileira de Estatística, 14º Simpósio Nacional de

Probabilidade e Estatística, Caxambu/Brasil, 2000.

Bertini, E., Gabrielli, S., E Kimani, S. Appropriating and assessing heuristics for

mobile computing. In Proceedings of the Working Conference on Advanced visual

interfaces. Veneza/Itália, 2006.

Cybis, W.; Betiol, A. H.; Faust, R. Ergonomia e usabilidade: conhecimentos, métodos e

aplicações. São Paulo: Novatec 2007.

Falk, T.; There are (almost) as many cell phone subscriptions as people. Disponível em:

< http://www.smartplanet.com/blog/bulletin/there-are-almost-as-many-cell-phone-

subscriptions-as-people/23353 >

GARTNER. Gartner Says Sales of Mobile Devices Grew 5.6 Percent in Third Quarter

of 2011; Smartphone Sales Increased 42 Percent. Disponível em:

<http://www.gartner.com/it/page.jsp?id=1848514>. Acesso em 21 jun 2013.

GARTNER. Gartner Says Worldwide Mobile Phone Sales Declined 1.7 Percent in

2012. Disponível em: <http://www.gartner.com/newsroom/id/2335616>. Acesso em

21 jun 2013.

Heo, J., Ham, D. H., Park, S., Song, C., E Yoon, W. C. A framework for evaluating the

usability of mobile phones based on multi-level, hierarchical model of usability

factors. Interacting with Computers, 21(4), pp. 263-275. 2009.

Inostroza, R., et al. "Usability Heuristics for Touchscreen-based Mobile Devices." In

Proceedings of the Ninth International Conference on Information Technology: New

Generations (ITNG), Las Vegas/EUA, 2012.

Ji, Y. G., et al. A usability checklist for the usability evaluation of mobile phone user

interface. International Journal of Human-Computer Interaction, 20(3), 2006, pp.

207-231.

Kitchenham, B. A. Procedures for Performing Systematic Reviews. Tech. Report

TR/SE-0401, Keele University, Inglaterra. 2004.

Lee, D. The State of the Touch-Screen Panel Market. Disponível em:

<http://www.walkermobile.com/March_2011_ID_State_of_the_Touch_Screen_Mark

et.pdf>. Acesso em: 21 jun 2013.

Nielsen, J., (1994) Heuristic evaluation. In J. Nielsen & R. L. Mack (Eds.), Usability

Inspection Methods. New York: John Wiley & Sons, Inc.

Nunes, J. V.; Gresse Von Wangenheim, C.; Witt, A. T.; Borgatto, A. F.; Lacerda, T. C.;

Krone, C.; Souza, L. O. Elaboração e validação de um checklist para avaliação de

usabilidade de aplicativos para celular touchscreen. In Proceedings of Conference

Interaction South America (ISA), Recife/Brazil, 2013.

Pádua, C. I.P S. Engenharia de Usabilidade – Material de Referência. UFMG, Belo

Horizonte, MG.

Preece, J.; Rogers, Y.; Sharp, H. Design de interação: além da interação homem-

computador. Porto Alegre (RS): Bookman, 2005. 548p. ISBN 9788536304946.

Rocha, H. V. Da; Baranauskas, M. C. C.. Design e avaliação de interfaces humano-

computador. Campina: NIED/ UNICAMP, 2003.

Salazar, L. H. A.; Lacerda, T. C.; Gresse Von Wangenheim, C.; Barbalho, R. A.

Customizando Heurísticas De Usabilidade Para Celulares. In Proceedings Of

Simpósio Brasileiro De Fatores Humanos Em Sistemas Computacionais,

Cuiabá/Brazil, 2012.

Tezza, R. Proposta de um construto para medir usabilidade em sites de e-commerce

utilizando a Teoria da Resposta ao Item. 139 f.. Dissertação (Mestrado) -

Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-

Graduação em Engenharia de Produção. Florianópolis, SC, 2009.

Tezza, R.; Bornia, A. C. Teoria da Resposta ao Item: vantagens e oportunidades para a

engenharia de produção. In Proceedings of XXIX Encontro Nacional de Engenharia

de Produção – ENEGEP, 2009, Salvador – BA. Rio de Janeiro – RJ: ABEPRO,

2009. v 1.

UNITED NATIONS; The Millennium Development Goals Report 2013. Disponível em:

<http://www.un.org/millenniumgoals/pdf/report-2013/mdg-report-2013-english.pdf >

Witt, A. T. Aplicação da Técnica Estatística Teoria da Resposta ao Item para avaliar um

conjunto de Heurísticas de Usabilidade para dispositivos celulares touchscreen.164f.

Trabalho de Conclusão de Curso (Bacharel em Sistemas de Informação) –

Departamento de Informática e Estatística. Universidade Federal de Santa Catarina,

Florianópolis, 2013.

Oliveira, R. Proposta de um questionário pós-teste para medir usabilidade de aplicativos

de celulares touchscreen. Trabalho de Conclusão de Curso (Bacharelado em Sistemas

de Informação) – Departamento de Informática e Estatística, Universidade Federal de

Santa Catarina, Florianópolis, 2013.

Brooke, J. SUS - A quick and dirty usability scale. Usability evaluation in industry, 189,

194. 1996.

Wasserman, A. I. Software Engineering Issues for Mobile Application Development. In

Proceedings of Workshop on Mobile Software Engineering/MobiCASE, Santa

Clara/USA. 2010.

ANATEL. Brasil fecha 2013 com 271,10 milhões de acessos móveis

http://www.anatel.gov.br/Portal/exibirPortalNoticias.do?acao=carregaNoticia&codig

o=32359. 2014.

IDC. Android and iOS Continue to Dominate the Worldwide Smartphone Market with

Android Shipments Just Shy of 800 Million in 2013, According to IDC. Disponível

em: <http://www.idc.com/getdoc.jsp?containerId=prUS24676414>. 2014.

Padilha, A. Usabilidade na Web: uma Proposta de Questionário para Avaliação do Grau

de Satisfação de Usuários do Comércio Eletrônico. Dissertação (Mestrado) -

Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-

Graduação em Ciências da Computação. Florianópolis, SC, 2004.