1
MACHINE LEARNING NA
MELHORIA DE PROCESSOS INTERNOS:
ESTUDOS DE CASO NA INDÚSTRIA DE VAREJO
BRASILEIRA
Flora Mello Quintão Mateus
Mariana de Carvalho Mendonça
Projeto de Graduação apresentado ao Curso de
Engenharia de Produção da Escola Politécnica,
Universidade Federal do Rio de Janeiro, como parte
dos requisitos necessários à obtenção do título de
Engenheiro.
Orientador: Renato Flórido Cameira
Rio de Janeiro
Julho de 2020
3
Mendonça, Mariana de Carvalho
Mateus, Flora Mello Quintão
Machine learning na melhoria de processos internos: estudos
de caso na indústria de varejo brasileira/ Flora Mello Quintão
Mateus e Mariana de Carvalho Mendonça - Rio de Janeiro:
UFRJ/ Escola Politécnica, 2020.
6, 98 p.: il.; 29,7 cm.
Orientador: Renato Flórido Cameira
Projeto de Graduação - UFRJ/ POLI/ Curso de Engenharia de
Produção, 2020.
Referências Bibliográficas: p.94-98.
1. Aplicações 2. Inteligência Artificial 3. Machine learning 4.
Varejo 5. Marketplace 6. Detecção de fraude 7. Cancelamento
de planos 8. Software as a Service. I. Cameira, Renato Flórido
II. Universidade Federal do Rio de Janeiro, UFRJ, Curso de
Engenharia de Produção. III. Machine learning na melhoria
de processos internos: estudos de caso na indústria de varejo
brasileira.
4
AGRADECIMENTOS - FLORA
Gostaria de destacar que este projeto, assim como a minha formação no melhor curso
de engenharia de produção do Brasil (com muito orgulho de dizer!), foi uma realização não só
minha, mas também, indiretamente, da minha família. Agradeço à minha mãe Tereza e ao meu
pai Flávio por serem meus incentivadores desde sempre, pela educação, valores e amor que me
deram e que me fizeram chegar até aqui. Também agradeço às minhas avós Ludia e Cleyde
pelo apoio e ensinamentos durante a minha vida.
Há também muitas pessoas que me ajudaram a iniciar essa jornada na UFRJ e outras
que fizeram dela a melhor possível.
Agradeço à minha ex-professora Margaret pelo trabalho voluntário nas aulas de redação
para o ENEM que foi um pilar para que eu conseguisse a vaga neste curso. Com certeza sua
paixão pela profissão e pela missão em ajudar seus alunos a realizarem seus sonhos a fazem
uma pessoa extraordinária.
Muito obrigada também às minhas primas Camilla e Maria de Lourdes por todo apoio
que me ajudou a permanecer no curso.
Também agradeço ao corpo docente do DEI UFRJ que se esforça todos os dias para a
manter e renovar a excelência de ensino do curso de engenharia de produção. Um
agradecimento especial ao orientador deste trabalho, Renato Cameira, por todo seu empenho e
carinho durante as orientações deste projeto, mas também por ser um exemplo de dedicação às
aulas e à UFRJ. Além disso, agradeço também os funcionários das secretarias e da limpeza que
suportaram a realização das atividades na universidade.
Fundamentais ao meu proveito do curso e à minha feliz jornada até aqui, agradeço aos
meus amigos desde o início - Ligia Garcia, Mariana Campista, Matheus Xavier, Gustavo
Amorim e Alexandre Borges. Mas especialmente à Mariana, minha parceira neste trabalho, nos
estudos para as provas, nas conversas de carreira, nas conversas de bar e em muitos momentos
que a vida trouxe e irá trazer.
Assim, finalizo meus genuínos agradecimentos a todos estes que participaram da minha
formação como Engenheira de Produção pela Universidade Federal do Rio de Janeiro. O
trabalho será árduo e prazeroso para fazer jus a tudo que me foi proporcionado.
5
AGRADECIMENTOS - MARIANA
Em primeiro lugar, gostaria de agradecer aos meus pais, João Batista e Maria Cristina,
que sempre se dedicaram para que eu tivesse boa índole e acesso à educação de qualidade, além
da minha cachorra Princesa, que ficava no meu pé (literalmente) enquanto eu estudava.
Agradeço também de maneira especial ao meu irmão, João Vitor, que me motivou a
seguir carreira na área de Engenharia de Produção com todo seu entusiasmo ao falar do curso e
das aplicações que enxergava no estágio, além da minha cunhada Ivna que sempre me transmite
calma e paciência.
Não poderia deixar de agradecer ao meu parceiro de vida João Filho, que me
acompanhou por todo período de elaboração deste trabalho, me motivando tanto neste projeto
como em todos os outros que eu resolvo embarcar, com muita leveza e sorriso no rosto.
Não menos importante, também gostaria de agradecer aos meus colegas de curso,
especialmente minha dupla de Projeto Final, Flora, que desde o primeiro período esteve comigo,
seja estudando para as infinitas provas unificadas ou para aliviar o estresse pós-trabalho em
uma roda de samba ou em um barzinho. Obrigada àqueles que me acompanharam de perto
nessa trajetória, Rubens Correa, Matheus Xavier, Luiza Amante, Raphael Duarte, Marta Haik,
Sabrina Adegas, Carolina Kiss, Rafael Marinho, Daniel Flórido, Eduardo Gouveia, Arthur
Vidigal, Polyana Benfeita, entre outros.
Agradeço bastante aos professores do curso de Engenharia de Produção, especialmente
ao orientador deste trabalho Renato Cameira, por toda atenção e suporte tanto nas aulas quanto
na elaboração deste trabalho e ao professor Vinícius Cardoso pelos ensinamentos ao longo das
orientações de Iniciação Científica.
Por fim, agradeço ao Colégio Pedro II, que me ensinou valores e me permitiu fazer parte
de uma universidade de excelência.
6
Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte dos
requisitos necessários para a obtenção do grau de Engenheiro de Produção.
MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS: ESTUDOS DE
CASO NA INDÚSTRIA DE VAREJO BRASILEIRA
Flora Mello Quintão Mateus
Mariana de Carvalho Mendonça
Julho de 2020
Orientador: Renato Flórido Cameira
Curso: Engenharia de Produção
Resumo:
A transformação digital e tecnologia impactam o modelo de negócio das organizações.
O presente trabalho aborda as principais tecnologias cognitivas, com foco e aprofundamento
mais específico no machine learning no uso de algoritmos que agregam valor e otimizam os
processos em uma empresa da indústria de varejo no ramo de marketplace. O estudo foi
aprofundado na área de Trust&Safety com o modelo de detecção de fraude, e na área Comercial
com o modelo de previsão de cancelamento de planos. Como resultado deste trabalho, as
análises dos estudos de caso percorrem a definição do problema de negócio, a construção do
modelo e por fim, a análise crítica da implementação, com base no referencial teórico.
Palavras-chave: Aplicações, Inteligência Artificial, Machine Learning, Varejo, Marketplace,
Detecção de fraude, Cancelamento de planos, Software as a Service.
7
Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of the
requirements for the degree of Industrial Engineer.
MACHINE LEARNING TO IMPROVE INTERNAL PROCESSES: CASE STUDIES IN
THE BRAZILIAN RETAIL INDUSTRY
Flora Mello Quintão Mateus
Mariana de Carvalho Mendonça
August 2020
Advisor: Renato Flórido Cameira
Course: Industrial Engineering
Abstract:
The digital transformation and technology impact the business model of organizations.
The present work addresses the main cognitive technologies, with a more specific focus on
machine learning algorithms that add value and optimize processes in a retail industry company
within the marketplace sector. The study was developed in the Trust & Safety area with the
fraud detection model, and in the Commercial area with the model of plan cancellation
prediction. As a result of this work, the analysis of the case studies goes through the definition
of the business problem, the model construction and finally, the critical analysis of the
implementation, based on the theoretical frame of reference.
Keywords: Applications, Artificial Intelligence, Machine Learning, Retail, Marketplace; Fraud
detection; Plan cancelation; Software as a Service.
8
SUMÁRIO
1. INTRODUÇÃO 13
1.1 Contextualização 13
1.2 Motivações e Premissas 14
1.3 Objetivos 15
1.3.1 Objetivo geral 15
1.3.2 Objetivos específicos 15
1.4 Estrutura do trabalho 16
1.4.1 Descrição dos capítulos 16
1.4.2 Delimitações 17
1.4.3 Limitações 17
2. METODOLOGIA DA PESQUISA 18
3. TRANSFORMAÇÃO DIGITAL E INDÚSTRIA 4.0 20
3.1 Conceito e panorama histórico 20
3.2 Estratégia de transformação digital 21
3.3 Categorias de tecnologias 25
3.3.1 Resultados financeiros e tendências de crescimento 25
3.3.2 Conceitos 28
4. MACHINE LEARNING 37
4.1 Conceito 37
4.2 Técnicas 38
4.3 Algoritmos 40
4.4 Processo de construção de um modelo de machine learning 42
4.4.1 Definição do problema de negócio 43
4.4.2 Análise exploratória 43
4.4.3 Criação da amostra de desenvolvimento do modelo 45
4.4.4 Organização de dados 46
4.4.5 Pré-processamento da base de dados 46
4.4.6 Construção do modelo 49
4.4.7 Teste do modelo 52
4.4.8 Definição das regras de decisão 53
4.5 Operacionalização do modelo na organização 55
5. MACHINE LEARNING NA INDÚSTRIA DO VAREJO 57
5.1 Marketplace: um recorte da indústria do varejo 57
9
5.2 Aplicações do machine learning no setor 62
6. ESTUDOS DE CASO 65
6.1 Caracterização da empresa 65
6.1.1 A empresa 65
6.1.2 Áreas de estudo 66
6.1.3 Levantamento de informações 67
6.2 Cancelamento de planos 68
6.2.1 Contexto 68
6.2.2 Construção do modelo 69
6.2.3 Análise crítica 71
6.3 Identificação de fraudes no chat 75
6.3.1 Contexto 75
6.3.1 Construção do modelo 75
6.3.2 Análise crítica 89
7. CONSIDERAÇÕES FINAIS 94
8. REFERÊNCIAS BIBLIOGRÁFICAS 97
9. APÊNDICE – CARACTERÍSTICAS DOS PRINCIPAIS ALGORITMOS DE
MACHINE LEARNING 103
10
LISTA DE FIGURAS
Figura 1: Contexto histórico das revoluções industriais ........................................................... 21
Figura 2: A pirâmide da transformação digital ......................................................................... 22
Figura 3: Quadro de direcionadores de investimento de acordo com habilitadores de eficiência
e de crescimento ....................................................................................................................... 23
Figura 4: Modelo de Customer-centric .................................................................................... 24
Figura 5: Produtividade e crescimento por tipo de tecnologia ................................................. 26
Figura 6: Produtividade por classe industrial ........................................................................... 26
Figura 7: Produtividade (EBITDA por funcionários) companhias líderes vs. seguidoras ....... 27
Figura 8: Alocação % de capital digital das organizações de 2017 a 2019 por objetivo ......... 28
Figura 9: Quadro de classificação de tecnologias por tipos de objetivos estratégicos ............. 29
Figura 10: A indústria 4.0 nos processos corporativos ............................................................. 30
Figura 11: Radar digital com habilitadores e aplicações .......................................................... 32
Figura 12: Evolução histórica dos sensores 1.0 aos sensores inteligentes ............................... 34
Figura 13: Técnicas de Machine learning por categorias. ........................................................ 38
Figura 14: Quadro Perguntas e fatores de análise para escolha de um algoritmo. ................... 41
Figura 15: Etapas do desenvolvimento de um modelo genérico de machine learning ............ 42
Figura 16: Quadro de boas práticas recomendadas na Análise exploratória ............................ 43
Figura 17: Quadro de práticas recomendadas para desafios comuns de aprendizado de máquina
.................................................................................................................................................. 45
Figura 18: Divisão da amostra de desenvolvimento de um modelo de machine learning
supervisionado .......................................................................................................................... 50
Figura 19: Exemplo de código de parte da construção de um modelo ..................................... 51
Figura 20: Exemplo de uma matriz de confusão ...................................................................... 52
Figura 21: Exemplo de um gráfico ROC .................................................................................. 54
Figura 22: Exemplo de gráfico precision-recall....................................................................... 54
Figura 23: Quadro dos tipos de marketplace e respectivas descrições ..................................... 58
Figura 24: Faturamento de marketplace 2015 a 2017 .............................................................. 59
Figura 25: Evolução dos consumidores .................................................................................... 59
Figura 26: Gráfico de quantidade e variação de vendedores nos marketplaces de setembro de
2017 a setembro de 2018 .......................................................................................................... 60
Figura 27: Gráfico de concentração de sellers por departamento nos marketplaces de setembro
de 2017 a setembro de 2018 ..................................................................................................... 61
Figura 28: Gráfico de Ofertas 1P vs Ofertas 3P nos marketplaces de setembro de 2017 a
setembro de 2018 ...................................................................................................................... 61
Figura 29: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de
Setembro/2019 .......................................................................................................................... 72
Figura 30: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de
janeiro/2020 .............................................................................................................................. 73
Figura 31: Resultados do antigo modelo Chat Sense da área de Trust&Safety ........................ 77
11
Figura 32: Simulação de prevenção de denúncias efetivas de fraude pelo modelo Chat Sense,
média semanal .......................................................................................................................... 77
Figura 33: Tempo de processamento do modelo Chat Sense, em minutos .............................. 78
Figura 34: Roadmap planejado para a construção do Fraud Detector ..................................... 79
Figura 35: Denúncias de fraude semanal vs. tempo entre a mensagem e a denúncia .............. 80
Figura 36: Distribuição do tamanho das conversas idôneas ..................................................... 81
Figura 37: Distribuição do tamanho das conversas de fraude .................................................. 81
Figura 38: Análise visual do agrupamento de palavras por PCA ............................................. 83
Figura 39: Validação da configuração Unigrama-bigrama pelo algoritmo Logistic Regression
.................................................................................................................................................. 84
Figura 40: Validação da configuração Trigrama pelo algoritmo Naive Bayes ........................ 84
Figura 41: 1º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression. 85
Figura 42: 1º Teste da configuração Trigrama pelo algoritmo Naive Bayes ........................... 85
Figura 43: 2º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression. 85
Figura 44: 2º Teste da configuração Trigrama pelo algoritmo Naive Bayes ........................... 85
Figura 45: Gráfico de ROC da 1ª versão do Fraud detector .................................................... 86
Figura 46: Gráfico precisão vs. Threshold ............................................................................... 87
Figura 47: Série temporal semanal do volume de denúncias efetivas de fraude ...................... 89
Figura 48: Tempo de processamento do modelo Fraud Detector em milissegundos .............. 89
Figura 49: Roadmap realizado de construção do modelo Fraud Detector ............................... 92
Figura 50: Características dos principais algoritmos de Machine Learning .......................... 106
12
LISTA DE ABREVIATURAS E SIGLAS
CEI Customer Experience Index
BDA Big Data Analytics
CAGR Compound Annual Growth Rate
CPS Cyber Physical Systems
EBITDA Earnings before Interest, Taxes, Depreciation and Amortization
NIST Instituto Nacional Americano de Padrões e Tecnologia
IA Inteligência Artificial
IDC International Data Corporation
IoT Internet of Things
ML Machine Learning
LCD Liquid Cristal Display
NLP Natural Language Processing
B2B Business to Business
B2C Business to Consumer
C2C Consumer to Consumer
OKRs Objective and Key Results
PCA Principal Component Analysis
RPA Robotic Process Automation
SaaS Software as a Service
TI Tecnologia da Informação
TF-IDF Term Frequency-Inverse Document Frequency
13
1. INTRODUÇÃO
No primeiro capítulo é realizada uma breve contextualização do cenário de
transformação digital na economia global, com foco no mercado de varejo e a aplicação de
inteligência artificial e machine learning. Neste capítulo são ressaltadas as limitações e
delimitações do estudo, assim como os objetivos gerais, específicos e por fim, a estrutura do
trabalho.
1.1 Contextualização
Em um cenário competitivo e ágil, a necessidade de acompanhar e se adaptar às
transformações que surgem rapidamente tem sido um desafio para sobrevivência das
organizações. As tecnologias digitais, fundamentadas no computador, software e redes, não são
novas, mas estão causando rupturas significativas à terceira revolução industrial por sua
capacidade de integração e consequentemente pelo seu impacto nos meios de produção e na
economia global.
A quarta revolução industrial, apoiada fortemente em novas tecnologias habilitadoras,
diminuiu distância entre a informação e as pessoas e mudou a forma como os usuários interagem
entre si e de como as organizações aproximam a sociedade. Por esse motivo, os modelos e
processos de negócio passam por uma mudança radical para melhor aproveitar as tecnologias
emergentes e sua rápida expansão nas atividades humanas (PINÇON, 2017).
De acordo com Lorente (2016), as novas tecnologias podem gerar um impacto direto
sobre a experiência com o cliente. Otimizar canais e processos, procurar novos modelos e fluxos
de receita com base em exigências dos clientes e, em paralelo, transformar a estratégia da
organização. Nesse contexto, a melhoria de processos internos apresenta ganhos significativos.
Para compreender melhor as aplicações utilizadas pelo mercado para melhorar
processos internos, o presente trabalho apresenta uma revisão bibliográfica da literatura a
respeito das tecnologias cognitivas, com um aprofundamento no machine learning, uma análise
do cenário do mercado de marketplaces como recorte da indústria de varejo e por fim, aborda
dois estudos de caso de aplicações de machine learning na companhia identificada como
MarketplaceCo.
14
1.2 Motivações e Premissas
A revolução digital é caracterizada por uma internet móvel, por sensores menores e mais
eficientes, pela Inteligência Artificial (IA) e pelo Machine Learning (ML), podendo ser
traduzido como aprendizagem de máquina.
Na última década, o machine learning fez progressos significativos, impulsionado pelo
aumento exponencial da capacidade de processamento e pela disponibilidade de grandes
quantidades de dados. Os algoritmos aprendem a partir do histórico de dados com um processo
de aprendizagem e detecção automatizada de padrões que permite um aprimoramento contínuo
com o objetivo de encontrar melhores soluções a partir dos princípios iniciais.
Pereira, Castro et. al (2016) ressalta que escolher e implementar de forma a conciliar as
melhores tecnologias dentro do contexto organizacional consiste em uma atividade desafiadora
que demanda um conhecimento prévio das possíveis mudanças e impactos organizacionais.
De acordo com a pesquisa realizada pela MIT Sloan Review, Well e Woener (2017), na
indústria de varejo, foram entrevistados 653 executivos norte-americanos sobre o papel do
machine learning em suas atividades. Desses executivos da indústria varejo, 72% acreditam
que seus KPIs funcionais poderiam ser mais bem alcançados com maior investimento em
automação e tecnologias de ML. Nessa pesquisa, 62% dos executivos de varejo disseram que
sua organização possui incentivos internos para usar a automação e as tecnologias de ML para
impulsionar as atividades. Na amostra geral, esse número foi menor: apenas 49% dos
entrevistados relataram ter esses incentivos.
Na abordagem dos estudos de caso, um importante driver estratégico da empresa
escolhida, é fazer uso da tecnologia para melhorar os processos internos utilizando o machine
learning, em específico, em diversas áreas.
Neste contexto, o projeto tem como premissas a serem validadas ao seu decorrer:
I. Há cada vez mais demanda por aplicações de Inteligência Artificial;
II. A indústria de varejo busca inovações tecnológicas para ganhar vantagem competitiva;
III. O machine learning pode ser utilizado para melhorar os processos internos;
IV. O machine learning gera ganhos quantitativos efetivos na indústria do varejo.
15
1.3 Objetivos
Nesta seção é realizado o desdobramento dos objetivos do trabalho em uma visão geral
e seus objetivos específicos.
1.3.1 Objetivo geral
Os objetivos da pesquisa indicam a pretensão com o seu desenvolvimento e quais os
resultados esperados.
Este trabalho tem como objetivo geral identificar as categorias de tecnologias existentes,
com foco no machine learning e suas aplicações de forma a compreender de que forma o uso
de algoritmos pode agregar valor e otimizar os processos em uma empresa da indústria de varejo
no ramo de marketplace.
1.3.2 Objetivos específicos
Para que o objetivo geral fosse alcançado, os seguintes objetivos específicos foram
definidos:
I. Contextualizar brevemente a transformação digital e as categorias de tecnologias
cognitivas existentes;
II. Aprofundar no estudo do Machine Learning, o conceito, as técnicas, os passos para a
construção de um modelo e a operacionalização nas organizações;
III. Compreender o cenário do segmento de Marketplace, como um recorte da indústria de
varejo, além das principais aplicações de machine learning neste setor;
IV. Realizar estudos de caso com o objetivo de tangibilizar aplicações do machine learning
para melhoria de processos internos na área Comercial e na área de Trust&Safety da
MarketplaceCo;
V. Identificar o contexto e a construção dos modelos dos estudos de caso para propor uma
análise crítica acerca dos temas.
16
1.4 Estrutura do trabalho
Nesta seção é desdobrada a estrutura do trabalho em capítulos, suas delimitações e
limitações.
1.4.1 Descrição dos capítulos
No primeiro capítulo deste estudo, são apresentadas as motivações que levaram as
autoras a escolherem o tema estudado como objeto de pesquisa, bem como seus objetivos,
limitações e delimitações, evidenciando o recorte de aplicações do Machine Learning na
indústria de varejo.
No segundo capítulo, é apresentada a metodologia de pesquisa que suporta o trabalho
desenvolvido.
O terceiro, quarto e quinto capítulo compreendem a revisão bibliográfica. No terceiro
capítulo, é realizada uma breve conceituação de transformação digital, estratégia de
transformação digital e as categorias de tecnologias.
O capítulo quatro aprofunda no estudo de machine learning, bem como em suas
técnicas, algoritmos, quais são os passos necessários na construção de um modelo e a aborda
de forma geral os principais tópicos na operacionalização dos modelos em uma organização.
O capítulo cinco explora o contexto dos estudos de caso, a partir da caracterização do
setor de varejo, além das aplicações de machine learning na indústria de varejo.
O sexto capítulo aprofunda nos estudos de caso, caracterizando a empresa estudada,
descrevendo os algoritmos de machine learning que foram implementados na empresa, assim
como as motivações e os resultados alcançados. Neste capítulo também é feita uma análise
crítica dos estudos de caso do ponto de vista das autoras, com base na revisão bibliográfica da
literatura.
Por fim, o último capítulo apresenta as conclusões do trabalho com relação à aplicação
do machine learning na indústria de varejo, assim como apresenta recomendações para
pesquisas futuras.
17
1.4.2 Delimitações
O presente trabalho delimitou-se a apresentar uma visão descritiva da modelagem de
machine learning, sem aprofundar no estado da técnica em termos da codificação
computacional dos algoritmos. Apesar do machine learning pertencer ao conjunto de
Inteligência Artificial, esta será tratada apenas em linhas gerais para contextualização. Além
disso, limitou-se a categorizar as demais tecnologias de forma generalista.
Devido a abrangência de subsetores dentro da indústria de varejo, optou-se por realizar
os estudos de caso em uma empresa pertencente a subcategoria de marketplace, durante o
período de estágio de uma das autoras deste projeto. Sendo assim, o escopo destes estudos de
caso limitou-se às atividades desenvolvidas e ao acesso à informação durante o período de
realização do estágio.
1.4.3 Limitações
O tema estudado apresenta vasta quantidade de conteúdo nas bases acadêmicas,
entretanto, não foi realizada uma busca sistemática exaustiva na literatura, por este não ser o
objetivo principal do trabalho. Pelo fato de machine learning ser um tema atual e em evolução
contínua, se fez necessário o uso de relatórios de consultoria focados em tecnologia, assim como
artigos recentes sobre o assunto.
Outra limitação ocorreu em um dos dois estudos de caso trabalhados. Diferentemente
do segundo, sobre o modelo de identificação de fraudes no chat, que pode contar com acesso à
documentação e os dados do projeto, viabilizando uma análise mais aprofundada, no primeiro
estudo, sobre o modelo de cancelamento de planos, não foi possível realizar um maior
detalhamento, pela escassez de acesso à informações, tendo sido este todo desenvolvido com
base em entrevistas.
18
2. METODOLOGIA DA PESQUISA
A elaboração deste trabalho tem suas bases metodológicas pautadas em uma pesquisa
exploratório-descritiva, apoiada em métodos de estudo de caso e revisão da literatura. A
efetividade de aplicação do Machine Learning foi verificada qualitativamente através dos
estudos de caso, com caráter exploratório. Essa abordagem permite que os pesquisadores se
aproximem dos membros da organização a ponto de entender o que eles pensam, aumentando
o grau de investigação relacionado ao objeto de pesquisa (MAYKUT e MOREHOUSE, 1994).
Quanto ao caráter exploratório, Gil (2007) afirma que pesquisas exploratórias têm como
objetivo proporcionar maior familiaridade com um determinado problema, a fim de torná-lo
mais explícito ou a construir hipóteses. As pesquisas exploratórias envolvem: (i) levantamento
bibliográfico; (ii) entrevistas semiestruturadas com pessoas que tiveram experiências práticas
com o problema pesquisado; e (iii) análise de exemplos que estimulem a compreensão.
Para os capítulos de referencial teórico, utilizou-se principalmente fontes secundárias,
por meio de livros teóricos sobre Machine Learning recomendados. O primeiro, Artificial
Intelligence and Machine Learning for Business (FINLAY, 2017) foi escolhido por ter uma
abordagem sistêmica e processual da construção de um modelo de machine learning. O
segundo, Inteligência artificial: uma abordagem de aprendizado de máquina” (FACELI,
LORENA, et al., 2011), apresenta uma visão mais técnica e é recomendado pelo mestrado de
Ciência de dados do Instituto Militar de Engenharia. Além disso, foram utilizadas pesquisas
diretas no portal de periódicos da CAPES e SCIELO, assim como relatórios de consultorias
pela abordagem voltada ao ambiente corporativo.
A busca na base de periódicos CAPES e SCIELO utilizaram as seguintes palavras-
chave: machine learning; machine learning* + model*; machine learning* + applic*; machine
learning* + case study; industry 4.0; industry 4.0 + tech*; digital transf* + tech*; digital
transf* + applic*. Em todos os casos foram utilizados termos de busca em inglês para que um
universo maior de estudos acadêmicos fosse contemplado.
Para compreender a aplicação do objeto de estudo na prática, optou-se por aplicar
métodos de estudo de caso. Segundo Yin (2006), o estudo de caso é caracterizado pelo estudo
profundo e exaustivo dos fatos objetos de investigação, permitindo um amplo conhecimento
da realidade e dos fenômenos pesquisados.
No modelo de Cancelamento de Planos, foram realizadas entrevistas semiestruturadas
com o Cientista de dados responsável pela construção do algoritmo e com um Analista da área
Comercial, para compreender melhor a utilização prática do modelo pela Área de Retenção que
19
serão mais detalhadas no tópico 6.1.3. Para o modelo de Detecção de Fraude, foi utilizado
prioritariamente fontes primárias de informação, visto que uma das autoras participou
ativamente do desenvolvimento do projeto.
Com base no que foi levantado pela revisão bibliográfica da literatura, foi elaborado um
protocolo de estudos de caso divididos em duas partes. Primeiro, caracterizando os modelos de
machine learning em três categorias: (i) contexto; (ii) processo de construção e (iii) análise
crítica. Segundo, buscando compreender o problema de negócio, os processos envolvidos na
implementação, análise dos métodos e algoritmos utilizados, retorno da utilização dos modelos
e impacto organizacional.
20
3. TRANSFORMAÇÃO DIGITAL E INDÚSTRIA 4.0
A revisão da literatura se inicia neste capítulo, com o contexto de transformação digital
e indústria 4.0, categorias de tecnologias cognitivas e se estende pelos capítulos 4 e 5, com o
aprofundamento no machine learning e nas aplicações deste na indústria do varejo.
3.1 Conceito e panorama histórico
O conceito de transformação digital abordado no presente trabalho está relacionado a
mudança no perfil das indústrias por meio de tecnologias da informação e da comunicação. A
Indústria 4.0, também conhecida como quarta revolução industrial, é caracterizada pela
automação inteligente e integração de novas tecnologias na cadeia de valor dos negócios. Trata-
se de uma transformação digital que está impactando os negócios, não apenas nos sistemas e
processos, mas também os modelos de negócios e força de trabalho (SCHWAB, 2016).
Também chamada de digitalização ou negócios digitais, é definida como "a aceleração das
atividades, processos, competências e modelos empresariais para alavancar plenamente as
mudanças e oportunidades das tecnologias digitais e seu impacto de forma estratégica e
priorizada" (EDMEAD, 2016).
Em um breve histórico, a primeira revolução industrial iniciou-se ao final do século 18
com a invenção da máquina a vapor. A energia do vapor e o seu uso para fins industriais foi o
maior avanço para o aumento da produtividade humana. A Segunda Revolução Industrial
começou no século 19 através da descoberta de eletricidade e produção de linha de montagem,
na qual Henry Ford introduziu os princípios da produção em massa. Nos anos 1970, o início da
chamada era da informação caracterizou a terceira revolução industrial, com a introdução da
automação e da robótica. O uso dessas tecnologias desencadeia uma mudança significativa no
processo produtivo, como por exemplo, passa a existir a programação de robôs que executam
sequências programadas sem intervenção humana.
A quarta revolução industrial, que está em curso atualmente, iniciou-se com o
desenvolvimento das chamadas “fábricas inteligentes”, nas quais sistemas de produção,
componentes e pessoas se comunicam através de uma rede e a produção começa a apresentar
autonomia. Na Figura 1, pode-se visualizar, em uma linha do tempo, as revoluções e suas
principais mudanças (BARROS, 2018).
21
Figura 1: Contexto histórico das revoluções industriais
Fonte: Disponível em <https://alcerconsultoria.com.br/sem-categoria/industria-4-0-como-o-brasil-reagira/>.
Acesso em: 10 Dez 2019, às 12:57.
O estudo Customer Experience Index (CEI), realizado pela IBM, Glass e Haller (2017)
indicou que a digitalização é uma prioridade (87% dos líderes seniores empresariais), e
descobriu que as empresas estão fazendo investimentos em negócios digitais, porém a maioria
ainda está nos estágios iniciais de investigação e experimentação.
Com base no relatório publicado pelo Fórum Econômico Mundial (2018), a Quarta
Revolução Industrial não se trata de um prolongamento da Terceira Revolução Industrial devido
três características: velocidade, escopo e impacto nos sistemas. A velocidade das descobertas
atuais, quando comparada às revoluções anteriores, evoluiu exponencialmente. No mais, essa
mudança de estrutura tem repercussão em quase todos os setores da indústria e economia, o que
caracteriza um escopo amplo. Por fim, o impacto dessa transformação nos sistemas de
produção, gestão e governança, é o maior comparado ao histórico de revoluções.
Não há uma definição única do termo “transformação digital”, tampouco a determinação
de quais são suas interfaces nos negócios. Cada autor explica o fenômeno de maneira particular
e não é o objetivo do presente estudo ser extensivo nas definições do termo.
3.2 Estratégia de transformação digital
A transformação digital tem o potencial de gerar benefícios significativos para as
empresas, ligados essencialmente ao aumento de produtividade, aumento de segurança nas
22
operações e aumento do valor para o cliente. No entanto, a transição de um modelo tradicional
para um modelo digital requer adaptações. A complexidade envolve mudanças nas operações,
produtos, processos e nas estruturas organizacionais, de modo que as empresas precisam
estabelecer novas práticas de gestão para conduzi-la.
Em pesquisa com os representantes empresariais realizada pela consultoria Deloitte,
Xavier, Cotteleer et. al (2018) constatam que somente 14% consideraram suas empresas
preparadas para as mudanças da transformação digital. Esse resultado demonstra que, apesar de
entenderem conceitualmente as mudanças necessárias para adequação, não há clareza sobre
como deve ser a implantação e continuam a se concentrar em suas operações tradicionais.
O framework da Pirâmide da Transformação Digital, desenvolvido por Turchi (2018),
exposto na Figura 2, tem o objetivo de facilitar a definição de iniciativas de transformação
digital, ajudando a entender o impacto desta transformação nos modelos de negócio. Para isso,
o autor divide a abordagem da transformação digital em três níveis: estratégia, execução e
tecnologia.
Figura 2: A pirâmide da transformação digital
Fonte: Disponível em https://www.thedigitaltransformationpeople.com/channels/the-case-for-digital-
transformation/digital-transformation-pyramid-business-driven-approach-corporate-initiatives/. Acesso em: 11
Jan 2020, às 09:22.
A disposição da pirâmide materializa as abordagens da transformação digital nas
organizações seguindo uma ordem que representa a interface entre os níveis, bem como seus
graus de importância. Na base, as tecnologias habilitadoras salientam a necessidade de recursos
23
tecnológicos para possibilitar a condução da operação. No topo, a transformação do modelo de
negócios só é possível quando as outras categorias estão alinhadas e, dessa forma, dão suporte
às transformações do ponto de vista estratégico da organização.
Em termos de estratégia, classificado no modelo anterior como topo da pirâmide, é
preciso delimitar quais são os direcionadores (drivers) que a organização deve seguir para
garantir o cumprimento dos seus objetivos estratégicos. De acordo com o relatório sobre
transformação digital e a maximização do retorno sobre investimentos produzido pelo Fórum
Econômico Mundial (2018) a experiência do cliente se caracteriza como um driver estratégico
de investimentos digitais, por permitir a criação de ofertas personalizadas, apoiar jornadas de
decisão, aumentar a velocidade da transação e garantir a privacidade e confiança. Tal
categorização de direcionadores e habilitadores pode ser observado na Figura 3.
Direcionadores de
investimento
Habilitadores de
eficiência Habilitadores de crescimento
Ganho em eficiência Experiência do cliente e
receitas
Novos modelos de
negócio
Principais áreas
de investimento
− Automação de toda
a cadeia de valor, da
tomada de decisão
às operações.
− Uso eficiente de
recursos, tais como
tempo, energia,
matérias-primas e
ativos.
− Objetivos iniciais de
eficiência específica
com potencial para
expandir para novos
modelos de
negócios e
experiências do
cliente.
− Ofertas personalizadas
para criar "momentos
de verdade" e apoiar
jornadas de decisão.
− Integração das
informações do cliente
entre plataformas para
aumentar a velocidade
da transação.
− Novas experiências
com base na
privacidade e
confiança, gestão de
relacionamento com o
cliente, uso do
marketing digital.
− Atender às
necessidades do
mercado com a
combinação de dados
e tecnologias.
− Construir um
entendimento
profundo da cadeia de
valor e aumentar o
potencial de
escalabilidade de
oportunidades.
− Abordar os negócios
existentes
concentrando-se na
demanda do
consumidor e o custo
de oportunidade.
Figura 3: Quadro de direcionadores de investimento de acordo com habilitadores de eficiência e de crescimento
Fonte: Adaptado do Fórum Econômico Mundial (2018, p.9)
Em um artigo publicado no MIT Sloan Review, Weill e Woerner (2017) identificaram
2 dimensões de negócios para avaliar a prontidão digital das corporações: experiência do cliente
24
e eficiência operacional. No geral, é perceptível que a transformação digital não é somente sobre
tecnologia, mas também sobre transformações nos modelos de negócio (CHINEN, 2019).
De acordo com a plataforma de conteúdo que fomenta inovação e tecnologia AAA
inovação, Amaral (2019) cita que o primeiro domínio da Transformação Digital deve ser o foco
no cliente. No passado, as empresas tratavam os clientes como receptores. Entretanto, hoje as
marcas devem entender a sua comunicação como uma via de mão dupla, no qual o cliente tem
papel fundamental.
Dessa forma, surge o modelo Customer-Centric, representado na Figura 4, no qual o
foco central das empresas são os clientes. Segundo uma pesquisa da Deloitte (2018), empresas
centradas nos clientes lucram até 60% mais do que aquelas que não são.
Figura 4: Modelo de Customer-centric
Fonte: Adaptado, disponível em: <http://blog.aaainovacao.com.br/entenda-o-que-e-e-como-aplicar-a-
transformacao-digital/>. Acesso em 16 Dez. 2019, às 10:54
O foco nas necessidades tem relação com o fato de criar algo que realmente traga valor
para o cliente, validando continuamente as hipóteses com o consumidor final. A construção do
relacionamento tem relação com a experiência do cliente, tanto no processo de recomendação
de produtos e serviços como na finalização de compras, proporcionando uma comunicação
personalizada em que ocorre a percepção de exclusividade por parte do cliente.
A visão holística se conecta ao pensamento sistêmico dentro da organização, em que a
experiência do cliente não está vinculada somente aos departamentos com relação direta com o
consumidor, de forma que as equipes de suporte também devem ter esse driver para que ocorra
um acompanhamento de toda a jornada do consumidor. Por fim, a liderança se apresenta como
25
pilar para sustentar o funcionamento das demais esferas de maneira coesa. De acordo com
Ribeiro, Rocha e Branco (2012), os líderes tornam-se cada vez mais uma importante fonte de
vantagem competitiva para as empresas na economia mundial interconectada.
Dessa forma, a indústria deve estar hábil a compreender as mudanças no comportamento
dos clientes e seus hábitos. De acordo com a pesquisa Customer Experience Index (CEI)
realizada pelo IBM (2017), a experiência do cliente superará o preço e o produto como
diferenciador-chave de uma marca. Quantitativamente, 86% dos compradores pagarão mais
para terem uma melhor experiência.
3.3 Categorias de tecnologias
A transformação digital, tanto citada até aqui, foi e vem sendo viabilizada e
operacionalizada a partir de tecnologias e suas evoluções. Logo, a compreensão do impacto que
elas vêm criando no mercado e suas funcionalidades é fundamental.
O objetivo deste tópico será abordar as tendências de uso, resultados gerados nos
últimos anos e descrever as principais tecnologias da indústria 4.0. Vale ressaltar que se trata
de uma breve abordagem, pois a exploração exaustiva de todas as tecnologias digitais está fora
do escopo deste projeto.
3.3.1 Resultados financeiros e tendências de crescimento
O estudo realizado pelo Fórum Econômico Mundial (2018) realiza análises qualitativas
e quantitativas com dados de mais de 16.000 empresas públicas de 14 setores foram analisadas
para estimar o impacto na produtividade dos investimentos em novas tecnologias digitais. Em
2016, os investimentos chegaram a 1,5 trilhões de dólares, com maior representatividade de
Internet of Things (IoT) (41%) e Mobile/Mídia Social (35%).
Em relação às tendências esperadas, a International Data Corporation (IDC) estimou
que, entre 2016 e 2020, os investimentos em tecnologias iriam crescer em Compound Annual
Growth Rate (CAGR) de 13% ao ano. Foi estimado que o crescimento seria liderado por
investimentos em IoT, aproximadamente US$1,0 trilhão, e Mobile/Mídia Social
permaneceriam estáveis, levando sua participação no total de investimentos de 35% para 25%.
Quanto ao retorno aos investimentos, como ilustrado na Figura 5, quando analisados
sozinhas, as Tecnologias Cognitivas – incluem Inteligência Artificial (IA) e Big Data Analytics
(BDA) – realmente são o maior potencializador de crescimento (Receita por funcionário),
enquanto a Robótica é a que traz maior produtividade – Earnings before Interest, Taxes,
26
Depreciation and Amortization (EBITDA) por funcionário. Enquanto isso, a IoT, tecnologia de
maior volume de investimento, obteve menor resultado em crescimento e produtividade. Por
outro lado, se as tecnologias são desenvolvidas em conjunto, estimativas mostram que a
produtividade poderia ser três vezes maior que quando desenvolvidas sozinhas.
Figura 5: Produtividade e crescimento por tipo de tecnologia
Fonte: Fórum Econômico Mundial (2018, p.10)
As métricas de crescimento e produtividades são normalizadas pela quantidade de
funcionários e podem ter comportamento diferente por tipo de setor industrial, visto que em
setores de Serviços em que o diferencial é o atendimento humanizado e, com isso, têm menos
elasticidade na redução do corpo de trabalho.
Na média, uma companhia de capital pesado ou de serviços obtém similares ganhos em
produtividade, apesar de com diferentes tipos de tecnologia (pode ser observado pela Figura 6).
Figura 6: Produtividade por classe industrial
Fonte: Fórum Econômico Mundial (2018, p.10)
27
Quanto à posição das empresas, é observável uma dualidade entre os retornos trazidos
pelas diferentes tecnologias de acordo com as características de funcionamento. Em
companhias líderes, maiores e com sistemas mais maduros, obtêm maior produtividade de
Robótica e Mobile/Mídias sociais (infraestrutura de rede) visto que a integração de automação
se torna mais simples em sistemas mais maduros, com arquitetura e regras definidas. Contudo,
as demais companhias, menores e mais novas, obtêm maior produtividade de IoT e Tecnologias
Cognitivas – estas companhias têm sistemas e modelos novos que podem ser configurados com
preparação a novas tecnologias, enquanto em grandes companhias repletas de sistemas legados,
há maior rigidez de modificações e experimentação. Os números de produtividade empresas
líderes e “seguidoras” estão ilustrado na Figura 7.
Figura 7: Produtividade (EBITDA por funcionários) companhias líderes vs. seguidoras
Fonte: Fórum Econômico Mundial (2018, p.12)
No artigo divulgado pela consultoria McKinsey (2019), é possível perceber o perfil de
investimento de empresas de alta performance em transformação digital. As companhias líderes
equilibram suas prioridades estratégicas entre a digitalização de seus principais negócios e a
criação de modelos de negócios digitais inovadores. De acordo com a Figura 8, pode-se notar
que as empresas com melhor desempenho comprometem tantos recursos no desenvolvimento
de novos negócios digitais quanto na digitalização de seu core business.
28
Figura 8: Alocação % de capital digital das organizações de 2017 a 2019 por objetivo
Fonte: McKinsey (2019, p.1)
3.3.2 Conceitos
Para compreender a difusão da transformação digital em todos os setores da indústria e
os resultados gerados, é necessário a identificação dos recursos que geram esse fenômeno – as
tecnologias.
Para cada categoria de tecnologias, de acordo com o objetivo do projeto, há diferentes
aplicações. Segundo o Fórum Econômico Mundial (2018) na linha de frente da maximização
da eficiência estão a Robótica e IoT, enquanto as Tecnologias Cognitivas e Mídia Social estão
para o objetivo de crescimento, conforme Figura 9.
29
Direcionadores de
investimento
Habilitadores de eficiência Habilitadores de crescimento
Ganho em eficiência Experiência do cliente e
receitas
Novos modelos de
negócio
Tecnologias
habilitadoras
− Internet das coisas e
robótica para
automatizar processos
e coleta dados.
− Combinação de Big
Data, Inteligência
Artificial, visão 3D e
plataformas digitais
para analisar dados
para identificar
eficiências
incrementais.
− Análise Big Data para
personalização de
clientes.
− Computação em nuvem
para reforçar a gestão
de dados.
− Mídias sociais e
tecnologias móveis para
melhorar o
engajamento.
− Análise Big
Data para
identificar novas
demandas do
cliente.
− Mídias sociais e
tecnologias
móveis para
melhorar o
engajamento.
Complexidade
− Normalmente baixa,
semelhante a
investimentos
tradicionais.
− Business case
relativamente fácil de
certo.
− Tipicamente média-alta.
− Impacto nas métricas de
experiência do cliente
com eventual
crescimento de receita.
− Normalmente
alta.
− Business case
relativamente
incerto.
Figura 9: Quadro de classificação de tecnologias por tipos de objetivos estratégicos
Fonte: Adaptado do Fórum Econômico Mundial (2018, p.9)
Relacionando aos dados mencionados anteriormente, notou-se que Robótica e Mobile
foram líderes em eficiência (EBITDA/funcionário – métrica aproximada pelo Fórum
Econômico Mundial) e as Tecnologias Cognitivas foram líderes em crescimento. Esse trabalho
não tem por objetivo realizar uma análise crítica de métricas de produtividade, apesar desta
referência não abranger os outros ativos possíveis de uma organização – como por exemplo,
uso de máquinas.
Foram analisadas as principais tecnologias que compõem a indústria 4.0 com o intuito
de ter uma visão geral do objetivo e aplicação destas na indústria. Para isso, foram utilizados
os conceitos de duas fontes principais: Schallmo, Williams e Luke (2017) e Fórum Econômico
Mundial (2018). Além disso, foram incluídas outras tecnologias que fazem parte dos processos
da indústria 4.0. O modelo da Figura 10 ilustra a Indústria 4.0 por suas etapas no ambiente
corporativo em relação ao fluxo de dados.
30
Figura 10: A indústria 4.0 nos processos corporativos
Fonte: Elaboração própria (2020)
O Ambiente de dados digitais é criado a partir da geração de dados pelo Sensoriamento,
capacidade de processamento rápido pela Infraestrutura de Rede, criação da capacidade
computacional para armazenamento destes dados pela Computação em Nuvem combinados à
Cibersegurança garantindo a confiança das transações de dados digitais. Neste ambiente são
criados e transferidos dados não estruturados – sem significado – para as demais etapas da
indústria 4.0. Na etapa Geração de Informação, as Tecnologias Cognitivas transformam os
dados não estruturados em informação para as áreas de negócio e para as áreas técnicas da
Operação, assim como os softwares de Simulação os utilizam para informação nos testes de
processo.
A Operação está cada vez mais automática, seja por hardwares (robôs), seja por
softwares – Robotic Process Automation (RPA) e aplicativos adicionais – utilizam os dados não
estruturados para funcionamento e informações para a tomada de decisão, enquanto a Internet
das Coisas conecta os equipamentos pelo fluxo de dados. Além disso, a Realidade Aumentada
complementa a Operação no treinamento de operadores e utilização por clientes, no caso de
Serviços. Na etapa final, de Acesso Digital ao Cliente, é criado um novo canal de frontend –
uso direto pelo cliente – para vendas ou suporte ao cliente por aplicativos e redes sociais. Os
31
dados utilizados podem retornar para o ambiente de dados digitais, o que acaba tornando um
ciclo de reforço.
Segundo o artigo Maximizing Return on Digital Investments do Fórum Econômico
Mundial (2018), as áreas de investimento tecnológico que compõem a transformação digital
são categorizadas em quatro áreas: Tecnologias Cognitivas, IoT, Robótica e Mobile/Mídia
Social. Estas são definidas como:
I. Tecnologias cognitivas: inclui Inteligência Artificial (IA) e Big Data Analytics (BDA).
A IA tem como principais métodos o Natural Language Processing (NLP) – para
responder a questões e para fornecer recomendações – e o Machine Learning para
reconhecimento de padrões. O BDA é composto por tecnologias com arquiteturas
projetadas para extrair valor e eficiência de grandes volumes de dados.
II. IoT: refere-se a uma rede que agrega e vincula parâmetros unicamente identificáveis
que se comunicam de forma autônoma usando a conectividade do protocolo da internet.
III. Robótica: abrange o projeto, construção, implementação e operação de robôs. A
automação robótica de processos (RPA), interfaces cognitivas e outros aplicativos de
software que não são capazes de movimento são excluídos.
IV. Mobile/mídia social: inclui soluções de mobilidade e tecnologias sociais. Soluções de
mobilidade incluem os dispositivos, software, infraestrutura e serviços relacionados que
habilitam serviços de dados móveis. Tecnologias Sociais facilitam a colaboração entre
stakeholders, parceiros, fornecedores e clientes, bem como a extração de dados dessas
comunicações.
No tocante à categorização, as Tecnologias Cognitivas, IoT, Robótica e Mídia Social
são primárias, pois podem exercer funções de digitalização de processos. Enquanto Mobile,
como relacionado à infraestrutura de rede que habilita a comunicação de dados, é uma
tecnologia de suporte – que viabiliza o ambiente de dados digitais.
De acordo com Schallmo, Williams e Luke (2017), há quatros categorias habilitadoras:
(i) dados digitais, (ii) acesso digital ao cliente, (iii) automação e (iv) redes. São definidos como:
I. Dados digitais: A coleção, processamento e análise de dados digitalizados.
II. Acesso digital ao cliente: A internet móvel permite acesso direto ao cliente com
alto nível de transparência e novos serviços.
III. Automação: A combinação de tecnologias de inteligência artificial clássica que
permita trabalho autônomo e sistemas auto-organizados.
32
IV. Redes: As redes móveis ou com fio em toda a cadeia de valor via banda larga de
alta velocidade permite a sincronização da cadeia de suprimentos.
Figura 11: Radar digital com habilitadores e aplicações
Fonte: Boueé e Schaible (2015, p.9)
Na Figura 11 é possível entender a abrangência do meio digital, com seus habilitadores
e aplicações (BOUEÉ e SCHAIBLE, 2015, p. 9). Além das tecnologias citadas, a Computação
em nuvem, Sensoriamento, Cibersegurança, Sistemas Ciberfísicos, Realidade aumentada e
Simulação são categorias fundamentais à transformação digital e, por esse motivo, também
foram categorizadas como habilitadoras. Como o projeto tem o foco em uma subcategoria de
IA - Machine Learning – esta subcategoria será melhor detalhada no decorrer da pesquisa.
Computação em nuvem
Segundo a definição apresentada por Correia (2011), como proposta pelo Instituto
Nacional Americano de Padrões e Tecnologia (NIST), que descreve a computação em nuvem
como “…um modelo para permitir acesso onipresente, conveniente e de rede sob demanda a
um conjunto compartilhado de recursos de computação (por exemplo, redes, servidores,
armazenamento, aplicativos e serviços) que podem ser rapidamente providos com o mínimo
esforço de gerenciamento ou interação com o provedor de serviços... ". Em detalhe, a
computação em nuvem pode ser dividida em duas camadas: o frontend e backend.
O frontend se refere à interface com o usuário que utiliza os serviços e aplicações online,
possivelmente de maneira compartilhada com outros em qualquer dispositivo com acesso à
33
rede. Enquanto isso, o backend é composto pelo hardware (necessário à comunicação com a
rede) e software de servidores, computadores, máquinas virtuais e sistemas de armazenamento.
Um servidor é usado para gerenciar toda a arquitetura do sistema em nuvem e é o responsável
por lidar com a suavidade do tráfego sem interrupções. Além disso, utiliza-se o middleware,
tipo específico de software, usado para executar processos e conectar computadores em rede.
A computação em nuvem revolucionou as informações e indústria de tecnologia,
desempenhando um papel importante no atendimento às crescentes demandas de
armazenamento e infraestrutura Rashid (2019). Com seu surgimento, foram introduzidas a
flexibilidade de acesso, uso sob demanda e rápida elasticidade, além da redução de custos com
a compra, manutenção provisão de energia aos hardwares.
Com o crescimento exponencial de dados, representa a tecnologia que realiza o
armazenamento seguro e eficiente acesso pelos usuários finais e, com isso, é considerada uma
tecnologia de suporte.
Sensoriamento
Os sensores habilitam a captura de dados digitais e realizam a comunicação entre estes.
Os sensores são instalados em sistemas que realizam a comunicação com as tecnologias que
utilizam os dados como insumo. Dessa forma, o sensoriamento é considerado um dos maiores
drivers da Industria 4.0. A Figura 12 ilustra as características dos sensores durantes as
revoluções industriais de Sensors 4.0 – sensores inteligentes e tecnologias de medição como
habilitadores da indústria 4.0 (SCHÜTZE, HELWIG e SCHNEIDER, 2018).
34
Figura 12: Evolução histórica dos sensores 1.0 aos sensores inteligentes
Fonte: Schütze, Helwig e Schneider (2018, p.3)
Os sensores inteligentes têm o diferencial de serem equipados com uma interface digital.
Estes dispositivos recebem os sinais de um ambiente físico e realizam a comunicação através
da interface com o usuário. Esses sensores podem transmitir um código binário usando, por
exemplo, um LED de diodo (ligar/desligar), indicador de mudança de cor ou um display de
cristal líquido (LCD). As telas de LCD podem exibir caracteres, símbolos ou gráficos e podem
ser maiores e mais complexas à medida que aumenta a complexidade dos dados a serem
transferidos (SCHÜTZE, 2018).
Cibersegurança
Com a digitalização dos dados e armazenamento em nuvem, a segurança de informações
também é realizada de forma digital, conhecida como cibersegurança. A cibersegurança é uma
prática de proteção de sistemas e redes contra-ataques cibernéticos composta principalmente
por software de criptografia que codificam os dados e apenas o usuário final tem acesso a chave
para descriptografar e protocolos eletrônicos que realizam análise heurística do comportamento
dos programas.
As formas de ataques cibernéticos são o acesso, mudança ou deleção de dados
sensíveis, extorsão de usuários ou interrupção de processos. Os métodos mais comuns usados
pelos invasores para controlar computadores ou redes são os vírus, worms, spyware e cavalos
de tróia. Os vírus e worms são capazes de se replicar e danificar arquivos ou sistemas, enquanto
35
o spyware e os cavalos de Tróia são usados para coletar dados clandestinamente. Normalmente,
o usuário comum tem contato com o código malicioso por meio de algum anexo de e-mail não
solicitado ou pelo download de programas que parecem legítimos, mas que carregam malware.
Sistemas Ciberfísicos
Cyber Physical Systems (CPS) são sistemas em rede de componentes cibernéticos
(computação e comunicação) e físicos (sensores e atuadores) que interagem em um ciclo de
feedback com a possível ajuda da intervenção, interação e utilização humana (YOUSEF,
ALMAJI, et al., 2017). Em geral, um CPS consiste em dois componentes funcionais principais:
(1) a conectividade avançada que garante aquisição de dados do mundo físico em tempo real e
feedbacks do espaço cibernético; e (2) gerenciamento inteligente de dados, análise e capacidade
computacional que constrói o espaço cibernético.
O sistema apresenta sensores para capturar informação sobre o que está acontecendo no
mundo físico, converte os dados para envio ao nível ciber que atua como hub central das
informações da rede de máquinas que irá realizar análises dos dados para fornecer às máquinas
a auto comparação com as demais. Com o status das máquinas, os dados serão enviados para
infográficos para transferir as informações aos usuários e, então, serão tomadas decisões pelas
regras embutidas ao software do sistema ou pelos usuários. Enfim, o feedback irá do sistema
ciber para o sistema físico – e assim é gerado um loop.
Realidade aumentada
A realidade aumentada refere-se a dispositivos que realizam a integração do mundo real
ao virtual em tempo real. Os dispositivos são o hardware e software de câmeras interligados a
algoritmos gráficos que constroem cenários digitais integrados ao ambiente físico. É utilizada,
geralmente, em serviços de testes, experimentação ou jogos.
Simulação
A simulação é uma composição de softwares que imitam a realidade dos processos
virtualmente sendo utilizada para entender melhor os processos ou obter previsões. Softwares
de simulação permitem que a operação seja testada e, consequentemente, otimizada, evitando
perdas de grande escala.
Na era digital, a demanda dos consumidores vem mudando radicalmente e a
necessidade de customização requer linhas de produção mais flexíveis e, com isso, a simulação
36
se integra ao gerenciamento do ciclo de vida do produto. Com a facilitação do sensoriamento
de dados e capacidade de armazenamento de dados, são criadas simulações que facilitam a
tomada de decisão em tempo real, além da criação de cronogramas otimizados.
Inteligência Artificial
Define-se Inteligência Artificial como a capacidade dos programas computacionais de
operar de forma em que se acredita imitar os processos de pensamento humano (COLLINS,
2018). Tais processos podem ser agrupados em seis tipos de IA: Aprendizado de máquina,
Processamento de linguagem natural, Reconhecimento de fala, Reconhecimento de imagens,
Robótica e Planejamento. Com foco no primeiro, o aprendizado de máquina compreende o
desenvolvimento de algoritmos que permitem o sistema aprender com experiências passadas
(dados históricos), identificar padrões através de métodos estatísticos, fazer uma determinação
ou predição e melhorar seu desempenho automaticamente (JAVAPOINT, 2019).
37
4. MACHINE LEARNING
O presente capítulo faz parte da revisão da literatura quanto ao estudo de machine
learning. Neste capítulo, são aprofundadas as técnicas de aprendizado de máquina, são citados
de maneira breve os principais algoritmos de ML, é detalhado o processo de construção de um
modelo, as diferenças de machine learning e ferramentas estatísticas básicas e por fim, como o
modelo é operacionalizado nas organizações.
4.1 Conceito
Este subcapítulo é baseado no livro “Inteligência artificial: uma abordagem de
aprendizado de máquina” de Faceli, Lorena et al. (2011). Em 1956, considera-se o marco zero
da Inteligência Artificial pela criação do campo de pesquisa na conferência de Dartmouth
College. Era vista como uma área teórica com aplicações em problemas desafiadores, mas com
pouco valor prático. A programação utilizada na época era resolvida pela codificação de regras
táticos para a solução do problema. Tal modelo de programação ainda é muito utilizado, no
entanto, de acordo com Facelli, Lorena et. al (2011):
A partir da década de 1970, houve uma maior disseminação do uso de técnicas de computação
baseadas em IA para a solução de problemas reais. Em grande parte das aplicações, a obtenção do
conhecimento se dava via especialistas de um dado domínio. Nas últimas décadas, com a evolução dos
problemas a serem tratados computacionalmente e o volume de dados gerados por diferentes setores,
surge a busca por técnicas computacionais mais sofisticadas e autônomas, que reduzissem a necessidade
da intervenção humana. E para isso, essa técnica deveria ser capaz de, por si próprias, criar hipóteses ou
funções a partir da experiência passada que resolva o problema proposto. A essa técnica dá-se o nome de
Aprendizado de Máquina ou Machine Learning (FACELLI, LORENA et. al, 2011, p.2).
O Machine Learning é um ramo da Inteligência Artificial, podendo dessa forma, ser
classificado como uma subcategoria das Tecnologias Cognitivas. Este emprega uma variedade
de técnicas estatísticas, probabilísticas e de otimização que permitem computadores a aprender
e detectar padrões difíceis de discernir a partir de dados passados dos parâmetros analisados.
No entanto, deve-se notar que, em contraste com a IA tradicional, o aprendizado de
máquina não tem por objetivo único automatizar uma tarefa que o ser humano faria de forma
repetitiva ou demorada, mas usar os pontos fortes e habilidades especiais dos computadores
para complementar a inteligência humana. Por exemplo, a capacidade de digitalizar e processar
enormes bancos de dados permite que programas de aprendizado de máquina detectem padrões
que estão fora do escopo da percepção humana (SHALEV-SCHWARTZ e BEN-DAVID,
2014).
38
Simon (2013) definiu o objetivo dos processamentos de aprendizado de máquina como
a derivação de modelos preditivos a partir de dados atuais e históricos. Dessa forma, a tendência
é que o algoritmo aumente a precisão e acurácia à medida que ocorram mais iterações. Os
algoritmos de aprendizagem de máquina podem alcançar resultados extremamente eficientes
para domínios muito restritos usando modelos treinados a partir de grandes conjuntos de dados.
Alpaydin (2014), afirma que com o uso de ferramentas de machine learning podem ser
detectados certos padrões. Tais padrões permitem mapear o processo e realizar predições de
forma que se assume que o futuro não será muito diferente do passado onde o dado dessa
amostra foi coletado, e assim é possível esperar que as predições futuras estejam corretas.
4.2 Técnicas
De forma geral, há quatro principais técnicas de modelagem de machine learning:
Aprendizado supervisionado, Aprendizado não supervisionado, Aprendizado semi-
supervisionado e Aprendizado por reforço. A Figura 13 apresenta as categorias de machine
learning.
Figura 13: Técnicas de Machine learning por categorias.
Fonte: Adaptado de Mohammed, Khan e Bashier (2017, p.7)
Segundo Castle (2018), a maior diferença entre o aprendizado de máquina
supervisionado e não supervisionado é o fato dos algoritmos de aprendizado de máquina
supervisionados serem treinados em conjuntos de dados rotulados que orientam o algoritmo a
entender quais recursos são importantes para o problema em questão. Por outro lado, os não
supervisionados, são treinados em dados não rotulados e devem determinar a importância do
recurso por conta própria, com base nos padrões inerentes à amostra.
39
O Aprendizado supervisionado é utilizado, normalmente, para a predição de eventos.
Na aprendizagem supervisionada, o objetivo é inferir uma função ou mapeamento a partir de
dados de treinamento. Mohammed, Khan e Bashier (2017) definem que os dados de
treinamento consistem no vetor de entrada X e no vetor de saída Y de rótulos. Um rótulo do
vetor Y é a explicação de seus respectivos dados de entrada. Em outras palavras, ao utilizar o
aprendizado supervisionado, obtém-se conhecimento prévio de quais devem ser os valores de
saída para nossas amostras, podendo dados incorretos interferirem na eficácia do modelo.
O aprendizado supervisionado geralmente é realizado no contexto de classificação,
quando se quer mapear a entrada para os rótulos de saída. Tanto na regressão quanto na
classificação, o objetivo é encontrar relacionamentos ou estruturas específicas nos dados de
entrada que nos permitam produzir efetivamente dados de saída corretos. De acordo com Soni
(2018), o objetivo do aprendizado supervisionado é aprender uma função que, dada uma
amostra de dados e resultados desejados, se aproxima melhor da relação entre entrada e saída
observável nos dados. Ainda segundo Soni (2018), ao conduzir o aprendizado supervisionado,
as principais considerações a serem feitas são em relação a complexidade do modelo e o trade-
off de viés e variância.
O Aprendizado não supervisionado é utilizado para a descrição de eventos ainda não
conhecidos. As tarefas mais comuns no aprendizado não supervisionado são agrupamentos,
aprendizado de representação e estimativa de densidade. Em todos esses casos, deseja-se
aprender a estrutura inerente dos dados sem usar rótulos fornecidos explicitamente.
Dois casos de uso comuns para aprendizado não supervisionado são análise exploratória
e redução de dimensionalidade. O aprendizado não supervisionado, por não possuir saídas
rotuladas, é útil na análise exploratória porque pode identificar automaticamente a estrutura nos
dados. Por exemplo, ao tentar segmentar consumidores, métodos de cluster não supervisionados
seriam uma possibilidade ponto de partida para análise.
Os algoritmos de aprendizado não supervisionado aprendem a partir dos dados. Quando
novos dados são introduzidos, o modelo usa os recursos aprendidos anteriormente para
reconhecer a classe de dados que está sendo tratada. De acordo com Soni (2018), em situações
em que é impossível ou impraticável para um ser humano propor tendências nos dados, o
aprendizado não supervisionado pode fornecer informações iniciais que podem ser usadas para
testar hipóteses individuais.
No Aprendizado semi-supervisionado, os dados fornecidos são uma mistura de dados
rotulados e não rotulados. Essa combinação de dados rotulados e não rotulados são usados para
40
gerar um modelo apropriado para a classificação dos dados. Segundo Mohammed, Khan e
Bashier (2017), na maioria das situações, os dados rotulados são escassos e os não rotulados
estão em abundância.
De acordo com Castle (2018), o processo de rotular grandes quantidades de dados para
aprendizado supervisionado geralmente leva muito tempo e tem custo elevado. Além disso,
rótulos excessivos podem impor vieses humanos ao modelo. Isso significa que incluir muitos
dados não rotulados durante o processo de treinamento tende a melhorar a precisão do modelo
final enquanto reduz o tempo e o custo gastos na construção.
O método de aprendizado por reforço visa usar observações reunidas a partir da
interação com o meio ambiente para tirar ações que maximizam o ganho ou minimizam o risco.
Dessa forma, com o uso deste método, é possível determinar o comportamento ideal que um
algoritmo deve apresentar dentro de um contexto específico.
O aprendizado por reforço procura resolver o problema de correlacionar ações imediatas
com os retornos atrasados que elas produzem. Eles operam em um ambiente de retorno atrasado,
onde pode ser difícil entender qual ação leva à qual resultado ao longo de várias etapas.
O aprendizado por reforço difere do aprendizado supervisionado de maneira que, no
aprendizado supervisionado, os dados de treinamento possuem a chave de resposta, de modo
que o modelo é treinado com a resposta correta, enquanto no aprendizado por reforço, não há
resposta, mas o algoritmo de reforço decide o que fazer para executar a tarefa especificada.
Na ausência de um conjunto de dados de treinamento, o modelo aprende por meio da
experiência e age sequencialmente. Segundo Menon (2018), o processo em que o algoritmo
executa uma ação para obter uma recompensa e passa para a próxima etapa é chamado de
Processo de Decisão de Markov. Em um Processo de Decisão de Markov, o estado futuro é
decidido com base em onde se está atualmente. Uma aplicação do aprendizado por reforço se
dá nos jogos de computador em que a máquina muda seu movimento de acordo com o
movimento dado pelo humano que se caracteriza como adversário.
4.3 Algoritmos
Há diversos tipos de algoritmos de machine learning que são classificados com base nas
técnicas descritas no item 4.2, a citar: Aprendizado supervisionado, Aprendizado não
supervisionado, Aprendizado semi-supervisionado e Aprendizado por reforço.
A seleção do algoritmo de machine learning que melhor se adequa a aplicação
pretendida de aprendizado de máquina para alcançar melhores resultados, às vezes, pode ser a
41
parte mais difícil. Wujek, Hall e Gunes (2016), em seu estudo, revelam que a decisão de qual
algoritmo usar pode ser orientada respondendo a perguntas importantes, como exposto na
Figura 14.
Perguntas Fatores de análise
1. Qual é o tamanho
e a natureza dos
dados?
Modelos lineares costumam ser uma boa escolha para grandes
conjuntos de dados devido à eficiência do treinamento.
Relacionamentos mais complexos podem ser modelados através de
algoritmos mais sofisticados como, como árvores de decisão, florestas
aleatórias, redes neurais e sistemas não-lineares. Algoritmos mais
sofisticados costumam exigir mais tempo de treinamento e podem ser
inadequados para conjuntos de dados muito grandes.
2. O que você deseja
atingir com o
modelo?
O propósito do modelo é classificar dados, prever um valor para uma
meta de intervalo, detectar padrões ou anomalias, ou fornecer
recomendações? Responder o resultado esperado auxilia no
direcionamento para um subconjunto de algoritmos de aprendizado de
máquina especializados no tipo específico de problema.
3. Quão preciso o
modelo precisa ser?
Modelos mais simples treinam mais rápido, são mais fáceis de
implantar e de entender, facilitando a explicação de como e por que os
resultados foram alcançados. Um benefício adicional de um modelo
mais simples é que ele será menos propenso a overfitting dos dados de
treinamento.
4. Quanto tempo há
disponível para
treinar o modelo?
O tempo de treinamento está diretamente relacionado a precisão
desejada pelo modelo. Para treinar um modelo em um curto espaço de
tempo, árvores de regressão e regressão linear ou logística,
provavelmente são boas opções. Se o tempo de treinamento não for um
problema, podem ser utilizados algoritmos mais robustos (redes
neurais, máquinas de vetores de suporte, aumento de gradiente etc.)
que refinam iterativamente o modelo.
5. Quão interpretável
e compreensível o
modelo precisa ser?
Se a capacidade de interpretação ou a documentação explicável forem
importantes, é aconselhado o uso de árvores de decisão ou alguma
técnica de regressão, levando em consideração a possibilidade do uso
de técnicas de regressão penalizada, modelos aditivos generalizados,
ou média do modelo para refinar seu modelo. Se for necessário garantir
alta precisão, mas ainda precisar explicar os resultados do modelo, uma
abordagem comum é treinar um modelo complexo, usar esse modelo
para gerar valores-alvo previstos, e em seguida, usar esses valores
previstos para treinar uma árvore de decisão.
Figura 14: Quadro Perguntas e fatores de análise para escolha de um algoritmo.
Fonte: Adaptado de Wujek, Hall e Gunes (2016, p.13)
42
Tendo em vista que o objetivo da presente pesquisa não consiste em realizar uma busca
exaustiva de algoritmos de machine learning na literatura, este subcapítulo, com base no estudo
realizado por Wujek, Hall e Gunes (2016), se restringe a citar os principais algoritmos, quais
são as aplicações mais comuns, qual é o tamanho/escala dos dados ideal para a utilização e a
facilidade de interpretação dos fatores que levam ao resultado do modelo, conforme exposto no
Apêndice – Características dos principais algoritmos de machine learning (p. 102 a 105).
4.4 Processo de construção de um modelo de machine learning
Nos tópicos anteriores foi realizada uma revisão teórica das principais técnicas
disponíveis para o desenvolvimento de um modelo de aprendizado de máquina, conhecimento
necessário para a prática em que serão escolhidas as melhores técnicas e algoritmos para o caso
desejado.
Neste tópico será abordada a prática de desenvolvimento de um modelo genérico de
machine learning, baseando-se nos conceitos de construção de modelos do livro Artificial
Intelligence and Machine Learning for Business de Steven Finlay (2017). O desenvolvimento
do modelo é realizado por nove macroetapas, identificadas na Figura 15.
Figura 15: Etapas do desenvolvimento de um modelo genérico de machine learning
Fonte: Adaptado de Finlay (2017, p.80)
43
4.4.1 Definição do problema de negócio
Identifica-se uma necessidade no negócio: identificar os melhores consumidores. Os
melhores consumidores são aqueles que geram maior retorno financeiro. Porém, são eles
clientes individuais ou uma família? São os que geram maior retorno por visita ao site? Por
produto comprado? Por um período (mês, trimestre ou ano)? Logo, é necessário estressar o
objetivo macro até que se chegue a um entregável concreto esperado do modelo.
Esta é uma etapa preliminar que deve ser vista como prioridade no processo de
construção de um modelo de machine learning, por ser onde será realizada a definição do
objetivo e resultado-chave do projeto para posterior alinhamento destes ao nível tático.
Com isso, em primeiro momento, os stakeholders – a nível gerencial de business e
técnico (engenheiros de software) – do domínio deverão estressar o problema analisado para
delinear o resultado esperado e as áreas envolvidas. Em seguida, será repassado para os
cientistas de dados para discussão/esclarecimentos. O responsável por essa etapa é o(a) gerente
da área dona do projeto.
4.4.2 Análise exploratória
Dado que o problema foi definido e está claro para o cientista de dados e todos os
stakeholders, a próxima etapa é analisar de maneira exploratória a base de dados da organização
a ser usada no modelo tanto por uma visão de processos quanto da estrutura de dados. O
responsável por essa etapa é o cientista de dados. As práticas de análise nesta etapa estão na
Figura 16 e são mais detalhadas a seguir.
Figura 16: Quadro de boas práticas recomendadas na Análise exploratória
Fonte: Elaboração própria (2020)
44
I. Processos
Com a realização dos tópicos presentes na Figura 16, será possível ter uma visão do
cenário atual, limitações e fatores de sucesso para o processo em estudo. Geralmente,
dependendo da necessidade da organização, as bases atualizam em tempo real, perto de tempo
real – a cada dez ou quinze minutos – diariamente, semanalmente ou mensalmente. Esse tópico
é importante para decidir posteriormente qual será o custo computacional necessário de acordo
com período de atualização do modelo.
II. Estrutura de dados
O tipo do dado define se o parâmetro representa características quantitativas ou
qualitativas. Quantidades são em formato numérico e qualidades em símbolos ou texto. A escala
define que tipo de operação pode ser realizada com os parâmetros e pode ser classificada como:
● Nominais (para tipo qualitativo): menor quantidade de informação possível, sendo
apenas possível a utilização de operações de igualdade ou desigualdade.
● Ordinais (para tipo qualitativo): além da operação de igualdade também há a
informação de ordenação.
● Intervalares (para tipo quantitativo): são representados por números que variam
em determinados intervalos, assim também é possível definir a diferença e
magnitude entre valores.
● Racionais (para tipo quantitativo): maior quantidade de informação possível, pois
são números absolutos em que é possível realizar todos os tipos de operação.
Estes dados estão contidos em bases variadas de dados de acordo com os processos da
companhia. Estas bases se relacionam através de chaves primárias e secundárias, números de
identificação dos dados. Idealmente, a empresa terá a documentação e mapeamento das suas
bases e relacionamentos. No entanto, em muitos casos não haverá esta documentação, até
mesmo pelas mudanças estarem se tornando cada vez mais rápidas, sendo necessário que o
cientista de dados realize entrevistas com funcionários da área para responder às perguntas
necessárias para o entendimento profundo das bases de dados e sua estruturação.
Após o entendimento do objetivo de negócio, análise da base de dados e sua
estruturação, a fase de ciência de dados se inicia e, por consequência, os problemas envolvidos
nas etapas iniciais. Para isso, as etapas, os principais problemas envolvidos e boas práticas
foram compilados na Figura 17.
45
Figura 17: Quadro de práticas recomendadas para desafios comuns de aprendizado de máquina
Fonte: Elaboração própria (2020)
4.4.3 Criação da amostra de desenvolvimento do modelo
Com o dos dados existentes na organização e como estão estruturados, a próxima etapa
é a criação da amostra de desenvolvimento. O responsável pela etapa de criação da amostra é o
cientista de dados. Esta etapa consiste na limpeza da base e redução do universo de análise. Na
limpeza da base é realizada a desconsideração de:
I. Dados desatualizados: Dados que não são mais utilizados e não relevantes para o
negócio devem ser desconsiderados da base. Por exemplo, dados de compra de celulares
quando ainda não havia smartphones.
II. Dados que não sejam da população alvo: Dados que não se refiram à população
descrita na definição do problema em que o modelo será aplicado devem ser
desconsiderados. Por exemplo, se o modelo será aplicado para a estimativa de receita
de clientes que compram online, então deve-se excluir dados de transações offline.
III. Dados instáveis: Dados que não estarão disponíveis quando o modelo for aplicado
deverão ser desconsiderados. Caso a disponibilidade seja crítica, a estabilização do
fornecimento destes dados deverá ser priorizada antes da aplicação do modelo.
46
IV. Dados de casos ilegais ou antiéticos: Antes da utilização dos dados, é necessário
entender a fundo a legalidade ou as consequências de críticas públicas de sua utilização.
Esta etapa deverá ser seguida pelos artigos da Lei de Proteção de Dados Pessoais
(LGPD) ratificado em agosto de 2018.
V. Dados de casos determinísticos: No caso em que, apenas com os dados de entrada, é
sabido como irá tratar determinado cluster de usuários – como regra de negócio – incluir
tais dados ao modelo poderá enviesar o modelo a uma precisão maior.
VI. Dados de baixa capacidade de interpretação: Dados que não foram totalmente
entendidos podem gerar resultados em que não poderão ser explicados. Para indústrias
que estão sujeitas à auditoria ou regulações, esse ponto é ainda mais importante, pois
levará a invalidação do uso do modelo.
Com a criação do ambiente de dados digitais, é comum que a organização tenha bases
de dados extremamente grandes. Como os recursos computacionais são limitados, será
escolhida para a base de desenvolvimento um recorte do universo de dados. Para quase todos
os problemas práticos de negócios, os benefícios de ter mais que algumas dezenas de milhares
de casos é marginal (FINLAY, 2017).
4.4.4 Organização de dados
Apesar da qualidade dos dados ter melhorado com a evolução dos equipamentos e
técnicas de coletas, os conjuntos de dados ainda estão sujeitos a problemas como dados ruidosos
(que possuem erros), redundantes, incompletos ou inconsistentes.
Atualmente, já existem técnicas que conseguem lidar bem com tais problemas, mas
podem comprometer a qualidade das análises. Sendo assim, é necessário identificar essas
situações para que sejam eliminados, preenchidos com os valores corretos ou criar heurísticas
para determinados casos.
4.4.5 Pré-processamento da base de dados
Apesar do crescente número de bases de dados disponíveis, na maioria das vezes, não é
possível utilizar algoritmos de aprendizado de máquina diretamente sobre esses dados
(FACELI, LORENA, et al., 2011). O fenômeno do Big Data foi fundamental para a geração de
dados digitais suficientes e de maior qualidade para o que se deseja analisar, no entanto,
geralmente os dados não se encontram adequados ao processamento computacional. Então, são
47
utilizadas técnicas de processamento para tornar os conjuntos de dados mais adequados. Essas
técnicas podem ser classificadas nos seguintes grupos de tarefas: (i) Integração de dados, (ii)
Amostragem de dados, (iii) Limpeza de dados, (iv) Balanceamento de Dados, (v) Redução de
dimensionalidade e (vi) Transformação de dados.
Essa é a principal etapa em todo o processo de desenvolvimento do modelo de machine
learning, pois é a que define a qualidade dos dados que serão processados para definição do
melhor modelo. Por isso e pelas diversas análises, também é a etapa que consome maior parte
do tempo de desenvolvimento.
Integração de dados
É comum que nem todos os parâmetros necessários estejam em uma mesma base de
dados, então, antes do início do uso da técnica de aprendizado de máquina é fundamental
realizar a integração das bases de dados. A integração se dará através da extração dos
parâmetros desejados utilizando o relacionamento entre as bases. Na integração é comum haver
certas inconsistências que deverão ser sanadas por similaridade de atributos, por exemplo. O
processo de integração resultará em um data warehouse centralizado.
Amostragem de dados
Para a obtenção do equilíbrio adequado entre acurácia (taxa de predições corretas) e
eficiência computacional, a amostra deve ser representativa do conjunto original de dados. E,
para isso, há basicamente três abordagens estatísticas de amostragem: aleatória simples,
estratificada e progressiva.
Na amostragem aleatória simples ocorre a seleção randômica dos casos no conjunto de
dados original, e é uma opção satisfatória caso as classes do conjunto tenham a mesma
proporção em número de objetos.
Caso as classes apresentem propriedades diferentes, como o número de objetos
desproporcionais, a amostragem estratificada é utilizada. A existência de uma quantidade
significativamente maior de dados que as demais pode levar à indução de classificadores
tendenciosos para as classes majoritárias. Para isso, uma opção é manter o número de objetos
para cada classe.
A amostra progressiva é uma alternativa quando deseja-se encontrar um tamanho ótimo
da amostra. Esta técnica começa com um pequeno número de objetos na amostra e aumenta
progressivamente o seu tamanho enquanto a acurácia continuar a melhorar.
48
Balanceamento de dados
Em diferentes bases de dados haverá dados desbalanceados, ou seja, número de objetos
diferentes para cada classe. Essa situação é comum porque há eventos que ocorrem com maior
frequência que outros. Um exemplo disso é o conjunto de dados de clientes de um banco
rotulados como fraude ou não. Como fraude é um evento raro, acontecendo, na maioria das
vezes, em 1% dos clientes, a classe majoritária será de clientes idôneos. Dessa forma, o
resultado do modelo se torna enviesado. Na literatura, há três principais técnicas descritas:
i. Induzir o modelo para uma classe
Nessa técnica, modelos diferentes são construídos para a classe majoritária e
minoritária para que os comportamentos sejam aprendidos separadamente.
ii. Redefinir o tamanho do conjunto de dados
Nesse caso, pode ser realizado tanto o acréscimo de dados à classe minoritária
quanto a eliminação de dados da classe majoritária. Para as duas alternativas há
riscos: na primeira é possível que os dados acrescentados representem eventos que
nunca ocorrerão, além de poder acontecer um problema conhecido pelos cientistas
de dados como overfitting, ou seja, o modelo pode se superajustar aos dados de
treinamento – e errar ao predizer os novos dados. No segundo caso, dados de
importância para o aprendizado do modelo podem ser perdidos e levar ao problema
de underfitting, em que o modelo não se ajusta aos dados de treinamento – baixa
precisão e generalização.
iii. Utilizar diferentes pesos de classificação para diferentes classes
A utilização de pesos é uma opção ao balanceamento de dados, porém é a mais
limitada por serem números estáticos ou, quando calculados no modelo, complexos
o suficiente para monitoramento ou explicação.
Redução de dimensionalidade
Apesar de todas as etapas de limpeza de dados e amostragem mencionadas
anteriormente, muitos problemas têm por natureza um volume elevado de atributos para sua
resolução, como por exemplo:
a) Aplicações de reconhecimento de imagem: escala de 106 atributos a cada imagem
– considerando cada pixel um atributo, uma imagem 1024 por 1024 pixels teria
mais de um milhão de atributos.
49
b) Expressões genéticas: escala de 104 atributos – apresentam dezenas de objetos cada
um com milhares de atributos
Este efeito do elevado número de atributos em algoritmos gera o problema classificado
como dimensionalidade, em que poucas técnicas de aprendizado de máquina conseguem lidar.
Para a redução desse efeito, existem algumas técnicas que podem ser divididas em dois grupos:
técnicas de Agregação e técnicas de Seleção de Atributos.
Nas técnicas de agregação, combina-se atributos originais por meio de funções lineares
ou não lineares. Uma das técnicas mais conhecidas é a Análise de Componentes Principais
(PCA - do inglês, Principal Component Analysis) (PEARSON, 1901) em que dados similares
– ou seja, de baixa variância – são correlacionados estatisticamente gerando grupos de dados
que reduzem a dimensionalidade do conjunto. O primeiro componente principal expressa a
maior magnitude de variância. Cada componente adicional expressa menor variância e mais
ruído/erro estatístico, portanto, representar os dados com um subconjunto menor de
componentes principais preserva o sinal e descarta o ruído.
4.4.6 Construção do modelo
Com os dados tratados, é iniciada a construção do modelo – etapa mais relevante para
o cientista de dados, apesar de representar uma pequena parcela do tempo de desenvolvimento
(FINLAY, 2017).
A criação do modelo objetiva a generalização – agrupamento de fenômenos similares
com capacidade de se adaptar adequadamente a dados inéditos de uma distribuição. Para isso,
o modelo é apresentado a variações de entradas até que atinja uma acurácia suficiente através
de três etapas: examinar os dados (treino), aprender com os dados (validação) e concluir sobre
a performance do modelo (teste). Como são três objetivos diferentes, os conjuntos de dados
utilizados em cada também serão diferentes. Na Figura 18 é possível visualizar a divisão dos
subconjuntos de amostra (GROOTENDORST, 2019).
50
Figura 18: Divisão da amostra de desenvolvimento de um modelo de machine learning supervisionado
Fonte: Disponível em: <https://towardsdatascience.com/validating-your-machine-learning-model>. Acesso em
05 Mai. 2020, às 17:58
Nesta etapa de criação do modelo os dois primeiros foram tratados: treino e validação.
Os conjuntos de treino e teste são configurados como maior parte do conjunto de dados,
normalmente 80% do total da amostra de desenvolvimento.
O conjunto de treino inclui o conjunto de exemplos de entrada nos quais o modelo
ajustará seus parâmetros e, como o modelo precisa de volume de dados para aprender os
padrões, este conjunto representa de 70%–80% do conjunto treino.
Para que o modelo aprenda as classificações, ele precisa ser avaliado periodicamente na
etapa de teste. Ao calcular a taxa de erro pelos dados previstos no modelo versus classificação
existente no conjunto de teste pode-se saber o quão acurado ele é. O modelo realizará um loop
entre treino e teste até que gere o modelo ótimo (de menor taxa de erro) com os dados usados.
A construção ocorre a partir de um software com as funções apropriadas a modelos de
machine learning (R e Python são os mais utilizados) em que, como primeira etapa, o cientista
de dados insere e programa os algoritmos que irão processar os dados e repartir as amostras.
Após isso, realiza os comandos para geração do modelo – uma função, de forma prática –
ilustrados na Figura 19.
51
Figura 19: Exemplo de código de parte da construção de um modelo
Fonte: Elaboração própria (2020)
52
O modelo ótimo será gerado pelo software e seus resultados. Caso os resultados não
sejam bons, com alto erro, um problema comum é o underfitting – que acontece na etapa de
treino quando o modelo não consegue encontrar relações entre os dados, de acordo com o artigo
publicado pela Didática Tech (2019). Assim, o cientista de dados irá realizar ajustes de pré-
processamento e voltar para a construção do modelo.
4.4.7 Teste do modelo
Como penúltima etapa, há o teste da generalização do modelo construído. Por uma
perspectiva técnica, esta etapa envolve principalmente calcular a acurácia de predição em um
conjunto de dados diferente (FINLAY, 2017). É considerada uma etapa a parte da construção
do modelo por ser um conjunto diferente de dados - 20% a 30% da amostra de desenvolvimento.
Após a finalização da etapa de construção (treinamento-validação), o modelo ótimo gerado será
rodado com os dados do conjunto de teste para realizar uma avaliação não-viesada da
generalização no modelo, visto que ele nunca viu este conjunto de dados anteriormente.
A avaliação do modelo é realizada através da análise de diversas métricas e variam de
acordo com o tipo de problema trabalhado. Como a classificação é um dos problemas mais
frequentes no aprendizado de máquina com várias aplicações industriais (MINAEE, PATHAK
e CROOK, 2019), são apresentadas as principais métricas utilizadas na avaliação deste
problema específico. São elas: Acurácia, Precisão e Recall. Tais métricas são calculadas a partir
de uma Matriz de confusão, como a ilustrada na Figura 20 (SILVA, 2018).
Figura 20: Exemplo de uma matriz de confusão
Fonte: Silva (2018, p.43)
Cada linha da matriz de confusão representa as instâncias em uma classe prevista e cada
coluna representa as instâncias em uma classe real (MINAEE, PATHAK e CROOK, 2019).
1. Acurácia: número de previsões corretas dividido pelo número total de previsões.
(VP+VN) / (VP+VN+FP+FN)
53
2. Precisão: número de previsões corretas em uma classe pelo número total de previsões
na classe.
(VP / VP + FP) ou (FN / FN + VN)
3. Recall: número de previsões corretas em uma classe pelo número total real. Geralmente
chamado de True Positive Rate (TPR) para a classe positiva e 1 - Recall da classe
negativa como False Negative Rate (FNR).
(VP / VP + FN) ou (VN / VN + FP)
4. F1 Score: métrica estatística que combina o recall com a precisão em um único número.
2 × precisão × recall / precision + recall
Com essas métricas geradas, o cientista de dados poderá comparar o resultado do teste
com o resultado do treino. Caso os resultados se encontrem similares, significa que modelo está
generalizando bem e será o melhor modelo possível. Caso divergirem, o principal problema a
ser considerado é o overfitting, que acontece quando o modelo se ajusta tanto aos dados de
treino que não consegue predizer por novos dados - há uma alta acurácia para o conjunto de
treino e baixa para o conjunto de teste. Logo, o cientista deverá voltar à etapa de preparação
para realizar mudanças nos dados e no pré-processamento. Vale pontuar que o machine learning
é um processo iterativo. Geralmente, muitos modelos são construídos usando variantes de
diferentes algoritmos e/ou diferentes representações de dados antes do modelo final ser
acordado (FINLAY, 2017).
4.4.8 Definição das regras de decisão
Com a coerência dos resultados de treino e validação têm-se o melhor modelo possível,
e então passa-se à fase de análise de regras de decisão. Uma das ferramentas mais utilizadas
nos problemas de classificação é o gráfico ROC, que coloca no eixo x a taxa de falso positivo
e no eixo y a taxa de verdadeiro positivo, como ilustrado na Figura 21 (BROWNLEE, 2020).
Este gráfico é representado por faixas de probabilidade para que um dado valor
probabilístico de ser positivo (True Positive Rate ou Recall) há um valor probabilístico de gerar
falso positivo (FPR ou 1 - Recall negativo). Além disso, há também a métrica AUC gerada com
a curva que nos diz o quão capaz o modelo é em distinguir as classes. Como pode ser visto neste
gráfico, quanto maior o Recall maior o erro na classe negativa. Por exemplo, para uma faixa de
54
Recall de 60%, há um FPR de cerca de 10%. Portanto, há um trade-off entre a abrangência da
decisão versus o erro aceitável.
Figura 21: Exemplo de um gráfico ROC
Fonte: Disponível em <https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-
imbalanced-classification/> Acesso em 09 Mai. 2020, às 09:22
Outro gráfico também utilizado para facilitar a tomada de decisão é a curva precision-
recall. Este é mais utilizado que o ROC para casos em que a classe negativa é valiosa como,
por exemplo, bloqueio de contas de usuários que foram previstos como fraude, mas não eram.
A Figura 22 ilustra uma curva precision-recall:
Figura 22: Exemplo de gráfico precision-recall
Fonte: Elaboração própria (2020)
55
Através dessas ferramentas, a área de negócio que utilizará o modelo em conjunto com
o cientista de dados poderá analisar tais métricas técnicas e as métricas de negócio para definir
a faixa de escores a ser aplicada na decisão e se precisarem de outros parâmetros, definirem
quais serão. Após a definição quantitativa, irão planejar se o modelo tomará decisão diretamente
ou se apenas gerará insumos para a decisão humana, mesmo que em primeiro momento.
4.5 Operacionalização do modelo na organização
Com o modelo pronto, a questão de como inseri-lo na corporação é levantada. Este
subcapítulo é baseado na seção 11 do livro Artificial Intelligence and Machine Learning for
Business de Steven Finlay (2017), com o objetivo de levantar de maneira breve a infraestrutura
de Tecnologia da Informação (TI), Sistemas e Processos necessária para operacionalização de
modelos de machine learning.
De acordo com Finlay (2017), o maior desafio para organizações que estão
implementando algoritmos de ML pela primeira vez é a aceitar o uso de tomada de decisão
automatizada. Para tal, a organização precisa estabelecer processos de governança e
infraestrutura para garantir que as decisões estão sendo feitas com base no previsto e cumprindo
com a legislação vigente.
O autor pontua que a integração do machine learning com os processos de negócios
deve considerar cinco pontos principais: (i) o uso do machine learning melhora os resultados
de um problema real da empresa?; (ii) a cultura da empresa está apta para implementar o uso
de tomada de decisão automatizada?; (iii) quais sistemas ou processos serão usados para
operacionalizar o modelo e como isso será computado?; (iv) existem dados suficientes para
construção do modelo?; (v) a organização possui expertise e software adequado para analisar
os dados e aplicar o modelo?
Uma limitação do machine learning é o fato de ser uma aplicação extremamente
específica. Por esse motivo, uma análise prévia do problema e seus impactos é fundamental
para garantir uma operacionalização adequada. Além disso, é necessário realizar um
levantamento das áreas que serão impactadas pelo modelo para realizar um planejamento da
gestão da mudança, com a comunicação, treinamentos e engajamento.
Finlay (2017) categoriza dois tipos de implementações: (i) Modelos ativos: predições
geradas pelo modelo são tratadas automaticamente sem envolvimento humano; (ii) Modelo
passivo: predições geradas pelo modelo são tratadas pela ação humana. Os modelos passivos
normalmente apresentam maiores problemas pelo fato de a ação humana ter liberdade de alterar
56
decisões que foram tomadas centralmente, levando em consideração algum viés, de maneira
consciente ou não.
De acordo com o autor, um dos pontos críticos da operacionalização é a implementação.
A menos que a infraestrutura para uso de modelos de predição esteja bem estabelecida, a
implementação é um processo normalmente mais demorado e mais custoso do que a construção
do modelo.
Uma das possíveis abordagens de implementação é por meio de um projeto de TI, em
que o modelo é codificado por um programador da própria empresa dentro do sistema de
tecnologia da informação utilizado pela organização. Entretanto, esse modo de implementação
pode levar muito tempo devido ao fato de outras tarefas serem prioritárias em detrimento da
implementação do novo modelo. Um outro problema dessa abordagem é o pós-implementação,
em que qualquer incidente relacionado ao modelo entrará em uma fila de chamados do
departamento de TI.
A segunda abordagem consiste em realizar a implementação terceirizando o serviço de
um software especializado que é responsável por toda a interface do software usado para
construção do modelo e o sistema operacional onde o modelo será implantado. Para o pós-
implementação, muitas empresas prestam serviço de manutenção ao cliente no formato de
contrato guarda-chuva, em que o solicitante só tem custo quando algum atendimento é
requerido.
Uma vez que o modelo entra em modo “go live”, é necessário que exista um
monitoramento de seu comportamento para garantir a precisão, assim como a revisão do
processo de tomada de decisão periodicamente. O monitoramento é essencial devido a possíveis
mudanças que podem ocorrer na relação entre os dados usados para construção e treinamento
do modelo e os dados pós-implantação.
57
5. MACHINE LEARNING NA INDÚSTRIA DO VAREJO
Neste capítulo é encerrada a revisão da literatura com a caracterização do setor estudado,
iniciando com um recorte na indústria de Varejo para o canal online em sites Marketplace, com
a apresentação das principais características do Marketplace, a descrição da empresa em que os
casos foram estudados e um resumo de aplicações de Machine Learning no setor em questão.
5.1 Marketplace: um recorte da indústria do varejo
A indústria de Varejo possui vasta atuação na cadeia de suprimentos e pode ser
categorizada com base em diferentes parâmetros. Para Kotler (2012), “o varejo inclui todas as
atividades relativas à venda de bens e serviços diretamente ao consumidor final, para uso
pessoal”.
Para aprofundar no objeto de estudo em questão, é necessário realizar um recorte mais
específico na Indústria de Varejo. De acordo com o estudo de Guissoni, de Oliveira e Teixeira
(2016), quatro modelos de negócio vêm se destacando no mercado de varejo online no Brasil:
i) assinaturas: promissor por ser uma fonte de receitas estável, além de promover a fidelização
de clientes; ii) marketplace: varejistas menores ou pessoas físicas têm a possibilidade de vender
seus produtos em grandes plataformas renomadas, sendo uma forma de aumentar a variedade
de ofertas aos clientes; iii) omnichannel: modelo que une o online e o offline, parte da premissa
de que a experiência do consumidor é completa quando integra esses dois tipos de varejo,
oferecendo, assim, a opção de compra na loja física ou na loja virtual; iv) franquias digitais:
modelo que permite a quaisquer indivíduos se tornarem consultores de uma loja virtual.
No presente trabalho, foi realizado o recorte da indústria do Varejo para o varejo online,
tratando do mercado de e-commerce e mais especificamente, o mercado de marketplace,
segmento o qual a empresa estudada pertence. De acordo com a definição de Lima (2019), via
E-commerce Brasil, o modelo de negócio das plataformas de marketplace tem por objetivo
juntar os interesses de compradores e vendedores, facilitando o processo de compra e venda
através de um canal único e confiável.
De acordo com Eugênio (2020), o e-commerce tradicional e o marketplace se
diferenciam pelo tipo de plataforma. O e-commerce destina todo o espaço virtual a uma única
marca, que é a responsável pela cadeia completa, desde implementar a plataforma, personalizar
o layout, atrair os usuários, receber os pagamentos e fazer as entregas.
O marketplace, por sua vez, destina o espaço virtual a diferentes marcas e indivíduos.
Neste modelo, a empresa dona do marketplace é responsável pelo gerenciamento tecnológico
58
da plataforma, atração de clientes e, possivelmente, pela mediação do envio dos produtos e
sistema de pagamentos. Enquanto o vendedor deve apenas se cadastrar, incluir os produtos e se
responsabilizar pelo envio. Para empresas pequenas e médias empresas, o marketplace pode ser
uma alternativa para entrar no mercado digital com investimento baixo. Para indivíduos, o
marketplace pode ser um meio para a realização da economia compartilhada.
De acordo com Eugênio (2020), os marketplaces podem ser categorizados em quatro
tipos principais: Marketplace Business to Business (B2B), Marketplace Business to Consumer
(B2C) , Marketplace Consumer to Consumer (C2C) e Marketplace de Nicho, com as descrições
de acordo com a Figura 23.
Figura 23: Quadro dos tipos de marketplace e respectivas descrições
Fonte: Elaboração própria (2020)
Quanto ao lado financeiro, segundo dados do Relatório WebShoppers (2018), no ano
de 2017 as vendas em marketplaces representaram 31,5% do comércio eletrônico brasileiro e
crescimento de duas casas de 2015 a 2017 – ilustrado na Figura 24.
59
Figura 24: Faturamento de marketplace 2015 a 2017
Fonte: Relatório WebShopper 37ª edição (2018, p. 19)
No tocante ao efeito de rede, também se observa o crescimento de consumidores que
realizaram pelo menos uma compra, como ilustrado na Figura 25.
Figura 25: Evolução dos consumidores
Fonte: Relatório WebShopper 37ª edição (2018, p. 11)
No relatório de panorama dos marketplaces no Brasil, focado nos segmentos de
marketplace B2C e B2B, realizado pela Precifica (2018), empresa especializada no
monitoramento de preços do e-commerce e precificação dinâmica, a quantidade de vendedores
60
únicos nos sites de marketplace analisados registrou crescimento de 90,7% em relação ao
mesmo período no ano anterior, conforme a Figura 26. Este relatório utilizou dados de três
grandes marcas: Americanas, Extra e Walmart, que possuem pequenas e médias empresas
associadas como vendedores em troca de um percentual de comissão quando uma venda é
realizada.
Figura 26: Gráfico de quantidade e variação de vendedores nos marketplaces de setembro de 2017 a setembro de
2018
Fonte: Relatório Panorama dos Marketplaces no Brasil – Precifica (2018, p. 11)
Na subdivisão por departamento, é possível perceber que todos os departamentos
tiveram um aumento significativo na quantidade de vendedores, com destaque para os
departamentos de Utilidades Domésticas e Automotivo, que tiveram um aumento de 91,7% e
86,4%, respectivamente, ilustrado na Figura 27.
61
Figura 27: Gráfico de concentração de sellers por departamento nos marketplaces de setembro de 2017 a
setembro de 2018
Fonte: Relatório Panorama dos Marketplaces no Brasil – Precifica (2018, p. 15)
Ainda neste relatório, a Precifica (2018) apresenta a diferença entre ofertas 1P e 3P,
mostrando que o modelo 3P tem volume predominante, conforme Figura 28. O modelo 1P trata-
se da venda direta, em que a empresa compra dos atacadistas e vendem diretamente para o os
clientes, tendo o custo de estoque e de distribuição, enquanto no modelo 3P os vendedores
vendem seus produtos em plataformas de marketplace renomadas que recebem uma comissão
sobre as vendas realizadas e/ou planos de anúncios, e permanecem sem domínio dos processos
de emissão da nota e entrega na transportadora.
Figura 28: Gráfico de Ofertas 1P vs Ofertas 3P nos marketplaces de setembro de 2017 a setembro de 2018
Fonte: Relatório Panorama dos Marketplaces no Brasil – Precifica (2018, p. 19)
Segundo a Sociedade Brasileiro de Varejo e Consumo em “Um estudo completo do e-
commerce” (2018), a participação total do e-commerce no varejo nacional é da ordem de 5%.
Somado ao constante crescimento da penetração da internet – que entre 2008 e 2019 saiu de
62
34% para 70%, de acordo com a Agência Brasil – da realização de pedidos e venda online –
crescimento médio de 11% de 2017 a 2019, de acordo com dados do WebShoppers em 2019 –
pode-se observar que há grande oportunidade de digitalização e o potencial de crescimento para
marketplaces no Brasil. Além disso, com base nos dados coletados pelo Relatório WebShoppers
(E-BIT, 2015), em 2014 o Brasil era o décimo maior mercado de vendas on-line do mundo. No
mesmo ano, as vendas online totalizaram 35,8 bilhões de reais, com 25% de crescimento em
relação ao ano anterior, representando mais da metade das vendas desse canal na América
Latina (53,3%).
No cenário de 2020, de acordo com um artigo publicado pelo E-commerce Brasil
(2020), a edição trimestral do relatório Neotrust, com a pandemia do COVID-191 muitas
companhias aceleraram a transformação digital para passarem a vender pela internet,
fortalecendo o varejo online. O mercado de e-commerce brasileiro em abril de 2020 faturou R$
9,4 bilhões, apresentando um aumento de 81% em relação ao mesmo período do ano anterior.
Com base nos dados apresentados, é possível perceber que o mercado de marketplaces
no Brasil é representativo e se encontra com perspectiva de crescimento ao longo dos próximos
anos visto o aumento do uso da internet para compras de qualquer gênero. Além disso, o modelo
de negócios e estratégia do mundo físico são diferentes do mundo virtual, o que requer
adaptação por parte das empresas.
5.2 Aplicações do machine learning no setor
O aprendizado de máquina apresenta potencial no mercado de cyber security, o
rastreamento de fraudes monetárias online é um exemplo de aplicação. O Paypal está usando o
ML para proteção contra lavagem de dinheiro. A empresa utiliza um conjunto de ferramentas
que os ajuda a comparar milhões de transações em andamento e a distinguir entre transações
legítimas ou ilegítimas entre compradores e vendedores. O uso do machine learning torna o
sistema de detecção de fraudes mais robusto que o sistema tradicional baseado em regras
(MEDIUM, 2017).
Desde a personalização até a melhor segmentação de anúncios, as plataformas de varejo
virtuais estão utilizando o aprendizado de máquina para benefício próprio e do usuário. Um
exemplo de aplicação é o Computer Vision, que tem o machine learning como elemento
1 COVID-19 é uma doença causada pelo vírus SARS-CoV-2, que apresenta um quadro clínico que varia de
infecções assintomáticas a quadros respiratórios graves. Esta doença provocou uma pandemia no ano de 2020,
com mais de 11 milhões de infectados ao redor do mundo até julho/2020, desencadeando um grande impacto na
economia mundial.
63
principal. De acordo com Le (2018), o Computer Vision é uma técnica para extrair informações
úteis de imagens. Algumas plataformas, como o Pinterest, utilizam Computer Vision para
identificar os objetos nas imagens e recomendar itens semelhantes. Em uma abordagem de
aprendizado de máquina para reconhecimento de imagem, é possível extrair os principais
recursos da imagem e, portanto, inserir esses recursos no modelo para aprimorá-lo.
Outra aplicação relevante de machine learning é na predição de inadimplência de
clientes. Um exemplo, seria calcular a probabilidade de um cliente não realizar o pagamento de
uma parcela. Para calcular a probabilidade de inadimplência, o algoritmo precisará primeiro
classificar os dados disponíveis em determinados grupos. Depois de realizar a classificação,
conforme a necessidade, é possível calcular a probabilidade.
No mais, a predição também pode ser utilizada para realizar uma estimativa da
quantidade de vendas. De acordo com a visão de Sharma (2017), no caso da indústria de varejo,
é possível a partir de um relatório histórico robusto, com os dados de venda de todo o ciclo de
vida da empresa, prever qual será a quantidade de vendas no próximo mês, ano, ou em datas
comemorativas, como por exemplo, Natal e Black friday. Dessa forma, as organizações podem
realizar uma tomada de decisão mais assertiva quanto ao investimento necessário em compras
de matéria-prima, disponibilidade de estoque, entre outros fatores.
A sugestão de compras é um artifício que apresentou ganho significativo com o uso do
aprendizado de máquina. Com base no comportamento do usuário com a plataforma, como por
exemplo: compras anteriores, itens curtidos ou adicionados ao carrinho, preferências de marca,
entre outros, são feitas recomendações de produtos.
A Inteligência Artificial permite que a Amazon preveja quais produtos terão maior
demanda para fornecer recomendações personalizadas com base nas pesquisas de clientes. De
acordo com um estudo realizado por uma empresa americana do ramo de performance em
marketing digital chamada Rejoiner (2018), o mecanismo de recomendação da Amazon gera
em torno de 35% do total de vendas da organização. Uma experiência de consumo ou serviço
é melhor, caso os interesses previstos e a resposta para essas demandas possam ser dadas através
da análise de dados, que é uma das suas atribuições da aprendizagem de máquina (GAMA,
2017).
Além disso, os chamados chatbots estão virando referência nos canais de comunicação
com os clientes. Esses robôs são programados para extrair informações do site e apresentá-las
aos clientes. O diferencial está no uso de algoritmos de machine learning que possibilitam
compreender melhor as consultas do usuário e a atendê-las com melhores respostas.
64
De acordo com a Apium (2018), é possível citar como exemplo os assistentes virtuais
do grupo Alibaba, plataforma de e-commerce chinesa conhecida mundialmente. O chatbot de
atendimento ao cliente que processa 95% das consultas de clientes, tendo a possibilidade de ser
uma consulta escrita ou uma consulta em áudio. Além disso, o Alibaba usa a IA para ajudar a
mapear as rotas de entrega mais eficientes. A companhia chinesa afirma que a logística
inteligente resultou em uma redução de 10% no uso de veículos e uma redução de 30% nas
distâncias de viagem.
Outra possível aplicação na indústria de varejo é o uso do machine learning para
identificar avaliações falsas. De acordo com uma pesquisa realizada pela Podium (2017), 93%
dos entrevistados dizem que as avaliações on-line afetam suas decisões de compra.
No entanto, existem críticas falsas publicadas por concorrentes, bots, entre outros
mecanismos. Por esse motivo, empresas da indústria de varejo, sejam do ramo de e-commerce
ou de marketplace, tem utilizado machine learning para facilitar na detecção com ênfase em
análises verificadas. Por exemplo, de acordo com a Apium (2018), a Amazon usa algoritmos
para combater avaliações falsas de produtos e classificações de maneira ponderada. O algoritmo
concentra-se na importância e no peso das avaliações de compras verificadas dos clientes e as
aumenta. No mais, o algoritmo também leva em consideração as revisões que são marcadas
como úteis por outros usuários
Em 2020, empresas como Alibaba, eBay e Amazon estão usando a IA para detecção de
avaliações falsas, chatbots, recomendações de produtos, gerenciamento de big data, entre
outras aplicações. As organizações estão em busca de compreender o funcionamento dos
modelos de aprendizagem de máquinas para alcançar vantagem competitiva. De acordo com
Gama (2017), a aprendizagem e modelagem de máquinas é uma parte do processo para criação
de modelos de mineração de dados para diferentes indústrias.
65
6. ESTUDOS DE CASO
No presente capítulo será realizada a caracterização da empresa, com objetivo de
apresentar o histórico da companhia, áreas de atuação e marketshare. Além disso, serão
abordados dois estudos de caso da companhia: Cancelamento de planos e Identificação de
Fraude por chat. Pela disponibilidade de informações, o modelo de cancelamento de planos será
tratado em linhas gerais, enquanto o modelo de fraude por chat será tratado de forma mais
profunda devido à participação ativa de uma das autoras no projeto.
6.1 Caracterização da empresa
Nesta seção é abordado tanto a caracterização da empresa estudada, o histórico desde
sua criação e a descrição das áreas em que serão realizados os estudos de caso.
6.1.1 A empresa
A empresa em estudo será caracterizada como MarketplaceCo por motivos de
confidencialidade. A MarketplaceCo faz parte de um grupo multinacional de marketplaces
fundado em 2006, com sede na Holanda e presente em mais de 40 países. O grupo é composto
por mais 20 marcas, usadas por aproximadamente 350 milhões de usuários por mês e com cerca
de 5000 funcionários (dados de 2020).
A MarketplaceCo é a empresa brasileira do grupo e, como marketplace C2C e B2C,
opera no comércio eletrônico de variados bens: imóveis, carros e bens de consumo. Foi fundada
em 2010 e se tornou o maior mercado do mundo para o grupo em 2015. De 2016 para 2017, a
MarketplaceCo aumentou sua receita em 103% e contratou 255 novas pessoas. Se tornou líder
nas categorias de carros em 2018 e de imóveis em 2020. Atualmente, tem cerca de 750
funcionários.
O modelo de negócios da empresa é um Software as a Service (SaaS) freemium ou seja,
sua fonte de receita é a comercialização da plataforma, em que o cliente paga um valor pelo
serviço a partir de uma faixa limite de uso grátis. Isso quer dizer que até uma quantidade X de
anúncios publicados, a plataforma é gratuita. No entanto, após o esgotamento dos X anúncios,
os próximos serão cobrados um determinado valor por anúncio ou o cliente poderá comprar um
plano com pacote de anúncios – variando o valor para a quantidade de anúncios requeridos.
Além dos anúncios pagos e planos, a outra fonte de renda é a comercialização de vantagens,
como por exemplo, exibição no topo do feed ou destaques para anúncios. Em suma, tais
66
produtos são classificados como i) Pay As You Go (PAYG) – anúncios avulsos pagos, destaques
e bumps (topo do feed) e ii) Subscription – planos de pagamento recorrente mensal.
A plataforma é utilizada por dois perfis de usuários – anunciante e comprador – mas
apenas o anunciante é um perfil pagante. O anunciante tem três classificações: i) anunciante
privado – anunciantes sem plano; ii) anunciante profissional – anunciantes com algum algum
plano; e iii) anunciante Key Account – empresas que realizam a integração de seus anúncios
para a MarketplaceCo.
6.1.2 Áreas de estudo
Como empresa de tecnologia, a MarketplaceCo tem a digitalização inerente ao negócio
e opera, atualmente, aproximadamente 12 modelos de machine learning em diferentes áreas do
negócio. Neste projeto, será focado em dois modelos: um na área Comercial e outro na área de
Confiança e Segurança.
A área Comercial compreende todas as atividades de contato com o cliente profissional,
seja via canal telefônico, online ou presencial. É subdividida em três subáreas: Aquisição,
Atendimento e Retenção. O estudo do modelo no tópico seguinte 6.2 é da área de Retenção.
Enquanto a área Comercial é tradicional no mercado, a área Confiança e Segurança
nasceu com a evolução das plataformas online. Esta compreende as atividades de proteção aos
seus usuários, sua marca e seu produto contra usuários mal-intencionados (HUNT, 2017). Mais
conhecida como “Trust and Safety”, o termo é comumente usado em plataformas nas quais as
pessoas interagem. A Confiança e Segurança é a base para permitir que desconhecidos se tratem
de maneira pacífica e justa. No contexto do marketplace, ser a base da interação entre dois
estranhos equivale a ser a base do comércio eletrônico, visto que, para que as transações
ocorram, é necessário que o vendedor e comprador confiem na plataforma, além de a confiança
nas compras on-line também gerar um efeito positivo na satisfação do comprador
(SFENRIANTO e WANG, 2018).
De forma mais detalhada, são equipes multifuncionais compostas por analistas,
representantes de atendimento ao cliente, gerentes de produto, designers, cientistas de dados e
engenheiros de software e seu escopo de trabalho inclui a proteção de dados do usuário,
moderação de conteúdo, detecção preventiva e reativa de spam, fraudes, assédio e contas falsas.
Por fim, cabe frisar que o escopo da área Confiança e Segurança é diferente de uma área de
Risco. A primeira tem foco em proteger ataques ao usuário da plataforma, enquanto a segunda
protege ataques ao negócio.
67
6.1.3 Levantamento de informações
A coleta de informações foi realizada com funcionários da MarketplaceCo. No modelo
de Detecção de fraude, uma das autoras do trabalho participou ativamente do projeto.
Entretanto, no modelo de cancelamento de planos não houve participação direta, tendo os dados
sido coletados a partir de análise de documentos disponibilizados e de entrevistas
semiestruturadas, com questões gerais de caráter qualitativo e quantitativo.
As entrevistas semiestruturadas do modelo de Cancelamento de planos foram realizadas
com o cientista de dados responsável pela construção do algoritmo e com um analista da área
Comercial para compreender melhor a utilização prática do modelo pela área de Retenção.
O cientista de dados é engenheiro de computação e trabalha há 2 anos e 3 meses na
MarketplaceCo. Foram realizadas duas entrevistas via videoconferência, em que os seguintes
questionamentos foram desenvolvidos:
a) Breve histórico e contexto da criação do modelo.
b) Qual o algoritmo escolhido para construção do modelo?
c) Como é o retorno do modelo? O que é cada item do gráfico?
d) Como é definido o grupo que vai para o tratamento com ligação?
e) Qual é a faixa de tempo de confiança da acurácia da predição?
f) Qual é a precisão do modelo? Como esta foi medida?
g) Quais análises são feitas com base no resultado do modelo?
h) Qual é o threshold da regra de negócio?
i) Por que mudou a frequência de envio para área Comercial?
j) Como é o processo de consumo de dados pela a área Comercial?
O analista da área Comercial é bacharel em administração de empresas, pós-graduado
em Business Intelligence e trabalha há 2 anos e 1 mês na MarketplaceCo. Foi realizada uma
entrevista, também via videoconferência, e os tópicos que guiaram as entrevistam foram:
a) Como foi a criação da área de Retenção?
b) Como é o processo de ligação para a base selecionada?
c) Como é o treinamento dos atendentes?
d) A área tem acesso a que tipo de dados dos usuários na base selecionada?
e) Há processos com atividades conjuntas com outras áreas do Comercial?
68
O protocolo exposto nesta seção utilizou perguntas básicas que guiaram as entrevistas.
As informações coletadas com o uso deste protocolo subsidiaram o estudo de caso do modelo
de cancelamento de planos.
6.2 Cancelamento de planos
Este estudo de caso, como citado nas limitações e no início do capítulo, será menos
aprofundado devido ao acesso limitado aos dados e informações do modelo de machine
learning estudado.
6.2.1 Contexto
O histórico de criação do modelo de cancelamento de planos, na verdade, iniciou com
outro viés. No início do projeto, o objetivo da equipe de Data Science não era prever o
cancelamento de planos e sim predizer quais eram os potenciais assinantes de planos da
MarketplaceCo, para facilitar o trabalho de captação da área Comercial. Entretanto, pela pouca
disponibilidade de dados externos, o modelo de previsão de compras foi inviabilizado.
O modelo de cancelamento de planos foi desenvolvido pela MarketplaceCo com o
objetivo de reduzir o percentual de churn da companhia. De acordo com Duarte (2016), o churn
rate é o indicador que mede a taxa de cancelamentos dos clientes, ou seja, o percentual de
clientes que deixaram de consumir seu produto ou serviço naquele determinado período. Para
uma plataforma SaaS, o churn rate é a quantidade de clientes que cancelaram seus planos em
um dado período, dividido pelo total de clientes com planos ativos ao início do período –
geralmente analisado em períodos mensais para redução do efeito de sazonalidade.
Em modelos de negócios por assinatura, o índice de cancelamento de clientes tem
grande relevância, visto que é um indicador simples da saúde do negócio: quantos clientes de
uma base estão saindo. Além disso, se torna fundamental em momentos de crise em que as
empresas apresentam maior dificuldade de realizar a retenção dos seus clientes pagantes. O
churn é, inclusive, um dos principais Objective and Key Results (OKRs) da MarketplaceCo.
Por se tratar de uma meta da empresa, o modelo de cancelamento de planos teve em sua
fase de definição a interface de duas áreas da companhia, a área de Data Science, responsável
pelo desenvolvimento do modelo, e a área de Retenção (criada junto ao projeto dentro do
Comercial), responsável pela utilização do modelo como ferramenta de apoio.
69
6.2.2 Construção do modelo
A etapa de definição do problema de negócio – identificar os potenciais cancelamentos
de planos – é preliminar e fundamental no processo de construção do modelo, de forma que
toda equipe do projeto tenha claro o objetivo e resultado que se pretende alcançar.
Com o problema de negócio alinhado, o segundo passo foi realizado pelo time de Data
Science com o objetivo de realizar uma análise exploratória dos dados, para definir quais
variáveis seriam mais significativas para o modelo. A compreensão do processo, construção da
amostra de desenvolvimento do modelo, pré-processamento de dados e construção do modelo
durou de julho de 2019 a novembro de 2019, com muitas iterações até se chegar no conjunto
de variáveis significativas.
O modelo escolhido para predição de cancelamento de planos foi o de Redes Neurais
Recorrentes. As Redes Neurais, como o próprio nome já diz, apresentam uma relação com a
capacidade de processamento equivalente a de um cérebro humano, em que um neurônio é
capaz de processar mais de mil informações simultaneamente.
De acordo com a entrevista realizada junto ao Cientista de dados desenvolvedor do
modelo, as Redes Neurais Recorrentes apresentam camadas de entradas, em que as variáveis
possuem pesos diferentes e há uma variável de viés, camadas de saídas (que podem ser binárias
ou não) e camadas ocultas, que funcionam como uma memória – a cada período de iteração, a
rede neural não só armazena no seu estado oculto informações dos dados observados naquela
iteração, como também recupera informações de iterações anteriores. O estado oculto pode
fornecer informações para a camada de saída, caso seja o momento de realizar uma previsão.
Devido às camadas ocultas os modelos de Redes Neurais Recorrentes apresentam custo
computacional alto para fase de treinamento do modelo e podem ser classificadas como de baixa
capacidade de interpretação (WUJEK, HALL e GUNES, 2016).
Para definir as variáveis mais significativas, foi utilizada a função de colinearidade
corrplot que plota a correlação entre as variáveis e de acordo com a classe definida para saída
– nesse caso, cancelamento de planos – foi possível definir quais eram as variáveis que mais
impactavam o modelo e seriam usadas como input na camada de entrada.
Na fase de pré-processamento, por se tratar de um algoritmo de rede neural, é necessário
encodar as variáveis, ou seja, converter todas as variáveis para que sejam classificadas de
maneira binária, retornando 0 ou 1. O método usado para binarização foi one-hot encoding. O
threshold é o limite escolhido entre os valores de probabilidade em que será tomada uma
decisão e, para esse modelo, foi selecionado threshold >= 0.5.
70
O modelo recebe uma combinação de cerca de 1500 variáveis que buscam entender o
comportamento dos usuários na plataforma de maneira não linear e pouco interpretável. Como
exemplo dessas variáveis, pode-se citar: visualização de anúncios, interação com o atendimento
ao cliente, quantos anúncios o plano pleiteia, valor do contrato, data de renovação do contrato,
usuário pessoa física ou pessoa jurídica, quantidade de anúncios publicados, quantidade de
anúncios vendidos, tempo médio de resposta de mensagens no chat – todas em uma janela de
120 dias. Para cada uma dessas iterações, o modelo recebe combinações da quantidade que
foram realizadas em cada categoria – a MarketplaceCo possui 71 categorias distintas – e em
cada plataforma – Android, iOS, browser para celular e para desktop.
Com as variáveis bem definidas e os dados tratados, inicia-se de fato a construção do
modelo. No primeiro momento, é necessário randomizar a base de dados históricos para garantir
que os dados não estejam classificados em uma ordem, por exemplo, todo mundo que cancelou
em um primeiro bloco e todo mundo que não cancelou em um segundo bloco, para evitar
enviesar o modelo.
Após a randomização, as amostras foram separadas em treino (70% da amostra) e teste
(30% da amostra) utilizando a função sample que realiza uma amostragem aleatória tanto no R
quanto no Python. Nesse estágio, o algoritmo é rodado para aprender com o conjunto de treino
que já possui a classe definida – cancelamento – as camadas de entrada e as camadas ocultas.
Com o aprendizado do treino, foi realizado um teste com os 30% da amostra para validar
os resultados. Os resultados foram comparados com os resultados reais, visto que, neste
momento, dados históricos são utilizados. Dessa forma, foi possível comparar o que o algoritmo
previu com o que de fato ocorreu para calcular a precisão do algoritmo.
Para validar que o modelo apresenta assertividade, foi necessário comparar os resultados
do conjunto de teste aos resultados reais dos dados históricos. A avaliação da precisão do
modelo foi realizada a partir da matriz de confusão, comparando quantos dados deram resultado
positivo no algoritmo em relação aos dados que deram positivo na vida real, quantos dados o
algoritmo retornou que eram negativos em relação aos dados que eram negativos na vida real.
Com isso, o somatório de todos os acertos – verdadeiros positivos e verdadeiros negativos –
divididos pela quantidade total de dados apresentou o percentual de precisão final de 60%.
Depois o algoritmo entrou na fase de produção, comumente chamada de deploy. Na fase
de produção, ocorre o uso do modelo em um ambiente real para consumo de aplicações. Nesse
caso, novos dados foram rodados pelo algoritmo para que ele fizesse a predição dos usuários
que possuíam maior probabilidade de cancelar os planos.
71
Durante a entrevista, quando perguntado em relação ao ganho financeiro potencial com
o uso do modelo, o cientista de dados comentou que o custo de processamento para cada hora
em que o modelo é processado é da ordem de dois dólares, mas que o ganho com a quantidade
de planos mantidos em relação ao ticket médio da companhia poderia ser da ordem de milhões.
Por fim, devido a quantidade de variáveis envolvidas e por consequência de fatores
externos, como por exemplo, crises na economia, o padrão de comportamento de usuário pode
alterar drasticamente, o que faz com que o modelo perca precisão. Nesse cenário, o entrevistado
deixou claro que o modelo necessita ser treinado novamente e que o tempo para retreinar é
menor que o período de treino gasto na fase de construção.
6.2.3 Análise crítica
Para análise dos resultados, é necessário entender como foi realizada a segmentação
para o melhor acompanhamento dos gráficos expostos nas Figuras 29 e 30. A curva de
“Control” (linha amarela) apresenta o comportamento das pessoas selecionadas pelo algoritmo
que possuem maior probabilidade de cancelar planos no decorrer do tempo. As curvas
“Treatment_with_call” (linha verde) e “Treatment_without_call” (linha laranja) apresentam,
respectivamente, o comportamento das pessoas selecionadas pelo algoritmo que receberam uma
ligação do time comercial e as que não atenderam a ligação. Por fim, a curva “Sacred” (linha
cinza) serve para acompanhar o comportamento a partir de uma amostra de usuários que
possuem uma probabilidade aleatória de cancelar planos.
O entrevistado informou que o período de confiança para garantir a precisão de 60%
modelo é de 15 dias após o dia da predição. Dessa forma, o modelo foi feito inicialmente para
predizer quais os potenciais usuários que iriam cancelar nos próximos 15 dias. Esse período é
justificável, visto que as variáveis de entrada do algoritmo dependem das ações dos usuários na
plataforma que ocorrem o tempo todo.
A Figura 29 representa o percentual de cancelamentos em relação aos dias a partir da
data que foi feita a predição no mês de setembro de 2019. De acordo com o entrevistado, nessa
época o algoritmo ainda tinha caráter experimental. A equipe de Data Science rodava o modelo
manualmente uma vez por semana e repassava a lista de cancelamentos potenciais para a área
Comercial.
72
Figura 29: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de Setembro/2019
Fonte: Elaboração própria (2020). Dados retirados pela plataforma Tableau da MarketplaceCo.
Para isso precisa-se da amostra aleatória (Sacred) de usuários que não vão ter nenhuma
intervenção, apenas para acompanhar o comportamento em relação ao cancelamento de planos.
Essa comparação serve apenas como referência para demonstrar que o algoritmo está fazendo
predições assertivas, visto que a curva Control apresenta percentual de cancelamento maior que
a da amostra aleatória durante todo o período.
O entrevistado ressaltou que para medir a efetividade do algoritmo, com o objetivo de
validar o esforço em termos de custo e tempo, não adianta analisar apenas o percentual de
cancelamentos evitado isoladamente no tratamento com ligação, é necessário analisar também
o delta, ou seja, a variação em relação ao controle, usuários que já teriam probabilidade de
cancelar normalmente. Dessa forma, é possível avaliar o comportamento probabilístico dos
usuários e o delta demonstra o comportamento após o esforço de ligação.
Ao analisar o delta de D+10 em relação a data da predição, é possível ver que o
percentual de cancelamentos do grupo que teve tratamento com ligação era de
aproximadamente 11%, enquanto do grupo de controle era de 41%, tendo uma diferença de 30
pontos percentuais.
Pelo fato de não ter sido disponibilizado o valor do ticket médio e a base de dados
completo não foi possível realizar cálculos de ganho financeiro e descobrir a quantidade de
planos mantidos em valor absoluto.
73
Figura 30: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de janeiro/2020
Fonte: Elaboração própria (2020). Dados retirados pela plataforma Tableau da MarketplaceCo.
Para comparação, a Figura 30 apresenta o gráfico do percentual de cancelamento em
relação aos dias, a partir da data que foi feita a predição em janeiro de 2020, em que o algoritmo
já estava em fase de produção. Nesse período, os dados já não eram mais gerados manualmente,
o algoritmo rodava de maneira automática com a frequência diária.
No período de D+10 em relação a data da predição, o percentual de cancelamento do
grupo que teve tratamento com ligação era de aproximadamente 17%, enquanto do grupo de
controle era de aproximadamente 44%, tendo um delta de 27 pontos percentuais.
Ao ser questionado quanto a diminuição do delta como uma possível diminuição da
efetividade do tratamento, o entrevistado relatou que no primeiro gráfico se tratava de um MVP
com uma amostra menor, e quando o processo é escalado outros fatores são envolvidos além
do algoritmo, então o delta do churn diminuir, não significa necessariamente que o modelo
piorou. Além disso, reforçou que o mais importante é o fato do custo da área comercial em fazer
o tratamento de falar com os usuários é muito menor do que a receita que seria perdida com a
quantidade de cancelamentos multiplicada pelo ticket médio.
Com o resultado do modelo, algumas análises podem ser feitas. O entrevistado relatou
que em determinados períodos, o percentual de cancelamentos do grupo que teve tratamento
por ligação era maior do que o percentual de cancelamentos de controle, o que demonstra que
o esforço de ligação nem sempre é suficiente.
Em uma análise crítica, pode-se pensar em outras estratégias de tratamento para
retenção deste público. Grande parte das ligações por telefone oferecem produtos que o cliente
74
não deseja consumir, logo, ao realizar uma ligação, o time comercial deve estar bem treinado
para apresentar o valor do serviço oferecido, caso contrário, terá o efeito reverso de insatisfação,
comumente encontrado nas ligações de telemarketing. Nesse caso, outros canais de
comunicação poderiam ser explorados, como por exemplo mensagens por Whatsapp e E-mail.
Uma alternativa seria prover um diferencial no plano, seja com a oferta de descontos ou
períodos de congelamento de pagamento. Para isso, seria possível pensar em uma alternativa
de chatbot, que reduziria significativamente a necessidade de atendimento humano para
oferecer descontos e planos mais atrativos. Uma outra opção que as empresas praticam com
frequência é fortalecer a criação de conteúdos para que os usuários sejam impactados, por meio
de blogs, posts, ads, entre outros, com o objetivo de melhorar a percepção da qualidade do
produto/serviço.
Para entender melhor o problema do usuário e atuar em cima das causas prioritárias,
seria importante criar interface e ciclos de feedback entre a equipe de retenção e atendimento,
definindo uma frequência de reuniões para debater as lições aprendidas.
Além disso, no desenvolvimento do estudo de caso, foi possível levantar algumas
hipóteses e pontos de melhoria em relação a operacionalização do modelo, tratado no
subcapítulo 4.5, deste trabalho. Finlay (2017) reforça que para implementar um modelo de
machine learning, a cultura da empresa deve estar adaptada, caso contrário, pode haver
resistência à mudança.
Ao longo das entrevistas, foi notado que existe um desalinhamento de expectativas
quanto ao processo entre o time de Data Science e a área Comercial, mesmo se tratando do
churn um indicador de negócio relevante e um dos principais OKRs da empresa. Apesar de ser
uma empresa de tecnologia, há a hipótese de que o fato de a área Comercial não ser uma área
com o perfil técnico pode ter criado uma barreira na aceitação do modelo, visto que este não é
interpretável facilmente. Uma alternativa seria fazer uso de outra técnica de machine learning,
como por exemplo, árvore de decisão ou florestas aleatórias, pois apesar desses modelos não
apresentarem uma assertividade tão alta, com eles é possível identificar a causalidade entra a
classe e os atributos, dando oportunidade de diminuir o churn no início do processo e não apenas
no final.
Por se tratar de uma empresa de grande porte, áreas distintas não possuem tanta interface
em atividades de rotina. Por esse motivo, é importante que durante a implementação do modelo
se pense também em como realizar a gestão da mudança. Segundo Kotter e Schlesinger (2018),
para que a uma gestão da mudança ocorra de maneira branda, é necessário seguir passos como:
75
alinhamento da liderança e stakeholders, envolvimento dos agentes do processo nas tomadas
de decisão, garantir uma comunicação clara entre as áreas do projeto e realizar treinamentos
com as equipes.
6.3 Identificação de fraudes no chat
Este estudo de caso, como citado nas limitações, será mais aprofundado devido ao
acesso de dados facilitado pela área responsável pelo modelo de machine learning estudado.
Os dados expostos foram manipulados por motivos de confidencialidade da informação.
6.3.1 Contexto
Como ferramenta para as negociações C2C, a MarketplaceCo conta com um chat nos
anúncios publicados. Para que a plataforma contenha apenas negociações seguras, a equipe de
Trust&Safety atua na moderação de comportamentos ofensores no chat. Estes comportamentos
podem ser classificados como Spam, Desrespeito, Assédio ou Fraude e são identificados por
meio de denúncias de usuários ou por detecção proativa por meio dos dados de eventos de uso.
As mensagens de Assédio e Fraude são as de maior risco ao usuário e ao negócio e, com isso,
são prioridade para a área no médio prazo.
As denúncias de fraude representavam cerca de 70% do total, impactando milhares de
usuários, e houve um crescimento de denúncias efetivas de fraude de 39% do terceiro trimestre
de 2019 para o quarto – e esses números continuavam a crescer. Com isso, a redução de fraude
no chat foi priorizada durante o primeiro semestre de 2020. Devido à natureza textual dos dados
no chat, o melhor caminho seria um modelo de machine learning para a detecção automática
das mensagens com conteúdo fraudulento.
6.3.1 Construção do modelo
Primeiramente, realizou-se uma análise dos recursos necessários para a realização do
projeto de construção do modelo e do tempo estimado necessário para as etapas. Como a equipe
já continha um cientista de dados, foi decidido que a construção do modelo seria realizada
internamente. Porém, para o desenvolvimento da infraestrutura técnica deste projeto e de outros
da área, seria necessária a contratação de programadores. Assim, durante o primeiro trimestre
de 2020, houve a ambientação dos novos integrantes e o desenvolvimento das primeiras duas
etapas do processo de construção do modelo: a Definição do problema de negócio e a Análise
exploratória.
76
A Definição do problema de negócio pode ser dividida em duas partes: 1) a estruturação
do objetivo e 2) o entendimento do holístico do problema.
A primeira etapa foi simples e alinhada com todos os stakeholders, com o objetivo de
reduzir o impacto da fraude aos usuários, sendo especificamente definido como: a detecção do
golpe de Falso Pagamento antes que a denúncia aconteça, levando a uma redução de 20% do
número de denúncias efetivas até o final de junho. O golpe do “Falso Pagamento” era o
majoritário no chat, representando 85% das denúncias efetivas de fraude. Nele, o fraudador,
geralmente com o perfil de comprador (sem histórico de anúncios publicados), envia mensagens
em anúncios de objetos de fácil envio e valor aquisitivo considerável – celulares, videogames
e relógios, por exemplo – solicitando realizar o pagamento por sites externos.
No entanto, ainda havia algumas análises mapeadas para o entendimento holístico do
problema. As análises compreendiam o entendimento do antigo modelo de machine learning
denominado Chat Sense – o porquê o antigo modelo não evitava as denúncias e quais lições
poderiam ser aprendidas para o desenvolvimento do novo – além da descoberta do real impacto
aos usuários da plataforma (não apenas àqueles que denunciavam). Então, foram iniciadas
análises para responder a essas perguntas.
Para o primeiro tópico de questões sobre o modelo Chat Sense, iniciou-se o
entendimento do seu contexto de uso. O Chat Sense foi construído em janeiro de 2019 com o
objetivo de detectar a fraude na primeira denúncia (reduzindo as secundárias, terciárias, etc)
através de uma fila de denúncias de alta probabilidade de fraude para tratativa por revisores da
equipe operacional.
Na época, o número de denúncias era três vezes menor que atualmente (junho de 2020)
e o tempo entre a chegada da denúncia e sua resolução era de um dia, em média. O Chat Sense
foi implementado em fevereiro de 2019 com atualização de hora em hora, e alterado em março
para atualizar de 15 em 15 minutos. Com a operação semiautomática – fila de denúncias de
probabilidade de fraude acima de 0.95 – o modelo conseguiu reduzir o volume de denúncias
em 60% março versus fevereiro e aumentou a efetividade das denúncias tratadas de 10% para
70%. A Figura 31 ilustra os resultados obtidos.
77
Figura 31: Resultados do antigo modelo Chat Sense da área de Trust&Safety
Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.
No entanto, esses resultados não se mantiveram constantes. De acordo com o Raio X da
Fraude da Konduto (2020), houve um aumento de 14% na taxa de tentativas de fraude no
comércio eletrônico brasileiro entre 2018 e 2019, e para a MarketplaceCo, a fraude no chat se
intensificou ainda mais a partir de outubro.
Logo, em outubro foi implementada uma regra para moderação automática utilizando
os thresholds do Chat Sense acima 0.95 atrelado a um parâmetro cadastral. O volume de
denúncias de fraude estabilizou, mas não reduziu. Para entender o motivo, foi realizada uma
análise simulando a operação do modelo detectando contas de fraude com threshold acima de
0.95 em diferentes deltas de tempo entre a data da última mensagem (aproximação da data da
atribuição do score) e a data das denúncias, como ilustrado na Figura 32.
Figura 32: Simulação de prevenção de denúncias efetivas de fraude pelo modelo Chat Sense, média semanal
Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.
78
Pelo gráfico acima, é perceptível que se o modelo realmente atuasse a cada 15 minutos,
deveria acontecer uma redução de 18% das denúncias efetivas – e ainda teria um potencial de
45% de redução caso atuasse em tempo real (segundos). Então, surgiu o questionamento: por
que essa redução não aconteceu na realidade? Ao analisar o tempo de processamento do
modelo, é descortinado que, ao iniciar a atualização, ele demora quase meia hora para processar.
O gargalo do processamento é a etapa de “Busca de dados a serem analisados”, conforme Figura
33.
Figura 33: Tempo de processamento do modelo Chat Sense, em minutos
Fonte: Elaboração própria (2020). Dados retirados do sistema Airflow da MarketplaceCo.
O cientista de dados que construiu o modelo Chat Sense relatou que este foi
desenvolvido analisando todo o histórico de conversas do usuário, com a base de todos os
usuários que enviaram alguma mensagem naquele período de 15 minutos. Logo, por não ter
nenhum filtro nos dados a serem analisados, o volume de conversas a serem processadas em
cada atualização é da casa de dezenas de milhares, e a infraestrutura anterior não conseguia
processar o modelo em tempo menor.
Como seria necessário alterar a infraestrutura, e com isso analisar em detalhe o
funcionamento do Chat Sense, foi decidido como melhor opção a construção de um novo
modelo internamente: o Fraud Detector.
79
Sobre o segundo tópico de entendimento do problema, o impacto real aos usuários, ficou
evidenciado que um fraudador impacta, em média, dez usuários. Então, ao reduzir 20% das
denúncias efetivas de fraude – detectando a fraude na primeira conversa – reduziria também
15% dos usuários impactados.
Com a definição do problema finalizada, foi realizada a etapa de Análise Exploratória.
Nesta etapa foi definido que a base utilizada consistiria apenas de dados denúncias efetivas
tratadas por humanos, pois são os dados que contém a classificação do tipo de golpe (Falso
Pagamento) e reduziria o viés de regras automáticas legadas. Essa base atualiza diariamente e,
devido à alteração do comportamento na plataforma causada pelo COVID-19, seriam extraídos
dados pré quarentena e durante.
Com o problema bem definido e bases analisadas, iniciou-se de fato a construção do
modelo. Por ser um projeto grande e com impacto em diferentes áreas da empresa, realizaram
a estimativa do tempo necessário às próximas etapas para a realização dos devidos alinhamentos
entre a equipe e outras áreas. Para isso, foi construído pela equipe um roadmap do projeto –
ferramenta comumente utilizada na construção de produtos digitais, similar a um gráfico de
Gantt. Um roadmap de produto é um recurso visual que mapeia a evolução do produto ao longo
do tempo. É uma ferramenta útil para guiar os desenvolvedores do projeto às tarefas planejadas
e para alinhar as expectativas com stakeholders do produto, garantindo que todos estejam na
mesma página. O roadmap planejado para construção do modelo Fraud Detector está ilustrado
na Figura 34 e apresenta uma estimativa de implementação na primeira semana de junho.
Figura 34: Roadmap planejado para a construção do Fraud Detector
Fonte: Elaboração própria (2020)
80
Para a construção da amostra de desenvolvimento e demais etapas, o software utilizado
foi o Python. Foi definido entre o cientista de dados e a equipe de projeto que a primeira versão
do modelo utilizaria apenas o texto das conversas, pois para outros tipos parâmetros seriam
necessários diferentes métodos de machine learning. Foram utilizadas todas as conversas que
foram denunciadas e validadas pelos revisores de moderação (denúncias efetivas) nas semanas
completas de 30/03/2020, 27/01/2020 e 06/04/2020. Estas conversas foram divididas em três
datasets, um para treino e teste, e outros dois para validação: treino e teste durante a quarentena
(30/03/2020), validação antes da quarentena (27/01/2020) e validação uma semana depois do
dataset treinado (06/04/2020).
Como aprendizado do Chat Sense, foram realizadas análises para redução do volume de
dados a serem processados. Verificaram que 87% dos fraudadores foram denunciados em até
12x minutos após a abertura do chat, como mostra a Figura 35.
Figura 35: Denúncias de fraude semanal vs. tempo entre a mensagem e a denúncia
Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.
Com isso, definiram que os datasets utilizados para treino e validação deveriam ser
constituídos de mensagens enviadas em até 1h em cada chat. Além disso, fizeram uma segunda
análise para definir o número mínimo de caracteres enviados pelo comprador em um chat para
que uma fraude fosse denunciada, com o objetivo de executar o modelo em produção para
inícios de conversas como “Oi, tudo bem?”, “Ainda está disponível?”, “Tenho interesse!”, etc.
81
Ao analisar a quantidade de caracteres nos conjuntos notaram que 75% das conversas idôneas
tem até 12 caracteres (Figura 36), enquanto nas fraudulentas apenas 13% (Figura 37).
Figura 36: Distribuição do tamanho das conversas idôneas
Fonte: Documentação interna do projeto (2020, p. 3)
Figura 37: Distribuição do tamanho das conversas de fraude
Fonte: Documentação interna do projeto (2020, p. 3)
82
Assim, foi definido que o modelo só seria executado a partir de 12 caracteres de
conversa. Além disso, decidiram reunir em cada conversa somente as mensagens do usuário
que é comprador, para que não houvesse viés da resposta do vendedor.
No pré-processamento de dados, como ponto de partida, realizaram a normalização de
acentos, remoção de caracteres especiais, remoção de números e normalização para letras
minúsculas. Após a preparação dos dados, o próximo passo foi a transformação do texto em
números binários através da vetorização das palavras – transformação do texto em matrizes
significativas de números.
O método utilizado para a vetorização e seleção de atributos foi o Term Frequency-
Inverse Document Frequency (TF-IDF), pois associa cada palavra em um texto a um número
que representa a relevância de cada palavra nesse texto. O método foi iterado entre as
configurações unigrama (palavra a palavra), bigrama (conjuntos de duas palavras) ou trigrama
(conjuntos de três palavras). Em seguida, utilizaram três formas de validação da qualidade do
método: 1) clusterização, 2) visualização por Principal Component Analysis (PCA) e 3) teste
de hipóteses por algoritmo.
No primeiro, a hipótese a ser testada era: caso conseguissem agrupar com poucos
clusters significa que o conjunto de dados estava bem definido pelo método TF-IDF, caso
contrário, precisariam alterar as configurações. Com a clusterização utilizada, o resultado foi
considerado ruim, pois o número de clusters indicado era superior a 500. O método para
avaliação dos agrupamentos era custoso, visto que era preciso executar a clusterização para
diversos números de clusters até encontrar um número ideal, de acordo com cada configuração
de TF-IDF que gostariam de testar.
Optaram, então, por utilizar a técnica de PCA para visualização dos grupos formados
para cada nova configuração de TF-IDF que testaram. Neste contexto, conseguiram mais
rapidamente ver a organização dos clusters de acordo com as diferentes configurações de TF-
IDF testadas. Ao analisar o PCA para algumas configurações, a que, visualmente, melhor
separou as classes foi Trigrama com 5000 features (combinações de três palavras), conforme a
Figura 38, em que o rótulo 0 significa idôneo e 1 significa fraude:
83
Figura 38: Análise visual do agrupamento de palavras por PCA
Fonte: Documentação interna do projeto (2020, p. 6)
Para validar a hipótese de que foi encontrada uma boa configuração de TF-IDF de uma
forma automatizada, selecionaram dois algoritmos – Logistic Regression e Multinomial Naive
Bayes– para testar os modelos para cada combinação de parâmetros do TF-IDF. Os parâmetros
a serem selecionados eram o tipo de configuração (unigrama, bigrama ou trigrama) e o número
de features (500, 1000, 2000, 3000, 4000 ou 5000). A métrica de decisão foi a F1-score, e as
combinações que apresentaram maior F1-score foram:
I. Unigrama-bigrama com 5000 features (Logistic Regression): F1-score 0.9633
II. Trigrama com 5000 features (Multinomial Naive Bayes): F1-score = 0.9514
Com isso, essas configurações de dados foram selecionadas para utilização nas etapas
de Treinamento, Validação e Teste do modelo. Após a seleção, além de randomizar a base, é
necessário balancear as classes visto que o universo de fraude é proporcionalmente irrelevante
ao não-fraude. Para isso, utilizaram a função RandomUnderSampler.
Assim como na validação do TF-IDF, foram utilizados dois tipos de algoritmos
correspondentes para o treino e validação do modelo – a ser escolhido o que obtiver melhores
resultados. O algoritmo Naive Bayes realiza classificações baseadas na probabilidade de cada
evento ocorrer, tendo como premissa a independência entre as variáveis. Funciona em
aprendizado supervisionado e é adequado para conjuntos de dados extremamente grandes, nos
84
quais métodos complexos são intratáveis. Enquanto isso, a Regressão Logística é também um
algoritmo usado para os problemas de classificação, mas seu algoritmo de análise preditiva e
baseado no conceito de probabilidade admite variáveis dependentes.
Através deste algoritmo, foi treinado um modelo para cada configuração TF-IDF. Tendo
em vista a classificação do conjunto idôneo como 0 e conjunto fraude como 1, o F1-score foi 7
pontos percentuais maior para as duas classes no Unigrama-bigrama, enquanto no Trigrama a
precisão da classe fraude foi maior (100%). Os melhores modelos gerados para cada
configuração obtiveram os resultados apresentados nas Figuras 39 e 40.
Figura 39: Validação da configuração Unigrama-bigrama pelo algoritmo Logistic Regression
Fonte: Documentação interna do projeto (2020, p. 8)
Figura 40: Validação da configuração Trigrama pelo algoritmo Naive Bayes
Fonte: Documentação interna do projeto (2020, p. 8)
Partindo para o teste dos modelos, o primeiro foi realizado com o conjunto de dados da
semana seguinte à semana usada para treino. Os resultados (pre=precisão, rec=recall,
spe=especificidade, F1-score) apresentaram pequeno desvio em relação ao treino, como pode
ser observado nas Figuras 41 e 42.
85
Figura 41: 1º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression
Fonte: Documentação interna do projeto (2020, p. 9)
Figura 42: 1º Teste da configuração Trigrama pelo algoritmo Naive Bayes
Fonte: Documentação interna do projeto (2020, p. 11)
O segundo teste, realizado com o dataset de antes da quarentena (27/01/2020), obteve
resultados também semelhantes, detalhados na Figura 43 e 44.
Figura 43: 2º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression
Fonte: Documentação interna do projeto (2020, p. 12)
Figura 44: 2º Teste da configuração Trigrama pelo algoritmo Naive Bayes
Fonte: Documentação interna do projeto (2020, p. 14)
86
A configuração Unigrama-bigrama pelo algoritmo Logistic Regression, foi então
validada tendo o maior F1-score nas duas classes, já na configuração Trigrama o algoritmo
Naive Bayes obteve uma precisão maior, de 98%, para a classe 1 (fraude). Como era sabido que
a tratativa para uma classificação de fraude seria o banimento do usuário na plataforma, a
métrica de precisão teve o maior peso de decisão na escolha do algoritmo/configuração. Assim,
a equipe decidiu implementar o modelo com a configuração Trigrama pelo algoritmo Naive
Bayes.
Pelos quadros das duas validações, é perceptível que o modelo escolhido tem uma
precisão esperada de 98%-99% com uma abrangência de detecção de conversas de fraude, do
universo de treino (conversas dentro de uma hora de histórico e texto acima de 12 caracteres),
de 63%-70% do total. Além disso, uma forma de se analisar esses dados, com maior clareza, é
pelo o gráfico de ROC da Figura 45.
Figura 45: Gráfico de ROC da 1ª versão do Fraud detector
Fonte: Documentação interna do projeto (2020, p. 14)
Entretanto, para definir a regra de negócio que baniria o usuário por fraude, era também
necessário identificar a partir de qual threshold de probabilidade de fraude manteria a precisão
de 99%. Esta informação foi obtida através da Figura 46.
87
Figura 46: Gráfico precisão vs. Threshold
Fonte: Documentação interna do projeto (2020, p.15)
Pelo gráfico, é possível identificar que para thresholds acima de 0,5 era possível manter
a precisão e abrangência máximos obtidos. Então, a regra de decisão inicial escolhida foi:
banimento do usuário por fraude para thresholds >= 0,5. Além da regra de decisão para fraude,
a equipe entendia que o modelo também tinha o potencial de automatizar a tratativa de
denúncias infundadas (denúncias de conversas idôneas) utilizando os thresholds mais baixos,
mas não era a prioridade no momento.
Com a etapa de construção da primeira versão do modelo finalizada, este foi
implementado na infraestrutura da plataforma e durante uma semana ficou armazenando os
dados sem tomar a decisão para que fosse realizado um terceiro teste, agora para o modelo
online conectado à plataforma, através do Fluxo de Monitoria.
Nesta etapa, o cientista de dados extraiu uma amostra estatisticamente representativa
das simulações de decisão do modelo e enviou para avaliação pela equipe de Monitoria – área
destinada à avaliação das decisões de banimento automáticas e manuais da MarketplaceCo. Na
avaliação da Monitoria, um operador analisou as conversas dos usuários presentes na amostra
e classificou-os como “Fraude”, “Sem suspeita” ou “Suspeita, mas sem dados” e o resultado
obtido foi: 75% Fraude (precisão), 23% Sem suspeita e 2% Suspeita, mas sem dados. Como
houve a divergência de precisão entre o teste offline e o teste online, o cientista de dados
analisou a situação como um overfitting (como visto no Tópico 4.4.7, o modelo se ajustou tanto
aos dados de treino que não conseguiu predizer por novos dados).
Assim, realizou um novo treino com quatro meses de dados (vs. uma semana da primeira
versão) e mesma configuração e algoritmo. O teste offline foi realizado na amostra enviada
88
anteriormente para a Monitoria com as classificações do operador, e a precisão foi para 97% e
abrangência de 87% na amostra. O modelo foi implementado online, uma nova amostra foi
enviada para avaliação da Monitoria e o resultado obtido foi de 88% de precisão. No entanto,
ao filtrar os usuários que tiveram anúncios publicados, a precisão aumentou para 98% sem
redução na abrangência.
Enfim, o modelo foi habilitado para tomada de decisão no dia 27/05/2020. Em um
primeiro momento, para acompanhamento de possíveis falsos positivos, a regra de decisão foi
de threshold > 0,99 e usuário sem anúncios publicados. A regra final foi implementada no dia
03/06/2020 com a regra de banimento: threshold >= 0,5 e usuário sem anúncios publicados.
89
6.3.2 Análise crítica
Em uma análise dos resultados, identifica-se que, mesmo com a habilitação de decisões
no meio da semana, houve um aumento de contas detectadas em tempo real de 9 vezes da
semana do dia 17/05 para a semana 24/05. O aumento do threshold levou a um crescimento
sucessivo de 40% – último resultado até a escrita deste estudo. Quanto à principal métrica de
negócio utilizada, esse aumento na detecção levou a uma redução de 50% nas denúncias efetivas
de fraude da semana do dia 08/06 em relação à média das últimas 4 semanas antes da
implementação do modelo. Este foi um resultado nunca obtido, desde setembro de 2019, como
pode ser observado na Figura 47.
Figura 47: Série temporal semanal do volume de denúncias efetivas de fraude
Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.
Além de o objetivo de negócio atingido, o modelo também apresenta baixo custo
operacional, com um tempo de processamento atual da escala de milissegundos, conforme
Figura 48.
Figura 48: Tempo de processamento do modelo Fraud Detector em milissegundos
Fonte: Elaboração própria (2020). Dados retirados pela plataforma Grafana da MarketplaceCo.
90
Tais resultados do modelo impactam os usuários da MarkeplaceCo de forma a reduzir
experiências nocivas e gerar mais confiança para suas negociações.
Além dos usuários externos, o Fraud Detector também impacta os usuários internos da
área de Trust&Safety, a área de Operações. Com o aumento da detecção automática em tempo
real, a chegada de denúncias para tratativa manual obteve redução de aproximadamente 15%,
e a equipe tem como próximos passos a automatização da tratativa de mais denúncias,
especificamente estimadas em 45% do total atual, utilizando os scores abaixo de 0,5. E este é
um impacto positivo da automatização, pois gera uma tratativa manual ainda mais rápida e
possibilita a liberação de mão de obra , que passa a estar disponível, na tratativa de fraude, para
outras funções na empresa, como a tratativa de outras razões de denúncias (assédio, desrespeito
e spam) ou, a depender da demanda, para a testagem de qualidade de amostras de decisores
automáticos na área de Monitoria. Esta mudança ainda não foi realizada, mas já é uma
possibilidade que está sendo estudada pela área.
Analisando agora o processo de construção do modelo, outra mudança organizacional
– que nesse caso já aconteceu – foi a realização da programação em par. A programação em par
é oriunda da metodologia Ágil e funciona através da construção do código por dois papéis: um
de condutor: quem realiza a programação de fato – e outro de navegador: que realiza um tipo
de mentoria, dando sugestões e avisa sobre erros. O cientista de dados do projeto tinha
conhecimento teórico de machine learning pelo seu mestrado, mas ainda não tinha o
conhecimento prático de um modelo construído para a empresa, então o desenvolvedor sênior
foi seu navegador durante o projeto.
Quanto à análise crítica técnica, foi notado que o cientista de dados responsável pela
construção do modelo só se reuniu com o responsável pelo antigo Chat Sense após algumas
iterações do modelo. O benchmarking é uma forma de acelerar o conhecimento sobre um
determinado assunto, então caso tivessem se reunido antes, poderiam ter economizado tempo e
esforço no desenvolvimento do modelo.
Pelos dados atuais de denúncias, é possível observar que ainda há um volume
considerável de Falso Pagamento, golpe para qual o modelo foi treinado, apesar da extrema
redução e atingimento da meta. Através da análise dos scores atribuídos às contas denunciadas,
pode ser observado que 90% foi registrado pelo modelo, mas teve score menor que 0.5
(aproximadamente 70% com score 0). Assim, recomenda – se a realização de testes no modelo
offline com exemplos de conversas com score 0 para a verificação da vetorização das palavras
91
e significância atribuída. Com isso, será necessária a adição das palavras (e combinações delas)
vistas como baixa significância pelo modelo ao dicionário.
Há de se destacar que na vetorização das palavras, na etapa de pré-processamento, que
apesar das diversas formas de validação do método de vetorização TF-IDF, não foi testado
nenhum outro método para comparação de qualidade. O TF-IDF é um método de cálculo
simples, e com isso tem alta capacidade de interpretação e baixo custo computacional. No
entanto, não captura a posição no texto, semântica ou ocorrência simultâneas em diferentes
documentos. Enquanto isso, há métodos que capturam como o Word2Vec que utiliza rede neural
para calcular a vetorização de palavras ou até mesmo o Skip-Thought Vectors que usa rede
neural para prever as sentenças circundantes de uma frase com a vetorização de sentenças.
Assim, o ideal seria a realização de testes de performance comparativos com estes métodos, por
exemplo.
Além disso, o desempenho do modelo pode ser reduzido com a adaptação dos
fraudadores caso, por exemplo, comecem a enviar mensagens com conteúdo fraudulento após
uma hora de chat iniciado ou enviar mensagens com menor número de caracteres (como já
percebido nos demais 10% não detectados pelo modelo). Tais sugestões de acompanhamento
foram alinhadas com a equipe e construíram dashboards para que ficassem claras as mudanças
de comportamento dos fraudadores. Assim, caso tais adaptações aconteçam, foi verificado com
a equipe que há facilidade alterar a infraestrutura para analisar outras faixas de tempo – como
por exemplo a última hora de conversa (não mais com ponto inicial fixo) – e o gatilho de número
de caracteres para valores menores.
Para o caso de alteração do padrão textual, um meio de mitigação recomendado é a
criação de um processo de retreino automático – um feedback de retorno ao processo
operacional ao modelo. Nesse processo, as conversas de usuários tratados por denúncia pela
operação seriam encaminhadas automaticamente para o modelo que será substituído por novas
versões caso haja alterações em relação ao baseline de treino. Para isso, seria necessário um
processo de ETL para extração, transformação e carregamento (ou loading em inglês) com
integração ao data lake da MarketplaceCo para armazenamento dos dados que serão usados
para o treino de um modelo cópia do Fraud Detector que periodicamente seria acionado para
treino automático. Os resultados do modelo cópia seriam comparados com o original e, caso
sejam melhores, um aviso seria enviado ao time por Slack ou e-mail para que decidam sobre a
substituição, por exemplo. Com o amadurecimento do processo, a decisão poderia se tornar
também automática.
92
Um dos pontos positivos do projeto foi o atingimento antecipado da meta. Pode-se
analisar este ponto como consequência, além da qualificação dos desenvolvedores, de um
gerenciamento transparente entre a equipe e seus stakeholders, possibilitado pela ferramenta de
roadmap do projeto. Anteriormente, foi apresentado o roadmap de planejamento com uma
estimativa de finalização para a primeira semana de junho e na Figura 49 está o roadmap
realizado, até então (junho/2020).
Figura 49: Roadmap realizado de construção do modelo Fraud Detector
Fonte: Elaboração própria (2020)
Como pode ser observado, o modelo foi implementado duas semanas antes do previsto.
Esta é uma consequência da utilização da metodologia ágil Scrum2, citada anteriormente, que
promove processos mais iterativos com a utilização de artefatos como:
• Planejamento de entregas com prazos mais curtos adequando-se às mudanças de
requisitos no desenvolvimento de software (semanal), que gera a frequente
priorização de features;
• Reuniões diárias rápidas (15 minutos) de alinhamento sobre status das entregas para
transparência entre a equipe;
• Testes constantes das funcionalidades para correções ao longo do processo de
desenvolvimento;
• Equipes multidisciplinares participam de todas as cerimônias contanto com
engenheiros de software, gerentes de produto, designers e analistas de dados.
2 Scrum: É uma estrutura de processo usada para gerenciar o trabalho em produtos complexos desde o início dos
anos 90. Scrum não é um processo, técnica ou método definitivo. Pelo contrário, é uma estrutura na qual você pode
empregar vários processos e técnicas. O Scrum deixa clara a relativa eficácia do gerenciamento de produtos e das
técnicas de trabalho para que você possa melhorar continuamente o produto, a equipe e o ambiente de trabalho.
(SCHWABER e SUTHERLAND, 2017)
93
Os artefatos e processos citados geram vantagens na entrega contínua de valor, tendo
em vista que processos ágeis promovem um ambiente sustentável, com stakeholders,
desenvolvedores e usuários sendo capazes de manter passos constantes. Além disso, mudanças
de requisitos são bem-vindas, mesmo em fases tardias do desenvolvimento, uma vez que os
processos ágeis utilizam a mudança em favor da vantagem competitiva para o cliente. Outra
característica percebida no estudo de caso é a reunião semanal gerencial que permite um
alinhamento rápido e acompanhamento da performance do projeto.
94
7. CONSIDERAÇÕES FINAIS
Este capítulo faz uma síntese dos resultados alcançados com relação aos objetivos do
trabalho e potenciais contribuições, além de revisitar as limitações que do estudo e recomendar
pesquisas futuras.
O objetivo geral do trabalho era estudar o potencial de agregação de valor do machine
learning, como ferramenta da indústria 4.0, nos processos da indústria do varejo no ramo do
varejo. Este foi dividido em objetivos específicos que foram atingidos ao decorrer do da
realização do trabalho.
No contexto trazido no capítulo 3, foi atingido o primeiro objetivo específico –
contextualizar brevemente a transformação digital e as categorias de tecnologias cognitivas
existentes. Através deste capítulo, foi possível identificar as categorias de tecnologias na
indústria 4.0 e, em específico, a relação do machine learning nos processos internos para o
atingimento global de objetivos a partir de seus resultados históricos e tendências de uso.
No capítulo 4, foi realizado o detalhamento do estudo do machine learning, estabelecido
como segundo objetivo específico, ou seja, aprofundar no estudo do machine learning, o
conceito, as técnicas, os passos para a construção de um modelo e a operacionalização nas
organizações. Nele, foram apresentados o conceito, as técnicas, os algoritmos e o processo
generalista de operacionalização de um modelo nas organizações. Em relação às técnicas, a
maior diferença entre o aprendizado de máquina supervisionado e não supervisionado é o fato
de os algoritmos supervisionados serem treinados em conjuntos de dados já classificados para
o problema em questão. Quanto aos algoritmos, foram identificados alguns tópicos que
orientam na escolha do melhor algoritmo para o modelo, como o tamanho, natureza dos dados,
precisão necessária, tempo disponível para treino e quão interpretável o modelo precisa ser.
Quanto ao processo de construção, descobriu-se a importância de etapas prévias à construção
de fato do modelo: a definição clara do problema de negócio, a verificação da qualidade das
bases de dados e realização do pré-processamento da amostra. Além disso, foram constatados
requisitos necessários após a construção do modelo para a sua operacionalização como,
principalmente, a cultura organizacional flexível às mudanças, a infraestrutura (sistemas e
processos de tecnologia da informação), e o monitoramento que é essencial devido às possíveis
mudanças que podem ocorrer na relação entre os dados usados para construção e treinamento
do modelo e os dados pós-implantação.
Em seguida, o terceiro objetivo específico – compreender o cenário do segmento de
marketplace, como um recorte da indústria de varejo, além das principais aplicações de machine
95
learning neste setor – foi alcançado através do capítulo 5. O marketplace foi apresentado como
segmento do e-commerce, que tem por objetivo juntar os interesses de compradores e
vendedores, facilitando o processo de compra e venda através de um canal único e confiável.
Foi analisado neste tópico que o mercado de e-commerce brasileiro em abril de 2020 faturou
R$ 9,4 bilhões, apresentando um aumento de 81% em relação ao mesmo período do ano anterior
– sendo considerado em curva de crescimento acelerado. Ao identificar as aplicações do
machine learning neste segmento, percebeu-se que as organizações estão em busca de utilizar
modelos de aprendizagem de máquina para melhorar seus processos internos e alcançar
vantagem competitiva. Com isso, o machine learning vem se tornando um pilar estratégico para
as empresas.
O quarto objetivo específico – realização de estudos de caso para tangibilizar aplicações
do machine learning para melhoria de processos – e o quinto – proposição de análises críticas
aos modelos estudados – foram alcançados no capítulo 6, através da análise do modelo de
cancelamento de planos e do modelo de detecção de fraude no chat. Ademais, para os dois
casos, foram identificados o valor agregado na otimização dos processos que os utilizam,
resumidos em:
I. Para o modelo de previsão de cancelamentos, foi observado que o delta de churn
entre o grupo que obteve tratamento com ligação e o grupo controle chega a 27
pontos percentuais, o que é considerável para um modelo em produção. Além
disso, o custo da área comercial em fazer o tratamento de falar com os usuários
é muito menor do que a receita que seria perdida com a quantidade de
cancelamentos multiplicada pelo ticket médio.
II. Para o modelo de detecção de fraude, foi identificado que o tempo de
processamento do novo modelo opera em uma escala de milissegundos,
enquanto o antigo levava cerca de 30 minutos. Com isso, a detecção em tempo
real obteve um aumento de 9,8 vezes (média das duas semanas operando em
relação à média semanal do mês anterior), com uma precisão de 99%.
Com relação às premissas levantadas no início deste trabalho, o estudo de mercado da
indústria de varejo mostrou que existe de fato um aumento da demanda por aplicações de
Inteligência Artificial e que a indústria de varejo busca fazer uso de inovações para ganhar
vantagem competitiva, reforçando o crescimento do setor ao longo das últimas décadas. Além
disso, com o aprofundamento dos estudos de caso foi possível verificar como modelos de
96
machine learning podem trazer ganhos significativos em termos financeiros e operacionais,
assim como proporciona melhorias qualitativas nos processos internos da organização.
Como contribuições da pesquisa, pode-se recortar naquelas obtidas para a empresa
estudada e aquelas para a academia. A empresa poderá utilizar as análises nos processos
estudados e do referencial teórico para se adequar às demais tecnologias e tendências presentes
no mercado. Para a academia, a pesquisa espera ter contribuído com o conhecimento abordado
sobre técnicas de Inteligência Artificial/ Machine learning e de análises da utilização destas na
busca de melhorias de processos. Também se estima que as pesquisas sobre Indústria 4.0 e, em
particular, sobre as tendências na indústria do varejo, possam contribuir, subsidiar o
desenvolvimento de trabalhos futuros.
Há de se ressalvar que as limitações citadas no início deste trabalho – tempo, falta de
dados fornecidos pela empresa estudada e, principalmente, escopo – não permitiram abordar
todas as complexidades envolvidas no processo de operacionalização do modelo, apesar de não
inviabilizarem a realização do trabalho.
Como desdobramento futuro deste projeto, sugere-se a aplicação prática do processo
técnico de construção do modelo desenvolvido, de forma a possibilitar a obtenção de um
complemento ao conhecimento teórico trabalhado e a identificação dos principais gargalos para
a implementação.
Ademais, o trabalho abre espaço para pesquisas no ramo de operacionalização tanto
para o lado tecnológico – como diferentes tipos de armazenamento/processamento de dados
para diferentes casos de uso de inteligência artificial (uso de streaming de dados ou data lake,
por exemplo) – quanto para o lado de gestão – como a importância da cultura organizacional
na implementação da transformação digital na prática. Além disso, também há a possibilidade
de replicar o estudo em outras indústrias e realizar a comparação e análise dos resultados
encontrados.
Por fim, os conhecimentos da Inteligência Artificial estão cada vez mais presentes no
cenário operacional das organizações. Para alavancar a geração de valor, o incentivo ao seu
estudo será essencial para uma melhor capacitação e formação dos futuros profissionais da era
da transformação digital.
97
8. REFERÊNCIAS BIBLIOGRÁFICAS
ALPAYDIN, E. Introduction to Machine Learning. 3. ed. Massachusetts, MIT Press: [s.n.],
2014.
AMARAL, T. Entenda o que é e como aplicar a Transformação Digital. AAA Inovação, 2019.
Disponivel em: <https://blog.aaainovacao.com.br/entenda-o-que-e-e-como-aplicar-a-
transformacao-digital/>. Acesso em: 16 Dez 2019.
APIUM. Artificial Intelligente in E-commerce: Benefits, Statistics, Facts, Use cases & Case
Studies. Apium hub, 2018. Disponivel em: <https://apiumhub.com/tech-blog-
barcelona/artificial-intelligence-ecommerce/>. Acesso em: 20 Mai 2020.
BARROS, M. Como seremos impactados? Indústria 4.0. Alcer Consultoria, 2018. Disponivel
em: <https://alcerconsultoria.com.br/sem-categoria/industria-4-0-como-o-brasil-reagira/>.
Acesso em: 10 Dez 2019.
BOUEÉ, C.; SCHAIBLE, S. Die Digitale Transformation der Industrie. Roland Berger.
[S.l.]. 2015.
BOURGOIS, X. et al. Delloite Insights. The fourth industrial revolution is here - are you
ready?, 2018. Disponivel em:
<https://www2.deloitte.com/content/dam/insights/us/articles/4364_Industry4-0_Are-you-
ready/4364_Industry4-0_Are-you-ready_Report.pdf>. Acesso em: 22 Dez 2019.
BROWNLEE, J. Roc Curves and Precision Recall Curves for imbalanced Classification.
Machine Learning Mastery, 2020. Disponivel em: <https://machinelearningmastery.com/roc-
curves-and-precision-recall-curves-for-imbalanced-classification/>. Acesso em: 09 Mai 2020.
CASTLE, N. What is Semi-Supervised Learning? Oracle, 2018. Disponivel em:
<https://blogs.oracle.com/datascience/what-is-semi-supervised-learning>. Acesso em: 02 Mai
2020.
CHINEN, R. Transformação digital nos negócios: uma abordagem visando barreiras e
aceleradores do processo. Universiade de São Paulo (USP). São Paulo. 2019.
COLLINS. Collins English Dictionary. https:
//www.collinsdictionary.com/dictionary/english/artificial-intelligence, 2018. Disponivel em:
98
<https://www.collinsdictionary.com/dictionary/english/artificial-intelligence>. Acesso em: 26
Abr 2020.
CORREIA, F. Definição de computação em nuvem segundo o NIST. Plataforma Nuvem,
2011. Disponivel em: <https://plataformanuvem.wordpress.com/2011/11/21/definicao-de-
computacao-em-nuvem-segundo-o-nist/>. Acesso em: 28 Jan 2020.
DIGITAL, M. How top companies excel with digital and analytics. [S.l.]. 2019.
E-BIT. Relatório Webshoppers 2015. E-bit, 2015. Disponivel em: <bit.com.br/webshoppers>.
Acesso em: 01 Mai 2020.
E-BIT. Relatório Webshoppers 2018. Doc Player, 2018. Disponivel em:
<https://docplayer.com.br/74733329-Webshoppers-37a-edicao.html>. Acesso em: 20 Mai
2020.
E-COMMERCE. Com pandemia, e-commerce cresce 81% em abril e fatura R$ 9,4 bilhões. E-
commerce Brasil, 2020. Disponivel em: <https://www.ecommercebrasil.com.br/noticias/e-
commerce-cresce-abril-fatura-compreconfie-coronavirus/>. Acesso em: 20 Mai 2020.
EDMEAD, M. Digital transformation: Why it's important to your Organization. The IDG
Contributor Network, 2016. Disponivel em: <http://www.cio.com/article/3063620/it-
strategy/digital-transformation-why-its-important-to-your-organization.html>. Acesso em: 26
Fev 2020.
EUGENIO, M. Tipos de Marketplace: 4 principais e suas particularidades. DLoja Virtual,
2020. Disponivel em: <https://www.dlojavirtual.com/como-vender/conheca-os-principais-
tipos-de-marketplace-e-suas-particularidades/>. Acesso em: 20 Mai 2020.
FACELI, K. et al. Inteligência artificial: uma abordagem de aprendizado de máquin. 1. ed.
Rio de Janeiro: LTC, 2011.
FINLAY, S. Artificial Intelligence and Machine Learning for Business: A No-Nonsense
Guide to Data Driven Technologies. 3. ed. [S.l.]: [s.n.], 2017.
GAMA, A. O uso de machine learning na implementação de manutenção preditiva em
usinas termelétricas. Universidade Federal do Rio de Janeiro/ Escola Politécnica. Rio de
Janeiro. 2017.
GIL, A. Como elaborar projetos de pesquisa. 3. ed. São Paulo: [s.n.], 2007.
99
GLASS, S.; HALLER, K. IBM Customer Experience Index (CEI) Study. IBM Institute for
Business Value. NY. 2017.
GROOTENDORST, M. Validating your Machine Learning Model. Towards Data Science,
2019. Disponivel em: <https://towardsdatascience.com/validating-your-machine-learning-
model-25b4c8643fb7>. Acesso em: 05 Mai 2020.
GUISSONI, L.; DE OLIVEIRA, T.; TEIXEIRA, T. Um novo momento para o ecommerce.
FGV, 2016. Disponivel em:
<http://rae.fgv.br/sites/rae.fgv.br/files/um_novo_momento_para_o_e-commerce.pdf>. Acesso
em: 20 Mai 2020.
JAVAPOINT. Subsets of AI. Javatpoint, 2019. Disponivel em:
<https://www.javatpoint.com/subsets-of-ai>. Acesso em: 26 Abr 2020.
KONDUTO. Raio-X da Fraude 2020. Konduto. [S.l.]. 2020.
KOTLER, P. O conceito de Varejo. E-conhecimento, 2012. Disponivel em: <https://e-
conhecimento.br.com/administracao/para-kotler-2012-p482-o-varejo-in-19732165>. Acesso
em: 20 Mai 2020.
KOTTER, J.; SCHLESINGER, L. Six Change Approaches. Expert Program Management,
2018. Disponivel em: <https://expertprogrammanagement.com/2018/05/six-change-
approaches/>. Acesso em: 05 Jun 2020.
LE, J. Pinterest’s Visual Lens: How computer vision explores your taste. Medium, 2018.
Disponivel em: <https://medium.com/cracking-the-data-science-interview/pinterests-visual-
lens-how-computer-vision-explores-your-taste-47d591b42d7c>. Acesso em: 20 Mai 2020.
LIMA, G. Marketplaces e estratégia de negócios: análise do panorama do mercado de comércio
eletrônico brasileiro em 2019. E-commerce Brasil, 2019. Disponivel em:
<https://www.ecommercebrasil.com.br/artigos/marketplaces-e-estrategia-de-negocios-analise-
do-panorama-do-mercado-de-comercio-eletronico-brasileiro-em-2019/>. Acesso em: 20 Mai
2020.
LLORENTE, J. A transformação digital. nº 24. ed. São Paulo: Revista Uno, 2016.
MAYKUT, P.; MOREHOUSE, R. Beginning qualitative research: A philosophic and practical
guide. The Falmer Press teachers, London, v. 6, 1994.
100
MEDIUM. 9 Applications of Machine Learning from day to day life. Medium, 2017.
Disponivel em: <https://medium.com/app-affairs/9-applications-of-machine-learning-from-
day-to-day-life-112a47a429d0>. Acesso em: 22 Mai 2020.
MENON, U. What is reinforcement learning? Quora, 2018. Disponivel em:
<https://www.quora.com/What-is-reinforcement-learning>. Acesso em: 03 Mai 2020.
MINAEE, S.; PATHAK, H.; CROOK, T. Machine Learning Powered Content Moderation: AI
and Computer Vision Applications at Expedia. Expedia Group Technology, 2019. Disponivel
em: <https://medium.com/expedia-group-tech/image-moderation-d5e228b3c2d7>. Acesso em:
11 Mai 2020.
MOHAMMED, M.; KHAN, M.; BASHIER, E. Machine Learning: Algorithms and
Applications. 1. ed. NW: Taylor & Francis Group, 2017.
MONGER, M. et al. Digital Transformation Iniciative - Maximizing Return on Digital
Investiments. Forum Economico Mundial. Geneva. 2018.
PEREIRA, R. et al. A Informação de Processos Em Instituições Públicas: O caso da
Universidade Federal de Viçosa. Revista de Gestão e Tecnologia Navus, Florianópolis, v. 6,
p. 17-29, Março 2016.
PINÇON, A. A Transformação Digital das Empresas no Brasil. MBA em Tecnologia da
Informação - Executivo, Universidade Federal do Rio de Janeiro. Rio de Janeiro. 2017.
PODIUM. Consumers get buy with a little help from their friends. Podium, 2017. Disponivel
em: <http://learn.podium.com/rs/841-BRM-380/images/2017-SOOR-Infographic.jpg>.
Acesso em: 20 Mai 2020.
PRECIFICA. Panorama dos Marketplaces no Brasil: Edição Setembro 2018. Precifica, 2018.
Disponivel em: <https://www.precifica.com.br/wp-content/uploads/2018/10/panorama-dos-
marketplaces-no-brasil-edicao-setembro-2018.pdf>. Acesso em: 20 Mai 2020.
RASHID, A. Cloud Computing Characteristics and Services: A Brief Review.
INTERNATIONAL JOURNAL OF COMPUTER SCIENCES AND ENGINEERING,
Ajmer, v. 7, n. 2, Fev 2019.
REJOINER. Amazon recommendations secret selling online. Rejoiner, 2018. Disponivel em:
<http://rejoiner.com/resources/amazon-recommendations-secret-selling-online/>. Acesso em:
20 Mai 2020.
101
RIBEIRO, L.; ROCHA, S.; BRANCO, E. Liderança e estratégias organizacionais: a
influência, o poder e os aspectos da liderança nas organizações. Caderno de Estudos Ciência
e Empresa. [S.l.]. 2012.
SBVC. Ranking SBVC: Um estudo completo do e-commerce. Sociedade Brasileira de
Varejo e Consumo. [S.l.]. 2018.
SCHALLMO, D.; WILLIAMS, C.; LUKE, B. Digital Transformation of Business Models -
Best practice, Enablers and Roadmap. International Journal of Innovation Management ,
Ulm, v. 21, p. 17, Nov 2017.
SCHÜTZE, A.; HELWIG, N.; SCHNEIDER, T. Sensors 4.0 – smart sensors and measurement
technology enable industry 4.0. Journal of Sensors and Sensors Systems, Saarbruecken, Mai
2018.
SCHWAB, K. The Fourth Industrial Revolution: what it means, how to respond. World
Economic Forum, 2016. Disponivel em: <https://www.weforum.org/agenda/2016/01/the-
fourth-industrial-revolution-what-it->. Acesso em: 25 Fev 2020.
SCHWABER, K.; SUTHERLAND, J. Definition of Scrum. Scrum Guide, 2017. Disponivel
em: <https://www.scrumguides.org/scrum-guide.html>. Acesso em: 25 Jul 2020.
SFENRIANTO, S.; WANG, G. User satisfaction analysis for service-now application. IOP
Conference Series Materials Science and Engineering. [S.l.]. 2018.
SHALEV-SCHWARTZ, S.; BEN-DAVID, S. Understanding Machine Learning: From
Theory to Algorithms. Cambridge: Cambridge University Press, 2014.
SHARMA, S. Top 9 Machine Learning Applications in Real World. Data Science Central,
2017. Disponivel em: <https://www.datasciencecentral.com/profiles/blogs/top-9-machine-
learning-applications-in-real-world>. Acesso em: 20 Mai 2020.
SILVA, F. Detecção de Ironia de Sarcasmo em língua portuguesa: uma abordagem
utilizando deep learning. UNIVERSIDADE FEDERAL DE MATO GROSSO. Mato Grosso.
2018.
SIMON, P. Too Big to Ignore: The Business Case for Big Data. 1. ed. Hoboken, Wiley: [s.n.],
2013.
102
SONI, D. Supervised vs. Unsupervised Learning. Towards Data Science, 2018. Disponivel
em: <https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d>.
Acesso em: 02 Mai 2020.
TECH, D. Underfitting e Overfitting. Didatica Tech Inteligência Artificial e Data Science,
2019. Disponivel em: <https://didatica.tech/underfitting-e-overfitting/>. Acesso em: 11 Mai
2020.
TURCHI, P. The Digital Transformation Pyramid: A Business-driven Approach for Corporate
Initiatives. The Digital Transformation People, 2018. Disponivel em:
<https://www.thedigitaltransformationpeople.com/channels/the-case-for-digital-
transformation/digital-transformation-pyramid-business-driven-approach-corporate-
initiatives/>. Acesso em: 11 Jan 2020.
WEILL, P.; WOERNER, S. Is Your Company Ready for a Digital Future? MIT Sloan Review,
2017. Disponivel em: <https://sloanreview.mit.edu/article/is-your-company-ready-for-a-
digital-future/>. Acesso em: 10 Dez 2019.
WUJEK, B.; HALL, P.; GUNES, F. Best Practices for Machine Learning Applications. SAS
Institute Inc., Carolina do Norte, 2016.
YIN, R. Estudo de caso: planejamento e métodos. 3. ed. Porto Alegre: [s.n.], 2006.
YOUSEF, K. et al. Analyzing Cyber-Physical Threats on Robotic Plataforms. International
Conference on Electrical and Computing Technologies and Applications. Ras Al Khamiah:
[s.n.]. 2017. p. 22.
103
9. APÊNDICE – CARACTERÍSTICAS DOS PRINCIPAIS ALGORITMOS DE MACHINE LEARNING
Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de
interpretação
Regressão
penalizada
− Regressão
supervisionada
− Classificação
supervisionada
− Especificação manual não-linear e termos de interação
explícitos.
Conjunto de dados pequeno à
grande Alta
Naive Bayes − Classificação
supervisionada
− Modelo linear ou fenômeno linearmente separável.
− Adequado para conjuntos de dados extremamente
grandes, nos quais métodos complexos são intratáveis.
Conjunto de dados pequeno à
extremamente grande Moderada
Árvore de decisão
− Regressão
supervisionada
− Classificação
supervisionada
− Modelo de fenômenos não linearmente separáveis em
grande quantidade de dados não trabalhados.
− Interações automáticas implícitas.
− Valores faltantes e outliers nas variáveis de entrada
tratados automaticamente.
− Conjuntos de árvore de decisão (exemplo: florestas
aleatórias, aumento de gradiente) podem aumentar a
acurácia da predição e diminuir o sobre ajuste, no
entanto, também diminui a escalabilidade e capacidade
de interpretação.
Conjunto de dados médio à
grande Moderada
K-ésimo Vizinhos
mais próximos
(kNN)
− Regressão
supervisionada
− Classificação
supervisionada
− Modelo de fenômenos não linearmente separáveis.
− Pode ser usado para combinar à precisão de técnicas
mais sofisticadas, mas com menos parâmetros de ajuste.
Conjunto de dados pequeno à
médio Baixa
104
Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de
interpretação
Máquina de
Vetores de Suporte
− Regressão
supervisionada
− Classificação
supervisionada
− Detecção de anomalias
− Modelo linear ou fenômeno linearmente separável
usando núcleos lineares.
− Modelo de fenômenos não linearmente separáveis
usando núcleos não-lineares.
− Detecção de anomalias utilizando uma classe de máquina
de vetores de suporte.
Conjunto de dados pequeno à
grande usando núcleos
lineares.
Conjunto de dados de médio
à grande usando núcleos não-
lineares.
Baixa
Rede neural
artificial
− Regressão
supervisionada
− Classificação
supervisionada
− Clustering não
supervisionado
− Extração de
característica não
supervisionado
− Detecção de anomalias
− Modelo de fenômenos não linearmente separáveis.
− Rede neurais profundas (exemplo: deep learning) para
reconhecimento de padrão de imagens, vídeos e sons.
− Todas as interações consideradas em topologias
multicamadas totalmente conectadas.
− Extração de elementos não lineares com e redes de
máquinas Boltzmann restritas.
− Armazenamento em cluster e visualização com mapas
auto-organizados
− Detecção de anomalias com redes.
Conjunto de dados pequeno à
médio Baixa
Regras de
associação
− Construção de regra
supervisionada.
− Construção de regra não
supervisionada.
− Construir um conjunto de regras complexas usando a
simultaneidade de itens ou eventos em conjuntos de
dados transacionais.
Conjunto de dados
transacionais médio à grande Moderada
K-Significados − Agrupamento não
supervisionado
− Criação de um número conhecido a priori de clusters
esféricos, disjuntos e de tamanho igual.
− O método k-mode pode ser usado para dados categóricos.
− O método k-prototypes pode ser usado para dados
mistos.
Conjunto de dados
transacionais médio à grande Moderada
105
Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de
interpretação
Cluster hierárquico − Agrupamento não
supervisionado
− Criação de um número conhecido a priori de clusters não
esféricos, disjuntos ou sobre ajustes de clusters de
tamanhos diferentes.
Conjunto de dados pequeno Moderada
Cluster Espectral − Agrupamento não
supervisionado
− Criação de um número dependente de dados de clusters
arbitrariamente modelados, disjuntos ou sobrepostos de
tamanhos diferentes.
Conjunto de dados pequeno Moderada
Análise de
componentes
principais
− Extração de
características não
supervisionada
− Extração de um número dependente de dados de recursos
lineares ortogonais.
− A Decomposição de valor singular é frequentemente
usada em vez de Análise de componentes principais em
dados amplos.
− A Análise de componentes principais Sparse pode ser
usada para criar características mais interpretáveis, mas a
ortogonalidade é perdida.
− A Análise de componentes principais Kernel pode ser
usado para extrair características não lineares.
Conjunto de dados pequeno à
grande para Análise de
componentes principais
tradicional e Decomposição
de valor singular.
Conjunto de dados pequeno à
médio para Análise de
componentes principais
Sparse e Kernel.
Normalmente baixa
Fatoração de
matriz não negativa
− Extração de
características não
supervisionada
− Extração de um número conhecido a priori de
características interpretáveis, lineares, oblíquas e não
negativas.
Conjunto de dados pequeno à
grande Alta
Projeções aleatórias
− Extração de
características não
supervisionada
− Extração de um número dependente de características
lineares, não interpretáveis, orientados arbitrariamente de
igual importância.
Conjunto de dados médio à
extremamente grandes Baixa
106
Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de
interpretação
Máquinas de
fatoração
− Regressão e
classificação
supervisionada
− Extração de
características não
supervisionada
− Extração de um número conhecido a priori de
características não interpretáveis, oblíquas de conjuntos
de dados sparse e transacionais.
− Pode explicar automaticamente interações variáveis.
− Criar modelos a partir de um grande número de
características sparse. podendo superar as Máquinas de
Vetores de Suporte.
Conjunto de dados sparse ou
transacionais médio à
extremamente grande
Moderada
Figura 50: Características dos principais algoritmos de Machine Learning
Fonte: Adaptado de Wujet, Hall e Gunes (2016, p. 22-23)
Top Related