MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção...

106
1 MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS: ESTUDOS DE CASO NA INDÚSTRIA DE VAREJO BRASILEIRA Flora Mello Quintão Mateus Mariana de Carvalho Mendonça Projeto de Graduação apresentado ao Curso de Engenharia de Produção da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientador: Renato Flórido Cameira Rio de Janeiro Julho de 2020

Transcript of MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção...

Page 1: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

1

MACHINE LEARNING NA

MELHORIA DE PROCESSOS INTERNOS:

ESTUDOS DE CASO NA INDÚSTRIA DE VAREJO

BRASILEIRA

Flora Mello Quintão Mateus

Mariana de Carvalho Mendonça

Projeto de Graduação apresentado ao Curso de

Engenharia de Produção da Escola Politécnica,

Universidade Federal do Rio de Janeiro, como parte

dos requisitos necessários à obtenção do título de

Engenheiro.

Orientador: Renato Flórido Cameira

Rio de Janeiro

Julho de 2020

Page 2: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como
Page 3: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

3

Mendonça, Mariana de Carvalho

Mateus, Flora Mello Quintão

Machine learning na melhoria de processos internos: estudos

de caso na indústria de varejo brasileira/ Flora Mello Quintão

Mateus e Mariana de Carvalho Mendonça - Rio de Janeiro:

UFRJ/ Escola Politécnica, 2020.

6, 98 p.: il.; 29,7 cm.

Orientador: Renato Flórido Cameira

Projeto de Graduação - UFRJ/ POLI/ Curso de Engenharia de

Produção, 2020.

Referências Bibliográficas: p.94-98.

1. Aplicações 2. Inteligência Artificial 3. Machine learning 4.

Varejo 5. Marketplace 6. Detecção de fraude 7. Cancelamento

de planos 8. Software as a Service. I. Cameira, Renato Flórido

II. Universidade Federal do Rio de Janeiro, UFRJ, Curso de

Engenharia de Produção. III. Machine learning na melhoria

de processos internos: estudos de caso na indústria de varejo

brasileira.

Page 4: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

4

AGRADECIMENTOS - FLORA

Gostaria de destacar que este projeto, assim como a minha formação no melhor curso

de engenharia de produção do Brasil (com muito orgulho de dizer!), foi uma realização não só

minha, mas também, indiretamente, da minha família. Agradeço à minha mãe Tereza e ao meu

pai Flávio por serem meus incentivadores desde sempre, pela educação, valores e amor que me

deram e que me fizeram chegar até aqui. Também agradeço às minhas avós Ludia e Cleyde

pelo apoio e ensinamentos durante a minha vida.

Há também muitas pessoas que me ajudaram a iniciar essa jornada na UFRJ e outras

que fizeram dela a melhor possível.

Agradeço à minha ex-professora Margaret pelo trabalho voluntário nas aulas de redação

para o ENEM que foi um pilar para que eu conseguisse a vaga neste curso. Com certeza sua

paixão pela profissão e pela missão em ajudar seus alunos a realizarem seus sonhos a fazem

uma pessoa extraordinária.

Muito obrigada também às minhas primas Camilla e Maria de Lourdes por todo apoio

que me ajudou a permanecer no curso.

Também agradeço ao corpo docente do DEI UFRJ que se esforça todos os dias para a

manter e renovar a excelência de ensino do curso de engenharia de produção. Um

agradecimento especial ao orientador deste trabalho, Renato Cameira, por todo seu empenho e

carinho durante as orientações deste projeto, mas também por ser um exemplo de dedicação às

aulas e à UFRJ. Além disso, agradeço também os funcionários das secretarias e da limpeza que

suportaram a realização das atividades na universidade.

Fundamentais ao meu proveito do curso e à minha feliz jornada até aqui, agradeço aos

meus amigos desde o início - Ligia Garcia, Mariana Campista, Matheus Xavier, Gustavo

Amorim e Alexandre Borges. Mas especialmente à Mariana, minha parceira neste trabalho, nos

estudos para as provas, nas conversas de carreira, nas conversas de bar e em muitos momentos

que a vida trouxe e irá trazer.

Assim, finalizo meus genuínos agradecimentos a todos estes que participaram da minha

formação como Engenheira de Produção pela Universidade Federal do Rio de Janeiro. O

trabalho será árduo e prazeroso para fazer jus a tudo que me foi proporcionado.

Page 5: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

5

AGRADECIMENTOS - MARIANA

Em primeiro lugar, gostaria de agradecer aos meus pais, João Batista e Maria Cristina,

que sempre se dedicaram para que eu tivesse boa índole e acesso à educação de qualidade, além

da minha cachorra Princesa, que ficava no meu pé (literalmente) enquanto eu estudava.

Agradeço também de maneira especial ao meu irmão, João Vitor, que me motivou a

seguir carreira na área de Engenharia de Produção com todo seu entusiasmo ao falar do curso e

das aplicações que enxergava no estágio, além da minha cunhada Ivna que sempre me transmite

calma e paciência.

Não poderia deixar de agradecer ao meu parceiro de vida João Filho, que me

acompanhou por todo período de elaboração deste trabalho, me motivando tanto neste projeto

como em todos os outros que eu resolvo embarcar, com muita leveza e sorriso no rosto.

Não menos importante, também gostaria de agradecer aos meus colegas de curso,

especialmente minha dupla de Projeto Final, Flora, que desde o primeiro período esteve comigo,

seja estudando para as infinitas provas unificadas ou para aliviar o estresse pós-trabalho em

uma roda de samba ou em um barzinho. Obrigada àqueles que me acompanharam de perto

nessa trajetória, Rubens Correa, Matheus Xavier, Luiza Amante, Raphael Duarte, Marta Haik,

Sabrina Adegas, Carolina Kiss, Rafael Marinho, Daniel Flórido, Eduardo Gouveia, Arthur

Vidigal, Polyana Benfeita, entre outros.

Agradeço bastante aos professores do curso de Engenharia de Produção, especialmente

ao orientador deste trabalho Renato Cameira, por toda atenção e suporte tanto nas aulas quanto

na elaboração deste trabalho e ao professor Vinícius Cardoso pelos ensinamentos ao longo das

orientações de Iniciação Científica.

Por fim, agradeço ao Colégio Pedro II, que me ensinou valores e me permitiu fazer parte

de uma universidade de excelência.

Page 6: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

6

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte dos

requisitos necessários para a obtenção do grau de Engenheiro de Produção.

MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS: ESTUDOS DE

CASO NA INDÚSTRIA DE VAREJO BRASILEIRA

Flora Mello Quintão Mateus

Mariana de Carvalho Mendonça

Julho de 2020

Orientador: Renato Flórido Cameira

Curso: Engenharia de Produção

Resumo:

A transformação digital e tecnologia impactam o modelo de negócio das organizações.

O presente trabalho aborda as principais tecnologias cognitivas, com foco e aprofundamento

mais específico no machine learning no uso de algoritmos que agregam valor e otimizam os

processos em uma empresa da indústria de varejo no ramo de marketplace. O estudo foi

aprofundado na área de Trust&Safety com o modelo de detecção de fraude, e na área Comercial

com o modelo de previsão de cancelamento de planos. Como resultado deste trabalho, as

análises dos estudos de caso percorrem a definição do problema de negócio, a construção do

modelo e por fim, a análise crítica da implementação, com base no referencial teórico.

Palavras-chave: Aplicações, Inteligência Artificial, Machine Learning, Varejo, Marketplace,

Detecção de fraude, Cancelamento de planos, Software as a Service.

Page 7: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

7

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of the

requirements for the degree of Industrial Engineer.

MACHINE LEARNING TO IMPROVE INTERNAL PROCESSES: CASE STUDIES IN

THE BRAZILIAN RETAIL INDUSTRY

Flora Mello Quintão Mateus

Mariana de Carvalho Mendonça

August 2020

Advisor: Renato Flórido Cameira

Course: Industrial Engineering

Abstract:

The digital transformation and technology impact the business model of organizations.

The present work addresses the main cognitive technologies, with a more specific focus on

machine learning algorithms that add value and optimize processes in a retail industry company

within the marketplace sector. The study was developed in the Trust & Safety area with the

fraud detection model, and in the Commercial area with the model of plan cancellation

prediction. As a result of this work, the analysis of the case studies goes through the definition

of the business problem, the model construction and finally, the critical analysis of the

implementation, based on the theoretical frame of reference.

Keywords: Applications, Artificial Intelligence, Machine Learning, Retail, Marketplace; Fraud

detection; Plan cancelation; Software as a Service.

Page 8: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

8

SUMÁRIO

1. INTRODUÇÃO 13

1.1 Contextualização 13

1.2 Motivações e Premissas 14

1.3 Objetivos 15

1.3.1 Objetivo geral 15

1.3.2 Objetivos específicos 15

1.4 Estrutura do trabalho 16

1.4.1 Descrição dos capítulos 16

1.4.2 Delimitações 17

1.4.3 Limitações 17

2. METODOLOGIA DA PESQUISA 18

3. TRANSFORMAÇÃO DIGITAL E INDÚSTRIA 4.0 20

3.1 Conceito e panorama histórico 20

3.2 Estratégia de transformação digital 21

3.3 Categorias de tecnologias 25

3.3.1 Resultados financeiros e tendências de crescimento 25

3.3.2 Conceitos 28

4. MACHINE LEARNING 37

4.1 Conceito 37

4.2 Técnicas 38

4.3 Algoritmos 40

4.4 Processo de construção de um modelo de machine learning 42

4.4.1 Definição do problema de negócio 43

4.4.2 Análise exploratória 43

4.4.3 Criação da amostra de desenvolvimento do modelo 45

4.4.4 Organização de dados 46

4.4.5 Pré-processamento da base de dados 46

4.4.6 Construção do modelo 49

4.4.7 Teste do modelo 52

4.4.8 Definição das regras de decisão 53

4.5 Operacionalização do modelo na organização 55

5. MACHINE LEARNING NA INDÚSTRIA DO VAREJO 57

5.1 Marketplace: um recorte da indústria do varejo 57

Page 9: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

9

5.2 Aplicações do machine learning no setor 62

6. ESTUDOS DE CASO 65

6.1 Caracterização da empresa 65

6.1.1 A empresa 65

6.1.2 Áreas de estudo 66

6.1.3 Levantamento de informações 67

6.2 Cancelamento de planos 68

6.2.1 Contexto 68

6.2.2 Construção do modelo 69

6.2.3 Análise crítica 71

6.3 Identificação de fraudes no chat 75

6.3.1 Contexto 75

6.3.1 Construção do modelo 75

6.3.2 Análise crítica 89

7. CONSIDERAÇÕES FINAIS 94

8. REFERÊNCIAS BIBLIOGRÁFICAS 97

9. APÊNDICE – CARACTERÍSTICAS DOS PRINCIPAIS ALGORITMOS DE

MACHINE LEARNING 103

Page 10: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

10

LISTA DE FIGURAS

Figura 1: Contexto histórico das revoluções industriais ........................................................... 21

Figura 2: A pirâmide da transformação digital ......................................................................... 22

Figura 3: Quadro de direcionadores de investimento de acordo com habilitadores de eficiência

e de crescimento ....................................................................................................................... 23

Figura 4: Modelo de Customer-centric .................................................................................... 24

Figura 5: Produtividade e crescimento por tipo de tecnologia ................................................. 26

Figura 6: Produtividade por classe industrial ........................................................................... 26

Figura 7: Produtividade (EBITDA por funcionários) companhias líderes vs. seguidoras ....... 27

Figura 8: Alocação % de capital digital das organizações de 2017 a 2019 por objetivo ......... 28

Figura 9: Quadro de classificação de tecnologias por tipos de objetivos estratégicos ............. 29

Figura 10: A indústria 4.0 nos processos corporativos ............................................................. 30

Figura 11: Radar digital com habilitadores e aplicações .......................................................... 32

Figura 12: Evolução histórica dos sensores 1.0 aos sensores inteligentes ............................... 34

Figura 13: Técnicas de Machine learning por categorias. ........................................................ 38

Figura 14: Quadro Perguntas e fatores de análise para escolha de um algoritmo. ................... 41

Figura 15: Etapas do desenvolvimento de um modelo genérico de machine learning ............ 42

Figura 16: Quadro de boas práticas recomendadas na Análise exploratória ............................ 43

Figura 17: Quadro de práticas recomendadas para desafios comuns de aprendizado de máquina

.................................................................................................................................................. 45

Figura 18: Divisão da amostra de desenvolvimento de um modelo de machine learning

supervisionado .......................................................................................................................... 50

Figura 19: Exemplo de código de parte da construção de um modelo ..................................... 51

Figura 20: Exemplo de uma matriz de confusão ...................................................................... 52

Figura 21: Exemplo de um gráfico ROC .................................................................................. 54

Figura 22: Exemplo de gráfico precision-recall....................................................................... 54

Figura 23: Quadro dos tipos de marketplace e respectivas descrições ..................................... 58

Figura 24: Faturamento de marketplace 2015 a 2017 .............................................................. 59

Figura 25: Evolução dos consumidores .................................................................................... 59

Figura 26: Gráfico de quantidade e variação de vendedores nos marketplaces de setembro de

2017 a setembro de 2018 .......................................................................................................... 60

Figura 27: Gráfico de concentração de sellers por departamento nos marketplaces de setembro

de 2017 a setembro de 2018 ..................................................................................................... 61

Figura 28: Gráfico de Ofertas 1P vs Ofertas 3P nos marketplaces de setembro de 2017 a

setembro de 2018 ...................................................................................................................... 61

Figura 29: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de

Setembro/2019 .......................................................................................................................... 72

Figura 30: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de

janeiro/2020 .............................................................................................................................. 73

Figura 31: Resultados do antigo modelo Chat Sense da área de Trust&Safety ........................ 77

Page 11: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

11

Figura 32: Simulação de prevenção de denúncias efetivas de fraude pelo modelo Chat Sense,

média semanal .......................................................................................................................... 77

Figura 33: Tempo de processamento do modelo Chat Sense, em minutos .............................. 78

Figura 34: Roadmap planejado para a construção do Fraud Detector ..................................... 79

Figura 35: Denúncias de fraude semanal vs. tempo entre a mensagem e a denúncia .............. 80

Figura 36: Distribuição do tamanho das conversas idôneas ..................................................... 81

Figura 37: Distribuição do tamanho das conversas de fraude .................................................. 81

Figura 38: Análise visual do agrupamento de palavras por PCA ............................................. 83

Figura 39: Validação da configuração Unigrama-bigrama pelo algoritmo Logistic Regression

.................................................................................................................................................. 84

Figura 40: Validação da configuração Trigrama pelo algoritmo Naive Bayes ........................ 84

Figura 41: 1º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression. 85

Figura 42: 1º Teste da configuração Trigrama pelo algoritmo Naive Bayes ........................... 85

Figura 43: 2º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression. 85

Figura 44: 2º Teste da configuração Trigrama pelo algoritmo Naive Bayes ........................... 85

Figura 45: Gráfico de ROC da 1ª versão do Fraud detector .................................................... 86

Figura 46: Gráfico precisão vs. Threshold ............................................................................... 87

Figura 47: Série temporal semanal do volume de denúncias efetivas de fraude ...................... 89

Figura 48: Tempo de processamento do modelo Fraud Detector em milissegundos .............. 89

Figura 49: Roadmap realizado de construção do modelo Fraud Detector ............................... 92

Figura 50: Características dos principais algoritmos de Machine Learning .......................... 106

Page 12: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

12

LISTA DE ABREVIATURAS E SIGLAS

CEI Customer Experience Index

BDA Big Data Analytics

CAGR Compound Annual Growth Rate

CPS Cyber Physical Systems

EBITDA Earnings before Interest, Taxes, Depreciation and Amortization

NIST Instituto Nacional Americano de Padrões e Tecnologia

IA Inteligência Artificial

IDC International Data Corporation

IoT Internet of Things

ML Machine Learning

LCD Liquid Cristal Display

NLP Natural Language Processing

B2B Business to Business

B2C Business to Consumer

C2C Consumer to Consumer

OKRs Objective and Key Results

PCA Principal Component Analysis

RPA Robotic Process Automation

SaaS Software as a Service

TI Tecnologia da Informação

TF-IDF Term Frequency-Inverse Document Frequency

Page 13: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

13

1. INTRODUÇÃO

No primeiro capítulo é realizada uma breve contextualização do cenário de

transformação digital na economia global, com foco no mercado de varejo e a aplicação de

inteligência artificial e machine learning. Neste capítulo são ressaltadas as limitações e

delimitações do estudo, assim como os objetivos gerais, específicos e por fim, a estrutura do

trabalho.

1.1 Contextualização

Em um cenário competitivo e ágil, a necessidade de acompanhar e se adaptar às

transformações que surgem rapidamente tem sido um desafio para sobrevivência das

organizações. As tecnologias digitais, fundamentadas no computador, software e redes, não são

novas, mas estão causando rupturas significativas à terceira revolução industrial por sua

capacidade de integração e consequentemente pelo seu impacto nos meios de produção e na

economia global.

A quarta revolução industrial, apoiada fortemente em novas tecnologias habilitadoras,

diminuiu distância entre a informação e as pessoas e mudou a forma como os usuários interagem

entre si e de como as organizações aproximam a sociedade. Por esse motivo, os modelos e

processos de negócio passam por uma mudança radical para melhor aproveitar as tecnologias

emergentes e sua rápida expansão nas atividades humanas (PINÇON, 2017).

De acordo com Lorente (2016), as novas tecnologias podem gerar um impacto direto

sobre a experiência com o cliente. Otimizar canais e processos, procurar novos modelos e fluxos

de receita com base em exigências dos clientes e, em paralelo, transformar a estratégia da

organização. Nesse contexto, a melhoria de processos internos apresenta ganhos significativos.

Para compreender melhor as aplicações utilizadas pelo mercado para melhorar

processos internos, o presente trabalho apresenta uma revisão bibliográfica da literatura a

respeito das tecnologias cognitivas, com um aprofundamento no machine learning, uma análise

do cenário do mercado de marketplaces como recorte da indústria de varejo e por fim, aborda

dois estudos de caso de aplicações de machine learning na companhia identificada como

MarketplaceCo.

Page 14: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

14

1.2 Motivações e Premissas

A revolução digital é caracterizada por uma internet móvel, por sensores menores e mais

eficientes, pela Inteligência Artificial (IA) e pelo Machine Learning (ML), podendo ser

traduzido como aprendizagem de máquina.

Na última década, o machine learning fez progressos significativos, impulsionado pelo

aumento exponencial da capacidade de processamento e pela disponibilidade de grandes

quantidades de dados. Os algoritmos aprendem a partir do histórico de dados com um processo

de aprendizagem e detecção automatizada de padrões que permite um aprimoramento contínuo

com o objetivo de encontrar melhores soluções a partir dos princípios iniciais.

Pereira, Castro et. al (2016) ressalta que escolher e implementar de forma a conciliar as

melhores tecnologias dentro do contexto organizacional consiste em uma atividade desafiadora

que demanda um conhecimento prévio das possíveis mudanças e impactos organizacionais.

De acordo com a pesquisa realizada pela MIT Sloan Review, Well e Woener (2017), na

indústria de varejo, foram entrevistados 653 executivos norte-americanos sobre o papel do

machine learning em suas atividades. Desses executivos da indústria varejo, 72% acreditam

que seus KPIs funcionais poderiam ser mais bem alcançados com maior investimento em

automação e tecnologias de ML. Nessa pesquisa, 62% dos executivos de varejo disseram que

sua organização possui incentivos internos para usar a automação e as tecnologias de ML para

impulsionar as atividades. Na amostra geral, esse número foi menor: apenas 49% dos

entrevistados relataram ter esses incentivos.

Na abordagem dos estudos de caso, um importante driver estratégico da empresa

escolhida, é fazer uso da tecnologia para melhorar os processos internos utilizando o machine

learning, em específico, em diversas áreas.

Neste contexto, o projeto tem como premissas a serem validadas ao seu decorrer:

I. Há cada vez mais demanda por aplicações de Inteligência Artificial;

II. A indústria de varejo busca inovações tecnológicas para ganhar vantagem competitiva;

III. O machine learning pode ser utilizado para melhorar os processos internos;

IV. O machine learning gera ganhos quantitativos efetivos na indústria do varejo.

Page 15: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

15

1.3 Objetivos

Nesta seção é realizado o desdobramento dos objetivos do trabalho em uma visão geral

e seus objetivos específicos.

1.3.1 Objetivo geral

Os objetivos da pesquisa indicam a pretensão com o seu desenvolvimento e quais os

resultados esperados.

Este trabalho tem como objetivo geral identificar as categorias de tecnologias existentes,

com foco no machine learning e suas aplicações de forma a compreender de que forma o uso

de algoritmos pode agregar valor e otimizar os processos em uma empresa da indústria de varejo

no ramo de marketplace.

1.3.2 Objetivos específicos

Para que o objetivo geral fosse alcançado, os seguintes objetivos específicos foram

definidos:

I. Contextualizar brevemente a transformação digital e as categorias de tecnologias

cognitivas existentes;

II. Aprofundar no estudo do Machine Learning, o conceito, as técnicas, os passos para a

construção de um modelo e a operacionalização nas organizações;

III. Compreender o cenário do segmento de Marketplace, como um recorte da indústria de

varejo, além das principais aplicações de machine learning neste setor;

IV. Realizar estudos de caso com o objetivo de tangibilizar aplicações do machine learning

para melhoria de processos internos na área Comercial e na área de Trust&Safety da

MarketplaceCo;

V. Identificar o contexto e a construção dos modelos dos estudos de caso para propor uma

análise crítica acerca dos temas.

Page 16: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

16

1.4 Estrutura do trabalho

Nesta seção é desdobrada a estrutura do trabalho em capítulos, suas delimitações e

limitações.

1.4.1 Descrição dos capítulos

No primeiro capítulo deste estudo, são apresentadas as motivações que levaram as

autoras a escolherem o tema estudado como objeto de pesquisa, bem como seus objetivos,

limitações e delimitações, evidenciando o recorte de aplicações do Machine Learning na

indústria de varejo.

No segundo capítulo, é apresentada a metodologia de pesquisa que suporta o trabalho

desenvolvido.

O terceiro, quarto e quinto capítulo compreendem a revisão bibliográfica. No terceiro

capítulo, é realizada uma breve conceituação de transformação digital, estratégia de

transformação digital e as categorias de tecnologias.

O capítulo quatro aprofunda no estudo de machine learning, bem como em suas

técnicas, algoritmos, quais são os passos necessários na construção de um modelo e a aborda

de forma geral os principais tópicos na operacionalização dos modelos em uma organização.

O capítulo cinco explora o contexto dos estudos de caso, a partir da caracterização do

setor de varejo, além das aplicações de machine learning na indústria de varejo.

O sexto capítulo aprofunda nos estudos de caso, caracterizando a empresa estudada,

descrevendo os algoritmos de machine learning que foram implementados na empresa, assim

como as motivações e os resultados alcançados. Neste capítulo também é feita uma análise

crítica dos estudos de caso do ponto de vista das autoras, com base na revisão bibliográfica da

literatura.

Por fim, o último capítulo apresenta as conclusões do trabalho com relação à aplicação

do machine learning na indústria de varejo, assim como apresenta recomendações para

pesquisas futuras.

Page 17: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

17

1.4.2 Delimitações

O presente trabalho delimitou-se a apresentar uma visão descritiva da modelagem de

machine learning, sem aprofundar no estado da técnica em termos da codificação

computacional dos algoritmos. Apesar do machine learning pertencer ao conjunto de

Inteligência Artificial, esta será tratada apenas em linhas gerais para contextualização. Além

disso, limitou-se a categorizar as demais tecnologias de forma generalista.

Devido a abrangência de subsetores dentro da indústria de varejo, optou-se por realizar

os estudos de caso em uma empresa pertencente a subcategoria de marketplace, durante o

período de estágio de uma das autoras deste projeto. Sendo assim, o escopo destes estudos de

caso limitou-se às atividades desenvolvidas e ao acesso à informação durante o período de

realização do estágio.

1.4.3 Limitações

O tema estudado apresenta vasta quantidade de conteúdo nas bases acadêmicas,

entretanto, não foi realizada uma busca sistemática exaustiva na literatura, por este não ser o

objetivo principal do trabalho. Pelo fato de machine learning ser um tema atual e em evolução

contínua, se fez necessário o uso de relatórios de consultoria focados em tecnologia, assim como

artigos recentes sobre o assunto.

Outra limitação ocorreu em um dos dois estudos de caso trabalhados. Diferentemente

do segundo, sobre o modelo de identificação de fraudes no chat, que pode contar com acesso à

documentação e os dados do projeto, viabilizando uma análise mais aprofundada, no primeiro

estudo, sobre o modelo de cancelamento de planos, não foi possível realizar um maior

detalhamento, pela escassez de acesso à informações, tendo sido este todo desenvolvido com

base em entrevistas.

Page 18: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

18

2. METODOLOGIA DA PESQUISA

A elaboração deste trabalho tem suas bases metodológicas pautadas em uma pesquisa

exploratório-descritiva, apoiada em métodos de estudo de caso e revisão da literatura. A

efetividade de aplicação do Machine Learning foi verificada qualitativamente através dos

estudos de caso, com caráter exploratório. Essa abordagem permite que os pesquisadores se

aproximem dos membros da organização a ponto de entender o que eles pensam, aumentando

o grau de investigação relacionado ao objeto de pesquisa (MAYKUT e MOREHOUSE, 1994).

Quanto ao caráter exploratório, Gil (2007) afirma que pesquisas exploratórias têm como

objetivo proporcionar maior familiaridade com um determinado problema, a fim de torná-lo

mais explícito ou a construir hipóteses. As pesquisas exploratórias envolvem: (i) levantamento

bibliográfico; (ii) entrevistas semiestruturadas com pessoas que tiveram experiências práticas

com o problema pesquisado; e (iii) análise de exemplos que estimulem a compreensão.

Para os capítulos de referencial teórico, utilizou-se principalmente fontes secundárias,

por meio de livros teóricos sobre Machine Learning recomendados. O primeiro, Artificial

Intelligence and Machine Learning for Business (FINLAY, 2017) foi escolhido por ter uma

abordagem sistêmica e processual da construção de um modelo de machine learning. O

segundo, Inteligência artificial: uma abordagem de aprendizado de máquina” (FACELI,

LORENA, et al., 2011), apresenta uma visão mais técnica e é recomendado pelo mestrado de

Ciência de dados do Instituto Militar de Engenharia. Além disso, foram utilizadas pesquisas

diretas no portal de periódicos da CAPES e SCIELO, assim como relatórios de consultorias

pela abordagem voltada ao ambiente corporativo.

A busca na base de periódicos CAPES e SCIELO utilizaram as seguintes palavras-

chave: machine learning; machine learning* + model*; machine learning* + applic*; machine

learning* + case study; industry 4.0; industry 4.0 + tech*; digital transf* + tech*; digital

transf* + applic*. Em todos os casos foram utilizados termos de busca em inglês para que um

universo maior de estudos acadêmicos fosse contemplado.

Para compreender a aplicação do objeto de estudo na prática, optou-se por aplicar

métodos de estudo de caso. Segundo Yin (2006), o estudo de caso é caracterizado pelo estudo

profundo e exaustivo dos fatos objetos de investigação, permitindo um amplo conhecimento

da realidade e dos fenômenos pesquisados.

No modelo de Cancelamento de Planos, foram realizadas entrevistas semiestruturadas

com o Cientista de dados responsável pela construção do algoritmo e com um Analista da área

Comercial, para compreender melhor a utilização prática do modelo pela Área de Retenção que

Page 19: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

19

serão mais detalhadas no tópico 6.1.3. Para o modelo de Detecção de Fraude, foi utilizado

prioritariamente fontes primárias de informação, visto que uma das autoras participou

ativamente do desenvolvimento do projeto.

Com base no que foi levantado pela revisão bibliográfica da literatura, foi elaborado um

protocolo de estudos de caso divididos em duas partes. Primeiro, caracterizando os modelos de

machine learning em três categorias: (i) contexto; (ii) processo de construção e (iii) análise

crítica. Segundo, buscando compreender o problema de negócio, os processos envolvidos na

implementação, análise dos métodos e algoritmos utilizados, retorno da utilização dos modelos

e impacto organizacional.

Page 20: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

20

3. TRANSFORMAÇÃO DIGITAL E INDÚSTRIA 4.0

A revisão da literatura se inicia neste capítulo, com o contexto de transformação digital

e indústria 4.0, categorias de tecnologias cognitivas e se estende pelos capítulos 4 e 5, com o

aprofundamento no machine learning e nas aplicações deste na indústria do varejo.

3.1 Conceito e panorama histórico

O conceito de transformação digital abordado no presente trabalho está relacionado a

mudança no perfil das indústrias por meio de tecnologias da informação e da comunicação. A

Indústria 4.0, também conhecida como quarta revolução industrial, é caracterizada pela

automação inteligente e integração de novas tecnologias na cadeia de valor dos negócios. Trata-

se de uma transformação digital que está impactando os negócios, não apenas nos sistemas e

processos, mas também os modelos de negócios e força de trabalho (SCHWAB, 2016).

Também chamada de digitalização ou negócios digitais, é definida como "a aceleração das

atividades, processos, competências e modelos empresariais para alavancar plenamente as

mudanças e oportunidades das tecnologias digitais e seu impacto de forma estratégica e

priorizada" (EDMEAD, 2016).

Em um breve histórico, a primeira revolução industrial iniciou-se ao final do século 18

com a invenção da máquina a vapor. A energia do vapor e o seu uso para fins industriais foi o

maior avanço para o aumento da produtividade humana. A Segunda Revolução Industrial

começou no século 19 através da descoberta de eletricidade e produção de linha de montagem,

na qual Henry Ford introduziu os princípios da produção em massa. Nos anos 1970, o início da

chamada era da informação caracterizou a terceira revolução industrial, com a introdução da

automação e da robótica. O uso dessas tecnologias desencadeia uma mudança significativa no

processo produtivo, como por exemplo, passa a existir a programação de robôs que executam

sequências programadas sem intervenção humana.

A quarta revolução industrial, que está em curso atualmente, iniciou-se com o

desenvolvimento das chamadas “fábricas inteligentes”, nas quais sistemas de produção,

componentes e pessoas se comunicam através de uma rede e a produção começa a apresentar

autonomia. Na Figura 1, pode-se visualizar, em uma linha do tempo, as revoluções e suas

principais mudanças (BARROS, 2018).

Page 21: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

21

Figura 1: Contexto histórico das revoluções industriais

Fonte: Disponível em <https://alcerconsultoria.com.br/sem-categoria/industria-4-0-como-o-brasil-reagira/>.

Acesso em: 10 Dez 2019, às 12:57.

O estudo Customer Experience Index (CEI), realizado pela IBM, Glass e Haller (2017)

indicou que a digitalização é uma prioridade (87% dos líderes seniores empresariais), e

descobriu que as empresas estão fazendo investimentos em negócios digitais, porém a maioria

ainda está nos estágios iniciais de investigação e experimentação.

Com base no relatório publicado pelo Fórum Econômico Mundial (2018), a Quarta

Revolução Industrial não se trata de um prolongamento da Terceira Revolução Industrial devido

três características: velocidade, escopo e impacto nos sistemas. A velocidade das descobertas

atuais, quando comparada às revoluções anteriores, evoluiu exponencialmente. No mais, essa

mudança de estrutura tem repercussão em quase todos os setores da indústria e economia, o que

caracteriza um escopo amplo. Por fim, o impacto dessa transformação nos sistemas de

produção, gestão e governança, é o maior comparado ao histórico de revoluções.

Não há uma definição única do termo “transformação digital”, tampouco a determinação

de quais são suas interfaces nos negócios. Cada autor explica o fenômeno de maneira particular

e não é o objetivo do presente estudo ser extensivo nas definições do termo.

3.2 Estratégia de transformação digital

A transformação digital tem o potencial de gerar benefícios significativos para as

empresas, ligados essencialmente ao aumento de produtividade, aumento de segurança nas

Page 22: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

22

operações e aumento do valor para o cliente. No entanto, a transição de um modelo tradicional

para um modelo digital requer adaptações. A complexidade envolve mudanças nas operações,

produtos, processos e nas estruturas organizacionais, de modo que as empresas precisam

estabelecer novas práticas de gestão para conduzi-la.

Em pesquisa com os representantes empresariais realizada pela consultoria Deloitte,

Xavier, Cotteleer et. al (2018) constatam que somente 14% consideraram suas empresas

preparadas para as mudanças da transformação digital. Esse resultado demonstra que, apesar de

entenderem conceitualmente as mudanças necessárias para adequação, não há clareza sobre

como deve ser a implantação e continuam a se concentrar em suas operações tradicionais.

O framework da Pirâmide da Transformação Digital, desenvolvido por Turchi (2018),

exposto na Figura 2, tem o objetivo de facilitar a definição de iniciativas de transformação

digital, ajudando a entender o impacto desta transformação nos modelos de negócio. Para isso,

o autor divide a abordagem da transformação digital em três níveis: estratégia, execução e

tecnologia.

Figura 2: A pirâmide da transformação digital

Fonte: Disponível em https://www.thedigitaltransformationpeople.com/channels/the-case-for-digital-

transformation/digital-transformation-pyramid-business-driven-approach-corporate-initiatives/. Acesso em: 11

Jan 2020, às 09:22.

A disposição da pirâmide materializa as abordagens da transformação digital nas

organizações seguindo uma ordem que representa a interface entre os níveis, bem como seus

graus de importância. Na base, as tecnologias habilitadoras salientam a necessidade de recursos

Page 23: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

23

tecnológicos para possibilitar a condução da operação. No topo, a transformação do modelo de

negócios só é possível quando as outras categorias estão alinhadas e, dessa forma, dão suporte

às transformações do ponto de vista estratégico da organização.

Em termos de estratégia, classificado no modelo anterior como topo da pirâmide, é

preciso delimitar quais são os direcionadores (drivers) que a organização deve seguir para

garantir o cumprimento dos seus objetivos estratégicos. De acordo com o relatório sobre

transformação digital e a maximização do retorno sobre investimentos produzido pelo Fórum

Econômico Mundial (2018) a experiência do cliente se caracteriza como um driver estratégico

de investimentos digitais, por permitir a criação de ofertas personalizadas, apoiar jornadas de

decisão, aumentar a velocidade da transação e garantir a privacidade e confiança. Tal

categorização de direcionadores e habilitadores pode ser observado na Figura 3.

Direcionadores de

investimento

Habilitadores de

eficiência Habilitadores de crescimento

Ganho em eficiência Experiência do cliente e

receitas

Novos modelos de

negócio

Principais áreas

de investimento

− Automação de toda

a cadeia de valor, da

tomada de decisão

às operações.

− Uso eficiente de

recursos, tais como

tempo, energia,

matérias-primas e

ativos.

− Objetivos iniciais de

eficiência específica

com potencial para

expandir para novos

modelos de

negócios e

experiências do

cliente.

− Ofertas personalizadas

para criar "momentos

de verdade" e apoiar

jornadas de decisão.

− Integração das

informações do cliente

entre plataformas para

aumentar a velocidade

da transação.

− Novas experiências

com base na

privacidade e

confiança, gestão de

relacionamento com o

cliente, uso do

marketing digital.

− Atender às

necessidades do

mercado com a

combinação de dados

e tecnologias.

− Construir um

entendimento

profundo da cadeia de

valor e aumentar o

potencial de

escalabilidade de

oportunidades.

− Abordar os negócios

existentes

concentrando-se na

demanda do

consumidor e o custo

de oportunidade.

Figura 3: Quadro de direcionadores de investimento de acordo com habilitadores de eficiência e de crescimento

Fonte: Adaptado do Fórum Econômico Mundial (2018, p.9)

Em um artigo publicado no MIT Sloan Review, Weill e Woerner (2017) identificaram

2 dimensões de negócios para avaliar a prontidão digital das corporações: experiência do cliente

Page 24: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

24

e eficiência operacional. No geral, é perceptível que a transformação digital não é somente sobre

tecnologia, mas também sobre transformações nos modelos de negócio (CHINEN, 2019).

De acordo com a plataforma de conteúdo que fomenta inovação e tecnologia AAA

inovação, Amaral (2019) cita que o primeiro domínio da Transformação Digital deve ser o foco

no cliente. No passado, as empresas tratavam os clientes como receptores. Entretanto, hoje as

marcas devem entender a sua comunicação como uma via de mão dupla, no qual o cliente tem

papel fundamental.

Dessa forma, surge o modelo Customer-Centric, representado na Figura 4, no qual o

foco central das empresas são os clientes. Segundo uma pesquisa da Deloitte (2018), empresas

centradas nos clientes lucram até 60% mais do que aquelas que não são.

Figura 4: Modelo de Customer-centric

Fonte: Adaptado, disponível em: <http://blog.aaainovacao.com.br/entenda-o-que-e-e-como-aplicar-a-

transformacao-digital/>. Acesso em 16 Dez. 2019, às 10:54

O foco nas necessidades tem relação com o fato de criar algo que realmente traga valor

para o cliente, validando continuamente as hipóteses com o consumidor final. A construção do

relacionamento tem relação com a experiência do cliente, tanto no processo de recomendação

de produtos e serviços como na finalização de compras, proporcionando uma comunicação

personalizada em que ocorre a percepção de exclusividade por parte do cliente.

A visão holística se conecta ao pensamento sistêmico dentro da organização, em que a

experiência do cliente não está vinculada somente aos departamentos com relação direta com o

consumidor, de forma que as equipes de suporte também devem ter esse driver para que ocorra

um acompanhamento de toda a jornada do consumidor. Por fim, a liderança se apresenta como

Page 25: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

25

pilar para sustentar o funcionamento das demais esferas de maneira coesa. De acordo com

Ribeiro, Rocha e Branco (2012), os líderes tornam-se cada vez mais uma importante fonte de

vantagem competitiva para as empresas na economia mundial interconectada.

Dessa forma, a indústria deve estar hábil a compreender as mudanças no comportamento

dos clientes e seus hábitos. De acordo com a pesquisa Customer Experience Index (CEI)

realizada pelo IBM (2017), a experiência do cliente superará o preço e o produto como

diferenciador-chave de uma marca. Quantitativamente, 86% dos compradores pagarão mais

para terem uma melhor experiência.

3.3 Categorias de tecnologias

A transformação digital, tanto citada até aqui, foi e vem sendo viabilizada e

operacionalizada a partir de tecnologias e suas evoluções. Logo, a compreensão do impacto que

elas vêm criando no mercado e suas funcionalidades é fundamental.

O objetivo deste tópico será abordar as tendências de uso, resultados gerados nos

últimos anos e descrever as principais tecnologias da indústria 4.0. Vale ressaltar que se trata

de uma breve abordagem, pois a exploração exaustiva de todas as tecnologias digitais está fora

do escopo deste projeto.

3.3.1 Resultados financeiros e tendências de crescimento

O estudo realizado pelo Fórum Econômico Mundial (2018) realiza análises qualitativas

e quantitativas com dados de mais de 16.000 empresas públicas de 14 setores foram analisadas

para estimar o impacto na produtividade dos investimentos em novas tecnologias digitais. Em

2016, os investimentos chegaram a 1,5 trilhões de dólares, com maior representatividade de

Internet of Things (IoT) (41%) e Mobile/Mídia Social (35%).

Em relação às tendências esperadas, a International Data Corporation (IDC) estimou

que, entre 2016 e 2020, os investimentos em tecnologias iriam crescer em Compound Annual

Growth Rate (CAGR) de 13% ao ano. Foi estimado que o crescimento seria liderado por

investimentos em IoT, aproximadamente US$1,0 trilhão, e Mobile/Mídia Social

permaneceriam estáveis, levando sua participação no total de investimentos de 35% para 25%.

Quanto ao retorno aos investimentos, como ilustrado na Figura 5, quando analisados

sozinhas, as Tecnologias Cognitivas – incluem Inteligência Artificial (IA) e Big Data Analytics

(BDA) – realmente são o maior potencializador de crescimento (Receita por funcionário),

enquanto a Robótica é a que traz maior produtividade – Earnings before Interest, Taxes,

Page 26: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

26

Depreciation and Amortization (EBITDA) por funcionário. Enquanto isso, a IoT, tecnologia de

maior volume de investimento, obteve menor resultado em crescimento e produtividade. Por

outro lado, se as tecnologias são desenvolvidas em conjunto, estimativas mostram que a

produtividade poderia ser três vezes maior que quando desenvolvidas sozinhas.

Figura 5: Produtividade e crescimento por tipo de tecnologia

Fonte: Fórum Econômico Mundial (2018, p.10)

As métricas de crescimento e produtividades são normalizadas pela quantidade de

funcionários e podem ter comportamento diferente por tipo de setor industrial, visto que em

setores de Serviços em que o diferencial é o atendimento humanizado e, com isso, têm menos

elasticidade na redução do corpo de trabalho.

Na média, uma companhia de capital pesado ou de serviços obtém similares ganhos em

produtividade, apesar de com diferentes tipos de tecnologia (pode ser observado pela Figura 6).

Figura 6: Produtividade por classe industrial

Fonte: Fórum Econômico Mundial (2018, p.10)

Page 27: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

27

Quanto à posição das empresas, é observável uma dualidade entre os retornos trazidos

pelas diferentes tecnologias de acordo com as características de funcionamento. Em

companhias líderes, maiores e com sistemas mais maduros, obtêm maior produtividade de

Robótica e Mobile/Mídias sociais (infraestrutura de rede) visto que a integração de automação

se torna mais simples em sistemas mais maduros, com arquitetura e regras definidas. Contudo,

as demais companhias, menores e mais novas, obtêm maior produtividade de IoT e Tecnologias

Cognitivas – estas companhias têm sistemas e modelos novos que podem ser configurados com

preparação a novas tecnologias, enquanto em grandes companhias repletas de sistemas legados,

há maior rigidez de modificações e experimentação. Os números de produtividade empresas

líderes e “seguidoras” estão ilustrado na Figura 7.

Figura 7: Produtividade (EBITDA por funcionários) companhias líderes vs. seguidoras

Fonte: Fórum Econômico Mundial (2018, p.12)

No artigo divulgado pela consultoria McKinsey (2019), é possível perceber o perfil de

investimento de empresas de alta performance em transformação digital. As companhias líderes

equilibram suas prioridades estratégicas entre a digitalização de seus principais negócios e a

criação de modelos de negócios digitais inovadores. De acordo com a Figura 8, pode-se notar

que as empresas com melhor desempenho comprometem tantos recursos no desenvolvimento

de novos negócios digitais quanto na digitalização de seu core business.

Page 28: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

28

Figura 8: Alocação % de capital digital das organizações de 2017 a 2019 por objetivo

Fonte: McKinsey (2019, p.1)

3.3.2 Conceitos

Para compreender a difusão da transformação digital em todos os setores da indústria e

os resultados gerados, é necessário a identificação dos recursos que geram esse fenômeno – as

tecnologias.

Para cada categoria de tecnologias, de acordo com o objetivo do projeto, há diferentes

aplicações. Segundo o Fórum Econômico Mundial (2018) na linha de frente da maximização

da eficiência estão a Robótica e IoT, enquanto as Tecnologias Cognitivas e Mídia Social estão

para o objetivo de crescimento, conforme Figura 9.

Page 29: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

29

Direcionadores de

investimento

Habilitadores de eficiência Habilitadores de crescimento

Ganho em eficiência Experiência do cliente e

receitas

Novos modelos de

negócio

Tecnologias

habilitadoras

− Internet das coisas e

robótica para

automatizar processos

e coleta dados.

− Combinação de Big

Data, Inteligência

Artificial, visão 3D e

plataformas digitais

para analisar dados

para identificar

eficiências

incrementais.

− Análise Big Data para

personalização de

clientes.

− Computação em nuvem

para reforçar a gestão

de dados.

− Mídias sociais e

tecnologias móveis para

melhorar o

engajamento.

− Análise Big

Data para

identificar novas

demandas do

cliente.

− Mídias sociais e

tecnologias

móveis para

melhorar o

engajamento.

Complexidade

− Normalmente baixa,

semelhante a

investimentos

tradicionais.

− Business case

relativamente fácil de

certo.

− Tipicamente média-alta.

− Impacto nas métricas de

experiência do cliente

com eventual

crescimento de receita.

− Normalmente

alta.

− Business case

relativamente

incerto.

Figura 9: Quadro de classificação de tecnologias por tipos de objetivos estratégicos

Fonte: Adaptado do Fórum Econômico Mundial (2018, p.9)

Relacionando aos dados mencionados anteriormente, notou-se que Robótica e Mobile

foram líderes em eficiência (EBITDA/funcionário – métrica aproximada pelo Fórum

Econômico Mundial) e as Tecnologias Cognitivas foram líderes em crescimento. Esse trabalho

não tem por objetivo realizar uma análise crítica de métricas de produtividade, apesar desta

referência não abranger os outros ativos possíveis de uma organização – como por exemplo,

uso de máquinas.

Foram analisadas as principais tecnologias que compõem a indústria 4.0 com o intuito

de ter uma visão geral do objetivo e aplicação destas na indústria. Para isso, foram utilizados

os conceitos de duas fontes principais: Schallmo, Williams e Luke (2017) e Fórum Econômico

Mundial (2018). Além disso, foram incluídas outras tecnologias que fazem parte dos processos

da indústria 4.0. O modelo da Figura 10 ilustra a Indústria 4.0 por suas etapas no ambiente

corporativo em relação ao fluxo de dados.

Page 30: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

30

Figura 10: A indústria 4.0 nos processos corporativos

Fonte: Elaboração própria (2020)

O Ambiente de dados digitais é criado a partir da geração de dados pelo Sensoriamento,

capacidade de processamento rápido pela Infraestrutura de Rede, criação da capacidade

computacional para armazenamento destes dados pela Computação em Nuvem combinados à

Cibersegurança garantindo a confiança das transações de dados digitais. Neste ambiente são

criados e transferidos dados não estruturados – sem significado – para as demais etapas da

indústria 4.0. Na etapa Geração de Informação, as Tecnologias Cognitivas transformam os

dados não estruturados em informação para as áreas de negócio e para as áreas técnicas da

Operação, assim como os softwares de Simulação os utilizam para informação nos testes de

processo.

A Operação está cada vez mais automática, seja por hardwares (robôs), seja por

softwares – Robotic Process Automation (RPA) e aplicativos adicionais – utilizam os dados não

estruturados para funcionamento e informações para a tomada de decisão, enquanto a Internet

das Coisas conecta os equipamentos pelo fluxo de dados. Além disso, a Realidade Aumentada

complementa a Operação no treinamento de operadores e utilização por clientes, no caso de

Serviços. Na etapa final, de Acesso Digital ao Cliente, é criado um novo canal de frontend –

uso direto pelo cliente – para vendas ou suporte ao cliente por aplicativos e redes sociais. Os

Page 31: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

31

dados utilizados podem retornar para o ambiente de dados digitais, o que acaba tornando um

ciclo de reforço.

Segundo o artigo Maximizing Return on Digital Investments do Fórum Econômico

Mundial (2018), as áreas de investimento tecnológico que compõem a transformação digital

são categorizadas em quatro áreas: Tecnologias Cognitivas, IoT, Robótica e Mobile/Mídia

Social. Estas são definidas como:

I. Tecnologias cognitivas: inclui Inteligência Artificial (IA) e Big Data Analytics (BDA).

A IA tem como principais métodos o Natural Language Processing (NLP) – para

responder a questões e para fornecer recomendações – e o Machine Learning para

reconhecimento de padrões. O BDA é composto por tecnologias com arquiteturas

projetadas para extrair valor e eficiência de grandes volumes de dados.

II. IoT: refere-se a uma rede que agrega e vincula parâmetros unicamente identificáveis

que se comunicam de forma autônoma usando a conectividade do protocolo da internet.

III. Robótica: abrange o projeto, construção, implementação e operação de robôs. A

automação robótica de processos (RPA), interfaces cognitivas e outros aplicativos de

software que não são capazes de movimento são excluídos.

IV. Mobile/mídia social: inclui soluções de mobilidade e tecnologias sociais. Soluções de

mobilidade incluem os dispositivos, software, infraestrutura e serviços relacionados que

habilitam serviços de dados móveis. Tecnologias Sociais facilitam a colaboração entre

stakeholders, parceiros, fornecedores e clientes, bem como a extração de dados dessas

comunicações.

No tocante à categorização, as Tecnologias Cognitivas, IoT, Robótica e Mídia Social

são primárias, pois podem exercer funções de digitalização de processos. Enquanto Mobile,

como relacionado à infraestrutura de rede que habilita a comunicação de dados, é uma

tecnologia de suporte – que viabiliza o ambiente de dados digitais.

De acordo com Schallmo, Williams e Luke (2017), há quatros categorias habilitadoras:

(i) dados digitais, (ii) acesso digital ao cliente, (iii) automação e (iv) redes. São definidos como:

I. Dados digitais: A coleção, processamento e análise de dados digitalizados.

II. Acesso digital ao cliente: A internet móvel permite acesso direto ao cliente com

alto nível de transparência e novos serviços.

III. Automação: A combinação de tecnologias de inteligência artificial clássica que

permita trabalho autônomo e sistemas auto-organizados.

Page 32: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

32

IV. Redes: As redes móveis ou com fio em toda a cadeia de valor via banda larga de

alta velocidade permite a sincronização da cadeia de suprimentos.

Figura 11: Radar digital com habilitadores e aplicações

Fonte: Boueé e Schaible (2015, p.9)

Na Figura 11 é possível entender a abrangência do meio digital, com seus habilitadores

e aplicações (BOUEÉ e SCHAIBLE, 2015, p. 9). Além das tecnologias citadas, a Computação

em nuvem, Sensoriamento, Cibersegurança, Sistemas Ciberfísicos, Realidade aumentada e

Simulação são categorias fundamentais à transformação digital e, por esse motivo, também

foram categorizadas como habilitadoras. Como o projeto tem o foco em uma subcategoria de

IA - Machine Learning – esta subcategoria será melhor detalhada no decorrer da pesquisa.

Computação em nuvem

Segundo a definição apresentada por Correia (2011), como proposta pelo Instituto

Nacional Americano de Padrões e Tecnologia (NIST), que descreve a computação em nuvem

como “…um modelo para permitir acesso onipresente, conveniente e de rede sob demanda a

um conjunto compartilhado de recursos de computação (por exemplo, redes, servidores,

armazenamento, aplicativos e serviços) que podem ser rapidamente providos com o mínimo

esforço de gerenciamento ou interação com o provedor de serviços... ". Em detalhe, a

computação em nuvem pode ser dividida em duas camadas: o frontend e backend.

O frontend se refere à interface com o usuário que utiliza os serviços e aplicações online,

possivelmente de maneira compartilhada com outros em qualquer dispositivo com acesso à

Page 33: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

33

rede. Enquanto isso, o backend é composto pelo hardware (necessário à comunicação com a

rede) e software de servidores, computadores, máquinas virtuais e sistemas de armazenamento.

Um servidor é usado para gerenciar toda a arquitetura do sistema em nuvem e é o responsável

por lidar com a suavidade do tráfego sem interrupções. Além disso, utiliza-se o middleware,

tipo específico de software, usado para executar processos e conectar computadores em rede.

A computação em nuvem revolucionou as informações e indústria de tecnologia,

desempenhando um papel importante no atendimento às crescentes demandas de

armazenamento e infraestrutura Rashid (2019). Com seu surgimento, foram introduzidas a

flexibilidade de acesso, uso sob demanda e rápida elasticidade, além da redução de custos com

a compra, manutenção provisão de energia aos hardwares.

Com o crescimento exponencial de dados, representa a tecnologia que realiza o

armazenamento seguro e eficiente acesso pelos usuários finais e, com isso, é considerada uma

tecnologia de suporte.

Sensoriamento

Os sensores habilitam a captura de dados digitais e realizam a comunicação entre estes.

Os sensores são instalados em sistemas que realizam a comunicação com as tecnologias que

utilizam os dados como insumo. Dessa forma, o sensoriamento é considerado um dos maiores

drivers da Industria 4.0. A Figura 12 ilustra as características dos sensores durantes as

revoluções industriais de Sensors 4.0 – sensores inteligentes e tecnologias de medição como

habilitadores da indústria 4.0 (SCHÜTZE, HELWIG e SCHNEIDER, 2018).

Page 34: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

34

Figura 12: Evolução histórica dos sensores 1.0 aos sensores inteligentes

Fonte: Schütze, Helwig e Schneider (2018, p.3)

Os sensores inteligentes têm o diferencial de serem equipados com uma interface digital.

Estes dispositivos recebem os sinais de um ambiente físico e realizam a comunicação através

da interface com o usuário. Esses sensores podem transmitir um código binário usando, por

exemplo, um LED de diodo (ligar/desligar), indicador de mudança de cor ou um display de

cristal líquido (LCD). As telas de LCD podem exibir caracteres, símbolos ou gráficos e podem

ser maiores e mais complexas à medida que aumenta a complexidade dos dados a serem

transferidos (SCHÜTZE, 2018).

Cibersegurança

Com a digitalização dos dados e armazenamento em nuvem, a segurança de informações

também é realizada de forma digital, conhecida como cibersegurança. A cibersegurança é uma

prática de proteção de sistemas e redes contra-ataques cibernéticos composta principalmente

por software de criptografia que codificam os dados e apenas o usuário final tem acesso a chave

para descriptografar e protocolos eletrônicos que realizam análise heurística do comportamento

dos programas.

As formas de ataques cibernéticos são o acesso, mudança ou deleção de dados

sensíveis, extorsão de usuários ou interrupção de processos. Os métodos mais comuns usados

pelos invasores para controlar computadores ou redes são os vírus, worms, spyware e cavalos

de tróia. Os vírus e worms são capazes de se replicar e danificar arquivos ou sistemas, enquanto

Page 35: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

35

o spyware e os cavalos de Tróia são usados para coletar dados clandestinamente. Normalmente,

o usuário comum tem contato com o código malicioso por meio de algum anexo de e-mail não

solicitado ou pelo download de programas que parecem legítimos, mas que carregam malware.

Sistemas Ciberfísicos

Cyber Physical Systems (CPS) são sistemas em rede de componentes cibernéticos

(computação e comunicação) e físicos (sensores e atuadores) que interagem em um ciclo de

feedback com a possível ajuda da intervenção, interação e utilização humana (YOUSEF,

ALMAJI, et al., 2017). Em geral, um CPS consiste em dois componentes funcionais principais:

(1) a conectividade avançada que garante aquisição de dados do mundo físico em tempo real e

feedbacks do espaço cibernético; e (2) gerenciamento inteligente de dados, análise e capacidade

computacional que constrói o espaço cibernético.

O sistema apresenta sensores para capturar informação sobre o que está acontecendo no

mundo físico, converte os dados para envio ao nível ciber que atua como hub central das

informações da rede de máquinas que irá realizar análises dos dados para fornecer às máquinas

a auto comparação com as demais. Com o status das máquinas, os dados serão enviados para

infográficos para transferir as informações aos usuários e, então, serão tomadas decisões pelas

regras embutidas ao software do sistema ou pelos usuários. Enfim, o feedback irá do sistema

ciber para o sistema físico – e assim é gerado um loop.

Realidade aumentada

A realidade aumentada refere-se a dispositivos que realizam a integração do mundo real

ao virtual em tempo real. Os dispositivos são o hardware e software de câmeras interligados a

algoritmos gráficos que constroem cenários digitais integrados ao ambiente físico. É utilizada,

geralmente, em serviços de testes, experimentação ou jogos.

Simulação

A simulação é uma composição de softwares que imitam a realidade dos processos

virtualmente sendo utilizada para entender melhor os processos ou obter previsões. Softwares

de simulação permitem que a operação seja testada e, consequentemente, otimizada, evitando

perdas de grande escala.

Na era digital, a demanda dos consumidores vem mudando radicalmente e a

necessidade de customização requer linhas de produção mais flexíveis e, com isso, a simulação

Page 36: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

36

se integra ao gerenciamento do ciclo de vida do produto. Com a facilitação do sensoriamento

de dados e capacidade de armazenamento de dados, são criadas simulações que facilitam a

tomada de decisão em tempo real, além da criação de cronogramas otimizados.

Inteligência Artificial

Define-se Inteligência Artificial como a capacidade dos programas computacionais de

operar de forma em que se acredita imitar os processos de pensamento humano (COLLINS,

2018). Tais processos podem ser agrupados em seis tipos de IA: Aprendizado de máquina,

Processamento de linguagem natural, Reconhecimento de fala, Reconhecimento de imagens,

Robótica e Planejamento. Com foco no primeiro, o aprendizado de máquina compreende o

desenvolvimento de algoritmos que permitem o sistema aprender com experiências passadas

(dados históricos), identificar padrões através de métodos estatísticos, fazer uma determinação

ou predição e melhorar seu desempenho automaticamente (JAVAPOINT, 2019).

Page 37: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

37

4. MACHINE LEARNING

O presente capítulo faz parte da revisão da literatura quanto ao estudo de machine

learning. Neste capítulo, são aprofundadas as técnicas de aprendizado de máquina, são citados

de maneira breve os principais algoritmos de ML, é detalhado o processo de construção de um

modelo, as diferenças de machine learning e ferramentas estatísticas básicas e por fim, como o

modelo é operacionalizado nas organizações.

4.1 Conceito

Este subcapítulo é baseado no livro “Inteligência artificial: uma abordagem de

aprendizado de máquina” de Faceli, Lorena et al. (2011). Em 1956, considera-se o marco zero

da Inteligência Artificial pela criação do campo de pesquisa na conferência de Dartmouth

College. Era vista como uma área teórica com aplicações em problemas desafiadores, mas com

pouco valor prático. A programação utilizada na época era resolvida pela codificação de regras

táticos para a solução do problema. Tal modelo de programação ainda é muito utilizado, no

entanto, de acordo com Facelli, Lorena et. al (2011):

A partir da década de 1970, houve uma maior disseminação do uso de técnicas de computação

baseadas em IA para a solução de problemas reais. Em grande parte das aplicações, a obtenção do

conhecimento se dava via especialistas de um dado domínio. Nas últimas décadas, com a evolução dos

problemas a serem tratados computacionalmente e o volume de dados gerados por diferentes setores,

surge a busca por técnicas computacionais mais sofisticadas e autônomas, que reduzissem a necessidade

da intervenção humana. E para isso, essa técnica deveria ser capaz de, por si próprias, criar hipóteses ou

funções a partir da experiência passada que resolva o problema proposto. A essa técnica dá-se o nome de

Aprendizado de Máquina ou Machine Learning (FACELLI, LORENA et. al, 2011, p.2).

O Machine Learning é um ramo da Inteligência Artificial, podendo dessa forma, ser

classificado como uma subcategoria das Tecnologias Cognitivas. Este emprega uma variedade

de técnicas estatísticas, probabilísticas e de otimização que permitem computadores a aprender

e detectar padrões difíceis de discernir a partir de dados passados dos parâmetros analisados.

No entanto, deve-se notar que, em contraste com a IA tradicional, o aprendizado de

máquina não tem por objetivo único automatizar uma tarefa que o ser humano faria de forma

repetitiva ou demorada, mas usar os pontos fortes e habilidades especiais dos computadores

para complementar a inteligência humana. Por exemplo, a capacidade de digitalizar e processar

enormes bancos de dados permite que programas de aprendizado de máquina detectem padrões

que estão fora do escopo da percepção humana (SHALEV-SCHWARTZ e BEN-DAVID,

2014).

Page 38: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

38

Simon (2013) definiu o objetivo dos processamentos de aprendizado de máquina como

a derivação de modelos preditivos a partir de dados atuais e históricos. Dessa forma, a tendência

é que o algoritmo aumente a precisão e acurácia à medida que ocorram mais iterações. Os

algoritmos de aprendizagem de máquina podem alcançar resultados extremamente eficientes

para domínios muito restritos usando modelos treinados a partir de grandes conjuntos de dados.

Alpaydin (2014), afirma que com o uso de ferramentas de machine learning podem ser

detectados certos padrões. Tais padrões permitem mapear o processo e realizar predições de

forma que se assume que o futuro não será muito diferente do passado onde o dado dessa

amostra foi coletado, e assim é possível esperar que as predições futuras estejam corretas.

4.2 Técnicas

De forma geral, há quatro principais técnicas de modelagem de machine learning:

Aprendizado supervisionado, Aprendizado não supervisionado, Aprendizado semi-

supervisionado e Aprendizado por reforço. A Figura 13 apresenta as categorias de machine

learning.

Figura 13: Técnicas de Machine learning por categorias.

Fonte: Adaptado de Mohammed, Khan e Bashier (2017, p.7)

Segundo Castle (2018), a maior diferença entre o aprendizado de máquina

supervisionado e não supervisionado é o fato dos algoritmos de aprendizado de máquina

supervisionados serem treinados em conjuntos de dados rotulados que orientam o algoritmo a

entender quais recursos são importantes para o problema em questão. Por outro lado, os não

supervisionados, são treinados em dados não rotulados e devem determinar a importância do

recurso por conta própria, com base nos padrões inerentes à amostra.

Page 39: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

39

O Aprendizado supervisionado é utilizado, normalmente, para a predição de eventos.

Na aprendizagem supervisionada, o objetivo é inferir uma função ou mapeamento a partir de

dados de treinamento. Mohammed, Khan e Bashier (2017) definem que os dados de

treinamento consistem no vetor de entrada X e no vetor de saída Y de rótulos. Um rótulo do

vetor Y é a explicação de seus respectivos dados de entrada. Em outras palavras, ao utilizar o

aprendizado supervisionado, obtém-se conhecimento prévio de quais devem ser os valores de

saída para nossas amostras, podendo dados incorretos interferirem na eficácia do modelo.

O aprendizado supervisionado geralmente é realizado no contexto de classificação,

quando se quer mapear a entrada para os rótulos de saída. Tanto na regressão quanto na

classificação, o objetivo é encontrar relacionamentos ou estruturas específicas nos dados de

entrada que nos permitam produzir efetivamente dados de saída corretos. De acordo com Soni

(2018), o objetivo do aprendizado supervisionado é aprender uma função que, dada uma

amostra de dados e resultados desejados, se aproxima melhor da relação entre entrada e saída

observável nos dados. Ainda segundo Soni (2018), ao conduzir o aprendizado supervisionado,

as principais considerações a serem feitas são em relação a complexidade do modelo e o trade-

off de viés e variância.

O Aprendizado não supervisionado é utilizado para a descrição de eventos ainda não

conhecidos. As tarefas mais comuns no aprendizado não supervisionado são agrupamentos,

aprendizado de representação e estimativa de densidade. Em todos esses casos, deseja-se

aprender a estrutura inerente dos dados sem usar rótulos fornecidos explicitamente.

Dois casos de uso comuns para aprendizado não supervisionado são análise exploratória

e redução de dimensionalidade. O aprendizado não supervisionado, por não possuir saídas

rotuladas, é útil na análise exploratória porque pode identificar automaticamente a estrutura nos

dados. Por exemplo, ao tentar segmentar consumidores, métodos de cluster não supervisionados

seriam uma possibilidade ponto de partida para análise.

Os algoritmos de aprendizado não supervisionado aprendem a partir dos dados. Quando

novos dados são introduzidos, o modelo usa os recursos aprendidos anteriormente para

reconhecer a classe de dados que está sendo tratada. De acordo com Soni (2018), em situações

em que é impossível ou impraticável para um ser humano propor tendências nos dados, o

aprendizado não supervisionado pode fornecer informações iniciais que podem ser usadas para

testar hipóteses individuais.

No Aprendizado semi-supervisionado, os dados fornecidos são uma mistura de dados

rotulados e não rotulados. Essa combinação de dados rotulados e não rotulados são usados para

Page 40: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

40

gerar um modelo apropriado para a classificação dos dados. Segundo Mohammed, Khan e

Bashier (2017), na maioria das situações, os dados rotulados são escassos e os não rotulados

estão em abundância.

De acordo com Castle (2018), o processo de rotular grandes quantidades de dados para

aprendizado supervisionado geralmente leva muito tempo e tem custo elevado. Além disso,

rótulos excessivos podem impor vieses humanos ao modelo. Isso significa que incluir muitos

dados não rotulados durante o processo de treinamento tende a melhorar a precisão do modelo

final enquanto reduz o tempo e o custo gastos na construção.

O método de aprendizado por reforço visa usar observações reunidas a partir da

interação com o meio ambiente para tirar ações que maximizam o ganho ou minimizam o risco.

Dessa forma, com o uso deste método, é possível determinar o comportamento ideal que um

algoritmo deve apresentar dentro de um contexto específico.

O aprendizado por reforço procura resolver o problema de correlacionar ações imediatas

com os retornos atrasados que elas produzem. Eles operam em um ambiente de retorno atrasado,

onde pode ser difícil entender qual ação leva à qual resultado ao longo de várias etapas.

O aprendizado por reforço difere do aprendizado supervisionado de maneira que, no

aprendizado supervisionado, os dados de treinamento possuem a chave de resposta, de modo

que o modelo é treinado com a resposta correta, enquanto no aprendizado por reforço, não há

resposta, mas o algoritmo de reforço decide o que fazer para executar a tarefa especificada.

Na ausência de um conjunto de dados de treinamento, o modelo aprende por meio da

experiência e age sequencialmente. Segundo Menon (2018), o processo em que o algoritmo

executa uma ação para obter uma recompensa e passa para a próxima etapa é chamado de

Processo de Decisão de Markov. Em um Processo de Decisão de Markov, o estado futuro é

decidido com base em onde se está atualmente. Uma aplicação do aprendizado por reforço se

dá nos jogos de computador em que a máquina muda seu movimento de acordo com o

movimento dado pelo humano que se caracteriza como adversário.

4.3 Algoritmos

Há diversos tipos de algoritmos de machine learning que são classificados com base nas

técnicas descritas no item 4.2, a citar: Aprendizado supervisionado, Aprendizado não

supervisionado, Aprendizado semi-supervisionado e Aprendizado por reforço.

A seleção do algoritmo de machine learning que melhor se adequa a aplicação

pretendida de aprendizado de máquina para alcançar melhores resultados, às vezes, pode ser a

Page 41: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

41

parte mais difícil. Wujek, Hall e Gunes (2016), em seu estudo, revelam que a decisão de qual

algoritmo usar pode ser orientada respondendo a perguntas importantes, como exposto na

Figura 14.

Perguntas Fatores de análise

1. Qual é o tamanho

e a natureza dos

dados?

Modelos lineares costumam ser uma boa escolha para grandes

conjuntos de dados devido à eficiência do treinamento.

Relacionamentos mais complexos podem ser modelados através de

algoritmos mais sofisticados como, como árvores de decisão, florestas

aleatórias, redes neurais e sistemas não-lineares. Algoritmos mais

sofisticados costumam exigir mais tempo de treinamento e podem ser

inadequados para conjuntos de dados muito grandes.

2. O que você deseja

atingir com o

modelo?

O propósito do modelo é classificar dados, prever um valor para uma

meta de intervalo, detectar padrões ou anomalias, ou fornecer

recomendações? Responder o resultado esperado auxilia no

direcionamento para um subconjunto de algoritmos de aprendizado de

máquina especializados no tipo específico de problema.

3. Quão preciso o

modelo precisa ser?

Modelos mais simples treinam mais rápido, são mais fáceis de

implantar e de entender, facilitando a explicação de como e por que os

resultados foram alcançados. Um benefício adicional de um modelo

mais simples é que ele será menos propenso a overfitting dos dados de

treinamento.

4. Quanto tempo há

disponível para

treinar o modelo?

O tempo de treinamento está diretamente relacionado a precisão

desejada pelo modelo. Para treinar um modelo em um curto espaço de

tempo, árvores de regressão e regressão linear ou logística,

provavelmente são boas opções. Se o tempo de treinamento não for um

problema, podem ser utilizados algoritmos mais robustos (redes

neurais, máquinas de vetores de suporte, aumento de gradiente etc.)

que refinam iterativamente o modelo.

5. Quão interpretável

e compreensível o

modelo precisa ser?

Se a capacidade de interpretação ou a documentação explicável forem

importantes, é aconselhado o uso de árvores de decisão ou alguma

técnica de regressão, levando em consideração a possibilidade do uso

de técnicas de regressão penalizada, modelos aditivos generalizados,

ou média do modelo para refinar seu modelo. Se for necessário garantir

alta precisão, mas ainda precisar explicar os resultados do modelo, uma

abordagem comum é treinar um modelo complexo, usar esse modelo

para gerar valores-alvo previstos, e em seguida, usar esses valores

previstos para treinar uma árvore de decisão.

Figura 14: Quadro Perguntas e fatores de análise para escolha de um algoritmo.

Fonte: Adaptado de Wujek, Hall e Gunes (2016, p.13)

Page 42: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

42

Tendo em vista que o objetivo da presente pesquisa não consiste em realizar uma busca

exaustiva de algoritmos de machine learning na literatura, este subcapítulo, com base no estudo

realizado por Wujek, Hall e Gunes (2016), se restringe a citar os principais algoritmos, quais

são as aplicações mais comuns, qual é o tamanho/escala dos dados ideal para a utilização e a

facilidade de interpretação dos fatores que levam ao resultado do modelo, conforme exposto no

Apêndice – Características dos principais algoritmos de machine learning (p. 102 a 105).

4.4 Processo de construção de um modelo de machine learning

Nos tópicos anteriores foi realizada uma revisão teórica das principais técnicas

disponíveis para o desenvolvimento de um modelo de aprendizado de máquina, conhecimento

necessário para a prática em que serão escolhidas as melhores técnicas e algoritmos para o caso

desejado.

Neste tópico será abordada a prática de desenvolvimento de um modelo genérico de

machine learning, baseando-se nos conceitos de construção de modelos do livro Artificial

Intelligence and Machine Learning for Business de Steven Finlay (2017). O desenvolvimento

do modelo é realizado por nove macroetapas, identificadas na Figura 15.

Figura 15: Etapas do desenvolvimento de um modelo genérico de machine learning

Fonte: Adaptado de Finlay (2017, p.80)

Page 43: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

43

4.4.1 Definição do problema de negócio

Identifica-se uma necessidade no negócio: identificar os melhores consumidores. Os

melhores consumidores são aqueles que geram maior retorno financeiro. Porém, são eles

clientes individuais ou uma família? São os que geram maior retorno por visita ao site? Por

produto comprado? Por um período (mês, trimestre ou ano)? Logo, é necessário estressar o

objetivo macro até que se chegue a um entregável concreto esperado do modelo.

Esta é uma etapa preliminar que deve ser vista como prioridade no processo de

construção de um modelo de machine learning, por ser onde será realizada a definição do

objetivo e resultado-chave do projeto para posterior alinhamento destes ao nível tático.

Com isso, em primeiro momento, os stakeholders – a nível gerencial de business e

técnico (engenheiros de software) – do domínio deverão estressar o problema analisado para

delinear o resultado esperado e as áreas envolvidas. Em seguida, será repassado para os

cientistas de dados para discussão/esclarecimentos. O responsável por essa etapa é o(a) gerente

da área dona do projeto.

4.4.2 Análise exploratória

Dado que o problema foi definido e está claro para o cientista de dados e todos os

stakeholders, a próxima etapa é analisar de maneira exploratória a base de dados da organização

a ser usada no modelo tanto por uma visão de processos quanto da estrutura de dados. O

responsável por essa etapa é o cientista de dados. As práticas de análise nesta etapa estão na

Figura 16 e são mais detalhadas a seguir.

Figura 16: Quadro de boas práticas recomendadas na Análise exploratória

Fonte: Elaboração própria (2020)

Page 44: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

44

I. Processos

Com a realização dos tópicos presentes na Figura 16, será possível ter uma visão do

cenário atual, limitações e fatores de sucesso para o processo em estudo. Geralmente,

dependendo da necessidade da organização, as bases atualizam em tempo real, perto de tempo

real – a cada dez ou quinze minutos – diariamente, semanalmente ou mensalmente. Esse tópico

é importante para decidir posteriormente qual será o custo computacional necessário de acordo

com período de atualização do modelo.

II. Estrutura de dados

O tipo do dado define se o parâmetro representa características quantitativas ou

qualitativas. Quantidades são em formato numérico e qualidades em símbolos ou texto. A escala

define que tipo de operação pode ser realizada com os parâmetros e pode ser classificada como:

● Nominais (para tipo qualitativo): menor quantidade de informação possível, sendo

apenas possível a utilização de operações de igualdade ou desigualdade.

● Ordinais (para tipo qualitativo): além da operação de igualdade também há a

informação de ordenação.

● Intervalares (para tipo quantitativo): são representados por números que variam

em determinados intervalos, assim também é possível definir a diferença e

magnitude entre valores.

● Racionais (para tipo quantitativo): maior quantidade de informação possível, pois

são números absolutos em que é possível realizar todos os tipos de operação.

Estes dados estão contidos em bases variadas de dados de acordo com os processos da

companhia. Estas bases se relacionam através de chaves primárias e secundárias, números de

identificação dos dados. Idealmente, a empresa terá a documentação e mapeamento das suas

bases e relacionamentos. No entanto, em muitos casos não haverá esta documentação, até

mesmo pelas mudanças estarem se tornando cada vez mais rápidas, sendo necessário que o

cientista de dados realize entrevistas com funcionários da área para responder às perguntas

necessárias para o entendimento profundo das bases de dados e sua estruturação.

Após o entendimento do objetivo de negócio, análise da base de dados e sua

estruturação, a fase de ciência de dados se inicia e, por consequência, os problemas envolvidos

nas etapas iniciais. Para isso, as etapas, os principais problemas envolvidos e boas práticas

foram compilados na Figura 17.

Page 45: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

45

Figura 17: Quadro de práticas recomendadas para desafios comuns de aprendizado de máquina

Fonte: Elaboração própria (2020)

4.4.3 Criação da amostra de desenvolvimento do modelo

Com o dos dados existentes na organização e como estão estruturados, a próxima etapa

é a criação da amostra de desenvolvimento. O responsável pela etapa de criação da amostra é o

cientista de dados. Esta etapa consiste na limpeza da base e redução do universo de análise. Na

limpeza da base é realizada a desconsideração de:

I. Dados desatualizados: Dados que não são mais utilizados e não relevantes para o

negócio devem ser desconsiderados da base. Por exemplo, dados de compra de celulares

quando ainda não havia smartphones.

II. Dados que não sejam da população alvo: Dados que não se refiram à população

descrita na definição do problema em que o modelo será aplicado devem ser

desconsiderados. Por exemplo, se o modelo será aplicado para a estimativa de receita

de clientes que compram online, então deve-se excluir dados de transações offline.

III. Dados instáveis: Dados que não estarão disponíveis quando o modelo for aplicado

deverão ser desconsiderados. Caso a disponibilidade seja crítica, a estabilização do

fornecimento destes dados deverá ser priorizada antes da aplicação do modelo.

Page 46: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

46

IV. Dados de casos ilegais ou antiéticos: Antes da utilização dos dados, é necessário

entender a fundo a legalidade ou as consequências de críticas públicas de sua utilização.

Esta etapa deverá ser seguida pelos artigos da Lei de Proteção de Dados Pessoais

(LGPD) ratificado em agosto de 2018.

V. Dados de casos determinísticos: No caso em que, apenas com os dados de entrada, é

sabido como irá tratar determinado cluster de usuários – como regra de negócio – incluir

tais dados ao modelo poderá enviesar o modelo a uma precisão maior.

VI. Dados de baixa capacidade de interpretação: Dados que não foram totalmente

entendidos podem gerar resultados em que não poderão ser explicados. Para indústrias

que estão sujeitas à auditoria ou regulações, esse ponto é ainda mais importante, pois

levará a invalidação do uso do modelo.

Com a criação do ambiente de dados digitais, é comum que a organização tenha bases

de dados extremamente grandes. Como os recursos computacionais são limitados, será

escolhida para a base de desenvolvimento um recorte do universo de dados. Para quase todos

os problemas práticos de negócios, os benefícios de ter mais que algumas dezenas de milhares

de casos é marginal (FINLAY, 2017).

4.4.4 Organização de dados

Apesar da qualidade dos dados ter melhorado com a evolução dos equipamentos e

técnicas de coletas, os conjuntos de dados ainda estão sujeitos a problemas como dados ruidosos

(que possuem erros), redundantes, incompletos ou inconsistentes.

Atualmente, já existem técnicas que conseguem lidar bem com tais problemas, mas

podem comprometer a qualidade das análises. Sendo assim, é necessário identificar essas

situações para que sejam eliminados, preenchidos com os valores corretos ou criar heurísticas

para determinados casos.

4.4.5 Pré-processamento da base de dados

Apesar do crescente número de bases de dados disponíveis, na maioria das vezes, não é

possível utilizar algoritmos de aprendizado de máquina diretamente sobre esses dados

(FACELI, LORENA, et al., 2011). O fenômeno do Big Data foi fundamental para a geração de

dados digitais suficientes e de maior qualidade para o que se deseja analisar, no entanto,

geralmente os dados não se encontram adequados ao processamento computacional. Então, são

Page 47: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

47

utilizadas técnicas de processamento para tornar os conjuntos de dados mais adequados. Essas

técnicas podem ser classificadas nos seguintes grupos de tarefas: (i) Integração de dados, (ii)

Amostragem de dados, (iii) Limpeza de dados, (iv) Balanceamento de Dados, (v) Redução de

dimensionalidade e (vi) Transformação de dados.

Essa é a principal etapa em todo o processo de desenvolvimento do modelo de machine

learning, pois é a que define a qualidade dos dados que serão processados para definição do

melhor modelo. Por isso e pelas diversas análises, também é a etapa que consome maior parte

do tempo de desenvolvimento.

Integração de dados

É comum que nem todos os parâmetros necessários estejam em uma mesma base de

dados, então, antes do início do uso da técnica de aprendizado de máquina é fundamental

realizar a integração das bases de dados. A integração se dará através da extração dos

parâmetros desejados utilizando o relacionamento entre as bases. Na integração é comum haver

certas inconsistências que deverão ser sanadas por similaridade de atributos, por exemplo. O

processo de integração resultará em um data warehouse centralizado.

Amostragem de dados

Para a obtenção do equilíbrio adequado entre acurácia (taxa de predições corretas) e

eficiência computacional, a amostra deve ser representativa do conjunto original de dados. E,

para isso, há basicamente três abordagens estatísticas de amostragem: aleatória simples,

estratificada e progressiva.

Na amostragem aleatória simples ocorre a seleção randômica dos casos no conjunto de

dados original, e é uma opção satisfatória caso as classes do conjunto tenham a mesma

proporção em número de objetos.

Caso as classes apresentem propriedades diferentes, como o número de objetos

desproporcionais, a amostragem estratificada é utilizada. A existência de uma quantidade

significativamente maior de dados que as demais pode levar à indução de classificadores

tendenciosos para as classes majoritárias. Para isso, uma opção é manter o número de objetos

para cada classe.

A amostra progressiva é uma alternativa quando deseja-se encontrar um tamanho ótimo

da amostra. Esta técnica começa com um pequeno número de objetos na amostra e aumenta

progressivamente o seu tamanho enquanto a acurácia continuar a melhorar.

Page 48: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

48

Balanceamento de dados

Em diferentes bases de dados haverá dados desbalanceados, ou seja, número de objetos

diferentes para cada classe. Essa situação é comum porque há eventos que ocorrem com maior

frequência que outros. Um exemplo disso é o conjunto de dados de clientes de um banco

rotulados como fraude ou não. Como fraude é um evento raro, acontecendo, na maioria das

vezes, em 1% dos clientes, a classe majoritária será de clientes idôneos. Dessa forma, o

resultado do modelo se torna enviesado. Na literatura, há três principais técnicas descritas:

i. Induzir o modelo para uma classe

Nessa técnica, modelos diferentes são construídos para a classe majoritária e

minoritária para que os comportamentos sejam aprendidos separadamente.

ii. Redefinir o tamanho do conjunto de dados

Nesse caso, pode ser realizado tanto o acréscimo de dados à classe minoritária

quanto a eliminação de dados da classe majoritária. Para as duas alternativas há

riscos: na primeira é possível que os dados acrescentados representem eventos que

nunca ocorrerão, além de poder acontecer um problema conhecido pelos cientistas

de dados como overfitting, ou seja, o modelo pode se superajustar aos dados de

treinamento – e errar ao predizer os novos dados. No segundo caso, dados de

importância para o aprendizado do modelo podem ser perdidos e levar ao problema

de underfitting, em que o modelo não se ajusta aos dados de treinamento – baixa

precisão e generalização.

iii. Utilizar diferentes pesos de classificação para diferentes classes

A utilização de pesos é uma opção ao balanceamento de dados, porém é a mais

limitada por serem números estáticos ou, quando calculados no modelo, complexos

o suficiente para monitoramento ou explicação.

Redução de dimensionalidade

Apesar de todas as etapas de limpeza de dados e amostragem mencionadas

anteriormente, muitos problemas têm por natureza um volume elevado de atributos para sua

resolução, como por exemplo:

a) Aplicações de reconhecimento de imagem: escala de 106 atributos a cada imagem

– considerando cada pixel um atributo, uma imagem 1024 por 1024 pixels teria

mais de um milhão de atributos.

Page 49: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

49

b) Expressões genéticas: escala de 104 atributos – apresentam dezenas de objetos cada

um com milhares de atributos

Este efeito do elevado número de atributos em algoritmos gera o problema classificado

como dimensionalidade, em que poucas técnicas de aprendizado de máquina conseguem lidar.

Para a redução desse efeito, existem algumas técnicas que podem ser divididas em dois grupos:

técnicas de Agregação e técnicas de Seleção de Atributos.

Nas técnicas de agregação, combina-se atributos originais por meio de funções lineares

ou não lineares. Uma das técnicas mais conhecidas é a Análise de Componentes Principais

(PCA - do inglês, Principal Component Analysis) (PEARSON, 1901) em que dados similares

– ou seja, de baixa variância – são correlacionados estatisticamente gerando grupos de dados

que reduzem a dimensionalidade do conjunto. O primeiro componente principal expressa a

maior magnitude de variância. Cada componente adicional expressa menor variância e mais

ruído/erro estatístico, portanto, representar os dados com um subconjunto menor de

componentes principais preserva o sinal e descarta o ruído.

4.4.6 Construção do modelo

Com os dados tratados, é iniciada a construção do modelo – etapa mais relevante para

o cientista de dados, apesar de representar uma pequena parcela do tempo de desenvolvimento

(FINLAY, 2017).

A criação do modelo objetiva a generalização – agrupamento de fenômenos similares

com capacidade de se adaptar adequadamente a dados inéditos de uma distribuição. Para isso,

o modelo é apresentado a variações de entradas até que atinja uma acurácia suficiente através

de três etapas: examinar os dados (treino), aprender com os dados (validação) e concluir sobre

a performance do modelo (teste). Como são três objetivos diferentes, os conjuntos de dados

utilizados em cada também serão diferentes. Na Figura 18 é possível visualizar a divisão dos

subconjuntos de amostra (GROOTENDORST, 2019).

Page 50: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

50

Figura 18: Divisão da amostra de desenvolvimento de um modelo de machine learning supervisionado

Fonte: Disponível em: <https://towardsdatascience.com/validating-your-machine-learning-model>. Acesso em

05 Mai. 2020, às 17:58

Nesta etapa de criação do modelo os dois primeiros foram tratados: treino e validação.

Os conjuntos de treino e teste são configurados como maior parte do conjunto de dados,

normalmente 80% do total da amostra de desenvolvimento.

O conjunto de treino inclui o conjunto de exemplos de entrada nos quais o modelo

ajustará seus parâmetros e, como o modelo precisa de volume de dados para aprender os

padrões, este conjunto representa de 70%–80% do conjunto treino.

Para que o modelo aprenda as classificações, ele precisa ser avaliado periodicamente na

etapa de teste. Ao calcular a taxa de erro pelos dados previstos no modelo versus classificação

existente no conjunto de teste pode-se saber o quão acurado ele é. O modelo realizará um loop

entre treino e teste até que gere o modelo ótimo (de menor taxa de erro) com os dados usados.

A construção ocorre a partir de um software com as funções apropriadas a modelos de

machine learning (R e Python são os mais utilizados) em que, como primeira etapa, o cientista

de dados insere e programa os algoritmos que irão processar os dados e repartir as amostras.

Após isso, realiza os comandos para geração do modelo – uma função, de forma prática –

ilustrados na Figura 19.

Page 51: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

51

Figura 19: Exemplo de código de parte da construção de um modelo

Fonte: Elaboração própria (2020)

Page 52: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

52

O modelo ótimo será gerado pelo software e seus resultados. Caso os resultados não

sejam bons, com alto erro, um problema comum é o underfitting – que acontece na etapa de

treino quando o modelo não consegue encontrar relações entre os dados, de acordo com o artigo

publicado pela Didática Tech (2019). Assim, o cientista de dados irá realizar ajustes de pré-

processamento e voltar para a construção do modelo.

4.4.7 Teste do modelo

Como penúltima etapa, há o teste da generalização do modelo construído. Por uma

perspectiva técnica, esta etapa envolve principalmente calcular a acurácia de predição em um

conjunto de dados diferente (FINLAY, 2017). É considerada uma etapa a parte da construção

do modelo por ser um conjunto diferente de dados - 20% a 30% da amostra de desenvolvimento.

Após a finalização da etapa de construção (treinamento-validação), o modelo ótimo gerado será

rodado com os dados do conjunto de teste para realizar uma avaliação não-viesada da

generalização no modelo, visto que ele nunca viu este conjunto de dados anteriormente.

A avaliação do modelo é realizada através da análise de diversas métricas e variam de

acordo com o tipo de problema trabalhado. Como a classificação é um dos problemas mais

frequentes no aprendizado de máquina com várias aplicações industriais (MINAEE, PATHAK

e CROOK, 2019), são apresentadas as principais métricas utilizadas na avaliação deste

problema específico. São elas: Acurácia, Precisão e Recall. Tais métricas são calculadas a partir

de uma Matriz de confusão, como a ilustrada na Figura 20 (SILVA, 2018).

Figura 20: Exemplo de uma matriz de confusão

Fonte: Silva (2018, p.43)

Cada linha da matriz de confusão representa as instâncias em uma classe prevista e cada

coluna representa as instâncias em uma classe real (MINAEE, PATHAK e CROOK, 2019).

1. Acurácia: número de previsões corretas dividido pelo número total de previsões.

(VP+VN) / (VP+VN+FP+FN)

Page 53: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

53

2. Precisão: número de previsões corretas em uma classe pelo número total de previsões

na classe.

(VP / VP + FP) ou (FN / FN + VN)

3. Recall: número de previsões corretas em uma classe pelo número total real. Geralmente

chamado de True Positive Rate (TPR) para a classe positiva e 1 - Recall da classe

negativa como False Negative Rate (FNR).

(VP / VP + FN) ou (VN / VN + FP)

4. F1 Score: métrica estatística que combina o recall com a precisão em um único número.

2 × precisão × recall / precision + recall

Com essas métricas geradas, o cientista de dados poderá comparar o resultado do teste

com o resultado do treino. Caso os resultados se encontrem similares, significa que modelo está

generalizando bem e será o melhor modelo possível. Caso divergirem, o principal problema a

ser considerado é o overfitting, que acontece quando o modelo se ajusta tanto aos dados de

treino que não consegue predizer por novos dados - há uma alta acurácia para o conjunto de

treino e baixa para o conjunto de teste. Logo, o cientista deverá voltar à etapa de preparação

para realizar mudanças nos dados e no pré-processamento. Vale pontuar que o machine learning

é um processo iterativo. Geralmente, muitos modelos são construídos usando variantes de

diferentes algoritmos e/ou diferentes representações de dados antes do modelo final ser

acordado (FINLAY, 2017).

4.4.8 Definição das regras de decisão

Com a coerência dos resultados de treino e validação têm-se o melhor modelo possível,

e então passa-se à fase de análise de regras de decisão. Uma das ferramentas mais utilizadas

nos problemas de classificação é o gráfico ROC, que coloca no eixo x a taxa de falso positivo

e no eixo y a taxa de verdadeiro positivo, como ilustrado na Figura 21 (BROWNLEE, 2020).

Este gráfico é representado por faixas de probabilidade para que um dado valor

probabilístico de ser positivo (True Positive Rate ou Recall) há um valor probabilístico de gerar

falso positivo (FPR ou 1 - Recall negativo). Além disso, há também a métrica AUC gerada com

a curva que nos diz o quão capaz o modelo é em distinguir as classes. Como pode ser visto neste

gráfico, quanto maior o Recall maior o erro na classe negativa. Por exemplo, para uma faixa de

Page 54: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

54

Recall de 60%, há um FPR de cerca de 10%. Portanto, há um trade-off entre a abrangência da

decisão versus o erro aceitável.

Figura 21: Exemplo de um gráfico ROC

Fonte: Disponível em <https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-

imbalanced-classification/> Acesso em 09 Mai. 2020, às 09:22

Outro gráfico também utilizado para facilitar a tomada de decisão é a curva precision-

recall. Este é mais utilizado que o ROC para casos em que a classe negativa é valiosa como,

por exemplo, bloqueio de contas de usuários que foram previstos como fraude, mas não eram.

A Figura 22 ilustra uma curva precision-recall:

Figura 22: Exemplo de gráfico precision-recall

Fonte: Elaboração própria (2020)

Page 55: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

55

Através dessas ferramentas, a área de negócio que utilizará o modelo em conjunto com

o cientista de dados poderá analisar tais métricas técnicas e as métricas de negócio para definir

a faixa de escores a ser aplicada na decisão e se precisarem de outros parâmetros, definirem

quais serão. Após a definição quantitativa, irão planejar se o modelo tomará decisão diretamente

ou se apenas gerará insumos para a decisão humana, mesmo que em primeiro momento.

4.5 Operacionalização do modelo na organização

Com o modelo pronto, a questão de como inseri-lo na corporação é levantada. Este

subcapítulo é baseado na seção 11 do livro Artificial Intelligence and Machine Learning for

Business de Steven Finlay (2017), com o objetivo de levantar de maneira breve a infraestrutura

de Tecnologia da Informação (TI), Sistemas e Processos necessária para operacionalização de

modelos de machine learning.

De acordo com Finlay (2017), o maior desafio para organizações que estão

implementando algoritmos de ML pela primeira vez é a aceitar o uso de tomada de decisão

automatizada. Para tal, a organização precisa estabelecer processos de governança e

infraestrutura para garantir que as decisões estão sendo feitas com base no previsto e cumprindo

com a legislação vigente.

O autor pontua que a integração do machine learning com os processos de negócios

deve considerar cinco pontos principais: (i) o uso do machine learning melhora os resultados

de um problema real da empresa?; (ii) a cultura da empresa está apta para implementar o uso

de tomada de decisão automatizada?; (iii) quais sistemas ou processos serão usados para

operacionalizar o modelo e como isso será computado?; (iv) existem dados suficientes para

construção do modelo?; (v) a organização possui expertise e software adequado para analisar

os dados e aplicar o modelo?

Uma limitação do machine learning é o fato de ser uma aplicação extremamente

específica. Por esse motivo, uma análise prévia do problema e seus impactos é fundamental

para garantir uma operacionalização adequada. Além disso, é necessário realizar um

levantamento das áreas que serão impactadas pelo modelo para realizar um planejamento da

gestão da mudança, com a comunicação, treinamentos e engajamento.

Finlay (2017) categoriza dois tipos de implementações: (i) Modelos ativos: predições

geradas pelo modelo são tratadas automaticamente sem envolvimento humano; (ii) Modelo

passivo: predições geradas pelo modelo são tratadas pela ação humana. Os modelos passivos

normalmente apresentam maiores problemas pelo fato de a ação humana ter liberdade de alterar

Page 56: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

56

decisões que foram tomadas centralmente, levando em consideração algum viés, de maneira

consciente ou não.

De acordo com o autor, um dos pontos críticos da operacionalização é a implementação.

A menos que a infraestrutura para uso de modelos de predição esteja bem estabelecida, a

implementação é um processo normalmente mais demorado e mais custoso do que a construção

do modelo.

Uma das possíveis abordagens de implementação é por meio de um projeto de TI, em

que o modelo é codificado por um programador da própria empresa dentro do sistema de

tecnologia da informação utilizado pela organização. Entretanto, esse modo de implementação

pode levar muito tempo devido ao fato de outras tarefas serem prioritárias em detrimento da

implementação do novo modelo. Um outro problema dessa abordagem é o pós-implementação,

em que qualquer incidente relacionado ao modelo entrará em uma fila de chamados do

departamento de TI.

A segunda abordagem consiste em realizar a implementação terceirizando o serviço de

um software especializado que é responsável por toda a interface do software usado para

construção do modelo e o sistema operacional onde o modelo será implantado. Para o pós-

implementação, muitas empresas prestam serviço de manutenção ao cliente no formato de

contrato guarda-chuva, em que o solicitante só tem custo quando algum atendimento é

requerido.

Uma vez que o modelo entra em modo “go live”, é necessário que exista um

monitoramento de seu comportamento para garantir a precisão, assim como a revisão do

processo de tomada de decisão periodicamente. O monitoramento é essencial devido a possíveis

mudanças que podem ocorrer na relação entre os dados usados para construção e treinamento

do modelo e os dados pós-implantação.

Page 57: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

57

5. MACHINE LEARNING NA INDÚSTRIA DO VAREJO

Neste capítulo é encerrada a revisão da literatura com a caracterização do setor estudado,

iniciando com um recorte na indústria de Varejo para o canal online em sites Marketplace, com

a apresentação das principais características do Marketplace, a descrição da empresa em que os

casos foram estudados e um resumo de aplicações de Machine Learning no setor em questão.

5.1 Marketplace: um recorte da indústria do varejo

A indústria de Varejo possui vasta atuação na cadeia de suprimentos e pode ser

categorizada com base em diferentes parâmetros. Para Kotler (2012), “o varejo inclui todas as

atividades relativas à venda de bens e serviços diretamente ao consumidor final, para uso

pessoal”.

Para aprofundar no objeto de estudo em questão, é necessário realizar um recorte mais

específico na Indústria de Varejo. De acordo com o estudo de Guissoni, de Oliveira e Teixeira

(2016), quatro modelos de negócio vêm se destacando no mercado de varejo online no Brasil:

i) assinaturas: promissor por ser uma fonte de receitas estável, além de promover a fidelização

de clientes; ii) marketplace: varejistas menores ou pessoas físicas têm a possibilidade de vender

seus produtos em grandes plataformas renomadas, sendo uma forma de aumentar a variedade

de ofertas aos clientes; iii) omnichannel: modelo que une o online e o offline, parte da premissa

de que a experiência do consumidor é completa quando integra esses dois tipos de varejo,

oferecendo, assim, a opção de compra na loja física ou na loja virtual; iv) franquias digitais:

modelo que permite a quaisquer indivíduos se tornarem consultores de uma loja virtual.

No presente trabalho, foi realizado o recorte da indústria do Varejo para o varejo online,

tratando do mercado de e-commerce e mais especificamente, o mercado de marketplace,

segmento o qual a empresa estudada pertence. De acordo com a definição de Lima (2019), via

E-commerce Brasil, o modelo de negócio das plataformas de marketplace tem por objetivo

juntar os interesses de compradores e vendedores, facilitando o processo de compra e venda

através de um canal único e confiável.

De acordo com Eugênio (2020), o e-commerce tradicional e o marketplace se

diferenciam pelo tipo de plataforma. O e-commerce destina todo o espaço virtual a uma única

marca, que é a responsável pela cadeia completa, desde implementar a plataforma, personalizar

o layout, atrair os usuários, receber os pagamentos e fazer as entregas.

O marketplace, por sua vez, destina o espaço virtual a diferentes marcas e indivíduos.

Neste modelo, a empresa dona do marketplace é responsável pelo gerenciamento tecnológico

Page 58: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

58

da plataforma, atração de clientes e, possivelmente, pela mediação do envio dos produtos e

sistema de pagamentos. Enquanto o vendedor deve apenas se cadastrar, incluir os produtos e se

responsabilizar pelo envio. Para empresas pequenas e médias empresas, o marketplace pode ser

uma alternativa para entrar no mercado digital com investimento baixo. Para indivíduos, o

marketplace pode ser um meio para a realização da economia compartilhada.

De acordo com Eugênio (2020), os marketplaces podem ser categorizados em quatro

tipos principais: Marketplace Business to Business (B2B), Marketplace Business to Consumer

(B2C) , Marketplace Consumer to Consumer (C2C) e Marketplace de Nicho, com as descrições

de acordo com a Figura 23.

Figura 23: Quadro dos tipos de marketplace e respectivas descrições

Fonte: Elaboração própria (2020)

Quanto ao lado financeiro, segundo dados do Relatório WebShoppers (2018), no ano

de 2017 as vendas em marketplaces representaram 31,5% do comércio eletrônico brasileiro e

crescimento de duas casas de 2015 a 2017 – ilustrado na Figura 24.

Page 59: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

59

Figura 24: Faturamento de marketplace 2015 a 2017

Fonte: Relatório WebShopper 37ª edição (2018, p. 19)

No tocante ao efeito de rede, também se observa o crescimento de consumidores que

realizaram pelo menos uma compra, como ilustrado na Figura 25.

Figura 25: Evolução dos consumidores

Fonte: Relatório WebShopper 37ª edição (2018, p. 11)

No relatório de panorama dos marketplaces no Brasil, focado nos segmentos de

marketplace B2C e B2B, realizado pela Precifica (2018), empresa especializada no

monitoramento de preços do e-commerce e precificação dinâmica, a quantidade de vendedores

Page 60: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

60

únicos nos sites de marketplace analisados registrou crescimento de 90,7% em relação ao

mesmo período no ano anterior, conforme a Figura 26. Este relatório utilizou dados de três

grandes marcas: Americanas, Extra e Walmart, que possuem pequenas e médias empresas

associadas como vendedores em troca de um percentual de comissão quando uma venda é

realizada.

Figura 26: Gráfico de quantidade e variação de vendedores nos marketplaces de setembro de 2017 a setembro de

2018

Fonte: Relatório Panorama dos Marketplaces no Brasil – Precifica (2018, p. 11)

Na subdivisão por departamento, é possível perceber que todos os departamentos

tiveram um aumento significativo na quantidade de vendedores, com destaque para os

departamentos de Utilidades Domésticas e Automotivo, que tiveram um aumento de 91,7% e

86,4%, respectivamente, ilustrado na Figura 27.

Page 61: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

61

Figura 27: Gráfico de concentração de sellers por departamento nos marketplaces de setembro de 2017 a

setembro de 2018

Fonte: Relatório Panorama dos Marketplaces no Brasil – Precifica (2018, p. 15)

Ainda neste relatório, a Precifica (2018) apresenta a diferença entre ofertas 1P e 3P,

mostrando que o modelo 3P tem volume predominante, conforme Figura 28. O modelo 1P trata-

se da venda direta, em que a empresa compra dos atacadistas e vendem diretamente para o os

clientes, tendo o custo de estoque e de distribuição, enquanto no modelo 3P os vendedores

vendem seus produtos em plataformas de marketplace renomadas que recebem uma comissão

sobre as vendas realizadas e/ou planos de anúncios, e permanecem sem domínio dos processos

de emissão da nota e entrega na transportadora.

Figura 28: Gráfico de Ofertas 1P vs Ofertas 3P nos marketplaces de setembro de 2017 a setembro de 2018

Fonte: Relatório Panorama dos Marketplaces no Brasil – Precifica (2018, p. 19)

Segundo a Sociedade Brasileiro de Varejo e Consumo em “Um estudo completo do e-

commerce” (2018), a participação total do e-commerce no varejo nacional é da ordem de 5%.

Somado ao constante crescimento da penetração da internet – que entre 2008 e 2019 saiu de

Page 62: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

62

34% para 70%, de acordo com a Agência Brasil – da realização de pedidos e venda online –

crescimento médio de 11% de 2017 a 2019, de acordo com dados do WebShoppers em 2019 –

pode-se observar que há grande oportunidade de digitalização e o potencial de crescimento para

marketplaces no Brasil. Além disso, com base nos dados coletados pelo Relatório WebShoppers

(E-BIT, 2015), em 2014 o Brasil era o décimo maior mercado de vendas on-line do mundo. No

mesmo ano, as vendas online totalizaram 35,8 bilhões de reais, com 25% de crescimento em

relação ao ano anterior, representando mais da metade das vendas desse canal na América

Latina (53,3%).

No cenário de 2020, de acordo com um artigo publicado pelo E-commerce Brasil

(2020), a edição trimestral do relatório Neotrust, com a pandemia do COVID-191 muitas

companhias aceleraram a transformação digital para passarem a vender pela internet,

fortalecendo o varejo online. O mercado de e-commerce brasileiro em abril de 2020 faturou R$

9,4 bilhões, apresentando um aumento de 81% em relação ao mesmo período do ano anterior.

Com base nos dados apresentados, é possível perceber que o mercado de marketplaces

no Brasil é representativo e se encontra com perspectiva de crescimento ao longo dos próximos

anos visto o aumento do uso da internet para compras de qualquer gênero. Além disso, o modelo

de negócios e estratégia do mundo físico são diferentes do mundo virtual, o que requer

adaptação por parte das empresas.

5.2 Aplicações do machine learning no setor

O aprendizado de máquina apresenta potencial no mercado de cyber security, o

rastreamento de fraudes monetárias online é um exemplo de aplicação. O Paypal está usando o

ML para proteção contra lavagem de dinheiro. A empresa utiliza um conjunto de ferramentas

que os ajuda a comparar milhões de transações em andamento e a distinguir entre transações

legítimas ou ilegítimas entre compradores e vendedores. O uso do machine learning torna o

sistema de detecção de fraudes mais robusto que o sistema tradicional baseado em regras

(MEDIUM, 2017).

Desde a personalização até a melhor segmentação de anúncios, as plataformas de varejo

virtuais estão utilizando o aprendizado de máquina para benefício próprio e do usuário. Um

exemplo de aplicação é o Computer Vision, que tem o machine learning como elemento

1 COVID-19 é uma doença causada pelo vírus SARS-CoV-2, que apresenta um quadro clínico que varia de

infecções assintomáticas a quadros respiratórios graves. Esta doença provocou uma pandemia no ano de 2020,

com mais de 11 milhões de infectados ao redor do mundo até julho/2020, desencadeando um grande impacto na

economia mundial.

Page 63: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

63

principal. De acordo com Le (2018), o Computer Vision é uma técnica para extrair informações

úteis de imagens. Algumas plataformas, como o Pinterest, utilizam Computer Vision para

identificar os objetos nas imagens e recomendar itens semelhantes. Em uma abordagem de

aprendizado de máquina para reconhecimento de imagem, é possível extrair os principais

recursos da imagem e, portanto, inserir esses recursos no modelo para aprimorá-lo.

Outra aplicação relevante de machine learning é na predição de inadimplência de

clientes. Um exemplo, seria calcular a probabilidade de um cliente não realizar o pagamento de

uma parcela. Para calcular a probabilidade de inadimplência, o algoritmo precisará primeiro

classificar os dados disponíveis em determinados grupos. Depois de realizar a classificação,

conforme a necessidade, é possível calcular a probabilidade.

No mais, a predição também pode ser utilizada para realizar uma estimativa da

quantidade de vendas. De acordo com a visão de Sharma (2017), no caso da indústria de varejo,

é possível a partir de um relatório histórico robusto, com os dados de venda de todo o ciclo de

vida da empresa, prever qual será a quantidade de vendas no próximo mês, ano, ou em datas

comemorativas, como por exemplo, Natal e Black friday. Dessa forma, as organizações podem

realizar uma tomada de decisão mais assertiva quanto ao investimento necessário em compras

de matéria-prima, disponibilidade de estoque, entre outros fatores.

A sugestão de compras é um artifício que apresentou ganho significativo com o uso do

aprendizado de máquina. Com base no comportamento do usuário com a plataforma, como por

exemplo: compras anteriores, itens curtidos ou adicionados ao carrinho, preferências de marca,

entre outros, são feitas recomendações de produtos.

A Inteligência Artificial permite que a Amazon preveja quais produtos terão maior

demanda para fornecer recomendações personalizadas com base nas pesquisas de clientes. De

acordo com um estudo realizado por uma empresa americana do ramo de performance em

marketing digital chamada Rejoiner (2018), o mecanismo de recomendação da Amazon gera

em torno de 35% do total de vendas da organização. Uma experiência de consumo ou serviço

é melhor, caso os interesses previstos e a resposta para essas demandas possam ser dadas através

da análise de dados, que é uma das suas atribuições da aprendizagem de máquina (GAMA,

2017).

Além disso, os chamados chatbots estão virando referência nos canais de comunicação

com os clientes. Esses robôs são programados para extrair informações do site e apresentá-las

aos clientes. O diferencial está no uso de algoritmos de machine learning que possibilitam

compreender melhor as consultas do usuário e a atendê-las com melhores respostas.

Page 64: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

64

De acordo com a Apium (2018), é possível citar como exemplo os assistentes virtuais

do grupo Alibaba, plataforma de e-commerce chinesa conhecida mundialmente. O chatbot de

atendimento ao cliente que processa 95% das consultas de clientes, tendo a possibilidade de ser

uma consulta escrita ou uma consulta em áudio. Além disso, o Alibaba usa a IA para ajudar a

mapear as rotas de entrega mais eficientes. A companhia chinesa afirma que a logística

inteligente resultou em uma redução de 10% no uso de veículos e uma redução de 30% nas

distâncias de viagem.

Outra possível aplicação na indústria de varejo é o uso do machine learning para

identificar avaliações falsas. De acordo com uma pesquisa realizada pela Podium (2017), 93%

dos entrevistados dizem que as avaliações on-line afetam suas decisões de compra.

No entanto, existem críticas falsas publicadas por concorrentes, bots, entre outros

mecanismos. Por esse motivo, empresas da indústria de varejo, sejam do ramo de e-commerce

ou de marketplace, tem utilizado machine learning para facilitar na detecção com ênfase em

análises verificadas. Por exemplo, de acordo com a Apium (2018), a Amazon usa algoritmos

para combater avaliações falsas de produtos e classificações de maneira ponderada. O algoritmo

concentra-se na importância e no peso das avaliações de compras verificadas dos clientes e as

aumenta. No mais, o algoritmo também leva em consideração as revisões que são marcadas

como úteis por outros usuários

Em 2020, empresas como Alibaba, eBay e Amazon estão usando a IA para detecção de

avaliações falsas, chatbots, recomendações de produtos, gerenciamento de big data, entre

outras aplicações. As organizações estão em busca de compreender o funcionamento dos

modelos de aprendizagem de máquinas para alcançar vantagem competitiva. De acordo com

Gama (2017), a aprendizagem e modelagem de máquinas é uma parte do processo para criação

de modelos de mineração de dados para diferentes indústrias.

Page 65: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

65

6. ESTUDOS DE CASO

No presente capítulo será realizada a caracterização da empresa, com objetivo de

apresentar o histórico da companhia, áreas de atuação e marketshare. Além disso, serão

abordados dois estudos de caso da companhia: Cancelamento de planos e Identificação de

Fraude por chat. Pela disponibilidade de informações, o modelo de cancelamento de planos será

tratado em linhas gerais, enquanto o modelo de fraude por chat será tratado de forma mais

profunda devido à participação ativa de uma das autoras no projeto.

6.1 Caracterização da empresa

Nesta seção é abordado tanto a caracterização da empresa estudada, o histórico desde

sua criação e a descrição das áreas em que serão realizados os estudos de caso.

6.1.1 A empresa

A empresa em estudo será caracterizada como MarketplaceCo por motivos de

confidencialidade. A MarketplaceCo faz parte de um grupo multinacional de marketplaces

fundado em 2006, com sede na Holanda e presente em mais de 40 países. O grupo é composto

por mais 20 marcas, usadas por aproximadamente 350 milhões de usuários por mês e com cerca

de 5000 funcionários (dados de 2020).

A MarketplaceCo é a empresa brasileira do grupo e, como marketplace C2C e B2C,

opera no comércio eletrônico de variados bens: imóveis, carros e bens de consumo. Foi fundada

em 2010 e se tornou o maior mercado do mundo para o grupo em 2015. De 2016 para 2017, a

MarketplaceCo aumentou sua receita em 103% e contratou 255 novas pessoas. Se tornou líder

nas categorias de carros em 2018 e de imóveis em 2020. Atualmente, tem cerca de 750

funcionários.

O modelo de negócios da empresa é um Software as a Service (SaaS) freemium ou seja,

sua fonte de receita é a comercialização da plataforma, em que o cliente paga um valor pelo

serviço a partir de uma faixa limite de uso grátis. Isso quer dizer que até uma quantidade X de

anúncios publicados, a plataforma é gratuita. No entanto, após o esgotamento dos X anúncios,

os próximos serão cobrados um determinado valor por anúncio ou o cliente poderá comprar um

plano com pacote de anúncios – variando o valor para a quantidade de anúncios requeridos.

Além dos anúncios pagos e planos, a outra fonte de renda é a comercialização de vantagens,

como por exemplo, exibição no topo do feed ou destaques para anúncios. Em suma, tais

Page 66: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

66

produtos são classificados como i) Pay As You Go (PAYG) – anúncios avulsos pagos, destaques

e bumps (topo do feed) e ii) Subscription – planos de pagamento recorrente mensal.

A plataforma é utilizada por dois perfis de usuários – anunciante e comprador – mas

apenas o anunciante é um perfil pagante. O anunciante tem três classificações: i) anunciante

privado – anunciantes sem plano; ii) anunciante profissional – anunciantes com algum algum

plano; e iii) anunciante Key Account – empresas que realizam a integração de seus anúncios

para a MarketplaceCo.

6.1.2 Áreas de estudo

Como empresa de tecnologia, a MarketplaceCo tem a digitalização inerente ao negócio

e opera, atualmente, aproximadamente 12 modelos de machine learning em diferentes áreas do

negócio. Neste projeto, será focado em dois modelos: um na área Comercial e outro na área de

Confiança e Segurança.

A área Comercial compreende todas as atividades de contato com o cliente profissional,

seja via canal telefônico, online ou presencial. É subdividida em três subáreas: Aquisição,

Atendimento e Retenção. O estudo do modelo no tópico seguinte 6.2 é da área de Retenção.

Enquanto a área Comercial é tradicional no mercado, a área Confiança e Segurança

nasceu com a evolução das plataformas online. Esta compreende as atividades de proteção aos

seus usuários, sua marca e seu produto contra usuários mal-intencionados (HUNT, 2017). Mais

conhecida como “Trust and Safety”, o termo é comumente usado em plataformas nas quais as

pessoas interagem. A Confiança e Segurança é a base para permitir que desconhecidos se tratem

de maneira pacífica e justa. No contexto do marketplace, ser a base da interação entre dois

estranhos equivale a ser a base do comércio eletrônico, visto que, para que as transações

ocorram, é necessário que o vendedor e comprador confiem na plataforma, além de a confiança

nas compras on-line também gerar um efeito positivo na satisfação do comprador

(SFENRIANTO e WANG, 2018).

De forma mais detalhada, são equipes multifuncionais compostas por analistas,

representantes de atendimento ao cliente, gerentes de produto, designers, cientistas de dados e

engenheiros de software e seu escopo de trabalho inclui a proteção de dados do usuário,

moderação de conteúdo, detecção preventiva e reativa de spam, fraudes, assédio e contas falsas.

Por fim, cabe frisar que o escopo da área Confiança e Segurança é diferente de uma área de

Risco. A primeira tem foco em proteger ataques ao usuário da plataforma, enquanto a segunda

protege ataques ao negócio.

Page 67: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

67

6.1.3 Levantamento de informações

A coleta de informações foi realizada com funcionários da MarketplaceCo. No modelo

de Detecção de fraude, uma das autoras do trabalho participou ativamente do projeto.

Entretanto, no modelo de cancelamento de planos não houve participação direta, tendo os dados

sido coletados a partir de análise de documentos disponibilizados e de entrevistas

semiestruturadas, com questões gerais de caráter qualitativo e quantitativo.

As entrevistas semiestruturadas do modelo de Cancelamento de planos foram realizadas

com o cientista de dados responsável pela construção do algoritmo e com um analista da área

Comercial para compreender melhor a utilização prática do modelo pela área de Retenção.

O cientista de dados é engenheiro de computação e trabalha há 2 anos e 3 meses na

MarketplaceCo. Foram realizadas duas entrevistas via videoconferência, em que os seguintes

questionamentos foram desenvolvidos:

a) Breve histórico e contexto da criação do modelo.

b) Qual o algoritmo escolhido para construção do modelo?

c) Como é o retorno do modelo? O que é cada item do gráfico?

d) Como é definido o grupo que vai para o tratamento com ligação?

e) Qual é a faixa de tempo de confiança da acurácia da predição?

f) Qual é a precisão do modelo? Como esta foi medida?

g) Quais análises são feitas com base no resultado do modelo?

h) Qual é o threshold da regra de negócio?

i) Por que mudou a frequência de envio para área Comercial?

j) Como é o processo de consumo de dados pela a área Comercial?

O analista da área Comercial é bacharel em administração de empresas, pós-graduado

em Business Intelligence e trabalha há 2 anos e 1 mês na MarketplaceCo. Foi realizada uma

entrevista, também via videoconferência, e os tópicos que guiaram as entrevistam foram:

a) Como foi a criação da área de Retenção?

b) Como é o processo de ligação para a base selecionada?

c) Como é o treinamento dos atendentes?

d) A área tem acesso a que tipo de dados dos usuários na base selecionada?

e) Há processos com atividades conjuntas com outras áreas do Comercial?

Page 68: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

68

O protocolo exposto nesta seção utilizou perguntas básicas que guiaram as entrevistas.

As informações coletadas com o uso deste protocolo subsidiaram o estudo de caso do modelo

de cancelamento de planos.

6.2 Cancelamento de planos

Este estudo de caso, como citado nas limitações e no início do capítulo, será menos

aprofundado devido ao acesso limitado aos dados e informações do modelo de machine

learning estudado.

6.2.1 Contexto

O histórico de criação do modelo de cancelamento de planos, na verdade, iniciou com

outro viés. No início do projeto, o objetivo da equipe de Data Science não era prever o

cancelamento de planos e sim predizer quais eram os potenciais assinantes de planos da

MarketplaceCo, para facilitar o trabalho de captação da área Comercial. Entretanto, pela pouca

disponibilidade de dados externos, o modelo de previsão de compras foi inviabilizado.

O modelo de cancelamento de planos foi desenvolvido pela MarketplaceCo com o

objetivo de reduzir o percentual de churn da companhia. De acordo com Duarte (2016), o churn

rate é o indicador que mede a taxa de cancelamentos dos clientes, ou seja, o percentual de

clientes que deixaram de consumir seu produto ou serviço naquele determinado período. Para

uma plataforma SaaS, o churn rate é a quantidade de clientes que cancelaram seus planos em

um dado período, dividido pelo total de clientes com planos ativos ao início do período –

geralmente analisado em períodos mensais para redução do efeito de sazonalidade.

Em modelos de negócios por assinatura, o índice de cancelamento de clientes tem

grande relevância, visto que é um indicador simples da saúde do negócio: quantos clientes de

uma base estão saindo. Além disso, se torna fundamental em momentos de crise em que as

empresas apresentam maior dificuldade de realizar a retenção dos seus clientes pagantes. O

churn é, inclusive, um dos principais Objective and Key Results (OKRs) da MarketplaceCo.

Por se tratar de uma meta da empresa, o modelo de cancelamento de planos teve em sua

fase de definição a interface de duas áreas da companhia, a área de Data Science, responsável

pelo desenvolvimento do modelo, e a área de Retenção (criada junto ao projeto dentro do

Comercial), responsável pela utilização do modelo como ferramenta de apoio.

Page 69: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

69

6.2.2 Construção do modelo

A etapa de definição do problema de negócio – identificar os potenciais cancelamentos

de planos – é preliminar e fundamental no processo de construção do modelo, de forma que

toda equipe do projeto tenha claro o objetivo e resultado que se pretende alcançar.

Com o problema de negócio alinhado, o segundo passo foi realizado pelo time de Data

Science com o objetivo de realizar uma análise exploratória dos dados, para definir quais

variáveis seriam mais significativas para o modelo. A compreensão do processo, construção da

amostra de desenvolvimento do modelo, pré-processamento de dados e construção do modelo

durou de julho de 2019 a novembro de 2019, com muitas iterações até se chegar no conjunto

de variáveis significativas.

O modelo escolhido para predição de cancelamento de planos foi o de Redes Neurais

Recorrentes. As Redes Neurais, como o próprio nome já diz, apresentam uma relação com a

capacidade de processamento equivalente a de um cérebro humano, em que um neurônio é

capaz de processar mais de mil informações simultaneamente.

De acordo com a entrevista realizada junto ao Cientista de dados desenvolvedor do

modelo, as Redes Neurais Recorrentes apresentam camadas de entradas, em que as variáveis

possuem pesos diferentes e há uma variável de viés, camadas de saídas (que podem ser binárias

ou não) e camadas ocultas, que funcionam como uma memória – a cada período de iteração, a

rede neural não só armazena no seu estado oculto informações dos dados observados naquela

iteração, como também recupera informações de iterações anteriores. O estado oculto pode

fornecer informações para a camada de saída, caso seja o momento de realizar uma previsão.

Devido às camadas ocultas os modelos de Redes Neurais Recorrentes apresentam custo

computacional alto para fase de treinamento do modelo e podem ser classificadas como de baixa

capacidade de interpretação (WUJEK, HALL e GUNES, 2016).

Para definir as variáveis mais significativas, foi utilizada a função de colinearidade

corrplot que plota a correlação entre as variáveis e de acordo com a classe definida para saída

– nesse caso, cancelamento de planos – foi possível definir quais eram as variáveis que mais

impactavam o modelo e seriam usadas como input na camada de entrada.

Na fase de pré-processamento, por se tratar de um algoritmo de rede neural, é necessário

encodar as variáveis, ou seja, converter todas as variáveis para que sejam classificadas de

maneira binária, retornando 0 ou 1. O método usado para binarização foi one-hot encoding. O

threshold é o limite escolhido entre os valores de probabilidade em que será tomada uma

decisão e, para esse modelo, foi selecionado threshold >= 0.5.

Page 70: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

70

O modelo recebe uma combinação de cerca de 1500 variáveis que buscam entender o

comportamento dos usuários na plataforma de maneira não linear e pouco interpretável. Como

exemplo dessas variáveis, pode-se citar: visualização de anúncios, interação com o atendimento

ao cliente, quantos anúncios o plano pleiteia, valor do contrato, data de renovação do contrato,

usuário pessoa física ou pessoa jurídica, quantidade de anúncios publicados, quantidade de

anúncios vendidos, tempo médio de resposta de mensagens no chat – todas em uma janela de

120 dias. Para cada uma dessas iterações, o modelo recebe combinações da quantidade que

foram realizadas em cada categoria – a MarketplaceCo possui 71 categorias distintas – e em

cada plataforma – Android, iOS, browser para celular e para desktop.

Com as variáveis bem definidas e os dados tratados, inicia-se de fato a construção do

modelo. No primeiro momento, é necessário randomizar a base de dados históricos para garantir

que os dados não estejam classificados em uma ordem, por exemplo, todo mundo que cancelou

em um primeiro bloco e todo mundo que não cancelou em um segundo bloco, para evitar

enviesar o modelo.

Após a randomização, as amostras foram separadas em treino (70% da amostra) e teste

(30% da amostra) utilizando a função sample que realiza uma amostragem aleatória tanto no R

quanto no Python. Nesse estágio, o algoritmo é rodado para aprender com o conjunto de treino

que já possui a classe definida – cancelamento – as camadas de entrada e as camadas ocultas.

Com o aprendizado do treino, foi realizado um teste com os 30% da amostra para validar

os resultados. Os resultados foram comparados com os resultados reais, visto que, neste

momento, dados históricos são utilizados. Dessa forma, foi possível comparar o que o algoritmo

previu com o que de fato ocorreu para calcular a precisão do algoritmo.

Para validar que o modelo apresenta assertividade, foi necessário comparar os resultados

do conjunto de teste aos resultados reais dos dados históricos. A avaliação da precisão do

modelo foi realizada a partir da matriz de confusão, comparando quantos dados deram resultado

positivo no algoritmo em relação aos dados que deram positivo na vida real, quantos dados o

algoritmo retornou que eram negativos em relação aos dados que eram negativos na vida real.

Com isso, o somatório de todos os acertos – verdadeiros positivos e verdadeiros negativos –

divididos pela quantidade total de dados apresentou o percentual de precisão final de 60%.

Depois o algoritmo entrou na fase de produção, comumente chamada de deploy. Na fase

de produção, ocorre o uso do modelo em um ambiente real para consumo de aplicações. Nesse

caso, novos dados foram rodados pelo algoritmo para que ele fizesse a predição dos usuários

que possuíam maior probabilidade de cancelar os planos.

Page 71: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

71

Durante a entrevista, quando perguntado em relação ao ganho financeiro potencial com

o uso do modelo, o cientista de dados comentou que o custo de processamento para cada hora

em que o modelo é processado é da ordem de dois dólares, mas que o ganho com a quantidade

de planos mantidos em relação ao ticket médio da companhia poderia ser da ordem de milhões.

Por fim, devido a quantidade de variáveis envolvidas e por consequência de fatores

externos, como por exemplo, crises na economia, o padrão de comportamento de usuário pode

alterar drasticamente, o que faz com que o modelo perca precisão. Nesse cenário, o entrevistado

deixou claro que o modelo necessita ser treinado novamente e que o tempo para retreinar é

menor que o período de treino gasto na fase de construção.

6.2.3 Análise crítica

Para análise dos resultados, é necessário entender como foi realizada a segmentação

para o melhor acompanhamento dos gráficos expostos nas Figuras 29 e 30. A curva de

“Control” (linha amarela) apresenta o comportamento das pessoas selecionadas pelo algoritmo

que possuem maior probabilidade de cancelar planos no decorrer do tempo. As curvas

“Treatment_with_call” (linha verde) e “Treatment_without_call” (linha laranja) apresentam,

respectivamente, o comportamento das pessoas selecionadas pelo algoritmo que receberam uma

ligação do time comercial e as que não atenderam a ligação. Por fim, a curva “Sacred” (linha

cinza) serve para acompanhar o comportamento a partir de uma amostra de usuários que

possuem uma probabilidade aleatória de cancelar planos.

O entrevistado informou que o período de confiança para garantir a precisão de 60%

modelo é de 15 dias após o dia da predição. Dessa forma, o modelo foi feito inicialmente para

predizer quais os potenciais usuários que iriam cancelar nos próximos 15 dias. Esse período é

justificável, visto que as variáveis de entrada do algoritmo dependem das ações dos usuários na

plataforma que ocorrem o tempo todo.

A Figura 29 representa o percentual de cancelamentos em relação aos dias a partir da

data que foi feita a predição no mês de setembro de 2019. De acordo com o entrevistado, nessa

época o algoritmo ainda tinha caráter experimental. A equipe de Data Science rodava o modelo

manualmente uma vez por semana e repassava a lista de cancelamentos potenciais para a área

Comercial.

Page 72: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

72

Figura 29: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de Setembro/2019

Fonte: Elaboração própria (2020). Dados retirados pela plataforma Tableau da MarketplaceCo.

Para isso precisa-se da amostra aleatória (Sacred) de usuários que não vão ter nenhuma

intervenção, apenas para acompanhar o comportamento em relação ao cancelamento de planos.

Essa comparação serve apenas como referência para demonstrar que o algoritmo está fazendo

predições assertivas, visto que a curva Control apresenta percentual de cancelamento maior que

a da amostra aleatória durante todo o período.

O entrevistado ressaltou que para medir a efetividade do algoritmo, com o objetivo de

validar o esforço em termos de custo e tempo, não adianta analisar apenas o percentual de

cancelamentos evitado isoladamente no tratamento com ligação, é necessário analisar também

o delta, ou seja, a variação em relação ao controle, usuários que já teriam probabilidade de

cancelar normalmente. Dessa forma, é possível avaliar o comportamento probabilístico dos

usuários e o delta demonstra o comportamento após o esforço de ligação.

Ao analisar o delta de D+10 em relação a data da predição, é possível ver que o

percentual de cancelamentos do grupo que teve tratamento com ligação era de

aproximadamente 11%, enquanto do grupo de controle era de 41%, tendo uma diferença de 30

pontos percentuais.

Pelo fato de não ter sido disponibilizado o valor do ticket médio e a base de dados

completo não foi possível realizar cálculos de ganho financeiro e descobrir a quantidade de

planos mantidos em valor absoluto.

Page 73: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

73

Figura 30: Gráfico do percentual de cancelamento em relação aos dias da predição no mês de janeiro/2020

Fonte: Elaboração própria (2020). Dados retirados pela plataforma Tableau da MarketplaceCo.

Para comparação, a Figura 30 apresenta o gráfico do percentual de cancelamento em

relação aos dias, a partir da data que foi feita a predição em janeiro de 2020, em que o algoritmo

já estava em fase de produção. Nesse período, os dados já não eram mais gerados manualmente,

o algoritmo rodava de maneira automática com a frequência diária.

No período de D+10 em relação a data da predição, o percentual de cancelamento do

grupo que teve tratamento com ligação era de aproximadamente 17%, enquanto do grupo de

controle era de aproximadamente 44%, tendo um delta de 27 pontos percentuais.

Ao ser questionado quanto a diminuição do delta como uma possível diminuição da

efetividade do tratamento, o entrevistado relatou que no primeiro gráfico se tratava de um MVP

com uma amostra menor, e quando o processo é escalado outros fatores são envolvidos além

do algoritmo, então o delta do churn diminuir, não significa necessariamente que o modelo

piorou. Além disso, reforçou que o mais importante é o fato do custo da área comercial em fazer

o tratamento de falar com os usuários é muito menor do que a receita que seria perdida com a

quantidade de cancelamentos multiplicada pelo ticket médio.

Com o resultado do modelo, algumas análises podem ser feitas. O entrevistado relatou

que em determinados períodos, o percentual de cancelamentos do grupo que teve tratamento

por ligação era maior do que o percentual de cancelamentos de controle, o que demonstra que

o esforço de ligação nem sempre é suficiente.

Em uma análise crítica, pode-se pensar em outras estratégias de tratamento para

retenção deste público. Grande parte das ligações por telefone oferecem produtos que o cliente

Page 74: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

74

não deseja consumir, logo, ao realizar uma ligação, o time comercial deve estar bem treinado

para apresentar o valor do serviço oferecido, caso contrário, terá o efeito reverso de insatisfação,

comumente encontrado nas ligações de telemarketing. Nesse caso, outros canais de

comunicação poderiam ser explorados, como por exemplo mensagens por Whatsapp e E-mail.

Uma alternativa seria prover um diferencial no plano, seja com a oferta de descontos ou

períodos de congelamento de pagamento. Para isso, seria possível pensar em uma alternativa

de chatbot, que reduziria significativamente a necessidade de atendimento humano para

oferecer descontos e planos mais atrativos. Uma outra opção que as empresas praticam com

frequência é fortalecer a criação de conteúdos para que os usuários sejam impactados, por meio

de blogs, posts, ads, entre outros, com o objetivo de melhorar a percepção da qualidade do

produto/serviço.

Para entender melhor o problema do usuário e atuar em cima das causas prioritárias,

seria importante criar interface e ciclos de feedback entre a equipe de retenção e atendimento,

definindo uma frequência de reuniões para debater as lições aprendidas.

Além disso, no desenvolvimento do estudo de caso, foi possível levantar algumas

hipóteses e pontos de melhoria em relação a operacionalização do modelo, tratado no

subcapítulo 4.5, deste trabalho. Finlay (2017) reforça que para implementar um modelo de

machine learning, a cultura da empresa deve estar adaptada, caso contrário, pode haver

resistência à mudança.

Ao longo das entrevistas, foi notado que existe um desalinhamento de expectativas

quanto ao processo entre o time de Data Science e a área Comercial, mesmo se tratando do

churn um indicador de negócio relevante e um dos principais OKRs da empresa. Apesar de ser

uma empresa de tecnologia, há a hipótese de que o fato de a área Comercial não ser uma área

com o perfil técnico pode ter criado uma barreira na aceitação do modelo, visto que este não é

interpretável facilmente. Uma alternativa seria fazer uso de outra técnica de machine learning,

como por exemplo, árvore de decisão ou florestas aleatórias, pois apesar desses modelos não

apresentarem uma assertividade tão alta, com eles é possível identificar a causalidade entra a

classe e os atributos, dando oportunidade de diminuir o churn no início do processo e não apenas

no final.

Por se tratar de uma empresa de grande porte, áreas distintas não possuem tanta interface

em atividades de rotina. Por esse motivo, é importante que durante a implementação do modelo

se pense também em como realizar a gestão da mudança. Segundo Kotter e Schlesinger (2018),

para que a uma gestão da mudança ocorra de maneira branda, é necessário seguir passos como:

Page 75: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

75

alinhamento da liderança e stakeholders, envolvimento dos agentes do processo nas tomadas

de decisão, garantir uma comunicação clara entre as áreas do projeto e realizar treinamentos

com as equipes.

6.3 Identificação de fraudes no chat

Este estudo de caso, como citado nas limitações, será mais aprofundado devido ao

acesso de dados facilitado pela área responsável pelo modelo de machine learning estudado.

Os dados expostos foram manipulados por motivos de confidencialidade da informação.

6.3.1 Contexto

Como ferramenta para as negociações C2C, a MarketplaceCo conta com um chat nos

anúncios publicados. Para que a plataforma contenha apenas negociações seguras, a equipe de

Trust&Safety atua na moderação de comportamentos ofensores no chat. Estes comportamentos

podem ser classificados como Spam, Desrespeito, Assédio ou Fraude e são identificados por

meio de denúncias de usuários ou por detecção proativa por meio dos dados de eventos de uso.

As mensagens de Assédio e Fraude são as de maior risco ao usuário e ao negócio e, com isso,

são prioridade para a área no médio prazo.

As denúncias de fraude representavam cerca de 70% do total, impactando milhares de

usuários, e houve um crescimento de denúncias efetivas de fraude de 39% do terceiro trimestre

de 2019 para o quarto – e esses números continuavam a crescer. Com isso, a redução de fraude

no chat foi priorizada durante o primeiro semestre de 2020. Devido à natureza textual dos dados

no chat, o melhor caminho seria um modelo de machine learning para a detecção automática

das mensagens com conteúdo fraudulento.

6.3.1 Construção do modelo

Primeiramente, realizou-se uma análise dos recursos necessários para a realização do

projeto de construção do modelo e do tempo estimado necessário para as etapas. Como a equipe

já continha um cientista de dados, foi decidido que a construção do modelo seria realizada

internamente. Porém, para o desenvolvimento da infraestrutura técnica deste projeto e de outros

da área, seria necessária a contratação de programadores. Assim, durante o primeiro trimestre

de 2020, houve a ambientação dos novos integrantes e o desenvolvimento das primeiras duas

etapas do processo de construção do modelo: a Definição do problema de negócio e a Análise

exploratória.

Page 76: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

76

A Definição do problema de negócio pode ser dividida em duas partes: 1) a estruturação

do objetivo e 2) o entendimento do holístico do problema.

A primeira etapa foi simples e alinhada com todos os stakeholders, com o objetivo de

reduzir o impacto da fraude aos usuários, sendo especificamente definido como: a detecção do

golpe de Falso Pagamento antes que a denúncia aconteça, levando a uma redução de 20% do

número de denúncias efetivas até o final de junho. O golpe do “Falso Pagamento” era o

majoritário no chat, representando 85% das denúncias efetivas de fraude. Nele, o fraudador,

geralmente com o perfil de comprador (sem histórico de anúncios publicados), envia mensagens

em anúncios de objetos de fácil envio e valor aquisitivo considerável – celulares, videogames

e relógios, por exemplo – solicitando realizar o pagamento por sites externos.

No entanto, ainda havia algumas análises mapeadas para o entendimento holístico do

problema. As análises compreendiam o entendimento do antigo modelo de machine learning

denominado Chat Sense – o porquê o antigo modelo não evitava as denúncias e quais lições

poderiam ser aprendidas para o desenvolvimento do novo – além da descoberta do real impacto

aos usuários da plataforma (não apenas àqueles que denunciavam). Então, foram iniciadas

análises para responder a essas perguntas.

Para o primeiro tópico de questões sobre o modelo Chat Sense, iniciou-se o

entendimento do seu contexto de uso. O Chat Sense foi construído em janeiro de 2019 com o

objetivo de detectar a fraude na primeira denúncia (reduzindo as secundárias, terciárias, etc)

através de uma fila de denúncias de alta probabilidade de fraude para tratativa por revisores da

equipe operacional.

Na época, o número de denúncias era três vezes menor que atualmente (junho de 2020)

e o tempo entre a chegada da denúncia e sua resolução era de um dia, em média. O Chat Sense

foi implementado em fevereiro de 2019 com atualização de hora em hora, e alterado em março

para atualizar de 15 em 15 minutos. Com a operação semiautomática – fila de denúncias de

probabilidade de fraude acima de 0.95 – o modelo conseguiu reduzir o volume de denúncias

em 60% março versus fevereiro e aumentou a efetividade das denúncias tratadas de 10% para

70%. A Figura 31 ilustra os resultados obtidos.

Page 77: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

77

Figura 31: Resultados do antigo modelo Chat Sense da área de Trust&Safety

Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.

No entanto, esses resultados não se mantiveram constantes. De acordo com o Raio X da

Fraude da Konduto (2020), houve um aumento de 14% na taxa de tentativas de fraude no

comércio eletrônico brasileiro entre 2018 e 2019, e para a MarketplaceCo, a fraude no chat se

intensificou ainda mais a partir de outubro.

Logo, em outubro foi implementada uma regra para moderação automática utilizando

os thresholds do Chat Sense acima 0.95 atrelado a um parâmetro cadastral. O volume de

denúncias de fraude estabilizou, mas não reduziu. Para entender o motivo, foi realizada uma

análise simulando a operação do modelo detectando contas de fraude com threshold acima de

0.95 em diferentes deltas de tempo entre a data da última mensagem (aproximação da data da

atribuição do score) e a data das denúncias, como ilustrado na Figura 32.

Figura 32: Simulação de prevenção de denúncias efetivas de fraude pelo modelo Chat Sense, média semanal

Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.

Page 78: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

78

Pelo gráfico acima, é perceptível que se o modelo realmente atuasse a cada 15 minutos,

deveria acontecer uma redução de 18% das denúncias efetivas – e ainda teria um potencial de

45% de redução caso atuasse em tempo real (segundos). Então, surgiu o questionamento: por

que essa redução não aconteceu na realidade? Ao analisar o tempo de processamento do

modelo, é descortinado que, ao iniciar a atualização, ele demora quase meia hora para processar.

O gargalo do processamento é a etapa de “Busca de dados a serem analisados”, conforme Figura

33.

Figura 33: Tempo de processamento do modelo Chat Sense, em minutos

Fonte: Elaboração própria (2020). Dados retirados do sistema Airflow da MarketplaceCo.

O cientista de dados que construiu o modelo Chat Sense relatou que este foi

desenvolvido analisando todo o histórico de conversas do usuário, com a base de todos os

usuários que enviaram alguma mensagem naquele período de 15 minutos. Logo, por não ter

nenhum filtro nos dados a serem analisados, o volume de conversas a serem processadas em

cada atualização é da casa de dezenas de milhares, e a infraestrutura anterior não conseguia

processar o modelo em tempo menor.

Como seria necessário alterar a infraestrutura, e com isso analisar em detalhe o

funcionamento do Chat Sense, foi decidido como melhor opção a construção de um novo

modelo internamente: o Fraud Detector.

Page 79: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

79

Sobre o segundo tópico de entendimento do problema, o impacto real aos usuários, ficou

evidenciado que um fraudador impacta, em média, dez usuários. Então, ao reduzir 20% das

denúncias efetivas de fraude – detectando a fraude na primeira conversa – reduziria também

15% dos usuários impactados.

Com a definição do problema finalizada, foi realizada a etapa de Análise Exploratória.

Nesta etapa foi definido que a base utilizada consistiria apenas de dados denúncias efetivas

tratadas por humanos, pois são os dados que contém a classificação do tipo de golpe (Falso

Pagamento) e reduziria o viés de regras automáticas legadas. Essa base atualiza diariamente e,

devido à alteração do comportamento na plataforma causada pelo COVID-19, seriam extraídos

dados pré quarentena e durante.

Com o problema bem definido e bases analisadas, iniciou-se de fato a construção do

modelo. Por ser um projeto grande e com impacto em diferentes áreas da empresa, realizaram

a estimativa do tempo necessário às próximas etapas para a realização dos devidos alinhamentos

entre a equipe e outras áreas. Para isso, foi construído pela equipe um roadmap do projeto –

ferramenta comumente utilizada na construção de produtos digitais, similar a um gráfico de

Gantt. Um roadmap de produto é um recurso visual que mapeia a evolução do produto ao longo

do tempo. É uma ferramenta útil para guiar os desenvolvedores do projeto às tarefas planejadas

e para alinhar as expectativas com stakeholders do produto, garantindo que todos estejam na

mesma página. O roadmap planejado para construção do modelo Fraud Detector está ilustrado

na Figura 34 e apresenta uma estimativa de implementação na primeira semana de junho.

Figura 34: Roadmap planejado para a construção do Fraud Detector

Fonte: Elaboração própria (2020)

Page 80: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

80

Para a construção da amostra de desenvolvimento e demais etapas, o software utilizado

foi o Python. Foi definido entre o cientista de dados e a equipe de projeto que a primeira versão

do modelo utilizaria apenas o texto das conversas, pois para outros tipos parâmetros seriam

necessários diferentes métodos de machine learning. Foram utilizadas todas as conversas que

foram denunciadas e validadas pelos revisores de moderação (denúncias efetivas) nas semanas

completas de 30/03/2020, 27/01/2020 e 06/04/2020. Estas conversas foram divididas em três

datasets, um para treino e teste, e outros dois para validação: treino e teste durante a quarentena

(30/03/2020), validação antes da quarentena (27/01/2020) e validação uma semana depois do

dataset treinado (06/04/2020).

Como aprendizado do Chat Sense, foram realizadas análises para redução do volume de

dados a serem processados. Verificaram que 87% dos fraudadores foram denunciados em até

12x minutos após a abertura do chat, como mostra a Figura 35.

Figura 35: Denúncias de fraude semanal vs. tempo entre a mensagem e a denúncia

Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.

Com isso, definiram que os datasets utilizados para treino e validação deveriam ser

constituídos de mensagens enviadas em até 1h em cada chat. Além disso, fizeram uma segunda

análise para definir o número mínimo de caracteres enviados pelo comprador em um chat para

que uma fraude fosse denunciada, com o objetivo de executar o modelo em produção para

inícios de conversas como “Oi, tudo bem?”, “Ainda está disponível?”, “Tenho interesse!”, etc.

Page 81: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

81

Ao analisar a quantidade de caracteres nos conjuntos notaram que 75% das conversas idôneas

tem até 12 caracteres (Figura 36), enquanto nas fraudulentas apenas 13% (Figura 37).

Figura 36: Distribuição do tamanho das conversas idôneas

Fonte: Documentação interna do projeto (2020, p. 3)

Figura 37: Distribuição do tamanho das conversas de fraude

Fonte: Documentação interna do projeto (2020, p. 3)

Page 82: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

82

Assim, foi definido que o modelo só seria executado a partir de 12 caracteres de

conversa. Além disso, decidiram reunir em cada conversa somente as mensagens do usuário

que é comprador, para que não houvesse viés da resposta do vendedor.

No pré-processamento de dados, como ponto de partida, realizaram a normalização de

acentos, remoção de caracteres especiais, remoção de números e normalização para letras

minúsculas. Após a preparação dos dados, o próximo passo foi a transformação do texto em

números binários através da vetorização das palavras – transformação do texto em matrizes

significativas de números.

O método utilizado para a vetorização e seleção de atributos foi o Term Frequency-

Inverse Document Frequency (TF-IDF), pois associa cada palavra em um texto a um número

que representa a relevância de cada palavra nesse texto. O método foi iterado entre as

configurações unigrama (palavra a palavra), bigrama (conjuntos de duas palavras) ou trigrama

(conjuntos de três palavras). Em seguida, utilizaram três formas de validação da qualidade do

método: 1) clusterização, 2) visualização por Principal Component Analysis (PCA) e 3) teste

de hipóteses por algoritmo.

No primeiro, a hipótese a ser testada era: caso conseguissem agrupar com poucos

clusters significa que o conjunto de dados estava bem definido pelo método TF-IDF, caso

contrário, precisariam alterar as configurações. Com a clusterização utilizada, o resultado foi

considerado ruim, pois o número de clusters indicado era superior a 500. O método para

avaliação dos agrupamentos era custoso, visto que era preciso executar a clusterização para

diversos números de clusters até encontrar um número ideal, de acordo com cada configuração

de TF-IDF que gostariam de testar.

Optaram, então, por utilizar a técnica de PCA para visualização dos grupos formados

para cada nova configuração de TF-IDF que testaram. Neste contexto, conseguiram mais

rapidamente ver a organização dos clusters de acordo com as diferentes configurações de TF-

IDF testadas. Ao analisar o PCA para algumas configurações, a que, visualmente, melhor

separou as classes foi Trigrama com 5000 features (combinações de três palavras), conforme a

Figura 38, em que o rótulo 0 significa idôneo e 1 significa fraude:

Page 83: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

83

Figura 38: Análise visual do agrupamento de palavras por PCA

Fonte: Documentação interna do projeto (2020, p. 6)

Para validar a hipótese de que foi encontrada uma boa configuração de TF-IDF de uma

forma automatizada, selecionaram dois algoritmos – Logistic Regression e Multinomial Naive

Bayes– para testar os modelos para cada combinação de parâmetros do TF-IDF. Os parâmetros

a serem selecionados eram o tipo de configuração (unigrama, bigrama ou trigrama) e o número

de features (500, 1000, 2000, 3000, 4000 ou 5000). A métrica de decisão foi a F1-score, e as

combinações que apresentaram maior F1-score foram:

I. Unigrama-bigrama com 5000 features (Logistic Regression): F1-score 0.9633

II. Trigrama com 5000 features (Multinomial Naive Bayes): F1-score = 0.9514

Com isso, essas configurações de dados foram selecionadas para utilização nas etapas

de Treinamento, Validação e Teste do modelo. Após a seleção, além de randomizar a base, é

necessário balancear as classes visto que o universo de fraude é proporcionalmente irrelevante

ao não-fraude. Para isso, utilizaram a função RandomUnderSampler.

Assim como na validação do TF-IDF, foram utilizados dois tipos de algoritmos

correspondentes para o treino e validação do modelo – a ser escolhido o que obtiver melhores

resultados. O algoritmo Naive Bayes realiza classificações baseadas na probabilidade de cada

evento ocorrer, tendo como premissa a independência entre as variáveis. Funciona em

aprendizado supervisionado e é adequado para conjuntos de dados extremamente grandes, nos

Page 84: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

84

quais métodos complexos são intratáveis. Enquanto isso, a Regressão Logística é também um

algoritmo usado para os problemas de classificação, mas seu algoritmo de análise preditiva e

baseado no conceito de probabilidade admite variáveis dependentes.

Através deste algoritmo, foi treinado um modelo para cada configuração TF-IDF. Tendo

em vista a classificação do conjunto idôneo como 0 e conjunto fraude como 1, o F1-score foi 7

pontos percentuais maior para as duas classes no Unigrama-bigrama, enquanto no Trigrama a

precisão da classe fraude foi maior (100%). Os melhores modelos gerados para cada

configuração obtiveram os resultados apresentados nas Figuras 39 e 40.

Figura 39: Validação da configuração Unigrama-bigrama pelo algoritmo Logistic Regression

Fonte: Documentação interna do projeto (2020, p. 8)

Figura 40: Validação da configuração Trigrama pelo algoritmo Naive Bayes

Fonte: Documentação interna do projeto (2020, p. 8)

Partindo para o teste dos modelos, o primeiro foi realizado com o conjunto de dados da

semana seguinte à semana usada para treino. Os resultados (pre=precisão, rec=recall,

spe=especificidade, F1-score) apresentaram pequeno desvio em relação ao treino, como pode

ser observado nas Figuras 41 e 42.

Page 85: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

85

Figura 41: 1º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression

Fonte: Documentação interna do projeto (2020, p. 9)

Figura 42: 1º Teste da configuração Trigrama pelo algoritmo Naive Bayes

Fonte: Documentação interna do projeto (2020, p. 11)

O segundo teste, realizado com o dataset de antes da quarentena (27/01/2020), obteve

resultados também semelhantes, detalhados na Figura 43 e 44.

Figura 43: 2º Teste da configuração Unigrama-bigrama pelo algoritmo Logistic Regression

Fonte: Documentação interna do projeto (2020, p. 12)

Figura 44: 2º Teste da configuração Trigrama pelo algoritmo Naive Bayes

Fonte: Documentação interna do projeto (2020, p. 14)

Page 86: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

86

A configuração Unigrama-bigrama pelo algoritmo Logistic Regression, foi então

validada tendo o maior F1-score nas duas classes, já na configuração Trigrama o algoritmo

Naive Bayes obteve uma precisão maior, de 98%, para a classe 1 (fraude). Como era sabido que

a tratativa para uma classificação de fraude seria o banimento do usuário na plataforma, a

métrica de precisão teve o maior peso de decisão na escolha do algoritmo/configuração. Assim,

a equipe decidiu implementar o modelo com a configuração Trigrama pelo algoritmo Naive

Bayes.

Pelos quadros das duas validações, é perceptível que o modelo escolhido tem uma

precisão esperada de 98%-99% com uma abrangência de detecção de conversas de fraude, do

universo de treino (conversas dentro de uma hora de histórico e texto acima de 12 caracteres),

de 63%-70% do total. Além disso, uma forma de se analisar esses dados, com maior clareza, é

pelo o gráfico de ROC da Figura 45.

Figura 45: Gráfico de ROC da 1ª versão do Fraud detector

Fonte: Documentação interna do projeto (2020, p. 14)

Entretanto, para definir a regra de negócio que baniria o usuário por fraude, era também

necessário identificar a partir de qual threshold de probabilidade de fraude manteria a precisão

de 99%. Esta informação foi obtida através da Figura 46.

Page 87: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

87

Figura 46: Gráfico precisão vs. Threshold

Fonte: Documentação interna do projeto (2020, p.15)

Pelo gráfico, é possível identificar que para thresholds acima de 0,5 era possível manter

a precisão e abrangência máximos obtidos. Então, a regra de decisão inicial escolhida foi:

banimento do usuário por fraude para thresholds >= 0,5. Além da regra de decisão para fraude,

a equipe entendia que o modelo também tinha o potencial de automatizar a tratativa de

denúncias infundadas (denúncias de conversas idôneas) utilizando os thresholds mais baixos,

mas não era a prioridade no momento.

Com a etapa de construção da primeira versão do modelo finalizada, este foi

implementado na infraestrutura da plataforma e durante uma semana ficou armazenando os

dados sem tomar a decisão para que fosse realizado um terceiro teste, agora para o modelo

online conectado à plataforma, através do Fluxo de Monitoria.

Nesta etapa, o cientista de dados extraiu uma amostra estatisticamente representativa

das simulações de decisão do modelo e enviou para avaliação pela equipe de Monitoria – área

destinada à avaliação das decisões de banimento automáticas e manuais da MarketplaceCo. Na

avaliação da Monitoria, um operador analisou as conversas dos usuários presentes na amostra

e classificou-os como “Fraude”, “Sem suspeita” ou “Suspeita, mas sem dados” e o resultado

obtido foi: 75% Fraude (precisão), 23% Sem suspeita e 2% Suspeita, mas sem dados. Como

houve a divergência de precisão entre o teste offline e o teste online, o cientista de dados

analisou a situação como um overfitting (como visto no Tópico 4.4.7, o modelo se ajustou tanto

aos dados de treino que não conseguiu predizer por novos dados).

Assim, realizou um novo treino com quatro meses de dados (vs. uma semana da primeira

versão) e mesma configuração e algoritmo. O teste offline foi realizado na amostra enviada

Page 88: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

88

anteriormente para a Monitoria com as classificações do operador, e a precisão foi para 97% e

abrangência de 87% na amostra. O modelo foi implementado online, uma nova amostra foi

enviada para avaliação da Monitoria e o resultado obtido foi de 88% de precisão. No entanto,

ao filtrar os usuários que tiveram anúncios publicados, a precisão aumentou para 98% sem

redução na abrangência.

Enfim, o modelo foi habilitado para tomada de decisão no dia 27/05/2020. Em um

primeiro momento, para acompanhamento de possíveis falsos positivos, a regra de decisão foi

de threshold > 0,99 e usuário sem anúncios publicados. A regra final foi implementada no dia

03/06/2020 com a regra de banimento: threshold >= 0,5 e usuário sem anúncios publicados.

Page 89: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

89

6.3.2 Análise crítica

Em uma análise dos resultados, identifica-se que, mesmo com a habilitação de decisões

no meio da semana, houve um aumento de contas detectadas em tempo real de 9 vezes da

semana do dia 17/05 para a semana 24/05. O aumento do threshold levou a um crescimento

sucessivo de 40% – último resultado até a escrita deste estudo. Quanto à principal métrica de

negócio utilizada, esse aumento na detecção levou a uma redução de 50% nas denúncias efetivas

de fraude da semana do dia 08/06 em relação à média das últimas 4 semanas antes da

implementação do modelo. Este foi um resultado nunca obtido, desde setembro de 2019, como

pode ser observado na Figura 47.

Figura 47: Série temporal semanal do volume de denúncias efetivas de fraude

Fonte: Elaboração própria (2020). Dados retirados por consulta ao banco de dados da MarketplaceCo.

Além de o objetivo de negócio atingido, o modelo também apresenta baixo custo

operacional, com um tempo de processamento atual da escala de milissegundos, conforme

Figura 48.

Figura 48: Tempo de processamento do modelo Fraud Detector em milissegundos

Fonte: Elaboração própria (2020). Dados retirados pela plataforma Grafana da MarketplaceCo.

Page 90: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

90

Tais resultados do modelo impactam os usuários da MarkeplaceCo de forma a reduzir

experiências nocivas e gerar mais confiança para suas negociações.

Além dos usuários externos, o Fraud Detector também impacta os usuários internos da

área de Trust&Safety, a área de Operações. Com o aumento da detecção automática em tempo

real, a chegada de denúncias para tratativa manual obteve redução de aproximadamente 15%,

e a equipe tem como próximos passos a automatização da tratativa de mais denúncias,

especificamente estimadas em 45% do total atual, utilizando os scores abaixo de 0,5. E este é

um impacto positivo da automatização, pois gera uma tratativa manual ainda mais rápida e

possibilita a liberação de mão de obra , que passa a estar disponível, na tratativa de fraude, para

outras funções na empresa, como a tratativa de outras razões de denúncias (assédio, desrespeito

e spam) ou, a depender da demanda, para a testagem de qualidade de amostras de decisores

automáticos na área de Monitoria. Esta mudança ainda não foi realizada, mas já é uma

possibilidade que está sendo estudada pela área.

Analisando agora o processo de construção do modelo, outra mudança organizacional

– que nesse caso já aconteceu – foi a realização da programação em par. A programação em par

é oriunda da metodologia Ágil e funciona através da construção do código por dois papéis: um

de condutor: quem realiza a programação de fato – e outro de navegador: que realiza um tipo

de mentoria, dando sugestões e avisa sobre erros. O cientista de dados do projeto tinha

conhecimento teórico de machine learning pelo seu mestrado, mas ainda não tinha o

conhecimento prático de um modelo construído para a empresa, então o desenvolvedor sênior

foi seu navegador durante o projeto.

Quanto à análise crítica técnica, foi notado que o cientista de dados responsável pela

construção do modelo só se reuniu com o responsável pelo antigo Chat Sense após algumas

iterações do modelo. O benchmarking é uma forma de acelerar o conhecimento sobre um

determinado assunto, então caso tivessem se reunido antes, poderiam ter economizado tempo e

esforço no desenvolvimento do modelo.

Pelos dados atuais de denúncias, é possível observar que ainda há um volume

considerável de Falso Pagamento, golpe para qual o modelo foi treinado, apesar da extrema

redução e atingimento da meta. Através da análise dos scores atribuídos às contas denunciadas,

pode ser observado que 90% foi registrado pelo modelo, mas teve score menor que 0.5

(aproximadamente 70% com score 0). Assim, recomenda – se a realização de testes no modelo

offline com exemplos de conversas com score 0 para a verificação da vetorização das palavras

Page 91: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

91

e significância atribuída. Com isso, será necessária a adição das palavras (e combinações delas)

vistas como baixa significância pelo modelo ao dicionário.

Há de se destacar que na vetorização das palavras, na etapa de pré-processamento, que

apesar das diversas formas de validação do método de vetorização TF-IDF, não foi testado

nenhum outro método para comparação de qualidade. O TF-IDF é um método de cálculo

simples, e com isso tem alta capacidade de interpretação e baixo custo computacional. No

entanto, não captura a posição no texto, semântica ou ocorrência simultâneas em diferentes

documentos. Enquanto isso, há métodos que capturam como o Word2Vec que utiliza rede neural

para calcular a vetorização de palavras ou até mesmo o Skip-Thought Vectors que usa rede

neural para prever as sentenças circundantes de uma frase com a vetorização de sentenças.

Assim, o ideal seria a realização de testes de performance comparativos com estes métodos, por

exemplo.

Além disso, o desempenho do modelo pode ser reduzido com a adaptação dos

fraudadores caso, por exemplo, comecem a enviar mensagens com conteúdo fraudulento após

uma hora de chat iniciado ou enviar mensagens com menor número de caracteres (como já

percebido nos demais 10% não detectados pelo modelo). Tais sugestões de acompanhamento

foram alinhadas com a equipe e construíram dashboards para que ficassem claras as mudanças

de comportamento dos fraudadores. Assim, caso tais adaptações aconteçam, foi verificado com

a equipe que há facilidade alterar a infraestrutura para analisar outras faixas de tempo – como

por exemplo a última hora de conversa (não mais com ponto inicial fixo) – e o gatilho de número

de caracteres para valores menores.

Para o caso de alteração do padrão textual, um meio de mitigação recomendado é a

criação de um processo de retreino automático – um feedback de retorno ao processo

operacional ao modelo. Nesse processo, as conversas de usuários tratados por denúncia pela

operação seriam encaminhadas automaticamente para o modelo que será substituído por novas

versões caso haja alterações em relação ao baseline de treino. Para isso, seria necessário um

processo de ETL para extração, transformação e carregamento (ou loading em inglês) com

integração ao data lake da MarketplaceCo para armazenamento dos dados que serão usados

para o treino de um modelo cópia do Fraud Detector que periodicamente seria acionado para

treino automático. Os resultados do modelo cópia seriam comparados com o original e, caso

sejam melhores, um aviso seria enviado ao time por Slack ou e-mail para que decidam sobre a

substituição, por exemplo. Com o amadurecimento do processo, a decisão poderia se tornar

também automática.

Page 92: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

92

Um dos pontos positivos do projeto foi o atingimento antecipado da meta. Pode-se

analisar este ponto como consequência, além da qualificação dos desenvolvedores, de um

gerenciamento transparente entre a equipe e seus stakeholders, possibilitado pela ferramenta de

roadmap do projeto. Anteriormente, foi apresentado o roadmap de planejamento com uma

estimativa de finalização para a primeira semana de junho e na Figura 49 está o roadmap

realizado, até então (junho/2020).

Figura 49: Roadmap realizado de construção do modelo Fraud Detector

Fonte: Elaboração própria (2020)

Como pode ser observado, o modelo foi implementado duas semanas antes do previsto.

Esta é uma consequência da utilização da metodologia ágil Scrum2, citada anteriormente, que

promove processos mais iterativos com a utilização de artefatos como:

• Planejamento de entregas com prazos mais curtos adequando-se às mudanças de

requisitos no desenvolvimento de software (semanal), que gera a frequente

priorização de features;

• Reuniões diárias rápidas (15 minutos) de alinhamento sobre status das entregas para

transparência entre a equipe;

• Testes constantes das funcionalidades para correções ao longo do processo de

desenvolvimento;

• Equipes multidisciplinares participam de todas as cerimônias contanto com

engenheiros de software, gerentes de produto, designers e analistas de dados.

2 Scrum: É uma estrutura de processo usada para gerenciar o trabalho em produtos complexos desde o início dos

anos 90. Scrum não é um processo, técnica ou método definitivo. Pelo contrário, é uma estrutura na qual você pode

empregar vários processos e técnicas. O Scrum deixa clara a relativa eficácia do gerenciamento de produtos e das

técnicas de trabalho para que você possa melhorar continuamente o produto, a equipe e o ambiente de trabalho.

(SCHWABER e SUTHERLAND, 2017)

Page 93: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

93

Os artefatos e processos citados geram vantagens na entrega contínua de valor, tendo

em vista que processos ágeis promovem um ambiente sustentável, com stakeholders,

desenvolvedores e usuários sendo capazes de manter passos constantes. Além disso, mudanças

de requisitos são bem-vindas, mesmo em fases tardias do desenvolvimento, uma vez que os

processos ágeis utilizam a mudança em favor da vantagem competitiva para o cliente. Outra

característica percebida no estudo de caso é a reunião semanal gerencial que permite um

alinhamento rápido e acompanhamento da performance do projeto.

Page 94: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

94

7. CONSIDERAÇÕES FINAIS

Este capítulo faz uma síntese dos resultados alcançados com relação aos objetivos do

trabalho e potenciais contribuições, além de revisitar as limitações que do estudo e recomendar

pesquisas futuras.

O objetivo geral do trabalho era estudar o potencial de agregação de valor do machine

learning, como ferramenta da indústria 4.0, nos processos da indústria do varejo no ramo do

varejo. Este foi dividido em objetivos específicos que foram atingidos ao decorrer do da

realização do trabalho.

No contexto trazido no capítulo 3, foi atingido o primeiro objetivo específico –

contextualizar brevemente a transformação digital e as categorias de tecnologias cognitivas

existentes. Através deste capítulo, foi possível identificar as categorias de tecnologias na

indústria 4.0 e, em específico, a relação do machine learning nos processos internos para o

atingimento global de objetivos a partir de seus resultados históricos e tendências de uso.

No capítulo 4, foi realizado o detalhamento do estudo do machine learning, estabelecido

como segundo objetivo específico, ou seja, aprofundar no estudo do machine learning, o

conceito, as técnicas, os passos para a construção de um modelo e a operacionalização nas

organizações. Nele, foram apresentados o conceito, as técnicas, os algoritmos e o processo

generalista de operacionalização de um modelo nas organizações. Em relação às técnicas, a

maior diferença entre o aprendizado de máquina supervisionado e não supervisionado é o fato

de os algoritmos supervisionados serem treinados em conjuntos de dados já classificados para

o problema em questão. Quanto aos algoritmos, foram identificados alguns tópicos que

orientam na escolha do melhor algoritmo para o modelo, como o tamanho, natureza dos dados,

precisão necessária, tempo disponível para treino e quão interpretável o modelo precisa ser.

Quanto ao processo de construção, descobriu-se a importância de etapas prévias à construção

de fato do modelo: a definição clara do problema de negócio, a verificação da qualidade das

bases de dados e realização do pré-processamento da amostra. Além disso, foram constatados

requisitos necessários após a construção do modelo para a sua operacionalização como,

principalmente, a cultura organizacional flexível às mudanças, a infraestrutura (sistemas e

processos de tecnologia da informação), e o monitoramento que é essencial devido às possíveis

mudanças que podem ocorrer na relação entre os dados usados para construção e treinamento

do modelo e os dados pós-implantação.

Em seguida, o terceiro objetivo específico – compreender o cenário do segmento de

marketplace, como um recorte da indústria de varejo, além das principais aplicações de machine

Page 95: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

95

learning neste setor – foi alcançado através do capítulo 5. O marketplace foi apresentado como

segmento do e-commerce, que tem por objetivo juntar os interesses de compradores e

vendedores, facilitando o processo de compra e venda através de um canal único e confiável.

Foi analisado neste tópico que o mercado de e-commerce brasileiro em abril de 2020 faturou

R$ 9,4 bilhões, apresentando um aumento de 81% em relação ao mesmo período do ano anterior

– sendo considerado em curva de crescimento acelerado. Ao identificar as aplicações do

machine learning neste segmento, percebeu-se que as organizações estão em busca de utilizar

modelos de aprendizagem de máquina para melhorar seus processos internos e alcançar

vantagem competitiva. Com isso, o machine learning vem se tornando um pilar estratégico para

as empresas.

O quarto objetivo específico – realização de estudos de caso para tangibilizar aplicações

do machine learning para melhoria de processos – e o quinto – proposição de análises críticas

aos modelos estudados – foram alcançados no capítulo 6, através da análise do modelo de

cancelamento de planos e do modelo de detecção de fraude no chat. Ademais, para os dois

casos, foram identificados o valor agregado na otimização dos processos que os utilizam,

resumidos em:

I. Para o modelo de previsão de cancelamentos, foi observado que o delta de churn

entre o grupo que obteve tratamento com ligação e o grupo controle chega a 27

pontos percentuais, o que é considerável para um modelo em produção. Além

disso, o custo da área comercial em fazer o tratamento de falar com os usuários

é muito menor do que a receita que seria perdida com a quantidade de

cancelamentos multiplicada pelo ticket médio.

II. Para o modelo de detecção de fraude, foi identificado que o tempo de

processamento do novo modelo opera em uma escala de milissegundos,

enquanto o antigo levava cerca de 30 minutos. Com isso, a detecção em tempo

real obteve um aumento de 9,8 vezes (média das duas semanas operando em

relação à média semanal do mês anterior), com uma precisão de 99%.

Com relação às premissas levantadas no início deste trabalho, o estudo de mercado da

indústria de varejo mostrou que existe de fato um aumento da demanda por aplicações de

Inteligência Artificial e que a indústria de varejo busca fazer uso de inovações para ganhar

vantagem competitiva, reforçando o crescimento do setor ao longo das últimas décadas. Além

disso, com o aprofundamento dos estudos de caso foi possível verificar como modelos de

Page 96: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

96

machine learning podem trazer ganhos significativos em termos financeiros e operacionais,

assim como proporciona melhorias qualitativas nos processos internos da organização.

Como contribuições da pesquisa, pode-se recortar naquelas obtidas para a empresa

estudada e aquelas para a academia. A empresa poderá utilizar as análises nos processos

estudados e do referencial teórico para se adequar às demais tecnologias e tendências presentes

no mercado. Para a academia, a pesquisa espera ter contribuído com o conhecimento abordado

sobre técnicas de Inteligência Artificial/ Machine learning e de análises da utilização destas na

busca de melhorias de processos. Também se estima que as pesquisas sobre Indústria 4.0 e, em

particular, sobre as tendências na indústria do varejo, possam contribuir, subsidiar o

desenvolvimento de trabalhos futuros.

Há de se ressalvar que as limitações citadas no início deste trabalho – tempo, falta de

dados fornecidos pela empresa estudada e, principalmente, escopo – não permitiram abordar

todas as complexidades envolvidas no processo de operacionalização do modelo, apesar de não

inviabilizarem a realização do trabalho.

Como desdobramento futuro deste projeto, sugere-se a aplicação prática do processo

técnico de construção do modelo desenvolvido, de forma a possibilitar a obtenção de um

complemento ao conhecimento teórico trabalhado e a identificação dos principais gargalos para

a implementação.

Ademais, o trabalho abre espaço para pesquisas no ramo de operacionalização tanto

para o lado tecnológico – como diferentes tipos de armazenamento/processamento de dados

para diferentes casos de uso de inteligência artificial (uso de streaming de dados ou data lake,

por exemplo) – quanto para o lado de gestão – como a importância da cultura organizacional

na implementação da transformação digital na prática. Além disso, também há a possibilidade

de replicar o estudo em outras indústrias e realizar a comparação e análise dos resultados

encontrados.

Por fim, os conhecimentos da Inteligência Artificial estão cada vez mais presentes no

cenário operacional das organizações. Para alavancar a geração de valor, o incentivo ao seu

estudo será essencial para uma melhor capacitação e formação dos futuros profissionais da era

da transformação digital.

Page 97: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

97

8. REFERÊNCIAS BIBLIOGRÁFICAS

ALPAYDIN, E. Introduction to Machine Learning. 3. ed. Massachusetts, MIT Press: [s.n.],

2014.

AMARAL, T. Entenda o que é e como aplicar a Transformação Digital. AAA Inovação, 2019.

Disponivel em: <https://blog.aaainovacao.com.br/entenda-o-que-e-e-como-aplicar-a-

transformacao-digital/>. Acesso em: 16 Dez 2019.

APIUM. Artificial Intelligente in E-commerce: Benefits, Statistics, Facts, Use cases & Case

Studies. Apium hub, 2018. Disponivel em: <https://apiumhub.com/tech-blog-

barcelona/artificial-intelligence-ecommerce/>. Acesso em: 20 Mai 2020.

BARROS, M. Como seremos impactados? Indústria 4.0. Alcer Consultoria, 2018. Disponivel

em: <https://alcerconsultoria.com.br/sem-categoria/industria-4-0-como-o-brasil-reagira/>.

Acesso em: 10 Dez 2019.

BOUEÉ, C.; SCHAIBLE, S. Die Digitale Transformation der Industrie. Roland Berger.

[S.l.]. 2015.

BOURGOIS, X. et al. Delloite Insights. The fourth industrial revolution is here - are you

ready?, 2018. Disponivel em:

<https://www2.deloitte.com/content/dam/insights/us/articles/4364_Industry4-0_Are-you-

ready/4364_Industry4-0_Are-you-ready_Report.pdf>. Acesso em: 22 Dez 2019.

BROWNLEE, J. Roc Curves and Precision Recall Curves for imbalanced Classification.

Machine Learning Mastery, 2020. Disponivel em: <https://machinelearningmastery.com/roc-

curves-and-precision-recall-curves-for-imbalanced-classification/>. Acesso em: 09 Mai 2020.

CASTLE, N. What is Semi-Supervised Learning? Oracle, 2018. Disponivel em:

<https://blogs.oracle.com/datascience/what-is-semi-supervised-learning>. Acesso em: 02 Mai

2020.

CHINEN, R. Transformação digital nos negócios: uma abordagem visando barreiras e

aceleradores do processo. Universiade de São Paulo (USP). São Paulo. 2019.

COLLINS. Collins English Dictionary. https:

//www.collinsdictionary.com/dictionary/english/artificial-intelligence, 2018. Disponivel em:

Page 98: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

98

<https://www.collinsdictionary.com/dictionary/english/artificial-intelligence>. Acesso em: 26

Abr 2020.

CORREIA, F. Definição de computação em nuvem segundo o NIST. Plataforma Nuvem,

2011. Disponivel em: <https://plataformanuvem.wordpress.com/2011/11/21/definicao-de-

computacao-em-nuvem-segundo-o-nist/>. Acesso em: 28 Jan 2020.

DIGITAL, M. How top companies excel with digital and analytics. [S.l.]. 2019.

E-BIT. Relatório Webshoppers 2015. E-bit, 2015. Disponivel em: <bit.com.br/webshoppers>.

Acesso em: 01 Mai 2020.

E-BIT. Relatório Webshoppers 2018. Doc Player, 2018. Disponivel em:

<https://docplayer.com.br/74733329-Webshoppers-37a-edicao.html>. Acesso em: 20 Mai

2020.

E-COMMERCE. Com pandemia, e-commerce cresce 81% em abril e fatura R$ 9,4 bilhões. E-

commerce Brasil, 2020. Disponivel em: <https://www.ecommercebrasil.com.br/noticias/e-

commerce-cresce-abril-fatura-compreconfie-coronavirus/>. Acesso em: 20 Mai 2020.

EDMEAD, M. Digital transformation: Why it's important to your Organization. The IDG

Contributor Network, 2016. Disponivel em: <http://www.cio.com/article/3063620/it-

strategy/digital-transformation-why-its-important-to-your-organization.html>. Acesso em: 26

Fev 2020.

EUGENIO, M. Tipos de Marketplace: 4 principais e suas particularidades. DLoja Virtual,

2020. Disponivel em: <https://www.dlojavirtual.com/como-vender/conheca-os-principais-

tipos-de-marketplace-e-suas-particularidades/>. Acesso em: 20 Mai 2020.

FACELI, K. et al. Inteligência artificial: uma abordagem de aprendizado de máquin. 1. ed.

Rio de Janeiro: LTC, 2011.

FINLAY, S. Artificial Intelligence and Machine Learning for Business: A No-Nonsense

Guide to Data Driven Technologies. 3. ed. [S.l.]: [s.n.], 2017.

GAMA, A. O uso de machine learning na implementação de manutenção preditiva em

usinas termelétricas. Universidade Federal do Rio de Janeiro/ Escola Politécnica. Rio de

Janeiro. 2017.

GIL, A. Como elaborar projetos de pesquisa. 3. ed. São Paulo: [s.n.], 2007.

Page 99: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

99

GLASS, S.; HALLER, K. IBM Customer Experience Index (CEI) Study. IBM Institute for

Business Value. NY. 2017.

GROOTENDORST, M. Validating your Machine Learning Model. Towards Data Science,

2019. Disponivel em: <https://towardsdatascience.com/validating-your-machine-learning-

model-25b4c8643fb7>. Acesso em: 05 Mai 2020.

GUISSONI, L.; DE OLIVEIRA, T.; TEIXEIRA, T. Um novo momento para o ecommerce.

FGV, 2016. Disponivel em:

<http://rae.fgv.br/sites/rae.fgv.br/files/um_novo_momento_para_o_e-commerce.pdf>. Acesso

em: 20 Mai 2020.

JAVAPOINT. Subsets of AI. Javatpoint, 2019. Disponivel em:

<https://www.javatpoint.com/subsets-of-ai>. Acesso em: 26 Abr 2020.

KONDUTO. Raio-X da Fraude 2020. Konduto. [S.l.]. 2020.

KOTLER, P. O conceito de Varejo. E-conhecimento, 2012. Disponivel em: <https://e-

conhecimento.br.com/administracao/para-kotler-2012-p482-o-varejo-in-19732165>. Acesso

em: 20 Mai 2020.

KOTTER, J.; SCHLESINGER, L. Six Change Approaches. Expert Program Management,

2018. Disponivel em: <https://expertprogrammanagement.com/2018/05/six-change-

approaches/>. Acesso em: 05 Jun 2020.

LE, J. Pinterest’s Visual Lens: How computer vision explores your taste. Medium, 2018.

Disponivel em: <https://medium.com/cracking-the-data-science-interview/pinterests-visual-

lens-how-computer-vision-explores-your-taste-47d591b42d7c>. Acesso em: 20 Mai 2020.

LIMA, G. Marketplaces e estratégia de negócios: análise do panorama do mercado de comércio

eletrônico brasileiro em 2019. E-commerce Brasil, 2019. Disponivel em:

<https://www.ecommercebrasil.com.br/artigos/marketplaces-e-estrategia-de-negocios-analise-

do-panorama-do-mercado-de-comercio-eletronico-brasileiro-em-2019/>. Acesso em: 20 Mai

2020.

LLORENTE, J. A transformação digital. nº 24. ed. São Paulo: Revista Uno, 2016.

MAYKUT, P.; MOREHOUSE, R. Beginning qualitative research: A philosophic and practical

guide. The Falmer Press teachers, London, v. 6, 1994.

Page 100: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

100

MEDIUM. 9 Applications of Machine Learning from day to day life. Medium, 2017.

Disponivel em: <https://medium.com/app-affairs/9-applications-of-machine-learning-from-

day-to-day-life-112a47a429d0>. Acesso em: 22 Mai 2020.

MENON, U. What is reinforcement learning? Quora, 2018. Disponivel em:

<https://www.quora.com/What-is-reinforcement-learning>. Acesso em: 03 Mai 2020.

MINAEE, S.; PATHAK, H.; CROOK, T. Machine Learning Powered Content Moderation: AI

and Computer Vision Applications at Expedia. Expedia Group Technology, 2019. Disponivel

em: <https://medium.com/expedia-group-tech/image-moderation-d5e228b3c2d7>. Acesso em:

11 Mai 2020.

MOHAMMED, M.; KHAN, M.; BASHIER, E. Machine Learning: Algorithms and

Applications. 1. ed. NW: Taylor & Francis Group, 2017.

MONGER, M. et al. Digital Transformation Iniciative - Maximizing Return on Digital

Investiments. Forum Economico Mundial. Geneva. 2018.

PEREIRA, R. et al. A Informação de Processos Em Instituições Públicas: O caso da

Universidade Federal de Viçosa. Revista de Gestão e Tecnologia Navus, Florianópolis, v. 6,

p. 17-29, Março 2016.

PINÇON, A. A Transformação Digital das Empresas no Brasil. MBA em Tecnologia da

Informação - Executivo, Universidade Federal do Rio de Janeiro. Rio de Janeiro. 2017.

PODIUM. Consumers get buy with a little help from their friends. Podium, 2017. Disponivel

em: <http://learn.podium.com/rs/841-BRM-380/images/2017-SOOR-Infographic.jpg>.

Acesso em: 20 Mai 2020.

PRECIFICA. Panorama dos Marketplaces no Brasil: Edição Setembro 2018. Precifica, 2018.

Disponivel em: <https://www.precifica.com.br/wp-content/uploads/2018/10/panorama-dos-

marketplaces-no-brasil-edicao-setembro-2018.pdf>. Acesso em: 20 Mai 2020.

RASHID, A. Cloud Computing Characteristics and Services: A Brief Review.

INTERNATIONAL JOURNAL OF COMPUTER SCIENCES AND ENGINEERING,

Ajmer, v. 7, n. 2, Fev 2019.

REJOINER. Amazon recommendations secret selling online. Rejoiner, 2018. Disponivel em:

<http://rejoiner.com/resources/amazon-recommendations-secret-selling-online/>. Acesso em:

20 Mai 2020.

Page 101: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

101

RIBEIRO, L.; ROCHA, S.; BRANCO, E. Liderança e estratégias organizacionais: a

influência, o poder e os aspectos da liderança nas organizações. Caderno de Estudos Ciência

e Empresa. [S.l.]. 2012.

SBVC. Ranking SBVC: Um estudo completo do e-commerce. Sociedade Brasileira de

Varejo e Consumo. [S.l.]. 2018.

SCHALLMO, D.; WILLIAMS, C.; LUKE, B. Digital Transformation of Business Models -

Best practice, Enablers and Roadmap. International Journal of Innovation Management ,

Ulm, v. 21, p. 17, Nov 2017.

SCHÜTZE, A.; HELWIG, N.; SCHNEIDER, T. Sensors 4.0 – smart sensors and measurement

technology enable industry 4.0. Journal of Sensors and Sensors Systems, Saarbruecken, Mai

2018.

SCHWAB, K. The Fourth Industrial Revolution: what it means, how to respond. World

Economic Forum, 2016. Disponivel em: <https://www.weforum.org/agenda/2016/01/the-

fourth-industrial-revolution-what-it->. Acesso em: 25 Fev 2020.

SCHWABER, K.; SUTHERLAND, J. Definition of Scrum. Scrum Guide, 2017. Disponivel

em: <https://www.scrumguides.org/scrum-guide.html>. Acesso em: 25 Jul 2020.

SFENRIANTO, S.; WANG, G. User satisfaction analysis for service-now application. IOP

Conference Series Materials Science and Engineering. [S.l.]. 2018.

SHALEV-SCHWARTZ, S.; BEN-DAVID, S. Understanding Machine Learning: From

Theory to Algorithms. Cambridge: Cambridge University Press, 2014.

SHARMA, S. Top 9 Machine Learning Applications in Real World. Data Science Central,

2017. Disponivel em: <https://www.datasciencecentral.com/profiles/blogs/top-9-machine-

learning-applications-in-real-world>. Acesso em: 20 Mai 2020.

SILVA, F. Detecção de Ironia de Sarcasmo em língua portuguesa: uma abordagem

utilizando deep learning. UNIVERSIDADE FEDERAL DE MATO GROSSO. Mato Grosso.

2018.

SIMON, P. Too Big to Ignore: The Business Case for Big Data. 1. ed. Hoboken, Wiley: [s.n.],

2013.

Page 102: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

102

SONI, D. Supervised vs. Unsupervised Learning. Towards Data Science, 2018. Disponivel

em: <https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d>.

Acesso em: 02 Mai 2020.

TECH, D. Underfitting e Overfitting. Didatica Tech Inteligência Artificial e Data Science,

2019. Disponivel em: <https://didatica.tech/underfitting-e-overfitting/>. Acesso em: 11 Mai

2020.

TURCHI, P. The Digital Transformation Pyramid: A Business-driven Approach for Corporate

Initiatives. The Digital Transformation People, 2018. Disponivel em:

<https://www.thedigitaltransformationpeople.com/channels/the-case-for-digital-

transformation/digital-transformation-pyramid-business-driven-approach-corporate-

initiatives/>. Acesso em: 11 Jan 2020.

WEILL, P.; WOERNER, S. Is Your Company Ready for a Digital Future? MIT Sloan Review,

2017. Disponivel em: <https://sloanreview.mit.edu/article/is-your-company-ready-for-a-

digital-future/>. Acesso em: 10 Dez 2019.

WUJEK, B.; HALL, P.; GUNES, F. Best Practices for Machine Learning Applications. SAS

Institute Inc., Carolina do Norte, 2016.

YIN, R. Estudo de caso: planejamento e métodos. 3. ed. Porto Alegre: [s.n.], 2006.

YOUSEF, K. et al. Analyzing Cyber-Physical Threats on Robotic Plataforms. International

Conference on Electrical and Computing Technologies and Applications. Ras Al Khamiah:

[s.n.]. 2017. p. 22.

Page 103: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

103

9. APÊNDICE – CARACTERÍSTICAS DOS PRINCIPAIS ALGORITMOS DE MACHINE LEARNING

Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de

interpretação

Regressão

penalizada

− Regressão

supervisionada

− Classificação

supervisionada

− Especificação manual não-linear e termos de interação

explícitos.

Conjunto de dados pequeno à

grande Alta

Naive Bayes − Classificação

supervisionada

− Modelo linear ou fenômeno linearmente separável.

− Adequado para conjuntos de dados extremamente

grandes, nos quais métodos complexos são intratáveis.

Conjunto de dados pequeno à

extremamente grande Moderada

Árvore de decisão

− Regressão

supervisionada

− Classificação

supervisionada

− Modelo de fenômenos não linearmente separáveis em

grande quantidade de dados não trabalhados.

− Interações automáticas implícitas.

− Valores faltantes e outliers nas variáveis de entrada

tratados automaticamente.

− Conjuntos de árvore de decisão (exemplo: florestas

aleatórias, aumento de gradiente) podem aumentar a

acurácia da predição e diminuir o sobre ajuste, no

entanto, também diminui a escalabilidade e capacidade

de interpretação.

Conjunto de dados médio à

grande Moderada

K-ésimo Vizinhos

mais próximos

(kNN)

− Regressão

supervisionada

− Classificação

supervisionada

− Modelo de fenômenos não linearmente separáveis.

− Pode ser usado para combinar à precisão de técnicas

mais sofisticadas, mas com menos parâmetros de ajuste.

Conjunto de dados pequeno à

médio Baixa

Page 104: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

104

Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de

interpretação

Máquina de

Vetores de Suporte

− Regressão

supervisionada

− Classificação

supervisionada

− Detecção de anomalias

− Modelo linear ou fenômeno linearmente separável

usando núcleos lineares.

− Modelo de fenômenos não linearmente separáveis

usando núcleos não-lineares.

− Detecção de anomalias utilizando uma classe de máquina

de vetores de suporte.

Conjunto de dados pequeno à

grande usando núcleos

lineares.

Conjunto de dados de médio

à grande usando núcleos não-

lineares.

Baixa

Rede neural

artificial

− Regressão

supervisionada

− Classificação

supervisionada

− Clustering não

supervisionado

− Extração de

característica não

supervisionado

− Detecção de anomalias

− Modelo de fenômenos não linearmente separáveis.

− Rede neurais profundas (exemplo: deep learning) para

reconhecimento de padrão de imagens, vídeos e sons.

− Todas as interações consideradas em topologias

multicamadas totalmente conectadas.

− Extração de elementos não lineares com e redes de

máquinas Boltzmann restritas.

− Armazenamento em cluster e visualização com mapas

auto-organizados

− Detecção de anomalias com redes.

Conjunto de dados pequeno à

médio Baixa

Regras de

associação

− Construção de regra

supervisionada.

− Construção de regra não

supervisionada.

− Construir um conjunto de regras complexas usando a

simultaneidade de itens ou eventos em conjuntos de

dados transacionais.

Conjunto de dados

transacionais médio à grande Moderada

K-Significados − Agrupamento não

supervisionado

− Criação de um número conhecido a priori de clusters

esféricos, disjuntos e de tamanho igual.

− O método k-mode pode ser usado para dados categóricos.

− O método k-prototypes pode ser usado para dados

mistos.

Conjunto de dados

transacionais médio à grande Moderada

Page 105: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

105

Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de

interpretação

Cluster hierárquico − Agrupamento não

supervisionado

− Criação de um número conhecido a priori de clusters não

esféricos, disjuntos ou sobre ajustes de clusters de

tamanhos diferentes.

Conjunto de dados pequeno Moderada

Cluster Espectral − Agrupamento não

supervisionado

− Criação de um número dependente de dados de clusters

arbitrariamente modelados, disjuntos ou sobrepostos de

tamanhos diferentes.

Conjunto de dados pequeno Moderada

Análise de

componentes

principais

− Extração de

características não

supervisionada

− Extração de um número dependente de dados de recursos

lineares ortogonais.

− A Decomposição de valor singular é frequentemente

usada em vez de Análise de componentes principais em

dados amplos.

− A Análise de componentes principais Sparse pode ser

usada para criar características mais interpretáveis, mas a

ortogonalidade é perdida.

− A Análise de componentes principais Kernel pode ser

usado para extrair características não lineares.

Conjunto de dados pequeno à

grande para Análise de

componentes principais

tradicional e Decomposição

de valor singular.

Conjunto de dados pequeno à

médio para Análise de

componentes principais

Sparse e Kernel.

Normalmente baixa

Fatoração de

matriz não negativa

− Extração de

características não

supervisionada

− Extração de um número conhecido a priori de

características interpretáveis, lineares, oblíquas e não

negativas.

Conjunto de dados pequeno à

grande Alta

Projeções aleatórias

− Extração de

características não

supervisionada

− Extração de um número dependente de características

lineares, não interpretáveis, orientados arbitrariamente de

igual importância.

Conjunto de dados médio à

extremamente grandes Baixa

Page 106: MACHINE LEARNING NA MELHORIA DE PROCESSOS INTERNOS ... · dos requisitos necessários à obtenção do título de Engenheiro. ... Gostaria de destacar que este projeto, assim como

106

Tipo de Algoritmo Aplicações comuns Aplicações sugeridas Escala dos dados Capacidade de

interpretação

Máquinas de

fatoração

− Regressão e

classificação

supervisionada

− Extração de

características não

supervisionada

− Extração de um número conhecido a priori de

características não interpretáveis, oblíquas de conjuntos

de dados sparse e transacionais.

− Pode explicar automaticamente interações variáveis.

− Criar modelos a partir de um grande número de

características sparse. podendo superar as Máquinas de

Vetores de Suporte.

Conjunto de dados sparse ou

transacionais médio à

extremamente grande

Moderada

Figura 50: Características dos principais algoritmos de Machine Learning

Fonte: Adaptado de Wujet, Hall e Gunes (2016, p. 22-23)