Cristiana Filipa Rodrigues Dias - Universidade do …...Professor Doutor Carlos Filipe Portela...

Cristiana Filipa Rodrigues Dias

Clinical Big Data

Projeto de Dissertação

Mestrado em Engenharia e Gestão de Sistemas de

Informação

Trabalho efetuado sob a orientação de:

Professor Doutor Manuel Filipe Vieira Torres dos Santos

Professor Doutor Carlos Filipe Portela

Fevereiro de 2018

iii

RESUMO

Hoje em dia, organizações nos mais distintos setores de atividades, estão a gerar

enormes quantidade de dados, a uma grande velocidade e variedade. Este fenómeno ditou um

crescente desenvolvimento tecnológico, denominado de Big Data, que já é reconhecido como

uma das mais importantes áreas do futuro da informação. Devido a facto, as organizações têm

procurado novas soluções de forma a melhorarem os seus serviços e tirar partido das

vantagens destas novas tecnologias. Nesta dissertação será abordada a adoção destas

tecnologias na indústria da saúde, mais propriamente no Centro Hospitalar do Porto (CHP).

A realidade vivida na indústria da saúde é similar à descrita anteriormente. É um setor

onde se tem armazenado digitalmente enormes quantidades de dados e com enormes

benefícios provenientes destas novas tecnologias. Apesar disso, são poucas as organizações

ligadas ao setor da saúde que fazem investimentos nesta área e que estão a aproveitar o

potencial do Big Data.

Tendo por motivação todos os aspetos referidos anteriormente, a finalidade da

presente dissertação consiste no desenvolvimento de uma arquitetura de Big Data, que

permita colmatar as necessidades do CHP. Desta forma, neste documento é incluída uma

revisão de literatura sobre os seguintes tópicos: Big Data, onde é explicado a sua definição,

características e desafios; Hadoop, onde são descritos os seus principais módulos; Big Data

Analytics, onde são descritas algumas técnicas que poderão ser usadas num projeto de Big

Data; e Big Data na saúde, onde são enumeradas vantagens da utilização do Big Data no

setor da saúde. Para a realização da dissertação, serão seguidas três abordagens

metodológicas: o estudo de caso, o “Design Science Research Methodology for Information

Systems” e o “Kimball Lifecycle”.

Palavras-Chave: Big Data, Big Data Analytics, Arquiteturas de Big Data, Big Data na Saúde

v

ABSTRACT

Nowadays, organizations in the most distinct sectors of activities, are generating

enormous amounts of data, at high velocity and high variety. This phenomenon dictated a

growing technological development, called Big Data, which is already recognized as one of

the most important areas of the future of information. Due to this fact, organizations have

been looking for new solutions to improve their services and take advantage of these new

technologies. This dissertation will address the adoption of these technologies in the health

industry, more specifically in the "Centro Hospitalar do Porto” (CHP).

The reality in the healthcare industry is similar to the phenomenon described above. It

is a sector where large amounts of data have been stored digitally and with enormous benefits

from these new technologies. Despite this, there are very few health-related organizations

making investments in Big Data and taking advantage of its potential.

The purpose of this dissertation is to develop a Big Data architecture to meet the needs

of the CHP. This document includes a review of literature about the following topics: Big

Data, where its definition, characteristics and challenges are explained; Hadoop, where its

main modules are described; Big Data Analytics, which describes some techniques that can be

used in a Big Data project; and Big Data in health, which lists the advantages of using Big

Data in the health sector. For the accomplishment of the dissertation, three methodological

approaches will be followed: the case study, the “Design Science Research Methodology for

Information Systems” and the “Kimball Lifecycle”.

KEYWORDS: Big Data, Big Data Analytics Big Data Architectures, Big Data in Healthcare

vi

ÍNDICE

Resumo ...................................................................................................................................... iii

Abstract ...................................................................................................................................... v

Lista de Figuras ......................................................................................................................... ix

Lista de Tabelas .......................................................................................................................... x

Lista de Abreviaturas, Siglas e Acrónimos ............................................................................... xi

1. Introdução ........................................................................................................................... 1

1.1 Enquadramento e Motivação ....................................................................................... 1

1.2 Objetivos e Resultados Esperados ............................................................................... 2

1.3 Estrutura do Documento .............................................................................................. 2

2. Revisão de Literatura .......................................................................................................... 4

2.1 Estratégia de pesquisa .................................................................................................. 4

2.2 Big Data ....................................................................................................................... 5

2.2.1 Definições e Conceitos ......................................................................................... 5

2.2.2 Características ...................................................................................................... 6

2.2.3 Desafios ................................................................................................................ 9

2.2.4 Construção de conhecimento baseado em Big Data .......................................... 10

2.3 Hadoop....................................................................................................................... 11

2.3.1 Hadoop Distributed File System (HDFS) .......................................................... 11

2.3.2 Hadoop Map Reduce .......................................................................................... 11

2.4 Big Data Analytics..................................................................................................... 12

2.5 Big Data na Sáude ..................................................................................................... 13

2.5.1 Vantagens do Big Data na Saúde ....................................................................... 14

3. Abordagem Metodológica ................................................................................................ 16

3.1 Estudo de caso ........................................................................................................... 16

3.2 Design Science Research Methodology for Information Systems ............................ 17

3.3 Kimball Lifecycle ...................................................................................................... 19

4. Plano de Atividades .......................................................................................................... 20

4.1 Planeamento............................................................................................................... 20

4.2 Diagrama de Gantt ..................................................................................................... 21

4.3 Riscos e Contingências .............................................................................................. 22

vii

5. Conclusão .......................................................................................................................... 24

Referências ............................................................................................................................... 25

ix

LISTA DE FIGURAS

Figura 1 - Definições de Big Data baseadas num questionário aplicado a 154 executivos, em

2012. ........................................................................................................................................... 5

Figura 2 - Os 3Vs do Big Data. .................................................................................................. 6

Figura 3 - Visão Integrada do Big Data. .................................................................................... 9

Figura 4 - Processo para extrair conhecimento do Big Data .................................................... 10

Figura 5 - Design Science Research Methodology for Information Systems. ......................... 17

Figura 6 - Kimball Lifecycle Diagram ..................................................................................... 19

Figura 7 - Planeamento do Projeto ........................................................................................... 20

Figura 8 - Diagrama de Gantt ................................................................................................... 21

x

LISTA DE TABELAS

Tabela 1 - Riscos e Contingências do Projeto .......................................................................... 22

xi

LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS

CHP – Centro Hospitalar do Porto

HDFS - Hadoop Distributed File System

IBM - International Business Machines

1

1. INTRODUÇÃO

Neste capitulo será apresentado o enquadramento e motivação para o presente projeto

de dissertação, bem como os objetivos e resultados esperados e por fim, a estrutura do

documento.

1.1 Enquadramento e Motivação

Vivemos numa era onde a quantidade de dados recolhidos ou gerados pelas mais

diversas organizações já não criam admiração ou impressionam ninguém, já é algo habitual

(John Walker, 2014). Este crescente desenvolvimento tecnológico já é reconhecido como uma

das mais importantes áreas do futuro da informação e está a evoluir a um ritmo rápido

sobretudo devido ao fenómeno das redes sociais e da Internet das Coisas (Lee, 2017), onde os

utilizadores podem gerar a sua própria informação através da sua comunicação com diversos

dispositivos. Contrariamente com o que acontecia antigamente, onde a única informação

gerada era só aquela que era introduzida nos sistemas informáticos (Zulkarnain & Anshari,

2016). Como resultado disso, o Big Data tem avançado de forma a permitir às organizações

converter este recurso em informação e conhecimento que os ajude a atingir os seus objetivos

(Murdoch & Detsky, 2013).

No setor da saúde, a realidade não é diferente. Historicamente, este setor tem gerado

também grandes quantidades de dados, desde manutenção de registos, requisitos

regulamentares e cuidados com os pacientes (Raghupathi & Raghupathi, 2014). Apesar de a

maior parte dos dados serem guardados em papel, a tendência aponta para a digitalização

desta grande quantidade de dados (Raghupathi & Raghupathi, 2014). Quando se fala em

dados gerados por estas organizações neste setor inclui-se dados de prescrições, dados

administrativos, dados de pacientes em sistemas de gestão, dados emitidos por sensores,

dados de redes sociais, blogs, artigos em revistas médicas, entre outros (Raghupathi &

Raghupathi, 2014).

Devido a este fenómeno torna-se importante explorar soluções de Big Data que se

ajustem ao contexto clínico, permitindo assim que se usufrua das várias vantagens deste tipo

de soluções. Após usufruir de uma infraestrutura tecnológica baseada em Big Data, através do

Big Data Analytics é possível descobrir associações, padrões e tendências com os dados e

2

consequentemente, melhorar os cuidados, salvar vidas e diminuir os custos (Raghupathi &

Raghupathi, 2014).

Tendo em consideração os pressupostos enunciados anteriormente, o presente projeto

de dissertação apresenta como intuito a elaboração de uma arquitetura de Big Data exequível

no contexto hospital, mais precisamente no Centro Hospitalar do Porto (CHP). Assim sendo,

é essencial realizar uma revisão de literatura sobre o tema em questão, concedendo especial

ênfase às tecnologias de Big Data e à analise de arquiteturas já existentes.

1.2 Objetivos e Resultados Esperados

No âmbito desta dissertação identificou-se a seguinte questão de investigação: “De

que forma pode ser o Big Data uma solução para o armazenamento e análise de dados no

contexto clínico?”

Desta forma, o presente projeto de dissertação tem por objetivo principal proceder à

conceção e desenvolvimento de uma arquitetura de Big Data capaz de colmatar as

necessidades do Centro Hospitalar do Porto (CHP). De modo a atingir o resultado esperado,

definiu-se como objetivos secundários:

Pesquisar e descrever o Big Data, nas suas diversas vertentes;

Identificar tecnologias de Big Data existentes e apropriadas para o setor da

saúde;

Identificar arquiteturas existentes no contexto do setor da saúde;

Analisar as necessidades do CHP e identificar os requisitos do sistema;

Definir e implementar a arquitetura.

1.3 Estrutura do Documento

O presente documento encontra-se divido em cinco capítulos. Sendo este, o primeiro

capítulo, é possível visualizar que pretende retratar o enquadramento e motivação do projeto,

bem como os objetivos e resultados esperados de modo a fundamentar a relevância do

mesmo.

De seguida, no segundo capítulo, é elaborada uma revisão de literatura que contém uma

descrição detalhada do termo Big Data, das suas características, dos seus desafios e dos seus

processos. Também foi elaborado um levantamento de tecnologias e técnicas de Big Data,

3

bem como a sua descrição. Por fim, ainda neste capítulo, é apresentado o estado da arte do

Big Data na Sáude, onde é feita uma referência às vantagens que este poderá trazer para o

setor.

No terceiro capítulo são descritas as abordagens metodológicas que serão adotadas no

decorrer do projeto, nomeadamente: o estudo de caso, o “Design Science Research for

Information Systems” e o “Kimball Lifecycle”.

No quarto capítulo é elaborado o plano de atividades, que contempla o planeamento do

projeto juntamente com o respetivo diagrama de Gantt e ainda, uma tabela de riscos e

contingências.

No quinto capítulo incidirá sobre as considerações finais sobre a realização do projeto

de dissertação e as respetivas conclusões.

Por fim, é possível encontrar uma lista com as referências bibliográficas utlizadas ao

longo do documento.

4

2. REVISÃO DE LITERATURA

Segundo (Webster & Watson, 2002), a revisão de literatura é um elemento

indispensável de um projeto académico. Esta envolve localizar, analisar, sintetizar e

interpretar o trabalho prévio existente numa área de estudo, fazendo com que seja possível

definir bem o problema, descobrir áreas onde é necessária investigação, adquirir uma clara

ideia sobre o estado atual do tema em questão e esclarecer as contribuições da investigação

(Bento, 2012).

Este capitulo está dividido em cinco secções. Na primeira secção é retratada e descrita a

estratégia de pesquisa adotada bem como as plataformas de pesquisa utilizadas. De seguida,

são abordadas as definições, características, desafios e os processos do Big Data. A terceira

secção é relativa às tecnologias de Big Data mais propriamente, ao Hadoop e os seus

módulos. Na quarta secção são referidas algumas técnicas utilizadas em Big Data e por fim,

na quinta secção é dado a ênfase ao Big Data na Sáude, nomeadamente, quais as suas

vantagens.

2.1 Estratégia de pesquisa

A estratégia de pesquisa adotada baseou-se, primeiramente, numa pesquisa por

palavras-chave nas mais diversas plataformas como “RepositóriUM”, “Google Scholar”, “B-

on” e “IEEE Xplore”. Esta pesquisa decorreu entre Dezembro de 2017 e Fevereiro de 2018,

utilizando como principais palavras-chaves: “Clinical Big Data”, “Big Data na Sáude”, “Big

Data Concepts”, “Big Data Definitions”, “Big Data Dimensions”, “Big Data in Health

Sector”.

Sabendo que a pesquisa por palavras-chave deve ser só o método de pesquisa inicial

uma vez que pode limitar a abrangência da revisão de literatura (Levy & Ellis, 2006),

seguidamente, procedeu-se ao conceito de “backward and forward search”. Este conceito foi

introduzido por (Webster & Watson, 2002) que consiste em rever as citações dos artigos

selecionados pelo primeiro método de pesquisa e posteriormente, identificar artigos citando os

artigos selecionados nos passos anteriores. Nestas situações, para além das plataformas já

mencionadas, também se utilizou o “Scopus” e “Web of Science”.

Salvo raras exceções, nesta pesquisa teve-se em consideração as seguintes restrições:

artigos redigidos em português ou inglês;

5

ano de publicação compreendido entre 2008 e 2018, não inferior a 10 anos;

2.2 Big Data

Para investigar um tema tão abrangente e emergente como o Big Data, em especial no

setor da saúde, é necessário previamente realizar um levantamento de vários conteúdos e

conceitos. Devido a esse facto, nesta secção serão abordadas as definições inerentes ao

conceito de Big Data, as suas características, os desafios que enfrenta e por fim, os vários

processos para o transformar em conhecimento.

2.2.1 Definições e Conceitos

Apesar de algumas referências ao termo nos anos 90, considera-se que Big Data

difundiu-se a partir de 2011 (Gandomi & Haider, 2015). No entanto, devido à sua

complexidade e heterogeneidade, não existe nenhuma definição especifica do termo (Dave &

Kamal, 2017).

Segundo um questionário conduzido pela SAP, no ano de 2012, citado por (Gandomi

& Haider, 2015), constatou-se que a definição de Big Data para 154 executivos é muito

distinta, tal como se pode visualizar na Figura 1. Nota-se, maioritariamente, que há quem

defina Big Data focando-se no enorme crescimento da quantidade de dados gerados e

processados ou então nas suas características e desafios.

Figura 1 - Definições de Big Data baseadas num questionário aplicado a 154 executivos, em 2012. Retirado de (Gandomi &

Haider, 2015).

6

Por exemplo, segundo McKinsey & Company (2011), Big Data refere-se a datasets

cujo tamanho compromete a competência dos softwares de base de dados tradicionais para o

armazenamento, gestão e análise de dados. Esta definição é intencionalmente subjetiva uma

vez que inclui a indicação não explícita do tamanho que o dataset necessita de ter para ser

considerado Big Data, este facto deve-se sobretudo à variação proveniente da evolução

tecnológica e de setor para setor (McKinsey & Company, 2011).

Já de outro modo, segundo Gartner, citado por (Gandomi & Haider, 2015), Big Data é

um recurso de informação com alto volume, alta velocidade e alta variedade que exige formas

inovadoras para processamento de dados para uma melhor compreensão e tomada de decisão.

2.2.2 Características

As características do Big Data, também designadas de dimensões são tipicamente

conhecidas pelo modelo dos 3Vs, constituído por Volume, Variedade e Velocidade

(Zulkarnain & Anshari, 2016) , tal como se pode verificar na Figura 2. Estas três dimensões

foram identificadas por Doug Laney, em 2001, num relatório de uma investigação usado por

inúmeras empresas e departamentos de investigação, como a IBM, Gartner e Microsoft para

identificar a complexidade e requisitos tecnológicos do Big Data (Dave & Kamal, 2017).

Figura 2 - Os 3Vs do Big Data. Retirado de (Russom, 2011).

7

Os 3Vs são considerados como os principais desafios que o Big Data impõe às

infraestruturas e tecnologias para armazenar, gerir e processar dado (Dave & Kamal, 2017).

Deste modo, de seguida serão descritas cada um deles:

Volume - corresponde à quantidade de dados que são recolhidos ou gerados por

organizações ou um individual (Lee, 2017). Tal como referido anteriormente, definir o

tamanho destes volumes é relativo e varia segundo alguns fatores, tais como o tempo e

o tipo de dados usados em armazenamento (Gandomi & Haider, 2015). De uma forma

geral, estimou-se, em 2014, que a cada dia que passa o mundo produz 2,3 triliões de

gigabytes, e que em 2020, sejam 40 zettabytes (Dave & Kamal, 2017).

Variety (Variedade) – corresponde ao tipo de dados existentes (Lee, 2017), por

outras palavras à heterogeneidade estrutural num dataset (Gandomi & Haider, 2015).

Os avanços tecnológicos permitiram gerar vários tipos de dados, podendo estes ser do

tipo estruturado, semiestruturado e não estruturado (Lee, 2017). Os dados

estruturados dizem respeito aos dados organizados numa base de dados relacional

(Gandomi & Haider, 2015). Já os dados não estruturados são dados que não possuem

uma organização estrutural, tais como texto, imagens, áudio e vídeos (Gandomi &

Haider, 2015). Por fim, os dados semiestruturados são dados que não seguem as regras

padrão de uma base de dados relacional mas que cumprem algumas necessidades

estruturais (Lee, 2017).

Velocity (Velocidade) – corresponde à velocidade à qual os dados são gerados e

processados (Lee, 2017). A proliferação de dispositivos digitais tal como smartphones

e sensores tem levado a uma crescente criação de nova informação e, por conseguinte,

uma enorme necessidade de analisá-la em tempo real (Gandomi & Haider, 2015). Por

exemplo, estima-se que, no ano de 2015, 90% da grande quantidade de dados

existente foi gerada só nos últimos dois anos (Dave & Kamal, 2017).

Com contínuos estudos e investigação foram identificadas outras dimensões do Big Data,

por vários autores, que foram adicionadas ao modelo dos 3Vs inicial. De seguida, serão

mencionadas algumas delas:

Veracity (Veracidade) – representa a falta de fiabilidade e incerteza inerente a

algumas fontes de dados (Gandomi & Haider, 2015), estas podem sugir devido à

imprecisão, inconsistência e subjetividade em dados (Lee, 2017). Por exemplo, os

sentimentos dos consumidores não são fiáveis uma vez que incluem a subjetividade da

sua opinião (Lee, 2017). No entanto, esta necessidade de lidar com dados imprecisos e

8

incertos, uma vez que contém informações valiosas, é outra faceta do Big Data

(Gandomi & Haider, 2015), que é ultrapassada devido ao desenvolvimento de

ferramentas estatistícas e novas técnicas (Lee, 2017) . Esta quarta dimensão do Big

Data foi identificada pela IBM (Gandomi & Haider, 2015).

Variability (Variabilidade) – corresponde à variação na taxa de fluxo de dados

(Gandomi & Haider, 2015), ou seja, a velocidade à qual os dados são gerados e

processados não é sempre constante. Isto constitui uma impressibilidade e é desafiante

no sentido de gerir os recursos computacionais necessários (Lee, 2017). Esta dimensão

do Big Data foi identificada pela SAS (Gandomi & Haider, 2015).

Complexity (Complexidade) – corresponde ao facto de o Big Data ter uma

infinidade de fontes de dados (Gandomi & Haider, 2015). Esta complexidade dificulta

a coleta, limpeza, armazenamento e processamento de dados heterogéneos (Lee,

2017). Esta dimensão do Big Data foi identificada pela SAS (Gandomi & Haider,

2015).

Value (Valor) – corresponde ao valor que o Big Data poderá trazer para as

organizações. Os dados recebidos na sua forma original usualmente têm pouco valor

relativamente ao seu volume (Gandomi & Haider, 2015). No entanto, analisando estes

volumes de dados poderá obter-se um grande valor (Gandomi & Haider, 2015). Esta

dimensão do Big Data foi identificada pela Oracle (Lee, 2017).

Decay (Declínio) – corresponde ao declínio do valor do dados com o decorrer do

tempo (Lee, 2017). Numa era onde os dados são gerados a altas velocidades, o

processo e análise imediata dos dados é o mais importante. Segundo Lee (2017), o

declínio do dados é um função exponencial relativamente ao tempo.

Como foi possível notar, vários autores propuseram diferentes dimensões, separadamente.

Por isso, Lee (2017) criou uma visão integrada do Big Data onde é visível as relações entre

as várias dimensões. Tal como se pode visualizar na Figura 3, cada lado do triângulo

representa uma dimensão pertencente aos 3Vs iniciais (Volume, Velocity e Variety) e dentro

do triângulo estão representadas cinco dimensões (Veracity, Variability, Complexity, Decay e

Value) que são afetadas com o crescimento das dimensões de cada lado do triângulo. A maior

parte das dimensões são afetadas positivamente, com exceção da Veracity que é afetada

negativamente.

9

Esta visão integrada mostra que os dados na sua forma tradicional são um subconjunto do

Big Data com as mesmas 3 dimensões, no entanto, cada dimensão tem uma proporção muito

menor (Lee, 2017).

Figura 3 - Visão Integrada do Big Data. Retirado de (Lee, 2017).

2.2.3 Desafios

De acordo com (Lee, 2017), o desenvolvimento de aplicações de Big Data apresenta

múltiplos desafios para as várias organizações. De seguida, os principais desafios serão

enumerados:

Qualidade dos dados – refere-se à adequação dos dados a um propósito e é

essencial para a tomada de decisão. Cada vez mais os dados são de forma não

estruturada e armazenados através de várias fontes, com isto a qualidade dos

dados tende a diminuir. Desta forma, é necessário efetuar processos de

controlo da qualidade dos dados para desenvolver métricas de qualidade,

reparar erros nos dados e garantir uma boa relação entre qualidade, custos e

ganhos.

Segurança dos dados – faltas de segurança cria resistência dos utilizadores

para adotar sistemas de Big Data, o que poderá levar a perdas financeiras e

diminuir a reputação de uma organização. Sem garantir mecanismos de

10

segurança próprios, informação confidencial poderá ser transmitida

inadequadamente.

Privacidade - com a maturidade das tecnologias de Big Data, o extensivo

armazenamento de dados pessoais levanta enormes preocupações para

individuais, organizações e governo. É importante estipular um termo entre

uso de dados pessoais para serviços e as preocupações de privacidade uma vez

que Big Data é a chave para aumentar qualidade nos serviços e reduzir custos.

Justificação do investimento – apesar de todos os benefícios oferecidos pelo

Big Data, ainda existem dificuldades em provar o valor do seu investimento.

Muitos projetos de Big Data têm problemas indefinidos e utilizar tecnologias a

emergir causa um grande risco de falha do projeto e consequentemente, grande

aversão a investimento desta natureza comparativamente a projetos de

tecnologias tradicionais.

2.2.4 Construção de conhecimento baseado em Big Data

Como referido anteriormente, Big Data é inútil na sua forma original (Gandomi &

Haider, 2015). O seu potencial é extraído assim que este é empregue em auxiliar na tomada

de decisão de uma organização, sendo transformando em dados relevantes e em evidências

(Gandomi & Haider, 2015).

O processo geral de extrair conhecimento do Big Data pode ser dividido em cinco

estados, que formam dois subprocessos: Data Management e Analytics, tal como se pode

verificar na Figura 4.

Figura 4 - Processo para extrair conhecimento do Big Data. Retirado de (Gandomi & Haider, 2015).

11

O primeiro subprocesso, Data Management, envolve processos e tecnologias para

adquirir, armazenar e preparar os dados para análises (Gandomi & Haider, 2015). De seguida,

Analytics, que se refere a técnicas usadas para analisar e adquirir conhecimento do Big Data

(Gandomi & Haider, 2015).

2.3 Hadoop

O Hadoop é uma framework open source para processar de forma eficiente grandes

quantidades de dados (McKinsey & Company, 2011), através de clusters usando simples

modelos de programação. O Hadoop foi inspirado no Google File System, que é um sistema

de arquivos desenvolvido pela Google (McKinsey & Company, 2011) e no paradigma de

programação MapReduce (Zikopoulos & Eaton, 2011).

Nesta secção serão retratados alguns módulos do Hadoop, tal como o Hadoop Distributed

File System (HDFS) e o Hadoop Map Reduce.

2.3.1 Hadoop Distributed File System (HDFS)

De forma a entender como é possível um cluster Hadoop possuir centenas de nodes, é

necessário perceber primeiro o HDFS, o sistema de ficheiros do Hadoop. Primeiramente, os

dados num cluster Hadoop são particionados em fragmentos mais pequenos, designados de

blocos, e posteriormente são distribuídos por este (Zikopoulos & Eaton, 2011). Desta forma,

os ficheiros são armazenados em blocos de tamanho fixo em diferentes nodes de um cluster

(Mavridis & Karatza, 2017).

2.3.2 Hadoop Map Reduce

O Map Reduce é um software, criado pela Google, para processar de forma eficiente

grandes quantidades de dados (McKinsey & Company, 2011). Está implementado no Hadoop

(McKinsey & Company, 2011).

12

2.4 Big Data Analytics

Existem imensas técnicas analíticas que podem ser utilizadas num projeto de Big Data

(Maltby, 2012). A técnica a usar irá depender do tipo de dados que estão a ser analisados, a

tecnologia disponível e qual a questão de investigação que se está a tentar responder (Maltby,

2012). De seguida, serão enumeradas e descritas algumas técnicas, tal como:

Text analytics/ Text mining – grande parte dos dados gerados pelas organizações

estão em forma de texto (Maltby, 2012), tal como: emails, blogs, respostas a

questionários, documentos corporativos, notícias, entre outros (Gandomi & Haider,

2015). Esta técnica permite a extração de informação de textos (Gandomi & Haider,

2015). Desta forma, permite às organizações converter grandes volumes de textos em

dados pertinentes e relevantes, os quais irão auxiliar na tomada de decisão (Gandomi

& Haider, 2015).

Audio analytics – esta técnica analisa e extrai informação de dados de áudio não

estruturados (Gandomi & Haider, 2015). Quando aplicada à linguagem humana, esta

técnica também se pode designar speech analytics (Gandomi & Haider, 2015).

Atualmente, centros de atendimento ao cliente e a área da sáude são as áreas primárias

desta técnica (Gandomi & Haider, 2015).

Video analytics – envolve uma variedade de técnicas para monitorizar, analisar e

extrair informação relevante de streams de vídeo (Gandomi & Haider, 2015).

Social Media analytics – refere-se à análise de dados estruturados e não estruturados

das redes sociais (Gandomi & Haider, 2015). Através das redes sociais pode-se obter

dois tipos de informação, conteúdo gerado pelos utilizadores (por exemplo,

sentimentos, imagens e vídeos) e relações e interações entre várias entidades (por

exemplo, pessoas, organizações e produtos) (Gandomi & Haider, 2015).

Predictive analytics/Predictive modeling – esta técnica é composta por uma

variedade de técnicas que preveem o futuro baseadas em dados atuais e históricos

(Gandomi & Haider, 2015). Por outras palavras, pode-se definir como um conjunto de

técnicas onde é criado ou escolhido um modelo matemático que melhor prevê a

probabilidade de um resultado (McKinsey & Company, 2011)

Machine learning – é caracterizado como uma subespecialidade da ciência da

computação, que se preocupa com o design e desenvolvimento de algoritmos que

permitam que os computadores executar comportamentos baseados em dados

empíricos (McKinsey & Company, 2011). O maior objetivo da investigação em

13

machine learning é aprender automaticamente a reconhecer padrões complexos e

tomar decisões baseadas nessa informação (Maltby, 2012).

Cluster analysis – é um método que divide um grupo grande de objetos similares,

cujas características de similaridade não são conhecidas, em grupos mais pequenos e

tenta descobrir quais as semelhanças entre eles (Maltby, 2012). Usado em Data

Mining (McKinsey & Company, 2011).

Data Mining – é um conjunto de técnicas para extrair padrões de um grande conjunto

de dados, combinando métodos de estatística e machine learning com gestão de base

de dados (McKinsey & Company, 2011).

Association rule learning – é caracterizado como uma forma de descobrir relações

entre variáveis em grandes bases de dados (Maltby, 2012). Consiste numa variedade

de algoritmos para gerar e testar possíveis regras (McKinsey & Company, 2011). Um

bom exemplo de aplicação desta técnica é quando um retalhista consegue determinar

quais os produtos que são comprados em conjunto, podendo assim usar esta

informação para marketing (McKinsey & Company, 2011). Usado em Data Mining

(McKinsey & Company, 2011).

2.5 Big Data na Sáude

Tal como tem sido evidente ao longo desta revisão de literatura, a vasta quantidade de

dados que tem sido recolhidos e armazenados está a expandir rapidamente.

Até à data, muitas organizações do setor da saúde, não usufruem dos benefícios que

estas técnicas e tecnologias podem trazer, em alguns casos por se manterem céticas ao poder

do Big Data (Wang, Kung, & Byrd, 2016). Segundo um estudo realizado pela IBM em 2012,

citado por (Wang et al., 2016), apenas 42% das organizações do setor da saúde questionadas

estão a utilizar técnicas analíticas rigorosas para dar suporte à tomada de decisão.

O potencial do Big Data Analytics na saúde proporciona melhores resultados em muitos

cenários, como por exemplo, aplicar técnicas, nomeadamente predictive modeling, por cada

paciente para identificar individualmente quais os pacientes que possam beneficiar de

cuidados preventivos ou mudanças de estilo de vida (Raghupathi & Raghupathi, 2014).

Também é possível, por exemplo, aplicar técnicas para analisar grandes quantidades de dados

do tipo texto e extrair informações relevantes de, imaginemos, as notas e prescrições de um

médico (Wang et al., 2016). De uma forma mais geral, através da descoberta de associações,

14

padrões e tendências com os dados, Big Data Analytics tem o potencial de melhorar os

cuidados, salvar vidas e diminuir os custos (Raghupathi & Raghupathi, 2014).

Assim sendo, existe uma necessidade urgente para compreender o impacto económico,

estratégico e explorar o potencial do Big Data, em especial no setor da saúde.

2.5.1 Vantagens do Big Data na Saúde

Como foi possível percecionar anteriormente, o Big Data traz benefícios para o setor da

saúde, de forma a tornar esta questão mais explicita, de seguida, será exposto alguns

exemplos de vantagens como:

Detetar doenças em estados mais precoces, onde os tratamentos são mais eficazes

(Raghupathi & Raghupathi, 2014);

Gerir a saúde individual e da população (Raghupathi & Raghupathi, 2014);

Detetar fraudes mais rapidamente e eficientemente (Raghupathi & Raghupathi, 2014);

Certos desenvolvimentos ou resultados poderão ser previstos ou estimados baseados

em dados históricos (Raghupathi & Raghupathi, 2014);

Armazenar grandes quantidade de dados em vários formatos, recorrendo a sistemas

NoSQL (Wang et al., 2016).

Segundo a (McKinsey & Company, 2011), Big Data poderá ajudar a diminuir o

desperdício e ineficiência nas seguintes áreas:

Operações clínicas: efetuar comparações para determinar quais as formas relevantes e

economicamente viáveis para diagnosticar e tratar pacientes; implementar sistemas de

suporte à decisão para melhor a eficiência e qualidade das operações; analisar os

dados sobre procedimentos médicos para identificar fontes de desperdício em

processos e otimiza-los.

Investigação e desenvolvimento: utilizar predictive modeling para novos

medicamentos e determinar a mais eficiente e economicamente viável alocação de

recursos; aplicar ferramentas estatísticas e algoritmos para melhorar tratamentos em

pacientes; analisar registos de pacientes para identificar indicadores e descobrir efeitos

secundários antes de novos produtos chegarem ao mercado.

Novos modelos de negócio: agregar e analisar registos de pacientes para fornecer

dados e serviços a terceiros; criar plataformas e comunidades online uma vez que

estão a gerar dados valiosos.

15

Saúde Pública: analisar padrões de doenças e transmissões para aumentar a

vigilância; transformar grandes quantidades de dados em conhecimento que pode ser

usado para identificar necessidades, providenciar serviços e prevenir crises.

16

3. ABORDAGEM METODOLÓGICA

Tendo em conta a dimensão e complexidade inerente a este projeto, é necessário optar

por seguir várias metodologias uma vez que, fornecem um sistema de princípios, práticas e

procedimentos aplicados a um especifico conjunto de conhecimento (Peffers, Tuunanen,

Rothenberger, & Chatterjee, 2007). Desta forma, para a elaboração desta dissertação, serão

seguidas três abordagens, na vertente mais teórica, o estudo de caso e na vertente mais prática,

“Design Science Research Methodology for Informations Systems” e “Kimball Lifecycle”.

Nesta secção serão apresentadas e descritas cada uma destas abordagens

metodológicas.

3.1 Estudo de caso

Esta abordagem metodológica é caracterizada pelo facto de envolver um plano de

investigação que contempla o estudo intensivo e detalhado de um “caso” (Coutinho &

Chaves, 2002). Tal como o próprio nome indica, examina-se o “caso” em profundidade, no

seu contexto natural tendo em consideração a sua complexidade e recorrendo-se aos

métodos apropriados (Coutinho & Chaves, 2002). A finalidade desta pesquisa é sempre

holística uma vez que visa sustentar e compreender o “caso” no seu todo. Para Yin, citado

por (Coutinho & Chaves, 2002), um estudo de caso poderá ter como objetivo explorar,

descrever ou ainda explicar.

Segundo (Coutinho & Chaves, 2002), um relatório de estudo de caso tem de incluir:

a definição do “caso” em estudo e as suas delimitações;

uma descrição detalhada do contexto onde se insere o “caso”;

a justificação da pertinência do estudo e os seus objetivos;

a identificação da estratégia geral;

a definição de qual será a unidade de análise;

uma fundamentação dos pressupostos teóricos que vão conduzir o trabalho de

campo;

uma descrição clara de “como”, “de quem” e “quando” serão recolhidos os

dados;

uma descrição pormenorizada da analise dos dados;

a definição dos critérios que conferirão qualidade ao estudo.

17

3.2 Design Science Research Methodology for Information Systems

Antes de mais, é importante explicar que o objetivo da Design Science é desenvolver

um artefacto na forma de um modelo que ofereça soluções baseadas em tecnologia,

resolvendo problemas num contexto particular (Peffers et al., 2007). Tal como será

expectável, uma metodologia neste âmbito aplicada à área de sistemas de informação irá

ajudar os investigadores a produzir e apresentar pesquisas de maior qualidade que será aceite

como válida, rigorosa e publicável (Peffers et al., 2007).

Devido a estes motivos, (Peffers et al., 2007), elaboraram a Design Science Research

Methodology for Information Systems, como é visível na Figura 5.

Esta metodologia esta dividia em seis fases, que serão descritas de seguida:

Identificação do problema e da motivação – definir especificamente o

problema da investigação e justificar o valor da sua solução. Dado que a

definição do problema será usada para desenvolver o artefacto que promoverá a

solução, poderá ser útil descrever o problema conceptualmente para que a

solução capture a sua complexidade. Justificar o valor da solução motiva o

investigador e a audiência a procurar a solução e a aceitar os resultados. Para

esta fase é necessário conhecimento no estado do problema e da importância da

solução.

Figura 5 - Design Science Research Methodology for Information Systems. Retirado de (Peffers et al., 2007).

18

Definir os objetivos da solução – concluir os objetivos da solução através da

definição do problema e do conhecimento do que é ou não possível. Os

objetivos podem ser quantitativos, por exemplo, em que termos uma solução

poderá ser melhor que uma que já existe ou então qualitativos, por exemplo,

descrever como um novo artefacto irá suportar os problemas que mais nenhum o

faz até agora. Para esta fase é necessário conhecimento no estado do problema e

se há soluções e se são eficazes.

Conceção e desenvolvimento – criar o artefacto resultante da investigação,

podendo conter conceitos, modelos, métodos ou instanciações. Esta atividade

inclui determinar a funcionalidade ambicionada no artefacto e a sua arquitetura.

Para esta fase é necessário partir dos objetivos para concessionar e desenvolver

um artefacto que inclua conhecimento da teoria que possa ser traduzido numa

solução.

Demostração – demonstrar o uso do artefacto para resolver uma ou mais

instancias do problema. Esta atividade poderá envolver experimentações,

simulações ou outras atividades apropriadas. Para esta fase é necessário

conhecimento em como utilizar o artefacto para resolver o problema.

Avaliação – observar e medir o quanto é que o artefacto suporta a solução para

o problema. Esta atividade envolve a comparação dos objetivos da solução com

os resultados obtidos na demostração. Para esta fase é necessário conhecimento

em métricas e técnicas analíticas relevantes. Dependendo da natureza do

problema e do artefacto, a avaliação poderá ter várias formas, como a

comparação das funcionalidades do artefacto com os objetivos da solução,

métricas de performance, questionários de satisfação, feedback das partes

interessadas, entre outros. No final desta fase, os investigadores podem optar por

voltar à etapa 3 para melhorar o artefacto ou continuar para a próxima etapa.

Comunicação – apresentar o problema e a sua importância, o artefacto e a sua

utilidade, bem como o rigor da conceção. Para esta fase é necessário o

conhecimento de oportunidades de comunicação cientifica, técnica e a noção de

como comunicar um estudo desta natureza.

19

3.3 Kimball Lifecycle

A abordagem metodológica “Kimball Lifecycle” foca-se em na conceção e

desenvolvimento de sistemas de Data Warehouse e Business Intelligence. No entanto, é

importante ter em conta algumas atividades desta metodologia para o desenvolvimento deste

projeto. Na Figura 6, é possível visualizar o diagrama que reflete o método de Kimball.

Figura 6 - Kimball Lifecycle Diagram. Retirado de (Kimball & Ross, 2011)

Assim sendo, considerou-se relevante utilizar as seguintes atividades:

Definição dos requisitos de negócio – identificar os requisitos iniciais do

sistema, através de entrevistas e reuniões com os colaboradores do projeto.

Conceção da arquitetura – definição da framework de apoio para a conceção

da arquitetura.

Seleção e instalação de produtos – tendo em conta os requisitos e recursos

identificados na arquitetura, é necessário proceder à aquisição e instalação dos

produtos específicos.

20

4. PLANO DE ATIVIDADES

Neste capítulo será apresentado o plano de atividades do presente projeto de dissertação

e é composto por três secções. Na primeira secção serão abordadas as principais atividades

inerentes ao projeto, bem como a sua data de início, de conclusão e as atividades

predecessoras. Na segunda secção será apresentado o Diagrama de Gantt pertencente ao

planeamento explicado na secção anterior. Por fim, na terceira secção, é exposta uma tabela

de riscos e contingências, onde é possível visualizar os principais riscos associados a este

projeto e a sua estratégia de mitigação.

4.1 Planeamento

Nesta secção são apresentadas as principais atividades inerentes ao projeto com o

intervalo temporal de 27 de outubro de 2017 a 14 de dezembro de 2018. Tal como se pode

visualizar na Figura 7, este projeto está dividido em três atividades principais: o plano de

trabalho, o projeto de dissertação e a dissertação. É de realçar que este planeamento apresenta

três milestones: a submissão do plano de trabalho, a submissão do relatório do projeto de

dissertação e a submissão do documento de dissertação.

Figura 7 - Planeamento do Projeto

21

4.2 Diagrama de Gantt

Nesta secção é apresentado o Diagrama de Gantt onde está representado numa linha

temporal as atividades inerentes ao projeto e as suas predecessoras.

Figura 8 - Diagrama de Gantt

22

4.3 Riscos e Contingências

Tal como é normal, este projeto tem inerente vários riscos que se terá em consideração.

Na Tabela 1 são identificados os riscos que poderão acontecer ao longo do desenvolvimento

do projeto, a sua descrição, consequências e respetiva estratégia de mitigação.

Tabela 1 - Riscos e Contingências do Projeto

Riscos Descrição Consequências Estratégia de

Mitigação

Inexperiência no

planeamento

Devido à

inexperiência em

projetos semelhantes,

poderão existir erros

nas estimativas

realizadas no

planeamento.

Incumprimento dos

prazos estabelecidos

para as etapas.

Analisar outros projetos

semelhantes e recolher

informação sobre o tipo

de projetos em questão,

identificando possíveis

problemas no seu

desenvolvimento.

Falta de

conhecimento na

área

A falta de

conhecimento na

área poderá

comprometer o

desenvolvimento do

projeto.

O resultado final do

projeto poderá não

responder às reais

necessidades do

cliente por falta de

informação quanto à

área em questão.

Fazer uma pesquisa

intensiva de modo a

recolher toda a

informação relevante para

o desenvolvimento do

projeto.

Falta de

conhecimento

técnico

A falta de

conhecimento e

experiência poderá

comprometer a

utilização das

ferramentas e

metodologias

necessárias ao

desenvolvimento do

projeto.

Os objetivos

estipulados poderão

não ser cumpridos e a

qualidade do projeto

poderá ser afetada.

Identificar as ferramentas

e metodologias a adotar,

de forma a realizar a

devida pesquisa e estudo

das mesmas.

Incompreensão

dos objetivos e

resultados do

projeto

A má compreensão

dos objetivos e

resultados esperados

poderá comprometer

o desenvolvimento

do projeto.

Os objetivos





Definir reuniões com o

orientador para esclarecer

todas as dúvidas.

Alteração dos

objetivos e

resultado do

Ao longo do projeto,

tanto por parte do

cliente como do

O trabalho elaborado

previamente poderá

ter de sofrer algumas

Reajustar o plano de

trabalho elaborado

previamente e reunir com

23

projeto orientador, poderão

surgir alterações aos

objetivos e

resultados esperados.

alterações e o

planeamento do

projeto poderá ser

afetado.

o orientador para

esclarecer os novos

objetivos e resultados

esperados.

Elevada

complexidade do

projeto

A dimensão e

dificuldade do

projeto poderá ser

maior do que o

espectável.

Adiamento do prazo

de entrega do projeto.

Aumentar a carga horária

despendida no projeto e

realizar uma pesquisa

mais extensa de forma a

adquirir mais

conhecimento.

Perda de ficheiros Falhas ou avarias, a

nível de hardware ou

software, na máquina

onde se encontram

os ficheiros poderão

conduzir à sua perda.

Incumprimento dos

prazos estabelecidos

e atrasos no

desenvolvimento do

projeto.

Criar backups

esporadicamente de todos

os ficheiros e possuir uma

máquina de substituição.

Má comunicação

com o orientador

A falta ou rara

comunicação com o

orientador.

Os objetivos





Definir reuniões de forma

regular e estabelecer um

meio de comunicação.

24

5. CONCLUSÃO

Com a realização deste projeto de dissertação foi possível verificar que o sector da

saúde também padece do crescente armazenamento de grandes quantidades de dados. Face a

esta realidade, surgiram várias tecnologias e técnicas de Big Data que constituem inúmeras

oportunidades para este sector. No entanto, constatou-se que a maior parte das organizações

nesta indústria não usufruem deste desenvolvimento tecnológico.

Esta revisão de literatura foi importante na medida em que exalta a necessidade urgente

para compreender o impacto económico e estratégico que o Big Data traz, mais

especificamente no setor clínico. De entre várias vantagens é importante destacar o potencial

do Big Data Analytics, que através da descoberta de padrões, tendências e associações com os

dados é capaz de melhorar cuidados, salvar vidas e diminuir custos. Por outro lado, também

se concluiu que o desenvolvimento de aplicações de Big Data apresentam múltiplos desafios,

nomeadamente a nível da segurança dos dados, da privacidade e da justificação do

investimento.

Posto isto, a dissertação assumirá uma vertente prática, onde será desenvolvido um

modelo de Big Data para o Centro Hospitalar do Porto (CHP), segundo as metodologias

“Design Science Research for Information Systems” e “Kimball Lifecycle”. Neste sentido, é

esperado atingir vários objetivos intermédios como a identificação de tecnologias de Big Data

existentes e apropriadas para o setor da saúde, a identificação de arquiteturas já existentes e,

ainda, analisar as necessidades do CHP e os requisitos do sistema.

25

REFERÊNCIAS

Coutinho, C., & Chaves, J. (2002). O estudo de caso na investigação em Tecnologia Educativa em

Portugal. Revista Portuguesa de Educação, 15(1), 221–243.

Dave, M., & Kamal, J. (2017). Identifying Big Data Dimensions and Structure, 163–168.

Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics.

International Journal of Information Management, 35(2), 137–144.

https://doi.org/10.1016/j.ijinfomgt.2014.10.007

Kimball, R., & Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional

modelling. Nachdr.]. New York [ua]: Wiley. https://doi.org/10.1145/945721.945741

Lee, I. (2017). Big data: Dimensions, evolution, impacts, and challenges. Business Horizons, 60(3),

293–303. https://doi.org/10.1016/j.bushor.2017.01.004

Levy, Y., & Ellis, T. J. (2006). A systems approach to conduct an effective literature review in support

of information systems research. Informing Science, 9, 181–211.

https://doi.org/10.1049/cp.2009.0961

Maltby, D. (2012). Big Data Analytics. https://doi.org/10.1002/9781119205005

Mavridis, I., & Karatza, H. (2017). Performance evaluation of cloud-based log file analysis with

Apache Hadoop and Apache Spark. Journal of Systems and Software, 125, 133–151.

https://doi.org/10.1016/j.jss.2016.11.037

McKinsey & Company. (2011). Big data: The next frontier for innovation, competition, and

productivity. McKinsey Global Institute, (June), 156.

https://doi.org/10.1080/01443610903114527

Murdoch, T., & Detsky, A. (2013). The Inevitable Application of Big Data to Health Care. JAMA

Evidence, 309(13), 1351–1352. https://doi.org/10.1001/jama.2013.393

Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2007). A Design Science Research

Methodology for Information Systems Research. Journal of Management Information Systems,

24(3), 45–77. https://doi.org/10.2753/MIS0742-1222240302

Raghupathi, W., & Raghupathi, V. (2014). Big data analytics in healthcare: promise and potential.

Health Information Science and Systems, 2(1), 3. https://doi.org/10.1186/2047-2501-2-3

Wang, Y., Kung, L. A., & Byrd, T. A. (2016). Big data analytics: Understanding its capabilities and

potential benefits for healthcare organizations. Technological Forecasting and Social Change,

126(February), 3–13. https://doi.org/10.1016/j.techfore.2015.12.019

Webster, J., & Watson, R. T. (2002). Analyzing the Past to Prepare for the Future: Writing a Literature

Review. MIS Quarterly, 26(2), xiii–xxiii. https://doi.org/10.1.1.104.6570

26

Zikopoulos, P., & Eaton, C. (2011). Understanding Big Data: Analytics for Enterprise Class Hadoop and

Streaming Data: Analytics for Enterprise Class Hadoop and Streaming Data.

Zulkarnain, N., & Anshari, M. (2016). Big data: Concept, applications, & challenges. 2016

International Conference on Information Management and Technology (ICIMTech), (November),

307–310. https://doi.org/10.1109/ICIMTech.2016.7930350

Cristiana Filipa Rodrigues Dias - Universidade do …...Professor Doutor Carlos Filipe Portela...

Documents

Transcript of Cristiana Filipa Rodrigues Dias - Universidade do …...Professor Doutor Carlos Filipe Portela...