Cristiana Filipa Rodrigues Dias - Universidade do …...Professor Doutor Carlos Filipe Portela...
Transcript of Cristiana Filipa Rodrigues Dias - Universidade do …...Professor Doutor Carlos Filipe Portela...
Cristiana Filipa Rodrigues Dias
Clinical Big Data
Projeto de Dissertação
Mestrado em Engenharia e Gestão de Sistemas de
Informação
Trabalho efetuado sob a orientação de:
Professor Doutor Manuel Filipe Vieira Torres dos Santos
Professor Doutor Carlos Filipe Portela
Fevereiro de 2018
ii
iii
RESUMO
Hoje em dia, organizações nos mais distintos setores de atividades, estão a gerar
enormes quantidade de dados, a uma grande velocidade e variedade. Este fenómeno ditou um
crescente desenvolvimento tecnológico, denominado de Big Data, que já é reconhecido como
uma das mais importantes áreas do futuro da informação. Devido a facto, as organizações têm
procurado novas soluções de forma a melhorarem os seus serviços e tirar partido das
vantagens destas novas tecnologias. Nesta dissertação será abordada a adoção destas
tecnologias na indústria da saúde, mais propriamente no Centro Hospitalar do Porto (CHP).
A realidade vivida na indústria da saúde é similar à descrita anteriormente. É um setor
onde se tem armazenado digitalmente enormes quantidades de dados e com enormes
benefícios provenientes destas novas tecnologias. Apesar disso, são poucas as organizações
ligadas ao setor da saúde que fazem investimentos nesta área e que estão a aproveitar o
potencial do Big Data.
Tendo por motivação todos os aspetos referidos anteriormente, a finalidade da
presente dissertação consiste no desenvolvimento de uma arquitetura de Big Data, que
permita colmatar as necessidades do CHP. Desta forma, neste documento é incluída uma
revisão de literatura sobre os seguintes tópicos: Big Data, onde é explicado a sua definição,
características e desafios; Hadoop, onde são descritos os seus principais módulos; Big Data
Analytics, onde são descritas algumas técnicas que poderão ser usadas num projeto de Big
Data; e Big Data na saúde, onde são enumeradas vantagens da utilização do Big Data no
setor da saúde. Para a realização da dissertação, serão seguidas três abordagens
metodológicas: o estudo de caso, o “Design Science Research Methodology for Information
Systems” e o “Kimball Lifecycle”.
Palavras-Chave: Big Data, Big Data Analytics, Arquiteturas de Big Data, Big Data na Saúde
v
ABSTRACT
Nowadays, organizations in the most distinct sectors of activities, are generating
enormous amounts of data, at high velocity and high variety. This phenomenon dictated a
growing technological development, called Big Data, which is already recognized as one of
the most important areas of the future of information. Due to this fact, organizations have
been looking for new solutions to improve their services and take advantage of these new
technologies. This dissertation will address the adoption of these technologies in the health
industry, more specifically in the "Centro Hospitalar do Porto” (CHP).
The reality in the healthcare industry is similar to the phenomenon described above. It
is a sector where large amounts of data have been stored digitally and with enormous benefits
from these new technologies. Despite this, there are very few health-related organizations
making investments in Big Data and taking advantage of its potential.
The purpose of this dissertation is to develop a Big Data architecture to meet the needs
of the CHP. This document includes a review of literature about the following topics: Big
Data, where its definition, characteristics and challenges are explained; Hadoop, where its
main modules are described; Big Data Analytics, which describes some techniques that can be
used in a Big Data project; and Big Data in health, which lists the advantages of using Big
Data in the health sector. For the accomplishment of the dissertation, three methodological
approaches will be followed: the case study, the “Design Science Research Methodology for
Information Systems” and the “Kimball Lifecycle”.
KEYWORDS: Big Data, Big Data Analytics Big Data Architectures, Big Data in Healthcare
vi
ÍNDICE
Resumo ...................................................................................................................................... iii
Abstract ...................................................................................................................................... v
Lista de Figuras ......................................................................................................................... ix
Lista de Tabelas .......................................................................................................................... x
Lista de Abreviaturas, Siglas e Acrónimos ............................................................................... xi
1. Introdução ........................................................................................................................... 1
1.1 Enquadramento e Motivação ....................................................................................... 1
1.2 Objetivos e Resultados Esperados ............................................................................... 2
1.3 Estrutura do Documento .............................................................................................. 2
2. Revisão de Literatura .......................................................................................................... 4
2.1 Estratégia de pesquisa .................................................................................................. 4
2.2 Big Data ....................................................................................................................... 5
2.2.1 Definições e Conceitos ......................................................................................... 5
2.2.2 Características ...................................................................................................... 6
2.2.3 Desafios ................................................................................................................ 9
2.2.4 Construção de conhecimento baseado em Big Data .......................................... 10
2.3 Hadoop....................................................................................................................... 11
2.3.1 Hadoop Distributed File System (HDFS) .......................................................... 11
2.3.2 Hadoop Map Reduce .......................................................................................... 11
2.4 Big Data Analytics..................................................................................................... 12
2.5 Big Data na Sáude ..................................................................................................... 13
2.5.1 Vantagens do Big Data na Saúde ....................................................................... 14
3. Abordagem Metodológica ................................................................................................ 16
3.1 Estudo de caso ........................................................................................................... 16
3.2 Design Science Research Methodology for Information Systems ............................ 17
3.3 Kimball Lifecycle ...................................................................................................... 19
4. Plano de Atividades .......................................................................................................... 20
4.1 Planeamento............................................................................................................... 20
4.2 Diagrama de Gantt ..................................................................................................... 21
4.3 Riscos e Contingências .............................................................................................. 22
vii
5. Conclusão .......................................................................................................................... 24
Referências ............................................................................................................................... 25
ix
LISTA DE FIGURAS
Figura 1 - Definições de Big Data baseadas num questionário aplicado a 154 executivos, em
2012. ........................................................................................................................................... 5
Figura 2 - Os 3Vs do Big Data. .................................................................................................. 6
Figura 3 - Visão Integrada do Big Data. .................................................................................... 9
Figura 4 - Processo para extrair conhecimento do Big Data .................................................... 10
Figura 5 - Design Science Research Methodology for Information Systems. ......................... 17
Figura 6 - Kimball Lifecycle Diagram ..................................................................................... 19
Figura 7 - Planeamento do Projeto ........................................................................................... 20
Figura 8 - Diagrama de Gantt ................................................................................................... 21
x
LISTA DE TABELAS
Tabela 1 - Riscos e Contingências do Projeto .......................................................................... 22
xi
LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS
CHP – Centro Hospitalar do Porto
HDFS - Hadoop Distributed File System
IBM - International Business Machines
1
1. INTRODUÇÃO
Neste capitulo será apresentado o enquadramento e motivação para o presente projeto
de dissertação, bem como os objetivos e resultados esperados e por fim, a estrutura do
documento.
1.1 Enquadramento e Motivação
Vivemos numa era onde a quantidade de dados recolhidos ou gerados pelas mais
diversas organizações já não criam admiração ou impressionam ninguém, já é algo habitual
(John Walker, 2014). Este crescente desenvolvimento tecnológico já é reconhecido como uma
das mais importantes áreas do futuro da informação e está a evoluir a um ritmo rápido
sobretudo devido ao fenómeno das redes sociais e da Internet das Coisas (Lee, 2017), onde os
utilizadores podem gerar a sua própria informação através da sua comunicação com diversos
dispositivos. Contrariamente com o que acontecia antigamente, onde a única informação
gerada era só aquela que era introduzida nos sistemas informáticos (Zulkarnain & Anshari,
2016). Como resultado disso, o Big Data tem avançado de forma a permitir às organizações
converter este recurso em informação e conhecimento que os ajude a atingir os seus objetivos
(Murdoch & Detsky, 2013).
No setor da saúde, a realidade não é diferente. Historicamente, este setor tem gerado
também grandes quantidades de dados, desde manutenção de registos, requisitos
regulamentares e cuidados com os pacientes (Raghupathi & Raghupathi, 2014). Apesar de a
maior parte dos dados serem guardados em papel, a tendência aponta para a digitalização
desta grande quantidade de dados (Raghupathi & Raghupathi, 2014). Quando se fala em
dados gerados por estas organizações neste setor inclui-se dados de prescrições, dados
administrativos, dados de pacientes em sistemas de gestão, dados emitidos por sensores,
dados de redes sociais, blogs, artigos em revistas médicas, entre outros (Raghupathi &
Raghupathi, 2014).
Devido a este fenómeno torna-se importante explorar soluções de Big Data que se
ajustem ao contexto clínico, permitindo assim que se usufrua das várias vantagens deste tipo
de soluções. Após usufruir de uma infraestrutura tecnológica baseada em Big Data, através do
Big Data Analytics é possível descobrir associações, padrões e tendências com os dados e
2
consequentemente, melhorar os cuidados, salvar vidas e diminuir os custos (Raghupathi &
Raghupathi, 2014).
Tendo em consideração os pressupostos enunciados anteriormente, o presente projeto
de dissertação apresenta como intuito a elaboração de uma arquitetura de Big Data exequível
no contexto hospital, mais precisamente no Centro Hospitalar do Porto (CHP). Assim sendo,
é essencial realizar uma revisão de literatura sobre o tema em questão, concedendo especial
ênfase às tecnologias de Big Data e à analise de arquiteturas já existentes.
1.2 Objetivos e Resultados Esperados
No âmbito desta dissertação identificou-se a seguinte questão de investigação: “De
que forma pode ser o Big Data uma solução para o armazenamento e análise de dados no
contexto clínico?”
Desta forma, o presente projeto de dissertação tem por objetivo principal proceder à
conceção e desenvolvimento de uma arquitetura de Big Data capaz de colmatar as
necessidades do Centro Hospitalar do Porto (CHP). De modo a atingir o resultado esperado,
definiu-se como objetivos secundários:
Pesquisar e descrever o Big Data, nas suas diversas vertentes;
Identificar tecnologias de Big Data existentes e apropriadas para o setor da
saúde;
Identificar arquiteturas existentes no contexto do setor da saúde;
Analisar as necessidades do CHP e identificar os requisitos do sistema;
Definir e implementar a arquitetura.
1.3 Estrutura do Documento
O presente documento encontra-se divido em cinco capítulos. Sendo este, o primeiro
capítulo, é possível visualizar que pretende retratar o enquadramento e motivação do projeto,
bem como os objetivos e resultados esperados de modo a fundamentar a relevância do
mesmo.
De seguida, no segundo capítulo, é elaborada uma revisão de literatura que contém uma
descrição detalhada do termo Big Data, das suas características, dos seus desafios e dos seus
processos. Também foi elaborado um levantamento de tecnologias e técnicas de Big Data,
3
bem como a sua descrição. Por fim, ainda neste capítulo, é apresentado o estado da arte do
Big Data na Sáude, onde é feita uma referência às vantagens que este poderá trazer para o
setor.
No terceiro capítulo são descritas as abordagens metodológicas que serão adotadas no
decorrer do projeto, nomeadamente: o estudo de caso, o “Design Science Research for
Information Systems” e o “Kimball Lifecycle”.
No quarto capítulo é elaborado o plano de atividades, que contempla o planeamento do
projeto juntamente com o respetivo diagrama de Gantt e ainda, uma tabela de riscos e
contingências.
No quinto capítulo incidirá sobre as considerações finais sobre a realização do projeto
de dissertação e as respetivas conclusões.
Por fim, é possível encontrar uma lista com as referências bibliográficas utlizadas ao
longo do documento.
4
2. REVISÃO DE LITERATURA
Segundo (Webster & Watson, 2002), a revisão de literatura é um elemento
indispensável de um projeto académico. Esta envolve localizar, analisar, sintetizar e
interpretar o trabalho prévio existente numa área de estudo, fazendo com que seja possível
definir bem o problema, descobrir áreas onde é necessária investigação, adquirir uma clara
ideia sobre o estado atual do tema em questão e esclarecer as contribuições da investigação
(Bento, 2012).
Este capitulo está dividido em cinco secções. Na primeira secção é retratada e descrita a
estratégia de pesquisa adotada bem como as plataformas de pesquisa utilizadas. De seguida,
são abordadas as definições, características, desafios e os processos do Big Data. A terceira
secção é relativa às tecnologias de Big Data mais propriamente, ao Hadoop e os seus
módulos. Na quarta secção são referidas algumas técnicas utilizadas em Big Data e por fim,
na quinta secção é dado a ênfase ao Big Data na Sáude, nomeadamente, quais as suas
vantagens.
2.1 Estratégia de pesquisa
A estratégia de pesquisa adotada baseou-se, primeiramente, numa pesquisa por
palavras-chave nas mais diversas plataformas como “RepositóriUM”, “Google Scholar”, “B-
on” e “IEEE Xplore”. Esta pesquisa decorreu entre Dezembro de 2017 e Fevereiro de 2018,
utilizando como principais palavras-chaves: “Clinical Big Data”, “Big Data na Sáude”, “Big
Data Concepts”, “Big Data Definitions”, “Big Data Dimensions”, “Big Data in Health
Sector”.
Sabendo que a pesquisa por palavras-chave deve ser só o método de pesquisa inicial
uma vez que pode limitar a abrangência da revisão de literatura (Levy & Ellis, 2006),
seguidamente, procedeu-se ao conceito de “backward and forward search”. Este conceito foi
introduzido por (Webster & Watson, 2002) que consiste em rever as citações dos artigos
selecionados pelo primeiro método de pesquisa e posteriormente, identificar artigos citando os
artigos selecionados nos passos anteriores. Nestas situações, para além das plataformas já
mencionadas, também se utilizou o “Scopus” e “Web of Science”.
Salvo raras exceções, nesta pesquisa teve-se em consideração as seguintes restrições:
artigos redigidos em português ou inglês;
5
ano de publicação compreendido entre 2008 e 2018, não inferior a 10 anos;
2.2 Big Data
Para investigar um tema tão abrangente e emergente como o Big Data, em especial no
setor da saúde, é necessário previamente realizar um levantamento de vários conteúdos e
conceitos. Devido a esse facto, nesta secção serão abordadas as definições inerentes ao
conceito de Big Data, as suas características, os desafios que enfrenta e por fim, os vários
processos para o transformar em conhecimento.
2.2.1 Definições e Conceitos
Apesar de algumas referências ao termo nos anos 90, considera-se que Big Data
difundiu-se a partir de 2011 (Gandomi & Haider, 2015). No entanto, devido à sua
complexidade e heterogeneidade, não existe nenhuma definição especifica do termo (Dave &
Kamal, 2017).
Segundo um questionário conduzido pela SAP, no ano de 2012, citado por (Gandomi
& Haider, 2015), constatou-se que a definição de Big Data para 154 executivos é muito
distinta, tal como se pode visualizar na Figura 1. Nota-se, maioritariamente, que há quem
defina Big Data focando-se no enorme crescimento da quantidade de dados gerados e
processados ou então nas suas características e desafios.
Figura 1 - Definições de Big Data baseadas num questionário aplicado a 154 executivos, em 2012. Retirado de (Gandomi &
Haider, 2015).
6
Por exemplo, segundo McKinsey & Company (2011), Big Data refere-se a datasets
cujo tamanho compromete a competência dos softwares de base de dados tradicionais para o
armazenamento, gestão e análise de dados. Esta definição é intencionalmente subjetiva uma
vez que inclui a indicação não explícita do tamanho que o dataset necessita de ter para ser
considerado Big Data, este facto deve-se sobretudo à variação proveniente da evolução
tecnológica e de setor para setor (McKinsey & Company, 2011).
Já de outro modo, segundo Gartner, citado por (Gandomi & Haider, 2015), Big Data é
um recurso de informação com alto volume, alta velocidade e alta variedade que exige formas
inovadoras para processamento de dados para uma melhor compreensão e tomada de decisão.
2.2.2 Características
As características do Big Data, também designadas de dimensões são tipicamente
conhecidas pelo modelo dos 3Vs, constituído por Volume, Variedade e Velocidade
(Zulkarnain & Anshari, 2016) , tal como se pode verificar na Figura 2. Estas três dimensões
foram identificadas por Doug Laney, em 2001, num relatório de uma investigação usado por
inúmeras empresas e departamentos de investigação, como a IBM, Gartner e Microsoft para
identificar a complexidade e requisitos tecnológicos do Big Data (Dave & Kamal, 2017).
Figura 2 - Os 3Vs do Big Data. Retirado de (Russom, 2011).
7
Os 3Vs são considerados como os principais desafios que o Big Data impõe às
infraestruturas e tecnologias para armazenar, gerir e processar dado (Dave & Kamal, 2017).
Deste modo, de seguida serão descritas cada um deles:
Volume - corresponde à quantidade de dados que são recolhidos ou gerados por
organizações ou um individual (Lee, 2017). Tal como referido anteriormente, definir o
tamanho destes volumes é relativo e varia segundo alguns fatores, tais como o tempo e
o tipo de dados usados em armazenamento (Gandomi & Haider, 2015). De uma forma
geral, estimou-se, em 2014, que a cada dia que passa o mundo produz 2,3 triliões de
gigabytes, e que em 2020, sejam 40 zettabytes (Dave & Kamal, 2017).
Variety (Variedade) – corresponde ao tipo de dados existentes (Lee, 2017), por
outras palavras à heterogeneidade estrutural num dataset (Gandomi & Haider, 2015).
Os avanços tecnológicos permitiram gerar vários tipos de dados, podendo estes ser do
tipo estruturado, semiestruturado e não estruturado (Lee, 2017). Os dados
estruturados dizem respeito aos dados organizados numa base de dados relacional
(Gandomi & Haider, 2015). Já os dados não estruturados são dados que não possuem
uma organização estrutural, tais como texto, imagens, áudio e vídeos (Gandomi &
Haider, 2015). Por fim, os dados semiestruturados são dados que não seguem as regras
padrão de uma base de dados relacional mas que cumprem algumas necessidades
estruturais (Lee, 2017).
Velocity (Velocidade) – corresponde à velocidade à qual os dados são gerados e
processados (Lee, 2017). A proliferação de dispositivos digitais tal como smartphones
e sensores tem levado a uma crescente criação de nova informação e, por conseguinte,
uma enorme necessidade de analisá-la em tempo real (Gandomi & Haider, 2015). Por
exemplo, estima-se que, no ano de 2015, 90% da grande quantidade de dados
existente foi gerada só nos últimos dois anos (Dave & Kamal, 2017).
Com contínuos estudos e investigação foram identificadas outras dimensões do Big Data,
por vários autores, que foram adicionadas ao modelo dos 3Vs inicial. De seguida, serão
mencionadas algumas delas:
Veracity (Veracidade) – representa a falta de fiabilidade e incerteza inerente a
algumas fontes de dados (Gandomi & Haider, 2015), estas podem sugir devido à
imprecisão, inconsistência e subjetividade em dados (Lee, 2017). Por exemplo, os
sentimentos dos consumidores não são fiáveis uma vez que incluem a subjetividade da
sua opinião (Lee, 2017). No entanto, esta necessidade de lidar com dados imprecisos e
8
incertos, uma vez que contém informações valiosas, é outra faceta do Big Data
(Gandomi & Haider, 2015), que é ultrapassada devido ao desenvolvimento de
ferramentas estatistícas e novas técnicas (Lee, 2017) . Esta quarta dimensão do Big
Data foi identificada pela IBM (Gandomi & Haider, 2015).
Variability (Variabilidade) – corresponde à variação na taxa de fluxo de dados
(Gandomi & Haider, 2015), ou seja, a velocidade à qual os dados são gerados e
processados não é sempre constante. Isto constitui uma impressibilidade e é desafiante
no sentido de gerir os recursos computacionais necessários (Lee, 2017). Esta dimensão
do Big Data foi identificada pela SAS (Gandomi & Haider, 2015).
Complexity (Complexidade) – corresponde ao facto de o Big Data ter uma
infinidade de fontes de dados (Gandomi & Haider, 2015). Esta complexidade dificulta
a coleta, limpeza, armazenamento e processamento de dados heterogéneos (Lee,
2017). Esta dimensão do Big Data foi identificada pela SAS (Gandomi & Haider,
2015).
Value (Valor) – corresponde ao valor que o Big Data poderá trazer para as
organizações. Os dados recebidos na sua forma original usualmente têm pouco valor
relativamente ao seu volume (Gandomi & Haider, 2015). No entanto, analisando estes
volumes de dados poderá obter-se um grande valor (Gandomi & Haider, 2015). Esta
dimensão do Big Data foi identificada pela Oracle (Lee, 2017).
Decay (Declínio) – corresponde ao declínio do valor do dados com o decorrer do
tempo (Lee, 2017). Numa era onde os dados são gerados a altas velocidades, o
processo e análise imediata dos dados é o mais importante. Segundo Lee (2017), o
declínio do dados é um função exponencial relativamente ao tempo.
Como foi possível notar, vários autores propuseram diferentes dimensões, separadamente.
Por isso, Lee (2017) criou uma visão integrada do Big Data onde é visível as relações entre
as várias dimensões. Tal como se pode visualizar na Figura 3, cada lado do triângulo
representa uma dimensão pertencente aos 3Vs iniciais (Volume, Velocity e Variety) e dentro
do triângulo estão representadas cinco dimensões (Veracity, Variability, Complexity, Decay e
Value) que são afetadas com o crescimento das dimensões de cada lado do triângulo. A maior
parte das dimensões são afetadas positivamente, com exceção da Veracity que é afetada
negativamente.
9
Esta visão integrada mostra que os dados na sua forma tradicional são um subconjunto do
Big Data com as mesmas 3 dimensões, no entanto, cada dimensão tem uma proporção muito
menor (Lee, 2017).
Figura 3 - Visão Integrada do Big Data. Retirado de (Lee, 2017).
2.2.3 Desafios
De acordo com (Lee, 2017), o desenvolvimento de aplicações de Big Data apresenta
múltiplos desafios para as várias organizações. De seguida, os principais desafios serão
enumerados:
Qualidade dos dados – refere-se à adequação dos dados a um propósito e é
essencial para a tomada de decisão. Cada vez mais os dados são de forma não
estruturada e armazenados através de várias fontes, com isto a qualidade dos
dados tende a diminuir. Desta forma, é necessário efetuar processos de
controlo da qualidade dos dados para desenvolver métricas de qualidade,
reparar erros nos dados e garantir uma boa relação entre qualidade, custos e
ganhos.
Segurança dos dados – faltas de segurança cria resistência dos utilizadores
para adotar sistemas de Big Data, o que poderá levar a perdas financeiras e
diminuir a reputação de uma organização. Sem garantir mecanismos de
10
segurança próprios, informação confidencial poderá ser transmitida
inadequadamente.
Privacidade - com a maturidade das tecnologias de Big Data, o extensivo
armazenamento de dados pessoais levanta enormes preocupações para
individuais, organizações e governo. É importante estipular um termo entre
uso de dados pessoais para serviços e as preocupações de privacidade uma vez
que Big Data é a chave para aumentar qualidade nos serviços e reduzir custos.
Justificação do investimento – apesar de todos os benefícios oferecidos pelo
Big Data, ainda existem dificuldades em provar o valor do seu investimento.
Muitos projetos de Big Data têm problemas indefinidos e utilizar tecnologias a
emergir causa um grande risco de falha do projeto e consequentemente, grande
aversão a investimento desta natureza comparativamente a projetos de
tecnologias tradicionais.
2.2.4 Construção de conhecimento baseado em Big Data
Como referido anteriormente, Big Data é inútil na sua forma original (Gandomi &
Haider, 2015). O seu potencial é extraído assim que este é empregue em auxiliar na tomada
de decisão de uma organização, sendo transformando em dados relevantes e em evidências
(Gandomi & Haider, 2015).
O processo geral de extrair conhecimento do Big Data pode ser dividido em cinco
estados, que formam dois subprocessos: Data Management e Analytics, tal como se pode
verificar na Figura 4.
Figura 4 - Processo para extrair conhecimento do Big Data. Retirado de (Gandomi & Haider, 2015).
11
O primeiro subprocesso, Data Management, envolve processos e tecnologias para
adquirir, armazenar e preparar os dados para análises (Gandomi & Haider, 2015). De seguida,
Analytics, que se refere a técnicas usadas para analisar e adquirir conhecimento do Big Data
(Gandomi & Haider, 2015).
2.3 Hadoop
O Hadoop é uma framework open source para processar de forma eficiente grandes
quantidades de dados (McKinsey & Company, 2011), através de clusters usando simples
modelos de programação. O Hadoop foi inspirado no Google File System, que é um sistema
de arquivos desenvolvido pela Google (McKinsey & Company, 2011) e no paradigma de
programação MapReduce (Zikopoulos & Eaton, 2011).
Nesta secção serão retratados alguns módulos do Hadoop, tal como o Hadoop Distributed
File System (HDFS) e o Hadoop Map Reduce.
2.3.1 Hadoop Distributed File System (HDFS)
De forma a entender como é possível um cluster Hadoop possuir centenas de nodes, é
necessário perceber primeiro o HDFS, o sistema de ficheiros do Hadoop. Primeiramente, os
dados num cluster Hadoop são particionados em fragmentos mais pequenos, designados de
blocos, e posteriormente são distribuídos por este (Zikopoulos & Eaton, 2011). Desta forma,
os ficheiros são armazenados em blocos de tamanho fixo em diferentes nodes de um cluster
(Mavridis & Karatza, 2017).
2.3.2 Hadoop Map Reduce
O Map Reduce é um software, criado pela Google, para processar de forma eficiente
grandes quantidades de dados (McKinsey & Company, 2011). Está implementado no Hadoop
(McKinsey & Company, 2011).
12
2.4 Big Data Analytics
Existem imensas técnicas analíticas que podem ser utilizadas num projeto de Big Data
(Maltby, 2012). A técnica a usar irá depender do tipo de dados que estão a ser analisados, a
tecnologia disponível e qual a questão de investigação que se está a tentar responder (Maltby,
2012). De seguida, serão enumeradas e descritas algumas técnicas, tal como:
Text analytics/ Text mining – grande parte dos dados gerados pelas organizações
estão em forma de texto (Maltby, 2012), tal como: emails, blogs, respostas a
questionários, documentos corporativos, notícias, entre outros (Gandomi & Haider,
2015). Esta técnica permite a extração de informação de textos (Gandomi & Haider,
2015). Desta forma, permite às organizações converter grandes volumes de textos em
dados pertinentes e relevantes, os quais irão auxiliar na tomada de decisão (Gandomi
& Haider, 2015).
Audio analytics – esta técnica analisa e extrai informação de dados de áudio não
estruturados (Gandomi & Haider, 2015). Quando aplicada à linguagem humana, esta
técnica também se pode designar speech analytics (Gandomi & Haider, 2015).
Atualmente, centros de atendimento ao cliente e a área da sáude são as áreas primárias
desta técnica (Gandomi & Haider, 2015).
Video analytics – envolve uma variedade de técnicas para monitorizar, analisar e
extrair informação relevante de streams de vídeo (Gandomi & Haider, 2015).
Social Media analytics – refere-se à análise de dados estruturados e não estruturados
das redes sociais (Gandomi & Haider, 2015). Através das redes sociais pode-se obter
dois tipos de informação, conteúdo gerado pelos utilizadores (por exemplo,
sentimentos, imagens e vídeos) e relações e interações entre várias entidades (por
exemplo, pessoas, organizações e produtos) (Gandomi & Haider, 2015).
Predictive analytics/Predictive modeling – esta técnica é composta por uma
variedade de técnicas que preveem o futuro baseadas em dados atuais e históricos
(Gandomi & Haider, 2015). Por outras palavras, pode-se definir como um conjunto de
técnicas onde é criado ou escolhido um modelo matemático que melhor prevê a
probabilidade de um resultado (McKinsey & Company, 2011)
Machine learning – é caracterizado como uma subespecialidade da ciência da
computação, que se preocupa com o design e desenvolvimento de algoritmos que
permitam que os computadores executar comportamentos baseados em dados
empíricos (McKinsey & Company, 2011). O maior objetivo da investigação em
13
machine learning é aprender automaticamente a reconhecer padrões complexos e
tomar decisões baseadas nessa informação (Maltby, 2012).
Cluster analysis – é um método que divide um grupo grande de objetos similares,
cujas características de similaridade não são conhecidas, em grupos mais pequenos e
tenta descobrir quais as semelhanças entre eles (Maltby, 2012). Usado em Data
Mining (McKinsey & Company, 2011).
Data Mining – é um conjunto de técnicas para extrair padrões de um grande conjunto
de dados, combinando métodos de estatística e machine learning com gestão de base
de dados (McKinsey & Company, 2011).
Association rule learning – é caracterizado como uma forma de descobrir relações
entre variáveis em grandes bases de dados (Maltby, 2012). Consiste numa variedade
de algoritmos para gerar e testar possíveis regras (McKinsey & Company, 2011). Um
bom exemplo de aplicação desta técnica é quando um retalhista consegue determinar
quais os produtos que são comprados em conjunto, podendo assim usar esta
informação para marketing (McKinsey & Company, 2011). Usado em Data Mining
(McKinsey & Company, 2011).
2.5 Big Data na Sáude
Tal como tem sido evidente ao longo desta revisão de literatura, a vasta quantidade de
dados que tem sido recolhidos e armazenados está a expandir rapidamente.
Até à data, muitas organizações do setor da saúde, não usufruem dos benefícios que
estas técnicas e tecnologias podem trazer, em alguns casos por se manterem céticas ao poder
do Big Data (Wang, Kung, & Byrd, 2016). Segundo um estudo realizado pela IBM em 2012,
citado por (Wang et al., 2016), apenas 42% das organizações do setor da saúde questionadas
estão a utilizar técnicas analíticas rigorosas para dar suporte à tomada de decisão.
O potencial do Big Data Analytics na saúde proporciona melhores resultados em muitos
cenários, como por exemplo, aplicar técnicas, nomeadamente predictive modeling, por cada
paciente para identificar individualmente quais os pacientes que possam beneficiar de
cuidados preventivos ou mudanças de estilo de vida (Raghupathi & Raghupathi, 2014).
Também é possível, por exemplo, aplicar técnicas para analisar grandes quantidades de dados
do tipo texto e extrair informações relevantes de, imaginemos, as notas e prescrições de um
médico (Wang et al., 2016). De uma forma mais geral, através da descoberta de associações,
14
padrões e tendências com os dados, Big Data Analytics tem o potencial de melhorar os
cuidados, salvar vidas e diminuir os custos (Raghupathi & Raghupathi, 2014).
Assim sendo, existe uma necessidade urgente para compreender o impacto económico,
estratégico e explorar o potencial do Big Data, em especial no setor da saúde.
2.5.1 Vantagens do Big Data na Saúde
Como foi possível percecionar anteriormente, o Big Data traz benefícios para o setor da
saúde, de forma a tornar esta questão mais explicita, de seguida, será exposto alguns
exemplos de vantagens como:
Detetar doenças em estados mais precoces, onde os tratamentos são mais eficazes
(Raghupathi & Raghupathi, 2014);
Gerir a saúde individual e da população (Raghupathi & Raghupathi, 2014);
Detetar fraudes mais rapidamente e eficientemente (Raghupathi & Raghupathi, 2014);
Certos desenvolvimentos ou resultados poderão ser previstos ou estimados baseados
em dados históricos (Raghupathi & Raghupathi, 2014);
Armazenar grandes quantidade de dados em vários formatos, recorrendo a sistemas
NoSQL (Wang et al., 2016).
Segundo a (McKinsey & Company, 2011), Big Data poderá ajudar a diminuir o
desperdício e ineficiência nas seguintes áreas:
Operações clínicas: efetuar comparações para determinar quais as formas relevantes e
economicamente viáveis para diagnosticar e tratar pacientes; implementar sistemas de
suporte à decisão para melhor a eficiência e qualidade das operações; analisar os
dados sobre procedimentos médicos para identificar fontes de desperdício em
processos e otimiza-los.
Investigação e desenvolvimento: utilizar predictive modeling para novos
medicamentos e determinar a mais eficiente e economicamente viável alocação de
recursos; aplicar ferramentas estatísticas e algoritmos para melhorar tratamentos em
pacientes; analisar registos de pacientes para identificar indicadores e descobrir efeitos
secundários antes de novos produtos chegarem ao mercado.
Novos modelos de negócio: agregar e analisar registos de pacientes para fornecer
dados e serviços a terceiros; criar plataformas e comunidades online uma vez que
estão a gerar dados valiosos.
15
Saúde Pública: analisar padrões de doenças e transmissões para aumentar a
vigilância; transformar grandes quantidades de dados em conhecimento que pode ser
usado para identificar necessidades, providenciar serviços e prevenir crises.
16
3. ABORDAGEM METODOLÓGICA
Tendo em conta a dimensão e complexidade inerente a este projeto, é necessário optar
por seguir várias metodologias uma vez que, fornecem um sistema de princípios, práticas e
procedimentos aplicados a um especifico conjunto de conhecimento (Peffers, Tuunanen,
Rothenberger, & Chatterjee, 2007). Desta forma, para a elaboração desta dissertação, serão
seguidas três abordagens, na vertente mais teórica, o estudo de caso e na vertente mais prática,
“Design Science Research Methodology for Informations Systems” e “Kimball Lifecycle”.
Nesta secção serão apresentadas e descritas cada uma destas abordagens
metodológicas.
3.1 Estudo de caso
Esta abordagem metodológica é caracterizada pelo facto de envolver um plano de
investigação que contempla o estudo intensivo e detalhado de um “caso” (Coutinho &
Chaves, 2002). Tal como o próprio nome indica, examina-se o “caso” em profundidade, no
seu contexto natural tendo em consideração a sua complexidade e recorrendo-se aos
métodos apropriados (Coutinho & Chaves, 2002). A finalidade desta pesquisa é sempre
holística uma vez que visa sustentar e compreender o “caso” no seu todo. Para Yin, citado
por (Coutinho & Chaves, 2002), um estudo de caso poderá ter como objetivo explorar,
descrever ou ainda explicar.
Segundo (Coutinho & Chaves, 2002), um relatório de estudo de caso tem de incluir:
a definição do “caso” em estudo e as suas delimitações;
uma descrição detalhada do contexto onde se insere o “caso”;
a justificação da pertinência do estudo e os seus objetivos;
a identificação da estratégia geral;
a definição de qual será a unidade de análise;
uma fundamentação dos pressupostos teóricos que vão conduzir o trabalho de
campo;
uma descrição clara de “como”, “de quem” e “quando” serão recolhidos os
dados;
uma descrição pormenorizada da analise dos dados;
a definição dos critérios que conferirão qualidade ao estudo.
17
3.2 Design Science Research Methodology for Information Systems
Antes de mais, é importante explicar que o objetivo da Design Science é desenvolver
um artefacto na forma de um modelo que ofereça soluções baseadas em tecnologia,
resolvendo problemas num contexto particular (Peffers et al., 2007). Tal como será
expectável, uma metodologia neste âmbito aplicada à área de sistemas de informação irá
ajudar os investigadores a produzir e apresentar pesquisas de maior qualidade que será aceite
como válida, rigorosa e publicável (Peffers et al., 2007).
Devido a estes motivos, (Peffers et al., 2007), elaboraram a Design Science Research
Methodology for Information Systems, como é visível na Figura 5.
Esta metodologia esta dividia em seis fases, que serão descritas de seguida:
Identificação do problema e da motivação – definir especificamente o
problema da investigação e justificar o valor da sua solução. Dado que a
definição do problema será usada para desenvolver o artefacto que promoverá a
solução, poderá ser útil descrever o problema conceptualmente para que a
solução capture a sua complexidade. Justificar o valor da solução motiva o
investigador e a audiência a procurar a solução e a aceitar os resultados. Para
esta fase é necessário conhecimento no estado do problema e da importância da
solução.
Figura 5 - Design Science Research Methodology for Information Systems. Retirado de (Peffers et al., 2007).
18
Definir os objetivos da solução – concluir os objetivos da solução através da
definição do problema e do conhecimento do que é ou não possível. Os
objetivos podem ser quantitativos, por exemplo, em que termos uma solução
poderá ser melhor que uma que já existe ou então qualitativos, por exemplo,
descrever como um novo artefacto irá suportar os problemas que mais nenhum o
faz até agora. Para esta fase é necessário conhecimento no estado do problema e
se há soluções e se são eficazes.
Conceção e desenvolvimento – criar o artefacto resultante da investigação,
podendo conter conceitos, modelos, métodos ou instanciações. Esta atividade
inclui determinar a funcionalidade ambicionada no artefacto e a sua arquitetura.
Para esta fase é necessário partir dos objetivos para concessionar e desenvolver
um artefacto que inclua conhecimento da teoria que possa ser traduzido numa
solução.
Demostração – demonstrar o uso do artefacto para resolver uma ou mais
instancias do problema. Esta atividade poderá envolver experimentações,
simulações ou outras atividades apropriadas. Para esta fase é necessário
conhecimento em como utilizar o artefacto para resolver o problema.
Avaliação – observar e medir o quanto é que o artefacto suporta a solução para
o problema. Esta atividade envolve a comparação dos objetivos da solução com
os resultados obtidos na demostração. Para esta fase é necessário conhecimento
em métricas e técnicas analíticas relevantes. Dependendo da natureza do
problema e do artefacto, a avaliação poderá ter várias formas, como a
comparação das funcionalidades do artefacto com os objetivos da solução,
métricas de performance, questionários de satisfação, feedback das partes
interessadas, entre outros. No final desta fase, os investigadores podem optar por
voltar à etapa 3 para melhorar o artefacto ou continuar para a próxima etapa.
Comunicação – apresentar o problema e a sua importância, o artefacto e a sua
utilidade, bem como o rigor da conceção. Para esta fase é necessário o
conhecimento de oportunidades de comunicação cientifica, técnica e a noção de
como comunicar um estudo desta natureza.
19
3.3 Kimball Lifecycle
A abordagem metodológica “Kimball Lifecycle” foca-se em na conceção e
desenvolvimento de sistemas de Data Warehouse e Business Intelligence. No entanto, é
importante ter em conta algumas atividades desta metodologia para o desenvolvimento deste
projeto. Na Figura 6, é possível visualizar o diagrama que reflete o método de Kimball.
Figura 6 - Kimball Lifecycle Diagram. Retirado de (Kimball & Ross, 2011)
Assim sendo, considerou-se relevante utilizar as seguintes atividades:
Definição dos requisitos de negócio – identificar os requisitos iniciais do
sistema, através de entrevistas e reuniões com os colaboradores do projeto.
Conceção da arquitetura – definição da framework de apoio para a conceção
da arquitetura.
Seleção e instalação de produtos – tendo em conta os requisitos e recursos
identificados na arquitetura, é necessário proceder à aquisição e instalação dos
produtos específicos.
20
4. PLANO DE ATIVIDADES
Neste capítulo será apresentado o plano de atividades do presente projeto de dissertação
e é composto por três secções. Na primeira secção serão abordadas as principais atividades
inerentes ao projeto, bem como a sua data de início, de conclusão e as atividades
predecessoras. Na segunda secção será apresentado o Diagrama de Gantt pertencente ao
planeamento explicado na secção anterior. Por fim, na terceira secção, é exposta uma tabela
de riscos e contingências, onde é possível visualizar os principais riscos associados a este
projeto e a sua estratégia de mitigação.
4.1 Planeamento
Nesta secção são apresentadas as principais atividades inerentes ao projeto com o
intervalo temporal de 27 de outubro de 2017 a 14 de dezembro de 2018. Tal como se pode
visualizar na Figura 7, este projeto está dividido em três atividades principais: o plano de
trabalho, o projeto de dissertação e a dissertação. É de realçar que este planeamento apresenta
três milestones: a submissão do plano de trabalho, a submissão do relatório do projeto de
dissertação e a submissão do documento de dissertação.
Figura 7 - Planeamento do Projeto
21
4.2 Diagrama de Gantt
Nesta secção é apresentado o Diagrama de Gantt onde está representado numa linha
temporal as atividades inerentes ao projeto e as suas predecessoras.
Figura 8 - Diagrama de Gantt
22
4.3 Riscos e Contingências
Tal como é normal, este projeto tem inerente vários riscos que se terá em consideração.
Na Tabela 1 são identificados os riscos que poderão acontecer ao longo do desenvolvimento
do projeto, a sua descrição, consequências e respetiva estratégia de mitigação.
Tabela 1 - Riscos e Contingências do Projeto
Riscos Descrição Consequências Estratégia de
Mitigação
Inexperiência no
planeamento
Devido à
inexperiência em
projetos semelhantes,
poderão existir erros
nas estimativas
realizadas no
planeamento.
Incumprimento dos
prazos estabelecidos
para as etapas.
Analisar outros projetos
semelhantes e recolher
informação sobre o tipo
de projetos em questão,
identificando possíveis
problemas no seu
desenvolvimento.
Falta de
conhecimento na
área
A falta de
conhecimento na
área poderá
comprometer o
desenvolvimento do
projeto.
O resultado final do
projeto poderá não
responder às reais
necessidades do
cliente por falta de
informação quanto à
área em questão.
Fazer uma pesquisa
intensiva de modo a
recolher toda a
informação relevante para
o desenvolvimento do
projeto.
Falta de
conhecimento
técnico
A falta de
conhecimento e
experiência poderá
comprometer a
utilização das
ferramentas e
metodologias
necessárias ao
desenvolvimento do
projeto.
Os objetivos
estipulados poderão
não ser cumpridos e a
qualidade do projeto
poderá ser afetada.
Identificar as ferramentas
e metodologias a adotar,
de forma a realizar a
devida pesquisa e estudo
das mesmas.
Incompreensão
dos objetivos e
resultados do
projeto
A má compreensão
dos objetivos e
resultados esperados
poderá comprometer
o desenvolvimento
do projeto.
Os objetivos
estipulados poderão
não ser cumpridos e a
qualidade do projeto
poderá ser afetada.
Definir reuniões com o
orientador para esclarecer
todas as dúvidas.
Alteração dos
objetivos e
resultado do
Ao longo do projeto,
tanto por parte do
cliente como do
O trabalho elaborado
previamente poderá
ter de sofrer algumas
Reajustar o plano de
trabalho elaborado
previamente e reunir com
23
projeto orientador, poderão
surgir alterações aos
objetivos e
resultados esperados.
alterações e o
planeamento do
projeto poderá ser
afetado.
o orientador para
esclarecer os novos
objetivos e resultados
esperados.
Elevada
complexidade do
projeto
A dimensão e
dificuldade do
projeto poderá ser
maior do que o
espectável.
Adiamento do prazo
de entrega do projeto.
Aumentar a carga horária
despendida no projeto e
realizar uma pesquisa
mais extensa de forma a
adquirir mais
conhecimento.
Perda de ficheiros Falhas ou avarias, a
nível de hardware ou
software, na máquina
onde se encontram
os ficheiros poderão
conduzir à sua perda.
Incumprimento dos
prazos estabelecidos
e atrasos no
desenvolvimento do
projeto.
Criar backups
esporadicamente de todos
os ficheiros e possuir uma
máquina de substituição.
Má comunicação
com o orientador
A falta ou rara
comunicação com o
orientador.
Os objetivos
estipulados poderão
não ser cumpridos e a
qualidade do projeto
poderá ser afetada.
Definir reuniões de forma
regular e estabelecer um
meio de comunicação.
24
5. CONCLUSÃO
Com a realização deste projeto de dissertação foi possível verificar que o sector da
saúde também padece do crescente armazenamento de grandes quantidades de dados. Face a
esta realidade, surgiram várias tecnologias e técnicas de Big Data que constituem inúmeras
oportunidades para este sector. No entanto, constatou-se que a maior parte das organizações
nesta indústria não usufruem deste desenvolvimento tecnológico.
Esta revisão de literatura foi importante na medida em que exalta a necessidade urgente
para compreender o impacto económico e estratégico que o Big Data traz, mais
especificamente no setor clínico. De entre várias vantagens é importante destacar o potencial
do Big Data Analytics, que através da descoberta de padrões, tendências e associações com os
dados é capaz de melhorar cuidados, salvar vidas e diminuir custos. Por outro lado, também
se concluiu que o desenvolvimento de aplicações de Big Data apresentam múltiplos desafios,
nomeadamente a nível da segurança dos dados, da privacidade e da justificação do
investimento.
Posto isto, a dissertação assumirá uma vertente prática, onde será desenvolvido um
modelo de Big Data para o Centro Hospitalar do Porto (CHP), segundo as metodologias
“Design Science Research for Information Systems” e “Kimball Lifecycle”. Neste sentido, é
esperado atingir vários objetivos intermédios como a identificação de tecnologias de Big Data
existentes e apropriadas para o setor da saúde, a identificação de arquiteturas já existentes e,
ainda, analisar as necessidades do CHP e os requisitos do sistema.
25
REFERÊNCIAS
Coutinho, C., & Chaves, J. (2002). O estudo de caso na investigação em Tecnologia Educativa em
Portugal. Revista Portuguesa de Educação, 15(1), 221–243.
Dave, M., & Kamal, J. (2017). Identifying Big Data Dimensions and Structure, 163–168.
Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics.
International Journal of Information Management, 35(2), 137–144.
https://doi.org/10.1016/j.ijinfomgt.2014.10.007
Kimball, R., & Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional
modelling. Nachdr.]. New York [ua]: Wiley. https://doi.org/10.1145/945721.945741
Lee, I. (2017). Big data: Dimensions, evolution, impacts, and challenges. Business Horizons, 60(3),
293–303. https://doi.org/10.1016/j.bushor.2017.01.004
Levy, Y., & Ellis, T. J. (2006). A systems approach to conduct an effective literature review in support
of information systems research. Informing Science, 9, 181–211.
https://doi.org/10.1049/cp.2009.0961
Maltby, D. (2012). Big Data Analytics. https://doi.org/10.1002/9781119205005
Mavridis, I., & Karatza, H. (2017). Performance evaluation of cloud-based log file analysis with
Apache Hadoop and Apache Spark. Journal of Systems and Software, 125, 133–151.
https://doi.org/10.1016/j.jss.2016.11.037
McKinsey & Company. (2011). Big data: The next frontier for innovation, competition, and
productivity. McKinsey Global Institute, (June), 156.
https://doi.org/10.1080/01443610903114527
Murdoch, T., & Detsky, A. (2013). The Inevitable Application of Big Data to Health Care. JAMA
Evidence, 309(13), 1351–1352. https://doi.org/10.1001/jama.2013.393
Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2007). A Design Science Research
Methodology for Information Systems Research. Journal of Management Information Systems,
24(3), 45–77. https://doi.org/10.2753/MIS0742-1222240302
Raghupathi, W., & Raghupathi, V. (2014). Big data analytics in healthcare: promise and potential.
Health Information Science and Systems, 2(1), 3. https://doi.org/10.1186/2047-2501-2-3
Wang, Y., Kung, L. A., & Byrd, T. A. (2016). Big data analytics: Understanding its capabilities and
potential benefits for healthcare organizations. Technological Forecasting and Social Change,
126(February), 3–13. https://doi.org/10.1016/j.techfore.2015.12.019
Webster, J., & Watson, R. T. (2002). Analyzing the Past to Prepare for the Future: Writing a Literature
Review. MIS Quarterly, 26(2), xiii–xxiii. https://doi.org/10.1.1.104.6570
26
Zikopoulos, P., & Eaton, C. (2011). Understanding Big Data: Analytics for Enterprise Class Hadoop and
Streaming Data: Analytics for Enterprise Class Hadoop and Streaming Data.
Zulkarnain, N., & Anshari, M. (2016). Big data: Concept, applications, & challenges. 2016
International Conference on Information Management and Technology (ICIMTech), (November),
307–310. https://doi.org/10.1109/ICIMTech.2016.7930350