Text Mining e Linguagem Natural para a deteção de padrões ... · publicação e número de...
Transcript of Text Mining e Linguagem Natural para a deteção de padrões ... · publicação e número de...
Miguel António Fernandes Vieira
Text Mining e Linguagem Natural para a
deteção de padrões na admissão em
Cuidados Intensivos
Pré-Dissertação de Mestrado
Mestrado integrado em Engenharia e Gestão de
Sistemas de Informação
Trabalho efetuado sob a orientação do(s)
Professor Doutor Carlos Filipe da Silva Portela
Professor Doutor Manuel Filipe Vieira Torres dos Santos
Janeiro de 2018
I
RESUMO
Esta pré-dissertação enquadra-se num projeto de dissertação do Mestrado em Engenharia e
Gestão de Sistemas de Informação da Universidade do Minho. O tema da dissertação é “Text Mining e
Linguagem Natural para a deteção de padrões na admissão em Cuidados Intensivos”. Este resulta de
uma relação entre a Escola de Engenharia da Universidade do Minho e do Centro Hospitalar do Porto
(CHP), Hospital de Santo António.
Cada vez mais se verifica um aumento na quantidade de dados recolhidos eletronicamente, e
nesta área médica ainda existe muita informação que é registada sem nenhum padrão. As notas de
admissão apesar de serem estruturadas também têm campos de texto livre onde os médicos deixam a
sua avaliação do utente. Os Sistemas de apoio à decisão inteligentes (SADI) podem beneficiar do
cruzamento de informações e da interpretação destes documentos. Nas Unidades de Cuidados Intensivos
são admitidos diariamente vários doentes e escritas várias notas de alta. Para o apoio à decisão em
tempo-real e para o aumento da qualidade do processo de decisão é fundamental ter disponível todos
os dados clínicos de relevância sobre um doente pelo que é fulcral a utilização da informação presente
nos diários. Como os dados não seguem um padrão de escrita seguida por todos os médicos, a sua
análise torna-se bastante difícil de se fazer. O principal objetivo deste projeto é então a interpretação de
informações clinicas e a criação de um dicionário clínico que permita de forma automática interpretar o
que é escrito pelos médicos a tomar uma decisão rápida e eficaz. O trabalho desenvolvido neste projeto
seguirá a metodologia de investigação Design Science Research (DSR), e a metodologia prática Cross
Industry Standard Process for Data Mining (CRISP-DM). Neste documento é feita uma identificação dos
objetivos, motivações e o seu enquadramento. De seguida é apresentado um estado de arte sobre os
temas a abordar nesta dissertação. Após o estado de arte faz-se um estudo das abordagens
metodológicas a serem utilizadas no projeto e de seguida o planeamento detalhado do projeto, seguido
de uma tabela de riscos possíveis de acontecer no desenvolver do projeto.
PALAVRAS-CHAVE
Sistemas de Apoio à Decisão, Unidades de Cuidados Intensivos, Text Mining, Proessamentos de
Linguagem Natural, CRISP-DM
II
ABSTRACT
This pre-dissertation lies framed in a dissertation project in Engineering and Management of
Information Systems at the University of Minho. The dissertation theme is “Text Mining and Natural
Language for the detection of patterns in admission in Intensive Care”. This results from a relationship
between the School of Engineering of the University of Minho and the Hospital of Porto (CHP), Santo
António Hospital.
There is an increase in the amount of data collected electronically, and in this area, there is still
a lot of medical information that is recorded without any pattern. The admission notes despite being
structured also have free text fields where the doctors leave their evaluation of the patient. Intelligent
Decisions Support Systems (SADI) can benefit from cross-referencing and interpretation of this
documents. In the Intensive Care Units, several patients are admitted daily and several discharges notes
are written. To support real-time decision-making and to increase the quality of the decision-making
process, it is vital to have all relevant clinical data available on a patient, since it is crucial to use the
information in the journals. As the data does not follow a writing pattern followed by all doctors, its analysis
becomes quite difficult to do. The main objective of this project is the interpretation of clinical information
and the creation of a clinical dictionary that allows to automatically interpret what is written by doctors to
make a fast and effective decision. The work developed in this project will follow the research methodology
Design Science Research (DSR), and the practical methodology Cross Industry Standard Process for Data
Mining (CRISP-DM). In this document there is an identification of the objectives, motivations and their
framework. Next, a state of art is presented on the topics to be addressed in this dissertation. After the
state of art is a study of the methodological approaches to be used in the project and then the detailed
planning of the project, followed by a table of possible risks to happen in the development of the project.
KEYWORDS
Decisions Support Systems, Text Mining, Intensive Care Units, Natural Language Processing, CRISP-DM
III
ÍNDICE
Resumo ..................................................................................................................................................... I
Abstract ................................................................................................................................................... II
Índice de Figuras ...................................................................................................................................... V
Índice de Tabelas .................................................................................................................................... VI
Lista de Abreviaturas, Siglas e Acrónimos ............................................................................................. VII
1.1. Enquadramento e Motivação .................................................................................................. 1
1.2. Objetivos e Resultados Esperados .......................................................................................... 1
1.3. Estrutura do Documento ......................................................................................................... 2
2. Estado de Arte ................................................................................................................................. 3
2.1 Estratégia da Pesquisa Bibliográfica ........................................................................................ 3
2.2 Linguagem Natural .................................................................................................................. 3
2.2.1. Níveis de Processamento de Linguagem Natural ............................................................ 4
2.2.2. Abordagens da Linguagem Natural ................................................................................. 6
2.2.3. Processamento de Linguagem Natural na Saúde ............................................................ 7
2.3 Unidade de Cuidados Intensivos ............................................................................................. 9
2.3.1. Visão Geral ....................................................................................................................... 9
2.3.2. Notas Clínicas ................................................................................................................ 11
2.3.3. Notas de Admissão ........................................................................................................ 13
2.4 Text Mining ............................................................................................................................ 14
2.4.1 Questões legais sobre Text Mining ............................................................................... 15
2.4.2. Knowledge Discovery in Text ........................................................................................ 15
2.4.3. Técnicas do Text Mining ................................................................................................ 16
2.4.4. Fases do Text Minning .................................................................................................. 17
2.4.5. Text Mining na Saúde .................................................................................................... 18
2.5 Soluções com Text Mining, PLN e Cuidados Intensivos ........................................................ 20
3. Abordagem Metodológica ............................................................................................................. 23
3.1 Metodologias de Investigação....................................................................................................... 23
3.1.1. Design Science Research (DSR)...................................................................................... 23
3.1.2. Cross Industry Standard Process for Data Mining (CRISP-DM) ..................................... 25
4. Gestão do Projeto .......................................................................................................................... 27
4.1 Planeamento ......................................................................................................................... 27
4.2 Análise de Riscos ................................................................................................................... 28
IV
5. Considerações Finais ...................................................................................................................... 31
Referências Bibliográficas ..................................................................................................................... 32
V
ÍNDICE DE FIGURAS
Figura 1- Esquema do processador de linguagem LSP que mostra o funcionamento dos cinco módulos
linguísticos. ........................................................................................................................................ 9
Figura 2- Exemplo de um Registo Médico (Nota Clínica) .................................................................... 12
Figura 3 - Fases e tarefas convencionais envolvendo text mining em contexto biomédico ................... 18
Figura 4- Design Science Research Methology ................................................................................... 25
Figura 5 - Fases do CRISP-DM .......................................................................................................... 26
VI
ÍNDICE DE TABELAS
Tabela 1- Cronograma do Projeto ...................................................................................................... 27
Tabela 2 - Lista de riscos .................................................................................................................. 28
VII
LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS
CHP – Centro Hospitalar do Porto
CRISP-DM - Cross Industry Standard Process for Data Mining
DSR – Design Science Research
HSA – Hospital Santo António
KDT – Knowledge Discovery in Text
LSP – Linguistic String Project
MIMIC III – Medical Information Mart for Intensive Care III
NLU – Natural Language Understanding
PLN – Processamento de Linguagem Natural
SNOMED CT – Systematized Nomenclature of Medicine Clinical Terms
UCI – Unidade de Cuidados Intensivos
UMLS – Sistema de Linguagem Médica Unificada
1
1. INTRODUÇÃO
1.1. Enquadramento e Motivação
Os cuidados intensivos são uma unidade hospitalar onde se presta cuidados a doentes com estado
de saúde crítico ou que apresente um potencial risco, necessitando de uma vigilância contínua e
intensiva. Nas Unidades de Cuidados Intensivos são admitidos diariamente vários doentes e escritas
várias notas de alta. Para o apoio à decisão em tempo-real e para o aumento da qualidade do processo
de decisão é fundamental ter disponível todos os dados clínicos de relevância sobre um doente pelo que
é fulcral a utilização da informação presente nos diários. As notas de admissão apesar de serem
estruturadas também têm campos de texto livre, onde os médicos deixam a sua avaliação do utente.
Estes registos tornam o processo de análise e de interpretação bastante complicado e demorado, logo
é necessário a criação de um dicionário clínico que permita de forma automática interpretar o que é
escrito sobre o doente e ajudar os médicos a tomar uma decisão rápida e eficaz.
Este projeto vai ser realizado usando o Processamento de Linguagem Natural (PLN), de modo a
converter os dados armazenados e não padronizados em dados que sejam compreensíveis, permitindo
assim executar análises e interpretações dos mesmos.
Este projeto será realizado em parceria com o Centro Hospitalar do Porto (CHP), mais
especificamente com o Hospital Santo António (HSA). O CHP, tem como valores a prestação de cuidados
de saúde humanizados, competitivos e de referência, promovendo a articulação com outros parceiros do
sistema, a valorização do ensino pré e pós-graduado e da formação profissional, incentivando a
investigação na área da saúde.
Este projeto é um desafio, uma vez que nunca estive envolvido num projeto de Text Mining e de
Processamento de Linguagem Natural, o que por sua vez se torna uma motivação. Como este projeto se
encontra ligado à área de saúde torna-o ainda mais interessante, uma vez que é uma área de grande
importância e que lida com pessoas e com o tratamento das mesmas.
1.2. Objetivos e Resultados Esperados
O principal objetivo desta dissertação é a interpretação de informação clínica e a criação de um
dicionário clínico que permita automaticamente interpretar o que é escrito sobre um doente e auxiliar os
médicos a tomar decisões rápidas e eficazes.
2
Este projeto de dissertação tem como objetivos:
• Tradução de notas de admissão baseadas em linguagem natural/narrativas em dados úteis
para análise;
• Deteção automática de padrões clínicos e tradução automática de notas;
• Uma ferramenta capaz de analisar e interpretar notas de admissão;
• Novos algoritmos de interpretação de informação clínica;
• Dicionário clínico;
• Obtenção de novos conhecimentos na área dos Sistemas de Informação aplicados à saúde;
1.3. Estrutura do Documento
Este documento encontra-se dividido em sete capítulos:
• Introdução: pretende introduzir o tema do projeto a todos os leitores, o seu ambiente, o que
levou a este estudo, motivações, objetivos e resultados esperados.
• Estado de Arte: neste capitulo está contida toda a informação que foi alvo de pesquisa para
uma boa compreensão do projeto.
• Abordagem Metodológica: este capitulo é onde é efetuada a descrição de metodologias a
utilizar neste projeto. Na metodologia de investigação foi usada a metodologia Design Science
Research (DSR) e como metodologia prática o Cross Industry Standard Process for Data
Mining (CRISP-DM)
• Gestão de Projeto: neste capitulo é onde será elaborada a descrição detalhada de todo o
planeamento, com um tempo estimado para cada tarefa. Conterá também uma tabela de
riscos para precaver possíveis acontecimentos que podem ocorrer durante a realização deste
projeto.
• Considerações Finais: irá conter comentários finais, após a revisão de leitura estar completa.
• Referências: este capítulo irá conter todas as referências bibliográficas úteis para a realização
desta pré-dissertação.
3
2. ESTADO DE ARTE
2.1 Estratégia da Pesquisa Bibliográfica
Para a elaboração da revisão de leitura, foram utilizados como bases de informação, artigos
científicos, livros etc. Algumas destas bases de informação foram facultadas pelo orientador, outras foram
pesquisadas em repositórios e motores de busca científicos, como por exemplo, Google Scholar,
Springer, entre muitos outros.
Os principais termos utilizados para as pesquisas foram os seguintes:
• Natural language processing;
• Data Mining;
• Text Mining;
• Intensive Care Unit;
• Admission criteria in intensive care unit
• Natural Language processing in Health;
• Text Mining in Health;
Como resultado da pesquisa destes termos, surgiram vários artigos e livros, logo foi necessário fazer
uma espécie de seleção, uma vez que muitos destes livros e artigos não iam precisamente de encontro
ao que era necessário. Deste modo, foram escolhidos os artigos considerados mais relevantes para a
elaboração desta pesquisa, com base em alguns critérios como o contudo, investigador, ano da
publicação e número de citações.
2.2 Linguagem Natural
O Processamento de Linguagem Natural (PLN) é uma abordagem computadorizada baseada num
conjunto de tecnologias e teorias que permitem analisar textos, ou seja, os computadores são usados de
modo a entender e manipular a linguagem de um texto, ou de um idioma (“linguagem falada”) em algo
útil, seja para tarefas ou até mesmo aplicativos. O Processamento de Linguagem Natural já é bastante
utilizado em computadores inteligentes, computadores de multimédia, sistemas de diálogos e também
já faz parte, juntamente com a tecnologia, da área das ciências (Chowdhury, 2003; Liddy, 2003).
As técnicas computacionais que permitem analisar textos são necessárias, uma vez que existem
vários métodos/técnicas específicas para realizar um determinado tipo de análise linguística. Os “textos
4
de ocorrência natural” podem ser de qualquer idioma, modo e género. Estes podem ser escritos ou orais,
o único requisito necessário é que estejam num formato usado pelos seres humanos para se
comunicarem entre si.(Liddy, 2003).
Como já foi referido anteriormente, o propósito do PLN é a capacidade de executar um
processamento da linguagem o mais próximo à linguagem humana possível. Inicialmente, quando surgiu
a Inteligência Artificial o PLN era designado como Natural Language Understanding (NLU). Um sistema
ideal de Processamento de Linguagem Natural deverá (Liddy, 2003):
• Parafrasear um texto inserido;
• Traduzir o texto noutro idioma;
• Questionar sobre o conteúdo do texto;
• Possuir a capacidade de dedução sobre o texto;
Apesar do PLN apresentar avanços significativos relativos aos três primeiros pontos, os sistemas
ainda não possuem a capacidade de tirar inferências do texto, isto é, não conseguem deduzir, chegar a
uma conclusão. Com isto conclui-se que a NLU ainda é um dos objetivos a atingir do PLN.
2.2.1. Níveis de Processamento de Linguagem Natural
O modo mais simples de representar o que realmente acontece dentro de um Sistema de
Processamento de Linguagem Natural é através da abordagem dos “níveis da linguagem”. Esta
abordagem é também conhecida como o modelo de linguagem assíncrona, que refere que os níveis de
processamento da linguagem humana se seguem de forma estritamente sequencial. A introspeção revela
que frequentemente usamos informações que obtemos de um nível de processamento mais alto para
auxiliar num nível de análise mais baixo.
Os seres humanos conseguem usar todos os níveis da linguagem, tendo assim completa
capacidade de compreensão, logo o objetivo de um Sistema de Processamento de Linguagem Natural é
usar o maior número de níveis de linguagem possíveis.
Esses níveis de linguagem são (Liddy, 2003) :
• Fonologia: este nível de linguagem é responsável pela interpretação dos sons das palavras.
Neste nível existem três regras:
▪ Regras fonéticas para sons contidos nas palavras.
5
▪ Regras fonémicas para as variações da pronuncia assim que duas palavras são
ditas juntas.
▪ Regras prosódicas, para as diferentes pronúncias das palavras, como entoações.
• Morfologia: este nível trata da componente natural das palavras, que são compostas por
morfemas. O significado de cada morfema permanece o mesmo em todas as palavras. O ser
humano consegue separar uma palavra que seja desconhecida em morfemas que a
constituem, e assim entender o seu verdadeiro significado. Um sistema PLN pode também
fazer o mesmo que o ser humano e assim perceber o significado das palavras.
• Lexical: assim como os seres humanos, os sistemas de PLN, também conseguem interpretar
individualmente o significado das palavras.
• Sintático: Este nível foca-se na análise das palavras que constituem uma frase, com o
propósito de descobrir a estrutura gramatical dessa mesma frase. A sintaxe demonstra o
significado das palavras nas várias línguas, porque a ordem e a dependência contribuem para
o significado da frase. Por exemplo, as frases “o cão perseguiu o gato” e “o gato perseguiu o
cão”, são constituídas pelas mesmas palavras, mas transmitem significados diferentes.
• Semântico: é nesta fase que a maioria das pessoas pensa que é determinado o significado
das frases, no entanto, como podemos ver nas definições dos outros níveis, é o conjunto dos
mesmos que contribui para determinar o significado. O processo semântico determina os
possíveis significados das frases. Este nível de processamento pode incluir a desambiguação
semântica de palavras com vários significados. A desambiguação semântica apenas permite
um só sentido de palavras polissémicas que sejam escolhidas e incluídas numa
representação semântica da frase.
• Discurso: os níveis de sintaxe e semântica apenas operam com frases, enquanto que o nível
de discurso de um PLN funciona com unidades de tamanho de textos maiores. Deste modo,
não irá interpretar frases isoladas, o que pode tornar o significado de um texto diferente
daquele que era suposto, mas sim interpretar um texto como um todo fazendo conexões entre
as várias frases de modo a conseguir captar a ideia correta de um texto.
6
• Pragmático: este nível verifica o uso correto da linguagem, utilizando o contexto do conteúdo
do texto de forma a perceber o mesmo. Existem já aplicações que utilizam bases de
conhecimento e módulos de inferência.
Os atuais sistemas de PLN tendem a implementar módulos que permitem cumprir os níveis baixos
de processamento, isto porque, a aplicação pode não requerer interpretações de níveis elevados e
também porque os modelos de níveis de processamento baixo têm vindo a ser os mais investigados e
implementados. Os módulos de baixo nível operam com pequenas unidades de análises, como por
exemplo, morfemas, palavras, etc (Liddy, 2003).
2.2.2. Abordagens da Linguagem Natural
As abordagens do Processamento de Linguagem Natural assentam sobre quatro categorias(Liddy,
2003):
• Abordagem Simbólica: esta abordagem opera análises profundas de fenómenos linguísticos
baseada em representações explicitas de factos sobre a linguagem através de esquemas de
representação de conhecimento de fácil compreensão. A principal fonte de evidências em
sistemas simbólicos vem de regras desenvolvidas por humanos.
• Abordagem Estatística: esta abordagem emprega várias técnicas matemáticas, de modo a
desenvolver modelos generalizados de fenómenos linguísticos.
• Abordagem Conectora: esta abordagem também desenvolve modelos generalizados, assim
como a abordagem estatística. A diferença é que os modelos conectores combinam com o
que é aprendido na abordagem estatística com várias teorias de representação, sendo assim,
as representações conectoras permitem a inferência e a manipulação da lógica.
• Abordagem Híbrida: esta abordagem como o próprio nome indica, consiste na junção dos
pontos fortes de cada abordagem. Esta abordagem ainda se encontra em desenvolvimento.
7
2.2.3. Processamento de Linguagem Natural na Saúde
Na informática médica, existe uma preocupação de longa data com a linguagem médica. Em 1973,
Pratt (1973) destacou que os dados subjacentes aos processos dos utentes “ são na sua maioria dados
não numéricos e são formulados quase exclusivamente dentro da construção da linguagem natural… Os
dados são basicamente dados do idioma”. Essas construções foram identificadas como construções de
origem sintáticas e semânticas, tornando-se importantes no desenvolvimento da Nomenclatura
Sistemática de Patologia Multifacetada (SNOP), mais tarde conhecida como SNOMED, e atualmente
como SNOMED International (SNOMED III). A possibilidade de codificação automática de patologias e de
relatórios de diagnóstico no SNOP foi um sucesso. Apesar do sucesso, investigadores de várias partes
do mundo, como Canadá e Estados Unidos, continuaram a trabalhar na indexação automatizada de
relatórios clínicos de Linguagem Natural em códigos SNOMED (Sager, Lyman, Bucknall, Nhan, & Tick,
1994).
Em 2002 a SNOMED juntou-se com a CTV3, que é Versão de Termos Clínicos 3 desenvolvido
no Reino Unido na década de 1980 pelo Dr. James Read. Essa junção resultou na nova e atual versão
SNOMED CT. A SNOMED CT é uma terminologia que pode fazer a ponte entre todos os países do mundo,
ou seja é uma terminologia padronizada internacional. São disponibilizadas edições linguísticas
específicas que aumentam a edição internacional e podem conter traduções de idiomas, bem como
termos específicos de cada país. Por exemplo, o SNOMED CT-AU, lançado em dezembro de 2009 na
Austrália, é baseado na versão internacional da SNOMED CT, mas já engloba palavras e ideias que são
clinicamente e tecnicamente exclusivas da Austrália (SNOMED, 2006).
A SNOMED CT veio diminuir a barreira entre o uso de diferentes terminologias, ou sistemas de
codificação internacionalmente, permitindo assim uma maior partilha e reutilização de informações
clínicas estruturadas. Outra das muitas vantagens é que os mesmos dados podem ser apresentados de
várias formas, dependendo do fim pretendido, por exemplo, os registos clínicos apresentados através do
SNOMED CT podem ser processados e apresentados de diferentes maneiras para suportar o
atendimento direto ao utente, auditoria clínica, pesquisas, epidemiologias, gestão e planeamento de
serviços (IHTSDO, 2014).
A informação clínica é registada através de identificadores que se referem a conceitos
formalmente definidos como parte da terminologia. As estruturas da SNOMED CT permite que as
informações sejam inseridas usando sinónimos que atendam às preferências locais enquanto grava a
informação de forma consistente e comparável. Permite ainda que o armazenamento da informação seja
8
registado dependendo do nível de detalhe desejado para atender a certos tipos de uso (por exemplo,
pneumonia | pneumonia bacteriana | pneumonia pneumocócica |). Além disto pode-se incluir e
combinar conceitos adicionais, quando os conceitos disponíveis não são suficientemente precisos (por
exemplo, pneumonia pneumocócica | com um "motor de busca" do lóbulo superior direito do pulmão
|)(IHTSDO, 2014).
Os interesses em unificar os vocabulários médicos de diferentes fontes de conhecimento médico,
com o propósito de facilitar a utilização de recursos de conhecimento em Sistemas de Informação levou
ao Sistema de Linguagem Médica Unificada (UMLS) (Sager et al., 1994).
O Linguistic String Project (LSP) foi um dos primeiros projetos de pesquisa e desenvolvimento de
Processamento de Linguagem Natural, onde foram desenvolvidas as componentes básicas e a
representação formal da narrativa clinica, onde foi implementado a transformação de relatórios clínicos
de texto livre numa representação formal. O programa de formatação da informação do LSP é composto
por cinco módulos, como podemos observar na figura 1, que são responsáveis por transformar o input
(texto livre) em árvores de formatação, que serão mapeados para uma base de dados (Sager et al.,
1994).
Como podemos visualizar na figura 1, o primeiro módulo analisa a frase, respetivamente as
componentes gramaticais, através de estruturas gramaticais e restrições sintáticas que incorpora. O
segundo módulo filtra, através de análises sintáticas, o que não está semanticamente correto, com base
nos padrões estabelecidos de palavras médicas combinadas. O terceiro módulo (Transformation) torna
todas as conjunções completas, por exemplo, transforma “dor no epigástrio e quadrante inferior direito”
para “dor no epigástrio e dor no quadrante inferior direito”. A quarta fase (Regularization) trata da conexão
da estrutura, transformando tudo, por exemplo em notação Polaca. Por fim, a quinta fase, é responsável
pela formatação e pelo output para uma base de dados (Sager et al., 1994).
9
A Universidade de Columbia de Nova Iorque desenvolveu um Sistema de Processamento de
Linguagem Natural (MEDical Language Extraction and Encoding System) que identifica informações
clínicas em relatórios narrativos e transforma essa informação textual numa representação estruturada.
O objetivo principal é representar o conhecimento de relatórios de radiologia do tórax, guardar numa
base de dados e permitir que os médicos consultem essa base de dados através de um certo vocabulário.
Este sistema conta também com módulo de PLN com um sistema automatizado de suporte de decisão
(Spyns, 1996).
2.3 Unidade de Cuidados Intensivos
2.3.1. Visão Geral
A Unidade de Cuidados Intensivos (UCI) é uma unidade fechada, isto é, é uma unidade que facilita
a coordenação das atividades e dos profissionais que ali trabalham e que restringe o acesso a outras
pessoas. Tanto a planta física como os equipamentos característicos desta ala despertam a curiosidade
de todos os que lá entram. A estrutura física da UCI associada às condições dos utentes, normalmente
Figura 1- Esquema do processador de linguagem LSP que mostra o funcionamento dos cinco módulos linguísticos (Sager et al., 1994).
10
críticas, e a intensa atividade da equipa de saúde, fazem com que muitas pessoas considerem esta
unidade como um ambiente desagradável e hostil (Maruiti & Galdeano, 2007).
Uma UCI é um sistema organizado para a prestação de cuidados a utentes criticamente doentes,
que presta cuidados médicos e de enfermagem especializados e intensivos. Nesta unidade existe uma
maior capacidade de monitorização dos utentes, e suporte de órgãos, como por exemplo, máquinas
especializadas que permitem sustentar a vida de um utente durante a fase de insuficiência dos
órgãos(Marshall et al., 2017).
Embora uma UCI seja baseada numa certa área dentro de um hospital, as suas atividades
normalmente estendem-se para além das paredes do espaço físico, incluindo a área de emergência, sala
de cirurgia e o acompanhamento clínico. Existem três níveis de suporte aos doentes nas UCIs (Marshall
et al., 2017):
• Nível 1 – Uma UCI deste nível é capaz de fornecer oxigénio, monitorização não invasiva e
cuidados mais intensivos do que numa ala normal do hospital.
• Nível 2 – É capaz de providenciar uma monitorização invasiva (monitorização da circulação
do sangue e da pressão intracraniana) e suporte de vida básico, por um curto período de
tempo.
• Nível 3 – É capaz de providenciar todo um espectro de tecnologias de monitorização e suporte
de vida e pode desempenhar um papel atino no desenvolvimento da especialização dos
cuidados intensivos através da investigação.
Existem cinco principais domínios que identificam a UCIs dos cuidados clínicos comuns (Marshall
et al., 2017):
• Área Física: Espaço para acomodar um número desejado de utentes (idealmente um doente
por quarto). As camas têm de ser acessíveis de qualquer lado, tornando possível a avaliação
e tratamento do utente. Esta área deve ser dotada de equipamentos de suporte de vida;
• Tecnologias de Suporte e Monitorização: Todos os dados relativos às monitorizações do
utente são exibidos e gravados, permitindo o fácil acesso aos mesmos em caso de
complicações. Tecnologias que permitem o suporte de vida;
• Recursos Humanos: Equipa devidamente qualificada, profissional e interdisciplinar;
• Prestação de Serviços de Cuidados Críticos: Serviços que são prestados para além do que é
exigido, inicialmente, do doente. Atuação rápida após a chegada do utente, bem como, o
11
conforto do doente e da família quando se verifica que é provável que o internamento não irá
melhorar o estado de saúde do utente;
• Investigação, Educação e Melhoria da Qualidade: Tem como propósito a melhoria contínua
do cuidado do utente, através de uma avaliação prolongada.
A Unidade de Cuidados Intensivos é uma unidade onde utentes com as mais diversas doenças são
tratados. Alguns dos problemas mais comuns que poderemos encontrar nesta unidade são (Mettler
& Vimarlund, 2009):
• Falha Respiratória e Transmissão de Oxigénio;
• Acesso Intravascular e Instabilidade Hemodinâmica;
• Choque Séptico;
• Insuficiência Respiratória;
• Falha Renal;
• Doenças Infeciosas;
• Suporte Nutricional;
• Arritmias Cardíacas;
• Infarto do Miocárdio;
• Doenças Endócrinas;
• Distúrbios Hematológicos;
• Coma;
2.3.2. Notas Clínicas
Uma nota clínica eletrónica é definida como um agregado de informação eletrónica médica sobre
doentes individuais (Gunter & Terry, 2005). Estes registos podem ser compartilhados em diferentes áreas
de cuidados de saúde, são partilhados através de sistemas de informação que estejam conectados a
rede. Os registos podem conter vários dados, desde dados demográficos, histórico médico,
medicamentos e alergias, estado imunitário , resultados de testes laboratoriais, imagens de radiologias,
sinais vitais, estatísticas pessoais como idade , peso e até informação de cobrança monetária (Top Mobile
Trends, 2014).
12
Figura 2- Exemplo de um Registo Médico (Nota Clínica) (“EHR Software (Electronic Health Records) _ Kareo Clinical,” n.d.)
Existem vários tipos de Notas Clínicas como por exemplo:
• Relatórios de Consulta;
• Relatórios de Urgência;
• Relatórios de Progresso;
• Notas de Alta;
• Notas de Admissão;
• Diários clínicos;
• Relatórios Operacionais;
• Relatórios de Cardiologia;
Existem certas regras básicas para a documentação presente nas notas clínicas (For & Notes,
n.d.):
• As notas clínicas têm de ter data e hora;
• Os médicos devem incluir um titulo breve para todas as entradas de Notas clínicas;
• Os médicos são aconselhados a evitar abreviações;
• Não é permitido que se copie e cole notas anteriores, têm de ser atualizadas;
• O médico tem de assinar as notas, imprimir o seu nome de forma legível e incluir o número
de pager;
13
2.3.3. Notas de Admissão
Uma nota de admissão faz parte de um registo médico que documenta o status de um utente,
incluindo, histórico médico, exames físicos, razões pelas quais o utente vai ser internado numa certa
instalação hospitalar, contendo também as instruções iniciais necessárias para começar o tratamento
do mesmo. Os profissionais de saúde usam-nas para registrar o status base do utente e podem escrever
notas adicionais no serviço, notas de progresso (notas SOAP), notas pré-operatórias, notas operacionais,
notas pós-operacionais, notas de procedimento, notas de entrega, notas pós-parto e notas de alta. Os
critérios de admissão podem variar consoante a área a que o utente é admitido.
Por exemplo, a admissão em Cuidados Intensivos Pediátricos destina-se prioritariamente aos
doentes sem limitações terapêuticas, com instabilidade funcional de um ou mais órgãos, necessitando
de monitorização ou tratamento que não pode ser executado fora de CIPE (Serviço de Cuidados Intensivos
Pediátricos). Doentes com doenças terminais ou em estado vegetativo persistente ou em morte cerebral
não sendo potenciais dadores de órgãos não têm indicação para admissão em CIPE. Os doentes que
cumpram critérios devem ser discutidos com o especialista de Serviço para determinar da sua
aceitabilidade e prioridade de admissão. As admissões eletivas (pós-operatórios) devem ser agendadas
e ser, antecipadamente, fornecido resumo clínico sucinto contendo, pelo menos, nome, idade, peso,
diagnóstico principal e principais problemas ativos, alergias conhecidas, medicações específicas e
intervenção que vai realizar (Pedi, 2014).
Alguns Critérios de Admissão em Cuidados Intensivos Pediátricos (Pedi, 2014):
• Idade;
• Problemas de respiração, como a necessidade de suporte ventilatório;
• Instabilidade ou necessidade de via aérea artificial;
• Problemas cardiovasculares;
• Problemas de foro neurológico;
• Problemas renais;
• Problemas Hepáticos
• Problemas Oncológicos;
• Pós-operatório;
14
2.4 Text Mining
O Text Mining, conhecido também como Text Data Mining, consiste num processo de extração de
padrões de informação útil de textos/documentos não estruturados. É visto como uma extensão do Data
Mining.
Como normalmente a forma mais comum de guardar informações é em formato de texto,
acredita-se que o Text Mining tenha um potencial de comércio superior ao Data Mining. Um estudo
recente, feito pelo Delphi Group, comprovou que cerca de 80% das informações de uma empresa estão
guardadas em documentos de texto. O Text Mining é bastante mais complexo que o Data Mining, uma
vez que lida com dados de texto não estruturados. Reúne um conjunto de várias disciplinas, como por
exemplo, análise de texto, extração de informação, categorização, visualização, tecnologias de bases de
dados, Machine Learning e Data Mining (Tan, 1999).
Nas primeiras versões, o Text Mining consistia em duas fases: Text Refining que transforma os
documentos de texto num formato intermédio (IF) escolhido e na fase Knowledge Distillation, responsável
por deduzir padrões, ou certos conhecimentos do formato intermédio. Por exemplo, num conjunto de
artigos o Text Rifining converte cada um dos artigos num documento intermédio (IF). Agora sim, já é
possível realizar-se a fase Knowledge Destillation, com a finalidade de organizar esses artigos com base
no conteúdo de cada um, para fins de navegação e visualização. Durante a fase IF, os artigos podem
ainda ser “projetados” num formato intermédio baseado em conceito, dependendo do propósito da
necessidade. Pode-se por exemplo, retirar informação correspondente à palavra “empresa” do formato
intermédio e criar a partir disso, uma base de dados dessa mesma empresa. A fase Knowledge Distillation
pode então entrar em funcionamento a partir da base de dados da empresa e assim fornecer
informação/conhecimento relativo à empresa(Tan, 1999).
Com o passar do tempo o Text Mining cresceu muito, consequentemente tornando-se mais
completo, com fases mais complexas, com ferramentas e técnicas de análise de textos mais capazes,
uma vez que a quantidade de dados cresce a uma velocidade enorme. Apesar do Text Mining não ser
uma tecnologia nova, recentemente obteve muita atenção devido ao surgimento do Big Data (Truyens &
Van Eecke, 2014).
Tipicamente as tarefas da técnica de Text Mining incluem as seguintes atividades de pesquisa
(Truyens & Van Eecke, 2014):
• Categorização de texto: associar os textos a categorias;
15
• Clustering de texto: agrupar os textos das mesmas categorias;
• Extração de Conceito/Entidade: descobrir o assunto das discussões;
• Análise de sentimento: entender o tom do texto;
• Modelagem de Entidade de Relação: resumir os textos e descobrir relações entre as entidades
descritas no texto.
2.4.1 Questões legais sobre Text Mining
Relativamente ao ponto de vista legal, o Data Mining já foi fortemente discutido devido à proteção
de dados, uma vez que está relacionado com tópicos de caracterização comportamental.
Contrariamente, o Text Mining tem recebido menos atenção, uma vez que não entra tanto nas questões
relativas à privacidade. Ainda assim, a Comissão Europeia reconheceu recentemente a importância do
Data Mining e do Text Mining tendo como desejo a promoção do seu uso para propósitos de pesquisa
cientifica (Truyens & Van Eecke, 2014).
Mesmo com as atenções a aumentarem em volta do Text Mining, atualmente não se conhece
qualquer tipo de processo judicial que o envolva diretamente, existe sim, alguns processos legais contra
motores de busca, screen scraping e extração de bases de dados (Truyens & Van Eecke, 2014).
2.4.2. Knowledge Discovery in Text
O Text Mining, inspirado pelo Data Mining, refere-se ao processo de Descoberta de Conhecimento
de Texto, conhecido em inglês pela sigla KDT (Knowledge Discovery in Text). Consiste na obtenção de
informação a partir de um texto em linguagem natural ou passível de interpretação(Zhao, 2013).
A descoberta de conhecimento é definida como uma extração implícita e não trivial de dados
anteriormente desconhecidos que sejam passíveis de serem úteis. Os algoritmos usados devem ser
eficientes ao ponto de descobrirem apenas conhecimentos considerados interessantes. Os algoritmos
devem ser de uma complexidade polinomial, ambos em espaço e tempo, de modo a poderem lidar com
grandes bases de dados(Feldman & Dagan, 1995).
Existem duas partes principais no que diz respeito à descoberta de conhecimento. Uma parte,
consiste em aplicar técnicas de análises estatísticas e Machine Learning, de modo a encontrar padrões
em bases de conhecimento, enquanto a outra parte concentra-se em proporcionar-lhes um uso guiado
para a exploração de dados(Feldman & Dagan, 1995).
16
Existem várias abordagens para tirar partido das técnicas de Mining, pode ser através de análises
estatísticas de modo a descobrir associações que sejam consideradas interessantes, como o uso de
termos extraídos automaticamente dos textos, com o propósito de categorizar e encontrar associações.
Neste último caso os termos mais frequentes no texto são assinalados como palavras-chaves,
pode no entanto, na análise do texto, existirem problemas de vocabulário por causa de palavras
sinónimas e erros de semântica (Loh, Wives, & de Oliveira, 2000).
Outra possível abordagem consiste em aplicar técnicas de Descoberta de Conhecimento de bases
de dados depois da utilização das técnicas de Extração da Informação que transforma a informação
numa base de dados estruturada.
2.4.3. Técnicas do Text Mining
Tecnologias como extração de informação, agrupamentos, resumo, categorização e visualização,
são algumas das mais utilizadas no processo de Text Mining (Shrihari & Desai, 2015):
• Extração de Informação: primeiro passo para a análise do texto não estruturado e a sua
relação. Este processo é feito através das ligações de padrões e é utilizado para procurar e
pré-definir a sequência do texto;
• Clustering: esta técnica é usada para agrupar documentos similares diferindo na
categorização. Este método é baseado no conceito da divisão de texto similar no mesmo
cluster.
• Sumário: devido à quantidade enorme de dados, é necessário sumarizar os dados dos
documentos, sem alterar o significado do seu conteúdo.
• Visualização: No Text Mining a visualização melhora a simplicidade na descoberta da
informação. Certas partes de um documento é marcado através de uma “text flag”. Este
método fornece informação compreensível e em grande quantidade, ajudando a criar o
padrão dos documentos.
• Categorização: algo parecido com a classificação de texto. É uma técnica supervisionada,
uma vez que é baseada em exemplos de inputs e outputs para classificação. O classificador
de texto é usado para a categorização do documento de texto para predefinir a sua própria
classe. A classe é baseada no conteúdo desse documento. A forma típica de processamento
de categorização do texto consiste no pré-processamento, indexação, redução de dimensões
17
e classificação. O objetivo da categorização é treinar o classificador com uma base de
conhecimento, onde os exemplos desconhecidos são categorizados de forma automática.
2.4.4. Fases do Text Minning
Como já foi referido anteriormente, o objetivo do Text Mining é a obtenção de conhecimento
implícito que está contido dentro de um texto não estruturado e apresentá-lo de uma forma explícita.
Normalmente este processo acontece dentro de quatro fases, como se encontra representado na figura
3 (Zhu et al., 2013):
• Recuperação da Informação: além dos sistemas convencionais de recuperação de
informação, existem também sistemas avançados de recuperação de informação de
conhecimento que integram dados de diferentes recursos num único contexto de modo a
aprimorar a compreensão de sistemas complexos.
• Reconhecimento das entidades mencionadas e a sua relação-extração: este é o passo mais
importante no que diz respeito a extração do conhecimento. O principal objetivo desta fase é
a identificação de termos específicos. Na prática, ainda existem algumas complicações, uma
vez que podem existir várias formas de escrever algum termo, dificultando assim a
identificação automática.
• Descoberta de Conhecimento: o conhecimento, incluindo factos, informações ou descrições,
implícitas ou explícitas, refere-se à compreensão teórica ou prática de um assunto. A
descoberta de conhecimento é a criação de conhecimento a partir de grandes volumes de
dados estruturados ou não estruturados. O conhecimento obtido pode-se tornar informação
extra que mais tarde poderá servir como informação para descobertas adicionais.
• Geração de Hipótese: baseado em fatos ou informações que não conseguem ser explicadas
de forma satisfatória a partir do conhecimento disponível, surge a hipótese científica. A
hipótese científica é algo como uma imaginação científica que se baseia em evidências e
conhecimentos existentes. A geração de hipótese consiste na obtenção de uma inferência,
através de “pistas” escondidas no texto, enquanto que a descoberta de conhecimento
significa a extração de conhecimento inovador.
18
Figura 3 - Fases e tarefas convencionais envolvendo text mining em contexto biomédico (Zhu et al., 2013)
2.4.5. Text Mining na Saúde
O Text Mining é usado nas mais diversas áreas, como por exemplo, nas ciências, na gestão de
empresas e principalmente na área da saúde. Cada vez mais existem novas tecnologias a serem
desenvolvidas na área de Clinical Data Mining, como por exemplo, novos métodos de anotar dados
clínicos não estruturados e transformá-los numa matriz codificada de características dos utentes através
de terminologias médicas, com a finalidade de detetar efeitos colaterais de drogas (LePendu et al., 2013).
Para demonstrar a viabilidade de usar recursos de texto livre para detetar associações dos efeitos
adversos de drogas, reproduziram a associação entre rofecoxib (medicamento anti-inflamatório) e o
infarto do miocárdio. Como consequência, o medicamento rofecoxib foi retirado do mercado devido ao
aumento do risco de ataque cardíaco e acidente vascular cerebral. Calcularam uma associação entre o
medicamento e o infarto do miocárdio, acompanhando a ordem temporal do diagnóstico de artrite
reumatoide, exposição ao fármaco e ocorrência de um efeito adverso (LePendu et al., 2013).
Verificamos assim, que através destes trabalhos se estabelecem relações entre vários
fenómenos, que aparentemente não estão diretamente ligados e, no entanto, podem ter sérias
implicações na saúde.
Nos Estados Unidos, uma das principais causas de morte é de origem cardíaca representando
cerca de mais de 600 mil mortes por ano. De modo a tentar combater esta doença, a UTHealth Challenge
reuniu profissionais na área de processamento clínico de linguagem natural (PLN) para encontrarem
19
problemas de interesse comum, como por exemplo, identificação de fatores de risco da doença cardíaca
nos registos médicos eletrónicos (EMRs), uma tarefa que irá apoiar a prevenção, os cuidados e os planos
de tratamentos da doença (Torii et al., 2015).
O principal objetivo da tarefa (Track-2) era de anotar os diagnósticos, os fatores de risco e os
medicamentos associados presentes no relatório. Através de estudos anteriores, esta equipa descobriu
uma técnica que foi denominada por Cohen(2008), como “identificação do ponto quente”, que se tornou
muito útil para este challenge. Esta técnica permite que, uma pequena quantidade de palavras
discriminativas, sejam identificadas para classificar um documento. Então a equipa usou esta técnica
para classificar o nível de tabagismo dos utentes (não fumador, fumador, fumador passado e
desconhecido). A maior parte da tarefa era baseada nesta técnica, não só referente ao nível do tabagismo
dos utentes, mas em quase tudo o que estava presente no relatório (Torii et al., 2015).
Uma outra grande pesquisa nesta área foi realizada na Vanderbilt Clinic em New York, com o
objetivo de criar um programa PLN que seja capaz de codificar informações de estado funcional, seguindo
os requisitos da Internacional Classification of Functioning, Disability, and Health (ICF)(Raja, Mitchell,
Day, & Hardin, 2008). A escolha mais óbvia para este tipo de projeto, é a codificação automática. Quando
se trata de reembolsos e de manutenção de registos, então isto é uma boa solução, uma vez que agiliza
e simplifica um processo que antes era demorado e aborrecido. Com a codificação, este processo iria
consumir bastante menos recursos do que o que realmente gastam(Raja et al., 2008).
Os investigadores estenderam o código PLN MedLEE existente de modo a ser possível codificar os
resumos das altas dos utentes. As avaliações foram executadas por codificadores especializados e não
especializados. Estes codificadores descobriram que o sistema PLN codificado obteve quase os mesmos
resultados dos codificadores humanos, o que se revelou uma grande promessa para a codificação
automática de códigos ICD-9, que são a principal base de reembolso na maioria dos serviços de saúde
(Raja et al., 2008).
Um estudo realizado na Universidade de Utah, utilizou uma versão do MedLEE, com um algoritmo
“phrasematching” de modo a extrair dados para investigação. O objetivo deste estudo foi extrair os dados
relacionados com efeitos adversos ligados à colocação de um cateter venoso central. Os efeitos adversos
podem ser infeções, complicações decorrentes de extravio e de colapsos pulmonares. Estes testes foram
conduzidos usando cada método de forma individual, em seguida, utilizando os métodos todos juntos
com uma amostra de registos que tinham sido avaliados anteriormente de forma manual (Raja et al.,
2008).
20
Relativamente aos ensaios onde utilizaram métodos individuais, estes revelaram-se ineficientes. O
algoritmo não era especifico e o sistema pouco sensível, produzindo valores de previsão de 6,4% e 6,2%.
Em contrapartida, quando usados em conjunto, os resultados já foram mais simpáticos, produzindo uma
sensibilidade de 72,0% e uma especificidade de 80,1%. Mostrando assim a capacidade de utilização de
sistemas de PLN para automatizar a extração de dados de pesquisa (Raja et al., 2008).
O sistema MedLee tem sido atualmente utilizado no Centro Médico da Universidade de Columbia,
desde 1995, para codificar informações de radiografias do tórax e de relatórios de mamografias.
Posteriormente foi expandido para outras áreas e foi adaptado para ser utilizado em outras instituições.
O desempenho do sistema comprovou-se semelhante ao dos codificadores especializados como os
médicos (Kukafka, Bales, Burkhardt, & Friedman, 2006).
Os componentes de conhecimento do MedLEE consistem numa base de dados lexical, regras
gramaticais, ferramentas de mapeamento de frases de multipalavras e uma tabela de codificação para
mapear termos clínicos para vocabulários controlados. Os componentes de processamento do sistema
incluem um pré-processador, um analisador, um codificador, um conversor de XML e um interpretador
de erros. Além deste sistema, já foram desenvolvidos mais tipos de sistemas de processamento de
linguagem médica para várias tarefas, como extração de afirmações relacionadas com ligação molecular
a partir de textos biomédicos e deteções de pneumonias bacterianas a partir de relados de
radiologia(Kukafka et al., 2006).
2.5 Soluções com Text Mining, PLN e Cuidados Intensivos
O ambiente na área da saúde geralmente é entendido como um ambiente “rico em informação”,
mas de “conhecimento pobre”. Existe uma grande quantidade de dados disponíveis nos sistemas de
saúde. No entanto, há uma falta de ferramentas de análise eficaz para descobrir relacionamentos
escondidos e tendências nesses mesmos dados. A descoberta de conhecimento e Data Mining/Text
Mining encontraram inúmeras aplicações no domínio comercial e científico. Muitos conhecimentos
cruciais podem ser descobertos a partir da aplicação de técnicas como Data Mining e Text Mining, nos
dados do sistema de saúde(Srinivas, Rani, & Govrdhan, 2010).
O Data Mining também é usado, através de uma aplicação, para o processamento de sinais
biomédicos, que é expresso por regulamentos internos e respostas a condições de estímulos. Sempre
que houver uma falta de conhecimento detalhado sobre interações entre diferentes subsistemas e
quando as técnicas de análise padrão são ineficazes, como é muitas vezes o caso de associações não
21
lineares, as tecnologias de Data Mining fornece o vínculo entre o conhecimento de dados contínuos,
assim como sinais biomédicos recolhidos de utentes nas unidades de cuidados intensivos e um sistema
de monitorização inteligente, na qual envia avisos e alarmes, pré-selecionados, para condições
consideradas criticas pelos médicos (Milovic & Milovic, 2012).
De modo a melhorar a integralidade de uma lista eletrónica de problemas, criaram um sistema
que usa processamento de linguagem natural (PLN) para extrair automaticamente os possíveis
problemas médicos de documentos clínicos que se encontravam representados em texto livre. Esses
problemas são então propostos para a inclusão numa aplicação de gestão da lista dos problemas
(Meystre & Haug, 2006).
Os documentos de 105 utentes propostos para a inclusão da lista de problemas, foram analisados
pelo sistema. Nessa amostra, o sistema aumentou significativamente a sensibilidade das listas de
problema, de 8.9% para 41% e para 77.4%(Meystre & Haug, 2006).
Os dois componentes principais do sistema são, uma aplicação em segundo plano, e uma
aplicação de gestão da lista de problemas. A aplicação de segundo plano é responsável pelo
processamento e análise do texto armazenando os problemas extraídos numa base de dados, clínica
central. A aplicação de segundo plano procurou 80 problemas diferentes de diagnóstico, que foram
recolhidos com base nos ambientes escolhidos para a avaliação (uma unidade de cuidados intensivos e
de cirurgia). As ferramentas de PLN utilizadas nesta experiência foram baseadas em MMTx, com um
subconjunto de dados personalizados e adaptados aos 80 problemas médicos. O algoritmo de deteção
de negação utilizado foi o NegEx. Os problemas foram listados com um novo status proposto e incluíram
um link para os documentos de origem com uma frase. O problema foi realçado para facilitar a leitura
(Meystre & Haug, 2006).
Nos últimos anos, desenvolveram-se vários tipos de avaliações com o objetivo de se obter uma
estimativa para mortalidade hospitalar numa unidade de cuidados intensivos (UCI). Neste estudo Kocbek
et al (2012) previram a mortalidade de um mês, relativo à doença renal crónica, usando a base de dados
da Medical Information Mart for Intensive Care III (MIMIC III). Adicionalmente observaram a melhoria no
desempenho preditivo e da interpretabilidade do modelo de base utilizado na UCI, para um modelo mais
complexo usando recursos simples como unigrams ou bigrams, recursos avançados, assim como
extrações de anotações de enfermagem. O principal foco foram as anotações de enfermagem, nas quais
foram excluídos utentes que faleceram dentro das primeiras 24 horas de admissão e notas que não eram
atualizadas (Kocbek et al., 2012).
22
Neste estudo, observaram melhorias no desempenho preditivo e e interpretabilidade de modelos
preditivos baseados em novos recursos extraídos das notas recolhidas nos EMRs de enfermagem. Mais
precisamente previram a mortalidade de um mês, no final de 24 horas gastas na UCI nos utentes com
DRC (Kocbek et al., 2012).
Um outro projeto que envolve técnicas de Mining nos Cuidados Intensivos, surgiu de uma parceria
entre a Universidade do Minho e o Centro Hospitalar do Porto. O propósito do trabalho foi de responder
à questão de investigação e apoiar a decisão dos médicos, que se baseou na melhor terapêutica para
doentes com problemas microbiológicos, tendo como principal ponto de partida o nível de sepses. O
projeto teve como objetivo apoiar a decisão clínica, a previsão da sepses e a previsão para doentes com
problemas microbiológicos, baseado nos níveis de sepses (Manuel & Gonçalves, 2012).
23
3. ABORDAGEM METODOLÓGICA
Neste capitulo são explicadas as metodologias que serão utilizadas para o desenvolvimento de
todo o projeto. As duas metodologias utilizadas são: Design Science Research (DSR) que é uma
metodologia de investigação e o Cross Industry Standard Process for Data Mining (CRISP-DM) como
metodologia para o projeto de Data/Text Mining.
3.1 Metodologias de Investigação
3.1.1. Design Science Research (DSR)
Para a elaboração desta dissertação, irá ser utilizada como metodologia de investigação cientifica o
Design Science Research (DSR), no âmbito de Sistemas de Informação. O principal objetivo desta
metodologia é o desenvolvimento de artefactos que permite que sejam utilizados para aplicação por
profissionais da área de Sistemas de informação.
Esta metodologia é compreendida em seis fases (Peffers, K., Tuunanen, T., Rothenberger, M. A., &
Chatterjee, 2007) :
• Identificação e Motivação do Problema: esta primeira fase consiste na identificação dos
aspetos mais relevantes na definição dos problemas. Os recursos necessários para esta
atividade consistem no reconhecimento do problema e na importância da sua solução.
Nesta primeira fase, relacionando com o projeto, verificamos que existem alguns problemas no que
diz respeito aos dados dos utentes, que são registados sem qualquer tipo de padrão. As notas de
admissão, mesmo sendo estruturadas têm campos de texto livre onde os médicos deixam a avaliação
do utente. Nas Unidades de Cuidados Intensivos são admitidos diariamente vários doentes e são escritas
várias notas de alta e como a qualidade do processo de decisão é fundamental, é necessária uma
utilização, rápida e automática de toda a informação contida nos diários o que atualmente não acontece.
• Definição dos objetivos: nesta fase é onde ocorre a identificação dos objetivos que auxiliam a
resolução do problema. Os recursos necessários para esta fase envolvem o conhecimento do
estado atual do problema e das suas soluções existentes.
Relativamente ao projeto, o objetivo irá consistir na interpretação da informação clínica e na criação
de um dicionário clínico que permitirá interpretar o que é escrito sobre um utente e ajudar os médicos a
tomar uma decisão rápida e eficaz.
24
• Design e Conceção: esta fase permite a criação de artefactos como, modelos, instâncias ou
métodos. É nesta fase que se determina a funcionalidade que é desejada do artefacto, assim
como a sua arquitetura, de modo a facilitar a criação do artefacto. Os recursos necessários
consistem na transição da fase anterior para o design, incluindo o conhecimento teórico
utilizado para a solução.
Para a elaboração deste projeto é necessário fazer um estudo intensivo de modo a obter o máximo
de conhecimento possível, desde técnicas de Text Mining, de Linguagem Natural, ou seja, tudo o que
envolve a criação de um dicionário de dados, assim como as ferramentas necessárias para o seu
desenvolvimento.
• Demonstração: esta fase consiste na validação da solução desenvolvida, ou seja, na
implementação e na validação da arquitetura que foi referida anteriormente, de modo a
resolver uma ou mais instâncias do problema. Os recursos necessários dizem respeito ao
conhecimento efetivo de como usa o artefacto para resolver o problema.
Esta fase de desenvolvimento, irá consistir na criação de um dicionário de dados, irá englobar a
tradução de notas de admissão baseadas em linguagem natural, deteção de padrões clínicos e numa
ferramenta que permita a analisar e interpretar notas de admissão.
• Avaliação: é nesta fase que se retiram as conclusões do trabalho desenvolvido. Abrange a
comparação entre os objetivos de uma solução com os resultados reais observados no uso
do artefacto anteriormente validado.
Após o desenvolvimento dos artefactos que permitem a resolução dos vários problemas
encontrados, as ferramentas irão passar por uma fase de testes para verificar se conseguem
desempenhar os requisitos propostos.
• Comunicação: esta é a última fase, e procura representar e divulgar os resultados que foram
obtidos, reconhecendo a finalidade do trabalho.
Para este projeto será feito uma apresentação do protótipo desenvolvido, de modo a mostrar todo
o conhecimento adquirido durante o seu desenvolvimento, acompanhado de um relatório contendo toda
a informação que foi gerada durante o processo.
25
Esta metodologia deve ser seguida de forma linear, mas não é obrigatório, ou seja, é possível
começar por qualquer uma das fases. Na figura 4 é apresentado, de uma forma esquematizada, esta
metodologia e as suas fases.
Figura 4- Design Science Research Methology (Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, 2007)
3.1.2. Cross Industry Standard Process for Data Mining (CRISP-DM)
A metodologia CRISP-DM é um modelo para Data Mining, que fornece uma visão geral do ciclo de
vida de um projeto. É uma metodologia que contém as fases de um projeto, as suas respetivas tarefas e
os seus resultados (outputs) (Wirth, 2000).
As seis fases desta metodologia são (Pinto & Santos, 2005):
• Estudo do negócio: é nesta primeira fase que se avalia a necessidade da realização do projeto,
é onde se compreende o problema definindo-se os objetivos a cumprir, assim como os meios
para os atingir.
• Estudo dos Dados: esta etapa é referente ao estudo dos dados, que é baseado em quatro
tarefas; Recolha, Descrição e Exploração dos Dados respetivamente, seguido da Verificação
da Qualidade dos mesmos.
• Preparação dos Dados: esta fase abrange todas as atividades que dizem respeito à
construção do conjunto final de dados, que será usado na ferramenta de modelação. Inclui-
se a seleção de tabelas, registos e atributos, bem como ferramentas de modelação.
26
• Modelação: nesta fase é feita a seleção das técnicas de modelação. As técnicas têm que ser
adequadas ao problema, mas também a certos requisitos que algumas destas técnicas têm
e só depois submeter os dados previamente preparados na fase anterior.
• Avaliação: nesta fase é executado a avaliação da utilização dos modelos, verificando-se se
atingem os objetivos do projeto. Os três passos são: Avaliação dos Resultados, Revisão do
Processo e a Determinação dos Próximos Passos.
• Implementação: esta fase é onde se planeia a avaliação dos resultados, onde é definida a
estratégia para a implementação dos resultados de Data Mining incluindo os passos e a sua
forma de execução. Produz-se o relatório final e a sua revisão.
Na figura 5, podemos visualizar as seis fases da metodologia CRISP-DM.
Figura 5 - Fases do CRISP-DM (Wirth, 2000)
27
4. GESTÃO DO PROJETO
4.1 Planeamento
Para um bom desenvolvimento do projeto de dissertação é necessário efetuar um planeamento
para todo o trabalho que irá ser realizado, permitindo assim obter uma visualização geral do trabalho a
ser realizado através de uma timeline, de modo a que o tempo das tarefas a realizar seja cumprido. Na
tabela 1 podemos visualizar o planeamento das tarefas do projeto com base na metodologia CRISP-DM.
Tabela 1- Cronograma do Projeto
28
4.2 Análise de Riscos
De modo a prevenir possíveis riscos que podem suceder-se durante a realização deste projeto, foi
necessária uma identificação desses riscos, representada na tabela 1, onde representamos a
probabilidade de acontecimento numa escala de 0 até 5, o seu impacto no projeto e a seriedade que
resulta da multiplicação da probabilidade pelo impacto. Além disso ainda possui medidas atenuantes do
problema, de modo a evitar que esses riscos aconteçam.
Tabela 2 - Lista de riscos
Descrição Probabilidade Impacto Seriedade Medidas
Atenuantes
Atraso no
desenvolvimento
do projeto
3 5 15 Cumprir o
planeamento
estabelecido,
disponibilizando
mais tempo para
a execução das
tarefas
29
Complexidade do
projeto
4 5 20 Reuniões com os
orientadores de
modo a poderem-
me auxiliar
sempre que
surgirem dúvidas.
Incorreta
compreensão dos
dados e
indicações
4 5 20 Reuniões com os
coordenadores e
voltar a analisar o
projeto
Dificuldade no
manuseamento
das ferramentas
4 5 20 Visualização de
tutoriais, pedir
auxilio aos
orientadores de
modo a facilitar a
aprendizagem da
ferramenta
Mau planeamento
do projeto
4 5 20 Revisão de
planeamento,
reservar mais
tempo para a
realização das
tarefas
Perdas de
informações
2 5 10 Realizar várias
cópias de
segurança
Má utilização das
metodologias do
projeto
3 4 12 Estudo intensivo
de todas as
etapas das
metodologias
Infraestruturas
incapazes de
3 4 12 Garantir, antes de
começar o
31
5. CONSIDERAÇÕES FINAIS
Este projeto tem como principal objetivo a interpretação de informação clínica, de modo a detetar
padrões na admissão dos Cuidados Intensivos, permitindo assim aos médicos a tomada de decisões de
uma forma rápida e eficaz. Para isso foi necessário elaborar uma extensa pesquisa de conceitos como
Unidade de Cuidados Intensivos, Text Mining, Data Mining, Processamento de Linguagem Natural, com
o intuito de ajudar na compreensão dos mesmos, uma vez que alguns destes conceitos são
desconhecidos. Foram também apresentados casos onde a implementação de Processamento de
Linguagem Natural e Text Mining nos Cuidados Intensivos foram um sucesso.
Para a elaboração desta primeira fase e da fase de desenvolvimento seguinte foram usadas duas
metodologias, que auxiliam a realização deste projeto, o Design Science Research (DSR) para a descrição
dos objetivos do projeto e Cross Industry Standard Process for Data Mining (CRISP-DM) adaptado para
PLN e Text Mining respetivamente. Este documento contém uma lista de riscos para qualquer
eventualidade adversa que possa ocorrer durante a elaboração deste projeto.
O principal objetivo desta fase inicial do documento do projeto de dissertação é de dar uma ideia
de como será realizado o desenvolvimento do projeto, assim como as suas maiores dificuldades.
Para a realização deste projeto, irá ser utilizado conhecimentos adquiridos nas unidades
curriculares passadas, no entanto não abrangem todo o projeto, o que se torna obrigatório a
aprendizagem de outros conhecimentos, tornando assim todo o projeto mais desafiante e motivador.
Como este projeto também está envolvido na área da medicina, tendo como objetivo auxiliar a decisão
médica, baseado em informações referentes a doentes, torna-o um projeto sério e desafiante.
32
REFERÊNCIAS BIBLIOGRÁFICAS
Aw, P. (1973). Medicine, Computers, and Linguistics. Adv Biomed Eng., 3, 97–140.
Chowdhury, G. (2003). Natural language processing . Annual Review of This is an author-produced version of a paper published in The Annual Review of Information Science and Technology ISSN 0066-4200 . This version has been peer-reviewed , but does not. The Annual Review of Information Science and Technology, 37, 51–89.
Cohen, A. M. (2008). Five-way Smoking Status Classification Using Text Hot-Spot Identification and Error-correcting Output Codes. Journal of the American Medical Informatics Association, 15(1), 32–35. https://doi.org/10.1197/jamia.M2434
EHR Software (Electronic Health Records) _ Kareo Clinical. (n.d.).
Feldman, R., & Dagan, I. (1995). Knowledge Discovery in Textual Databases (KDT). International Conference on Knowledge Discovery and Data Mining (KDD), 112–117. https://doi.org/10.1.1.47.7462
For, U., & Notes, P. (n.d.). Uidelines for progress notes, 2–4.
Gunter, T. D., & Terry, N. P. (2005). The emergence of national electronic health record architectures in the United States and Australia: Models, costs, and questions. Journal of Medical Internet Research. https://doi.org/10.2196/jmir.7.1.e3
IHTSDO. (2014). SNOMED CT Starter Guide. Snomed, (July), 1–56. Retrieved from http://doc.ihtsdo.org/download/doc_StarterGuide_Current-en-GB_INT_20141202.pdf
Kocbek, P., Fijačko, N., Zorman, M., Kocbek, S., & Štiglic, G. (2012). Improving mortality prediction for intensive care unit patients using text mining techniques, 2–5.
Kukafka, R., Bales, M. E., Burkhardt, A., & Friedman, C. (2006). Human and automated coding of rehabilitation discharge summaries according to the International Classification of Functioning, Disability, and Health. Journal of the American Medical Informatics Association, 13(5), 508–515. https://doi.org/10.1197/jamia.M2107.Introduction
LePendu, P., Iyer, S. V., Bauer-Mehren, A., Harpaz, R., Mortensen, J. M., Podchiyska, T., … Shah, N. H. (2013). Pharmacovigilance using clinical notes. Clinical Pharmacology and Therapeutics, 93(6), 547–555. https://doi.org/10.1038/clpt.2013.47
Liddy, E. D. (2003). Natural Language Processing. Annual Review of Applied Linguistics, 37(1), 51–89. https://doi.org/10.1017/S0267190500001446
Loh, S., Wives, L. K., & de Oliveira, J. P. M. (2000). Concept-based knowledge discovery in texts extracted from the Web. ACM SIGKDD Explorations Newsletter, 2(1), 29–39. https://doi.org/10.1145/360402.360414
Manuel, J., & Gonçalves, D. C. (2012). João Manuel de Campos Gonçalves Utilização de técnicas de data mining na previsão do plano terapêutico em medicina intensiva João Manuel de Campos Gonçalves Utilização de técnicas de data mining na previsão do plano terapêutico em medicina intensiva.
Marshall, J. C., Bosco, L., Adhikari, N. K., Connolly, B., Diaz, J. V., Dorman, T., … Zimmerman, J. (2017). What is an intensive care unit? A report of the task force of the World Federation of Societies of Intensive and Critical Care Medicine. Journal of Critical Care, 37, 270–276. https://doi.org/10.1016/j.jcrc.2016.07.015
33
Maruiti, M. R., & Galdeano, L. E. (2007). Necessidades de familiares de pacientes internados em unidade de cuidados intensivos. Acta Paul Ista de Enfermagem, 20(1), 37–43. https://doi.org/10.1590/S0103-21002008000400016
Mettler, T., & Vimarlund, V. (2009). Understanding business intelligence in the context of healthcare. In Health Informatics Journal (Vol. 15, pp. 254–264). https://doi.org/10.1177/1460458209337446
Meystre, S., & Haug, P. (2006). Improving the sensitivity of the problem list in an intensive care unit by using natural language processing. AMIA ... Annual Symposium Proceedings / AMIA Symposium. AMIA Symposium, 2006(May 2014), 554–8. https://doi.org/85533 [pii]
Milovic, B., & Milovic, M. (2012). Prediction and Decision Making in Health Care using Data Mining. International Journal of Public Health Science (IJPHS), 1(2), 69–76. https://doi.org/10.11591/ijphs.v1i2.1380
Pedi, C. I. (2014). No Title, 2–3.
Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2007). A Design Science Research Methodology for Information Systems Research. Journal of Management Information Systems, 24(3)(3), 45–78. Retrieved from http://doi.org/10.2753/MIS0742-1222240302
Pinto, F., & Santos, M. F. (2005). Descoberta de Conhecimento em Bases de Dados. Datagadgets, 1, 53–63. Retrieved from http://www.fsd.edu.br/revistaeletronica/artigos/artigo9.pdf
Raja, U., Mitchell, T., Day, T., & Hardin, J. M. (2008). Text Mining in Healthcare, 22(3). Retrieved from http://www.himss.org/content/files/Raja.pdf
Sager, N., Lyman, M., Bucknall, C., Nhan, N., & Tick, L. J. (1994). Natural Language Processing and the Representation of Clinical Data. Journal of the American Medical Informatics Association, 1(2), 142–160. https://doi.org/10.1136/jamia.1994.95236145
Shrihari, C., & Desai, A. (2015). A Review on Knowledge Discovery using Text Classification Techniques in Text Mining. International Journal of Computer Applications, 111(6), 975–8887. Retrieved from http://research.ijcaonline.org/volume111/number6/pxc3900784.pdf
SNOMED. (2006). SNOMED International. Retrieved from https://www.snomed.org/news-articles/snomed-ct-compositional-grammar-specification-and-guide%0Ahttp://www.ihtsdo.org/about-ihtsdo/
Spyns, P. (1996). Natural language processing in medicine: An overview. Methods of Information in Medicine.
Srinivas, K., Rani, B., & Govrdhan, A. (2010). Applications of Data Mining Techniques in Healthcare and Prediction of Heart Attacks. International Journal on Computer Science and Engineering, 2(JANUARY 2010), 250–255. https://doi.org/10.1.1.163.4924
Tan, A.-H. (1999). Text Mining: The state of the art and the challenges. Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases, 8, 65–70. https://doi.org/10.1.1.38.7672
Top Mobile Trends. (2014). Mobile Tech Contributions to Healthcare and Patient Experiences. Retrieved from https://web.archive.org/web/20140530024928/http://topmobiletrends.com/mobile-technology-contributions-patient-experience-parmar/
Torii, M., Fan, J. wei, Yang, W. li, Lee, T., Wiley, M. T., Zisook, D. S., & Huang, Y. (2015). Risk factor detection for heart disease by applying text analytics in electronic medical records. Journal of
34
Biomedical Informatics, 58, S164–S170. https://doi.org/10.1016/j.jbi.2015.08.011
Truyens, M., & Van Eecke, P. (2014). Legal aspects of text mining. Computer Law & Security Review, 30(2), 153–170. https://doi.org/10.1016/j.clsr.2014.01.009
Wirth, R. (2000). CRISP-DM : Towards a Standard Process Model for Data Mining. Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, (24959), 29–39. https://doi.org/10.1.1.198.5133
Zhao, Y. (2013). Text Mining. R and Data Mining, 105–122. https://doi.org/10.1016/B978-0-12-396963-7.00010-6
Zhu, F., Patumcharoenpol, P., Zhang, C., Yang, Y., Chan, J., Meechai, A., … Shen, B. (2013). Biomedical text mining and its applications in cancer research. Journal of Biomedical Informatics, 46(2), 200–211. https://doi.org/10.1016/j.jbi.2012.10.007