Text Mining e Linguagem Natural para a deteção de padrões ... · publicação e número de...

Miguel António Fernandes Vieira

Text Mining e Linguagem Natural para a

deteção de padrões na admissão em

Cuidados Intensivos

Pré-Dissertação de Mestrado

Mestrado integrado em Engenharia e Gestão de

Sistemas de Informação

Trabalho efetuado sob a orientação do(s)

Professor Doutor Carlos Filipe da Silva Portela

Professor Doutor Manuel Filipe Vieira Torres dos Santos

Janeiro de 2018

I

RESUMO

Esta pré-dissertação enquadra-se num projeto de dissertação do Mestrado em Engenharia e

Gestão de Sistemas de Informação da Universidade do Minho. O tema da dissertação é “Text Mining e

Linguagem Natural para a deteção de padrões na admissão em Cuidados Intensivos”. Este resulta de

uma relação entre a Escola de Engenharia da Universidade do Minho e do Centro Hospitalar do Porto

(CHP), Hospital de Santo António.

Cada vez mais se verifica um aumento na quantidade de dados recolhidos eletronicamente, e

nesta área médica ainda existe muita informação que é registada sem nenhum padrão. As notas de

admissão apesar de serem estruturadas também têm campos de texto livre onde os médicos deixam a

sua avaliação do utente. Os Sistemas de apoio à decisão inteligentes (SADI) podem beneficiar do

cruzamento de informações e da interpretação destes documentos. Nas Unidades de Cuidados Intensivos

são admitidos diariamente vários doentes e escritas várias notas de alta. Para o apoio à decisão em

tempo-real e para o aumento da qualidade do processo de decisão é fundamental ter disponível todos

os dados clínicos de relevância sobre um doente pelo que é fulcral a utilização da informação presente

nos diários. Como os dados não seguem um padrão de escrita seguida por todos os médicos, a sua

análise torna-se bastante difícil de se fazer. O principal objetivo deste projeto é então a interpretação de

informações clinicas e a criação de um dicionário clínico que permita de forma automática interpretar o

que é escrito pelos médicos a tomar uma decisão rápida e eficaz. O trabalho desenvolvido neste projeto

seguirá a metodologia de investigação Design Science Research (DSR), e a metodologia prática Cross

Industry Standard Process for Data Mining (CRISP-DM). Neste documento é feita uma identificação dos

objetivos, motivações e o seu enquadramento. De seguida é apresentado um estado de arte sobre os

temas a abordar nesta dissertação. Após o estado de arte faz-se um estudo das abordagens

metodológicas a serem utilizadas no projeto e de seguida o planeamento detalhado do projeto, seguido

de uma tabela de riscos possíveis de acontecer no desenvolver do projeto.

PALAVRAS-CHAVE

Sistemas de Apoio à Decisão, Unidades de Cuidados Intensivos, Text Mining, Proessamentos de

Linguagem Natural, CRISP-DM

II

ABSTRACT

This pre-dissertation lies framed in a dissertation project in Engineering and Management of

Information Systems at the University of Minho. The dissertation theme is “Text Mining and Natural

Language for the detection of patterns in admission in Intensive Care”. This results from a relationship

between the School of Engineering of the University of Minho and the Hospital of Porto (CHP), Santo

António Hospital.

There is an increase in the amount of data collected electronically, and in this area, there is still

a lot of medical information that is recorded without any pattern. The admission notes despite being

structured also have free text fields where the doctors leave their evaluation of the patient. Intelligent

Decisions Support Systems (SADI) can benefit from cross-referencing and interpretation of this

documents. In the Intensive Care Units, several patients are admitted daily and several discharges notes

are written. To support real-time decision-making and to increase the quality of the decision-making

process, it is vital to have all relevant clinical data available on a patient, since it is crucial to use the

information in the journals. As the data does not follow a writing pattern followed by all doctors, its analysis

becomes quite difficult to do. The main objective of this project is the interpretation of clinical information

and the creation of a clinical dictionary that allows to automatically interpret what is written by doctors to

make a fast and effective decision. The work developed in this project will follow the research methodology

Design Science Research (DSR), and the practical methodology Cross Industry Standard Process for Data

Mining (CRISP-DM). In this document there is an identification of the objectives, motivations and their

framework. Next, a state of art is presented on the topics to be addressed in this dissertation. After the

state of art is a study of the methodological approaches to be used in the project and then the detailed

planning of the project, followed by a table of possible risks to happen in the development of the project.

KEYWORDS

Decisions Support Systems, Text Mining, Intensive Care Units, Natural Language Processing, CRISP-DM

III

ÍNDICE

Resumo ..................................................................................................................................................... I

Abstract ................................................................................................................................................... II

Índice de Figuras ...................................................................................................................................... V

Índice de Tabelas .................................................................................................................................... VI

Lista de Abreviaturas, Siglas e Acrónimos ............................................................................................. VII

1.1. Enquadramento e Motivação .................................................................................................. 1

1.2. Objetivos e Resultados Esperados .......................................................................................... 1

1.3. Estrutura do Documento ......................................................................................................... 2

2. Estado de Arte ................................................................................................................................. 3

2.1 Estratégia da Pesquisa Bibliográfica ........................................................................................ 3

2.2 Linguagem Natural .................................................................................................................. 3

2.2.1. Níveis de Processamento de Linguagem Natural ............................................................ 4

2.2.2. Abordagens da Linguagem Natural ................................................................................. 6

2.2.3. Processamento de Linguagem Natural na Saúde ............................................................ 7

2.3 Unidade de Cuidados Intensivos ............................................................................................. 9

2.3.1. Visão Geral ....................................................................................................................... 9

2.3.2. Notas Clínicas ................................................................................................................ 11

2.3.3. Notas de Admissão ........................................................................................................ 13

2.4 Text Mining ............................................................................................................................ 14

2.4.1 Questões legais sobre Text Mining ............................................................................... 15

2.4.2. Knowledge Discovery in Text ........................................................................................ 15

2.4.3. Técnicas do Text Mining ................................................................................................ 16

2.4.4. Fases do Text Minning .................................................................................................. 17

2.4.5. Text Mining na Saúde .................................................................................................... 18

2.5 Soluções com Text Mining, PLN e Cuidados Intensivos ........................................................ 20

3. Abordagem Metodológica ............................................................................................................. 23

3.1 Metodologias de Investigação....................................................................................................... 23

3.1.1. Design Science Research (DSR)...................................................................................... 23

3.1.2. Cross Industry Standard Process for Data Mining (CRISP-DM) ..................................... 25

4. Gestão do Projeto .......................................................................................................................... 27

4.1 Planeamento ......................................................................................................................... 27

4.2 Análise de Riscos ................................................................................................................... 28

IV

5. Considerações Finais ...................................................................................................................... 31

Referências Bibliográficas ..................................................................................................................... 32

V

ÍNDICE DE FIGURAS

Figura 1- Esquema do processador de linguagem LSP que mostra o funcionamento dos cinco módulos

linguísticos. ........................................................................................................................................ 9

Figura 2- Exemplo de um Registo Médico (Nota Clínica) .................................................................... 12

Figura 3 - Fases e tarefas convencionais envolvendo text mining em contexto biomédico ................... 18

Figura 4- Design Science Research Methology ................................................................................... 25

Figura 5 - Fases do CRISP-DM .......................................................................................................... 26

VI

ÍNDICE DE TABELAS

Tabela 1- Cronograma do Projeto ...................................................................................................... 27

Tabela 2 - Lista de riscos .................................................................................................................. 28

VII

LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS

CHP – Centro Hospitalar do Porto

CRISP-DM - Cross Industry Standard Process for Data Mining

DSR – Design Science Research

HSA – Hospital Santo António

KDT – Knowledge Discovery in Text

LSP – Linguistic String Project

MIMIC III – Medical Information Mart for Intensive Care III

NLU – Natural Language Understanding

PLN – Processamento de Linguagem Natural

SNOMED CT – Systematized Nomenclature of Medicine Clinical Terms

UCI – Unidade de Cuidados Intensivos

UMLS – Sistema de Linguagem Médica Unificada

1

1. INTRODUÇÃO

1.1. Enquadramento e Motivação

Os cuidados intensivos são uma unidade hospitalar onde se presta cuidados a doentes com estado

de saúde crítico ou que apresente um potencial risco, necessitando de uma vigilância contínua e

intensiva. Nas Unidades de Cuidados Intensivos são admitidos diariamente vários doentes e escritas

várias notas de alta. Para o apoio à decisão em tempo-real e para o aumento da qualidade do processo

de decisão é fundamental ter disponível todos os dados clínicos de relevância sobre um doente pelo que

é fulcral a utilização da informação presente nos diários. As notas de admissão apesar de serem

estruturadas também têm campos de texto livre, onde os médicos deixam a sua avaliação do utente.

Estes registos tornam o processo de análise e de interpretação bastante complicado e demorado, logo

é necessário a criação de um dicionário clínico que permita de forma automática interpretar o que é

escrito sobre o doente e ajudar os médicos a tomar uma decisão rápida e eficaz.

Este projeto vai ser realizado usando o Processamento de Linguagem Natural (PLN), de modo a

converter os dados armazenados e não padronizados em dados que sejam compreensíveis, permitindo

assim executar análises e interpretações dos mesmos.

Este projeto será realizado em parceria com o Centro Hospitalar do Porto (CHP), mais

especificamente com o Hospital Santo António (HSA). O CHP, tem como valores a prestação de cuidados

de saúde humanizados, competitivos e de referência, promovendo a articulação com outros parceiros do

sistema, a valorização do ensino pré e pós-graduado e da formação profissional, incentivando a

investigação na área da saúde.

Este projeto é um desafio, uma vez que nunca estive envolvido num projeto de Text Mining e de

Processamento de Linguagem Natural, o que por sua vez se torna uma motivação. Como este projeto se

encontra ligado à área de saúde torna-o ainda mais interessante, uma vez que é uma área de grande

importância e que lida com pessoas e com o tratamento das mesmas.

1.2. Objetivos e Resultados Esperados

O principal objetivo desta dissertação é a interpretação de informação clínica e a criação de um

dicionário clínico que permita automaticamente interpretar o que é escrito sobre um doente e auxiliar os

médicos a tomar decisões rápidas e eficazes.

2

Este projeto de dissertação tem como objetivos:

• Tradução de notas de admissão baseadas em linguagem natural/narrativas em dados úteis

para análise;

• Deteção automática de padrões clínicos e tradução automática de notas;

• Uma ferramenta capaz de analisar e interpretar notas de admissão;

• Novos algoritmos de interpretação de informação clínica;

• Dicionário clínico;

• Obtenção de novos conhecimentos na área dos Sistemas de Informação aplicados à saúde;

1.3. Estrutura do Documento

Este documento encontra-se dividido em sete capítulos:

• Introdução: pretende introduzir o tema do projeto a todos os leitores, o seu ambiente, o que

levou a este estudo, motivações, objetivos e resultados esperados.

• Estado de Arte: neste capitulo está contida toda a informação que foi alvo de pesquisa para

uma boa compreensão do projeto.

• Abordagem Metodológica: este capitulo é onde é efetuada a descrição de metodologias a

utilizar neste projeto. Na metodologia de investigação foi usada a metodologia Design Science

Research (DSR) e como metodologia prática o Cross Industry Standard Process for Data

Mining (CRISP-DM)

• Gestão de Projeto: neste capitulo é onde será elaborada a descrição detalhada de todo o

planeamento, com um tempo estimado para cada tarefa. Conterá também uma tabela de

riscos para precaver possíveis acontecimentos que podem ocorrer durante a realização deste

projeto.

• Considerações Finais: irá conter comentários finais, após a revisão de leitura estar completa.

• Referências: este capítulo irá conter todas as referências bibliográficas úteis para a realização

desta pré-dissertação.

3

2. ESTADO DE ARTE

2.1 Estratégia da Pesquisa Bibliográfica

Para a elaboração da revisão de leitura, foram utilizados como bases de informação, artigos

científicos, livros etc. Algumas destas bases de informação foram facultadas pelo orientador, outras foram

pesquisadas em repositórios e motores de busca científicos, como por exemplo, Google Scholar,

Springer, entre muitos outros.

Os principais termos utilizados para as pesquisas foram os seguintes:

• Natural language processing;

• Data Mining;

• Text Mining;

• Intensive Care Unit;

• Admission criteria in intensive care unit

• Natural Language processing in Health;

• Text Mining in Health;

Como resultado da pesquisa destes termos, surgiram vários artigos e livros, logo foi necessário fazer

uma espécie de seleção, uma vez que muitos destes livros e artigos não iam precisamente de encontro

ao que era necessário. Deste modo, foram escolhidos os artigos considerados mais relevantes para a

elaboração desta pesquisa, com base em alguns critérios como o contudo, investigador, ano da

publicação e número de citações.

2.2 Linguagem Natural

O Processamento de Linguagem Natural (PLN) é uma abordagem computadorizada baseada num

conjunto de tecnologias e teorias que permitem analisar textos, ou seja, os computadores são usados de

modo a entender e manipular a linguagem de um texto, ou de um idioma (“linguagem falada”) em algo

útil, seja para tarefas ou até mesmo aplicativos. O Processamento de Linguagem Natural já é bastante

utilizado em computadores inteligentes, computadores de multimédia, sistemas de diálogos e também

já faz parte, juntamente com a tecnologia, da área das ciências (Chowdhury, 2003; Liddy, 2003).

As técnicas computacionais que permitem analisar textos são necessárias, uma vez que existem

vários métodos/técnicas específicas para realizar um determinado tipo de análise linguística. Os “textos

4

de ocorrência natural” podem ser de qualquer idioma, modo e género. Estes podem ser escritos ou orais,

o único requisito necessário é que estejam num formato usado pelos seres humanos para se

comunicarem entre si.(Liddy, 2003).

Como já foi referido anteriormente, o propósito do PLN é a capacidade de executar um

processamento da linguagem o mais próximo à linguagem humana possível. Inicialmente, quando surgiu

a Inteligência Artificial o PLN era designado como Natural Language Understanding (NLU). Um sistema

ideal de Processamento de Linguagem Natural deverá (Liddy, 2003):

• Parafrasear um texto inserido;

• Traduzir o texto noutro idioma;

• Questionar sobre o conteúdo do texto;

• Possuir a capacidade de dedução sobre o texto;

Apesar do PLN apresentar avanços significativos relativos aos três primeiros pontos, os sistemas

ainda não possuem a capacidade de tirar inferências do texto, isto é, não conseguem deduzir, chegar a

uma conclusão. Com isto conclui-se que a NLU ainda é um dos objetivos a atingir do PLN.

2.2.1. Níveis de Processamento de Linguagem Natural

O modo mais simples de representar o que realmente acontece dentro de um Sistema de

Processamento de Linguagem Natural é através da abordagem dos “níveis da linguagem”. Esta

abordagem é também conhecida como o modelo de linguagem assíncrona, que refere que os níveis de

processamento da linguagem humana se seguem de forma estritamente sequencial. A introspeção revela

que frequentemente usamos informações que obtemos de um nível de processamento mais alto para

auxiliar num nível de análise mais baixo.

Os seres humanos conseguem usar todos os níveis da linguagem, tendo assim completa

capacidade de compreensão, logo o objetivo de um Sistema de Processamento de Linguagem Natural é

usar o maior número de níveis de linguagem possíveis.

Esses níveis de linguagem são (Liddy, 2003) :

• Fonologia: este nível de linguagem é responsável pela interpretação dos sons das palavras.

Neste nível existem três regras:

▪ Regras fonéticas para sons contidos nas palavras.

5

▪ Regras fonémicas para as variações da pronuncia assim que duas palavras são

ditas juntas.

▪ Regras prosódicas, para as diferentes pronúncias das palavras, como entoações.

• Morfologia: este nível trata da componente natural das palavras, que são compostas por

morfemas. O significado de cada morfema permanece o mesmo em todas as palavras. O ser

humano consegue separar uma palavra que seja desconhecida em morfemas que a

constituem, e assim entender o seu verdadeiro significado. Um sistema PLN pode também

fazer o mesmo que o ser humano e assim perceber o significado das palavras.

• Lexical: assim como os seres humanos, os sistemas de PLN, também conseguem interpretar

individualmente o significado das palavras.

• Sintático: Este nível foca-se na análise das palavras que constituem uma frase, com o

propósito de descobrir a estrutura gramatical dessa mesma frase. A sintaxe demonstra o

significado das palavras nas várias línguas, porque a ordem e a dependência contribuem para

o significado da frase. Por exemplo, as frases “o cão perseguiu o gato” e “o gato perseguiu o

cão”, são constituídas pelas mesmas palavras, mas transmitem significados diferentes.

• Semântico: é nesta fase que a maioria das pessoas pensa que é determinado o significado

das frases, no entanto, como podemos ver nas definições dos outros níveis, é o conjunto dos

mesmos que contribui para determinar o significado. O processo semântico determina os

possíveis significados das frases. Este nível de processamento pode incluir a desambiguação

semântica de palavras com vários significados. A desambiguação semântica apenas permite

um só sentido de palavras polissémicas que sejam escolhidas e incluídas numa

representação semântica da frase.

• Discurso: os níveis de sintaxe e semântica apenas operam com frases, enquanto que o nível

de discurso de um PLN funciona com unidades de tamanho de textos maiores. Deste modo,

não irá interpretar frases isoladas, o que pode tornar o significado de um texto diferente

daquele que era suposto, mas sim interpretar um texto como um todo fazendo conexões entre

as várias frases de modo a conseguir captar a ideia correta de um texto.

6

• Pragmático: este nível verifica o uso correto da linguagem, utilizando o contexto do conteúdo

do texto de forma a perceber o mesmo. Existem já aplicações que utilizam bases de

conhecimento e módulos de inferência.

Os atuais sistemas de PLN tendem a implementar módulos que permitem cumprir os níveis baixos

de processamento, isto porque, a aplicação pode não requerer interpretações de níveis elevados e

também porque os modelos de níveis de processamento baixo têm vindo a ser os mais investigados e

implementados. Os módulos de baixo nível operam com pequenas unidades de análises, como por

exemplo, morfemas, palavras, etc (Liddy, 2003).

2.2.2. Abordagens da Linguagem Natural

As abordagens do Processamento de Linguagem Natural assentam sobre quatro categorias(Liddy,

2003):

• Abordagem Simbólica: esta abordagem opera análises profundas de fenómenos linguísticos

baseada em representações explicitas de factos sobre a linguagem através de esquemas de

representação de conhecimento de fácil compreensão. A principal fonte de evidências em

sistemas simbólicos vem de regras desenvolvidas por humanos.

• Abordagem Estatística: esta abordagem emprega várias técnicas matemáticas, de modo a

desenvolver modelos generalizados de fenómenos linguísticos.

• Abordagem Conectora: esta abordagem também desenvolve modelos generalizados, assim

como a abordagem estatística. A diferença é que os modelos conectores combinam com o

que é aprendido na abordagem estatística com várias teorias de representação, sendo assim,

as representações conectoras permitem a inferência e a manipulação da lógica.

• Abordagem Híbrida: esta abordagem como o próprio nome indica, consiste na junção dos

pontos fortes de cada abordagem. Esta abordagem ainda se encontra em desenvolvimento.

7

2.2.3. Processamento de Linguagem Natural na Saúde

Na informática médica, existe uma preocupação de longa data com a linguagem médica. Em 1973,

Pratt (1973) destacou que os dados subjacentes aos processos dos utentes “ são na sua maioria dados

não numéricos e são formulados quase exclusivamente dentro da construção da linguagem natural… Os

dados são basicamente dados do idioma”. Essas construções foram identificadas como construções de

origem sintáticas e semânticas, tornando-se importantes no desenvolvimento da Nomenclatura

Sistemática de Patologia Multifacetada (SNOP), mais tarde conhecida como SNOMED, e atualmente

como SNOMED International (SNOMED III). A possibilidade de codificação automática de patologias e de

relatórios de diagnóstico no SNOP foi um sucesso. Apesar do sucesso, investigadores de várias partes

do mundo, como Canadá e Estados Unidos, continuaram a trabalhar na indexação automatizada de

relatórios clínicos de Linguagem Natural em códigos SNOMED (Sager, Lyman, Bucknall, Nhan, & Tick,

1994).

Em 2002 a SNOMED juntou-se com a CTV3, que é Versão de Termos Clínicos 3 desenvolvido

no Reino Unido na década de 1980 pelo Dr. James Read. Essa junção resultou na nova e atual versão

SNOMED CT. A SNOMED CT é uma terminologia que pode fazer a ponte entre todos os países do mundo,

ou seja é uma terminologia padronizada internacional. São disponibilizadas edições linguísticas

específicas que aumentam a edição internacional e podem conter traduções de idiomas, bem como

termos específicos de cada país. Por exemplo, o SNOMED CT-AU, lançado em dezembro de 2009 na

Austrália, é baseado na versão internacional da SNOMED CT, mas já engloba palavras e ideias que são

clinicamente e tecnicamente exclusivas da Austrália (SNOMED, 2006).

A SNOMED CT veio diminuir a barreira entre o uso de diferentes terminologias, ou sistemas de

codificação internacionalmente, permitindo assim uma maior partilha e reutilização de informações

clínicas estruturadas. Outra das muitas vantagens é que os mesmos dados podem ser apresentados de

várias formas, dependendo do fim pretendido, por exemplo, os registos clínicos apresentados através do

SNOMED CT podem ser processados e apresentados de diferentes maneiras para suportar o

atendimento direto ao utente, auditoria clínica, pesquisas, epidemiologias, gestão e planeamento de

serviços (IHTSDO, 2014).

A informação clínica é registada através de identificadores que se referem a conceitos

formalmente definidos como parte da terminologia. As estruturas da SNOMED CT permite que as

informações sejam inseridas usando sinónimos que atendam às preferências locais enquanto grava a

informação de forma consistente e comparável. Permite ainda que o armazenamento da informação seja

8

registado dependendo do nível de detalhe desejado para atender a certos tipos de uso (por exemplo,

pneumonia | pneumonia bacteriana | pneumonia pneumocócica |). Além disto pode-se incluir e

combinar conceitos adicionais, quando os conceitos disponíveis não são suficientemente precisos (por

exemplo, pneumonia pneumocócica | com um "motor de busca" do lóbulo superior direito do pulmão

|)(IHTSDO, 2014).

Os interesses em unificar os vocabulários médicos de diferentes fontes de conhecimento médico,

com o propósito de facilitar a utilização de recursos de conhecimento em Sistemas de Informação levou

ao Sistema de Linguagem Médica Unificada (UMLS) (Sager et al., 1994).

O Linguistic String Project (LSP) foi um dos primeiros projetos de pesquisa e desenvolvimento de

Processamento de Linguagem Natural, onde foram desenvolvidas as componentes básicas e a

representação formal da narrativa clinica, onde foi implementado a transformação de relatórios clínicos

de texto livre numa representação formal. O programa de formatação da informação do LSP é composto

por cinco módulos, como podemos observar na figura 1, que são responsáveis por transformar o input

(texto livre) em árvores de formatação, que serão mapeados para uma base de dados (Sager et al.,

1994).

Como podemos visualizar na figura 1, o primeiro módulo analisa a frase, respetivamente as

componentes gramaticais, através de estruturas gramaticais e restrições sintáticas que incorpora. O

segundo módulo filtra, através de análises sintáticas, o que não está semanticamente correto, com base

nos padrões estabelecidos de palavras médicas combinadas. O terceiro módulo (Transformation) torna

todas as conjunções completas, por exemplo, transforma “dor no epigástrio e quadrante inferior direito”

para “dor no epigástrio e dor no quadrante inferior direito”. A quarta fase (Regularization) trata da conexão

da estrutura, transformando tudo, por exemplo em notação Polaca. Por fim, a quinta fase, é responsável

pela formatação e pelo output para uma base de dados (Sager et al., 1994).

9

A Universidade de Columbia de Nova Iorque desenvolveu um Sistema de Processamento de

Linguagem Natural (MEDical Language Extraction and Encoding System) que identifica informações

clínicas em relatórios narrativos e transforma essa informação textual numa representação estruturada.

O objetivo principal é representar o conhecimento de relatórios de radiologia do tórax, guardar numa

base de dados e permitir que os médicos consultem essa base de dados através de um certo vocabulário.

Este sistema conta também com módulo de PLN com um sistema automatizado de suporte de decisão

(Spyns, 1996).

2.3 Unidade de Cuidados Intensivos

2.3.1. Visão Geral

A Unidade de Cuidados Intensivos (UCI) é uma unidade fechada, isto é, é uma unidade que facilita

a coordenação das atividades e dos profissionais que ali trabalham e que restringe o acesso a outras

pessoas. Tanto a planta física como os equipamentos característicos desta ala despertam a curiosidade

de todos os que lá entram. A estrutura física da UCI associada às condições dos utentes, normalmente

Figura 1- Esquema do processador de linguagem LSP que mostra o funcionamento dos cinco módulos linguísticos (Sager et al., 1994).

10

críticas, e a intensa atividade da equipa de saúde, fazem com que muitas pessoas considerem esta

unidade como um ambiente desagradável e hostil (Maruiti & Galdeano, 2007).

Uma UCI é um sistema organizado para a prestação de cuidados a utentes criticamente doentes,

que presta cuidados médicos e de enfermagem especializados e intensivos. Nesta unidade existe uma

maior capacidade de monitorização dos utentes, e suporte de órgãos, como por exemplo, máquinas

especializadas que permitem sustentar a vida de um utente durante a fase de insuficiência dos

órgãos(Marshall et al., 2017).

Embora uma UCI seja baseada numa certa área dentro de um hospital, as suas atividades

normalmente estendem-se para além das paredes do espaço físico, incluindo a área de emergência, sala

de cirurgia e o acompanhamento clínico. Existem três níveis de suporte aos doentes nas UCIs (Marshall

et al., 2017):

• Nível 1 – Uma UCI deste nível é capaz de fornecer oxigénio, monitorização não invasiva e

cuidados mais intensivos do que numa ala normal do hospital.

• Nível 2 – É capaz de providenciar uma monitorização invasiva (monitorização da circulação

do sangue e da pressão intracraniana) e suporte de vida básico, por um curto período de

tempo.

• Nível 3 – É capaz de providenciar todo um espectro de tecnologias de monitorização e suporte

de vida e pode desempenhar um papel atino no desenvolvimento da especialização dos

cuidados intensivos através da investigação.

Existem cinco principais domínios que identificam a UCIs dos cuidados clínicos comuns (Marshall

et al., 2017):

• Área Física: Espaço para acomodar um número desejado de utentes (idealmente um doente

por quarto). As camas têm de ser acessíveis de qualquer lado, tornando possível a avaliação

e tratamento do utente. Esta área deve ser dotada de equipamentos de suporte de vida;

• Tecnologias de Suporte e Monitorização: Todos os dados relativos às monitorizações do

utente são exibidos e gravados, permitindo o fácil acesso aos mesmos em caso de

complicações. Tecnologias que permitem o suporte de vida;

• Recursos Humanos: Equipa devidamente qualificada, profissional e interdisciplinar;

• Prestação de Serviços de Cuidados Críticos: Serviços que são prestados para além do que é

exigido, inicialmente, do doente. Atuação rápida após a chegada do utente, bem como, o

11

conforto do doente e da família quando se verifica que é provável que o internamento não irá

melhorar o estado de saúde do utente;

• Investigação, Educação e Melhoria da Qualidade: Tem como propósito a melhoria contínua

do cuidado do utente, através de uma avaliação prolongada.

A Unidade de Cuidados Intensivos é uma unidade onde utentes com as mais diversas doenças são

tratados. Alguns dos problemas mais comuns que poderemos encontrar nesta unidade são (Mettler

& Vimarlund, 2009):

• Falha Respiratória e Transmissão de Oxigénio;

• Acesso Intravascular e Instabilidade Hemodinâmica;

• Choque Séptico;

• Insuficiência Respiratória;

• Falha Renal;

• Doenças Infeciosas;

• Suporte Nutricional;

• Arritmias Cardíacas;

• Infarto do Miocárdio;

• Doenças Endócrinas;

• Distúrbios Hematológicos;

• Coma;

2.3.2. Notas Clínicas

Uma nota clínica eletrónica é definida como um agregado de informação eletrónica médica sobre

doentes individuais (Gunter & Terry, 2005). Estes registos podem ser compartilhados em diferentes áreas

de cuidados de saúde, são partilhados através de sistemas de informação que estejam conectados a

rede. Os registos podem conter vários dados, desde dados demográficos, histórico médico,

medicamentos e alergias, estado imunitário , resultados de testes laboratoriais, imagens de radiologias,

sinais vitais, estatísticas pessoais como idade , peso e até informação de cobrança monetária (Top Mobile

Trends, 2014).

12

Figura 2- Exemplo de um Registo Médico (Nota Clínica) (“EHR Software (Electronic Health Records) _ Kareo Clinical,” n.d.)

Existem vários tipos de Notas Clínicas como por exemplo:

• Relatórios de Consulta;

• Relatórios de Urgência;

• Relatórios de Progresso;

• Notas de Alta;

• Notas de Admissão;

• Diários clínicos;

• Relatórios Operacionais;

• Relatórios de Cardiologia;

Existem certas regras básicas para a documentação presente nas notas clínicas (For & Notes,

n.d.):

• As notas clínicas têm de ter data e hora;

• Os médicos devem incluir um titulo breve para todas as entradas de Notas clínicas;

• Os médicos são aconselhados a evitar abreviações;

• Não é permitido que se copie e cole notas anteriores, têm de ser atualizadas;

• O médico tem de assinar as notas, imprimir o seu nome de forma legível e incluir o número

de pager;

13

2.3.3. Notas de Admissão

Uma nota de admissão faz parte de um registo médico que documenta o status de um utente,

incluindo, histórico médico, exames físicos, razões pelas quais o utente vai ser internado numa certa

instalação hospitalar, contendo também as instruções iniciais necessárias para começar o tratamento

do mesmo. Os profissionais de saúde usam-nas para registrar o status base do utente e podem escrever

notas adicionais no serviço, notas de progresso (notas SOAP), notas pré-operatórias, notas operacionais,

notas pós-operacionais, notas de procedimento, notas de entrega, notas pós-parto e notas de alta. Os

critérios de admissão podem variar consoante a área a que o utente é admitido.

Por exemplo, a admissão em Cuidados Intensivos Pediátricos destina-se prioritariamente aos

doentes sem limitações terapêuticas, com instabilidade funcional de um ou mais órgãos, necessitando

de monitorização ou tratamento que não pode ser executado fora de CIPE (Serviço de Cuidados Intensivos

Pediátricos). Doentes com doenças terminais ou em estado vegetativo persistente ou em morte cerebral

não sendo potenciais dadores de órgãos não têm indicação para admissão em CIPE. Os doentes que

cumpram critérios devem ser discutidos com o especialista de Serviço para determinar da sua

aceitabilidade e prioridade de admissão. As admissões eletivas (pós-operatórios) devem ser agendadas

e ser, antecipadamente, fornecido resumo clínico sucinto contendo, pelo menos, nome, idade, peso,

diagnóstico principal e principais problemas ativos, alergias conhecidas, medicações específicas e

intervenção que vai realizar (Pedi, 2014).

Alguns Critérios de Admissão em Cuidados Intensivos Pediátricos (Pedi, 2014):

• Idade;

• Problemas de respiração, como a necessidade de suporte ventilatório;

• Instabilidade ou necessidade de via aérea artificial;

• Problemas cardiovasculares;

• Problemas de foro neurológico;

• Problemas renais;

• Problemas Hepáticos

• Problemas Oncológicos;

• Pós-operatório;

14

2.4 Text Mining

O Text Mining, conhecido também como Text Data Mining, consiste num processo de extração de

padrões de informação útil de textos/documentos não estruturados. É visto como uma extensão do Data

Mining.

Como normalmente a forma mais comum de guardar informações é em formato de texto,

acredita-se que o Text Mining tenha um potencial de comércio superior ao Data Mining. Um estudo

recente, feito pelo Delphi Group, comprovou que cerca de 80% das informações de uma empresa estão

guardadas em documentos de texto. O Text Mining é bastante mais complexo que o Data Mining, uma

vez que lida com dados de texto não estruturados. Reúne um conjunto de várias disciplinas, como por

exemplo, análise de texto, extração de informação, categorização, visualização, tecnologias de bases de

dados, Machine Learning e Data Mining (Tan, 1999).

Nas primeiras versões, o Text Mining consistia em duas fases: Text Refining que transforma os

documentos de texto num formato intermédio (IF) escolhido e na fase Knowledge Distillation, responsável

por deduzir padrões, ou certos conhecimentos do formato intermédio. Por exemplo, num conjunto de

artigos o Text Rifining converte cada um dos artigos num documento intermédio (IF). Agora sim, já é

possível realizar-se a fase Knowledge Destillation, com a finalidade de organizar esses artigos com base

no conteúdo de cada um, para fins de navegação e visualização. Durante a fase IF, os artigos podem

ainda ser “projetados” num formato intermédio baseado em conceito, dependendo do propósito da

necessidade. Pode-se por exemplo, retirar informação correspondente à palavra “empresa” do formato

intermédio e criar a partir disso, uma base de dados dessa mesma empresa. A fase Knowledge Distillation

pode então entrar em funcionamento a partir da base de dados da empresa e assim fornecer

informação/conhecimento relativo à empresa(Tan, 1999).

Com o passar do tempo o Text Mining cresceu muito, consequentemente tornando-se mais

completo, com fases mais complexas, com ferramentas e técnicas de análise de textos mais capazes,

uma vez que a quantidade de dados cresce a uma velocidade enorme. Apesar do Text Mining não ser

uma tecnologia nova, recentemente obteve muita atenção devido ao surgimento do Big Data (Truyens &

Van Eecke, 2014).

Tipicamente as tarefas da técnica de Text Mining incluem as seguintes atividades de pesquisa

(Truyens & Van Eecke, 2014):

• Categorização de texto: associar os textos a categorias;

15

• Clustering de texto: agrupar os textos das mesmas categorias;

• Extração de Conceito/Entidade: descobrir o assunto das discussões;

• Análise de sentimento: entender o tom do texto;

• Modelagem de Entidade de Relação: resumir os textos e descobrir relações entre as entidades

descritas no texto.

2.4.1 Questões legais sobre Text Mining

Relativamente ao ponto de vista legal, o Data Mining já foi fortemente discutido devido à proteção

de dados, uma vez que está relacionado com tópicos de caracterização comportamental.

Contrariamente, o Text Mining tem recebido menos atenção, uma vez que não entra tanto nas questões

relativas à privacidade. Ainda assim, a Comissão Europeia reconheceu recentemente a importância do

Data Mining e do Text Mining tendo como desejo a promoção do seu uso para propósitos de pesquisa

cientifica (Truyens & Van Eecke, 2014).

Mesmo com as atenções a aumentarem em volta do Text Mining, atualmente não se conhece

qualquer tipo de processo judicial que o envolva diretamente, existe sim, alguns processos legais contra

motores de busca, screen scraping e extração de bases de dados (Truyens & Van Eecke, 2014).

2.4.2. Knowledge Discovery in Text

O Text Mining, inspirado pelo Data Mining, refere-se ao processo de Descoberta de Conhecimento

de Texto, conhecido em inglês pela sigla KDT (Knowledge Discovery in Text). Consiste na obtenção de

informação a partir de um texto em linguagem natural ou passível de interpretação(Zhao, 2013).

A descoberta de conhecimento é definida como uma extração implícita e não trivial de dados

anteriormente desconhecidos que sejam passíveis de serem úteis. Os algoritmos usados devem ser

eficientes ao ponto de descobrirem apenas conhecimentos considerados interessantes. Os algoritmos

devem ser de uma complexidade polinomial, ambos em espaço e tempo, de modo a poderem lidar com

grandes bases de dados(Feldman & Dagan, 1995).

Existem duas partes principais no que diz respeito à descoberta de conhecimento. Uma parte,

consiste em aplicar técnicas de análises estatísticas e Machine Learning, de modo a encontrar padrões

em bases de conhecimento, enquanto a outra parte concentra-se em proporcionar-lhes um uso guiado

para a exploração de dados(Feldman & Dagan, 1995).

16

Existem várias abordagens para tirar partido das técnicas de Mining, pode ser através de análises

estatísticas de modo a descobrir associações que sejam consideradas interessantes, como o uso de

termos extraídos automaticamente dos textos, com o propósito de categorizar e encontrar associações.

Neste último caso os termos mais frequentes no texto são assinalados como palavras-chaves,

pode no entanto, na análise do texto, existirem problemas de vocabulário por causa de palavras

sinónimas e erros de semântica (Loh, Wives, & de Oliveira, 2000).

Outra possível abordagem consiste em aplicar técnicas de Descoberta de Conhecimento de bases

de dados depois da utilização das técnicas de Extração da Informação que transforma a informação

numa base de dados estruturada.

2.4.3. Técnicas do Text Mining

Tecnologias como extração de informação, agrupamentos, resumo, categorização e visualização,

são algumas das mais utilizadas no processo de Text Mining (Shrihari & Desai, 2015):

• Extração de Informação: primeiro passo para a análise do texto não estruturado e a sua

relação. Este processo é feito através das ligações de padrões e é utilizado para procurar e

pré-definir a sequência do texto;

• Clustering: esta técnica é usada para agrupar documentos similares diferindo na

categorização. Este método é baseado no conceito da divisão de texto similar no mesmo

cluster.

• Sumário: devido à quantidade enorme de dados, é necessário sumarizar os dados dos

documentos, sem alterar o significado do seu conteúdo.

• Visualização: No Text Mining a visualização melhora a simplicidade na descoberta da

informação. Certas partes de um documento é marcado através de uma “text flag”. Este

método fornece informação compreensível e em grande quantidade, ajudando a criar o

padrão dos documentos.

• Categorização: algo parecido com a classificação de texto. É uma técnica supervisionada,

uma vez que é baseada em exemplos de inputs e outputs para classificação. O classificador

de texto é usado para a categorização do documento de texto para predefinir a sua própria

classe. A classe é baseada no conteúdo desse documento. A forma típica de processamento

de categorização do texto consiste no pré-processamento, indexação, redução de dimensões

17

e classificação. O objetivo da categorização é treinar o classificador com uma base de

conhecimento, onde os exemplos desconhecidos são categorizados de forma automática.

2.4.4. Fases do Text Minning

Como já foi referido anteriormente, o objetivo do Text Mining é a obtenção de conhecimento

implícito que está contido dentro de um texto não estruturado e apresentá-lo de uma forma explícita.

Normalmente este processo acontece dentro de quatro fases, como se encontra representado na figura

3 (Zhu et al., 2013):

• Recuperação da Informação: além dos sistemas convencionais de recuperação de

informação, existem também sistemas avançados de recuperação de informação de

conhecimento que integram dados de diferentes recursos num único contexto de modo a

aprimorar a compreensão de sistemas complexos.

• Reconhecimento das entidades mencionadas e a sua relação-extração: este é o passo mais

importante no que diz respeito a extração do conhecimento. O principal objetivo desta fase é

a identificação de termos específicos. Na prática, ainda existem algumas complicações, uma

vez que podem existir várias formas de escrever algum termo, dificultando assim a

identificação automática.

• Descoberta de Conhecimento: o conhecimento, incluindo factos, informações ou descrições,

implícitas ou explícitas, refere-se à compreensão teórica ou prática de um assunto. A

descoberta de conhecimento é a criação de conhecimento a partir de grandes volumes de

dados estruturados ou não estruturados. O conhecimento obtido pode-se tornar informação

extra que mais tarde poderá servir como informação para descobertas adicionais.

• Geração de Hipótese: baseado em fatos ou informações que não conseguem ser explicadas

de forma satisfatória a partir do conhecimento disponível, surge a hipótese científica. A

hipótese científica é algo como uma imaginação científica que se baseia em evidências e

conhecimentos existentes. A geração de hipótese consiste na obtenção de uma inferência,

através de “pistas” escondidas no texto, enquanto que a descoberta de conhecimento

significa a extração de conhecimento inovador.

18

Figura 3 - Fases e tarefas convencionais envolvendo text mining em contexto biomédico (Zhu et al., 2013)

2.4.5. Text Mining na Saúde

O Text Mining é usado nas mais diversas áreas, como por exemplo, nas ciências, na gestão de

empresas e principalmente na área da saúde. Cada vez mais existem novas tecnologias a serem

desenvolvidas na área de Clinical Data Mining, como por exemplo, novos métodos de anotar dados

clínicos não estruturados e transformá-los numa matriz codificada de características dos utentes através

de terminologias médicas, com a finalidade de detetar efeitos colaterais de drogas (LePendu et al., 2013).

Para demonstrar a viabilidade de usar recursos de texto livre para detetar associações dos efeitos

adversos de drogas, reproduziram a associação entre rofecoxib (medicamento anti-inflamatório) e o

infarto do miocárdio. Como consequência, o medicamento rofecoxib foi retirado do mercado devido ao

aumento do risco de ataque cardíaco e acidente vascular cerebral. Calcularam uma associação entre o

medicamento e o infarto do miocárdio, acompanhando a ordem temporal do diagnóstico de artrite

reumatoide, exposição ao fármaco e ocorrência de um efeito adverso (LePendu et al., 2013).

Verificamos assim, que através destes trabalhos se estabelecem relações entre vários

fenómenos, que aparentemente não estão diretamente ligados e, no entanto, podem ter sérias

implicações na saúde.

Nos Estados Unidos, uma das principais causas de morte é de origem cardíaca representando

cerca de mais de 600 mil mortes por ano. De modo a tentar combater esta doença, a UTHealth Challenge

reuniu profissionais na área de processamento clínico de linguagem natural (PLN) para encontrarem

19

problemas de interesse comum, como por exemplo, identificação de fatores de risco da doença cardíaca

nos registos médicos eletrónicos (EMRs), uma tarefa que irá apoiar a prevenção, os cuidados e os planos

de tratamentos da doença (Torii et al., 2015).

O principal objetivo da tarefa (Track-2) era de anotar os diagnósticos, os fatores de risco e os

medicamentos associados presentes no relatório. Através de estudos anteriores, esta equipa descobriu

uma técnica que foi denominada por Cohen(2008), como “identificação do ponto quente”, que se tornou

muito útil para este challenge. Esta técnica permite que, uma pequena quantidade de palavras

discriminativas, sejam identificadas para classificar um documento. Então a equipa usou esta técnica

para classificar o nível de tabagismo dos utentes (não fumador, fumador, fumador passado e

desconhecido). A maior parte da tarefa era baseada nesta técnica, não só referente ao nível do tabagismo

dos utentes, mas em quase tudo o que estava presente no relatório (Torii et al., 2015).

Uma outra grande pesquisa nesta área foi realizada na Vanderbilt Clinic em New York, com o

objetivo de criar um programa PLN que seja capaz de codificar informações de estado funcional, seguindo

os requisitos da Internacional Classification of Functioning, Disability, and Health (ICF)(Raja, Mitchell,

Day, & Hardin, 2008). A escolha mais óbvia para este tipo de projeto, é a codificação automática. Quando

se trata de reembolsos e de manutenção de registos, então isto é uma boa solução, uma vez que agiliza

e simplifica um processo que antes era demorado e aborrecido. Com a codificação, este processo iria

consumir bastante menos recursos do que o que realmente gastam(Raja et al., 2008).

Os investigadores estenderam o código PLN MedLEE existente de modo a ser possível codificar os

resumos das altas dos utentes. As avaliações foram executadas por codificadores especializados e não

especializados. Estes codificadores descobriram que o sistema PLN codificado obteve quase os mesmos

resultados dos codificadores humanos, o que se revelou uma grande promessa para a codificação

automática de códigos ICD-9, que são a principal base de reembolso na maioria dos serviços de saúde

(Raja et al., 2008).

Um estudo realizado na Universidade de Utah, utilizou uma versão do MedLEE, com um algoritmo

“phrasematching” de modo a extrair dados para investigação. O objetivo deste estudo foi extrair os dados

relacionados com efeitos adversos ligados à colocação de um cateter venoso central. Os efeitos adversos

podem ser infeções, complicações decorrentes de extravio e de colapsos pulmonares. Estes testes foram

conduzidos usando cada método de forma individual, em seguida, utilizando os métodos todos juntos

com uma amostra de registos que tinham sido avaliados anteriormente de forma manual (Raja et al.,

2008).

20

Relativamente aos ensaios onde utilizaram métodos individuais, estes revelaram-se ineficientes. O

algoritmo não era especifico e o sistema pouco sensível, produzindo valores de previsão de 6,4% e 6,2%.

Em contrapartida, quando usados em conjunto, os resultados já foram mais simpáticos, produzindo uma

sensibilidade de 72,0% e uma especificidade de 80,1%. Mostrando assim a capacidade de utilização de

sistemas de PLN para automatizar a extração de dados de pesquisa (Raja et al., 2008).

O sistema MedLee tem sido atualmente utilizado no Centro Médico da Universidade de Columbia,

desde 1995, para codificar informações de radiografias do tórax e de relatórios de mamografias.

Posteriormente foi expandido para outras áreas e foi adaptado para ser utilizado em outras instituições.

O desempenho do sistema comprovou-se semelhante ao dos codificadores especializados como os

médicos (Kukafka, Bales, Burkhardt, & Friedman, 2006).

Os componentes de conhecimento do MedLEE consistem numa base de dados lexical, regras

gramaticais, ferramentas de mapeamento de frases de multipalavras e uma tabela de codificação para

mapear termos clínicos para vocabulários controlados. Os componentes de processamento do sistema

incluem um pré-processador, um analisador, um codificador, um conversor de XML e um interpretador

de erros. Além deste sistema, já foram desenvolvidos mais tipos de sistemas de processamento de

linguagem médica para várias tarefas, como extração de afirmações relacionadas com ligação molecular

a partir de textos biomédicos e deteções de pneumonias bacterianas a partir de relados de

radiologia(Kukafka et al., 2006).

2.5 Soluções com Text Mining, PLN e Cuidados Intensivos

O ambiente na área da saúde geralmente é entendido como um ambiente “rico em informação”,

mas de “conhecimento pobre”. Existe uma grande quantidade de dados disponíveis nos sistemas de

saúde. No entanto, há uma falta de ferramentas de análise eficaz para descobrir relacionamentos

escondidos e tendências nesses mesmos dados. A descoberta de conhecimento e Data Mining/Text

Mining encontraram inúmeras aplicações no domínio comercial e científico. Muitos conhecimentos

cruciais podem ser descobertos a partir da aplicação de técnicas como Data Mining e Text Mining, nos

dados do sistema de saúde(Srinivas, Rani, & Govrdhan, 2010).

O Data Mining também é usado, através de uma aplicação, para o processamento de sinais

biomédicos, que é expresso por regulamentos internos e respostas a condições de estímulos. Sempre

que houver uma falta de conhecimento detalhado sobre interações entre diferentes subsistemas e

quando as técnicas de análise padrão são ineficazes, como é muitas vezes o caso de associações não

21

lineares, as tecnologias de Data Mining fornece o vínculo entre o conhecimento de dados contínuos,

assim como sinais biomédicos recolhidos de utentes nas unidades de cuidados intensivos e um sistema

de monitorização inteligente, na qual envia avisos e alarmes, pré-selecionados, para condições

consideradas criticas pelos médicos (Milovic & Milovic, 2012).

De modo a melhorar a integralidade de uma lista eletrónica de problemas, criaram um sistema

que usa processamento de linguagem natural (PLN) para extrair automaticamente os possíveis

problemas médicos de documentos clínicos que se encontravam representados em texto livre. Esses

problemas são então propostos para a inclusão numa aplicação de gestão da lista dos problemas

(Meystre & Haug, 2006).

Os documentos de 105 utentes propostos para a inclusão da lista de problemas, foram analisados

pelo sistema. Nessa amostra, o sistema aumentou significativamente a sensibilidade das listas de

problema, de 8.9% para 41% e para 77.4%(Meystre & Haug, 2006).

Os dois componentes principais do sistema são, uma aplicação em segundo plano, e uma

aplicação de gestão da lista de problemas. A aplicação de segundo plano é responsável pelo

processamento e análise do texto armazenando os problemas extraídos numa base de dados, clínica

central. A aplicação de segundo plano procurou 80 problemas diferentes de diagnóstico, que foram

recolhidos com base nos ambientes escolhidos para a avaliação (uma unidade de cuidados intensivos e

de cirurgia). As ferramentas de PLN utilizadas nesta experiência foram baseadas em MMTx, com um

subconjunto de dados personalizados e adaptados aos 80 problemas médicos. O algoritmo de deteção

de negação utilizado foi o NegEx. Os problemas foram listados com um novo status proposto e incluíram

um link para os documentos de origem com uma frase. O problema foi realçado para facilitar a leitura

(Meystre & Haug, 2006).

Nos últimos anos, desenvolveram-se vários tipos de avaliações com o objetivo de se obter uma

estimativa para mortalidade hospitalar numa unidade de cuidados intensivos (UCI). Neste estudo Kocbek

et al (2012) previram a mortalidade de um mês, relativo à doença renal crónica, usando a base de dados

da Medical Information Mart for Intensive Care III (MIMIC III). Adicionalmente observaram a melhoria no

desempenho preditivo e da interpretabilidade do modelo de base utilizado na UCI, para um modelo mais

complexo usando recursos simples como unigrams ou bigrams, recursos avançados, assim como

extrações de anotações de enfermagem. O principal foco foram as anotações de enfermagem, nas quais

foram excluídos utentes que faleceram dentro das primeiras 24 horas de admissão e notas que não eram

atualizadas (Kocbek et al., 2012).

22

Neste estudo, observaram melhorias no desempenho preditivo e e interpretabilidade de modelos

preditivos baseados em novos recursos extraídos das notas recolhidas nos EMRs de enfermagem. Mais

precisamente previram a mortalidade de um mês, no final de 24 horas gastas na UCI nos utentes com

DRC (Kocbek et al., 2012).

Um outro projeto que envolve técnicas de Mining nos Cuidados Intensivos, surgiu de uma parceria

entre a Universidade do Minho e o Centro Hospitalar do Porto. O propósito do trabalho foi de responder

à questão de investigação e apoiar a decisão dos médicos, que se baseou na melhor terapêutica para

doentes com problemas microbiológicos, tendo como principal ponto de partida o nível de sepses. O

projeto teve como objetivo apoiar a decisão clínica, a previsão da sepses e a previsão para doentes com

problemas microbiológicos, baseado nos níveis de sepses (Manuel & Gonçalves, 2012).

23

3. ABORDAGEM METODOLÓGICA

Neste capitulo são explicadas as metodologias que serão utilizadas para o desenvolvimento de

todo o projeto. As duas metodologias utilizadas são: Design Science Research (DSR) que é uma

metodologia de investigação e o Cross Industry Standard Process for Data Mining (CRISP-DM) como

metodologia para o projeto de Data/Text Mining.

3.1 Metodologias de Investigação

3.1.1. Design Science Research (DSR)

Para a elaboração desta dissertação, irá ser utilizada como metodologia de investigação cientifica o

Design Science Research (DSR), no âmbito de Sistemas de Informação. O principal objetivo desta

metodologia é o desenvolvimento de artefactos que permite que sejam utilizados para aplicação por

profissionais da área de Sistemas de informação.

Esta metodologia é compreendida em seis fases (Peffers, K., Tuunanen, T., Rothenberger, M. A., &

Chatterjee, 2007) :

• Identificação e Motivação do Problema: esta primeira fase consiste na identificação dos

aspetos mais relevantes na definição dos problemas. Os recursos necessários para esta

atividade consistem no reconhecimento do problema e na importância da sua solução.

Nesta primeira fase, relacionando com o projeto, verificamos que existem alguns problemas no que

diz respeito aos dados dos utentes, que são registados sem qualquer tipo de padrão. As notas de

admissão, mesmo sendo estruturadas têm campos de texto livre onde os médicos deixam a avaliação

do utente. Nas Unidades de Cuidados Intensivos são admitidos diariamente vários doentes e são escritas

várias notas de alta e como a qualidade do processo de decisão é fundamental, é necessária uma

utilização, rápida e automática de toda a informação contida nos diários o que atualmente não acontece.

• Definição dos objetivos: nesta fase é onde ocorre a identificação dos objetivos que auxiliam a

resolução do problema. Os recursos necessários para esta fase envolvem o conhecimento do

estado atual do problema e das suas soluções existentes.

Relativamente ao projeto, o objetivo irá consistir na interpretação da informação clínica e na criação

de um dicionário clínico que permitirá interpretar o que é escrito sobre um utente e ajudar os médicos a

tomar uma decisão rápida e eficaz.

24

• Design e Conceção: esta fase permite a criação de artefactos como, modelos, instâncias ou

métodos. É nesta fase que se determina a funcionalidade que é desejada do artefacto, assim

como a sua arquitetura, de modo a facilitar a criação do artefacto. Os recursos necessários

consistem na transição da fase anterior para o design, incluindo o conhecimento teórico

utilizado para a solução.

Para a elaboração deste projeto é necessário fazer um estudo intensivo de modo a obter o máximo

de conhecimento possível, desde técnicas de Text Mining, de Linguagem Natural, ou seja, tudo o que

envolve a criação de um dicionário de dados, assim como as ferramentas necessárias para o seu

desenvolvimento.

• Demonstração: esta fase consiste na validação da solução desenvolvida, ou seja, na

implementação e na validação da arquitetura que foi referida anteriormente, de modo a

resolver uma ou mais instâncias do problema. Os recursos necessários dizem respeito ao

conhecimento efetivo de como usa o artefacto para resolver o problema.

Esta fase de desenvolvimento, irá consistir na criação de um dicionário de dados, irá englobar a

tradução de notas de admissão baseadas em linguagem natural, deteção de padrões clínicos e numa

ferramenta que permita a analisar e interpretar notas de admissão.

• Avaliação: é nesta fase que se retiram as conclusões do trabalho desenvolvido. Abrange a

comparação entre os objetivos de uma solução com os resultados reais observados no uso

do artefacto anteriormente validado.

Após o desenvolvimento dos artefactos que permitem a resolução dos vários problemas

encontrados, as ferramentas irão passar por uma fase de testes para verificar se conseguem

desempenhar os requisitos propostos.

• Comunicação: esta é a última fase, e procura representar e divulgar os resultados que foram

obtidos, reconhecendo a finalidade do trabalho.

Para este projeto será feito uma apresentação do protótipo desenvolvido, de modo a mostrar todo

o conhecimento adquirido durante o seu desenvolvimento, acompanhado de um relatório contendo toda

a informação que foi gerada durante o processo.

25

Esta metodologia deve ser seguida de forma linear, mas não é obrigatório, ou seja, é possível

começar por qualquer uma das fases. Na figura 4 é apresentado, de uma forma esquematizada, esta

metodologia e as suas fases.

Figura 4- Design Science Research Methology (Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, 2007)

3.1.2. Cross Industry Standard Process for Data Mining (CRISP-DM)

A metodologia CRISP-DM é um modelo para Data Mining, que fornece uma visão geral do ciclo de

vida de um projeto. É uma metodologia que contém as fases de um projeto, as suas respetivas tarefas e

os seus resultados (outputs) (Wirth, 2000).

As seis fases desta metodologia são (Pinto & Santos, 2005):

• Estudo do negócio: é nesta primeira fase que se avalia a necessidade da realização do projeto,

é onde se compreende o problema definindo-se os objetivos a cumprir, assim como os meios

para os atingir.

• Estudo dos Dados: esta etapa é referente ao estudo dos dados, que é baseado em quatro

tarefas; Recolha, Descrição e Exploração dos Dados respetivamente, seguido da Verificação

da Qualidade dos mesmos.

• Preparação dos Dados: esta fase abrange todas as atividades que dizem respeito à

construção do conjunto final de dados, que será usado na ferramenta de modelação. Inclui-

se a seleção de tabelas, registos e atributos, bem como ferramentas de modelação.

26

• Modelação: nesta fase é feita a seleção das técnicas de modelação. As técnicas têm que ser

adequadas ao problema, mas também a certos requisitos que algumas destas técnicas têm

e só depois submeter os dados previamente preparados na fase anterior.

• Avaliação: nesta fase é executado a avaliação da utilização dos modelos, verificando-se se

atingem os objetivos do projeto. Os três passos são: Avaliação dos Resultados, Revisão do

Processo e a Determinação dos Próximos Passos.

• Implementação: esta fase é onde se planeia a avaliação dos resultados, onde é definida a

estratégia para a implementação dos resultados de Data Mining incluindo os passos e a sua

forma de execução. Produz-se o relatório final e a sua revisão.

Na figura 5, podemos visualizar as seis fases da metodologia CRISP-DM.

Figura 5 - Fases do CRISP-DM (Wirth, 2000)

27

4. GESTÃO DO PROJETO

4.1 Planeamento

Para um bom desenvolvimento do projeto de dissertação é necessário efetuar um planeamento

para todo o trabalho que irá ser realizado, permitindo assim obter uma visualização geral do trabalho a

ser realizado através de uma timeline, de modo a que o tempo das tarefas a realizar seja cumprido. Na

tabela 1 podemos visualizar o planeamento das tarefas do projeto com base na metodologia CRISP-DM.

Tabela 1- Cronograma do Projeto

28

4.2 Análise de Riscos

De modo a prevenir possíveis riscos que podem suceder-se durante a realização deste projeto, foi

necessária uma identificação desses riscos, representada na tabela 1, onde representamos a

probabilidade de acontecimento numa escala de 0 até 5, o seu impacto no projeto e a seriedade que

resulta da multiplicação da probabilidade pelo impacto. Além disso ainda possui medidas atenuantes do

problema, de modo a evitar que esses riscos aconteçam.

Tabela 2 - Lista de riscos

Descrição Probabilidade Impacto Seriedade Medidas

Atenuantes

Atraso no

desenvolvimento

do projeto

3 5 15 Cumprir o

planeamento

estabelecido,

disponibilizando

mais tempo para

a execução das

tarefas

29

Complexidade do

projeto

4 5 20 Reuniões com os

orientadores de

modo a poderem-

me auxiliar

sempre que

surgirem dúvidas.

Incorreta

compreensão dos

dados e

indicações

4 5 20 Reuniões com os

coordenadores e

voltar a analisar o

projeto

Dificuldade no

manuseamento

das ferramentas

4 5 20 Visualização de

tutoriais, pedir

auxilio aos

orientadores de

modo a facilitar a

aprendizagem da

ferramenta

Mau planeamento

do projeto

4 5 20 Revisão de

planeamento,

reservar mais

tempo para a

realização das

tarefas

Perdas de

informações

2 5 10 Realizar várias

cópias de

segurança

Má utilização das

metodologias do

projeto

3 4 12 Estudo intensivo

de todas as

etapas das

metodologias

Infraestruturas

incapazes de

3 4 12 Garantir, antes de

começar o

30

suportar a

execução do

projeto

projeto, que as

infraestruturas

reúnam os

requisitos

necessários

31

5. CONSIDERAÇÕES FINAIS

Este projeto tem como principal objetivo a interpretação de informação clínica, de modo a detetar

padrões na admissão dos Cuidados Intensivos, permitindo assim aos médicos a tomada de decisões de

uma forma rápida e eficaz. Para isso foi necessário elaborar uma extensa pesquisa de conceitos como

Unidade de Cuidados Intensivos, Text Mining, Data Mining, Processamento de Linguagem Natural, com

o intuito de ajudar na compreensão dos mesmos, uma vez que alguns destes conceitos são

desconhecidos. Foram também apresentados casos onde a implementação de Processamento de

Linguagem Natural e Text Mining nos Cuidados Intensivos foram um sucesso.

Para a elaboração desta primeira fase e da fase de desenvolvimento seguinte foram usadas duas

metodologias, que auxiliam a realização deste projeto, o Design Science Research (DSR) para a descrição

dos objetivos do projeto e Cross Industry Standard Process for Data Mining (CRISP-DM) adaptado para

PLN e Text Mining respetivamente. Este documento contém uma lista de riscos para qualquer

eventualidade adversa que possa ocorrer durante a elaboração deste projeto.

O principal objetivo desta fase inicial do documento do projeto de dissertação é de dar uma ideia

de como será realizado o desenvolvimento do projeto, assim como as suas maiores dificuldades.

Para a realização deste projeto, irá ser utilizado conhecimentos adquiridos nas unidades

curriculares passadas, no entanto não abrangem todo o projeto, o que se torna obrigatório a

aprendizagem de outros conhecimentos, tornando assim todo o projeto mais desafiante e motivador.

Como este projeto também está envolvido na área da medicina, tendo como objetivo auxiliar a decisão

médica, baseado em informações referentes a doentes, torna-o um projeto sério e desafiante.

32

REFERÊNCIAS BIBLIOGRÁFICAS

Aw, P. (1973). Medicine, Computers, and Linguistics. Adv Biomed Eng., 3, 97–140.

Chowdhury, G. (2003). Natural language processing . Annual Review of This is an author-produced version of a paper published in The Annual Review of Information Science and Technology ISSN 0066-4200 . This version has been peer-reviewed , but does not. The Annual Review of Information Science and Technology, 37, 51–89.

Cohen, A. M. (2008). Five-way Smoking Status Classification Using Text Hot-Spot Identification and Error-correcting Output Codes. Journal of the American Medical Informatics Association, 15(1), 32–35. https://doi.org/10.1197/jamia.M2434

EHR Software (Electronic Health Records) _ Kareo Clinical. (n.d.).

Feldman, R., & Dagan, I. (1995). Knowledge Discovery in Textual Databases (KDT). International Conference on Knowledge Discovery and Data Mining (KDD), 112–117. https://doi.org/10.1.1.47.7462

For, U., & Notes, P. (n.d.). Uidelines for progress notes, 2–4.

Gunter, T. D., & Terry, N. P. (2005). The emergence of national electronic health record architectures in the United States and Australia: Models, costs, and questions. Journal of Medical Internet Research. https://doi.org/10.2196/jmir.7.1.e3

IHTSDO. (2014). SNOMED CT Starter Guide. Snomed, (July), 1–56. Retrieved from http://doc.ihtsdo.org/download/doc_StarterGuide_Current-en-GB_INT_20141202.pdf

Kocbek, P., Fijačko, N., Zorman, M., Kocbek, S., & Štiglic, G. (2012). Improving mortality prediction for intensive care unit patients using text mining techniques, 2–5.

Kukafka, R., Bales, M. E., Burkhardt, A., & Friedman, C. (2006). Human and automated coding of rehabilitation discharge summaries according to the International Classification of Functioning, Disability, and Health. Journal of the American Medical Informatics Association, 13(5), 508–515. https://doi.org/10.1197/jamia.M2107.Introduction

LePendu, P., Iyer, S. V., Bauer-Mehren, A., Harpaz, R., Mortensen, J. M., Podchiyska, T., … Shah, N. H. (2013). Pharmacovigilance using clinical notes. Clinical Pharmacology and Therapeutics, 93(6), 547–555. https://doi.org/10.1038/clpt.2013.47

Liddy, E. D. (2003). Natural Language Processing. Annual Review of Applied Linguistics, 37(1), 51–89. https://doi.org/10.1017/S0267190500001446

Loh, S., Wives, L. K., & de Oliveira, J. P. M. (2000). Concept-based knowledge discovery in texts extracted from the Web. ACM SIGKDD Explorations Newsletter, 2(1), 29–39. https://doi.org/10.1145/360402.360414

Manuel, J., & Gonçalves, D. C. (2012). João Manuel de Campos Gonçalves Utilização de técnicas de data mining na previsão do plano terapêutico em medicina intensiva João Manuel de Campos Gonçalves Utilização de técnicas de data mining na previsão do plano terapêutico em medicina intensiva.

Marshall, J. C., Bosco, L., Adhikari, N. K., Connolly, B., Diaz, J. V., Dorman, T., … Zimmerman, J. (2017). What is an intensive care unit? A report of the task force of the World Federation of Societies of Intensive and Critical Care Medicine. Journal of Critical Care, 37, 270–276. https://doi.org/10.1016/j.jcrc.2016.07.015

33

Maruiti, M. R., & Galdeano, L. E. (2007). Necessidades de familiares de pacientes internados em unidade de cuidados intensivos. Acta Paul Ista de Enfermagem, 20(1), 37–43. https://doi.org/10.1590/S0103-21002008000400016

Mettler, T., & Vimarlund, V. (2009). Understanding business intelligence in the context of healthcare. In Health Informatics Journal (Vol. 15, pp. 254–264). https://doi.org/10.1177/1460458209337446

Meystre, S., & Haug, P. (2006). Improving the sensitivity of the problem list in an intensive care unit by using natural language processing. AMIA ... Annual Symposium Proceedings / AMIA Symposium. AMIA Symposium, 2006(May 2014), 554–8. https://doi.org/85533 [pii]

Milovic, B., & Milovic, M. (2012). Prediction and Decision Making in Health Care using Data Mining. International Journal of Public Health Science (IJPHS), 1(2), 69–76. https://doi.org/10.11591/ijphs.v1i2.1380

Pedi, C. I. (2014). No Title, 2–3.

Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2007). A Design Science Research Methodology for Information Systems Research. Journal of Management Information Systems, 24(3)(3), 45–78. Retrieved from http://doi.org/10.2753/MIS0742-1222240302

Pinto, F., & Santos, M. F. (2005). Descoberta de Conhecimento em Bases de Dados. Datagadgets, 1, 53–63. Retrieved from http://www.fsd.edu.br/revistaeletronica/artigos/artigo9.pdf

Raja, U., Mitchell, T., Day, T., & Hardin, J. M. (2008). Text Mining in Healthcare, 22(3). Retrieved from http://www.himss.org/content/files/Raja.pdf

Sager, N., Lyman, M., Bucknall, C., Nhan, N., & Tick, L. J. (1994). Natural Language Processing and the Representation of Clinical Data. Journal of the American Medical Informatics Association, 1(2), 142–160. https://doi.org/10.1136/jamia.1994.95236145

Shrihari, C., & Desai, A. (2015). A Review on Knowledge Discovery using Text Classification Techniques in Text Mining. International Journal of Computer Applications, 111(6), 975–8887. Retrieved from http://research.ijcaonline.org/volume111/number6/pxc3900784.pdf

SNOMED. (2006). SNOMED International. Retrieved from https://www.snomed.org/news-articles/snomed-ct-compositional-grammar-specification-and-guide%0Ahttp://www.ihtsdo.org/about-ihtsdo/

Spyns, P. (1996). Natural language processing in medicine: An overview. Methods of Information in Medicine.

Srinivas, K., Rani, B., & Govrdhan, A. (2010). Applications of Data Mining Techniques in Healthcare and Prediction of Heart Attacks. International Journal on Computer Science and Engineering, 2(JANUARY 2010), 250–255. https://doi.org/10.1.1.163.4924

Tan, A.-H. (1999). Text Mining: The state of the art and the challenges. Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases, 8, 65–70. https://doi.org/10.1.1.38.7672

Top Mobile Trends. (2014). Mobile Tech Contributions to Healthcare and Patient Experiences. Retrieved from https://web.archive.org/web/20140530024928/http://topmobiletrends.com/mobile-technology-contributions-patient-experience-parmar/

Torii, M., Fan, J. wei, Yang, W. li, Lee, T., Wiley, M. T., Zisook, D. S., & Huang, Y. (2015). Risk factor detection for heart disease by applying text analytics in electronic medical records. Journal of

34

Biomedical Informatics, 58, S164–S170. https://doi.org/10.1016/j.jbi.2015.08.011

Truyens, M., & Van Eecke, P. (2014). Legal aspects of text mining. Computer Law & Security Review, 30(2), 153–170. https://doi.org/10.1016/j.clsr.2014.01.009

Wirth, R. (2000). CRISP-DM : Towards a Standard Process Model for Data Mining. Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, (24959), 29–39. https://doi.org/10.1.1.198.5133

Zhao, Y. (2013). Text Mining. R and Data Mining, 105–122. https://doi.org/10.1016/B978-0-12-396963-7.00010-6

Zhu, F., Patumcharoenpol, P., Zhang, C., Yang, Y., Chan, J., Meechai, A., … Shen, B. (2013). Biomedical text mining and its applications in cancer research. Journal of Biomedical Informatics, 46(2), 200–211. https://doi.org/10.1016/j.jbi.2012.10.007

Text Mining e Linguagem Natural para a deteção de padrões ... · publicação e número de...

Documents

Transcript of Text Mining e Linguagem Natural para a deteção de padrões ... · publicação e número de...