Uma Metodologia para Auxiliar no Processo de Construção de ... · Na primeira fase o auxílio do...

Uma Metodologia para Auxiliar no Processo de Construção deBases de Dados Estruturadas a partir de Laudos MédicosDaniel de Faveri Honorato1,4, Huei Diana Lee1,2, Maria Carolina Monard2,

Feng Chung Wu1,4, Renato Bobsin Machado1, Antonio Pietrobom Neto3,Carlos Andres Ferrero1

1Laboratório de Bioinformática (LABI)Universidade Estadual do Oeste do Paraná

Caixa Postal 961, 85870-900 – Foz do Iguaçu, PR, Brasil

2Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo, São Carlos, SP, Brasil

3Serviço de Endoscopia DigestivaHospital Municipal de Paulínia, Paulínia, SP, Brasil

4Instituto de Tecnologia em Automação e Informática (ITAI)Foz do Iguaçu, PR, Brasil

[email protected], [email protected], [email protected]

Abstract. Knowledge Discovery in Databases is a process that can give assis-tance during analysis and understanding of data stored in databases. In order toperform this process it is usually necessary to represent the data in the so calledattribute-value format. This work proposes a methodology to support, througha semi-automatic process, the construction of a database in the attribute-valueformat from patient information contained in medical findings which are des-cribed in natural language. It also presents a case study in which the proposedmethodology has been applied to a collection of High Digestive Endoscopies´medical findings.

Resumo. O processo de Descoberta de Conhecimento em Bases de Dados au-xilia na análise e compreensão dos dados armazenados em uma base de dados.Geralmente, para que esse processo possa ser realizado, é necessário que os da-dos estejam representados no formato atributo-valor. Neste trabalho é propostauma metodologia para auxiliar no processo de semi-automatização de constru-ção de uma base de dados nesse formato a partir de informações presentes emlaudos médicos descritas em linguagem natural. Também é apresentado um es-tudo de caso no qual essa metodologia foi utilizada para a construção de umabase de dados a partir de uma coleção de laudos com informações relacionadasà Endoscopia Digestiva Alta.

1. IntroduçãoNo cenário atual de desenvolvimento tecnológico, hospitais e clínicas médicas registramcada vez mais informações, usualmente pouco estruturadas, sobre pacientes e resulta-dos laboratoriais. Decorrente desse fato, torna-se difícil coletar, analisar e extrair in-formações adicionais que poderiam auxiliar, por exemplo, no diagnóstico de doenças.Desse modo, surge a necessidade da aplicação de métodos computacionais que pos-sam dar suporte a análise, de maneira mais completa, dessa grande quantidade de da-dos [Monard and Lee, 2003, Ferro et al., 2002, Lee et al., 2000]. Um dos processos que

V ENIA 593

pode auxiliar nessa tarefa é o processo de Descoberta de Conhecimento em Bases de Da-dos – DCBD1 [Fayyad et al., 1996]. Esse é um processo iterativo e interativo, o qual écomposto, basicamente, por três etapas: pré-processamento, mineração de dados e pós-processamento (Figura 1).

Figura 1: Processo de Descoberta de Conhecimento em Base de Dados[Baranauskas, 2001].

O pré-processamento é, freqüentemente, a etapa mais custosa em relação aotempo, consumindo em torno de 80% do tempo usado para realizar o processo. Ele temcomo objetivo realizar tarefas tais como preparação, redução e transformação dos dados[Pyle, 1999]. Ainda em pré-processamento, é necessário que os dados estejam representa-dos no formato apropriado para a próxima etapa, sendo um dos formatos mais comumenteutilizados o atributo-valor, no qual cada coluna representa um atributo (característica) ecada linha representa um exemplo do conjunto de dados. A etapa de mineração de dadostem como característica a configuração, escolha e execução de um ou mais algoritmos deextração de padrões sobre os dados selecionados na etapa de pré-processamento. Essaetapa é realizada de maneira iterativa, sendo necessário realizar diversos ajustes nos parâ-metros dos algoritmos de extração de padrões utilizados, com o objetivo de construir bonsmodelos relacionados aos padrões descobertos. Após a extração de padrões, inicia-se aetapa de pós-processamento, na qual os modelos construídos são avaliados e validados.Em cada uma dessas etapas é possível retornar à anterior. Depois de concluído o pro-cesso, o conhecimento extraído é disponibilizado ao usuário, o qual pode ser utilizadopara auxiliar o processo de tomada de decisões [Rezende et al., 2003].

Na área médica, é freqüente a apresentação de resultados de exames em lau-dos semi-estruturados descritos em linguagem natural. Para a construção de conjun-tos de dados no formato atributo-valor é necessário que a informação contida nesseslaudos seja interpretada e transformada para o formato atributo-valor. Esse processo,além de ser custoso, está sujeito à interpretação subjetiva de quem o está realizando[Ferro et al., 2002, Lee, 2000].

Desse modo, processos para auxiliar na semi-automatização dessa tarefa poderiamprover ganho em tempo, além da padronização no tratamento das informações contidasem laudos médicos. Neste trabalho é proposta uma metodologia para dar suporte à cons-trução de bases de dados estruturadas a partir de laudos médicos semi-estruturados descri-tos em linguagem natural. Nessa metodologia é construído um dicionário, com o auxíliode especialistas do domínio, a partir da identificação de padrões que ocorrem nos laudos.Esse dicionário é então utilizado para mapear os laudos médicos, por meio de casamentode padrões, para conjuntos de dados no formato atributo-valor. Um estudo de caso re-lacionado à aplicação dessa metodologia utilizando uma coleção de laudos médicos deEndoscopia Digestiva Alta – EDA – é também apresentado.

Este trabalho está organizado da seguinte maneira: na Seção 2 é descrita a meto-

1KDD - Knowledge Discovery in Databases

V ENIA 594

dologia proposta. Na Seção 3 é apresentado o estudo de caso e na Seção 4, consideraçõesfinais e trabalhos futuros são apresentados.

2. Metodologia Proposta

Figura 2: Metodologia proposta.

A metodologia proposta neste trabalhoé composta por duas fases ilustradas naFigura 2. A primeira fase caracteriza-se pela construção de um dicionário dodomínio do conhecimento considerado,o qual é empregado para o processa-mento de laudos desse mesmo domíniodurante a próxima fase. Na primeirafase o auxílio do especialista é de fun-damental importância para o sucesso daconstrução do dicionário. Na segundafase, esse dicionário é utilizado para atransformação de laudos médicos dessedomínio, por meio de casamento de pa-drões, para a construção da base de da-dos no formato apropriado para a mi-neração de dados. Ambas as fases sãodescritas a seguir.

2.1. Primeira Fase

A construção do dicionário é realizada por meio de quatro etapas iterativas e interativas:1-identificação de frases únicas, 2-construção de arquivo de padronização, 3-remoção destopwords e aplicação de stemming e 4-construção da base de conhecimento do dicionário.O objetivo das três primeiras etapas é auxiliar no processo de identificação dos padrõescontidos nos laudos para que esses possam ser mapeados para o dicionário.

Identificação de frases únicas: consiste na identificação de frases únicas existentes nacoleção de laudos utilizada para a construção da base de dados. Supõe-se que as informa-ções presentes nos laudos estejam mapeadas por meio de frases, onde cada frase refere-sea um diagnóstico, um prognóstico ou uma observação do médico sobre o exame realizado.O formato dos laudos médicos pode variar de acordo com a área de especialidade, porémmuitos desses documentos possuem esse formato. As frases contidas em cada laudo sãocoletadas em um único documento e organizadas em ordem alfabética. Esse processopermite reunir frases repetidas, uma vez que a mesma frase está freqüentemente presenteem diversos laudos. Essas frases repetidas são removidas e apenas um exemplar de cadafrase é mantido. Ao final dessa etapa, obtém-se como resultado um primeiro conjunto defrases únicas – CFU1 – relacionado à coleção de laudos.

Construção de arquivo de padronização: a freqüente utilização de sinônimos na des-crição de informações semelhantes presentes nos laudos médicos ou a presença de fra-ses que expressam informações de uma maneira diferente da que será utilizada pelodicionário, faz com que a padronização das informações contidas nos laudos seja ne-cessária. Após a obtenção de CFU1 é possível identificar parte das informações quepoderão ser padronizadas. A construção do arquivo de padronização é realizada à me-dida que informações que podem ser padronizadas são identificadas e continua até ofim da primeira etapa da metodologia proposta. A aplicação da padronização permi-tirá que as informações contidas nos laudos estejam mapeadas em um formato padrão

V ENIA 595

para ser utilizado pelo dicionário e pelo processo de preenchimento da base de dadosna segunda fase da metodologia proposta. Na etapa de construção do arquivo de pa-dronização, o auxílio de especialistas do domínio é de fundamental importância. NaFigura 3 são apresentados dois exemplos de padronização, no contexto deste trabalho.

Figura 3: Exemplo padronização.

Na segunda linha é apresen-tada uma palavra composta sem pa-dronização e a respectiva palavra pa-dronizada pelo especialista. Na ter-ceira linha é apresentada uma frase, aqual depois de padronizada transforma-se em outras duas frases.

Remoção de stopwords e aplicação de stemming: essa etapa tem como objetivo ajudar,por meio de remoção de palavras que não são de interesse para a aplicação e da remo-ção de redundância, no processo de identificação dos padrões utilizados pelos especialis-tas nos laudos. Para tanto, é realizada a remoção de stopwords sobre o CFU1, gerandoCFU2. Stopwords são palavras consideradas não relevantes para a análise do texto, taiscomo conjunções, artigos e preposições. A lista dessas palavras é construída por meiode interações com especialistas da área de domínio, nas quais, além das palavras usuaiscitadas, outras palavras do domínio podem ser acrescentadas sem que alterem, após aaplicação do algoritmo, o sentido do texto que está sendo analisado. Além da remoção destopwords, é também aplicado o processo de stemming que permite auxiliar na remoçãode redundância de CFU2. Esse processo consiste na identificação das diferentes inflexõesreferentes à mesma palavra e sua substituição por um radical comum [Sebastiani, 2002].Deve ser observado que o processo de stemming é também analisado pelo especialista,pois não há garantias de que palavras com stemmings iguais tenham o mesmo significado.

Assim, as variações morfológicas das palavras são removidas, sinalizando as fra-ses redundantes e, desse modo, possibilitando a redução da dimensão de CFU2. Tanto oCFU3, construído a partir de CFU2 após a aplicação de stemming, quanto o CFU2, sãoutilizados em dois momentos: para ajudar o especialista, durante a análise das frases úni-cas na identificação de padrões e para auxiliar na decisão de como as informações serãoorganizadas na construção do dicionário.

Definição da estrutura do dicionário: como mencionado anteriormente, o dicionárioauxilia na construção da base de dados, isto é, no preenchimento dos valores dos atributosda base de dados utilizando as informações contidas nos laudos. Desse modo, antes deiniciar a construção do dicionário, é necessário o especialista definir quais atributos vãocompor a base de dados. Após identificados os atributos, é criada a estrutura da basede dados que receberá informações a partir do processamento dos laudos utilizando odicionário.

Figura 4: Local e característica.

Assim, a construção do dicio-nário é realizada, conjuntamente como especialista do domínio, com basenas informações existentes em CFU2e CFU3 e no arquivo de padronização.Laudos médicos de diversas especiali-dades possuem informações organiza-das na forma de estrutura anatômica ecaracterística associada a essa estrutura. Desse modo, na metodologia proposta a estru-tura base do dicionário é composta por locais e características. Como pode ser observadoem um exemplo dentro do contexto deste trabalho (Figura 4), no momento da confecção

V ENIA 596

do laudo pelo especialista, mapeia-se primeiramente o local (terço distal) que está sendoexaminado pela Endoscopia Digestiva Alta e, na seqüência, a característica macroscópicadesse local (com erosões). Esse procedimento é repetido até que todas as informaçõesrelacionadas ao exame tenham sido preenchidas no laudo.

Figura 5: Estrutura base do dicionário.

Na Figura 5 é ilustrada a estrutura base do dicionário. Conforme é apresentado nafigura, a lista de locais armazena o nome de um determinado local e cada local possui umalista de uma ou mais características associadas. A lista de características armazena, alémdo nome da característica, o número correspondente à posição do atributo no registro nabase de dados – RBD – e o valor que deverá ser armazenado no atributo correspondentedo RBD.

2.2. Segunda Fase

O objetivo dessa fase é processar a coleção de laudos, com base nas informações mapea-das na estrutura do dicionário (locais e características) para preencher o valor dos atributospresentes na estrutura do RBD (Figura 6).

Figura 6: Construção da base de dados.

Cada laudo corresponde a um exemplo na base de dados no formato atributo-valor.O processo de armazenamento – PA – recebe como entrada um laudo, no qual previamentefoi aplicado o processo de padronização, e uma frase é extraída. A execução do PA é rea-lizada por meio de ciclos de interações de pesquisa entre a estrutura do dicionário e afrase extraída do laudo. Primeiramente, é verificada a existência do primeiro local da listade locais do dicionário na frase extraída. Se estiver presente, cada uma das característicasassociadas a esse local é pesquisada na frase em análise e as informações associadas àscaracterísticas encontradas são armazenadas no RBD, por meio da verificação na estruturado dicionário da posição do atributo no qual deverá ser armazenado. O mesmo procedi-mento é realizado novamente para todos os locais e suas respectivas características atéque todos os locais descritos no dicionário tenham sido pesquisados na frase corrente.Esse processo é repetido até que todas as frases do laudo tenham sido completamenteprocessadas. Ao final, o RBD, preenchido com as informações desse laudo, é inserido nabase de dados e uma nova iteração é iniciada com o processamento do próximo laudo.

V ENIA 597

3. Aplicação da metodologia proposta aos laudos de Endoscopia DigestivaAlta

Atualmente, as doenças pépticas gastroduodenais representam uma das entidades patoló-gicas de maior incidência na população, despertando cada vez mais interesse na pesquisadessa área [Pellicano et al., 2004] .

Neste estudo de caso2 é apresentada a construção de uma base de dados a partir deuma coleção de 100 laudos, na qual não consta a identificação dos pacientes. Esses laudosarmazenam informações relacionadas ao exame de Endoscopia Digestiva Alta – EDA –realizados no período de março a novembro de 2001 no Serviço de Endoscopia Diges-tiva do Hospital Municipal de Paulínia. Os laudos armazenam informações descritas emlinguagem natural relacionadas ao esôfago, estômago, duodeno e conclusões do exame,conforme ilustra o laudo apresentado na Figura 7. Neste estudo foram consideradas asinformações referentes ao esôfago. A partir dessa coleção de laudos, foi construída umabase de dados com informações no formato atributo-valor, utilizando-se a metodologiaproposta nas seções anteriores.

Figura 7: Exemplo de laudo.

Primeiramente realizou-se aidentificação de frases únicas existentesna coleção de laudos, a qual resultouno CFU1 preenchido com apenas umexemplar de cada frase totalizando23 frases. Em seguida foi iniciada aconstrução do arquivo de padronização,utilizando como base as informaçõescontidas no CFU1. Os especialistasdo domínio atuaram nesta etapa auxi-liando na padronização das palavras,tais como mapeamento de sinônimosem uma palavra chave, bem comoo mapeamento de algumas frases doCFU1 que não encontravam-se em umformato adequado para serem utilizadas na construção do dicionário. Na Figura 8 éilustrado um exemplo de aplicação do algoritmo de padronização realizado neste trabalhocom base nas informações preenchidas no arquivo de padronização.

Figura 8: Realização de padronização sobre um laudo.

No exemplo, é apresentado um trecho do laudo contendo as informações associa-2Neste trabalho, os algoritmos foram implementados utilizando o paradigma de orientação a objetos em

Perl [Schwartz et al., 1997]

V ENIA 598

das ao esôfago e o resultado após aplicação da padronização. As frases transformadas peloprocesso de padronização estão em grafia itálica. No resultado da padronização, o laudoapresenta as informações mapeadas no formato que será utilizado pelo dicionário, isto é,consistindo de locais e características, os quais estão sublinhados e em negrito, respecti-vamente. Observa-se que a primeira frase do laudo sem padronização, após a aplicaçãodo algoritmo, é transformada em 12 frases, de acordo com as informações preenchidas noarquivo de padronização.

Depois da construção de uma primeira versão do arquivo de padronização, foirealizada a remoção de stopwords, juntamente com o especialista, o qual indicou, além daspalavras usuais como preposições, artigos e conjunções, algumas palavras do domínio quepoderiam ser adicionadas à lista de stopwords mantendo o significado do texto presenteno laudo, de acordo com os objetivos deste trabalho. Após, foi realizado o processo destemming sobre o CFU2, o qual possibilitou que fossem visibilizadas frases redundantesque poderiam ser removidas, obtendo-se o CFU3 com 18 frases. O algoritmo de stemmingutilizado neste trabalho é baseado no algoritmo de Porter adaptado para língua portuguesa[Orengo and Huyck, 2001]. Na Figura 9 é apresentado um trecho do CFU1 e o resultadoapós a remoção de stopwords e a aplicação de stemming.

Figura 9: Subconjunto do CFU1 original e após a remoção de stopwords e daaplicação de stemming.

Na figura apresentada, as stopwords estão sublinhadas. Como pode ser observado,após a aplicação desses dois processos, a segunda e a terceira frase tornaram-se similares,e um exemplar pode ser removido do CFU2. Uma avaliação de CFU1, antes e depois daremoção de stopwords e da aplicação de stemming, mostrou que houve uma redução de 23frases nesse conjunto inicial para 18 frases após a realização dessas tarefas, representandoum redução de 21,7%. A existência de 23 frases diferentes em um conjunto de 100 laudosmostra que há uma uniformidade muito grande na maneira como os laudos são descritospelos especialistas, especialmente para o domínio em questão. Esse fato é confirmadodepois da realização das tarefas citadas anteriormente, na qual apenas cinco frases foramconsideradas redundantes. Posteriormente, o arquivo de padronização foi incrementadocom novas informações obtidas após essa etapa. Com o auxílio dos especialistas e a utili-zação de CFU2 e CFU3, foi realizada a definição de quais atributos fariam parte da basede dados e que locais e características estariam presentes na estrutura do dicionário. Foidecidido que as informações referentes ao esôfago poderiam ser mapeadas por 16 atribu-tos. Com o dicionário estruturado, iniciou-se a segunda fase (Seção 2.2) da metodologiaproposta: a construção da base de dados, no formato atributo-valor, por meio do mapea-mento das informações contidas nos laudos para os registros da base dados. É importantelembrar que cada laudo correspondeu a um registro na base de dados.

Uma análise dos resultados após o processamento dos laudos para a construção dabase de dados, mostrou que do total de 100 laudos mapeados em 100 registros, apenas 14

V ENIA 599

deles não tiveram todos os atributos preenchidos. A avaliação dos laudos relacionados aesses 14 registros, juntamente com os especialistas, mostrou que as informações que nãohaviam sido preenchidas também não tinham sido informadas nos laudos. No contextodeste trabalho, o resultado foi considerado muito bom. Após análise junto ao especi-alista do domínio, constatou-se que a metodologia desenvolvida atendeu aos requisitosestabelecidos.

4. Considerações FinaisNeste trabalho foi apresentada uma metodologia para a semi-automatização do processode mapeamento de laudos médicos em bases de dados apropriadas para a extração auto-mática de conhecimento. Foi apresentado também um estudo de caso aplicando a meto-dologia desenvolvida a uma coleção de laudos de exames de Endoscopia Digestiva Alta.Depois de construída a base de dados, os resultados foram analisados e a metodologiaconsiderada adequada de acordo com o objetivo proposto.

A construção do dicionário proporcionou uma diminuição do custo de tempo u-sado na fase de preparação dos dados, uma vez que, manualmente, seria necessário ummaior envolvimento do especialista, e a padronização do mapeamento dos laudos paraa base de dados estaria sujeita a uma excessiva interpretação subjetiva. Além disso, ametodologia proposta poderá ser utilizada na construção de outros dicionários para o ma-peamento de informações em outras bases de dados. Outro aspecto importante é que, apósa construção do dicionário, novos laudos podem ser facilmente mapeados para a base dedados no formato atributo-valor.

Como pode ser observado, a metodologia proposta pode ser utilizada em laudosmédicos de outras especialidades. Como trabalho futuro, essa metodologia será utilizadapara extrair informações relacionadas ao estômago e ao duodeno, as quais estão contidasnos laudos utilizados neste trabalho. Em outro trabalho futuro, pretende-se aplicar a me-todologia proposta a laudos de processamento de sêmen, nos quais temos trabalhado naextração de conhecimento com auxílio de especialistas do domínio.

Agradecimentos: Este trabalho está inserido no projeto de Análise Inteligente de Dadosaplicada a Doenças Pépticas, parcialmente financiado pelo Instituto de Tecnologia emAutomação e Informática – ITAI – e pelo Parque Tecnológico de Itaipu – PTI, em de-senvolvimento no Laboratório de Bioinformática da Universidade Estadual do Oeste doParaná – UNIOESTE – em parceria com o Hospital Municipal de Paulínia e o Laboratóriode Inteligência Computacional do ICMC da Universidade de São Paulo - São Carlos.

ReferênciasBaranauskas, J. A. (2001). Extração automática de conhecimento por múltiplos indutores.

Tese de Doutorado, ICMC-USP.

Fayyad, U. M., Piatetsky-Shapiro, G., and Smyth, P. (1996). From data mining to kno-wledge discovery in databases. AI Magazine, vol. 17:37–54.

Ferro, M., Lee, H. D., and Esteves, S. C. (2002). Intelligent data analysis: A case studyof the diagnostic sperm processing. In Proceedings of the ACIS - CSITeA02, pages352–356, Foz do Iguaçu, PR, Brasil.

Lee, H. D. (2000). Seleção e construção de features relevantes para o aprendizado demáquina. Dissertação de Mestrado, ICMC-USP.

Lee, H. D., Monard, M. C., and Esteves, S. C. (2000). Indução construtiva guiada peloconhecimento: um estudo de caso do processamento de sêmen diagnóstico. In Open

V ENIA 600

Discussion Track Proceedings of the IBERAMIA/SBIA, pages 157–166, Atibaia, SP,Brasil.

Monard, M. C. and Lee, H. D. (2003). Processamento de Sêmen Diagnóstico, pages461–463. Volume 1 of [Rezende, 2003]. Parte II, Aplicação V.

Orengo, M. and Huyck, C. (2001). A stemming algorithm for the portuguese language.In: Proceedings of SPIRE 2001. IEEE Computer Society.

Pellicano, R., Fagoonee, S., Palestro, G., Rizzetto, M., Figura, N., and Ponzetto, A.(2004). The diagnosis of Helicobacter pylori infection: guidelines from the maastricht2-2000 consensus report. Minerva Gastroenterol Dietol, vol. 50(2):125–33.

Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann, Califórnia, USA.

Rezende, S. O. (2003). Sistemas Inteligentes: Fundamentos e Aplicações. Editora Ma-nole, Barueri, SP, Brasil.

Rezende, S. O., Pugliesi, J. B., Melanda, E. A., and de Paula, M. F. (2003). Mineraçãode dados, chapter 12, pages 307–335. In [Rezende, 2003].

Schwartz, R., Christiansen, T., and Pyle, L. W. (1997). Learning Perl. Califórnia, USA,2 edition.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Compu-ting Surveys, 34(1):1–47.

V ENIA 601

Uma Metodologia para Auxiliar no Processo de Construção de ... · Na primeira fase o auxílio do...

Documents

Transcript of Uma Metodologia para Auxiliar no Processo de Construção de ... · Na primeira fase o auxílio do...