AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE …Em geral, um sistema completo de processamento...

AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE IMAGENS DE DOCUMENTOS ANTIGOS

Carlos Alexandre Barros de Mello Alberto Nicodemus Gomes Lopes Filho

Edward Roe Everton Barbosa Lacerda

Rafael Galvão de Mesquita RESUMO A digitalização de documentos surge como uma alternativa para questões associadas com armazenamento e divulgação de conteúdo. No entanto, quando se trata de documentos antigos, o documento original em meio físico pode estar sujeito a diversos tipos de degradação. Nesses casos, a imagem digital pode ser tratada, permitindo uma melhor qualidade visual do documento ou até mesmo uma melhor resposta de etapas como o reconhecimento automático do conteúdo de um documento. Este artigo tem como objetivo apresentar os avanços na área de processamento digital de imagens de documentos antigos em suas principais atuações, incluindo: binarização, segmentação (em suas diversas formas) e restauração. Diversos tipos diferentes de documentos antigos são apresentados assim como as formas de tratamento desses documentos para diversas aplicações, usando algoritmos recentes das áreas de processamento de imagens e visão computacional. Os resultados da aplicação de tais técnicas mostra a eficiência desses algoritmos no tratamento desse tipo de imagem. Este trabalho é uma parceria entre dois grupos de pesquisa da Universidade Federal de Pernambuco. PALAVRAS-CHAVE: Processamento de Imagens. Documentos Antigos. Binarização. Segmentação. ABSTRACT The documents scanning comes as a solution to issues related to storage and broadcasting of their contents. However, when it comes to old documents, the original document in the physical environment may be subject to various types of degradation. In these cases, the digital image can be enhanced, allowing a better visual quality of the documents or even so a betterresponse steps such as automatic recognition of the content of document’s contents. This paper aims to present the advances in the area of digital processing of old documents images in its main operations, including: binarization, segmentation (in its various forms) and restoration. Several different kinds of old documents are presented, as well as ways of treating these documents for various applications,using recent algorithms from the fields of image processing and computer vision. The results of application of such techniques show the efficiency of this algorithms in the treatmentof this kind of image. This paper is a partnership between two research groups of the Universidade Federal de Pernambuco. Keywords: Image processing. Old documents. Binarization. Segmentation. Restoration.

1. Introdução

Segundo registros [22], os Sumerianos começaram a armazenar informação escrita a cerca de 6.000

anos usando tábuas de argila para descrever transações comerciais. Desde então, as formas de

armazenamento de conteúdo escrito foram se diversificando e, da mesma forma, foi aumentando a

quantidade de informação a ser armazenada, a facilidade nesse armazenamento e a quantidade de

espaço físico necessário para preservar esses meios. Estima-se que a quantidade de documentos em

papel no mundo enfrentou um crescimento exponencial. Esse crescimento vem diminuindo com o

avanço de equipamentos digitais portáteis para leitura e até escrita, mas ainda tem-se com o grande

problema da preservação do que já está armazenado em papel pela humanidade.

O uso de computadores digitais vem como uma solução para diversos problemas associados ao trabalho com papel: (i) armazenamento: um único disco DVD (Digital Versatile Disc) pode armazenar o conteúdo de milhares de livros, diminuindo o espaço físico necessário para armazená-los; (ii) facilidade de divulgação dos conteúdos através da Internet; (iii) facilidade de reprodução (ou duplicação) através da cópia de um arquivo; (iv) possibilidade de verificação de veracidade (uso de marcas d’água); (v) facilidade de busca por palavras-chave (às vezes, feita na própria imagem do documento). Todos esses processos, porém, dependem da conversão do livro do meio físico para o meio digital. Isso é feito por um processo conhecido como digitalização feito através de scanners ou máquinas fotográficas digitais. Com o avanço da tecnologia, esses equipamentos estão cada dia mais acessíveis às pessoas, facilitando a criação de cópias digitais de diversos tipos de documentos. Da mesma forma, com a versão digital de documentos na forma de imagem, é possível melhorar alguns aspectos visuais destes, tornando seus conteúdos mais facilmente reconhecidos.

Em geral, um sistema completo de processamento automático de imagens de documentos

possui as etapas apresentadas na Figura 1 [26].

Figura 1. Esquema de um sistema genérico de processamento de imagens de documentos.

A primeira etapa é a aquisição da imagem que é conseguida através do processo de

digitalização [14]. São definidas ai a resolução espacial da imagem (medida, normalmente, em dpi –

dots per inch) e a resolução de cor. A resolução espacial define as dimensões (número de linhas e

número de colunas) da matriz que representará a imagem em formato digital, enquanto a resolução

de cor define a quantidade máxima de cores que poderão ser usadas para representar a imagem. Em

geral, para fins de preservação, usa-se o padrão RGB (Red, Green e Blue) com 24 bits para a

resolução de cor, podendo representar cerca de 16 milhões de cores. Para fins de leitura de um

documento no computador, uma resolução espacial de 300 dpi gera uma imagem de boa qualidade

(para documentos originais em folhas de papel ofício ou A4). Para fins de preservação, uma maior

resolução (como 600 dpi) deve ser empregada.

Após a aquisição, as próximas etapas são: binarização (thresholding, em inglês) [14][42],

que converte a imagem para preto-e-branco; o pré-processamento que cuida de fases como remoção

de ruído, estimativa e correção de inclinação do documento ou do texto e segmentação (que se

divide em segmentação de documento e segmentação de texto).

Após a segmentação, dependendo da aplicação, os elementos passam por uma fase de

reconhecimento. Nesse caso, o termo “elemento” pode referenciar uma palavra inteira ou um

caractere apenas. O reconhecimento é feito tomando como base características extraídas dos objetos

a serem reconhecidos (palavras ou caracteres). Essas características servem como entrada para

sistemas conhecidos como classificadores que identificam a que padrão aquelas características

pertencem. Tais sistemas são bastante complexos devido à grande variedade de grafias e caracteres

existentes, dificultando a escolha das características necessárias para o reconhecimento. Este artigo

não trata dessa etapa por não ser relacionada com processamento de imagens, seu foco principal.

Outros tipos de aplicações podem requerer etapas diferentes da sequência apresentada na

Figura 1. Notadamente, por exemplo, a restauração de cores de um documento lida, em geral,

apenas com segmentação e com o uso de sistemas de cores.

O processamento de imagens de documentos pode ser o núcleo de aplicações avançadas

como: em bibliotecas digitais (como o CLIO [8]), as imagens podem ser melhoradas ou convertidas

para diferentes formatos; Recuperação de Imagens de Documentos (do inglês Document Image

Retrieval – DIR) é outra área que depende da aplicação de técnicas de processamento de imagens

(como para identificar conjuntos de documentos que contenham imagens [7]). A Figura 2 traz

exemplos de diversos tipos de documentos antigos com as mais diversas características.

Na próxima seção, são detalhados os avanços alcançados nos principais elementos

associados ao processamento automático de documentos antigos, objetivo principal deste artigo.

Trata-se apenas de técnicas para processamento das imagens digitais, deixando de fora, assim, o

processo de digitalização em si. Na Seção 3, são apresentados os resultados obtidos na aplicação de

algumas das técnicas descritas e uma discussão sobre cada tópico. A Seção 4 conclui o artigo e

apresenta alguns desafios futuros.

2. Processamento de Imagens de Documentos Antigos

Como descrito na Seção anterior, há vários processos que podem ser aplicados ao tratamento das

imagens de documentos. Nesta Seção, destacam-se alguns desses processos quando aplicados a

documentos antigos, seus problemas que tornam essa classe única para pesquisa na área de

documentos e recentes soluções.

Figura 2. Exemplos de imagens de documentos antigos.

2.1 Binarização

Como mencionado anteriormente, a binarização corresponde à conversão de uma imagem para

apenas duas cores. No caso, para imagens de documentos, essa conversão gera uma imagem com

tons brancos (relacionados com o papel) ou pretos (relacionados com a tinta). Isso em geral é feito

definindo um ponto de corte nas cores o qual transforma as cores com tons menores do que esse

valor em preto e as cores com tons maiores que esse valor em branco. Documentos atuais,

impressos em impressoras (laser ou jato de tinta) possuem uma nitidez que permite separar

facilmente o que é tinta do que é papel. Ao sofrer degradações, porém, tanto o papel pode escurecer

e assumir tonalidades diferentes das originais, às vezes, próximas às da tinta, quanto a tinta pode

clarear e se confundir com o papel. Outro caso de grande complexidade é quando o documento é

escrito nos dois lados do papel e a tinta de um lado passa para o outro (efeito conhecido como

interferência frente-verso). A Figura 3 apresenta alguns exemplos de documentos com degradação e

o resultado que uma binarização inapropriada pode gerar.

Figura 3. Imagens de documentos degradados e o resultado da sua conversão para preto e branco.

O tratamento de forma automática de cada caso desses casos é bastante complexo e ainda

hoje não há uma solução definitiva. A prova disso é uma competição internacional anual sobre

binarização de imagens de documentos (DIBCO - Document Image Binarization Contest) [34]. Há

diversas propriedades da imagem que podem ser usadas para definir o correto ponto de corte. Da

mesma forma, há classes diferentes de algoritmos de binarização que podem ser empregados

dependendo do problema. Especificamente, os algoritmos podem ser classificados como globais

(quando um ponto de corte único é definido para toda a imagem) ou locais (quando a imagem é

dividida em regiões e um ponto de corte é escolhido para cada região) [42].

Alguns dos algoritmos de aplicação global mais antigos são: o tom de cinza médio (que

define como ponto de corte o ponto médio dos valores de luminância presentes na imagem), o

algoritmo de porcentagem de preto (cujo ponto de corte é calculado de tal forma que a imagem final

tenha uma porcentagem pré-definida de tons pretos apenas) e o algoritmo de dois picos (o qual

calcula o ponto de corte como o ponto entre os dois tons mais presentes na imagem) [32]. Outro

algoritmo de aplicação global bastante conhecido é o método de Otsu [30]. Esse algoritmo procurar

separar duas classes em um conjunto (ele pode ser aplicado a diferentes problemas, não apenas

binarização), calculando o valor que maximize a separação entre classes. Outra classe corresponde

a algoritmos baseados em Entropia [43] como: Pun [35], Kapur [17] e Johannsen [16]. Uma

variação no conceito de entropia é a entropia de Tsallis [46] também usada em binarização [53].

Como exemplos de algoritmos de aplicação local, pode-se citar os métodos de Niblack [28],

White [49] e Bernsen [5]. Atuando de maneira semelhante, esses algoritmos dividem a imagem em

regiões retangulares com dimensões pré-definidas e definem um ponto de corte para cada região

através de alguma medida (por exemplo, o algoritmo de Niblack usa os valores de média e desvio

padrão dos tons presentes em cada região).

Todos esses algoritmos sumarizados são de uso geral, podendo ser aplicados a imagens de

documentos. No entanto, dada a importância do tema, algoritmos específicos para documentos

surgiram, alcançando melhores resultados do que esses universais. O método proposto em [45] é

dividido em quatro fases: criação da imagem de contraste, detecção de bordas, estimativa do ponto

de corte local e pós-processamento. O primeiro passo do método considera que há uma diferença

entre os tons de tinta e os do papel. Assim, uma imagem de contraste é criada para retratar essas

diferenças entre os tons. Para conseguir representar melhor as diferenças na imagem, o contraste é

calculado em uma janela de 3x3 pixels. Essa imagem contém em maior destaque as bordas do texto.

Com isso, um detector de bordas (Canny [32]) é utilizado para intensificar essas regiões. A largura

estimada do traço é usada para definir as dimensões de uma nova janela para uma binarização local.

Nas janelas, cada pixel é convertido para branco (papel), se sua cor for menor que a média dos tons

dos pixels na janela adicionada à metade do desvio padrão desses mesmos tons. Caso contrário, o

pixel é convertido para preto (tinta). O pós-processamento é a etapa final, eliminando pixels de tinta

que não estejam conectados com outros; pixels também podem mudar de classe (de papel para tinta

ou vice-versa) para melhorar a conectividade do traçado.

Uma proposta recente usa conceitos de percepção visual para remover o background de um

documento e assim tornar mais simples o processo de binarização [27]. Esse método é adequado

para lidar com imagens onde há grande variação nos tons do papel como em casos onde uma

degradação ocorre em maior intensidade em uma área do que em outra ou quando houve sensível

diferença de iluminação na digitalização da imagem. Nessa técnica, a ideia de percepção de objetos

à distância é utilizada [51]. Quando uma pessoa se afasta de um objeto, deixa de perceber seus

detalhes, embora as cores principais ainda sejam visíveis. No caso de documentos, os detalhes

seriam o texto (a tinta). Assim, ao se afastar de um documento, a tinta tende a não ser mais

percebida, enquanto as cores do papel permanecem visíveis. Com o conhecimento das cores que

formam o padrão do papel, pode-se subtraí-las da imagem original, recuperando os tons da tinta.

2.2 Pré-Processamento

Com a imagem em preto-e-branco adquirida pela etapa anterior, alguns processos se tornam mais

simples. Um deles é a remoção de ruídos como já foi explicada anteriormente. Outro tratamento

necessário é a estimativa e correção de inclinação em documentos. A inclinação pode estar presente

em todo o documento devido a algum problema de digitalização (Figura 4a) ou em cada linha de

texto, sendo comum a documentos manuscritos em papel sem linha de pauta (Figura 4b).

Figura 4. (a) Exemplo de documento onde a inclinação é a mesma para todo o documento, e (b)

documento onde a inclinação está nas linhas de texto.

A etapa de estimativa de inclinação é fundamental para uma eficiente segmentação de linhas

e texto (próxima etapa de um sistema de processamento automático de imagens de documentos). A

estimativa de inclinação de um documento completo como o apresentado na Figura 4a é um

problema de fácil solução, podendo-se utilizar a transformada de Hough [14] que faz o mapeamento

da imagem de coordenadas cartesianas para coordenadas polares.

Existem diversos algoritmos para estimativa de inclinação de linhas de texto como no

documento apresentado na Figura 4b. Viskew é um método de estimativa de múltiplas inclinações

em linhas de texto apresentado em [25]. O método é dividido em cinco fases: criação de um mapa

de transição para eliminar detalhes do texto, binarização desse mapa, suavização da imagem

binarizada, esqueletização para obter apenas as linhas centrais das regiões de texto, remoção de

pequenos esqueletos (provavelmente, provenientes de ruídos) e aproximação de cada esqueleto para

uma reta, calculando sua inclinação. A Figura 5 apresenta uma imagem de exemplo e o resultado de

cada uma dessas etapas até chegar à imagem final.

Figura 5. (a) Documento criado artificialmente com duas linhas de texto com diferentes inclinações,

e resultado após cada etapa de aplicação do algoritmo Viskew [25]: (b) mapa de transição, (c)

binarização do mapa, (d) suavização da imagem binarizada, (e) esqueletização, (f) remoção de

pequenos esqueletos, (g) estimativa do ângulo de cada esqueleto e (h) correção da inclinação.

Após a estimativa dos ângulos de inclinação (tanto para uma inclinação global apenas

quanto para múltiplas inclinações), é preciso fazer a correção desses objetos (imagem completa ou

linha de texto). A rotação por um ângulo definido é uma operação algébrica clássica que pode ser

adaptada para imagens como apresentado por Gonzalez e Woods [14]. No entanto, esse método tem

alto custo computacional e gera falhas na imagem final. Um algoritmo mais eficiente é apresentado

em [3]. O algoritmo evita o surgimento de falhas devido à rotação e quebra de traçados, sendo

aplicado a imagens em preto-e-branco apenas. O primeiro passo é a detecção de bordas dos

caracteres. O menor conjunto de pontos que representa os caracteres é identificado. Esses pontos

são transformados em nós de um grafo e as arestas são vetores. Nós irrelevantes são eliminados. Por

exemplo, se existem três nós colineares em uma aresta reta, o nó central pode ser removido. Uma

comparação é feita entre os pixels que formam os caracteres originais e os pontos das arestas de

forma a legendar os primeiros de acordo com os últimos. Todos os pontos críticos são então

rotacionados. As legendas atribuídas no passo anterior são novamente comparadas com os vetores

rotacionados e mapeados de forma a gerar a imagem sem rotação.

2.3 Segmentação

Segmentação é um processo que tem diferentes interpretações e aplicações dependendo de quê

objeto se deseja obter de uma imagem. Segmentação é a divisão de uma imagem em seus objetos

constituintes. No caso de documentos, segmentação aparece em duas etapas: (i) segmentação de

documentos, onde a imagem é segmentada em regiões de texto e regiões de imagens (ou gráficos) e

(ii) segmentação de texto, onde as regiões definidas como texto são separadas em linhas de texto,

essas linhas em palavras e essas palavras em caracteres. Esses processos são detalhados a seguir.

2.3.1 Segmentação de Documento

Uma primeira etapa de segmentação é a segmentação de documento. Nesse caso, a imagem do

documento tem seus objetos classificados entre texto ou figura (ou gráfico) para que as etapas

posteriores não sejam aplicadas em regiões de imagem. Em geral, há métodos simples que podem

ser aplicados nessa etapa, principalmente, quando se lida com documentos com diagramação estilo

Manhattan (ou seja, quando não há sobreposição dos objetos). Em [44], um método eficiente e

eficaz para segmentação de documento é proposto baseado em 7 passos: (i) binarização (o

algoritmo é aplicado apenas a imagens em preto-e-branco), (ii) a imagem complementar é formada

(onde os tons pretos são convertidos para branco e vice-versa), (iii) erosão morfológica para

eliminar os elementos de texto, (iv) reconstrução de figuras (já que alguns elementos podem ser

removidos pela erosão), (v) fechamento morfológico (novamente buscando recuperar elementos

perdidos da figura), (vi) interseção entre as imagens geradas nos passos (ii) e (v) e, por último, (vii)

a imagem final é a diferença entre as imagens (vi) e (ii). Após isso, a imagem pode ser

complementada novamente apenas para retornar ao padrão de papel branco e tinta preta. Esse

método já consegue eliminar a maior parte dos elementos não-textuais do documento.

2.3.2 Segmentação de Linhas de Texto e Palavras

A segmentação de texto pode ser decomposta em dois módulos, a segmentação de linhas e a

segmentação de palavras. Esta tarefa é de grande importância quando se deseja executar um

reconhecimento óptico de caracteres, ou OCR [33], na imagem do documento. O OCR irá receber

como entrada a imagem do documento e irá gerar um documento de texto com o conteúdo de

escrita presente na imagem. Para tal, é necessário que se tenha uma clara definição de cada uma das

palavras encontradas na imagem através da segmentação de linhas e palavras.

A segmentação de linhas faz a identificação das linhas de texto encontradas no documento.

Se forem considerados documentos tipografados, a segmentação de linhas tem solução simples já

que as linhas possuem um espaçamento constante entre elas. Pode ser aplicado um processo

chamado de projeção horizontal [21] que faz a contagem de quantos pontos de tinta existem em

cada linha da imagem, caso a contagem exceda um limiar pré-definido, esta linha é considerada

como uma linha de texto. No entanto, para documentos manuscritos, a complexidade é mais elevada

[21], já que as linhas de texto podem ter angulações e por isso não corresponder fielmente a uma

linha reta. Outro problema das imagens manuscritas é a proximidade das linhas de texto, o que pode

levar a duas ou mais linhas de texto como sendo consideradas como uma só. Existem diversos

métodos disponíveis na literatura que atacam o problema da segmentação de linhas em documentos

manuscritos das mais diversas formas [23][37][41][31]. Um método bastante inovador foi proposto

em [4]. Nele, o algoritmo simula um fluxo hipotético de água sendo derramado pelo papel da direita

para a esquerda e vice versa. As letras funcionam como barreiras para cada um desses fluxos,

gerando duas imagens segmentadas. A união dessas imagens gera a imagem segmentada final.

A segmentação de palavras faz a identificação de cada uma das palavras encontradas no

texto, identificando-as para o subsequente uso do OCR. Vários métodos existentes de segmentação

de palavras necessitam da prévia segmentação de linhas de texto [23][31][41], fazendo assim com

que estes dois processos sejam comumente tratados em conjunto. Assim como a segmentação de

linhas, a segmentação de palavras em textos manuscritos apresenta uma série de desafios, como a

proximidade entre palavras, acentos, vírgulas e pontos. A Figura 6 apresenta um exemplo de um

documento digitalizado em que o processo de segmentação de texto foi aplicado. Cada linha

reconhecida recebeu uma cor diferente e cada palavra foi destacada por um quadrado delimitador.

Figura 6. Resultado da segmentação de linhas e palavras em uma imagem de um documento manuscrito.

2.3.3 Segmentação de Caracteres

A segmentação de caracteres tem como objetivo processar uma imagem de entrada, de forma a

separar os caracteres, construindo imagens individuais para cada caractere. Para documentos

tipografados, onde há padrões em relação ao tamanho e forma dos caracteres a segmentação se

torna uma tarefa relativamente simples. Já no caso de documentos manuscritos, aparecem

dificuldades como, caracteres ligados, inclinação do texto, variações do mesmo caractere, não

uniformidade nos espaçamentos entre palavras e letras. Essas questões tornam a segmentação de

manuscritos um dos grandes desafios em sistemas de reconhecimento de caracteres.

Nesse contexto, houve e há grandes esforços e atividades na área, o que propiciou o

desenvolvimento de vários algoritmos [18][38][47][48] e artigos de revisão [6][9][13][24][39] para

a segmentação de caracteres. Devido às dificuldades envolvidas nesse tipo de segmentação, também

se propõem métodos específicos para a segmentação de dígitos manuscritos [1][10][11][19].

Um método clássico de segmentação de caracteres é o drop-fall [10] que consiste em

simular a queda de uma gota d’água pelo contorno dos caracteres. Um conjunto de regras pré-

definidas determinam o caminhamento dessa gota, o qual acaba por corresponder ao caminho de

separação entre os dígitos.

Em [19], apresentou-se um algoritmo de segmentação de dígitos baseado em Mapas Auto-

Organizáveis (SOM). A ideia reside em mapear cada região de toque, selecionando pontos

característicos na imagem por meio da esqueletização dos traços e do agrupamento pela rede SOM.

Dessa forma, encontram-se os pontos de segmentação e se define a separação entre os dígitos.

De forma mais detalhada, calcula-se o esqueleto da imagem e se buscam os seus pontos de

ramificação (possíveis pontos de segmentação). Depois, faz-se uma seleção desses pontos,

primeiramente definindo uma região de interesse concentrada no centro dos dígitos, visto que a

conexão entre os mesmos tende a estar na região central entre eles. O processo mais elaborado para

a seleção de pontos característicos se dá através da utilização da rede SOM. A ideia é que o mapa

consiga identificar as regiões dos dígitos, e em especial, a região de conexão.

Dados os pontos de ramificação do esqueleto e a posição dos nós da rede, selecionam-se os

pontos de segmentação, os quais são os pontos de ramificação que apresentam algum nó da rede

próximo a eles. A partir dos pontos de segmentação, define-se a separação entre os dígitos

apagando a região de toque (mapeada na etapa anterior), o que gera componentes separados, e

depois atribuindo cada componente gerado a um dos dígitos. Ao final, para permitir de forma direta

a classificação dos dígitos gerados, pois a segmentação é definida sobre o esqueleto da imagem,

aplica-se uma dilatação morfológica a fim de recuperar, pelo menos de forma aproximada, o

formato original dos dígitos. A Figura 7 apresenta os passos do algoritmo em um exemplo.

Figura 7. Aplicação do algoritmo baseado em redes SOM, (a) imagem original, (b) esqueleto com

ponto característico selecionado, (c) mapa treinado com nó e ponto de segmentação marcados, e (d)

dígitos corretamente segmentados.

2.5 Restauração de Imagens de Cartões Postais

Nesta seção é apresentado um sistema para restauração digital de imagens de uma coleção de

cartões postais coloridos do século XIX, alguns dos quais podem ser vistos na Figura 8.

Figura 8. Exemplos de cartões postais utilizados.

O método desenvolvido [40] consiste de três etapas principais: (i) separação da região de

fundo da imagem; (ii) recuperação de cores desbotadas e (iii) remoção de manchas. O objetivo da

separação entre o fundo da imagem dos outros elementos, como texto e gravuras, é facilitar a

remoção de efeitos de degradação, já que toda essa região será preenchida com uma única cor que

também servirá de referência para a etapa de recuperação das cores.

A separação do fundo da imagem se dá através do uso de detecção de contornos utilizando

uma variação da diferença entre Gaussianas chamada eXtended Difference of Gaussians (XDoG)

[50] e a ideia é aplicar dois filtros Gaussianos, cada um em uma cópia da imagem original mas com

um dos filtros com um raio de atuação um pouco maior. Calcula-se então a diferença entre as duas

imagens filtradas e a imagem resultante, contendo bordas encontradas na imagem, pode então ser

analisada a fim de se encontrar a maior área contígua, que é considerada como a região de

fundo.Tomando como referência essa região encontrada, cada pixel da imagem original é

contabilizado para encontrar a cor mais frequente que é utilizada para preencher a região de fundo

na imagem original.

Para recuperação das cores desbotadas, a imagem é considerada como sendo amarelada

devido à uma iluminação atuando sobre ela. Esta simplificação permite a utilização de algoritmos

para correção/equilíbrio de cores como o retinex [20] e white patch [12]. Neste trabalho, o

algoritmo desenvolvido é uma variação do white patch que garante que o fundo alcance o branco

original do papel, tendo como referência a cor mais frequente encontrada que no final deve se tornar

branca.

Na etapa final, as manchas remanescentes são detectadas através das suas cores

características, utilizando o sistema de cores HSB [52] (H=matiz, B=brilho e S=saturação). Cada

pixel da imagem é analisado e, caso sua cor (matiz) esteja no intervalo 15 ≤ H ≤ 65 e seu brilho B

seja menor ou igual a 95, é marcado como pertencente a uma mancha. Para evitar que partes da

imagem sejam erroneamente consideradas como manchas, apenas regiões claras da imagem

(regiões com brilho maior que 70) são consideradas. As manchas confirmadas são removidas

utilizando o filtro da mediana híbrido [36], com alterações para considerar apenas vizinhos que

também estejam em uma região clara da imagem e que não façam parte da própria mancha,

evitando desta forma que artefatos sejam gerados. Todo o processo ocorre de forma automática sem

a necessidade de intervenção do usuário.

3. Resultados

São muitas as características diferentes que podem ser encontradas em imagens de documentos

antigos. Para cada processo aqui apresentado, essas características podem provocar mudanças nos

resultados encontrados pelos algoritmos, levando à criação de novos algoritmos mais genéricos (ou

seja, que consigam se ajustar a uma maior quantidade de degradações). A seguir, a Figura 10

apresenta resultados de alguns algoritmos dos que foram apresentados neste trabalho.

Na Figura 9a, pode-se ver a aplicação dos algoritmos de binarização de Sun-Lu-Tan [45] e

baseado em percepção visual [27]. A Figura 9b mostra a estimativa e correção de inclinação de dois

documentos manuscritos, usando o método de [25]. Na Figura 9c é possível observar a segmentação

de documento, resultando apenas os elementos classificados como texto, usando o algoritmo de

Shen et al. [44]. A Figura 9d mostra um documento original e a segmentação de linhas gerada pelos

algoritmos de projeção horizontal [32], Basu et al. [4] e Sanchez et al. [41]. Na Figura 9e, tem-se

exemplos de segmentação de dígitos usando o método proposto em [19], enquanto a Figura 9f

mostra resultados obtidos na restauração de cartões postais antigos segundo [40].

4. Considerações Finais

Esse artigo apresenta os principais tópicos relacionados com processamento de imagens de

documentos antigos. São diversas as aplicações que envolvem a utilização de técnicas de

processamento de imagens, assim como são diversos os desafios a serem vencidos. Dentre as

técnicas apresentadas, destacam-se binarização, estimativa e correção de inclinação, segmentação

de documento, segmentação de linhas de texto e palavras, segmentação de caracteres e restauração

de cores. Dadas as características dos documentos, cada etapa dessas atinge um alto grau de

complexidade e desafios próprios. Para binarização, a presença de manchas torna o processo mais

difícil. As etapas que lidam com segmentação têm alta complexidade quando lidam com

documentos manuscritos devido à irregularidade na escrita humana. Diversos outros problemas

podem ser listados tornando o tema bastante desafiador para o desenvolvimento de pesquisas.

Agradecimentos

Agradecemos ao CNPq, à FACEPE e ao laboratório LIBER pelo apoio.

(a)

(b)

(c)

(d)

(e)

(f)

Figura 9. Resultados de algoritmos em diversas aplicações do processamento de imagens de

documentos antigos: a) binarização, b) estimativa e correção de inclinação, c) segmentação de

documento, d) segmentação de linhas, e) segmentação de dígitos e f) restauração de cores.

5. Referências [1] ALHAJJ, R.; ELNAGAR,A. Multiagents to separating handwritten connected digits. IEEE

Transactions on Systems, Man and Cybernetics, Part A, v.35, n.5, pp.593-602, 2005. [2] ÁVILA, B.T.; LINS,R.D. A New Algorithm for Removing Noisy Borders from Monochromatic

Documents, ACM Symposium on Applied Computing, pp.1219-1225, Chipre, 2004. [3] ÁVILA, B.T. et al. A New Rotation Algorithm for Monochromatic Images, ACM Document

Engineering, pp.130-132, Reino Unido, 2005. [4] BASU,S. et al. Text Line Extraction from Multi-Skewed Handwritten Documents, Pattern Recognition,

v.40, pp.1825-1839, 2007. [5] BERNSEN, J. Dynamic thresholding of gray level images, International Conference on Pattern

Recognition, pp.1251–1255, França, 1986. [6] BLUMENSTEIN,M.; VERMA B. Analysis of segmentation performance on the CEDAR Benchmark

Database. ICDAR 2001, Seattle, United States. v.2, pp.1142-1146, 2001. [7] BOCKHOLT, T. et al. Document image retrieval with morphology-based segmentation and features

combination, SPIE XVIII Document Recognition and Retrieval (DRR), San Francisco, 2011. [8] CARDOSO JR, M. et al. Clio-I: primando pela usabilidade e acessibilidade em um sistema para

gerenciamento e interoperabilidade de repositórios digitais, Encontro Nacional de Pesquisa Em Ciência Da Informação - ENANCIB, Brasília, 2011.

[9] CASEY,R. G.; LECOLINET,E. A survey of methods and strategies in character segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.18, n.7, pp.690-706, 1996.

[10] CHEN,Y.; WANG,J. Segmentation of simple- or multiple-touching handwritten numeral string using background and foreground analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.22, n.11, pp.1304-1317, 2000.

[11] CONGEDO,G. et al. Segmentation of numeric strings. ICDAR 1995, Montreal, Canada, v.2, pp.1038-1041, 1995.

[12] EBNER,M. Color Constancy, John Wiley & Sons, England, 2007. [13] FUJISAWA,H.; NAKANO,Y.; KURINO,K. Segmentation methods for character recognition: from

segmentation to document structure analysis. Proceedings of the IEEE, v.80, n.7, pp.1079-1092, 1992. [14] GONZALEZ,R.; WOODS,R. Digital Image Processing, 3a Edição, Ed. Prentice Hall, 2007. [15] HAYKIN,S. Neural Networks: A Comprehensive Foundation, 2a Edição, Prentice Hall, 1988. [16] JOHANNSEN,G.Johannsen; BILLIE,J. A threshold selection method using information measures,

International Conference on Pattern Recognition, pp.140–143, Alemanha, 1983. [17] KAPUR, J.N.Kapur; SAHOO,P.K.; WONG,A.K.C. A new method for gray-level picture

thresholding using the entropy of the histogram, Comp.Vision, Graphics, and Image Processing, v.29, pp.273–285, 1985.

[18] KURNIAWAN,F. et al. Self Organizing Feature Maps with improved segmentation to identify touching of adjacent characters in handwritten words. HIS 2009, Shenyang, China, v. 1, p. 475-480, 2009.

[19] LACERDA,E.B; MELLO, C.A.B. Segmentation of Connected Handwritten Digits Using Self-Organizing Maps. Expert Systems with Applications, v.40, n.15, pp.5867-5877, 2013.

[20] LAND,E.H. The Retinex, Am. Scientist, v.52, pp.247-264, 1964. [21] LIKFORMAN-SULEM,L.; ZAHOUR,A.; TACONET,B. Text Line Segmentation of Historical

Documents: A Survey. International Journal on Document Analysis and Recognition, v.9, pp. 123-138, 2007.

[22] LIU,Z. Paper to Digital Documents in the Information Age, Libraries Unlimited, 2008. [23] G.Louloudis, B. Gatos, I. Pratikakis and C. Halatsis, “Line and Word Segmentation of Handwritten

Documents”, International Conference on Frontiers in Handwriting Recognition, pp.247-252, 2008. [24] LU.Y. Machine printed character segmentation: an overview. Pattern Recognition, v.28, n.1, pp.67-

80, 1995. [25] SANCHEZ, A.; MELLO, C.A.B.; CAVALCANTI, G.D.C., Multiple Line Skew Estimation of

Handwritten Images of Documents Based on a Visual Perception Approach, Lecture Notes in Computer Science, v.6855, pp.138-145, 2011.

[26] MELLO, C.A.B.; OLIVEIRA, A.L.I.; SANTOS, W.P. Digital Document Analysis and Processing. Nova Science Publishers, 2012.

[27] MESQUITA, R.G.; MELLO,C.A.B. A new thresholding algorithm for document images based on the perception of objects by distance, Integrated Computer-Aided Engineering, 2013.

[28] NIBLACK,W. An Introduction to Image Processing. Pretince Hall, pp.115–116, 1986.

[29] NIXON,M.; AQUADO,A. Feature Extraction & Image Processing for Computer Vision, 3a Edição, Academic Press, 2012.

[30] OTSU,N. A Threshold Selection Method from Gray-Level Histograms, IEEE Transactions on Systems Man and Cybernetics, v.20, n.1, pp. 62–66, 1979.

[31] PAPAVASSILOU, V.; et al. Handwritten document image segmentation into text lines and words, Pattern Recognition, v.43, pp. 369-377, 2010.

[32] PARKER.J.R. Algorithms for Image Processing and Computer Vision, John Wiley and Sons, 2010

[33] PLAMONDON, R.; SRIHARI,S.N. On-Line and Off-Line Handwriting Recognition: A Comprehensive Survey, IEEE Transactions on Pattern Analysis and Machine Intelligence, v.22, pp. 63-84, 2000.

[34] PRATIKKAKIS, I.; GATOS,B.; NTIROGIANNIS, K. ICDAR 2011 Document Image Binarization Contest. ICDAR 2011, pp. 1506–1510, China, 2011.

[35] PUN,T. Entropic thresholding: A new approach, Computer Graphics Image Processing, 16, pp.210-239,1981.

[36] QINGYUN,Y. A Hybrid Median Filter for Enhancing Dim Small Point Targets and Its Fast Implementation, International Conference on Multimedia and Signal Processing (CMSP), v.1, n.1415, pp.239-242, 2011.

[37] RAZAK,Z.; et al. Off-line Handwriting Text Segmentation: A Review, International Journal of Computer Science and Network Security, v.8, pp. 12-20, 2008.

[38] RENAUDIN,C.; RICQUEBOURG,Y.; CAMILLERAPP,J. A general method of segmentation-recognition collaboration applied to pairs of touching and overlapping symbols. ICDAR 2007, Curitiba, Brazil. v.2, pp.659-663, 2007.

[39] REHMAN,A.; SABA,T. Off-line cursive script recognition: current advances, comparisons and remaining problems. Artificial Intelligence Review, v.34, n.7, pp.261-288, 2011.

[40] ROE, E.; MELLO. C.A.B. Automatic system for restoring old color postcards, IEEE International Conference on Systems, Man and Cybernetics, Seul, Coreia do Sul, pp.451-456, 2012.

[41] SANCHEZ, A.; MELLO,C.A.B.;SUAREZ, P.; LOPES FILHO, A.N.G. Automatic line and word segmentation applied to densely line-skewed historical handwritten document images. Integrated Computer-Aided Engineering, v.18, pp.125–142, 2011.

[42] SEZGIN,M.; SANKU,B. Survey over image thresholding techniques and quantitative performance evaluation. Journal of Electronic Imaging, v.13, n.1, pp.146-168, 2004

[43] SHANNON,C.E. A Mathematical Theory of Communication, Bell System Technical Journal, v.27, n.3, pp.379–423, 1948.

[44] SHEN, Q.; LI,S.; KWOK,J. Page Segmentation Using Mathematical Morphology, International Symposium on Intelligent Signal Processing and Communication Systems, pp.89-92, Japão, 2005.

[45] SU,B.; LU,S.; TAN,C.L. Robust Document Image Binarization Technique for Degraded Document Images. IEEE Transactions on Image Processing, v.22, n.4, pp.1408-1417,2013.

[46] TSALLIS,C. Possible Generalization of Boltzmann-Gibbs Statistics, Journal of Statistical Physics, v.52, pp. 479–487, 1988.

[47] TSE,J.Tse; et al. An OCR-independent character segmentation using shortest-path in grayscale document images. ICMLA 2007, Cincinatti, United States. p. 142-147, 2007.

[48] VERMA,B. ; LEE,H. Segment confidence-based binary segmentation (SCBS) for cursive handwritten words. Expert Systems with Applications, v.38, n.9, pp.11167–11175, 2011.

[49] WHITE,J.M.White; ROHRER,G.D. Image thresholding for optical character recognition and other applications requiring character image extraction, IBM Journal of Research and Development, v.27, pp.400-411, 1983.

[50] WINNEMULLER,H. XDoG: advanced image stylization with eXtended Difference-of-GaussianS, ACM SIGGRAPH, pp.147-156, 2011.

[51] WOLFE,J.; KLUENDER,K.; LEVI,D. Sensation and Perception, 2a Edição, Sinauer Associates, 2009.

[52] WYSZECKI,G.; STILES,W. S. Color Science. Concepts and Methods, Quantitative Data and Formulae, John Wiley & Sons, New York, 2000.

[53] YAN,L.I.Yan, XIAOPING,F.; GANG,L. An Application of Tsallis Entropy Minimum Difference on Image Segmentation. World Congress on Intelligent Control and Automation, pp.9557-9561, China, 2006.

AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE …Em geral, um sistema completo de processamento...

Documents

Transcript of AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE …Em geral, um sistema completo de processamento...