AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE …Em geral, um sistema completo de processamento...

15
AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE IMAGENS DE DOCUMENTOS ANTIGOS Carlos Alexandre Barros de Mello Alberto Nicodemus Gomes Lopes Filho Edward Roe Everton Barbosa Lacerda Rafael Galvão de Mesquita RESUMO A digitalização de documentos surge como uma alternativa para questões associadas com armazenamento e divulgação de conteúdo. No entanto, quando se trata de documentos antigos, o documento original em meio físico pode estar sujeito a diversos tipos de degradação. Nesses casos, a imagem digital pode ser tratada, permitindo uma melhor qualidade visual do documento ou até mesmo uma melhor resposta de etapas como o reconhecimento automático do conteúdo de um documento. Este artigo tem como objetivo apresentar os avanços na área de processamento digital de imagens de documentos antigos em suas principais atuações, incluindo: binarização, segmentação (em suas diversas formas) e restauração. Diversos tipos diferentes de documentos antigos são apresentados assim como as formas de tratamento desses documentos para diversas aplicações, usando algoritmos recentes das áreas de processamento de imagens e visão computacional. Os resultados da aplicação de tais técnicas mostra a eficiência desses algoritmos no tratamento desse tipo de imagem. Este trabalho é uma parceria entre dois grupos de pesquisa da Universidade Federal de Pernambuco. PALAVRAS-CHAVE: Processamento de Imagens. Documentos Antigos. Binarização. Segmentação. ABSTRACT The documents scanning comes as a solution to issues related to storage and broadcasting of their contents. However, when it comes to old documents, the original document in the physical environment may be subject to various types of degradation. In these cases, the digital image can be enhanced, allowing a better visual quality of the documents or even so a betterresponse steps such as automatic recognition of the content of document’s contents. This paper aims to present the advances in the area of digital processing of old documents images in its main operations, including: binarization, segmentation (in its various forms) and restoration. Several different kinds of old documents are presented, as well as ways of treating these documents for various applications,using recent algorithms from the fields of image processing and computer vision. The results of application of such techniques show the efficiency of this algorithms in the treatmentof this kind of image. This paper is a partnership between two research groups of the Universidade Federal de Pernambuco. Keywords: Image processing. Old documents. Binarization. Segmentation. Restoration.

Transcript of AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE …Em geral, um sistema completo de processamento...

  • AVANÇOS RECENTES NO PROCESSAMENTO DIGITAL DE IMAGENS DE DOCUMENTOS ANTIGOS

    Carlos Alexandre Barros de Mello Alberto Nicodemus Gomes Lopes Filho

    Edward Roe Everton Barbosa Lacerda

    Rafael Galvão de Mesquita RESUMO A digitalização de documentos surge como uma alternativa para questões associadas com armazenamento e divulgação de conteúdo. No entanto, quando se trata de documentos antigos, o documento original em meio físico pode estar sujeito a diversos tipos de degradação. Nesses casos, a imagem digital pode ser tratada, permitindo uma melhor qualidade visual do documento ou até mesmo uma melhor resposta de etapas como o reconhecimento automático do conteúdo de um documento. Este artigo tem como objetivo apresentar os avanços na área de processamento digital de imagens de documentos antigos em suas principais atuações, incluindo: binarização, segmentação (em suas diversas formas) e restauração. Diversos tipos diferentes de documentos antigos são apresentados assim como as formas de tratamento desses documentos para diversas aplicações, usando algoritmos recentes das áreas de processamento de imagens e visão computacional. Os resultados da aplicação de tais técnicas mostra a eficiência desses algoritmos no tratamento desse tipo de imagem. Este trabalho é uma parceria entre dois grupos de pesquisa da Universidade Federal de Pernambuco. PALAVRAS-CHAVE: Processamento de Imagens. Documentos Antigos. Binarização. Segmentação. ABSTRACT The documents scanning comes as a solution to issues related to storage and broadcasting of their contents. However, when it comes to old documents, the original document in the physical environment may be subject to various types of degradation. In these cases, the digital image can be enhanced, allowing a better visual quality of the documents or even so a betterresponse steps such as automatic recognition of the content of document’s contents. This paper aims to present the advances in the area of digital processing of old documents images in its main operations, including: binarization, segmentation (in its various forms) and restoration. Several different kinds of old documents are presented, as well as ways of treating these documents for various applications,using recent algorithms from the fields of image processing and computer vision. The results of application of such techniques show the efficiency of this algorithms in the treatmentof this kind of image. This paper is a partnership between two research groups of the Universidade Federal de Pernambuco. Keywords: Image processing. Old documents. Binarization. Segmentation. Restoration.

  •  

    1. Introdução

    Segundo registros [22], os Sumerianos começaram a armazenar informação escrita a cerca de 6.000

    anos usando tábuas de argila para descrever transações comerciais. Desde então, as formas de

    armazenamento de conteúdo escrito foram se diversificando e, da mesma forma, foi aumentando a

    quantidade de informação a ser armazenada, a facilidade nesse armazenamento e a quantidade de

    espaço físico necessário para preservar esses meios. Estima-se que a quantidade de documentos em

    papel no mundo enfrentou um crescimento exponencial. Esse crescimento vem diminuindo com o

    avanço de equipamentos digitais portáteis para leitura e até escrita, mas ainda tem-se com o grande

    problema da preservação do que já está armazenado em papel pela humanidade.

    O uso de computadores digitais vem como uma solução para diversos problemas associados ao trabalho com papel: (i) armazenamento: um único disco DVD (Digital Versatile Disc) pode armazenar o conteúdo de milhares de livros, diminuindo o espaço físico necessário para armazená-los; (ii) facilidade de divulgação dos conteúdos através da Internet; (iii) facilidade de reprodução (ou duplicação) através da cópia de um arquivo; (iv) possibilidade de verificação de veracidade (uso de marcas d’água); (v) facilidade de busca por palavras-chave (às vezes, feita na própria imagem do documento). Todos esses processos, porém, dependem da conversão do livro do meio físico para o meio digital. Isso é feito por um processo conhecido como digitalização feito através de scanners ou máquinas fotográficas digitais. Com o avanço da tecnologia, esses equipamentos estão cada dia mais acessíveis às pessoas, facilitando a criação de cópias digitais de diversos tipos de documentos. Da mesma forma, com a versão digital de documentos na forma de imagem, é possível melhorar alguns aspectos visuais destes, tornando seus conteúdos mais facilmente reconhecidos.

    Em geral, um sistema completo de processamento automático de imagens de documentos

    possui as etapas apresentadas na Figura 1 [26].

    Figura 1. Esquema de um sistema genérico de processamento de imagens de documentos.

    A primeira etapa é a aquisição da imagem que é conseguida através do processo de

    digitalização [14]. São definidas ai a resolução espacial da imagem (medida, normalmente, em dpi –

    dots per inch) e a resolução de cor. A resolução espacial define as dimensões (número de linhas e

    número de colunas) da matriz que representará a imagem em formato digital, enquanto a resolução

    de cor define a quantidade máxima de cores que poderão ser usadas para representar a imagem. Em

    geral, para fins de preservação, usa-se o padrão RGB (Red, Green e Blue) com 24 bits para a

    resolução de cor, podendo representar cerca de 16 milhões de cores. Para fins de leitura de um

    documento no computador, uma resolução espacial de 300 dpi gera uma imagem de boa qualidade

  •  

    (para documentos originais em folhas de papel ofício ou A4). Para fins de preservação, uma maior

    resolução (como 600 dpi) deve ser empregada.

    Após a aquisição, as próximas etapas são: binarização (thresholding, em inglês) [14][42],

    que converte a imagem para preto-e-branco; o pré-processamento que cuida de fases como remoção

    de ruído, estimativa e correção de inclinação do documento ou do texto e segmentação (que se

    divide em segmentação de documento e segmentação de texto).

    Após a segmentação, dependendo da aplicação, os elementos passam por uma fase de

    reconhecimento. Nesse caso, o termo “elemento” pode referenciar uma palavra inteira ou um

    caractere apenas. O reconhecimento é feito tomando como base características extraídas dos objetos

    a serem reconhecidos (palavras ou caracteres). Essas características servem como entrada para

    sistemas conhecidos como classificadores que identificam a que padrão aquelas características

    pertencem. Tais sistemas são bastante complexos devido à grande variedade de grafias e caracteres

    existentes, dificultando a escolha das características necessárias para o reconhecimento. Este artigo

    não trata dessa etapa por não ser relacionada com processamento de imagens, seu foco principal.

    Outros tipos de aplicações podem requerer etapas diferentes da sequência apresentada na

    Figura 1. Notadamente, por exemplo, a restauração de cores de um documento lida, em geral,

    apenas com segmentação e com o uso de sistemas de cores.

    O processamento de imagens de documentos pode ser o núcleo de aplicações avançadas

    como: em bibliotecas digitais (como o CLIO [8]), as imagens podem ser melhoradas ou convertidas

    para diferentes formatos; Recuperação de Imagens de Documentos (do inglês Document Image

    Retrieval – DIR) é outra área que depende da aplicação de técnicas de processamento de imagens

    (como para identificar conjuntos de documentos que contenham imagens [7]). A Figura 2 traz

    exemplos de diversos tipos de documentos antigos com as mais diversas características.

    Na próxima seção, são detalhados os avanços alcançados nos principais elementos

    associados ao processamento automático de documentos antigos, objetivo principal deste artigo.

    Trata-se apenas de técnicas para processamento das imagens digitais, deixando de fora, assim, o

    processo de digitalização em si. Na Seção 3, são apresentados os resultados obtidos na aplicação de

    algumas das técnicas descritas e uma discussão sobre cada tópico. A Seção 4 conclui o artigo e

    apresenta alguns desafios futuros.

    2. Processamento de Imagens de Documentos Antigos

    Como descrito na Seção anterior, há vários processos que podem ser aplicados ao tratamento das

    imagens de documentos. Nesta Seção, destacam-se alguns desses processos quando aplicados a

    documentos antigos, seus problemas que tornam essa classe única para pesquisa na área de

    documentos e recentes soluções.

  •  

    Figura 2. Exemplos de imagens de documentos antigos.

    2.1 Binarização

    Como mencionado anteriormente, a binarização corresponde à conversão de uma imagem para

    apenas duas cores. No caso, para imagens de documentos, essa conversão gera uma imagem com

    tons brancos (relacionados com o papel) ou pretos (relacionados com a tinta). Isso em geral é feito

    definindo um ponto de corte nas cores o qual transforma as cores com tons menores do que esse

    valor em preto e as cores com tons maiores que esse valor em branco. Documentos atuais,

    impressos em impressoras (laser ou jato de tinta) possuem uma nitidez que permite separar

    facilmente o que é tinta do que é papel. Ao sofrer degradações, porém, tanto o papel pode escurecer

    e assumir tonalidades diferentes das originais, às vezes, próximas às da tinta, quanto a tinta pode

    clarear e se confundir com o papel. Outro caso de grande complexidade é quando o documento é

    escrito nos dois lados do papel e a tinta de um lado passa para o outro (efeito conhecido como

    interferência frente-verso). A Figura 3 apresenta alguns exemplos de documentos com degradação e

    o resultado que uma binarização inapropriada pode gerar.

    Figura 3. Imagens de documentos degradados e o resultado da sua conversão para preto e branco.

    O tratamento de forma automática de cada caso desses casos é bastante complexo e ainda

    hoje não há uma solução definitiva. A prova disso é uma competição internacional anual sobre

    binarização de imagens de documentos (DIBCO - Document Image Binarization Contest) [34]. Há

    diversas propriedades da imagem que podem ser usadas para definir o correto ponto de corte. Da

    mesma forma, há classes diferentes de algoritmos de binarização que podem ser empregados

    dependendo do problema. Especificamente, os algoritmos podem ser classificados como globais

  •  

    (quando um ponto de corte único é definido para toda a imagem) ou locais (quando a imagem é

    dividida em regiões e um ponto de corte é escolhido para cada região) [42].

    Alguns dos algoritmos de aplicação global mais antigos são: o tom de cinza médio (que

    define como ponto de corte o ponto médio dos valores de luminância presentes na imagem), o

    algoritmo de porcentagem de preto (cujo ponto de corte é calculado de tal forma que a imagem final

    tenha uma porcentagem pré-definida de tons pretos apenas) e o algoritmo de dois picos (o qual

    calcula o ponto de corte como o ponto entre os dois tons mais presentes na imagem) [32]. Outro

    algoritmo de aplicação global bastante conhecido é o método de Otsu [30]. Esse algoritmo procurar

    separar duas classes em um conjunto (ele pode ser aplicado a diferentes problemas, não apenas

    binarização), calculando o valor que maximize a separação entre classes. Outra classe corresponde

    a algoritmos baseados em Entropia [43] como: Pun [35], Kapur [17] e Johannsen [16]. Uma

    variação no conceito de entropia é a entropia de Tsallis [46] também usada em binarização [53].

    Como exemplos de algoritmos de aplicação local, pode-se citar os métodos de Niblack [28],

    White [49] e Bernsen [5]. Atuando de maneira semelhante, esses algoritmos dividem a imagem em

    regiões retangulares com dimensões pré-definidas e definem um ponto de corte para cada região

    através de alguma medida (por exemplo, o algoritmo de Niblack usa os valores de média e desvio

    padrão dos tons presentes em cada região).

    Todos esses algoritmos sumarizados são de uso geral, podendo ser aplicados a imagens de

    documentos. No entanto, dada a importância do tema, algoritmos específicos para documentos

    surgiram, alcançando melhores resultados do que esses universais. O método proposto em [45] é

    dividido em quatro fases: criação da imagem de contraste, detecção de bordas, estimativa do ponto

    de corte local e pós-processamento. O primeiro passo do método considera que há uma diferença

    entre os tons de tinta e os do papel. Assim, uma imagem de contraste é criada para retratar essas

    diferenças entre os tons. Para conseguir representar melhor as diferenças na imagem, o contraste é

    calculado em uma janela de 3x3 pixels. Essa imagem contém em maior destaque as bordas do texto.

    Com isso, um detector de bordas (Canny [32]) é utilizado para intensificar essas regiões. A largura

    estimada do traço é usada para definir as dimensões de uma nova janela para uma binarização local.

    Nas janelas, cada pixel é convertido para branco (papel), se sua cor for menor que a média dos tons

    dos pixels na janela adicionada à metade do desvio padrão desses mesmos tons. Caso contrário, o

    pixel é convertido para preto (tinta). O pós-processamento é a etapa final, eliminando pixels de tinta

    que não estejam conectados com outros; pixels também podem mudar de classe (de papel para tinta

    ou vice-versa) para melhorar a conectividade do traçado.

    Uma proposta recente usa conceitos de percepção visual para remover o background de um

    documento e assim tornar mais simples o processo de binarização [27]. Esse método é adequado

    para lidar com imagens onde há grande variação nos tons do papel como em casos onde uma

  •  

    degradação ocorre em maior intensidade em uma área do que em outra ou quando houve sensível

    diferença de iluminação na digitalização da imagem. Nessa técnica, a ideia de percepção de objetos

    à distância é utilizada [51]. Quando uma pessoa se afasta de um objeto, deixa de perceber seus

    detalhes, embora as cores principais ainda sejam visíveis. No caso de documentos, os detalhes

    seriam o texto (a tinta). Assim, ao se afastar de um documento, a tinta tende a não ser mais

    percebida, enquanto as cores do papel permanecem visíveis. Com o conhecimento das cores que

    formam o padrão do papel, pode-se subtraí-las da imagem original, recuperando os tons da tinta.

    2.2 Pré-Processamento

    Com a imagem em preto-e-branco adquirida pela etapa anterior, alguns processos se tornam mais

    simples. Um deles é a remoção de ruídos como já foi explicada anteriormente. Outro tratamento

    necessário é a estimativa e correção de inclinação em documentos. A inclinação pode estar presente

    em todo o documento devido a algum problema de digitalização (Figura 4a) ou em cada linha de

    texto, sendo comum a documentos manuscritos em papel sem linha de pauta (Figura 4b).

    Figura 4. (a) Exemplo de documento onde a inclinação é a mesma para todo o documento, e (b)

    documento onde a inclinação está nas linhas de texto.

    A etapa de estimativa de inclinação é fundamental para uma eficiente segmentação de linhas

    e texto (próxima etapa de um sistema de processamento automático de imagens de documentos). A

    estimativa de inclinação de um documento completo como o apresentado na Figura 4a é um

    problema de fácil solução, podendo-se utilizar a transformada de Hough [14] que faz o mapeamento

    da imagem de coordenadas cartesianas para coordenadas polares.

    Existem diversos algoritmos para estimativa de inclinação de linhas de texto como no

    documento apresentado na Figura 4b. Viskew é um método de estimativa de múltiplas inclinações

    em linhas de texto apresentado em [25]. O método é dividido em cinco fases: criação de um mapa

    de transição para eliminar detalhes do texto, binarização desse mapa, suavização da imagem

    binarizada, esqueletização para obter apenas as linhas centrais das regiões de texto, remoção de

    pequenos esqueletos (provavelmente, provenientes de ruídos) e aproximação de cada esqueleto para

  •  

    uma reta, calculando sua inclinação. A Figura 5 apresenta uma imagem de exemplo e o resultado de

    cada uma dessas etapas até chegar à imagem final.

    Figura 5. (a) Documento criado artificialmente com duas linhas de texto com diferentes inclinações,

    e resultado após cada etapa de aplicação do algoritmo Viskew [25]: (b) mapa de transição, (c)

    binarização do mapa, (d) suavização da imagem binarizada, (e) esqueletização, (f) remoção de

    pequenos esqueletos, (g) estimativa do ângulo de cada esqueleto e (h) correção da inclinação.

    Após a estimativa dos ângulos de inclinação (tanto para uma inclinação global apenas

    quanto para múltiplas inclinações), é preciso fazer a correção desses objetos (imagem completa ou

    linha de texto). A rotação por um ângulo definido é uma operação algébrica clássica que pode ser

    adaptada para imagens como apresentado por Gonzalez e Woods [14]. No entanto, esse método tem

    alto custo computacional e gera falhas na imagem final. Um algoritmo mais eficiente é apresentado

    em [3]. O algoritmo evita o surgimento de falhas devido à rotação e quebra de traçados, sendo

    aplicado a imagens em preto-e-branco apenas. O primeiro passo é a detecção de bordas dos

    caracteres. O menor conjunto de pontos que representa os caracteres é identificado. Esses pontos

    são transformados em nós de um grafo e as arestas são vetores. Nós irrelevantes são eliminados. Por

    exemplo, se existem três nós colineares em uma aresta reta, o nó central pode ser removido. Uma

    comparação é feita entre os pixels que formam os caracteres originais e os pontos das arestas de

    forma a legendar os primeiros de acordo com os últimos. Todos os pontos críticos são então

    rotacionados. As legendas atribuídas no passo anterior são novamente comparadas com os vetores

    rotacionados e mapeados de forma a gerar a imagem sem rotação.

    2.3 Segmentação

    Segmentação é um processo que tem diferentes interpretações e aplicações dependendo de quê

    objeto se deseja obter de uma imagem. Segmentação é a divisão de uma imagem em seus objetos

    constituintes. No caso de documentos, segmentação aparece em duas etapas: (i) segmentação de

    documentos, onde a imagem é segmentada em regiões de texto e regiões de imagens (ou gráficos) e

    (ii) segmentação de texto, onde as regiões definidas como texto são separadas em linhas de texto,

    essas linhas em palavras e essas palavras em caracteres. Esses processos são detalhados a seguir.

  •  

    2.3.1 Segmentação de Documento

    Uma primeira etapa de segmentação é a segmentação de documento. Nesse caso, a imagem do

    documento tem seus objetos classificados entre texto ou figura (ou gráfico) para que as etapas

    posteriores não sejam aplicadas em regiões de imagem. Em geral, há métodos simples que podem

    ser aplicados nessa etapa, principalmente, quando se lida com documentos com diagramação estilo

    Manhattan (ou seja, quando não há sobreposição dos objetos). Em [44], um método eficiente e

    eficaz para segmentação de documento é proposto baseado em 7 passos: (i) binarização (o

    algoritmo é aplicado apenas a imagens em preto-e-branco), (ii) a imagem complementar é formada

    (onde os tons pretos são convertidos para branco e vice-versa), (iii) erosão morfológica para

    eliminar os elementos de texto, (iv) reconstrução de figuras (já que alguns elementos podem ser

    removidos pela erosão), (v) fechamento morfológico (novamente buscando recuperar elementos

    perdidos da figura), (vi) interseção entre as imagens geradas nos passos (ii) e (v) e, por último, (vii)

    a imagem final é a diferença entre as imagens (vi) e (ii). Após isso, a imagem pode ser

    complementada novamente apenas para retornar ao padrão de papel branco e tinta preta. Esse

    método já consegue eliminar a maior parte dos elementos não-textuais do documento.

    2.3.2 Segmentação de Linhas de Texto e Palavras

    A segmentação de texto pode ser decomposta em dois módulos, a segmentação de linhas e a

    segmentação de palavras. Esta tarefa é de grande importância quando se deseja executar um

    reconhecimento óptico de caracteres, ou OCR [33], na imagem do documento. O OCR irá receber

    como entrada a imagem do documento e irá gerar um documento de texto com o conteúdo de

    escrita presente na imagem. Para tal, é necessário que se tenha uma clara definição de cada uma das

    palavras encontradas na imagem através da segmentação de linhas e palavras.

    A segmentação de linhas faz a identificação das linhas de texto encontradas no documento.

    Se forem considerados documentos tipografados, a segmentação de linhas tem solução simples já

    que as linhas possuem um espaçamento constante entre elas. Pode ser aplicado um processo

    chamado de projeção horizontal [21] que faz a contagem de quantos pontos de tinta existem em

    cada linha da imagem, caso a contagem exceda um limiar pré-definido, esta linha é considerada

    como uma linha de texto. No entanto, para documentos manuscritos, a complexidade é mais elevada

    [21], já que as linhas de texto podem ter angulações e por isso não corresponder fielmente a uma

    linha reta. Outro problema das imagens manuscritas é a proximidade das linhas de texto, o que pode

    levar a duas ou mais linhas de texto como sendo consideradas como uma só. Existem diversos

    métodos disponíveis na literatura que atacam o problema da segmentação de linhas em documentos

    manuscritos das mais diversas formas [23][37][41][31]. Um método bastante inovador foi proposto

  •  

    em [4]. Nele, o algoritmo simula um fluxo hipotético de água sendo derramado pelo papel da direita

    para a esquerda e vice versa. As letras funcionam como barreiras para cada um desses fluxos,

    gerando duas imagens segmentadas. A união dessas imagens gera a imagem segmentada final.

    A segmentação de palavras faz a identificação de cada uma das palavras encontradas no

    texto, identificando-as para o subsequente uso do OCR. Vários métodos existentes de segmentação

    de palavras necessitam da prévia segmentação de linhas de texto [23][31][41], fazendo assim com

    que estes dois processos sejam comumente tratados em conjunto. Assim como a segmentação de

    linhas, a segmentação de palavras em textos manuscritos apresenta uma série de desafios, como a

    proximidade entre palavras, acentos, vírgulas e pontos. A Figura 6 apresenta um exemplo de um

    documento digitalizado em que o processo de segmentação de texto foi aplicado. Cada linha

    reconhecida recebeu uma cor diferente e cada palavra foi destacada por um quadrado delimitador.

    Figura 6. Resultado da segmentação de linhas e palavras em uma imagem de um documento manuscrito.

    2.3.3 Segmentação de Caracteres

    A segmentação de caracteres tem como objetivo processar uma imagem de entrada, de forma a

    separar os caracteres, construindo imagens individuais para cada caractere. Para documentos

    tipografados, onde há padrões em relação ao tamanho e forma dos caracteres a segmentação se

    torna uma tarefa relativamente simples. Já no caso de documentos manuscritos, aparecem

    dificuldades como, caracteres ligados, inclinação do texto, variações do mesmo caractere, não

    uniformidade nos espaçamentos entre palavras e letras. Essas questões tornam a segmentação de

    manuscritos um dos grandes desafios em sistemas de reconhecimento de caracteres.

    Nesse contexto, houve e há grandes esforços e atividades na área, o que propiciou o

    desenvolvimento de vários algoritmos [18][38][47][48] e artigos de revisão [6][9][13][24][39] para

    a segmentação de caracteres. Devido às dificuldades envolvidas nesse tipo de segmentação, também

    se propõem métodos específicos para a segmentação de dígitos manuscritos [1][10][11][19].

    Um método clássico de segmentação de caracteres é o drop-fall [10] que consiste em

    simular a queda de uma gota d’água pelo contorno dos caracteres. Um conjunto de regras pré-

    definidas determinam o caminhamento dessa gota, o qual acaba por corresponder ao caminho de

    separação entre os dígitos.

  •  

    Em [19], apresentou-se um algoritmo de segmentação de dígitos baseado em Mapas Auto-

    Organizáveis (SOM). A ideia reside em mapear cada região de toque, selecionando pontos

    característicos na imagem por meio da esqueletização dos traços e do agrupamento pela rede SOM.

    Dessa forma, encontram-se os pontos de segmentação e se define a separação entre os dígitos.

    De forma mais detalhada, calcula-se o esqueleto da imagem e se buscam os seus pontos de

    ramificação (possíveis pontos de segmentação). Depois, faz-se uma seleção desses pontos,

    primeiramente definindo uma região de interesse concentrada no centro dos dígitos, visto que a

    conexão entre os mesmos tende a estar na região central entre eles. O processo mais elaborado para

    a seleção de pontos característicos se dá através da utilização da rede SOM. A ideia é que o mapa

    consiga identificar as regiões dos dígitos, e em especial, a região de conexão.

    Dados os pontos de ramificação do esqueleto e a posição dos nós da rede, selecionam-se os

    pontos de segmentação, os quais são os pontos de ramificação que apresentam algum nó da rede

    próximo a eles. A partir dos pontos de segmentação, define-se a separação entre os dígitos

    apagando a região de toque (mapeada na etapa anterior), o que gera componentes separados, e

    depois atribuindo cada componente gerado a um dos dígitos. Ao final, para permitir de forma direta

    a classificação dos dígitos gerados, pois a segmentação é definida sobre o esqueleto da imagem,

    aplica-se uma dilatação morfológica a fim de recuperar, pelo menos de forma aproximada, o

    formato original dos dígitos. A Figura 7 apresenta os passos do algoritmo em um exemplo.

    Figura 7. Aplicação do algoritmo baseado em redes SOM, (a) imagem original, (b) esqueleto com

    ponto característico selecionado, (c) mapa treinado com nó e ponto de segmentação marcados, e (d)

    dígitos corretamente segmentados.

    2.5 Restauração de Imagens de Cartões Postais

    Nesta seção é apresentado um sistema para restauração digital de imagens de uma coleção de

    cartões postais coloridos do século XIX, alguns dos quais podem ser vistos na Figura 8.

  •  

    Figura 8. Exemplos de cartões postais utilizados.

    O método desenvolvido [40] consiste de três etapas principais: (i) separação da região de

    fundo da imagem; (ii) recuperação de cores desbotadas e (iii) remoção de manchas. O objetivo da

    separação entre o fundo da imagem dos outros elementos, como texto e gravuras, é facilitar a

    remoção de efeitos de degradação, já que toda essa região será preenchida com uma única cor que

    também servirá de referência para a etapa de recuperação das cores.

    A separação do fundo da imagem se dá através do uso de detecção de contornos utilizando

    uma variação da diferença entre Gaussianas chamada eXtended Difference of Gaussians (XDoG)

    [50] e a ideia é aplicar dois filtros Gaussianos, cada um em uma cópia da imagem original mas com

    um dos filtros com um raio de atuação um pouco maior. Calcula-se então a diferença entre as duas

    imagens filtradas e a imagem resultante, contendo bordas encontradas na imagem, pode então ser

    analisada a fim de se encontrar a maior área contígua, que é considerada como a região de

    fundo.Tomando como referência essa região encontrada, cada pixel da imagem original é

    contabilizado para encontrar a cor mais frequente que é utilizada para preencher a região de fundo

    na imagem original.

    Para recuperação das cores desbotadas, a imagem é considerada como sendo amarelada

    devido à uma iluminação atuando sobre ela. Esta simplificação permite a utilização de algoritmos

    para correção/equilíbrio de cores como o retinex [20] e white patch [12]. Neste trabalho, o

    algoritmo desenvolvido é uma variação do white patch que garante que o fundo alcance o branco

    original do papel, tendo como referência a cor mais frequente encontrada que no final deve se tornar

    branca.

    Na etapa final, as manchas remanescentes são detectadas através das suas cores

    características, utilizando o sistema de cores HSB [52] (H=matiz, B=brilho e S=saturação). Cada

    pixel da imagem é analisado e, caso sua cor (matiz) esteja no intervalo 15 ≤ H ≤ 65 e seu brilho B

    seja menor ou igual a 95, é marcado como pertencente a uma mancha. Para evitar que partes da

    imagem sejam erroneamente consideradas como manchas, apenas regiões claras da imagem

    (regiões com brilho maior que 70) são consideradas. As manchas confirmadas são removidas

    utilizando o filtro da mediana híbrido [36], com alterações para considerar apenas vizinhos que

  •  

    também estejam em uma região clara da imagem e que não façam parte da própria mancha,

    evitando desta forma que artefatos sejam gerados. Todo o processo ocorre de forma automática sem

    a necessidade de intervenção do usuário.

    3. Resultados

    São muitas as características diferentes que podem ser encontradas em imagens de documentos

    antigos. Para cada processo aqui apresentado, essas características podem provocar mudanças nos

    resultados encontrados pelos algoritmos, levando à criação de novos algoritmos mais genéricos (ou

    seja, que consigam se ajustar a uma maior quantidade de degradações). A seguir, a Figura 10

    apresenta resultados de alguns algoritmos dos que foram apresentados neste trabalho.

    Na Figura 9a, pode-se ver a aplicação dos algoritmos de binarização de Sun-Lu-Tan [45] e

    baseado em percepção visual [27]. A Figura 9b mostra a estimativa e correção de inclinação de dois

    documentos manuscritos, usando o método de [25]. Na Figura 9c é possível observar a segmentação

    de documento, resultando apenas os elementos classificados como texto, usando o algoritmo de

    Shen et al. [44]. A Figura 9d mostra um documento original e a segmentação de linhas gerada pelos

    algoritmos de projeção horizontal [32], Basu et al. [4] e Sanchez et al. [41]. Na Figura 9e, tem-se

    exemplos de segmentação de dígitos usando o método proposto em [19], enquanto a Figura 9f

    mostra resultados obtidos na restauração de cartões postais antigos segundo [40].

    4. Considerações Finais

    Esse artigo apresenta os principais tópicos relacionados com processamento de imagens de

    documentos antigos. São diversas as aplicações que envolvem a utilização de técnicas de

    processamento de imagens, assim como são diversos os desafios a serem vencidos. Dentre as

    técnicas apresentadas, destacam-se binarização, estimativa e correção de inclinação, segmentação

    de documento, segmentação de linhas de texto e palavras, segmentação de caracteres e restauração

    de cores. Dadas as características dos documentos, cada etapa dessas atinge um alto grau de

    complexidade e desafios próprios. Para binarização, a presença de manchas torna o processo mais

    difícil. As etapas que lidam com segmentação têm alta complexidade quando lidam com

    documentos manuscritos devido à irregularidade na escrita humana. Diversos outros problemas

    podem ser listados tornando o tema bastante desafiador para o desenvolvimento de pesquisas.

    Agradecimentos

    Agradecemos ao CNPq, à FACEPE e ao laboratório LIBER pelo apoio.

  •  

    (a)

    (b)

    (c)

    (d)

    (e)

    (f)

    Figura 9. Resultados de algoritmos em diversas aplicações do processamento de imagens de

    documentos antigos: a) binarização, b) estimativa e correção de inclinação, c) segmentação de

    documento, d) segmentação de linhas, e) segmentação de dígitos e f) restauração de cores.

  •  

    5. Referências [1] ALHAJJ, R.; ELNAGAR,A. Multiagents to separating handwritten connected digits. IEEE

    Transactions on Systems, Man and Cybernetics, Part A, v.35, n.5, pp.593-602, 2005. [2] ÁVILA, B.T.; LINS,R.D. A New Algorithm for Removing Noisy Borders from Monochromatic

    Documents, ACM Symposium on Applied Computing, pp.1219-1225, Chipre, 2004. [3] ÁVILA, B.T. et al. A New Rotation Algorithm for Monochromatic Images, ACM Document

    Engineering, pp.130-132, Reino Unido, 2005. [4] BASU,S. et al. Text Line Extraction from Multi-Skewed Handwritten Documents, Pattern Recognition,

    v.40, pp.1825-1839, 2007. [5] BERNSEN, J. Dynamic thresholding of gray level images, International Conference on Pattern

    Recognition, pp.1251–1255, França, 1986. [6] BLUMENSTEIN,M.; VERMA B. Analysis of segmentation performance on the CEDAR Benchmark

    Database. ICDAR 2001, Seattle, United States. v.2, pp.1142-1146, 2001. [7] BOCKHOLT, T. et al. Document image retrieval with morphology-based segmentation and features

    combination, SPIE XVIII Document Recognition and Retrieval (DRR), San Francisco, 2011. [8] CARDOSO JR, M. et al. Clio-I: primando pela usabilidade e acessibilidade em um sistema para

    gerenciamento e interoperabilidade de repositórios digitais, Encontro Nacional de Pesquisa Em Ciência Da Informação - ENANCIB, Brasília, 2011.

    [9] CASEY,R. G.; LECOLINET,E. A survey of methods and strategies in character segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.18, n.7, pp.690-706, 1996.

    [10] CHEN,Y.; WANG,J. Segmentation of simple- or multiple-touching handwritten numeral string using background and foreground analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.22, n.11, pp.1304-1317, 2000.

    [11] CONGEDO,G. et al. Segmentation of numeric strings. ICDAR 1995, Montreal, Canada, v.2, pp.1038-1041, 1995.

    [12] EBNER,M. Color Constancy, John Wiley & Sons, England, 2007. [13] FUJISAWA,H.; NAKANO,Y.; KURINO,K. Segmentation methods for character recognition: from

    segmentation to document structure analysis. Proceedings of the IEEE, v.80, n.7, pp.1079-1092, 1992. [14] GONZALEZ,R.; WOODS,R. Digital Image Processing, 3a Edição, Ed. Prentice Hall, 2007. [15] HAYKIN,S. Neural Networks: A Comprehensive Foundation, 2a Edição, Prentice Hall, 1988. [16] JOHANNSEN,G.Johannsen; BILLIE,J. A threshold selection method using information measures,

    International Conference on Pattern Recognition, pp.140–143, Alemanha, 1983. [17] KAPUR, J.N.Kapur; SAHOO,P.K.; WONG,A.K.C. A new method for gray-level picture

    thresholding using the entropy of the histogram, Comp.Vision, Graphics, and Image Processing, v.29, pp.273–285, 1985.

    [18] KURNIAWAN,F. et al. Self Organizing Feature Maps with improved segmentation to identify touching of adjacent characters in handwritten words. HIS 2009, Shenyang, China, v. 1, p. 475-480, 2009.

    [19] LACERDA,E.B; MELLO, C.A.B. Segmentation of Connected Handwritten Digits Using Self-Organizing Maps. Expert Systems with Applications, v.40, n.15, pp.5867-5877, 2013.

    [20] LAND,E.H. The Retinex, Am. Scientist, v.52, pp.247-264, 1964. [21] LIKFORMAN-SULEM,L.; ZAHOUR,A.; TACONET,B. Text Line Segmentation of Historical

    Documents: A Survey. International Journal on Document Analysis and Recognition, v.9, pp. 123-138, 2007.

    [22] LIU,Z. Paper to Digital Documents in the Information Age, Libraries Unlimited, 2008. [23] G.Louloudis, B. Gatos, I. Pratikakis and C. Halatsis, “Line and Word Segmentation of Handwritten

    Documents”, International Conference on Frontiers in Handwriting Recognition, pp.247-252, 2008. [24] LU.Y. Machine printed character segmentation: an overview. Pattern Recognition, v.28, n.1, pp.67-

    80, 1995. [25] SANCHEZ, A.; MELLO, C.A.B.; CAVALCANTI, G.D.C., Multiple Line Skew Estimation of

    Handwritten Images of Documents Based on a Visual Perception Approach, Lecture Notes in Computer Science, v.6855, pp.138-145, 2011.

    [26] MELLO, C.A.B.; OLIVEIRA, A.L.I.; SANTOS, W.P. Digital Document Analysis and Processing. Nova Science Publishers, 2012.

    [27] MESQUITA, R.G.; MELLO,C.A.B. A new thresholding algorithm for document images based on the perception of objects by distance, Integrated Computer-Aided Engineering, 2013.

    [28] NIBLACK,W. An Introduction to Image Processing. Pretince Hall, pp.115–116, 1986.

  •  

    [29] NIXON,M.; AQUADO,A. Feature Extraction & Image Processing for Computer Vision, 3a Edição, Academic Press, 2012.

    [30] OTSU,N. A Threshold Selection Method from Gray-Level Histograms, IEEE Transactions on Systems Man and Cybernetics, v.20, n.1, pp. 62–66, 1979.

    [31] PAPAVASSILOU, V.; et al. Handwritten document image segmentation into text lines and words, Pattern Recognition, v.43, pp. 369-377, 2010.

    [32] PARKER.J.R. Algorithms for Image Processing and Computer Vision, John Wiley and Sons, 2010

    [33] PLAMONDON, R.; SRIHARI,S.N. On-Line and Off-Line Handwriting Recognition: A Comprehensive Survey, IEEE Transactions on Pattern Analysis and Machine Intelligence, v.22, pp. 63-84, 2000.

    [34] PRATIKKAKIS, I.; GATOS,B.; NTIROGIANNIS, K. ICDAR 2011 Document Image Binarization Contest. ICDAR 2011, pp. 1506–1510, China, 2011.

    [35] PUN,T. Entropic thresholding: A new approach, Computer Graphics Image Processing, 16, pp.210-239,1981.

    [36] QINGYUN,Y. A Hybrid Median Filter for Enhancing Dim Small Point Targets and Its Fast Implementation, International Conference on Multimedia and Signal Processing (CMSP), v.1, n.1415, pp.239-242, 2011.

    [37] RAZAK,Z.; et al. Off-line Handwriting Text Segmentation: A Review, International Journal of Computer Science and Network Security, v.8, pp. 12-20, 2008.

    [38] RENAUDIN,C.; RICQUEBOURG,Y.; CAMILLERAPP,J. A general method of segmentation-recognition collaboration applied to pairs of touching and overlapping symbols. ICDAR 2007, Curitiba, Brazil. v.2, pp.659-663, 2007.

    [39] REHMAN,A.; SABA,T. Off-line cursive script recognition: current advances, comparisons and remaining problems. Artificial Intelligence Review, v.34, n.7, pp.261-288, 2011.

    [40] ROE, E.; MELLO. C.A.B. Automatic system for restoring old color postcards, IEEE International Conference on Systems, Man and Cybernetics, Seul, Coreia do Sul, pp.451-456, 2012.

    [41] SANCHEZ, A.; MELLO,C.A.B.;SUAREZ, P.; LOPES FILHO, A.N.G. Automatic line and word segmentation applied to densely line-skewed historical handwritten document images. Integrated Computer-Aided Engineering, v.18, pp.125–142, 2011.

    [42] SEZGIN,M.; SANKU,B. Survey over image thresholding techniques and quantitative performance evaluation. Journal of Electronic Imaging, v.13, n.1, pp.146-168, 2004

    [43] SHANNON,C.E. A Mathematical Theory of Communication, Bell System Technical Journal, v.27, n.3, pp.379–423, 1948.

    [44] SHEN, Q.; LI,S.; KWOK,J. Page Segmentation Using Mathematical Morphology, International Symposium on Intelligent Signal Processing and Communication Systems, pp.89-92, Japão, 2005.

    [45] SU,B.; LU,S.; TAN,C.L. Robust Document Image Binarization Technique for Degraded Document Images. IEEE Transactions on Image Processing, v.22, n.4, pp.1408-1417,2013.

    [46] TSALLIS,C. Possible Generalization of Boltzmann-Gibbs Statistics, Journal of Statistical Physics, v.52, pp. 479–487, 1988.

    [47] TSE,J.Tse; et al. An OCR-independent character segmentation using shortest-path in grayscale document images. ICMLA 2007, Cincinatti, United States. p. 142-147, 2007.

    [48] VERMA,B. ; LEE,H. Segment confidence-based binary segmentation (SCBS) for cursive handwritten words. Expert Systems with Applications, v.38, n.9, pp.11167–11175, 2011.

    [49] WHITE,J.M.White; ROHRER,G.D. Image thresholding for optical character recognition and other applications requiring character image extraction, IBM Journal of Research and Development, v.27, pp.400-411, 1983.

    [50] WINNEMULLER,H. XDoG: advanced image stylization with eXtended Difference-of-GaussianS, ACM SIGGRAPH, pp.147-156, 2011.

    [51] WOLFE,J.; KLUENDER,K.; LEVI,D. Sensation and Perception, 2a Edição, Sinauer Associates, 2009.

    [52] WYSZECKI,G.; STILES,W. S. Color Science. Concepts and Methods, Quantitative Data and Formulae, John Wiley & Sons, New York, 2000.

    [53] YAN,L.I.Yan, XIAOPING,F.; GANG,L. An Application of Tsallis Entropy Minimum Difference on Image Segmentation. World Congress on Intelligent Control and Automation, pp.9557-9561, China, 2006.