Abordagem de Localização de Códigos de Vagões de Trem em Vídeo...

8
Abordagem de Localização de Códigos de Vagões de Trem em Vídeo Digital Marcelo Souza Ramos, Jacques Facon, Alceu de Souza Britto Jr PPGIa - Programa de Pós–Graduação em Informática aplicada PUCPR Pontifícia Universidade Católica do Paraná Rua Imaculada Conceição 1155, 80215-901 Curitiba-Pr, Brasil [email protected] , [email protected] , [email protected] Abstract this paper presents a method for the location of the identification code of train wagons from digital videos. For this purpose, thresholding and multithresholding based techniques combined with edge detectors, mathematical morphology and filtering by compacity factor are used to segment each video frame, locate the connected components, identify the text-block candidates, and filter them. This combination of different techniques makes the proposed approach promising to locate the identification code in wagons of different formats and presenting a bad maintenance. Experimental results on more than 2500 video frames containing 116 different codes have shown that the proposed method may reach about 85% of correct code location. Resumo — este artigo apresenta um método de localização de códigos de identificação de vagões de trem em vídeos digitais. Para tal, técnicas de limiarização e multi-limiarização combinadas com detectores de bordas, morfologia matemática e filtragem por fator de compacidade são usadas para segmentar cada quadro do vídeo, localizar os componentes conexos, identificar os candidatos a bloco de texto e filtrá-los. Esta combinação de diferentes técnicas torna a abordagem proposta inovadora na localização do código de identificação em vagões de diferentes formatos (graneleiros, tanques e plataformas) e apresentando má conservação. Experimentos em mais de 2500 quadros de vídeos contendo 116 códigos diferentes mostram que o método proposto é promissor atingindo taxas de detecção correta próxima de 85%. Keywords-component; vídeos de trem, código de vagão, segmentação, limiarização. I. INTRODUÇÃO A tecnologia digital avança rapidamente motivada pelo aumento surpreendente na quantidade de informações disponíveis em formato multimídia (vídeos, imagens e sons) que requerem algum processamento. Neste contexto, há uma demanda emergente por soluções que permitam resgatar informações textuais contidas em vídeos digitais. Embora muitos esforços tenham sido feitos nesta direção, a detecção de texto em vídeos ainda é um problema desafiador que tem recebido atenção de pesquisadores nacionais e internacionais. Na literatura é possível encontrar diferentes abordagens para a detecção de texto em imagens e vídeos, contudo a maioria tem como objetivo detectar textos adicionados aos vídeos, ou ainda, processar vídeos com fundo homogêneo e pouco ruidoso. Neste sentido, Trung et al [1] propuseram detectar textos em imagens de vídeo similares aos exemplos mostrados na Figura 1. O método proposto em [1], basicamente apresenta três etapas. Inicialmente, o operador passa-alta do Laplaciano é usado para detectar regiões candidatas a textos. A saída do Laplaciano é usada para cálculo do mapa MGD (do inglês, Maximum Gradient Difference) proposto por Wong et al [2]. Este permite capturar as variações existentes entre os valores positivos e negativos do gradiente, as quais correspondem às transições entre texto e fundo da cena. Em seguida, o algoritmo K-médias é aplicado ao mapa MGD para classificar os pixels em dois grupos, texto e não-texto. Um refinamento de fronteiras e uma análise do perfil de projeção permitem determinar a fronteira exata para cada candidato a bloco de texto. Por fim, os autores aplicam uma filtragem baseada em propriedades geométricas para eliminar blocos candidatos falsos. Os resultados sobre 101 imagens de vídeos contendo cenas de noticiário, esporte e clipes de filmes foram de 93,3% de taxa de detecção de texto, incluindo textos parcialmente detectados; 7,9% de taxa de falsa detecção e 12,0% de taxa de textos perdidos (não detectados). (a) (b) Figura 1. Exemplos de imagens processadas em [1]. (a) texto sobre vídeo de esporte e (b) texto sobre vídeo de noticiário

Transcript of Abordagem de Localização de Códigos de Vagões de Trem em Vídeo...

Abordagem de Localização de Códigos de Vagões de Trem em Vídeo Digital

Marcelo Souza Ramos, Jacques Facon, Alceu de Souza Britto Jr

PPGIa - Programa de Pós–Graduação em Informática aplicada

PUCPR Pontifícia Universidade Católica do Paraná

Rua Imaculada Conceição 1155, 80215-901 Curitiba-Pr, Brasil

[email protected] , [email protected] , [email protected]

Abstract — this paper presents a method for the location of the identification code of train wagons from digital videos. For this purpose, thresholding and multithresholding based techniques combined with edge detectors, mathematical morphology and filtering by compacity factor are used to segment each video frame, locate the connected components, identify the text-block candidates, and filter them. This combination of different techniques makes the proposed approach promising to locate the identification code in wagons of different formats and presenting a bad maintenance. Experimental results on more than 2500 video frames containing 116 different codes have shown that the proposed method may reach about 85% of correct code location.

Resumo — este artigo apresenta um método de localização de códigos de identificação de vagões de trem em vídeos digitais. Para tal, técnicas de limiarização e multi-limiarização combinadas com detectores de bordas, morfologia matemática e filtragem por fator de compacidade são usadas para segmentar cada quadro do vídeo, localizar os componentes conexos, identificar os candidatos a bloco de texto e filtrá-los. Esta combinação de diferentes técnicas torna a abordagem proposta inovadora na localização do código de identificação em vagões de diferentes formatos (graneleiros, tanques e plataformas) e apresentando má conservação. Experimentos em mais de 2500 quadros de vídeos contendo 116 códigos diferentes mostram que o método proposto é promissor atingindo taxas de detecção correta próxima de 85%.

Keywords-component; vídeos de trem, código de vagão, segmentação, limiarização.

I. INTRODUÇÃO A tecnologia digital avança rapidamente motivada pelo

aumento surpreendente na quantidade de informações disponíveis em formato multimídia (vídeos, imagens e sons) que requerem algum processamento. Neste contexto, há uma demanda emergente por soluções que permitam resgatar informações textuais contidas em vídeos digitais. Embora muitos esforços tenham sido feitos nesta direção, a detecção de texto em vídeos ainda é um problema desafiador que tem recebido atenção de pesquisadores nacionais e internacionais.

Na literatura é possível encontrar diferentes abordagens para a detecção de texto em imagens e vídeos, contudo a maioria tem como objetivo detectar textos adicionados aos vídeos, ou ainda, processar vídeos com fundo homogêneo e pouco ruidoso. Neste sentido, Trung et al [1] propuseram detectar textos em imagens de vídeo similares aos exemplos mostrados na Figura 1. O método proposto em [1], basicamente apresenta três etapas. Inicialmente, o operador passa-alta do Laplaciano é usado para detectar regiões candidatas a textos. A saída do Laplaciano é usada para cálculo do mapa MGD (do inglês, Maximum Gradient Difference) proposto por Wong et al [2]. Este permite capturar as variações existentes entre os valores positivos e negativos do gradiente, as quais correspondem às transições entre texto e fundo da cena. Em seguida, o algoritmo K-médias é aplicado ao mapa MGD para classificar os pixels em dois grupos, texto e não-texto. Um refinamento de fronteiras e uma análise do perfil de projeção permitem determinar a fronteira exata para cada candidato a bloco de texto. Por fim, os autores aplicam uma filtragem baseada em propriedades geométricas para eliminar blocos candidatos falsos. Os resultados sobre 101 imagens de vídeos contendo cenas de noticiário, esporte e clipes de filmes foram de 93,3% de taxa de detecção de texto, incluindo textos parcialmente detectados; 7,9% de taxa de falsa detecção e 12,0% de taxa de textos perdidos (não detectados).

(a) (b)

Figura 1. Exemplos de imagens processadas em [1]. (a) texto sobre vídeo de esporte e (b) texto sobre vídeo de noticiário

Uma abordagem interessante para detecção de textos em vídeos é apresentada em [3]. Os autores propuseram uma estratégia baseada em integração de múltiplos quadros (em inglês, MFI – Multiple Frame Integration). A primeira fase do método tem por objetivo a identificação de blocos de texto com base na hipótese de que estes aparecem de forma contínua em quadros consecutivos de vídeo. Além disto, os blocos são considerados de texto somente se apresentarem semelhança segundo três características baseadas na localização, distribuição de borda e contraste ao longo dos quadros. Em uma segunda fase, ocorre a filtragem dos blocos de texto a partir de uma métrica que considera a claridade do texto. Esta é medida usando o mapa de intensidade onde são selecionados os blocos com textos “limpos” para integração. Na última fase, os blocos de texto são integrados utilizando as integrações médias e mínimas calculadas para o texto e o fundo da imagem. O objetivo é obter o fundo e o texto limpos e com alto contraste para posterior reconhecimento. A avaliação do desempenho do método proposto em [3] é realizada sobre uma base de vídeos experimental contendo 10 vídeos coletados na web. Infelizmente não foram apresentados no artigo exemplos das imagens de vídeo processadas. Contudo, os autores afirmam que os vídeos apresentam fundos complexos, baixo contraste e texto borrado. Foram rotuladas manualmente as linhas de textos e a quantidade de caracteres chineses nos vídeos, totalizando 1.809 linhas e 11.312 caracteres chineses. O desempenho do método foi medido através do reconhecimento dos textos detectados, sendo obtido 60,43% e 57,43 %, respectivamente para precisão e revocação.

Pratheeba et al [4] descrevem uma abordagem utilizando a detecção do texto com base no padrão binário local dominante (em inglês, DLBP - Dominant Local Binary Pattern). O DLBP é usado para descrever a textura em torno do pixel de transição texto/fundo. A abordagem calcula as freqüências de ocorrência de padrões invariantes definidos nos grupos de LBP (do inglês, Local Binary Pattern). Estes padrões são classificados em ordem decrescente, sendo que aqueles que apresentam maior freqüência de ocorrência são considerados dominantes. A abordagem foi testada utilizando-se 15 seqüências de vídeo MPEG-1 com uma resolução de 320 x 240 totalizando 5.299 quadros. Todos os textos apresentam orientação horizontal. A taxa de erro na detecção de texto ficou em 7,26%. A Figura 2 apresenta exemplos dos quadros de vídeos processados.

(a) (b)

Figura 2. Exemplos de imagens processadas em [4]. (a) texto em vídeo de noticiário e (b) texto em objeto na cena

Outra interessante alternativa foi proposta em [5]. Palaiahnakote et al exploram uma métrica de retidão de bordas para a eliminação de bordas não significativas. O método proposto encontra blocos de texto candidatos a partir de heurísticas definidas com base na retidão das bordas da imagem. A projeção do perfil das bordas da imagem e informação adicional sobre o alinhamento do texto são usadas para detecção do bloco de texto, resultando em poucos falsos candidatos. Os autores assumiram que os textos apresentados nas imagens estão na horizontal com espaçamento uniforme entre as palavras. A precisão do método é definida como o número de imagens para as quais o bloco de texto candidato foi corretamente escolhido dividido pelo número total de imagens. O método identificou bloco de textos candidatos com sucesso para 93 imagens de um total de 101, ou seja, uma precisão de 92%.

(a) (b)

Figura 3 – Exemplos de imagens processadas em [5]. (a) texto em vídeo de noticiário e (b) texto em cena de videoclipe

Apesar da evidente contribuição dos métodos encontrados

na literatura, a detecção de textos em vídeos complexos ainda é um problema em aberto. Exceto a imagem (b) na Figura 2, as demais imagens nas Figuras 1, 2 e 3 não contemplam situações onde o texto está escrito nos objetos da cena como é o caso da detecção de códigos em vagões. Nesse tipo de aplicação o contraste entre fundo e texto raras vezes é comparável ao observado nas imagens processadas pelas abordagens aqui referenciadas.

Desta forma, o foco de nosso artigo é a localização de códigos de identificação de vagões em vídeos, os quais foram capturados durante a entrada e saída da composição em estações. A Figura 4 apresenta exemplos das imagens de vídeos capturadas. Nestas é possível observar os fatores de complexidade que inviabilizam o uso de um método voltado para a detecção de textos em vídeos que apresentam bom contraste entre texto e fundo, algum padrão para a posição do texto, fundo de cor homogênea, dentre outras premissas. Ao contrário, o texto a ser localizado faz parte do objeto na cena (vagão), na maioria das vezes apresenta pouco contraste com relação ao fundo, e sofre com a variação de cores e a presença de ruídos causados por intempéries e vandalismo.

Na abordagem para a localização de códigos de identificação de vagões em vídeos de trem proposta neste artigo, cada imagem do vídeo é segmentada por técnicas de limiarização aliadas a detectores de bordas. A associação morfologia matemática e filtragem por fator de compacidade são usadas para localizar, identificar e filtrar os blocos

candidatos de texto dando como saída uma relação reduzida de alternativas para futuro reconhecimento.

Figura 4. Exemplos das imagens de vídeos dos diferentes formatos de vagões com o código de identificação em destaque

Este artigo está estruturado em quatro seções. A Seção II

detalha cada etapa da metodologia proposta. Na Seção III são

apresentados os resultados obtidos a partir de bases de imagens de vídeos de vagões e a avaliação numérica da segmentação obtida realizada para mensurar a eficiência da abordagem proposta. Na Seção IV é apresentada a conclusão e por fim na Seção V as referências bibliográficas.

II. METODOLOGIA A metodologia proposta tem como principal objetivo

localizar os blocos de textos relativos aos códigos de identificação dos vagões. A Figura 5 ilustra a metodologia empregada, na qual é possível identificar 4 etapas principais, a saber: a) Pré-processamento; b) Segmentação texto/fundo; c) Detecção dos blocos de texto candidatos; d) Eliminação de blocos de texto falsos (Pós-Processamento).

Figura 5. Visão geral do método proposto

A. Pré-Processamento Cada quadro de vídeo é inicialmente convertido para

escala de cinza contendo 256 níveis. Essa conversão permite reduzir as variações de cores provenientes dos tipos diferentes de vagão, do desgaste na pintura e das sujeiras ocasionadas pelas condições climáticas, assim como preservar a tonalidade do código de identificação.

B. Segmentação Cada imagem convertida em níveis de cinza é segmentada

por três técnicas de limiarização, a técnica de multi-limiarização proposta por Papamarkos e Gatos [6], a limiarização local adaptativa de Bernsen [7] e a limiarização local adaptativa de Wellner [8]. A motivação para isto é minimizar a perda de códigos já no processo de limiarização. A complementariedade dos métodos empregados é utilizada

como alternativa para tratar as diferentes situações de contraste entre texto e fundo. O intuito é utilizar as três técnicas acima em conjunto detectando os contornos das imagens limiarizadas. Para isto, cada imagem limiarizada é filtrada pelo filtro passa-alta do Laplaciano com máscara 3x3. Em seguida, a imagem do Laplaciano é normalizada no intervalo [0, 1] e uma dilatação morfológica com o elemento estruturante quadrado 3x3 é então aplicada. Usa-se essa imagem dilatada para a localização dos contornos. A Figura 6 apresenta o diagrama completo da etapa de Segmentação.

Figura 6. Diagrama da etapa de Segmentação

Em seguida, uma lista única concatenando os contornos encontrados pelas técnicas de limiarização é gerada. De posse de uma lista única dos contornos encontrados é realizado um filtro pela altura gerando uma nova imagem colorida.

Figura 7. Imagem após o processo de multi-limiarização proposta N.Papamarkos e B. Gatos [6]

Figura 8. Imagem após o processo de limiarização local adaptativa de

Bernsen [7]

Figura 9. Imagem após o processo de limiarização local adaptativa utilizando a porcentagem de média móvel de Wellner [8]

.

Após testes exaustivos, os parâmetros escolhidos respectivamente para cada técnica são a segmentação em dois níveis de cinza, um valor de contraste igual a 35 e um valor de porcentagem de média móvel igual a 5%. As Figuras 7, 8 e 9 ilustram os resultados de cada segmentação no caso de uma imagem com contraste irregular de um vagão, apresentando desgastes na pintura, sujeira, e textos de tamanhos diversos. Observa-se que o código de interesse que está localizado no canto superior esquerdo da imagem é perdido na Figura 9.

Filtragem de Componentes Conexos (filtragem por Altura): uma filtragem inicial baseada na altura dos componentes conexos detectados é empregada para remover aqueles que não têm aparência de blocos de código de identificação. Com base em experimentos realizados foram definidos como valores válidos de altura dos códigos do vagão, o intervalo [10, 50] em pixels. As Figuras 10 a 12 apresentam os contornos detectados correspondentes a cada técnica de limiarização adotada e a Figura 13 apresenta todos os contornos detectados concatenados em uma única imagem.

A Figura 14 ilustra a imagem resultante da filtragem por altura na qual é possível perceber que os componentes cuja forma não atende à heurística usada foram removidos.

Figura 10. Resultado da extração de contornos sobre o resultado da técnica de multi-limiarização proposta por Papamarkos e Gatos [6]

Figura 11. Resultado da extração de contornos sobre o resultado da técnica de limiarização local adaptativa de Bernsen [7]

Figura 12. Resultado da extração de contornos sobre o resultado da técnica de limiarização local adaptativa de Wellner [8]

Figura 13. Resultados da concatenação dos contornos

Figura 14. Resultado da imagem após ter sido realizado a filtragem por altura

C. Detecção de Blocos de Texto Normalmente um bloco de texto apresenta internamente um

maior número de descontinuidades observadas entre o fundo e os caracteres, o que não acontece em blocos onde não ocorre texto. Com o intuito de realçar essas descontinuidades e assim diferenciar melhor os blocos de texto, o filtro passa-alta do Laplaciano é novamente usado e o resultado é normalizado no intervalo [0, 1] (Figura 15). A detecção dos blocos verdadeiros de texto faz-se utilizando o processo de diferença do máximo gradiente (MGD - Maximum Gradient Difference) entre os valores máximos e mínimos numa janela 1xN [2]. O valor de MGD no pixel (i, j) é calculado a partir da imagem do Laplaciano normalizado conforme a Equação (1). A Figura 16 mostra o resultado do MGD, na qual é possível perceber que o texto nos blocos verdadeiros gera regiões com textura diferenciada.

(1)

Figura 15. Imagem filtrada por Laplaciano

Figura 16. Imagem MGD da imagem filtrada por Laplaciano.

D. Eliminação de Blocos de Texto Falsos

A etapa de eliminação de blocos de texto falsos é realizada empregando um filtro baseado no fator de compacidade. O fator de compacidade é a razão entre área (A) e o perímetro (P) de um conjunto conforme a Equação (2).

(2)

Caso o bloco de texto esteja no intervalo Ifc, definido

experimentalmente, torna-se um candidato a ser um código de vagão. A Figura 17 mostra a imagem de vagão após a filtragem pelo fator de compacidade.

Figura 17. Imagem depois da filtragem por fator de compacidade

Ainda na etapa de eliminação dos blocos de textos falsos, uma última filtragem é realizada utilizando propriedades geométricas. Com base nos retângulos que contêm os textos foram definidas três heurísticas, a saber: um intervalo para a largura RL, um intervalo para a altura RH, e uma relação entre estas duas características que permite descartar retângulos com altura maior que a largura. Um exemplo do resultado final da localização do código de identificação é ilustrado na Figura 18.

Figura 18. Localização do código de identificação

III. EXPERIMENTOS

Para mensurar a eficiência da abordagem proposta, um banco de vídeos de trens entrando ou saindo de estações foram avaliados. Um total de 2.582 quadros contendo vagões, sendo 116 vagões diferentes e com 3 possíveis formatos (tanque, graneleiros e plataforma) foram processados. A Tabela 1 apresenta os valores para os parâmetros do método que apresentaram os melhores resultados, os quais foram obtidos experimentalmente.

Figura 19. Exemplos de detecção correta em vagões de diferentes formatos

Figura 20. Exemplos de falha na detecção

TABELA 1 – PARÂMETROS DE CONFIGURAÇÃO DO MÉTODO QUE FORNECERAM OS MELHORES RESULTADOS

Parâmetro Valor

Tamanho da Janela MGD 11

Fator de Compacidade Intervalo Ifc 0,06 a 0,25

Multilimiarização 2 níveis

Limiarização de Bernsen Contraste = 35

Limiarização de Wellner % média móvel = 5

Intervalo para o Filtro de Altura (RH) [10, 50]

Intervalo para o Filtro de Largura (RL) [65, 200]

TABELA 2 - RESULTADOS EXPERIMENTAIS

Descrição do Indicador Valor

Taxa de acerto na localização 84,48%

Taxa de erro na localização 15,52 %

Média e desvio padrão do número de blocos candidatos 5,3 (+/- 2,59)

A Tabela 2 resume os resultados experimentais. A

localização foi considerada correta quando o método conseguiu localizar o código de identificação do vagão em pelo menos um dos diferentes quadros adjacentes onde este aparece no vídeo. A localização de códigos de identificação foi bem sucedida em 84,48% do total de 2.582 quadros de vagões, o erro sendo de 15,52%. As Figuras 19 e 20 apresentam exemplos de localização correta e incorreta, respectivamente. Na Figura 20 pode-se observar que a motivação para a falha está na má conservação dos vagões.

O número médio de blocos candidatos foi de 5,03 por

quadro processado, e o desvio padrão foi em 2,59. O que representam valores baixos levando em consideração a complexidade dos vídeos de vagões e a quantidade e a falta de normalização das informações presentes nos vagões. Assim sendo, estes resultados foram considerados promissores uma vez que não foram consideradas informações de contexto na localização, como por exemplo, uma delimitação da região onde o código poderia aparecer.

IV. CONCLUSÕES

Neste artigo foi apresentada uma metodologia de localização de códigos de identificação de vagões em vídeos de trem. Baseada numa combinação de segmentações por técnicas de limiarizações locais e de multi-limiarização e usando pouco conhecimento à priori, a abordagem proposta se mostrou eficiente em localizar o código de identificação em vagões graneleiros, tanques e plataformas apresentando variações muito grandes em termos de tamanho e local do código, desgaste na pintura e sujeiras. O uso do processo MGD foi decisivo para identificar as regiões genuínas de texto candidatas. O critério de fator de compacidade se mostrou delicado em definir. Futuramente pretende-se substituir o fator de compacidade por outros critérios menos empíricos, além do uso de um OCR (Optical Character Recognition) para orientar a busca pelo código.

V. REFERENCIAS [1] Trung Quy Phan, Palaiahnakote Shivakumara and Chew Lim Tan,

“A Laplacian Method for Video Text Detection”, 10th ICDAR International Conference on Document Analysis and Recognition 2009, pp 66-70.

[2] Wong E. K. and Chen M., “A New Robust Algorithm for Video Text Extraction”, Pattern Recognition 36, 2003, pp 1397-1406.

[3] Jian Yi, Yuxin Peng, and Jianguo Xiao, “Using Multiple Frame Integration for the Text Recognition of Vídeo”, 10th ICDAR International Conference on Document Analysis and Recognition, 2009, pp 71-75.

[4] T.Pratheeba , Dr.V.Kavitha and S.Raja Rajeswari, “Morphology Based Text Detection and Extraction from Complex Video Scene”, International Journal of Engineering and Technology Vol.2(3), 2010, pp 200-206.

[5] Palaiahnakote Shivakumara, Weihua Huang and Chew Lim Tan, “Efficient Video Text Detection using Edge Features”, 19th International Conference on Pattern Recognition (ICPR 2008), pp 1-4.

[6] Papamarkos N. and Gatos B., “A New Approach for multilevel Threshod Selection”, CVGIP 94 Graphical Models And Image Processing, Vol 56, No. 5, Sept. 1994, pp 357-370.

[7] Bernsen, J., “Dynamic Thresholding of gray-level images”, Proc. Eighth Int'l Conf. on Pattern Recognition, Paris, France, oct. 1986, pp 1251-1255.

[8] Wellner Pierre D., “Adaptive Thresholding for the DigitalDesk”, Technical Report EPC-1993-110, p17.