Pesquisa em imagens combinando informação visual e informação textual.

Pesquisa em imagens combinando informação visual e

informação textual

Introdução

O aumento de quantidade de informação visual utilizada criou a necessidade de novos métodos nas áreas de pesquisa e recuperação de imagens, menos dependentes da intervenção humana.

O problema da interpretação de conteúdos

Na recuperação automática de imagens está sempre presente o problema do semantic gap.

Como remediar este problema?

Algumas propostas anteriores

Utilização de Latent Semantic Indexing (LSI) com anglogramas (Zhao e Grosky).

Associação de emoções a imagens (Colombo et al).

Construção de estruturas de conhecimento (Barnard et al, Benitez e Chang).

A proposta para um protótipo de recuperação de imagens

Baseado no LSI.Com os objectivos de:

Comparar os resultados obtidos com e sem utilização de características de baixo nível;

Verificar a prestação do LSI quando é utilizado com um conjunto de dados desfavorável;

Testar a eficácia de cada uma das características de baixo nível do MPEG-7.

Funcionamento do protótipo

Na fase de indexação é criada uma matriz de termos por documentos e é realizado o LSI sobre essa matriz.

Quando é colocada uma interrogação a matriz é utilizada como num modelo vectorial comum.

Criação da matriz de indexação

Documentos

A

t x d

Documento 1

Extracção de características de

baixo nível

Documento 2

Documento N

Composição do ficheiro de indexação

Atribuição de pesos

Criação de ficheiros de estrutura para

cada tipo de documento

Extracção de termos do texto

Ter

mo

s +

C

oefic

ien

tes

num

éric

os

O MPEG-7

Foi criado com o objectivo de promover a integração de anotações provenientes de fontes de dados diversas num único conjunto de estruturas de anotação e facilitar a pesquisa e recuperação eficientes de informação através da utilização destas estruturas.

Características de imagem do módulo XM

O eXperimentation Model é a plataforma de testes dos descritores do MPEG-7.

As suas características são classificadas como sendo relativas à cor ou à textura, mas algumas fornecem também informação espacial.

Características de imagem utilizadas

Scalable Color Descriptor (SCD)Color Structure Descriptor (CSD)Color Layout Descriptor (CLD)Homogeneous Texture Descriptor (HTD)Edge Histogram Descriptor (EHD)

Ex-votos

Definição: “Um objecto, quase sempre de índole piedosa, que se oferece a Deus ou a um Santo, em cumprimento de um voto.”

Ex-votos

Não têm um estilo distinto.Muitas vezes um mesmo santo é

representado em diferentes ex-votos com postura e simbologia semelhante.

Dados de teste

Pinturas votivas (e as descrições nelas inscritas) retiradas do livro “Do Gesto à Memória”.

Segundo este livro, na maioria dos casos, os ex-votos escolhidos são constituídos por dois elementos: a representação do suposto milagre e a representação da entidade à qual o agradecimento é destinado.

Conclusões

O protótipo concebido a partir desta proposta produziu bons resultados com a utilização de texto e de características da imagem em simultâneo, melhorando os resultados obtidos, quer com a utilização de comparação vectorial, quer com a utilização do LSI apenas com texto, para uma grande gama de documentos recuperados.

Conclusões

Na comparação dos desempenhos individuais dos cinco descritores do módulo XM do MPEG-7 usados, o Edge Histogram Descriptor obteve os melhores resultados.

Experiências futuras

Utilizar segmentação.Utilizar query relevance feedback.Utilizar outras métricas de distância entre

vectores que não o coseno.

Experiências futuras

Verificar os resultados do protótipo com um conjunto de dados em que cor e textura sejam um factor de distinção das imagens mais relevante.

Utilizar como dados de teste documentos que conjuguem anotações textuais com vídeo.

Pesquisa em imagens combinando informação visual e informação textual.

Documents

Transcript of Pesquisa em imagens combinando informação visual e informação textual.