Pesquisa em imagens combinando informação visual e informação textual.
Transcript of Pesquisa em imagens combinando informação visual e informação textual.
Pesquisa em imagens combinando informação visual e
informação textual
Introdução
O aumento de quantidade de informação visual utilizada criou a necessidade de novos métodos nas áreas de pesquisa e recuperação de imagens, menos dependentes da intervenção humana.
O problema da interpretação de conteúdos
Na recuperação automática de imagens está sempre presente o problema do semantic gap.
Como remediar este problema?
Algumas propostas anteriores
Utilização de Latent Semantic Indexing (LSI) com anglogramas (Zhao e Grosky).
Associação de emoções a imagens (Colombo et al).
Construção de estruturas de conhecimento (Barnard et al, Benitez e Chang).
A proposta para um protótipo de recuperação de imagens
Baseado no LSI.Com os objectivos de:
Comparar os resultados obtidos com e sem utilização de características de baixo nível;
Verificar a prestação do LSI quando é utilizado com um conjunto de dados desfavorável;
Testar a eficácia de cada uma das características de baixo nível do MPEG-7.
Funcionamento do protótipo
Na fase de indexação é criada uma matriz de termos por documentos e é realizado o LSI sobre essa matriz.
Quando é colocada uma interrogação a matriz é utilizada como num modelo vectorial comum.
Criação da matriz de indexação
Documentos
A
t x d
Documento 1
Extracção de características de
baixo nível
Documento 2
Documento N
Composição do ficheiro de indexação
Atribuição de pesos
Criação de ficheiros de estrutura para
cada tipo de documento
Extracção de termos do texto
Ter
mo
s +
C
oefic
ien
tes
num
éric
os
O MPEG-7
Foi criado com o objectivo de promover a integração de anotações provenientes de fontes de dados diversas num único conjunto de estruturas de anotação e facilitar a pesquisa e recuperação eficientes de informação através da utilização destas estruturas.
Características de imagem do módulo XM
O eXperimentation Model é a plataforma de testes dos descritores do MPEG-7.
As suas características são classificadas como sendo relativas à cor ou à textura, mas algumas fornecem também informação espacial.
Características de imagem utilizadas
Scalable Color Descriptor (SCD)Color Structure Descriptor (CSD)Color Layout Descriptor (CLD)Homogeneous Texture Descriptor (HTD)Edge Histogram Descriptor (EHD)
Ex-votos
Definição: “Um objecto, quase sempre de índole piedosa, que se oferece a Deus ou a um Santo, em cumprimento de um voto.”
Ex-votos
Não têm um estilo distinto.Muitas vezes um mesmo santo é
representado em diferentes ex-votos com postura e simbologia semelhante.
Dados de teste
Pinturas votivas (e as descrições nelas inscritas) retiradas do livro “Do Gesto à Memória”.
Segundo este livro, na maioria dos casos, os ex-votos escolhidos são constituídos por dois elementos: a representação do suposto milagre e a representação da entidade à qual o agradecimento é destinado.
Conclusões
O protótipo concebido a partir desta proposta produziu bons resultados com a utilização de texto e de características da imagem em simultâneo, melhorando os resultados obtidos, quer com a utilização de comparação vectorial, quer com a utilização do LSI apenas com texto, para uma grande gama de documentos recuperados.
Conclusões
Na comparação dos desempenhos individuais dos cinco descritores do módulo XM do MPEG-7 usados, o Edge Histogram Descriptor obteve os melhores resultados.
Experiências futuras
Utilizar segmentação.Utilizar query relevance feedback.Utilizar outras métricas de distância entre
vectores que não o coseno.
Experiências futuras
Verificar os resultados do protótipo com um conjunto de dados em que cor e textura sejam um factor de distinção das imagens mais relevante.
Utilizar como dados de teste documentos que conjuguem anotações textuais com vídeo.