Anotação de Imagens

Preview:

DESCRIPTION

My presentation about image tagging at UFRGS

Citation preview

Anotação de Imagens

Vitor Pamplonavitor@vitorpamplona.com

Yansong Feng and Mirella LapataAutomatic Image Annotation Using Automatic Image Annotation Using

Auxiliary Text InformationAuxiliary Text Information Proceedings of ACL-08: HLT, pages 272–280

2Copyright Vitor F. Pamplona

Como criar palavras-chave?

3Copyright Vitor F. Pamplona

Formalmente

● Dado uma imagem e suas características

● E um conjunto de palavras-chave

● Encontre o que melhor descreve

V I={v1,v2,v3,}

W I={w1,w2,w3,}

I

W p⊂W I

W p I

4Copyright Vitor F. Pamplona

Processo Tradicional

5Copyright Vitor F. Pamplona

Passo 1: Treinamento

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

6Copyright Vitor F. Pamplona

Passo 2: Segmentação

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

7Copyright Vitor F. Pamplona

Passo 3: Extrai uma assinatura

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

8Copyright Vitor F. Pamplona

Passo 4: Compara assinaturas

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

9Copyright Vitor F. Pamplona

Passo 5: Palavras-chave comuns

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

10Copyright Vitor F. Pamplona

Passo 6: Associa uma anotação

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

Tigre

11Copyright Vitor F. Pamplona

Passo 7: Associa uma relevância

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

Tigre, 100%

12Copyright Vitor F. Pamplona

Para anotar uma nova imagem

13Copyright Vitor F. Pamplona

Passo 1: Segmentar

14Copyright Vitor F. Pamplona

Passo 2: Computar assinatura

12, 45, 67, 35, 67, 78, ...

15Copyright Vitor F. Pamplona

Passo 3: Comparar com a base

12, 45, 67, 35, 67, 78, ...

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

16Copyright Vitor F. Pamplona

Passo 3: Buscar anotação

12, 45, 67, 35, 67, 78, ...

12, 45, 67, 45, 67, 78, ...

12, 45, 67, 65, 67, 15, ...

12, 45, 67, 45, 85, 78, ...

Tigre, 100%

17Copyright Vitor F. Pamplona

Passo 4: Repetir o processo

18Copyright Vitor F. Pamplona

Passo 5: Organizar as palavras

Tigre, 100%Água, 70% Grama, 30%

19Copyright Vitor F. Pamplona

Feng e Lapata 2008

● Anotação de imagens● Fusão de VC, RI e PLNVC, RI e PLN

● Contribuições● Textos de internet com imagens● Sem anotações préviasSem anotações prévias para treinamento● O sistema é treinado com o texto● Muito ruídoMuito ruído no texto● Possibilita a anotação de novas palavras-chavenovas palavras-chave

20Copyright Vitor F. Pamplona

Entrada do modelo

Texto

Legenda

21Copyright Vitor F. Pamplona

Assunções do modelo

● Legenda descreve a imagem: ● DenotativamenteDenotativamente: descreve objetos● ConotativamenteConotativamente: descreve ações/eventos

● Não é possível nomear todos os objetosNão é possível nomear todos os objetos● Os principais objetos devem ser nomeados● O documento está relacionado a imagem

22Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

23Copyright Vitor F. Pamplona

Descrição do Modelo

Características Visuais da Imagem

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

24Copyright Vitor F. Pamplona

Descrição do Modelo

Características Visuais da Imagem

Palavras do Texto ou do Caption

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

25Copyright Vitor F. Pamplona

Descrição do Modelo

Características Visuais da Imagem

Palavras do Texto ou do Caption

Tuplas (imagem-palavra) do treinamento

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

26Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Características Visuais da Imagem

Palavras do Texto ou do Caption

Tuplas (imagem-palavra) do treinamento

Probabilidade da tupla s

27Copyright Vitor F. Pamplona

Descrição do Modelo

Probabilidade da tupla

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

s

28Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

P s=1N D

● Distribuição uniforme

29Copyright Vitor F. Pamplona

Descrição do Modelo

Probabilidade dos ocorrerem quando ocorre

V I

s

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

30Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

P V I∣s=∏r=1

N V I

P g v r∣s

31Copyright Vitor F. Pamplona

P V I∣s=∏r=1

N V I

P g v r∣s

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Probabilidade de cada um dos correrem quando ocorre

V I

s

32Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Distribuição gaussiana

P V I∣s=∏r=1

N V I

P g v r∣s

P g v r∣s=1nsv∑i=1

nsv exp v r−v iT∑

−1v r−v i

2kk∣∑ ∣

33Copyright Vitor F. Pamplona

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Descrição do Modelo

Probabilidade dos ocorrerem quando ocorre

W I

s

34Copyright Vitor F. Pamplona

Descrição do Modelo

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Distribuição de Bernoulli

35Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

36Copyright Vitor F. Pamplona

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Pest w∣s= Pest w∣sa 1−Pest w∣sd

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

37Copyright Vitor F. Pamplona

Pest w∣s= Pest w∣sa 1−Pest w∣sd

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Anotações de Texto de ss

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

Parâmetro que melhor se adapta ao treinamento

38Copyright Vitor F. Pamplona

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

Descrição do Modelo

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Pest w∣s= Pest w∣sa 1−Pest w∣sd

39Copyright Vitor F. Pamplona

Descrição do Modelo

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Pest w∣s= Pest w∣sa 1−Pest w∣sd

Pest w∣sa=bw , saN w

N D

1: se está em 0: caso contrário

w sa

40Copyright Vitor F. Pamplona

Descrição do Modelo

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Pest w∣s= Pest w∣sa 1−Pest w∣sd

41Copyright Vitor F. Pamplona

Descrição do Modelo

P W I∣s=∏w∈W

P w∣s∏w∉W

1−P w∣s

P V I ,W I =∑s

D

P V I∣sP W I∣sP s

Pest w∣s= Pest w∣sa 1−Pest w∣sd

Pest w∣sa=N w , sd

N sd

Vezes que ocorre em

Total de palavras do doc

w sd

42Copyright Vitor F. Pamplona

Validação

● 28812881 notícias da BBC News● PLN

● Part of Speech TaggerPart of Speech Tagger● Remover tudo exceto verbos, subst., adjetivos ● Extrai o lemalema das palavras

● Vocabulário 8309 palavras

43Copyright Vitor F. Pamplona

Validação

● Processamento das imagens● Segmentação a partir de um grid regular 6x5grid regular 6x5

● Assinatura● Média e desvio padrão RGB, LUV, LAB● Saída de uma transformação DCT● Saída de um filtro de Gabor ● Saída de um algoritmo de detecção de borda● Divisão entre nro de pixels de borda e não bordaDivisão entre nro de pixels de borda e não borda

44Copyright Vitor F. Pamplona

Resultados: Precisão

Top10 Top15 Top200

2

4

6

8

10

12

14

16

Feng08Lavenko03DocTitle

● Anotações corretas / todas as anotações

45Copyright Vitor F. Pamplona

Resultados: Recall

Top10 Top15 Top200

5

10

15

20

25

30

35

40

Feng08Lavenko03DocTitle

● Anotações corretas / anotações manuais

46Copyright Vitor F. Pamplona

Resultados: F1

Top10 Top15 Top200

5

10

15

20

25

Feng08Lavenko03DocTitle

● Média harmônica entre precisão e recall

Precisão∗RecallPrecisãoRecall /2

Perguntas?

Vitor Pamplonavitor@vitorpamplona.com

Yansong Feng and Mirella LapataAutomatic Image Annotation Using Automatic Image Annotation Using

Auxiliary Text InformationAuxiliary Text Information Proceedings of ACL-08: HLT

50Copyright Vitor F. Pamplona

Créditos: ● http://www.flickr.com/photos/mkengstrom/77367321/

● http://www.flickr.com/photos/66164549@N00/2919179438/

● http://www.flickr.com/photos/digitalart/1906662004/

● http://www.flickr.com/photos/mumbleyjoe/1520473493/

● Yansong Feng and Mirella Lapata. Automatic Image Annotation Using Auxiliary Text Information. Proceedings of ACL-08:HLT, pages 272-280. 2008.

Recommended