Visualização de Texto e Documento - 0.5cmSCC5836 paulovic/aulas/VIS/visualizacao-09_visualiz... ·

Embed Size (px)

Text of Visualização de Texto e Documento - 0.5cmSCC5836...

Visualizao de Texto e Documento

SCC5836 Visualizao Computacional

Prof. Fernando V. Paulovichhttp://www.icmc.usp.br/~paulovic

paulovic@icmc.usp.br

Instituto de Cincias Matemticas e de Computao (ICMC)Universidade de So Paulo (USP)

1 / 39

http://www.icmc.usp.br/~paulovic

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Documentos

5 Visualizao de Texto EstendidaVisualizao de SoftwareVisualizao de Resultados de BuscaVisualizao Temporal de Coleo de Documentos

6 Referncias

2 / 39

Introduo

Existe uma grande quantidade de informao disponvel naforma de documentos que precisa de ferramentas para poderser explorada

Pginas Web

Artigos cientficosNotcias de jornalPatentesetc.

3 / 39

Introduo

Existe uma grande quantidade de informao disponvel naforma de documentos que precisa de ferramentas para poderser explorada

Pginas WebArtigos cientficos

Notcias de jornalPatentesetc.

4 / 39

Introduo

Existe uma grande quantidade de informao disponvel naforma de documentos que precisa de ferramentas para poderser explorada

Pginas WebArtigos cientficosNotcias de jornal

Patentesetc.

5 / 39

Introduo

Existe uma grande quantidade de informao disponvel naforma de documentos que precisa de ferramentas para poderser explorada

Pginas WebArtigos cientficosNotcias de jornalPatentes

etc.

6 / 39

Introduo

Existe uma grande quantidade de informao disponvel naforma de documentos que precisa de ferramentas para poderser explorada

Pginas WebArtigos cientficosNotcias de jornalPatentesetc.

7 / 39

Introduo

Uma coleo de documentos pode ser definida como umcorpus composto de objetos como

PalavrasSentenasPargrafosDocumentosColees de documentos

Documentos podem ter associados metadados (autor, data,tamanho, citaes, etc.)

8 / 39

Introduo

Uma coleo de documentos pode ser definida como umcorpus composto de objetos como

PalavrasSentenasPargrafosDocumentosColees de documentos

Documentos podem ter associados metadados (autor, data,tamanho, citaes, etc.)

9 / 39

Introduo

Podemos definir documentos textuais em diferentes nveis

Nvel lxico: identificao de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nvel sinttico: identificao e anotao dos tokens, como,posio, classe, gnero - esse processo conhecido comoreconhecimento de entidadeNvel Semntico: extrao de significado e relacionamentosentre peas de conhecimento derivadas das estruturas sintticas

10 / 39

Introduo

Podemos definir documentos textuais em diferentes nveisNvel lxico: identificao de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.

Nvel sinttico: identificao e anotao dos tokens, como,posio, classe, gnero - esse processo conhecido comoreconhecimento de entidadeNvel Semntico: extrao de significado e relacionamentosentre peas de conhecimento derivadas das estruturas sintticas

11 / 39

Introduo

Podemos definir documentos textuais em diferentes nveisNvel lxico: identificao de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nvel sinttico: identificao e anotao dos tokens, como,posio, classe, gnero - esse processo conhecido comoreconhecimento de entidade

Nvel Semntico: extrao de significado e relacionamentosentre peas de conhecimento derivadas das estruturas sintticas

12 / 39

Introduo

Podemos definir documentos textuais em diferentes nveisNvel lxico: identificao de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nvel sinttico: identificao e anotao dos tokens, como,posio, classe, gnero - esse processo conhecido comoreconhecimento de entidadeNvel Semntico: extrao de significado e relacionamentosentre peas de conhecimento derivadas das estruturas sintticas

13 / 39

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Documentos

5 Visualizao de Texto EstendidaVisualizao de SoftwareVisualizao de Resultados de BuscaVisualizao Temporal de Coleo de Documentos

6 Referncias

14 / 39

Modelo de Espao Vetorial

No modelo de espao vetorial, um vetor construdo paracada objeto cujas dimenses representam palavras e suasfrequncias ponderadas

Normalmente rudo removido eliminando stopwords e aspalavras restantes so lematizadas

Existem diversos esquemas de ponderao, o mais conhecido o term frequency inverse document frequency (tf-idf)

tfidf (w) = tf (w) log(

ndf (w)

)com tf (w) a frequncia do termo w, df (w) o nmero dedocumentos que contm w e n o nmero de documentos

15 / 39

Modelo de Espao Vetorial

No modelo de espao vetorial, um vetor construdo paracada objeto cujas dimenses representam palavras e suasfrequncias ponderadas

Normalmente rudo removido eliminando stopwords e aspalavras restantes so lematizadas

Existem diversos esquemas de ponderao, o mais conhecido o term frequency inverse document frequency (tf-idf)

tfidf (w) = tf (w) log(

ndf (w)

)com tf (w) a frequncia do termo w, df (w) o nmero dedocumentos que contm w e n o nmero de documentos

16 / 39

Modelo de Espao Vetorial

No tfidf importncia de um termo em um documento diretamente proporcional a sua frequncia (tf (w)) nesse einversamente proporcional a seu aparecimento nos outrosdocumentos (df (w))

17 / 39

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Documentos

5 Visualizao de Texto EstendidaVisualizao de SoftwareVisualizao de Resultados de BuscaVisualizao Temporal de Coleo de Documentos

6 Referncias

18 / 39

Visualizao de Documento

Documentos podem ser individualmente visualizados em nveislxicos e sintticos

19 / 39

Tag Clouds

Na representao de tag clouds, tokens so coloridos e temtamanho proporcional a sua frequncia

(a)

(b)

Figura: Representaes usando (a) TagCrowd e (b) Wordle.

20 / 39

WordTree

Na tcnica WordTree a frequncia e o contexto dos termos soapresentados por meio de uma rvore cuja raiz um termoescolhido pelo usurio

http://www-958.ibm.com/software/data/cognos/manyeyes/visualize/testimony-of-william-jefferson-cli/versions/1

21 / 39

http://www-958.ibm.com/software/data/cognos/manyeyes/visualize/testimony-of-william-jefferson-cli/versions/1http://www-958.ibm.com/software/data/cognos/manyeyes/visualize/testimony-of-william-jefferson-cli/versions/1

TextArc

Na tcnica TextArc frases de um texto so desenhadas naborda de uma elipse, os termos mais frequentes sodesenhados dentro dela e ligaes entre os termos e as frasesso apresentadas

http://www.textarc.org/

22 / 39

http://www.textarc.org/

ArcDiagrams

A tcnica ArcDiagram pode ser usada para identificarrepeties de tokens dentro de um texto

Figura: Visualizao do Minueto em Sol maior de Bach.

23 / 39

Literature Fingerprints

Na Literature Fingerprints caractersticas so extradas deblocos de texto dentro de diferentes documentos e apresentadascomo heatmaps

Diferentes nveis de resoluo podem ser analisados

Figura: Representao usando como caracterstica a mdia do tamanho desentenas em blocos de texto. possvel diferenciar os autores.

24 / 39

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Documentos

5 Visualizao de Texto EstendidaVisualizao de SoftwareVisualizao de Resultados de BuscaVisualizao Temporal de Coleo de Documentos

6 Referncias

25 / 39

Visualizao de Colees de Documentos

Na maioria das visualizaes de colees de documentos oobjetivo posicionar os documentos similares prximos noespao visual

Abordagens que podem ser usadas incluem MDS e SOM

26 / 39

Self Organizing Maps

O Self Organizing Mas (SOM) um mtodo nosupervisionado onde ns 2D so definidos e os documentos soassinalados a esses em um processo iterativo

27 / 39

Themescapes

A tcnica Themescape representa uma coleo de documentoscomo uma paisagem cuja altura e cor so usadas para definirregies de alta densidade (documentos similares)

28 / 39

Document Cards

A tcnica Document Cards tenta representar um documentopor meio das suas caractersticas mais relevantes (imagens,texto, etc.)

29 / 39

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Documentos

5 Visualizao de Texto EstendidaVisualizao de SoftwareVisualizao de Resultados de BuscaVisualizao Temporal de Coleo de Documentos

6 Referncias

30 / 39

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Documentos

5 Visualizao de Texto EstendidaVisualizao de SoftwareVisualizao de Resultados de BuscaVisualizao Temporal de Coleo de Documentos

6 Referncias

31 / 39

Visualizao de Software

O sistema SeeSoft representa cada linha de cdigo como umpixel em uma linha e diferentes propriedades podem sermapeadas para cor do pixel

32 / 39

Sumrio

1 Introduo

2 Modelo de Espao Vetorial

3 Visualizao de Documento

4 Visualizao de Colees de Doc