24
Geradores de Texto Ruy Luiz Milidiú

Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Embed Size (px)

Citation preview

Page 1: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Geradores de Texto

Ruy Luiz Milidiú

Page 2: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Resumo ObjetivoApresentar modelos Geradores de Texto e

seus algoritmos de aprendizado e predição

Sumário Binário Multinomial Mistura HMM

Page 3: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Traços do texto

Ocorrência de palavras binário

Freqüência de palavras multinomial

Seqüência de palavras HMM

Page 4: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Traços do texto

Ocorrência de palavras binário lista de palavras SEM REPETIÇÕES Freqüência de palavras multinomial lista de FREQUENCIAS DE PALAVRAS Seqüência de palavras HMM

Page 5: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Formulation Use

observables

hidden

SYMBOLS

INFORMATIONS

EMISSIONS

STATES

FORMUL A T I ON

USE

Page 6: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Bayes

P(y|x1,…,xn) P(x1,…,xn|y) . P(y)

Classificador

P(y|x1,…,xn) = ?

Page 7: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Gerador Ingênuo

P(x1,…,xn|y) = P(x1|y) . … . P(xn|y)

Classificador

P(y|x1,…,xn) = ?

Page 8: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Bayes Ingênuo

P(y|x1,…,xn) P(x1|y) . … . P(xn|y).P(y)

AprendizadoA partir dos exemplos, estimar

P(x1|y) , … , P(xn|y) , P(y)

Page 9: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Tamanho FIXOExemplos (x1i,x2i, … , xni, yi) i = 1, … ,N (x1i,x2i, … , xni) atributos, traços yi classe

Classificador f: (x1,x2, … , xn) y funcional P(Y|X) probabilístico

Page 10: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

AprendizadoN número total de exemplosNy número total de exemplos classe y Atributos binários

P(y) = (Ny + 1) / (N + 2) Atributos k-ários

P(y) = (Ny + 1) / (N + k) LaplaceP(y) = (Ny + c) / (N + k.c) Lidstone

Page 11: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

AprendizadoNy número total de exemplos classe yfx|y freqüência observada de x dado y Atributos binários

P(x|y) = (fx|y + 1) / (Ny + 2) Atributos k-ários P(x|y) = (fx|y + 1) / (Ny + k) LaplaceP(x|y) = (fx|y + c) / (Ny + k.c) Lidstone

Page 12: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Atributos Binários P(xi|y) = piy.(1- piy) i = 1,…,n

P(x1,…,xn|y) = i piy.(1- piy) P(x1,…,xn|y) = i [piy/(1- piy)] . (1- piy)

P(x1,…,xn|y) = Ky . i [piy/(1- piy)]

xi 1-xi

xi 1-xi

xi

xi

rlmilidiu
Page 13: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Atributos Binários

Pre-computar Ky

Produtório só para casos positivos

Rápido para poucos casos positivos

Page 14: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Classificador de texto W { 1, 2, … , n } léxico D { 1, 2, … , N } coleção C { 1, 2, … , k } classes Atributos binárioswW , dD

Xwd a palavra w ocorre no documento d

P( xwd com wW | c) dD

Page 15: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

AprendizadoN número total de exemplosNc número total de exemplos classe c Duas classes

p(c) = (Nc + 1) / (N + 2) k classes

p(c) = (Nc + 1) / (N + k) Laplacep(c) = (Nc + ) / (N + k.) Lidstone

Page 16: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

AprendizadoNc nº total de palavras na classe cfw|c freqüência de docs com wdocs com w em

c

Gerador bináriop(w|c) = (fw|c + 1) / (Nc + 2)

Page 17: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Tamanho VARIAVELExemplos (x1i,x2i, … , xn(i) i, yi) i = 1, … ,N (x1i,x2i, … , xn(i) i) atributos, traços yi classe

Classificador f: (x1,x2, … , xn) y funcional P(Y|X) probabilístico

Page 18: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Atributos observáveis l Tamanho do

documento

nw freqüência de ocorrência para cada palavra

Page 19: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

A geração… Escolher a classe c do documento Gerar tamanho do documento

L tamanho do documento p(l|c) P[L=l | c]

Gerar as palavras do texto Independentemente do tamanho pi(w|c) P[palavra w ocorrer na i-ésima

posição do documento | c] pi(w|c) = p(w|c) independe da posição

Page 20: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

O Gerador Multinomial nw número de ocorrências de w no doc

p(l, {nw , com w ocorrendo no doc} | c) = ?p(l | c) . p({nw , com w ocorrendo no doc} | c) p({nw , com w ocorrendo no doc} | c)

=C(l,{nw , com w ocorrendo no doc})

w ocorrendo no doc p(w|c)nw

Page 21: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

O modelop(l, {nw , com w ocorrendo no doc} | c) =

?p(l | c)

(l!) / w ocorrendo no doc (nw!)

w ocorrendo no doc p(w|c)nw

Page 22: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Aprendizado Binário

p(w|c)p(w|c)P[palavra w ocorrer no documento | c] alguma ocorrência

Estimar pelo número de docs de cc com w

Page 23: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

Aprendizado Multinomial

ppii(w|c)(w|c)

P[palavra w ocorrer na i-ésima posição do documento | c]

pi(w|c) = p(w|c) uma ocorrência na posição

Estimar pelo número total de w’s nos docs de cc

Page 24: Geradores de Texto Ruy Luiz Milidiú Resumo Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário

SuavizaçãoLc número total de palavras na classe cfw|c estimativa apropriada de w em c

Multinomial p(w|c) = (fw|c + 1) / (Lc + n) Laplacep(w|c) = (fw|c + c) / (Lc + n.c) Lidstone