Upload
henrique-paniagua
View
213
Download
0
Embed Size (px)
Citation preview
Geradores de Texto
Ruy Luiz Milidiú
Resumo ObjetivoApresentar modelos Geradores de Texto e
seus algoritmos de aprendizado e predição
Sumário Binário Multinomial Mistura HMM
Traços do texto
Ocorrência de palavras binário
Freqüência de palavras multinomial
Seqüência de palavras HMM
Traços do texto
Ocorrência de palavras binário lista de palavras SEM REPETIÇÕES Freqüência de palavras multinomial lista de FREQUENCIAS DE PALAVRAS Seqüência de palavras HMM
Formulation Use
observables
hidden
SYMBOLS
INFORMATIONS
EMISSIONS
STATES
FORMUL A T I ON
USE
Bayes
P(y|x1,…,xn) P(x1,…,xn|y) . P(y)
Classificador
P(y|x1,…,xn) = ?
Gerador Ingênuo
P(x1,…,xn|y) = P(x1|y) . … . P(xn|y)
Classificador
P(y|x1,…,xn) = ?
Bayes Ingênuo
P(y|x1,…,xn) P(x1|y) . … . P(xn|y).P(y)
AprendizadoA partir dos exemplos, estimar
P(x1|y) , … , P(xn|y) , P(y)
Tamanho FIXOExemplos (x1i,x2i, … , xni, yi) i = 1, … ,N (x1i,x2i, … , xni) atributos, traços yi classe
Classificador f: (x1,x2, … , xn) y funcional P(Y|X) probabilístico
AprendizadoN número total de exemplosNy número total de exemplos classe y Atributos binários
P(y) = (Ny + 1) / (N + 2) Atributos k-ários
P(y) = (Ny + 1) / (N + k) LaplaceP(y) = (Ny + c) / (N + k.c) Lidstone
AprendizadoNy número total de exemplos classe yfx|y freqüência observada de x dado y Atributos binários
P(x|y) = (fx|y + 1) / (Ny + 2) Atributos k-ários P(x|y) = (fx|y + 1) / (Ny + k) LaplaceP(x|y) = (fx|y + c) / (Ny + k.c) Lidstone
Atributos Binários P(xi|y) = piy.(1- piy) i = 1,…,n
P(x1,…,xn|y) = i piy.(1- piy) P(x1,…,xn|y) = i [piy/(1- piy)] . (1- piy)
P(x1,…,xn|y) = Ky . i [piy/(1- piy)]
xi 1-xi
xi 1-xi
xi
xi
Atributos Binários
Pre-computar Ky
Produtório só para casos positivos
Rápido para poucos casos positivos
Classificador de texto W { 1, 2, … , n } léxico D { 1, 2, … , N } coleção C { 1, 2, … , k } classes Atributos binárioswW , dD
Xwd a palavra w ocorre no documento d
P( xwd com wW | c) dD
AprendizadoN número total de exemplosNc número total de exemplos classe c Duas classes
p(c) = (Nc + 1) / (N + 2) k classes
p(c) = (Nc + 1) / (N + k) Laplacep(c) = (Nc + ) / (N + k.) Lidstone
AprendizadoNc nº total de palavras na classe cfw|c freqüência de docs com wdocs com w em
c
Gerador bináriop(w|c) = (fw|c + 1) / (Nc + 2)
Tamanho VARIAVELExemplos (x1i,x2i, … , xn(i) i, yi) i = 1, … ,N (x1i,x2i, … , xn(i) i) atributos, traços yi classe
Classificador f: (x1,x2, … , xn) y funcional P(Y|X) probabilístico
Atributos observáveis l Tamanho do
documento
nw freqüência de ocorrência para cada palavra
A geração… Escolher a classe c do documento Gerar tamanho do documento
L tamanho do documento p(l|c) P[L=l | c]
Gerar as palavras do texto Independentemente do tamanho pi(w|c) P[palavra w ocorrer na i-ésima
posição do documento | c] pi(w|c) = p(w|c) independe da posição
O Gerador Multinomial nw número de ocorrências de w no doc
p(l, {nw , com w ocorrendo no doc} | c) = ?p(l | c) . p({nw , com w ocorrendo no doc} | c) p({nw , com w ocorrendo no doc} | c)
=C(l,{nw , com w ocorrendo no doc})
w ocorrendo no doc p(w|c)nw
O modelop(l, {nw , com w ocorrendo no doc} | c) =
?p(l | c)
(l!) / w ocorrendo no doc (nw!)
w ocorrendo no doc p(w|c)nw
Aprendizado Binário
p(w|c)p(w|c)P[palavra w ocorrer no documento | c] alguma ocorrência
Estimar pelo número de docs de cc com w
Aprendizado Multinomial
ppii(w|c)(w|c)
P[palavra w ocorrer na i-ésima posição do documento | c]
pi(w|c) = p(w|c) uma ocorrência na posição
Estimar pelo número total de w’s nos docs de cc
SuavizaçãoLc número total de palavras na classe cfw|c estimativa apropriada de w em c
Multinomial p(w|c) = (fw|c + 1) / (Lc + n) Laplacep(w|c) = (fw|c + c) / (Lc + n.c) Lidstone