45
Análise de associação, copulas e aplicação a dados Análise de associação, copulas e aplicação a dados lingüísticos lingüísticos Verónica Andrea González-López & Jesús Enrique García Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC Universidade Estadual de Campinas – IMECC 16o. SINAPE 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística Simpósio Nacional de Probabilidade e Estatística Motivação Motivação Copulas Copulas Dados Lingüísticos Dados Lingüísticos Etapas na Modelagem Etapas na Modelagem Análise Análise Discrepância Discrepância Suporte Parcial: Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0 VAGL: FAPESP/Brasil-Projeto 01/02576-0 JEG: FAPESP/Brasil-Projetos JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; 98/3382-0 e 00/07959-1; Acordo USP-COFECUB e CAPES/PICDT Acordo USP-COFECUB e CAPES/PICDT Agradecemos a Franck Ramus por ter cedido as frases para Agradecemos a Franck Ramus por ter cedido as frases para este estudo este estudo

Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Embed Size (px)

Citation preview

Page 1: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Análise de associação, copulas e aplicação a dados Análise de associação, copulas e aplicação a dados lingüísticoslingüísticos

Verónica Andrea González-López & Jesús Enrique García Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECCUniversidade Estadual de Campinas – IMECC

16o. SINAPE 16o. SINAPE Simpósio Nacional de Probabilidade e EstatísticaSimpósio Nacional de Probabilidade e Estatística

MotivaçãoMotivaçãoCopulasCopulasDados LingüísticosDados LingüísticosEtapas na ModelagemEtapas na ModelagemAnálise Análise DiscrepânciaDiscrepância

Suporte Parcial: Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0VAGL: FAPESP/Brasil-Projeto 01/02576-0JEG: FAPESP/Brasil-Projetos JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; 98/3382-0 e 00/07959-1;

Acordo USP-COFECUB e CAPES/PICDTAcordo USP-COFECUB e CAPES/PICDTAgradecemos a Franck Ramus por ter cedido as frases para este estudo Agradecemos a Franck Ramus por ter cedido as frases para este estudo

Page 2: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Geramos x Geramos x y y x=(xx=(x11,...,x,...,xnn)~Exp(2))~Exp(2)

y=(yy=(y11,...y,...ynn)~Exp(10))~Exp(10)

0.0 0.5 1.0 1.5 2.0 2.5 3.0

x

0.0

0.2

0.4

0.6

y

Page 3: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Fx=1-exp(-2*x)Fx=1-exp(-2*x)Fy=1-exp(-10*y)Fy=1-exp(-10*y)

0.0 0.2 0.4 0.6 0.8 1.0

Fx

0.0

0.2

0.4

0.6

0.8

1.0

Fy

“independência mascaradaPelas marginais”

Genest & Boies(2003)Genest & Boies(2003)

Page 4: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Dependência entre X e Y como composição de:Dependência entre X e Y como composição de:(F(FXX, F, FYY, Copula), Copula)

Sklar(1959): Sklar(1959): FFX,YX,Y(x,y)=C(F(x,y)=C(FXX(x),F(x),FYY(y))(y))

f.d.a. conjunta f.d.a. conjunta FFX,Y X,Y

f.d.a. marginais f.d.a. marginais FFXX , , FFY Y

Copula entre X e Y Copula entre X e Y CC

((f.d.a. de (U,V)=(Ff.d.a. de (U,V)=(FXX(x),F(x),FYY(y)) (y)) ))

Page 5: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Copulas: f.d.a. em [0,1]Copulas: f.d.a. em [0,1]22

Conhecidas Conhecidas FFX,Y X,Y , F, FXX , , FFY Y determinamos Cdeterminamos C

C(u,v)= FC(u,v)= FX,Y X,Y (F(F-1-1XX(u)(u) , , FF-1-1

YY(v))(v))

Tipos de dependência: Tipos de dependência: • Concordância (TPConcordância (TP22, PA, SI), PA, SI)

• Discordância (RRDiscordância (RR22, NA, SD), NA, SD)

Page 6: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

• Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol).Italiano(itl), Japonês(jap), Polonês(pol).

• Interesse: construir grupos de línguas que apresentam famílias de copulas Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. “semelhantes”.

• Fundamento para a existência destes grupos:Fundamento para a existência destes grupos:

%V é a proporção de tempo %V é a proporção de tempo correspondente a vogaiscorrespondente a vogais

ΔΔC é o desvio padrão dos C é o desvio padrão dos intervalos consonantaisintervalos consonantais

(Ramus, F., Nespor, M., Mehler, (Ramus, F., Nespor, M., Mehler, J., 1999)J., 1999)

Page 7: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Sinal Acústico frase do Italiano Sinal Acústico frase do Italiano (itl1151)(itl1151)

I genitori lasciano Marco senza risorse

Page 8: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

O sinal x(t) representa a pressão do ar no microfone

Ampliação Local do Sinal AcústicoAmpliação Local do Sinal Acústico

Page 9: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Sinal Acústico e EspectrogramaSinal Acústico e Espectrograma

Page 10: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

O espectrogramaO espectrograma

f

t

O espectrograma para o tempo O espectrograma para o tempo tt e freqüência e freqüência ff , , ssxx(t,f),(t,f), pode pode ser interpretado como a energia que a freqüência ser interpretado como a energia que a freqüência ff aporta ao aporta ao sinal acústico no tempo sinal acústico no tempo t.t.

No gráfico do espectrograma as regiões mais obscuras No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia.correspondem a valores maiores de energia.

Page 11: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas
Page 12: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas
Page 13: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas
Page 14: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Irregular

Regular

Para a regularidade (sonoridade) dividimos o espectrograma Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hzem duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz

Page 15: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Para a energia dividimos o espectrograma em três regiões: Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz

Baixa energia

Alta energia

Page 16: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Regiões de Interesse no Regiões de Interesse no espectrogramaespectrograma

5000 hz

1500 hz

80 hz

800 hz

Page 17: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

VariáveisVariáveis SL: sonoridade no intervalo de freqüências (80 hz, 800 hz)SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) δδS: variação da sonoridade no intervalo (80 hz, 800 hz)S: variação da sonoridade no intervalo (80 hz, 800 hz) NmaxL: media do máximo da diferencia entre pNmaxL: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (80 hz, 800 hz) no intervalo (80 hz, 800 hz) NmaxH: media do máximo da diferencia entre pNmaxH: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (800 hz, 5000 no intervalo (800 hz, 5000

hz)hz) NmaxT: media do máximo da diferencia entre pNmaxT: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (80 hz, 5000 no intervalo (80 hz, 5000

hz)hz) EntrL: media da entropia de pEntrL: media da entropia de ptt no intervalo (80 hz, 800 hz) no intervalo (80 hz, 800 hz) EntrH: media da entropia de pEntrH: media da entropia de ptt no intervalo (800 hz, 5000 hz) no intervalo (800 hz, 5000 hz) E1: Energia no intervalo de freqüências (80 hz, 800 hz)E1: Energia no intervalo de freqüências (80 hz, 800 hz) E2: Energia no intervalo de freqüências (800 hz, 1500 hz)E2: Energia no intervalo de freqüências (800 hz, 1500 hz) E3: Energia no intervalo de freqüências (1500 hz, 5000 hz)E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz)PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz)PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz)PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências

anteriores mas com pesos diferentesanteriores mas com pesos diferentes

Page 18: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Estrutura dos dados (exemplo: dul)Estrutura dos dados (exemplo: dul)

Variável: Sonoridade Baixa (SL)Variável: Sonoridade Baixa (SL)

falante 1 falante 2 falante 3 falante 4falante 1 falante 2 falante 3 falante 4

0.6550426 0.6135087 0.6117972 0.57308990.6550426 0.6135087 0.6117972 0.5730899

0.7323834 0.6992477 0.7009909 0.64870620.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.59715510.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.62675460.6874328 0.7043169 0.7221783 0.6267546 ...... ...... Variável: Sonoridade Alta (SH)Variável: Sonoridade Alta (SH)

falante 1 falante 2 falante 3 falante 4falante 1 falante 2 falante 3 falante 4

0.2941877 0.2685418 0.3287807 0.30821710.2941877 0.2685418 0.3287807 0.3082171 0.3928520 0.3540849 0.4185050 0.39288070.3928520 0.3540849 0.4185050 0.3928807 0.3615761 0.2726972 0.3262655 0.32212940.3615761 0.2726972 0.3262655 0.3221294 0.3233377 0.3160166 0.3742268 0.33241480.3233377 0.3160166 0.3742268 0.3324148 ...... ......

Page 19: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Holandês(dul): SL vs SH por falanteHolandês(dul): SL vs SH por falante

0.60 0.65 0.70 0.75 0.80

SL

0.28

0.30

0.32

0.34

SH

Falante 2

0.60 0.65 0.70 0.75 0.80

SL

0.34

0.36

0.38

0.40

0.42

0.44

0.46

SH

Falante 3

0.60 0.65 0.70 0.75 0.80

SL

0.30

0.35

0.40

0.45

SH

Falante 1

0.60 0.65 0.70 0.75 0.80

SL

0.30

0.35

0.40

0.45

SH

Falante 4

Page 20: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Japonês(jap): SL vs SH por falanteJaponês(jap): SL vs SH por falante

0.65 0.70 0.75

SL

0.32

0.34

0.36

0.38

0.40

0.42

0.44

SH

Falante 1

0.65 0.70 0.75

SL

0.35

0.40

0.45

0.50

0.55

SH

Falante 2

0.60 0.65 0.70 0.75 0.80

SL

0.35

0.40

0.45

0.50

SH

Falante 3

0.60 0.65 0.70 0.75 0.80

SL

0.32

0.34

0.36

0.38

0.40

0.42

SH

Falante 4

Page 21: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Propósito: Propósito: 1.1. modelar a dependência (copula) entre SL e modelar a dependência (copula) entre SL e

SH (e outras variáveis), tirando a influência SH (e outras variáveis), tirando a influência dos falantes. dos falantes.

2.2. Usando esta modelagem construir grupos de Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi línguas que apresentam famílias de copulas bi variadas “semelhantes”. variadas “semelhantes”.

Passos da modelagem:Passos da modelagem:1.1. Ajuste de um modelo de Regressão Ajuste de um modelo de Regressão 2.2. Ajuste CopulaAjuste Copula

Page 22: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

YYijij==μμ++θθii++εεij ij , , i=1,...,4 (falantes)i=1,...,4 (falantes)

j=1,...,n (frases) j=1,...,n (frases)

YYij ij (SL, SH, etc...)(SL, SH, etc...)

Se YSe Yij ij =SL (por exemplo)=SL (por exemplo)

μμ =SL media =SL media

θθi i =SL (contribuição para + ou – de cada falante)=SL (contribuição para + ou – de cada falante)

εεij ij =erro associado ao falante i na frase j=erro associado ao falante i na frase j

Page 23: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Sob suposições de independência em YSob suposições de independência em Yijij, podemos , podemos assumir assumir εεijij ~ d(0, ~ d(0,σσee

22) independentes) independentes

Estimativas robustas de eij =Estimativas robustas de eij =εεij/ ij/ σσee

(Yij-TM(i))/(Yij-TM(i))/srsr •TM(i): M - estimador de posição para o falante iTM(i): M - estimador de posição para o falante i•(sr)(sr)22: : - estimador de - estimador de σσee

22

Estimativas MV de Estimativas MV de eij =eij =εεij/ ij/ σσee

(Yij-YM(i))/sv(Yij-YM(i))/sv

• YM(i): media do falante iYM(i): media do falante i

• (sv)(sv)22: estimador de MV de : estimador de MV de σσee22

Page 24: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Holandês e JaponêsHolandês e Japonês X=eX=esLsLijij (estimativas para SL) (estimativas para SL)

Y=eY=esHsHijij (estimativas para SH) (estimativas para SH)

-2 -1 0 1 2 3 4

x(MV)

-2-1

01

23

y(M

V)

Holandes

-2 -1 0 1 2 3 4

x(R)

-3-2

-10

12

3

y(R

)

Holandes

-2 0 2

x(MV)

-2-1

01

2

y(M

V)

Japones

-4 -2 0 2

x(R)

-2-1

01

2

y(R

)

Japones

Page 25: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

duldul μμ (R) (R) μμ (MV) (MV) σσ22ee (R) (R) σσ22

ee(MV)(MV)

SLSL 0.6605790.660579 0.6616830.661683 0.0016100.001610 0.0017910.001791

SHSH 0.3621210.362121 0.3568970.356897 0.0007460.000746 0.0008290.000829

JapJap μμ (R) (R) μμ (MV) (MV) σσ22ee (R) (R) σσ22

ee(MV)(MV)

SLSL 0.7061160.706116 0.7043870.704387 0.0009630.000963 0.0012550.001255

SHSH 0.4093110.409311 0.4087200.408720 0.0017000.001700 0.0016450.001645

Page 26: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Variabilidade nas classes de falantes (SL)Variabilidade nas classes de falantes (SL)

japjap σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SLSL 0.0002480.000248 0.0001090.000109

duldul σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SLSL 0.0003640.000364 0.0001220.000122

Falante/japFalante/jap YMYM TMTM

11 0.7103080.710308 0.7116120.711612

22 0.7019740.701974 0.7016710.701671

33 0.7222420.722242 0.7268530.726853

44 0.6830250.683025 0.6830520.683052

Falante/dulFalante/dul YMYM TMTM

11 0.68137470.6813747 0.67940290.6794029

22 0.66030750.6603075 0.65744300.6574430

33 0.67024710.6702471 0.66824590.6682459

44 0.63480150.6348015 0.63144550.6314455

Page 27: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Variabilidade nas classes de falantes (SH)Variabilidade nas classes de falantes (SH)

japjap σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SHSH 0.0013710.001371 0.0011110.001111

duldul σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SHSH 0.0010730.001073 0.0002030.000203

Falante/japFalante/jap YMYM TMTM

11 0.3898360.389836 0.3912830.391283

22 0.4507630.450763 0.4504030.450403

33 0.4272500.427250 0.4281980.428198

44 0.3670320.367032 0.3669880.366988

Falante/dulFalante/dul YMYM TMTM

11 0.3722750.372275 0.3717230.371723

22 0.3091410.309141 0.3091410.309141

33 0.3836400.383640 0.3826990.382699

44 0.3625310.362531 0.3582200.358220

Page 28: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas
Page 29: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas
Page 30: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas
Page 31: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Algoritmo VAGL-NITAlgoritmo VAGL-NIT Percorre 7 famílias de copulas bi - variadas e bi - Percorre 7 famílias de copulas bi - variadas e bi -

paramétricas, Arquimedianas Generalizadas mais a paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMaxcopula do máximo : CBBi, i=1,...,7 e CMax

Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal...normal...

A copula empírica bi – variada baseada em {(uj,vj), A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. teste de comparação de amostras.

Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)

Page 32: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

0.0 0.2 0.4 0.6 0.8 1.0

Fx(R)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

R)

dul:Fx vs Fy

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

dul:Fx vs Fy

Croquis da Copula entre X e YCroquis da Copula entre X e Y Fx(x)=(#xi: xiFx(x)=(#xi: xi≤x≤x)/n)/nFy(y)=(#yi: yi≤y)/nFy(y)=(#yi: yi≤y)/n

0.0 0.2 0.4 0.6 0.8 1.0

Fx(R)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

R)

jap:Fx vs Fy

Page 33: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SL,deltaSL)

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SL,NormaXL)

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SH,NormaXH)

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SH,deltaSL)

Outros croquis de copulasOutros croquis de copulas

Nica
Mjap$SL[[deltaSL]]$CopulaMV Familia pvalor delta theta MSE "BB4" "0.999367583511144" "1.07245453750394" "1.37606168195969" "0.000167392996611844"
Nica
Mjap$SL[[NormaXL]]$CopulaMV Familia pvalor delta theta MSE "BB4" "0.67095186958907" "2.15359940996946" "0.891555440279726" "0.000165474253747874"
Nica
Mjap$SH[[NormaXH]]$CopulaMV Familia pvalor delta theta MSE "BB4" "0.978184285904873" "1.07245453750394" "0.443623166358325" "9.1834079886015e-005"
Nica
Mjap$SH[[deltaSL]]$CopulaMV Familia pvalor delta theta MSE "BB7" "0.999683791506725" "0.469831652456982" "1.51417504963289" "0.000128864197540705"
Page 34: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

4

dul: SL vs SH - R

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

7

jap: SL vs SH - MV

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

1

jap: SL vs SH - R

Ajuste Copula por VAGL-NIT Ajuste Copula por VAGL-NIT para Holandês y Japonêspara Holandês y Japonês

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

4

dul: SL vs SH - MV

Page 35: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Ajuste Copula por VAGL-NIT para Holandês y JaponêsAjuste Copula por VAGL-NIT para Holandês y Japonês

SL VS SHSL VS SH CopulaCopula δδ θθ MSEMSE M-WM-W K-SK-S

dul(MV)dul(MV) BB4BB4 0.4868230.486823 0.4502800.450280 0.0001090.000109 0.99970.9997 11

dul(R)dul(R) BB4BB4 0.5268230.526823 0.4002800.400280 9e-0059e-005 11 11

Jap(MV)Jap(MV) BB7BB7 0.8324550.832455 1.1310401.131040 5e-0055e-005 11 11

Jap(R)Jap(R) BB1BB1 1.1410401.141040 0.6254660.625466 5e-0055e-005 11 11

Page 36: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Comparação de duas línguas(MV)Comparação de duas línguas(MV)(Holandês e Japonês): matriz de concordância(M) -copulas entre (Holandês e Japonês): matriz de concordância(M) -copulas entre

variável i e variável i+jvariável i e variável i+j

i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6"[i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-"[i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-"[i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-"[i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-"[i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-"[i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-"[i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-"[i+11] "-" "-" "-" "BB4" "BB6" "-"[i+12] "BB6" "-" "-" "-" "-"[i+12] "BB6" "-" "-" "-" "-"[i+13] "-" "BB6" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-"[i+14] "-" "-" "-"[i+15] "BB6" "BB1" [i+15] "BB6" "BB1" [i+16] "-" [i+16] "-"

Page 37: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Critério de Discrepância (1): soma de indicadores vezes p valor Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepânciasmínimo nas discrepâncias

ppLLi,j i,j =p-valor do teste M-W, para a copula ajustada na língua L , =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j)L=cat,...,pol; para a dupla de variáveis (i,j)

pp0 0 = max= maxijij {min{p {min{pL1L1ijij, p, pL2L2

ijij}} onde L1 e L2 são duas línguas diferentes}} onde L1 e L2 são duas línguas diferentes

I(MI(Mijij) = ) = 1 se M1 se Mijij=“-”; I =0 em caso contrário=“-”; I =0 em caso contrário

N=# total de copulas ajustadasN=# total de copulas ajustadas

M1(L1,L2)=(1/N)M1(L1,L2)=(1/N)ijij I(M I(Mijij)min{p)min{pL1L1ijij,p,pL2L2

ijij}/p}/p00

Page 38: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Discrepância : soma de indicadores vezes p valor mínimo nas Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias discrepâncias

M1(MV) cat dul enl esp frl itl jap pol M1(MV) cat dul enl esp frl itl jap pol cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000

M1(R) cat dul enl esp frl itl jap polM1(R) cat dul enl esp frl itl jap pol cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000

Page 39: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

0.3

40

.36

0.3

80

.40

0.4

2

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor - R

0.3

40

.36

0.3

80

.40

0.4

2

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor - MV

Cluster Discrepância : soma de indicadores vezes p valor mínimo Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias nas discrepâncias

Page 40: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Critério de Discrepância (2): soma de indicadores vezes p valor Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudasmínimo nas discrepâncias, ponderada pelas medidas nas caudas

ppLLi,j i,j =p-valor do teste M-W, para a copula ajustada na língua L , =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j)L=cat,...,pol; para a dupla de variáveis (i,j)

LLLL(i,j)=medida na cauda inferior da copula para (i,j)(i,j)=medida na cauda inferior da copula para (i,j)

UULL(i,j)=medida na cauda superior da copula para (i,j)(i,j)=medida na cauda superior da copula para (i,j)

definimos para um par de línguas L1 e L2definimos para um par de línguas L1 e L2

(i,j)={(i,j)={| | LLL1L1(i,j)- (i,j)- LL

L2L2(i,j) (i,j) |+| |+| UUL1L1(i,j)- (i,j)- UU

L2L2(i,j)(i,j)|}/2|}/2

tt0 0 = max= maxijij { {(i,j)min{p(i,j)min{pL1L1ijij, p, pL2L2

ijij}} onde L1 e L2 são duas línguas }} onde L1 e L2 são duas línguas diferentesdiferentes

I(MI(Mijij) = ) = 1 se M1 se Mijij=“-”; I =0 em caso contrário=“-”; I =0 em caso contrário

N=# total de copulas ajustadasN=# total de copulas ajustadas

M2(L1,L2)=(1/N)M2(L1,L2)=(1/N)ijij I(M I(Mijij) ) (i,j)(i,j)min{pmin{pL1L1ijij,p,pL2L2

ijij}/t}/t00

Page 41: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

M2(MV) cat dul enl esp frl itl jap polM2(MV) cat dul enl esp frl itl jap polCat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315Cat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000

Cluster de discrepância: soma de indicadores vezes p valor mínimo Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudasnas discrepâncias, ponderados pelas medidas nas caudas

M2(R) cat dul enl esp frl itl jap polM2(R) cat dul enl esp frl itl jap polcat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761cat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000

Page 42: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

0.1

20

0.1

25

0.1

30

0.1

35

0.1

40

0.1

45

0.1

50

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor e medida caudas - MV

Cluster de discrepância : soma de indicadores vezes p valor mínimo Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudasnas discrepâncias, ponderados pelas medidas nas caudas

0.1

25

0.1

30

0.1

35

0.1

40

0.1

45

0.1

50

0.1

55

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor e medida caudas - R

Page 43: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

0.15

0.20

0.25

0.30

0.35

0.40

0.45

catdu

l

enl

esp

frl

itl

jap

pol

Similaridade / p-valor entre empiricas(K-S)

Critério: são feitas as comparações (entre idiomas) via teste K-S Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações O critério consiste em considerar o p-valor máximo de todas as comparações

Page 44: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Comparação entre critériosComparação entre critérios

0.12

00.

125

0.13

00.

135

0.14

00.

145

0.15

0

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor e medida caudas - MV

δδSS

SLSL

Page 45: Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas

Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: SpringerYork: Springer

Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159Statistics, vol 14 # 2, 145-159

Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4American Statistician, vol 57 # 4

González-López V. & Tanaka, N. (2003) Bi-variate data modeling through González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP.generalized archimedean copula. RT-MAE 2003-03/IME-USP.

Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.

Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Holland.Holland.

Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. rhythmic class discrimination. Speech Prosody 2002. www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf.www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf.

Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdfhttp:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdf

Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.speech signal. Cognition, 73, 265-292.