Upload
marc
View
28
Download
0
Embed Size (px)
DESCRIPTION
Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística. Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise - PowerPoint PPT Presentation
Citation preview
Análise de associação, copulas e aplicação a dados Análise de associação, copulas e aplicação a dados lingüísticoslingüísticos
Verónica Andrea González-López & Jesús Enrique García Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECCUniversidade Estadual de Campinas – IMECC
16o. SINAPE 16o. SINAPE Simpósio Nacional de Probabilidade e EstatísticaSimpósio Nacional de Probabilidade e Estatística
MotivaçãoMotivaçãoCopulasCopulasDados LingüísticosDados LingüísticosEtapas na ModelagemEtapas na ModelagemAnálise Análise DiscrepânciaDiscrepância
Suporte Parcial: Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0VAGL: FAPESP/Brasil-Projeto 01/02576-0JEG: FAPESP/Brasil-Projetos JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; 98/3382-0 e 00/07959-1;
Acordo USP-COFECUB e CAPES/PICDTAcordo USP-COFECUB e CAPES/PICDTAgradecemos a Franck Ramus por ter cedido as frases para este estudo Agradecemos a Franck Ramus por ter cedido as frases para este estudo
Geramos x Geramos x y y x=(xx=(x11,...,x,...,xnn)~Exp(2))~Exp(2)
y=(yy=(y11,...y,...ynn)~Exp(10))~Exp(10)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
x
0.0
0.2
0.4
0.6
y
Fx=1-exp(-2*x)Fx=1-exp(-2*x)Fy=1-exp(-10*y)Fy=1-exp(-10*y)
0.0 0.2 0.4 0.6 0.8 1.0
Fx
0.0
0.2
0.4
0.6
0.8
1.0
Fy
“independência mascaradaPelas marginais”
Genest & Boies(2003)Genest & Boies(2003)
Dependência entre X e Y como composição de:Dependência entre X e Y como composição de:(F(FXX, F, FYY, Copula), Copula)
Sklar(1959): Sklar(1959): FFX,YX,Y(x,y)=C(F(x,y)=C(FXX(x),F(x),FYY(y))(y))
f.d.a. conjunta f.d.a. conjunta FFX,Y X,Y
f.d.a. marginais f.d.a. marginais FFXX , , FFY Y
Copula entre X e Y Copula entre X e Y CC
((f.d.a. de (U,V)=(Ff.d.a. de (U,V)=(FXX(x),F(x),FYY(y)) (y)) ))
Copulas: f.d.a. em [0,1]Copulas: f.d.a. em [0,1]22
Conhecidas Conhecidas FFX,Y X,Y , F, FXX , , FFY Y determinamos Cdeterminamos C
C(u,v)= FC(u,v)= FX,Y X,Y (F(F-1-1XX(u)(u) , , FF-1-1
YY(v))(v))
Tipos de dependência: Tipos de dependência: • Concordância (TPConcordância (TP22, PA, SI), PA, SI)
• Discordância (RRDiscordância (RR22, NA, SD), NA, SD)
• Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol).Italiano(itl), Japonês(jap), Polonês(pol).
• Interesse: construir grupos de línguas que apresentam famílias de copulas Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. “semelhantes”.
• Fundamento para a existência destes grupos:Fundamento para a existência destes grupos:
%V é a proporção de tempo %V é a proporção de tempo correspondente a vogaiscorrespondente a vogais
ΔΔC é o desvio padrão dos C é o desvio padrão dos intervalos consonantaisintervalos consonantais
(Ramus, F., Nespor, M., Mehler, (Ramus, F., Nespor, M., Mehler, J., 1999)J., 1999)
Sinal Acústico frase do Italiano Sinal Acústico frase do Italiano (itl1151)(itl1151)
I genitori lasciano Marco senza risorse
O sinal x(t) representa a pressão do ar no microfone
Ampliação Local do Sinal AcústicoAmpliação Local do Sinal Acústico
Sinal Acústico e EspectrogramaSinal Acústico e Espectrograma
O espectrogramaO espectrograma
f
t
O espectrograma para o tempo O espectrograma para o tempo tt e freqüência e freqüência ff , , ssxx(t,f),(t,f), pode pode ser interpretado como a energia que a freqüência ser interpretado como a energia que a freqüência ff aporta ao aporta ao sinal acústico no tempo sinal acústico no tempo t.t.
No gráfico do espectrograma as regiões mais obscuras No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia.correspondem a valores maiores de energia.
Irregular
Regular
Para a regularidade (sonoridade) dividimos o espectrograma Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hzem duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz
Para a energia dividimos o espectrograma em três regiões: Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz
Baixa energia
Alta energia
Regiões de Interesse no Regiões de Interesse no espectrogramaespectrograma
5000 hz
1500 hz
80 hz
800 hz
VariáveisVariáveis SL: sonoridade no intervalo de freqüências (80 hz, 800 hz)SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) δδS: variação da sonoridade no intervalo (80 hz, 800 hz)S: variação da sonoridade no intervalo (80 hz, 800 hz) NmaxL: media do máximo da diferencia entre pNmaxL: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (80 hz, 800 hz) no intervalo (80 hz, 800 hz) NmaxH: media do máximo da diferencia entre pNmaxH: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (800 hz, 5000 no intervalo (800 hz, 5000
hz)hz) NmaxT: media do máximo da diferencia entre pNmaxT: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (80 hz, 5000 no intervalo (80 hz, 5000
hz)hz) EntrL: media da entropia de pEntrL: media da entropia de ptt no intervalo (80 hz, 800 hz) no intervalo (80 hz, 800 hz) EntrH: media da entropia de pEntrH: media da entropia de ptt no intervalo (800 hz, 5000 hz) no intervalo (800 hz, 5000 hz) E1: Energia no intervalo de freqüências (80 hz, 800 hz)E1: Energia no intervalo de freqüências (80 hz, 800 hz) E2: Energia no intervalo de freqüências (800 hz, 1500 hz)E2: Energia no intervalo de freqüências (800 hz, 1500 hz) E3: Energia no intervalo de freqüências (1500 hz, 5000 hz)E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz)PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz)PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz)PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências
anteriores mas com pesos diferentesanteriores mas com pesos diferentes
Estrutura dos dados (exemplo: dul)Estrutura dos dados (exemplo: dul)
Variável: Sonoridade Baixa (SL)Variável: Sonoridade Baixa (SL)
falante 1 falante 2 falante 3 falante 4falante 1 falante 2 falante 3 falante 4
0.6550426 0.6135087 0.6117972 0.57308990.6550426 0.6135087 0.6117972 0.5730899
0.7323834 0.6992477 0.7009909 0.64870620.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.59715510.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.62675460.6874328 0.7043169 0.7221783 0.6267546 ...... ...... Variável: Sonoridade Alta (SH)Variável: Sonoridade Alta (SH)
falante 1 falante 2 falante 3 falante 4falante 1 falante 2 falante 3 falante 4
0.2941877 0.2685418 0.3287807 0.30821710.2941877 0.2685418 0.3287807 0.3082171 0.3928520 0.3540849 0.4185050 0.39288070.3928520 0.3540849 0.4185050 0.3928807 0.3615761 0.2726972 0.3262655 0.32212940.3615761 0.2726972 0.3262655 0.3221294 0.3233377 0.3160166 0.3742268 0.33241480.3233377 0.3160166 0.3742268 0.3324148 ...... ......
Holandês(dul): SL vs SH por falanteHolandês(dul): SL vs SH por falante
0.60 0.65 0.70 0.75 0.80
SL
0.28
0.30
0.32
0.34
SH
Falante 2
0.60 0.65 0.70 0.75 0.80
SL
0.34
0.36
0.38
0.40
0.42
0.44
0.46
SH
Falante 3
0.60 0.65 0.70 0.75 0.80
SL
0.30
0.35
0.40
0.45
SH
Falante 1
0.60 0.65 0.70 0.75 0.80
SL
0.30
0.35
0.40
0.45
SH
Falante 4
Japonês(jap): SL vs SH por falanteJaponês(jap): SL vs SH por falante
0.65 0.70 0.75
SL
0.32
0.34
0.36
0.38
0.40
0.42
0.44
SH
Falante 1
0.65 0.70 0.75
SL
0.35
0.40
0.45
0.50
0.55
SH
Falante 2
0.60 0.65 0.70 0.75 0.80
SL
0.35
0.40
0.45
0.50
SH
Falante 3
0.60 0.65 0.70 0.75 0.80
SL
0.32
0.34
0.36
0.38
0.40
0.42
SH
Falante 4
Propósito: Propósito: 1.1. modelar a dependência (copula) entre SL e modelar a dependência (copula) entre SL e
SH (e outras variáveis), tirando a influência SH (e outras variáveis), tirando a influência dos falantes. dos falantes.
2.2. Usando esta modelagem construir grupos de Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi línguas que apresentam famílias de copulas bi variadas “semelhantes”. variadas “semelhantes”.
Passos da modelagem:Passos da modelagem:1.1. Ajuste de um modelo de Regressão Ajuste de um modelo de Regressão 2.2. Ajuste CopulaAjuste Copula
YYijij==μμ++θθii++εεij ij , , i=1,...,4 (falantes)i=1,...,4 (falantes)
j=1,...,n (frases) j=1,...,n (frases)
YYij ij (SL, SH, etc...)(SL, SH, etc...)
Se YSe Yij ij =SL (por exemplo)=SL (por exemplo)
μμ =SL media =SL media
θθi i =SL (contribuição para + ou – de cada falante)=SL (contribuição para + ou – de cada falante)
εεij ij =erro associado ao falante i na frase j=erro associado ao falante i na frase j
Sob suposições de independência em YSob suposições de independência em Yijij, podemos , podemos assumir assumir εεijij ~ d(0, ~ d(0,σσee
22) independentes) independentes
Estimativas robustas de eij =Estimativas robustas de eij =εεij/ ij/ σσee
(Yij-TM(i))/(Yij-TM(i))/srsr •TM(i): M - estimador de posição para o falante iTM(i): M - estimador de posição para o falante i•(sr)(sr)22: : - estimador de - estimador de σσee
22
Estimativas MV de Estimativas MV de eij =eij =εεij/ ij/ σσee
(Yij-YM(i))/sv(Yij-YM(i))/sv
• YM(i): media do falante iYM(i): media do falante i
• (sv)(sv)22: estimador de MV de : estimador de MV de σσee22
Holandês e JaponêsHolandês e Japonês X=eX=esLsLijij (estimativas para SL) (estimativas para SL)
Y=eY=esHsHijij (estimativas para SH) (estimativas para SH)
-2 -1 0 1 2 3 4
x(MV)
-2-1
01
23
y(M
V)
Holandes
-2 -1 0 1 2 3 4
x(R)
-3-2
-10
12
3
y(R
)
Holandes
-2 0 2
x(MV)
-2-1
01
2
y(M
V)
Japones
-4 -2 0 2
x(R)
-2-1
01
2
y(R
)
Japones
duldul μμ (R) (R) μμ (MV) (MV) σσ22ee (R) (R) σσ22
ee(MV)(MV)
SLSL 0.6605790.660579 0.6616830.661683 0.0016100.001610 0.0017910.001791
SHSH 0.3621210.362121 0.3568970.356897 0.0007460.000746 0.0008290.000829
JapJap μμ (R) (R) μμ (MV) (MV) σσ22ee (R) (R) σσ22
ee(MV)(MV)
SLSL 0.7061160.706116 0.7043870.704387 0.0009630.000963 0.0012550.001255
SHSH 0.4093110.409311 0.4087200.408720 0.0017000.001700 0.0016450.001645
Variabilidade nas classes de falantes (SL)Variabilidade nas classes de falantes (SL)
japjap σσ22θθ (MV) (MV) σσ22
θθ(R)(R)
SLSL 0.0002480.000248 0.0001090.000109
duldul σσ22θθ (MV) (MV) σσ22
θθ(R)(R)
SLSL 0.0003640.000364 0.0001220.000122
Falante/japFalante/jap YMYM TMTM
11 0.7103080.710308 0.7116120.711612
22 0.7019740.701974 0.7016710.701671
33 0.7222420.722242 0.7268530.726853
44 0.6830250.683025 0.6830520.683052
Falante/dulFalante/dul YMYM TMTM
11 0.68137470.6813747 0.67940290.6794029
22 0.66030750.6603075 0.65744300.6574430
33 0.67024710.6702471 0.66824590.6682459
44 0.63480150.6348015 0.63144550.6314455
Variabilidade nas classes de falantes (SH)Variabilidade nas classes de falantes (SH)
japjap σσ22θθ (MV) (MV) σσ22
θθ(R)(R)
SHSH 0.0013710.001371 0.0011110.001111
duldul σσ22θθ (MV) (MV) σσ22
θθ(R)(R)
SHSH 0.0010730.001073 0.0002030.000203
Falante/japFalante/jap YMYM TMTM
11 0.3898360.389836 0.3912830.391283
22 0.4507630.450763 0.4504030.450403
33 0.4272500.427250 0.4281980.428198
44 0.3670320.367032 0.3669880.366988
Falante/dulFalante/dul YMYM TMTM
11 0.3722750.372275 0.3717230.371723
22 0.3091410.309141 0.3091410.309141
33 0.3836400.383640 0.3826990.382699
44 0.3625310.362531 0.3582200.358220
Algoritmo VAGL-NITAlgoritmo VAGL-NIT Percorre 7 famílias de copulas bi - variadas e bi - Percorre 7 famílias de copulas bi - variadas e bi -
paramétricas, Arquimedianas Generalizadas mais a paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMaxcopula do máximo : CBBi, i=1,...,7 e CMax
Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal...normal...
A copula empírica bi – variada baseada em {(uj,vj), A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. teste de comparação de amostras.
Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)
0.0 0.2 0.4 0.6 0.8 1.0
Fx(R)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
R)
dul:Fx vs Fy
0.0 0.2 0.4 0.6 0.8 1.0
Fx(MV)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
MV
)
jap:Fx vs Fy
0.0 0.2 0.4 0.6 0.8 1.0
Fx(MV)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
MV
)
dul:Fx vs Fy
Croquis da Copula entre X e YCroquis da Copula entre X e Y Fx(x)=(#xi: xiFx(x)=(#xi: xi≤x≤x)/n)/nFy(y)=(#yi: yi≤y)/nFy(y)=(#yi: yi≤y)/n
0.0 0.2 0.4 0.6 0.8 1.0
Fx(R)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
R)
jap:Fx vs Fy
0.0 0.2 0.4 0.6 0.8 1.0
Fx(MV)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
MV
)
jap:Fx vs Fy-variaveis originais:(SL,deltaSL)
0.0 0.2 0.4 0.6 0.8 1.0
Fx(MV)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
MV
)
jap:Fx vs Fy-variaveis originais:(SL,NormaXL)
0.0 0.2 0.4 0.6 0.8 1.0
Fx(MV)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
MV
)
jap:Fx vs Fy-variaveis originais:(SH,NormaXH)
0.0 0.2 0.4 0.6 0.8 1.0
Fx(MV)
0.0
0.2
0.4
0.6
0.8
1.0
Fy(
MV
)
jap:Fx vs Fy-variaveis originais:(SH,deltaSL)
Outros croquis de copulasOutros croquis de copulas
0.0 0.2 0.4 0.6 0.8 1.0
Copula Empirica
0.0
0.2
0.4
0.6
0.8
1.0
Cop
ula
BB
4
dul: SL vs SH - R
0.0 0.2 0.4 0.6 0.8 1.0
Copula Empirica
0.0
0.2
0.4
0.6
0.8
1.0
Cop
ula
BB
7
jap: SL vs SH - MV
0.0 0.2 0.4 0.6 0.8 1.0
Copula Empirica
0.0
0.2
0.4
0.6
0.8
1.0
Cop
ula
BB
1
jap: SL vs SH - R
Ajuste Copula por VAGL-NIT Ajuste Copula por VAGL-NIT para Holandês y Japonêspara Holandês y Japonês
0.0 0.2 0.4 0.6 0.8 1.0
Copula Empirica
0.0
0.2
0.4
0.6
0.8
1.0
Cop
ula
BB
4
dul: SL vs SH - MV
Ajuste Copula por VAGL-NIT para Holandês y JaponêsAjuste Copula por VAGL-NIT para Holandês y Japonês
SL VS SHSL VS SH CopulaCopula δδ θθ MSEMSE M-WM-W K-SK-S
dul(MV)dul(MV) BB4BB4 0.4868230.486823 0.4502800.450280 0.0001090.000109 0.99970.9997 11
dul(R)dul(R) BB4BB4 0.5268230.526823 0.4002800.400280 9e-0059e-005 11 11
Jap(MV)Jap(MV) BB7BB7 0.8324550.832455 1.1310401.131040 5e-0055e-005 11 11
Jap(R)Jap(R) BB1BB1 1.1410401.141040 0.6254660.625466 5e-0055e-005 11 11
Comparação de duas línguas(MV)Comparação de duas línguas(MV)(Holandês e Japonês): matriz de concordância(M) -copulas entre (Holandês e Japonês): matriz de concordância(M) -copulas entre
variável i e variável i+jvariável i e variável i+j
i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6"[i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-"[i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-"[i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-"[i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-"[i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-"[i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-"[i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-"[i+11] "-" "-" "-" "BB4" "BB6" "-"[i+12] "BB6" "-" "-" "-" "-"[i+12] "BB6" "-" "-" "-" "-"[i+13] "-" "BB6" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-"[i+14] "-" "-" "-"[i+15] "BB6" "BB1" [i+15] "BB6" "BB1" [i+16] "-" [i+16] "-"
Critério de Discrepância (1): soma de indicadores vezes p valor Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepânciasmínimo nas discrepâncias
ppLLi,j i,j =p-valor do teste M-W, para a copula ajustada na língua L , =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j)L=cat,...,pol; para a dupla de variáveis (i,j)
pp0 0 = max= maxijij {min{p {min{pL1L1ijij, p, pL2L2
ijij}} onde L1 e L2 são duas línguas diferentes}} onde L1 e L2 são duas línguas diferentes
I(MI(Mijij) = ) = 1 se M1 se Mijij=“-”; I =0 em caso contrário=“-”; I =0 em caso contrário
N=# total de copulas ajustadasN=# total de copulas ajustadas
M1(L1,L2)=(1/N)M1(L1,L2)=(1/N)ijij I(M I(Mijij)min{p)min{pL1L1ijij,p,pL2L2
ijij}/p}/p00
Discrepância : soma de indicadores vezes p valor mínimo nas Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias discrepâncias
M1(MV) cat dul enl esp frl itl jap pol M1(MV) cat dul enl esp frl itl jap pol cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000
M1(R) cat dul enl esp frl itl jap polM1(R) cat dul enl esp frl itl jap pol cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000
0.3
40
.36
0.3
80
.40
0.4
2
cat
dul
enl
esp
frl
itl
jap
pol
Discrepancia Ponderada por p-valor - R
0.3
40
.36
0.3
80
.40
0.4
2
cat
dul
enl
esp
frl
itl
jap
pol
Discrepancia Ponderada por p-valor - MV
Cluster Discrepância : soma de indicadores vezes p valor mínimo Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias nas discrepâncias
Critério de Discrepância (2): soma de indicadores vezes p valor Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudasmínimo nas discrepâncias, ponderada pelas medidas nas caudas
ppLLi,j i,j =p-valor do teste M-W, para a copula ajustada na língua L , =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j)L=cat,...,pol; para a dupla de variáveis (i,j)
LLLL(i,j)=medida na cauda inferior da copula para (i,j)(i,j)=medida na cauda inferior da copula para (i,j)
UULL(i,j)=medida na cauda superior da copula para (i,j)(i,j)=medida na cauda superior da copula para (i,j)
definimos para um par de línguas L1 e L2definimos para um par de línguas L1 e L2
(i,j)={(i,j)={| | LLL1L1(i,j)- (i,j)- LL
L2L2(i,j) (i,j) |+| |+| UUL1L1(i,j)- (i,j)- UU
L2L2(i,j)(i,j)|}/2|}/2
tt0 0 = max= maxijij { {(i,j)min{p(i,j)min{pL1L1ijij, p, pL2L2
ijij}} onde L1 e L2 são duas línguas }} onde L1 e L2 são duas línguas diferentesdiferentes
I(MI(Mijij) = ) = 1 se M1 se Mijij=“-”; I =0 em caso contrário=“-”; I =0 em caso contrário
N=# total de copulas ajustadasN=# total de copulas ajustadas
M2(L1,L2)=(1/N)M2(L1,L2)=(1/N)ijij I(M I(Mijij) ) (i,j)(i,j)min{pmin{pL1L1ijij,p,pL2L2
ijij}/t}/t00
M2(MV) cat dul enl esp frl itl jap polM2(MV) cat dul enl esp frl itl jap polCat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315Cat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000
Cluster de discrepância: soma de indicadores vezes p valor mínimo Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudasnas discrepâncias, ponderados pelas medidas nas caudas
M2(R) cat dul enl esp frl itl jap polM2(R) cat dul enl esp frl itl jap polcat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761cat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000
0.1
20
0.1
25
0.1
30
0.1
35
0.1
40
0.1
45
0.1
50
cat
dul
enl
esp
frl
itl
jap
pol
Discrepancia Ponderada por p-valor e medida caudas - MV
Cluster de discrepância : soma de indicadores vezes p valor mínimo Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudasnas discrepâncias, ponderados pelas medidas nas caudas
0.1
25
0.1
30
0.1
35
0.1
40
0.1
45
0.1
50
0.1
55
cat
dul
enl
esp
frl
itl
jap
pol
Discrepancia Ponderada por p-valor e medida caudas - R
0.15
0.20
0.25
0.30
0.35
0.40
0.45
catdu
l
enl
esp
frl
itl
jap
pol
Similaridade / p-valor entre empiricas(K-S)
Critério: são feitas as comparações (entre idiomas) via teste K-S Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações O critério consiste em considerar o p-valor máximo de todas as comparações
Comparação entre critériosComparação entre critérios
0.12
00.
125
0.13
00.
135
0.14
00.
145
0.15
0
cat
dul
enl
esp
frl
itl
jap
pol
Discrepancia Ponderada por p-valor e medida caudas - MV
δδSS
SLSL
Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: SpringerYork: Springer
Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159Statistics, vol 14 # 2, 145-159
Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4American Statistician, vol 57 # 4
González-López V. & Tanaka, N. (2003) Bi-variate data modeling through González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP.generalized archimedean copula. RT-MAE 2003-03/IME-USP.
Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.
Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Holland.Holland.
Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. rhythmic class discrimination. Speech Prosody 2002. www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf.www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf.
Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdfhttp:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdf
Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.speech signal. Cognition, 73, 265-292.