139
Universidade Estadual de Campinas Instituto de Matemática, Estatística e Computação Científica Victor de Andrade Corder O Modelo de Regressão Birnbaum-Saunders Bivariado Baseado na Cópula FGM CAMPINAS 2017

Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Universidade Estadual de Campinas

Instituto de Matemática, Estatísticae Computação Científica

Victor de Andrade Corder

O Modelo de Regressão Birnbaum-SaundersBivariado Baseado na Cópula FGM

CAMPINAS2017

Page 2: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Victor de Andrade Corder

O Modelo de Regressão Birnbaum-SaundersBivariado Baseado na Cópula FGM

Dissertação apresentada ao Instituto deMatemática, Estatística e Computação Ci-entífica da Universidade Estadual de Cam-pinas como parte dos requisitos exigidospara a obtenção do título de Mestre em es-tatística.

Orientador: Prof. Dr. Filidor Edilfonso Vilca Labra

Coorientadora: Prof.(a) Dr.(a) Camila Borelli Zeller

Este exemplar corresponde à versão finalda dissertação defendida pelo aluno Vic-tor de Andrade Corder, e orientada peloProf. Dr. Prof. Dr. Filidor EdilfonsoVilca Labra.

Campinas2017

Page 3: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Agência(s) de fomento e nº(s) de processo(s): CAPES

Ficha catalográficaUniversidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação CientíficaMaria Fabiana Bezerra Muller - CRB 8/6162

Corder, Victor de Andrade, 1989- C811m CorO modelo de regressão Birnbaum-Sanders bivariado baseado na cópula

FGM / Victor de Andrade Corder. – Campinas, SP : [s.n.], 2017.

CorOrientador: Filidor Edilfonso Vilca Labra. CorCoorientador: Camila Borelli Zeller. CorDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Matemática, Estatística e Computação Científica.

Cor1. Birnbaum-Saunders, Distribuição de. 2. Cópulas (Estatística

matemática). 3. Análise de regressão. 4. Estimativa de parâmetro. I. VilcaLabra, Filidor Edilfonso,1964-. II. Zeller, Camila Borelli. III. UniversidadeEstadual de Campinas. Instituto de Matemática, Estatística e ComputaçãoCientífica. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: A bivariate Birnbaum-Sanders regression model based on FGMcopulaPalavras-chave em inglês:Birnbaum-Sanders distributionCopulas (Mathematical statistics)Regression analysisParameter estimationÁrea de concentração: EstatísticaTitulação: Mestre em EstatísticaBanca examinadora:Filidor Edilfonso Vilca Labra [Orientador]Caio Lucidius Naberezny AzevedoClécio da Silva FerreiraData de defesa: 09-03-2017Programa de Pós-Graduação: Estatística

Powered by TCPDF (www.tcpdf.org)

Page 4: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Dissertação de Mestrado defendida em 09 de março de 2017 e aprovada

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). FILIDOR EDILFONSO VILCA LABRA

Prof(a). Dr(a). CAIO LUCIDIUS NABEREZNY AZEVEDO

Prof(a). Dr(a). CLÉCIO DA SILVA FERREIRA

A Ata da defesa com as respectivas assinaturas dos membros encontra-se no processo de vida acadêmica do(a) aluno(a).

Page 5: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

A Jesus, meu Senhor e Salvador. . . .

Page 6: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Agradecimentos

Agradeço primeiramente á Deus, pois reconheço que, se não fosse por Ele, não teriaconseguido nada. Obrigado pelo conforto e aprendizado nas horas difíceis e por melevar além do que imaginei.

Agradeço a minha família pelo seu total apoio e suporte. Obrigado por acreditarem mim.

Agradeço a minha minha namorada Bárbara pelo apoio e paciência.

Agradeço a todos os colegas envolvidos, os quais sempre se mostraram prontos aajudar.

Agradeço ao meu professor e orientador, Professor Filidor Edilfonso Vilca Labra,pelos importantes ensinamentos, pela paciência, amizade e apoio. Obrigado por estarsempre disponível e sempre se mostrar paciente para me ajudar.

Agradeço a Professora Camila Borelli Zeller por todas as sugestões e pelo auxíliocom as simulações. Obrigado pelo conjunto de dados fornecido, utilizado para aplicaçãono Capítulo 3.

Agradeço a CAPES, pelo apoio financeiro recebido na elaboração deste trabalho.

Por fim, agradeço a todos aqueles que contribuíram diretamente ou indiretamentepara a concretização deste trabalho.

Page 7: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Resumo

Birnbaum e Saunders (1969 a,b) propuseram a conhecida distribuição Birnbaum-Saunders (BS), motivada por problemas de vibração em aviões comerciais que causamfadiga nos materiais. Essa distribuição pode ser usada para modelar dados de tempode vida, e tem recebido considerável atenção na literatura. Assim como muitas distri-buições têm sido generalizada para sua forma bivariada; a distribuição univariada BSfoi estendida por Kundu et al. (2010). Eles propuseram uma distribuição BS bivariadacom estrutura de dependência e estabeleceram várias propriedades atrativas usando aestreita relação da distribuição BS com a distribuição Normal. Este trabalho promoveuma extensão da distribuição BS para um tipo diferente de distribuição BS bivari-ada, que é construída usando a Cópula Farlie-Gumbel-Morgenstern (FGM), Conway(1979), para modelar a dependência dos dados bivariados. A distribuição bivariadaresultante é uma distribuição absolutamente contínua e suas distribuições marginaissão BS. Também desenvolvemos um modelo de regressão bivariado para analisar ologaritmo do tempo de duas unidades correlacionadas. Para esse modelo de regres-são Birnbaum-Saunders bivariado baseado na Cópula FGM, são discutidas algumas desuas propriedades e métodos de estimação. Além disso, um estudo de diagnóstico édiscutido para o modelo proposto. Finalmente, exemplos numéricos são apresentadospara ilustrar as metodologias propostas em conjuntos de dados reais.

Palavras-chave: Análise de Diagnóstico; Análise de Regressão Bivariada; CópulaFGM; Distribuição Birnbaum-Saunders; Distribuição Sinh-normal; Estimação.

Page 8: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Abstract

Birnbaum and Saunders (1969 a,b) proposed the well-known Birnbaum Saunders(BS) distribution, motivated by problems of vibration in commercial aircraft thatcaused fatigue in materials. This distribution can be used to model lifetime dataand it has received considerable attention in the literature. As well as many univariatedistributions have been generalized to bivariate distributions, the univariate BS dis-tribution has been extended by Kundu et al. (2010). They proposed a bivariate BSdistribution with dependence structure and established several attractive propertiesusing the close relationship of the BS distribution with the normal distribution. Thiswork provides an extension of the BS distribution to a different kind of bivariate BSdistribution, which is built by using the Farlie-Gumbel-Morgenstern (FGM) Copula,Conway (1979), to model the dependence of bivariate data. The resulting bivariatedistribution is an absolutely continuous distribution and its marginal distributions areunivariate BS distributions. We also develop a bivariate regression model to studycorrelated log-time of two units. For this type of bivariate Birnbaum-Saunders regres-sion model based on FGM copula some properties are discussed: moment estimationand the maximum likelihood estimation. Moreover, a study of diagnostic analysis isdiscussed for the proposed model. Finally, numeric examples are presented to illustratethe proposed methodologies based on real data set.

Keywords: Birnbaum-Saunders distribution; Bivariate linear regression model;FGM copula; Estimation; Sinh-normal distribution; Diagnostic analysis

Page 9: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

Sumário

1 Introdução 111.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 Conceitos básicos de sobrevivência . . . . . . . . . . . . . . . . . . . . . 131.3 A Distribuição Birnbaum-Saunders . . . . . . . . . . . . . . . . . . . . 131.4 Distribuição Sinh-Normal . . . . . . . . . . . . . . . . . . . . . . . . . 161.5 O Modelo de Regressão Birnbaum-Saunders . . . . . . . . . . . . . . . 171.6 Objetivos do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.7 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Funções Cópulas 202.1 Conceitos Básicos sobre Cópulas . . . . . . . . . . . . . . . . . . . . . . 20

2.1.1 Alguns exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2 A Cópula FGM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1 Algumas Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.2 Coeficiente de Correlação . . . . . . . . . . . . . . . . . . . . . . 242.2.3 Observações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2.4 Geração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Extensões da Cópula FGM . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 O modelo BS Bivariado baseado na Cópula FGM 293.1 Revisão sobre a Distribuição BS Bivariada . . . . . . . . . . . . . . . . 29

3.1.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Distribuição BS Bivariada baseado na Cópula FGM . . . . . . . . . . . 33

3.2.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.2.2 Estimação pelo Método dos Momentos . . . . . . . . . . . . . . 423.2.3 Estimação por Máxima Verossimilhança . . . . . . . . . . . . . 433.2.4 Qualidade do Ajuste . . . . . . . . . . . . . . . . . . . . . . . . 463.2.5 Estudo de Simulação . . . . . . . . . . . . . . . . . . . . . . . . 483.2.6 Análise de dados reais . . . . . . . . . . . . . . . . . . . . . . . 55

4 Regressão Birnbaum-Saunders 614.1 Modelo de Regressão BS Bivariado baseado na Distribuição Normal Bi-

variada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Page 10: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

4.2 O Modelo de Regressão BS Bivariado Baseado na Cópula FGM . . . . 634.2.1 Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . 674.2.2 Método de Máxima Verossimilhança . . . . . . . . . . . . . . . 714.2.3 Estudo de Simulação . . . . . . . . . . . . . . . . . . . . . . . . 754.2.4 Análise de dados reais . . . . . . . . . . . . . . . . . . . . . . . 89

5 Análise de Diagnóstico 1005.1 Método de Eliminação de casos . . . . . . . . . . . . . . . . . . . . . . 101

5.1.1 Distância Generalizada de Cook . . . . . . . . . . . . . . . . . . 1025.1.2 Afastamento pela Máxima Verossimilhança . . . . . . . . . . . . 103

5.2 Avaliação de Outlier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035.3 Análise de Influência Local . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.3.1 Ponderação de Pertubação de casos . . . . . . . . . . . . . . . . 1075.4 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.4.1 Distâncias 𝐿𝐷𝑖 e 𝐺𝐷𝑖 . . . . . . . . . . . . . . . . . . . . . . . 1085.4.2 Avaliação de Outlier . . . . . . . . . . . . . . . . . . . . . . . . 1115.4.3 Ponderação de Casos . . . . . . . . . . . . . . . . . . . . . . . . 1135.4.4 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6 Considerações Finais 123

Referências 125

A Cálculo da Matriz de Informação Observada 131

B Primeira e Segunda Derivadas das Funções 𝜉1𝑖 e 𝜉2𝑖 139

Page 11: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

11

Capítulo 1

Introdução

1.1 IntroduçãoDiversos fenômenos do mundo real podem ser descritos no contexto multivariado,

motivando muitas generalizações de distribuições univariadas para formar distribuiçõesmultivariadas. Alguns exemplos podem ser encontrados em Johnson et al. (1994),Johnson et al. (1995), Kotz et al. (2000) e Balakrishnan e Lai (2009). Diante disso,tornou-se crucial a existência de modelos que permitam avaliar o comportamento devariáveis aleatórias separadamente e também capturar de que forma elas interagem.A estrutura de dependência se tornou um fator de extrema importância em muitasaplicações.

Sua incorporação pode se dar de forma simples, através de medidas de dependência,tais como o coeficiente de correlação linear ou medidas de concordância; ou de umaforma mais complexa através de distribuições conjuntas que têm explícita uma deter-minada estrutura de dependência. Apesar da primeira metodologia ser mais simples,em muitas situações, as medidas de dependência não são a ferramenta mais indicadapara capturar a interação entre variáveis aleatórias, devido às suas limitações. A funçãode distribuição acumulada bivariada vigora então como alternativa mais eficaz.

Entretanto, em muitos casos a construção de uma distribuição conjunta nem sempreé possível de se obter. Para esse cenário, uma alternativa muito eficaz é a utilização decópulas. As cópulas são funções de distribuição multivariadas que permitem agregarum conjunto de funções de distribuição univariadas com uma determinada estruturade dependência. Alguns exemplos de distribuições bivaridas obtidas via cópula podemser encontrados em Nelsen (2006), Clayton (1978) e Balakrishnan e Lai (2009). Algu-mas referências para aplicações de modelos de regressão bivaridos baseados em cópulassão Durling (1974), Lai (1978), Chinchilli e Breen (1985). No contexto de Análise deSobrevivência, Teichmann (1986) aplicou essa distribuição para um estudo de confia-bilidade de componentes; Barriga et al (2010) consideraram um modelo de regressãobivariado, com erros seguindo a distribuição do valor extremo.

Principalmente em Análise de Sobrevivência ou Confiabilidade, o estudo bivariadoé muito comum e trabalhos sobre tempos de vida bivariados são encontrados com

Page 12: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

12

frequência na literatura. Um aspecto que tem sido investigado é o ajuste de modelosparamétricos, quando existem dois tempos, 𝑇1 e 𝑇2, associados ao mesmo indivíduo.Muitas vezes é interessante também considerar o efeito de outros fatores, denominadoscovariáveis ou variáveis concomitantes. Por exemplo, num estudo de recorrência de umacerta doença, fatores como idade, sexo, estágio da doença, etc, podem ser consideradoscovariáveis.

No contexto de confiabilidade, as falhas podem ser ocasionadas por diversas causase uma delas é a fadiga do material. Segundo Birnbaum e Saunders (1969a), a falha domaterial ocorre devido ao desenvolvimento e ao crescimento de uma rachadura domi-nante dentro do material após o material estar sujeito a um padrão cíclico de tensãoe força. Na literatura, entre os modelos probabilísticos que têm sido popularmentepropostos para descrever o tempo de vida relacionado à fadiga encontram-se as distri-buições gama, Gaussiana Inversa, log-normal e Weibull, que se ajustam com grandeprecisão na região central. Porém, em situações em que os tempos de vida são baixosou bem grandes, tais distribuições não são apropriadas, produzindo um ajuste ruim.Uma alternativa muito utilizada para estes casos é a distribuição de tempo de vidaproposta por Birnbaum e Saunders (1969a), que utilizaram o conhecimento sobre umtipo particular de fadiga para derivar uma família de distribuições que permite modelartempos de vida de materiais e equipamentos sujeitos a cargas dinâmicas de estresse.O uso da distribuição Birnbaum-Saunders (BS) tem permitido melhorar o ajuste paraestes casos; um dos motivos pelo qual ela vem sendo amplamente utilizada na área deengenharia e muitas pesquisas tem sido concentradas nela.

Embora tenha surgido no contexto de engenharia de materiais, a distribuição BSé apropriada para descrever processos de degradação acumulativa, de tal forma queessa distribuição têm sido aplicada em outras áreas, como por exemplo, em ciênciasda saúde, na área ambiental e florestal, em demografia, na área atuarial e financeira,entre outras. Para mais detalhes, veja, por exemplo, veja Leiva et al. (2007), Leiva etal. (2008), Barros et al. (2008), Leiva et al.(2009) e Paula et al. (2012). Todos estesaspectos mencionados têm permitido considerar a distribuição BS como um modelo deprobabilidade, em vez de um modelo utilizado apenas em análise de sobrevivência.

Birnbaum e Saunders (1969b) obtiveram os estimadores de máxima verossimilhançapara os dois parâmetros da distribuição. Man et al. (1974) mostraram que esta dis-tribuição é unimodal. Engelhardt et al. (1981) propuseram intervalos de confiança etestes de hipóteses paras os parâmetros desta distribuição. Rieck e Nedelman (1991)desenvolveram o modelo de regressão log-linear BS. Achcar (1993) desenvolveu pro-cedimentos de estimação bayesiana. Lu e Chang (1997) utilizaram método bootstrappara construir intervalos de predição.

No contexto multivariado, Kundu et al. (2010) apresentaram uma extensão dadistribuição BS univariada para o caso bivariado. Com base nessa generalização eno modelo de regressão proposto por Rieck e Nedelman (1991), Vilca et al. (2016)propuseram um modelo de regressão BS bivariado. Uma extensão da distribuição BSo caso multivariado pode ser encontrada em Kundu et al. (2013).

A proposta deste trabalho é apresentar a teoria que suporta a aplicação de cópulas

Page 13: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

13

bem como propor um modelo bivariado para a distribuição BS baseando-se na estruturade cópulas e o respectivo modelo de regressão, algo que até o momento não foi estudadona literatura.

1.2 Conceitos básicos de sobrevivênciaA análise de sobrevivência pode ser entendida como um método de estudo da Esta-

tística no qual a variável resposta é o tempo até a ocorrência de um evento de interesse.O que diferencia os dados de análise de sobrevivência em relação aos de outros méto-dos tradicionais de análise estatística é a presença das chamadas censuras. A censurase refere a situações em que o acompanhamento da unidade amostral é interrompidosem que o evento de interesse tenha ocorrido. Isso deve ser levado em consideração naanálise pois traz a informação de que o tempo até a ocorrência do evento de interesse ésuperior ao tempo então observado. A Função de Sobrevivência é definida como sendo:

𝑆𝑇 (𝑡) = 𝑃 (𝑇 > 𝑡) = 1 − 𝐹𝑇 (𝑡), 0 < 𝑡 < ∞, (1.2.1)

em que 𝐹𝑇 (𝑡) representa a função de distribuição acumulada (fda) da variável aleatóriaT. Outra função útil na análise de sobrevivência é a função de risco instantâneo, ℎ𝑇 (𝑡):

ℎ𝑇 (𝑡) = limΔ𝑡→0

𝑃 [𝑡 < 𝑇𝑚 ≤ 𝑡 + Δ𝑇 |𝑇𝑚 > 𝑡]Δ𝑡

. (1.2.2)

1.3 A Distribuição Birnbaum-SaundersEm seu artigo entitulado "A new family of life distributions", Birnbaum e Saunders

(1969a) desenvolveram a distribuição univariada Birnbaum-Saunders (BS), a qual mo-dela o tempo de vida de materiais e equipamentos sujeitos a cargas dinâmicas atravésde modelos de dano acumulado, para um exemplo veja Mann et al. (1974). Essa distri-buição tem sido amplamente utilizada na área de engenharia e tem sido foco de muitaspesquisas. A distribuição BS tem propriedades interessantes e uma relação próximacom a distribuição normal e por isso, do ponto de vista de aplicação, é uma alternativamais atraente para as bem conhecidas distribuições Weibul, Log-Logística, log-normal,gama e Gaussiana Inversa.

Suponha que 𝑇 seja uma variável aleatória que representa o tempo total até queocorra a falha, então a distribuição de 𝑇 proposta por Birnbaum e Saunders (1969a)tem fda dada por

𝐹𝑇 (𝑡; 𝛼, 𝛽) = 𝑃 (𝑇 ≤ 𝑡) = Φ[ 1𝛼

(√𝑡

𝛽−√

𝛽

𝑡

)], (1.3.1)

em que Φ(·) é a fda da distribuição Normal padrão. Dizemos que 𝑇 segue uma dis-tribuição BS, com parâmetros de forma 𝛼 > 0 e de escala 𝛽 > 0, que é usualmente

Page 14: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

14

denotada por 𝑇 ∼ 𝐵𝑆(𝛼, 𝛽). Fazendo

𝑎𝑡(𝛼, 𝛽) = 1𝛼

[√𝑡

𝛽−√

𝛽

𝑡

]e 𝐴𝑡(𝛼, 𝛽) = 𝑑

𝑑𝑡𝑎𝑡(𝛼, 𝛽) = 𝑡3/2(𝑡 + 𝛽)

2𝛼√

𝛽, (1.3.2)

a fda 𝐹𝑇 (𝑡) pode ser reescrita como

𝐹𝑇 (𝑡; 𝛼, 𝛽) = Φ(𝑎𝑡(𝛼, 𝛽)).

A função densidade de probabilidade (fdp) correspondente é dada por

𝑓𝑇 (𝑡; 𝛼, 𝛽) = 12𝜋

exp{

− 12𝛼2

(𝑡

𝛽+ 𝛽

𝑡− 2

)}𝑡3/2(𝑡 + 𝛽)

2𝛼√

𝛽,

= 𝜑(𝑎𝑡(𝛼, 𝛽))𝐴𝑡(𝛼, 𝛽), 𝑡 > 0, 𝛼 > 0, 𝛽 > 0, (1.3.3)

em que 𝜑(·) é a fdp da distribuição normal padrão.Uma característica importante dessa distribuição é sua direta relação com a distri-

buição normal padrão. Seja 𝑍 uma variável aleatória definida por

𝑍 = 𝛼−1(√

𝑇

𝛽−√

𝛽

𝑇

), (1.3.4)

com 𝑇 ∼ 𝐵𝑆(𝛼, 𝛽). Então 𝑍 ∼ 𝑁(0, 1).Dessa forma, utilizando essa relação com a distribuição normal podemos definir a

distribuição BS através da seguinte representação estocástica

𝑇 = 𝛽

4

[𝛼𝑍 +

√(𝛼𝑍)2 + 4

]2. (1.3.5)

Essa relação é extremamente útil e pode ser usada para obtenção de números pseudo-aleatórios provenientes da distribuição BS.

Em Saunders (1974) diversas propriedades interessantes foram detalhadas. Algumasdelas podem ser demonstradas utilizando a relação da distribuição BS com a distribui-ção normal. Assim, considerando 𝑇 ∼ 𝐵𝑆(𝛼, 𝛽) temos que

(i) 𝑐𝑇 ∼ 𝐵𝑆(𝛼, 𝑐𝛽), em que 𝑐 é uma constante positiva;

(ii) 𝑇 −1 ∼ 𝐵𝑆(𝛼, 𝛽−1).

Johnson et al. (1995) mostraram que quando 𝛽𝑇 −1 e 𝛽−1𝑇 possuem a mesmadistribuição, o valor esperado de (𝑇

𝛽)𝑟 é dado por

E[𝑇

𝛽

]𝑟

=𝑟∑

𝑗=0

(2𝑟2𝑗

) 𝑗∑𝑖=0

(𝑗𝑖

)[2(𝑟 − 𝑗 + 1)]

2𝑟−𝑗+𝑖(𝑟 − 𝑗 + 𝑖)

(12𝛼)2(𝑟−𝑗+1)

.

Page 15: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

15

Consequentemente, a esperança e a variância para a distribuição BS, são dadas,respectivamente, por

E(𝑇 ) = 𝛽(1 + 𝛼2

2)

𝑒 𝑉 𝑎𝑟(𝑇 ) = (𝛼𝛽)2(1 + 5

4𝛼2).

Nas Figuras 1.1(a) e 1.1(b) apresentamos a fdp e fda da distribuição BS, respecti-vamente para alguns valores de 𝛼 e considerando 𝛽 = 1.

(a)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

x

f(x)

α=0.25α=0.50α=0.75α=1.0

(b)

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

α=0.25α=0.50α=0.75α=1.0

Figura 1.1: (a) Fdp e (b) Fda da distribuição BS para diferentes valores de 𝛼 e fixando𝛽 = 1.

Na Figura 1.1(a) nota-se que à medida que o valor de 𝛼 decresce, a curva tende a ficarmais simétrica em torno de 𝛽, que é a mediana da distribuição, ou seja, 𝐹 (𝛽) = 0.5.Da mesma forma, nota-se que a variância também decresce com 𝛼.

A função de sobrevivência e a função risco podem ser obtidas da relação 1.2.1 e1.2.2, respectivamente, e são dadas por

𝑆(𝑡) = 1 − Φ(𝑎𝑡(𝛼, 𝛽)).e

ℎ(𝑡) = 𝜑(𝑎𝑡(𝛼, 𝛽))𝐴𝑡(𝛼, 𝛽)1 − Φ(𝑎𝑡(𝛼, 𝛽)) .

A função risco ℎ(𝑡) é zero em 𝑡 = 0, cresce até um máximo para algum 𝑡0 e final-mente decresce até um valor finito. De fato, o comportamento assintótico de ℎ(𝑡) éapresentado na Figura 1.2(b), e de acordo com Kundu et al. (2008), temos que

lim𝑡→∞

ℎ(𝑡) = 12𝛼2𝛽

.

Page 16: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

16

(a)

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

x

S(x

)

α=1.75α=1.50α=1.25α=1.00α=0.75

(b)

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

h(x)

α=1.75 α=1.50

α=1.25 α=1.00

α=0.75

Figura 1.2: (a) Função de Sobrevivência e (b) Função Risco da distribuição BS, paradiferentes valores de 𝛼 e fixando 𝛽 = 1.

1.4 Distribuição Sinh-NormalEm situações práticas existem grandes dificuldades na análise de dados com base no

pressuposto de normalidade, pois muitas vezes os dados não são distribuídos conformea distribuição normal. É usual por muitos pesquisadores propor uma transformaçãonos dados, com intuito de obter um melhor ajuste, porém este procedimento pode levara conclusões errôneas ou de difícil interpretação.

Uma alternativa para alguns conjunto de dados é o sistema de Johnson, original-mente apresentado por Johnson (1949), que fornece uma possível distribuição cobrindomuitas combinações possíveis de assimetria e curtose. Johnson (1949) mencionou queé natural e também conveniente construir distribuições não normais, transformandouma variável aleatória que segue uma distribuição normal. O algoritmo é dado atravésda transformação

𝑍 = 𝜈 + 𝛿𝑔(

𝑌 − 𝜇

𝜎

), (1.4.1)

em que 𝑍 ∼ 𝑁(0, 1) e 𝑔(·) é uma função monótona. Estas distribuições não normaistêm quatro parâmetros 𝜈, 𝛿, 𝜇 e 𝜎; em que 𝜈 e 𝛿 correspondem aos parâmetros de forma,enquanto 𝜇 e 𝜎 são os parâmetros de locação e escala, respectivamente.

Baseado em (1.4.1), Rieck (1989) definiu o seguinte modelo

𝑍 = 𝜈 + 𝛼

2 sinh(

𝑌 − 𝜇

𝜎

)∼ 𝑁(0, 1).

em que sinh representa a função seno hiperbólico.

Page 17: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

17

Neste caso é dito que Y segue uma distribuição Sinh-Normal (SN) de quatro parâme-tros. A notação utilizada é 𝑌 ∼ 𝑆𝑁(𝛼, 𝜇, 𝜎, 𝜈), que é reduzida para 𝑌 ∼ 𝑆𝑁(𝛼, 𝜇, 𝜎)quando 𝜈 = 0. Para mais detalhes e aplicações da distribuição SN, consulte Rieck(1989) e Rieck e Nedelman (1991).

Se 𝑌 ∼ 𝑆𝑁(𝛼, 𝜇, 𝜎 = 2) então 𝑇 = exp(𝑌 ) ∼ 𝐵𝑆(𝛼, 𝛽), com parâmetro de forma𝛼 > 0 e parâmetro de escala 𝛽 = exp(𝜇) > 0; veja Birnbaum e Saunders (1969a),Jonhson et al. (1995). Por este motivo, o modelo SN com 𝜎 = 2 é também chamadode modelo de regressão log-Birnbaum-Saunders (log-BS) ou modelo de regressão BS.Para mais detalhes veja Rieck e Nedelman (1991), Galea et al. (2004) e Leiva et al.(2007).

Em Vilca et al. (2016) uma extensão da distribuição SN para o cenário bivariado foiproposta assumindo a seguinte representação estocástica para as variáveis aleatórias 𝑌1e 𝑌2:

𝑌𝑗 = 𝜇𝑗 + 𝜎𝑗 arcsinh(

𝛼𝑗𝑍𝑗

2

), 𝑗 = 1, 2, (1.4.2)

em que Z = (𝑍1, 𝑍2)⊤ tem distribuição normal bivariada com parâmetro de correlação𝜌. Dessa forma, o vetor aleatório bivariado Y = (𝑌1, 𝑌2)⊤ é dito ter distribuição SNbivariada com parâmetros 𝛼 = (𝛼1, 𝛼2)⊤ ∈ R2

+, 𝜇 = (𝜇1, 𝜇2)⊤ ∈ R2, 𝜎 = (𝜎1, 𝜎2)⊤ ∈R2

+ e 𝜌 ∈ (−1, 1); que será denotada por Y ∼ SN2(𝛼,𝜇,𝜎, 𝜌).

1.5 O Modelo de Regressão Birnbaum-SaundersUtilizando a distribuição Sinh-Normal como base, Rieck e Nedelman (1991), desen-

volveram o modelo de regressão log-linear BS, definido por

𝑌𝑖 = x⊤𝑖 𝛽 + 𝜀𝑖, (1.5.1)

em que 𝑌𝑖 é o logaritmo do tempo de vida para a 𝑖-ésima unidade experimental; osvetores x⊤

𝑖 , 𝑖 = 1, . . . , 𝑛 são covariáveis conhecidas, que são as linhas da matriz X:𝑛×𝑝;e 𝛽 é um vetor de parâmetros de dimensão 𝑝. Na literatura, assume-se que os erros𝜀𝑖’s são independentes com distribuição comum 𝜀𝑖 ∼ 𝑆𝑁(𝛼, 0, 𝜎 = 2). Neste caso𝑌𝑖 = log(𝑇𝑖), o qual segue uma distribuição 𝑆𝑁(𝛼, x⊤

𝑖 𝛽, 𝜎 = 2).Rieck e Nedelman (1991) estudaram algumas propriedades da distribuição Sinh-

Normal; Galea et al. (2004) apresentaram um estudo de influência local e diagnósticoseguindo o trabalho de Cook (1986). Lemonte e Cordeiro (2009) propuseram o modelode regressão não-linear Birnbaum-Saunders extendendo o trabalho de Rieck e Nedelman(1991); Barros et al. (2008) consideraram uma extensão da distribuição Sinh-Normalbaseada na distribuição Student-𝑡, onde os graus de liberdade permitem controlar acurtose da distribuição resultante. Baseados nesta extensão, Barros et al. (2008)apresentaram um estudo de inferência e diagnóstico que representa uma extensão dealguns resultados obtidos por Galea et al. (2004). Leiva et al. (2010) consideraram,em lugar da distribuição normal, a distribuição skew-elíptica. Outras extensões da

Page 18: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

18

distribuição Sinh-Normal, baseadas nas distribuições mistura de escala normal, podemser encontradas em Balakrishnan e Lai (2009).

O modelo de regressão log-BS tem se mostrado muito apropriado para modelarproblemas de tempo de vida que consideram a transformação logarítmica da variávelresposta, porém, na literatura muitos problemas de sobrevivência ou confiabilidadeenvolvem dois tempos de vida associados a um mesmo indivíduo. Veja, por exemplo,Teichmann (1986), Wada et al. (2000) e destacamos Barriga et al. (2010), que con-sideraram um modelo de regressão linear bivariado baseado na cópula FGM, em queas marginais seguem uma distribuição do valor extremo. Vilca et al. (2016) propuse-ram um modelo de regressão BS bivariado construído utilizando a distribuição normalbivariada, seguindo a ideia de Kundu et al (2010), que propuseram a distribuição BSbivariada.

Muitas distribuições bivariadas ou multivariadas têm sido construídas via cópulas,com marginais específicas. Esta técnica tem sido aplicada com sucesso em diferentesáreas da estatística aplicada, para introduzir estrutura de dependência entre distri-buições marginais especificas. Algumas referências importantes para leitura, citamospor exemplo, Nelsen (2006), Balakrishnan e Lai (2009), Clayton (1978), Frank (1979),Conway (1979) e Gumbel (1958).

1.6 Objetivos do TrabalhoO objetivo deste trabalho é apresentar um estudo de inferência e diagnóstico do

modelo de regressão Birnbaum-Saunders bivariado construído com base na cópula deFarlie-Gumbel-Morgentern (FGM), que denotamos por Modelo C-BS Bivariado. Osobjetivos específicos podem ser resumidos em:

1. Descrever o modelo Birnbaum-Saunders bivariado construído a partir da cópulaFGM. Discutir sua propriedades e propor estimadores consistentes.

2. A partir da classe de distribuições Sinh-Normal bivariada, apresentar o modelode regressão C-BS bivariado. Realizar uma discussão na mesma direção do casounivariado estudado em Rieck (1989) e Rieck e Nedelman (1991).

3. Desenvolver um estudo de diagnóstico para esse modelo, seguindo a metodologiade Cook (1977).

Todos os processos de estimação e diagnóstico foram realizadas com auxilio do soft-ware estatístico R, que se encontra disponível no endereço www.r-project.org/.

1.7 Organização do TrabalhoA presente dissertação encontra-se dividida em seis capítulos. Neste primeiro capí-

tulo é apresentada uma motivação acerca de análise sobrevivência; uma introdução do

Page 19: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

19

modelo BS univariado e o respectivo modelo de regressão. Algumas de suas proprie-dades são discutidas.

No Capítulo 2, realizamos uma revisão dos conceitos básicos sobre cópulas, neces-sários para as aplicações futuras. Destacamos a cópula de Farlie-Gumbel-Morgentern(FGM), que será utilizada no desenvolvimento desse trabalho.

No Capítulo 3, iniciamos com uma revisão da distribuição Birnbaum-Saunders (BS)bivariada introduzida por Kundu et al. (2010). Em seguida, apresentamos uma novaproposta utilizando a cópula FGM, obtendo então o modelo C-BS bivariado. Para oqual discutimos suas propriedades; elaboramos uma metodologia de estimação apli-cando método dos momentos e máxima verossimilhança; construímos uma opção deresíduos; e para finalizar, realizamos um estudo de simulação e aplicação em dadosreais.

Já no Capítulo 4, baseando-se no uso da distribuição SN proposta por Rieck (1989)e Vilca et al. (2016), construímos o modelo de regressão bivariado associado à distri-buição C-BS bivariada. Além disso, realizamos um estudo de inferência, apresentandoos estimadores de máxima verossimilhança. Desenvolvemos também um estudo de si-mulação, com o objetivo de investigar o comportamento dos estimadores propostos.Por fim, uma aplicação em dados reais é apresentada.

No Capítulo 5, aplicamos um estudo de diagnóstico para o modelo de regressão C-BSbivariado, baseando-se na metodologia de Cook (1977) e Cook (1986). Apresentamosuma aplicação dos resultados obtidos ao conjunto de dados reais ajustado no Capítulo4.

O Capítulo 6 finaliza a dissertação com algumas conclusões e possíveis direciona-mentos para estudos futuros.

Page 20: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

20

Capítulo 2

Funções Cópulas

2.1 Conceitos Básicos sobre CópulasUma característica comum das distribuições apresentadas neste capítulo é que sua

distribuição conjunta 𝐹 (𝑥, 𝑦) pode ser descrita como função das marginais 𝐹1(𝑥) e𝐹2(𝑦). Essa operação recebe o nome de cópula e é usualmente denotada por 𝐶𝜂(𝑢, 𝑣).

Nesta seção vamos apresentar um breve resumo de alguns conceitos básicos dasfunções cópulas. Informações complementares podem ser encontradas, por exemplo,em Nelsen (2006) e Balakrishnan e Lai (2009).

Nosso principal interesse é a cópula de Farlie-Gumbel -Morgentern (FGM), que seráutilizada futuramente no desenvolvimento desse trabalho.

Definição 1. Uma função de distribuição multivariada 𝐹 é uma função crescente elimitada em R𝑝, tal que:

1. F é monótona e não decrescente em cada variável;

2. F é contínua à direita em cada variável;

3. 0 ≤ 𝐹 (𝑥1, ..., 𝑥𝑝) ≤ 1;

4. lim𝑥1,𝑥2,...,𝑥𝑝→+∞

𝐹 (𝑥1, ..., 𝑥𝑝) = 1 e lim𝑥𝑖→−∞

𝐹 (𝑥1, ..., 𝑥𝑝) = 0 para 𝑖 = 1, 2, ..., 𝑝.

Definição 2. Uma cópula é uma distribuição multivariada cujas marginais seguem umadistribuição uniforme em (0, 1), 𝑈(0, 1). Seja o vetor aleatório 𝑈 = (𝑈1, . . . , 𝑈𝑝) ∈ R𝑝

com cópula 𝑝-dimensional 𝐶𝜂, então

𝐶𝜂(𝑢1, . . . , 𝑢𝑝) = 𝑃 (𝑈1 ≤ 𝑢1, . . . , 𝑈𝑝 ≤ 𝑢𝑝),

em que 𝜂 é o parâmetro de associação.

Page 21: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

21

Teorema 1. (Teorema de Sklar) Seja 𝐹 uma função de distribuição conjunta commarginais 𝐹1(𝑡1), ..., 𝐹𝑝(𝑡𝑝). Então, existe uma cópula 𝑝-dimensinonal 𝐶𝜂 tal que

𝐹 (𝑡1, ..., 𝑡𝑛; 𝜂) = 𝐶𝜂(𝐹1(𝑡1), ..., 𝐹𝑝(𝑡𝑝)).

Se 𝐹1(𝑡1), ..., 𝐹𝑝(𝑡𝑝) são todas contínuas, então 𝐶𝜂 é única.

Demonstração. Veja Nelsen (2006)

O teorema de Sklar é um dos resultados mais importantes no que diz respeito à teoriae aplicação de cópulas. A partir deste, temos que a cópula conecta as distribuiçõesmarginais univariadas formando uma distribuição multivariada. O caminho inversotambém é válido, isto é, uma função multivariada pode ser decomposta nas marginaisunivariadas e na estrutura de dependência dada pela cópula.

Seja 𝐹 uma função de distribuição conjunta conforme definição no Teorema de Sklar.A densidade multivariada de 𝐹 é dada por:

𝑓(𝑥1, ..., 𝑥𝑝) = 𝜕𝑝𝐶𝜂(𝐹1(𝑥1), ..., 𝐹𝑝(𝑥𝑝))𝜕𝐹1(𝑥1)...𝜕𝐹𝑝(𝑥𝑝)

𝑝∏𝑖=1

𝑓𝑖(𝑥𝑖)

= 𝑐𝜂(𝐹1(𝑥1), ..., 𝐹𝑝(𝑥𝑝))𝑝∏

𝑖=1𝑓𝑖(𝑥𝑖),

em que 𝐹𝑖 e 𝑓𝑖 são as funções de distribuição e densidade marginais, respectivamente,e

𝑐𝜂(𝐹1(𝑥1), ..., 𝐹𝑝(𝑥𝑝)) = 𝜕𝑝𝐶𝜂(𝐹1(𝑥1), ..., 𝐹𝑝(𝑥𝑝))𝜕𝐹1(𝑥1)...𝜕𝐹𝑝(𝑥𝑝)

Definição 3. Considere 𝜙:[0, 1] ↦→ [0, ∞] tal que 𝜙 é uma função contínua e estrita-mente decrescente, com 𝜙(1) = 0. Também considere a pseudo-inversa de 𝜙 sendo afunção 𝜙[−1]:[0, ∞] ↦→ [0, 1] dada por

𝜙[−1](𝑡) =⎧⎨⎩𝜙−1(𝑡), 0 6 𝑡 6 𝜙(0);

0, 𝜙(0) 6 𝑡 6 ∞.

Note que 𝜙[−1] é contínua em [0, ∞], e estritamente decrescente em [0, 𝜙(0)]. Também𝜙[−1](𝜙(𝑡)) = 𝑡 em [0, 1], e 𝜙(𝜙[−1](𝑡)) = min(𝑡, 𝜙(0)). Claramente se 𝜙(0) = ∞, então𝜙[−1] = 𝜙−1.

Teorema 2. Considere 𝐶𝜂:[0, 1] × [0, 1] ↦→ [0, 1] dada por

𝐶𝜂(𝑢, 𝑣) = 𝜙[−1](𝜙(𝑢) + 𝜙(𝑣)),

em que 𝜙 e 𝜙[−1] são como na Definição 3. Então, 𝐶𝜂 é uma cópula se, e somente se,𝜙 é uma função convexa.

Page 22: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

22

Demonstração. Veja Nelsen (2006)

Para todas as cópulas temos os limites de Fréchet-Hoeffding, que são os limites devariação e são dados por

max(0,

𝑝∑𝑖=1

𝐹𝑖(𝑡𝑖) − 𝑝 + 1)

≤ 𝐶𝜂(𝐹1(𝑡1), . . . , 𝐹𝑝(𝑡𝑝)) ≤ min(𝐹1(𝑡1), . . . , 𝐹𝑝(𝑡𝑝)).

Definição 4. Cópulas da forma apresentada no Teorema 2 são denominadas cópulasarquimedianas com gerador 𝜙. É denominada cópula arquimediana estrita se 𝜙[−1] =𝜙−1 e 𝐶𝜂(𝑢, 𝑣) = 𝜙[−1](𝜙(𝑢) + 𝜙(𝑣)).

Considere 𝐶𝜂(𝑢, 𝑣) uma cópula arquimediana bivariada. Então as seguintes propri-edades são válidas:

(i) 𝐶𝜂(𝑢, 𝑣) = 𝐶𝜂(𝑣, 𝑢), ou seja, 𝐶𝜂 é simétrica (permutável);

(ii) 𝐶𝜂(𝐶𝜂(𝑢, 𝑣), 𝑤) = 𝐶𝜂(𝑢, 𝐶𝜂(𝑣, 𝑤)), para todo 𝑢, 𝑣, 𝑤 em [0, 1]. Isto é, 𝐶𝜂 éassociativa;

(iii) Seja 𝜙 a geradora de 𝐶𝜂. Então, para qualquer constante positiva 𝑎, tem-se que𝑎𝜙 também é uma geradora de 𝐶𝜂.

A seguir apresentaremos alguns exemplos de cópulas arquimedianas bivariadas.

2.1.1 Alguns exemplos1) Cópula de Clayton

A cópula de Clayton, introduzida por Clayton (1978), é geralmente utilizada paraanálise de risco, devido à sua capacidade de reproduzir dependência na cauda infe-rior. Tem a forma

𝐶𝜂(𝑢, 𝑣) = (𝑢− 1𝜂 + 𝑣− 1

𝜂 − 1)−𝜂, 𝜂 > 0.

O valor 𝜂 = 0 representa independência, ou seja, 𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣. Quando 𝜂 → ∞ acópula atinge o limite superior de Fréchet, mas para nenhum valor atinge o limiteinferior. Essa cópula não contempla a dependência negativa.Sua função geradora é dada por 𝜙(𝑡) = 𝑡− 1

𝜂 − 1 (veja Genest e MacKay,1986).

2) Cópula de FrankA cópula de Frank, considerada por Frank (1979), permite dependência negativa eé simétrica em ambas as caudas. Tem a forma

𝐶𝜂(𝑢, 𝑣) = log𝜂

(1 + (𝜂𝑢 − 1)(𝜂𝑣 − 1)

𝜂 − 1

).

Segundo Balakrishnan e Lai (2009),

Page 23: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

23

(i) Para 0 < 𝜂 < 1, a associação é positiva(ii) Conforme 𝜂 → 1 temos independência.(iii) Para 𝜂 > 1, a associação é negativa.

Sua função geradora é dada por 𝜙(𝑡) = ln(1−𝜂𝑡

1−𝜂).

A seguinte cópula, que discutiremos com mais detalhes, não é arquimediana, comopode ser visto em Genest e MacKay (1986), mas tem encontrado muitas aplicações emdiferentes áreas da estatística.

2.2 A Cópula FGMNesta seção, destacamos a cópula de Farlie-Gumbel-Morgentern, Gumbel (1958) e

Farlie (1960), usualmente conhecida como cópula FGM.Sua função distribuição é dada por

𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜂(1 − 𝑢)(1 − 𝑣)], −1 6 𝜂 6 1, (2.2.1)

em que o parâmetro 𝜂 representa a associação entre as variáveis 𝑢 e 𝑣. O valor 𝜂 = 0representa independência, ou seja, se 𝜂 = 0 então 𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣.

Pelo Teorema de Sklar, temos que a densidade de 𝑐 é dada por

𝑐𝜂(𝑢, 𝑣) = 1 + 𝜂(2𝑢 − 1)(2𝑣 − 1), −1 6 𝜂 6 1. (2.2.2)

Podemos definir 𝑢 e 𝑣 como funções de distribuição acumulada. Especificamente,𝑢 = 𝐹𝑍1(𝑧1) e 𝑣 = 𝐹𝑍2(𝑧2). Então, a função de densidade conjunta de 𝑍1 e 𝑍2 atravésda cópula FGM é dada por

𝑓𝑍1,𝑍2(𝑧1, 𝑧2) = 𝑐𝜂(𝐹𝑍1(𝑧1), 𝐹𝑍2(𝑧2))𝑓𝑍1(𝑧1)𝑓𝑍2(𝑧2)= [1 + 𝜂(2𝐹𝑍1(𝑧1) − 1)(2𝐹𝑍2(𝑧2) − 1)]𝑓𝑍1(𝑧1)𝑓𝑍2(𝑧2),

em que 𝑐𝜂(·) é como em (2.2.2).Partindo do mesmo princípio podemos obter também a função de sobrevivência

conjunta. Sejam 𝑆1(𝑡1) e 𝑆2(𝑡2) as funções de sobrevivência referentes aos tempos defalha 𝑡1 e 𝑡2, respectivamente. Então a função de sobrevivência conjunta gerada pelacópula FGM é dada por

𝑆(𝑡1, 𝑡2) = 𝐶𝜂(𝑆1(𝑡1), 𝑆2(𝑡2))= [1 + 𝜂(1 − 𝑆1(𝑡1))(1 − 𝑆2(𝑡2))]𝑆1(𝑡1)𝑆2(𝑡2).

A cópula FGM é atraente devido à sua forma analítica simples e tem sido muitoutilizada em modelagem para testes de associação e no estudo de eficiência de proce-dimentos não paramétricos.

Page 24: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

24

2.2.1 Algumas Aplicações• Durling (1974) utilizou essa distribuição, com marginais logísticas, reanalisando

sete conjuntos de dados previamente publicados sobre os efeitos de misturas devenenos.

• Considerando marginais exponenciais, Lai (1978) utilizou a distribuição FGMpara modelar a distribuição conjunta de dois intervalos adjacentes em um processode Markov.

• Chinchilli e Breen (1985) utilizaram uma versão de 6 dimensões, com marginaislogísticas, para análise de experimentos toxicológicos.

• No contexto de Análise de Sobrevivência, Teichmann (1986) aplicou essa distri-buição para um estudo de confiabilidade de componentes.

• Long e Krzysztofowicz (1992) utilizaram a distribuição em estudos de Hidrologia.

• Barriga et al (2010) consideraram um modelo de regressão bivariado, com errosseguindo a distribuição do valor extremo.

Mais exemplos pode ser verificados em Balakrishnan e Lai (2009).

2.2.2 Coeficiente de CorrelaçãoA estrutura de correlação para distribuições construídas a partir da cópula FGM foi

estudada por Schucany et al. (1978), onde se verificou que a sua utilização é restrita afraca dependência entre as variáveis. O coeficiente de correlação de Pearson (𝜌) é dadopor 𝜌 = 𝜂

3 , consequentemente varia entre −1/3 e 1/3.Gumbel (1960) e Schucany et al. (1978) apontaram

(i) que 𝜌 não pode exceder 13 ;

(ii) o valor de 𝜌 para alguns casos especiais. Como por exemplo,

• Se as marginais são normais, então 𝜌 = 𝜂𝜋.

• Se as marginais são exponenciais, então 𝜌 = 𝜂4 .

Segundo Nelsen (2006), no estudo de cópulas é comum também relacionar o parâ-metro de associação com outras medidas de dependência que são "escala-invariantes",isto é, permanecem inalteradas quando sujeitas à transformações estritamente crescen-tes. Visto que as estatísticas de ordem da cópula 𝐶𝜂(𝑢, 𝑣) não sofrem alteração quando𝑢 e 𝑢 são submetidos a transformações estritamente crescentes, duas medidas muitoutilizadas são o "Tau de Kendall"(𝜏) e o coeficiente de correlação de Spearman (𝜌𝑠),ambas não paramétricas.

Page 25: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

25

Definição 5. Sejam (𝑥𝑖, 𝑦𝑖) e (𝑥𝑗, 𝑦𝑗) duas observações de (𝑋, 𝑌 ), variáveis aleatóriascontínuas. Os pares (𝑥𝑖, 𝑦𝑖) e (𝑥𝑗, 𝑦𝑗) são concordantes se 𝑥𝑖 > 𝑥𝑗 e 𝑦𝑖 > 𝑦𝑗, ou 𝑥𝑖 < 𝑥𝑗

e 𝑦𝑖 < 𝑦𝑗. Por outro lado, serão discordantes se 𝑥𝑖 > 𝑥𝑗 e 𝑦𝑖 < 𝑦𝑗, ou 𝑥𝑖 < 𝑥𝑗 e 𝑦𝑖 > 𝑦𝑗.O coeficiente 𝜏 de Kendall é definido como a probabilidade de concordância menos

a probabilidade de discordância.

𝜏 = P[(𝑋 − 𝑋 ′)(𝑌 − 𝑌 ′) ≥ 0] − P[(𝑋 − 𝑋 ′)(𝑌 − 𝑌 ′) ≤ 0],

em que (𝑋 ′, 𝑌 ′) é independente de (𝑋, 𝑌 ) e distribuído como (𝑋, 𝑌 ).Uma versão simplificada é definida como

𝜏 ′ = 𝑐 − 𝑑

𝑐 + 𝑑= 𝑐 − 𝑑

𝑛(𝑛−1)2

,

em que 𝑐 denota o número de pares concordantes e 𝑑 o número de pares discordantesde uma amostra de tamanho 𝑛 de (𝑋, 𝑌 ).

Definição 6. De forma análoga ao coeficiente de Kendall a medida de Spearman tam-bém é baseada nos pares concordantes e discordantes. Sejam (𝑋1, 𝑌1),(𝑋2, 𝑌2) e (𝑋3, 𝑌3)três pares independentes de variáveis aleatórias com uma função distribuição comumH. Então, 𝜌𝑆 é definida como a probabilidade de concordância menos a probabilidadede discordância para os dois pares (𝑋1, 𝑌1) e (𝑋2, 𝑌3), isto é,

𝜌𝑠 = 3(P[(𝑋1 − 𝑋2)(𝑌1 − 𝑌3) ≥ 0] − P[(𝑋1 − 𝑋2)(𝑌1 − 𝑌3) ≤ 0]

).

que pode ser expressada em função dos termos da cópula

𝜌𝑠 = 12∫ 1

0

∫ 1

0𝐶𝜂(𝑢, 𝑣)𝑑𝑢𝑑𝑣 − 3 = 12E

[𝐶𝜂(𝑈, 𝑉 )

]− 3.

A relação entre a medida 𝜏 de Kendall e o parâmetro de dependência 𝜂 da cópulaFMG é dada por 𝜏 = 2𝜂

9 . Note que −29 6 𝜏 6 2

9 . Já no caso da medida de Spearman arelação entre a medida 𝜌𝑠 e o parâmetro de dependência 𝜂 da cópula FMG é dada por𝜌𝑠 = 𝜂

3 . Note que −13 6 𝜌𝑠 6 1

3 . Para demonstração, veja Nelsen (2006).

2.2.3 Observações• E(𝑉 |𝑈 = 𝑢) é linear em 𝑢, veja Balakrishnan e Lai (2009).

• A fdp é simétrica entre (−12 , 1

2), isto é, é a mesma em (1 − 𝑢, 1 − 𝑣) e em (𝑢, 𝑣).Consequentemente a função de sobrevivência gerada pela cópula FGM coincidecom a formulação original.

• Lai (1978) demonstrou que para 0 6 𝜂 6 1, a dependência entre 𝑈 e 𝑉 é positiva.

• Para mais detalhes de aplicações, transformações, distribuições relacionadas, etc.;veja Balakrishnan e Lai (2009).

Page 26: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

26

2.2.4 Geração de DadosUm algoritmo para gerar dados provenientes de uma distribuição bivariada obtida

através de cópulas foi proposto por Nelsen (2006; pg. 41), que descreveremos resumi-damente a seguir:

1. Gere duas variáveis aleatórias independentes 𝑢 e 𝑡 de uma 𝑁(0, 1);

2. Calcule 𝑣 = 𝑐−1𝑢 (𝑡), em que 𝑣 é a inversa generalizada ou quasi-inversa de 𝑐𝑢;

3. (𝑢, 𝑣) é o par desejado.

Para discussões e mais detalhes veja Johnson (1987) ou Devroye (1986).No software R a geração de dados pode ser realizada através do pacote "Copula",

disponível no CRAN-R, com atualizações em 2015 e 2017. Permite ao usuário diversasfuncionalidades tais como: estimação, ajuste, testes, entre outros. Para mais detalhes;veja Hofert et al. (2015).

No que diz respeito à geração de dados é possível escolher o tipo de cópula, coeficientede associação e as distribuições marginais de 𝑢 e 𝑣. Para os estudos de simulação, nestetrabalho, os dados foram gerados através desse pacote.

2.3 Extensões da Cópula FGMVamos discutir aqui algumas extensões da cópula FGM, desenvolvidas primordial-

mente para aumentar o valor máximo do coeficiente de correlação. A maioria delas sãocópulas do tipo polinomial (cópulas expressadas em termos de polinômios em 𝑢 e 𝑣).

Extensão de Huang e Kotz

Huang e Kotz (1999) consideraram

𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜂(1 − 𝑢𝑝)(1 − 𝑣𝑝)], 𝑝 > 0, (2.3.1)

cuja densidade correspondente é dada por

𝑐𝜂(𝑢, 𝑣) = 1 + 𝜂[1 − (1 + 𝑝)𝑢𝑝][1 − (1 + 𝑝)𝑣𝑝],

Nesse caso, a variação para 𝜂 é

−(max [1, 𝑝2])−2 ≤ 𝜂 ≤ 𝑝−1.

Quanto ao coeficiente de correlação usual, 𝜌 = 𝑐𝑜𝑟𝑟(𝑈, 𝑉 ) = 3𝜂( 𝑝𝑝+2)2 e

−3(𝑝 + 2)−2 min [1, 𝑝2] ≤ 𝜌 ≤ 3𝑝

(𝑝 + 2)2 .

Assim, para 𝑝 = 2, temos 𝜌max = 38 e para 𝑝 = 1, temos 𝜌min = −3

16 .

Page 27: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

27

Outra extensão considerada pelos autores foi

𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜂(1 − 𝑢)𝑝(1 − 𝑣)𝑝], 𝑝 > 0, (2.3.2)

com função densidade dada por

𝑐𝜂(𝑢, 𝑣) = 1 + 𝜂(1 − 𝑢)𝑝−1(1 − 𝑣)𝑝−1[1 − (1 + 𝑝)𝑢][1 − (1 + 𝑝)𝑣].

Quando 𝑝 < 1 o intervalo de variação de 𝜂 é vazio. Para 𝑝 > 1

−1 ≤ 𝜂 ≤(𝑝 + 1

𝑝 − 1)𝑝−1

,

e o coeficiente de correlação

−12( 1

(𝑝 + 1)(𝑝 + 2))2

≤ 𝜌 ≤ 12(𝑝 − 1)1−𝑝(𝑝 + 1)𝑝−3

(𝑝 + 2)2 .

Assim, para 𝑝 = 1.877, 𝜌max = 0.3912 e 𝜌min = −13 , se mostrando superior à correla-

ção máxima obtida com a extensão em (2.3.1).Podemos notar que a introdução do parâmetro 𝑝 permitiu considerar um limite

maior para correlação na cópula FGM.

Extensão de Bairamov–Kotz

Bairamov e Kotz (2000a) consideraram a inclusão de dois parâmetros para extensãoda cópula FGM

𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜂(1 − 𝑢𝑎)𝑏(1 − 𝑣𝑎)𝑏], 𝑎 > 0, 𝑏 > 0, (2.3.3)

cuja função densidade correspondente é dada por

𝑐𝜂(𝑢, 𝑣) = 1 + 𝜂(1 − 𝑢𝑎)𝑏−1(1 − 𝑣𝑎)𝑏−1[1 − 𝑢𝑎(1 + 𝑎𝑏)][1 − 𝑣𝑎(1 + 𝑎𝑏)].

Para 𝑏 > 1

− min[1,

1𝑎𝑏

(𝑎𝑏 + 1𝑏 − 1

)2]

≤ 𝜂 ≤[ 1𝑎𝑏

(𝑎𝑏 + 1𝑏 − 1

)𝑏−1].

Já quando 𝑏 ≤ 1

− min[1,

1𝑎𝑏

]≤ 𝜂 ≤ 1

𝑎𝑏

O coeficiente de correlação é dado por

𝜌 = 12𝜂[ 𝑏

𝑎𝑏 + 2Γ(𝑏)Γ(𝜂/2)Γ(𝑏 + 2

𝑎)]2

,

tomando 𝑎 = 2.8968 e 𝑏 = 1.4908, temos que 𝜌max = 0.5015. Para 𝑎 = 2 e 𝑏 = 1.5,𝜌min = −0.48. Se 𝑎 > 0 e 𝑏 = 1, temos o caso particular descrito em (2.3.1); se 𝑎 = 1 e𝑏 > 0, obtemos o caso descrito em (2.3.2).

Page 28: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

28

Extensão de Bekrizadeh-Parham

Bekrizadeh e Parham (2012) consideraram a seguinte extensão da cópula FGM

𝐶𝜂(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜂(1 − 𝑢𝛼)(1 − 𝑣𝛼)]𝑛, (2.3.4)

com 𝑛 = 0, 1, 2, . . . e 𝛼 > 0.A função densidade correspondente é dada por

𝑐𝜂(𝑢, 𝑣) = (1 + 𝜂(1 − 𝑢𝛼)(1 − 𝑣𝛼))𝑛−2{1 + 𝜂(1 − 𝑢𝛼)(1 − 𝑣𝛼))2

−[1 + 𝜂(1 − 𝑢𝛼)(1 − 𝑣𝛼)][𝑛𝛼𝜂𝑢𝛼(1 − 𝑣𝛼) + 𝑛𝛼𝜂𝑣𝛼(1 − 𝑢𝛼)−𝑛𝛼2𝜂𝑢𝛼𝑣𝛼] + 𝑛𝛼2𝜂2(𝑛 − 1)𝑢𝛼(1 − 𝑢𝛼)𝑣𝛼(1 − 𝑣𝛼)

}.

O intervalo de possíveis valores para 𝜂 é

− min[1,

1𝑛𝛼2

]≤ 𝜂 ≤ 1

𝑛𝛼.

Para essa generalização, o coeficiente de correlação de Spearman satisfaz

𝜌𝑠 = 12𝑛∑

𝑟=1

(𝑟

𝑛

)𝜂𝑟( Γ(𝑟 + 1)Γ( 2

𝛼)

𝛼Γ(𝑟 + 1 + 𝛼2 )

)2,

de tal forma que escolhendo valores propícios para 𝛼 e 𝑛 podemos obter correlaçãomáxima 𝜌𝑠 = 0.43 e mínima 𝜌𝑠 = −0.50.

Quando 𝑛 = 1 temos o caso particular definido em (2.3.1).

Page 29: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

29

Capítulo 3

O modelo BS Bivariado baseado naCópula FGM

Recentemente, seguindo estudos já considerados para outras distribuições assimé-tricas contínuas, Kundu et al. (2010) apresentaram uma extensão da distribuição BSunivariada para o caso bivariado. Neste capítulo, iremos apresentar alguns desses re-sultados obtidos por Kundu et al. (2010) e propor um tipo diferente de generalizaçãoatravés da cópula FGM, descrita no Capítulo 2. Propriedades e aspectos de inferênciaserão investigados para ambos os casos. Um estudo de simulação será realizado paraessa nova generalização.

3.1 Revisão sobre a Distribuição BS BivariadaA distribuição BS univariada está relacionada com a distribuição normal univariada

através da variável aleatória

𝑇 = 𝛽

[𝛼𝑍

2 +√

𝛼2𝑍2

2 + 1]2

,

em que 𝑍 ∼ 𝑁(0, 1), 𝛼 > 0, 𝛽 > 0. A variável aleatória T é dita ter uma distribuiçãoBS, denotada por 𝑇 ∼ 𝐵𝑆(𝛼, 𝛽), com parâmetros forma e escala, 𝛼 e 𝛽, respectiva-mente. A fdp de T é dada por

𝐹𝑇 (𝑡) = Φ(𝑎𝑡(𝛼, 𝛽)), 𝑡 > 0, (3.1.1)

em que 𝑎𝑡(𝛼, 𝛽) = (√

𝑡/𝛽 −√

𝛽/𝑡)/𝛼.Nesta seção, apresentaremos a distribuição BS bivariada que foi proposta por Kundu

et al. (2010) como uma extensão da distribuição BS univariada, proposta inicialmentepor Birnbaum- Saunders (1969a). Trata-se de uma distribuição absolutamente contí-nua, com cinco parâmetros e com distribuições marginais BS univariadas. Além disso,está altamente relacionada com a distribuição normal bivariada, sendo utilizada naanálise de dados bidimensionais de sobrevivência.

Page 30: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

30

Segundo Kundu et al. (2010), um vetor aleatório bivariado T = (𝑇1, 𝑇2)⊤ segueuma distribuição BS bivariada com parâmetros 𝛼1 > 0, 𝛼2 > 0, 𝛽1 > 0, 𝛽2 > 0, e−1 < 𝜌 < 1, se a fda conjunta de 𝑇1 e 𝑇2 pode ser expressa como

𝐹T(t) = 𝑃 (𝑇1 ≤ 𝑡1, 𝑇2 ≤ 𝑡2) = Φ2

[ 1𝛼1

(√𝑡1

𝛽1−√

𝛽1

𝑡1

),

1𝛼2

(√𝑡2

𝛽2−√

𝛽2

𝑡2

); 𝜌], (3.1.2)

em que Φ2(· , 𝜌) é a fda conjunta de Z = (𝑍1, 𝑍2)⊤ ∼ 𝑁2(0, Σ), com 𝜎11 = 𝜎22 = 1 ecoeficiente de correlação 𝜌, ou seja,

Σ =(

1 𝜌𝜌 1

).

Considerando agora

𝑎𝑡𝑗(𝛼𝑗, 𝛽𝑗) = 1

𝛼𝑗

(√𝑡𝑗

𝛽𝑗

⎯⎸⎸⎷𝛽𝑗

𝑡𝑗

), 𝑗 = 1, 2,

a fda da BS bivariada, definida em (3.1.2), pode ser escrita de forma simplificada como

𝐹T(t) = Φ2(𝑎𝑡1(𝛼1, 𝛽1), 𝑎𝑡2(𝛼2, 𝛽2); 𝜌)= Φ2(𝑎t(𝛼,𝛽); 𝜌),

em que 𝑎t(𝛼,𝛽) = (𝑎𝑡1(𝛼1, 𝛽1), 𝑎𝑡2(𝛼2, 𝛽2))⊤, com t = (𝑡1, 𝑡2)⊤ ∈ R2+, 𝛼 = (𝛼1, 𝛼2)⊤,

𝛽 = (𝛽1, 𝛽2)⊤.Nesse caso, a notação utilizada é T ∼ 𝐵𝑆2(𝛼,𝛽, 𝜌). Considerando a fda dada em

(3.1.2), a fdp conjunta de T pode ser escrita como

𝑓T(t) = 𝜑2(𝑎t(𝛼,𝛽))Π𝐴t(𝛼,𝛽), t ∈ R2+, (3.1.3)

em que

𝜑2(z; 𝜌) = 𝜑2(𝑧1, 𝑧2; 𝜌) = 12𝜋

√1 − 𝜌2 exp

(− 1

2(1 − 𝜌2)(𝑧21 + 𝑧2

2 − 2𝜌𝑧1𝑧2))

,

𝑎t(𝛼,𝛽) é como em (3.1.2) e Π𝐴t(𝛼,𝛽) = 𝐴𝑡1(𝛼1, 𝛽1)𝐴𝑡2(𝛼2, 𝛽2), com

𝐴𝑡𝑗(𝛼𝑗, 𝛽𝑗) = 𝑡

−3/2𝑗

(𝑡𝑗 + 𝛽𝑗)2𝛼𝑗𝛽

1/2𝑗

, 𝑗 = 1, 2.

Nas Figuras 3.1-3.4, mostramos graficamente o comportamento da fdp descrita em(3.1.3). Para diferentes valores de 𝜌, apresentamos os gráficos da densidade e suasrespectivas curvas de nível.

Page 31: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

31

(a)

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9 1 0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

(b)

0.05 0.1 0.15 0.2

0.25

0.3

0 1 2 3 4 5

01

23

45

Figura 3.1: Fdp e contorno do modelo BS bivariado quando 𝛼1 = 𝛼2 = 1, 𝛽1 = 𝛽2 = 1e (a) 𝜌 = 0.5 (b) 𝜌 = −0.5.

(a)

0.5

1

1.5

2 2

.5

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

(b)

0.05 0.05

0.1 0.15 0.2 0.25 0.3

0.35

0.4

0 1 2 3 4 5 6

01

23

45

6

Figura 3.2: Fdp e contorno do modelo BS bivariado quando 𝛼1 = 𝛼2 = 1, 𝛽1 = 𝛽2 = 1e (a) 𝜌 = 0.9 (b) 𝜌 = −0.9.

Page 32: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

32

(a)

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

(b)

0.1 0.2 0.3 0.4

0.5

0 1 2 3 4

01

23

4Figura 3.3: Fdp e contorno do modelo BS bivariado quando 𝛼1 = 0.5, 𝛼2 = 1, 𝛽1 =𝛽2 = 1 e (a) 𝜌 = 0.5 (b) 𝜌 = −0.5.

(a)

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

2.2

0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

(b)

0.1 0.2 0.3 0.4 0.5 0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

01

23

45

Figura 3.4: Fdp e contorno do modelo BS bivariado quando 𝛼1 = 0.5, 𝛼2 = 1, 𝛽1 =𝛽2 = 1 e (a) 𝜌 = 0.9 (b) 𝜌 = −0.9.

Page 33: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

33

3.1.1 PropriedadesOs resultados a seguir foram apresentados por Kundu et al. (2010) e podem ser

demonstrados através de mudança de variáveis, fornecendo as distribuições marginaise condicionais para a distribuição BS bivariada.

Teorema 3.1.1. Se T = (𝑇1, 𝑇2)⊤ ∼ 𝐵𝑆2(𝛼,𝛽, 𝜌), com 𝛼 = (𝛼1, 𝛼2)⊤ e 𝛽 = (𝛽1, 𝛽2)⊤,então

i) 𝑇𝑗 ∼ 𝐵𝑆(𝛼𝑗, 𝛽𝑗), 𝑗 = 1, 2;

ii) T−1 = (𝑇 −11 , 𝑇 −1

2 )⊤ ∼ 𝐵𝑆2(𝛼1, 𝛽−11 , 𝛼2, 𝛽−1

2 , 𝜌);

iii) T−11 = (𝑇 −1

1 , 𝑇2)⊤ ∼ 𝐵𝑆2(𝛼1, 𝛽−11 , 𝛼2, 𝛽2, −𝜌);

iv) 𝑇 −12 = (𝑇1, 𝑇 −2

2 )⊤ ∼ 𝐵𝑆2(𝛼1, 𝛽1, 𝛼2, 𝛽−12 , −𝜌);

v) 𝑇1 e 𝑇2 são independente se e somente se 𝜌 = 0;

vi) A fdp condicional de 𝑇1, dado 𝑇2 = 𝑡2, é dada por

𝑓𝑇1|𝑇2(𝑡1|𝑡2) = 𝜑(𝑎𝑡1(𝛼1𝜌, 𝛽1) − 𝜇1(𝑡2))𝐴𝑡1(𝛼1𝜌, 𝛽1), (3.1.4)

em que 𝜑(·) é a fdp da distribuição 𝑁(0, 1), 𝛼1𝜌 =√

1 − 𝜌2𝛼1 e 𝜇1(𝑡2) = 𝜌𝑎𝑡2(𝛼2𝜌, 𝛽2)com 𝛼2𝜌 =

√1 − 𝜌2𝛼2. Note que a distribuição condicional de 𝑇1, dado 𝑇2 = 𝑡2,

corresponde a uma distribuição univariada não-central BS, veja Guiraud et al. (2009).

3.2 Distribuição BS Bivariada baseado na CópulaFGM

Nesta seção discutiremos a distribuição BS bivariada obtida a partir da cópula FGM.Sejam 𝑇1 ∼ 𝐵𝑆(𝛼1, 𝛽1) e 𝑇2 ∼ 𝐵𝑆(𝛼2, 𝛽2), então a fdp conjunta de 𝑇1 e 𝑇2 via

cópula FGM pode ser escrita como

𝑓𝑇1,𝑇2(𝑡1, 𝑡2) = 𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2))𝑓𝑇1(𝑡1)𝑓𝑇2(𝑡2),

em que

𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2)) = 1 + 𝜂(2𝐹𝑇1(𝑡1) − 1)(2𝐹𝑇2(𝑡2) − 1),

com 𝐹𝑇𝑗(𝑡𝑗) = Φ(𝑎𝑡𝑗

(𝛼𝑗, 𝛽𝑗)) e 𝑓𝑇𝑗(𝑡𝑗) = 𝜑(𝑎𝑡𝑗

(𝛼𝑗, 𝛽𝑗))𝐴𝑡𝑗(𝛼𝑗, 𝛽𝑖); 𝑗 = 1, 2.

Sejam

Π𝜑(t;𝛼,𝛽) = 𝜑(𝑎𝑡1(𝛼1, 𝛽1))𝜑(𝑎𝑡2(𝛼2, 𝛽2)),Φ(𝑎(t;𝛼,𝛽)) = (Φ(𝑎𝑡1(𝛼1, 𝛽1)), Φ(𝑎𝑡2(𝛼2, 𝛽2)))⊤,

Page 34: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

34

a fdp pode então ser reescrita como

𝑓T(t) = 𝑐𝜂(Φ(𝑎(t;𝛼,𝛽)))Π𝜑(t;𝛼,𝛽)Π𝐴t(𝛼,𝛽), (3.2.1)

em que 𝑎𝑡𝑗(𝛼𝑗, 𝛽𝑗) e 𝐴𝑡𝑗

(𝛼𝑗, 𝛽𝑗) são como em (3.1.3).A notação adotada para essa distribuição será C-BS2(𝛼,𝛽, 𝜂). Quando 𝜂 = 0,

obtemos o caso independente, que coincide com o caso independente proposto porKundu et al.(2010).

Visto que as marginais são BS a relação com a distribuição normal descrita noCapítulo 1 se mantém:

𝑇𝑗 = 𝛽𝑗

4

[𝛼𝑗𝑍𝑗 +

√(𝛼𝑗𝑍𝑗)2 + 4

]2, 𝑗 = 1, 2.

Consequentemente, temos que Z = (𝑍1, 𝑍2)⊤ tem distribuição normal bivariada cons-truída a partir da cópula FGM, que iremos denotar por C-N2(0, ϒ), em que ϒ é amatriz de covariâncias para Z, definida como

ϒ =(

1 𝜂𝜋

𝜂𝜋

1

), (3.2.2)

e 𝜂 é o coeficiente de associação entre 𝑍1 e 𝑍2, especificado pela cópula FGM.Nas Figuras 3.5-3.7, mostramos graficamente o comportamento da fdp C-BS biva-

riada obtida via cópulas dado em (3.2.1). Para diferentes valores de 𝜂, apresentamosos gráficos da densidade e suas respectivas curvas de nível.

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.5: A distribuição conjunta de (𝑇1, 𝑇2) através da cópula FGM em que 𝛼1 =𝛼2 = 0.5, 𝛽1 = 𝛽2 = 1 e 𝜂 = 0.

Page 35: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

35

(a)

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

(b)

0.1 0.2

0.3

0.4

0.5

0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.6: A distribuição conjunta de (𝑇1, 𝑇2) através da cópula FGM em que 𝛼1 =𝛼2 = 0.5, 𝛽1 = 𝛽2 = 1 e (a) 𝜂 = 0.5 (b) 𝜂 = −0.5.

(a)

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

(b)

0.1 0.2

0.3 0.4

0.5 0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.7: A distribuição conjunta de (𝑇1, 𝑇2) através da cópula FGM em que 𝛼1 =𝛼2 = 0.5, 𝛽1 = 𝛽2 = 1 e (a) 𝜂 = 0.9 (b) 𝜂 = −0.9.

Page 36: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

36

Discutimos anteriormente que quando 𝜂 = 0, o modelo baseado na cópula FGM coincidecom o caso proposto por Kundu et al.(2010). Todavia, algo interessante a ser verificadoé se no caso de dependência (𝜂 = 0, 𝜌 = 0) o comportamento das duas distribuiçõesé similar ou não. Nas Figuras 3.8-3.11, apresentamos as curvas de nível para os doiscasos, alterando os valores de 𝜂 e 𝜌. Consideramos fixos os valores de 𝛼 e 𝛽 em 𝛼1 = 0.5,𝛼2 = 0.5, 𝛽1 = 1 e 𝛽2 = 1.

Pode-se verificar diferença mais acentuada quando o parâmetro de dependência as-sume valor próximo de 1 ou −1, ou seja, quanto maior for a estrutura de dependênciaentre as duas variáveis maior será a divergência entre o uso de uma distribuição ououtra.

CBS η= 0.9

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.9

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

2.2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.7

0.2

0.4

0.6

0.8

1

1.2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.3

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.8: Curvas de nível referentes às distribuições C-BS bivariada (canto superioresquerdo, 𝜂 = 0.9) e 𝐵𝑆 bivariada para diferentes valores de 𝜌.

Page 37: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

37

CBS η= − 0.9

0.1 0.2

0.3 0.4

0.5 0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.9

0.2 0.4

0.6 0.8

1 1.2

1.4

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.7

0.1 0.2

0.3 0.4

0.5 0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.5

0.1 0.2

0.3 0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.3

0.1 0.2

0.3

0.4 0.5

0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.1

0.1 0.2

0.3 0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.9: Curvas de nível referentes às distribuições C-BS bivariada (canto superioresquerdo, 𝜂 = −0.9) e 𝐵𝑆 bivariada para diferentes valores de 𝜌.

Page 38: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

38

CBS η= 0.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.4

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.3

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.2

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= 0.1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.10: Curvas de nível referentes às distribuições C-BS bivariada (canto superioresquerdo, 𝜂 = 0.5) e 𝐵𝑆 bivariada para diferentes valores de 𝜌.

Page 39: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

39

CBS η= − 0.5

0.1 0.2

0.3

0.4

0.5

0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.5

0.1 0.2

0.3 0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.4

0.1 0.2

0.3 0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.3

0.1 0.2

0.3

0.4 0.5

0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.2

0.1 0.2

0.3

0.4

0.5

0.6

0.7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

BS ρ= − 0.1

0.1 0.2

0.3 0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 3.11: Curvas de nível referentes às distribuições C-BS bivariada (canto superioresquerdo, 𝜂 = −0.5) e 𝐵𝑆 bivariada para diferentes valores de 𝜌.

Page 40: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

40

3.2.1 PropriedadesTeorema 3.2.1. Seja T ∼ C-BS2(𝛼,𝛽, 𝜂), 𝑐1 > 0, 𝑐2 > 0. Então

i) (𝑐1𝑇1, 𝑐2𝑇2)⊤ ∼ C-BS2(𝛼,𝛽𝑐, 𝜂),𝛽𝑐 = (𝑐1𝛽1, 𝑐2𝛽2)⊤;

ii) (𝑇 −11 , 𝑇2)⊤ ∼ C-BS2(𝛼,𝛽′

1, −𝜂),𝛽′1 = (𝛽−1

1 , 𝛽2)⊤;

iii) (𝑇1, 𝑇 −12 )⊤ ∼ C-BS2(𝛼,𝛽′

2, −𝜂),𝛽′2 = (𝛽1, 𝛽−1

2 )⊤;

iv) (𝑇 −11 , 𝑇 −1

2 )⊤ ∼ C-BS2(𝛼,𝛽−1, 𝜂),𝛽−1 = (𝛽−11 , 𝛽−1

2 )⊤.

v) 𝑇1 e 𝑇2 são independente se e somente se 𝜂 = 0;

Demonstração. Parte (i): Seja: 𝑊1 = 𝑐1𝑇1 e 𝑊2 = 𝑐2𝑇2. Então

𝐹𝑊1,𝑊2(𝑤1, 𝑤2) = 𝑃 (𝑊1 6 𝑤1, 𝑊2 6 𝑤2) = 𝑃 (𝑐1𝑇1 6 𝑤1, 𝑐2𝑇2 6 𝑤2)= 𝑃 (𝑇1 6

𝑤1

𝑐1, 𝑇2 6

𝑤2

𝑐2) = 𝐹𝑇1,𝑇2(𝑤1

𝑐1,𝑤2

𝑐2).

Derivando a expressão anterior, segue que

𝑓𝑊1,𝑊2(𝑤1, 𝑤2) = 𝜕2

𝜕𝑤1𝜕𝑤2𝐹𝑇1,𝑇2(𝑤1

𝑐1,𝑤2

𝑐2) = 𝑓𝑇1,𝑇2(𝑤1

𝑐1,𝑤2

𝑐2) 1𝑐1

1𝑐2

= 𝑐𝜂

(Φ(𝑎𝑤1

𝑐1(𝛼1, 𝛽1)), Φ(𝑎𝑤2

𝑐2(𝛼2, 𝛽2))

)𝑓𝑇1(𝑤1

𝑐1)𝑓𝑇2(𝑤2

𝑐2) 1𝑐1

1𝑐2

= 𝑐𝜂

(Φ(𝑎𝑤1

𝑐1(𝛼1, 𝛽1)), Φ(𝑎𝑤2

𝑐2(𝛼2, 𝛽2))

)𝜑(𝑎𝑤1

𝑐1(𝛼1, 𝛽1))𝐴𝑤1

𝑐1(𝛼1, 𝛽1)𝜑(𝑎𝑤2

𝑐2(𝛼2, 𝛽2))𝐴𝑤2

𝑐2(𝛼2, 𝛽2).

Como 𝑎𝑤𝑖𝑐𝑖

(𝛼𝑖, 𝛽𝑖) = 1𝛼𝑖

[√

𝑤𝑖/𝑐𝑖

𝛽𝑖−√

𝛽𝑖

𝑤𝑖/𝑐𝑖] = 1

𝛼𝑖[√

𝑤𝑖

𝑐𝑖𝛽𝑖−√

𝑐𝑖𝛽𝑖

𝑤𝑖] = 𝑎𝑤𝑖

(𝛼𝑖, 𝑐𝑖𝛽𝑖), e

𝐴𝑤𝑖𝑐𝑖

(𝛼𝑖, 𝛽𝑖) =( 𝑤𝑖

𝑐𝑖)−3/2( 𝑤𝑖

𝑐𝑖+𝛽𝑖)

2𝛼𝑖

√𝛽𝑖

= 𝑤−3/2𝑖 (𝑤𝑖+𝑐𝑖𝛽𝑖)

𝑐−3/2𝑖 𝑐𝑖2𝛼𝑖

√𝛽𝑖

= 𝑤−3/2𝑖 (𝑤𝑖+𝑐𝑖𝛽𝑖)𝑐

−1/2𝑖 2𝛼𝑖

√𝛽𝑖

= 𝑐𝑖𝐴𝑤𝑖(𝛼𝑖, 𝑐𝑖𝛽𝑖). Segue

que

𝑓𝑊1,𝑊2(𝑤1, 𝑤2) = 𝑐𝜂(Φ(𝑎𝑤1(𝛼1, 𝑐1𝛽1)), Φ(𝑎𝑤2(𝛼2, 𝑐2𝛽2)))𝜑(𝑎𝑤1(𝛼1, 𝑐1𝛽1))𝐴𝑤1(𝛼1, 𝑐1𝛽1)𝜑(𝑎𝑤2(𝛼2, 𝑐2𝛽2))𝐴𝑤2(𝛼2, 𝑐2𝛽2).

Então, (𝑊1, 𝑊2)⊤ ∼ C-BS2(𝛼,𝛽𝑐, 𝜂), com 𝛽𝑐 = (𝑐1𝛽1, 𝑐2𝛽2)⊤.Parte (ii): Sejam 𝑊1 = 1

𝑇1e 𝑊2 = 𝑇2. Então, o jacobiano é dado por |𝐽 |= 1

𝑤22

e

𝑎 1𝑤1

(𝛼1, 𝛽1) = 1𝛼1

(√ 1𝑤1𝛽1

−√

𝑤1𝛽1

1

)= 1

𝛼1

(√1/𝛽1

𝑤1−√

𝑊1

1/𝛽1

)

= − 1𝛼1

(√𝑤1

1/𝛽1−√

1/𝛽1

𝑤1

)= −𝑎𝑤1(𝛼1,

1𝛽1

).

Page 41: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

41

Mas, 𝜑(𝑥) = 𝜑(−𝑥), com isso temos que 𝜑(−𝑎𝑤(𝛼, 1𝛽)) = 𝜑(𝑎𝑤(𝛼, 1

𝛽)) e

Φ(𝑎𝑡(𝛼, 𝛽)) = Φ(−𝑎𝑤(𝛼, 1𝛽)) = 1 − Φ(𝑎𝑤(𝛼, 1

𝛽)). Assim,

𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2), 𝜂) = 1 + 𝜂(2𝐹𝑇1(𝑡1) − 1)(2𝐹𝑇2(𝑡2) − 1)

= 1 + 𝜂(2 − 2Φ(𝑎𝑊1(𝛼1,1𝛽1

)) − 1)(2𝐹𝑇2(𝑡2) − 1)

= 1 + 𝜂(1 − 2Φ(𝑎𝑊1(𝛼1,1𝛽1

)))(2𝐹𝑇2(𝑡2) − 1)

= 1 + (−𝜂)(2Φ(𝑎𝑊1(𝛼1,1𝛽1

)) − 1)(2𝐹𝑇2(𝑡2) − 1)

= 𝑐𝜂(Φ(𝑎𝑊1(𝛼1,1𝛽1

)), Φ(𝑎𝑊2(𝛼2, 𝛽2)), −𝜂),

e

𝐴 1𝑤1

(𝛼1, 𝛽1) =1

𝑤1+ 𝛽1

2𝛼1√

𝛽1( 1𝑤1

)3/2 = 𝑤3/21 (1 + 𝑤1𝛽1)𝑤12𝛼1

√𝛽1

= 𝑤1/21 (1 + 𝑤1𝛽1)

2𝛼1√

𝛽1

= 𝑤21𝐴𝑤1(𝛼1,

1𝛽1

).

Com isso:

𝑓𝑊1,𝑊2(𝑤1, 𝑤2) = 𝑓𝑇1,𝑇2( 1𝑤1

, 𝑤2)𝑤21 = 𝑐𝜂(Φ(𝑎𝑤1(𝛼1,

1𝛽1

)), Φ(𝑎𝑤2(𝛼2, 𝛽2)), −𝜂)

𝜑(𝑎𝑤1(𝛼1,1𝛽1

))𝐴𝑤1(𝛼1,1𝛽1

)𝜑(𝑎𝑤2(𝛼2, 𝛽2))𝐴𝑤2(𝛼2, 𝛽2).

Então, (𝑊1, 𝑊2)⊤ ∼ C-BS2(𝛼,𝛽1, −𝜂),𝛽1 = (𝛽−11 , 𝛽2)⊤.

Parte (iii): Análoga a Parte (ii).Parte (vi): Sejam 𝑊1 = 1

𝑇1e 𝑊2 = 1

𝑇2. Então, o jacobiano é dado por |𝐽 |= 1

𝑤21

1𝑤2

2e

𝑓𝑊1,𝑊2(𝑤1, 𝑤2) = 𝑓𝑇1,𝑇2( 1𝑤1

, 1𝑤2

) 1𝑤2

1

1𝑤2

2. Temos que

𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2), 𝜂) = 1 + 𝜂(2𝐹𝑇1(𝑡1) − 1)(2𝐹𝑇2(𝑡2) − 1)

= 1 + 𝜂(2 − 2Φ(𝑎𝑊1(𝛼1,1𝛽1

)) − 1)(2 − 2Φ(𝑎𝑊2(𝛼2,1𝛽2

)) − 1)

= 1 + 𝜂(2Φ(𝑎𝑊1(𝛼1,1𝛽1

)) − 1)(2Φ(𝑎𝑊2(𝛼2,1𝛽2

)) − 1)

= 𝑐𝜂(Φ(𝑎𝑊1(𝛼1,1𝛽1

)), Φ(𝑎𝑊2(𝛼2,1𝛽2

))), 𝜂).

Com isso:

𝑓𝑊1,𝑊2(𝑤1, 𝑤2) = 𝑓𝑇1,𝑇2( 1𝑤1

,1

𝑤2)𝑤2

1𝑤22 = 𝑐𝜂(Φ(𝑎𝑤1(𝛼1,

1𝛽1

)), Φ(𝑎𝑤2(𝛼2,1𝛽2

))), 𝜂)

𝜑(𝑎𝑤1(𝛼1,1𝛽1

))𝐴𝑤1(𝛼1,1𝛽1

)𝜑(𝑎𝑤2(𝛼2,1𝛽2

))𝐴𝑤2(𝛼2,1𝛽2

).

Então, (𝑊1, 𝑊2)⊤ ∼ C-BS2(𝛼,𝛽−1, 𝜂),𝛽−1 = (𝛽−11 , 𝛽−1

2 )⊤.

Page 42: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

42

Teorema 3.2.2. Seja T ∼ C-BS2(𝛼,𝛽, 𝜂). Então

(i) A fdp condicional de 𝑇1, dado 𝑇2 = 𝑡2, é

𝑓𝑇1|𝑇2(𝑡1|𝑡2) = 𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2))𝑓𝑇1(𝑡1)𝑓𝑇2(𝑡2)𝑓𝑇2(𝑡2)

= 𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2))𝑓𝑇1(𝑡1)= 𝑐𝜂(Φ(𝑎(t;𝛼,𝛽)))𝜑(𝑡1; 𝛼1, 𝛽1)𝐴𝑡1(𝛼1, 𝛽1).

(ii) A esperança condicional de 𝑇1, dado 𝑇2 = 𝑡2, é

E(𝑇1|𝑇2 = 𝑡2) =∫ ∞

0𝑡1𝑓𝑇1|𝑇2(𝑡1|𝑡2)𝑑𝑡1 =

∫ ∞

0𝑡1𝑐𝜂(𝐹𝑇1(𝑡1), 𝐹𝑇2(𝑡2))𝑓𝑇1(𝑡1)𝑑𝑡1

=∫ ∞

0𝑡1[1 + 𝜂(2𝐹𝑇1(𝑡1) − 1)(2𝐹𝑇2(𝑡2) − 1)]𝑓𝑇1(𝑡1)𝑑𝑡1

=∫ ∞

0𝑡1𝑓𝑇1(𝑡1)𝑑𝑡1 +

∫ ∞

0𝑡1[𝜂(2𝐹𝑇1(𝑡1) − 1)(2𝐹𝑇2(𝑡2) − 1)]𝑓𝑇1(𝑡1)𝑑𝑡1

= E(𝑇1) + [𝜂(2𝐹𝑇2(𝑡2) − 1)]∫ ∞

0𝑡1(2𝐹𝑇1(𝑡1) − 1)𝑓𝑇1(𝑡1)𝑑𝑡1

= E(𝑇1) +[𝜂(2𝐹𝑇2(𝑡2) − 1)

]{ ∫ ∞

0𝑡1(2𝐹𝑇1(𝑡1))𝑓𝑇1(𝑡1)𝑑𝑡1 − E(𝑇1)

}.

3.2.2 Estimação pelo Método dos MomentosSeja 𝑇1, . . . , 𝑇𝑛 uma amostra aleatória de T ∼ C-BS2(𝛼,𝛽, 𝜂), então os estimadores

pelo método método dos momentos modificado (MM) para os vetores 𝛼 e 𝛽, denotadosrespectivamente por 𝛼 e 𝛽, possuem elementos dados por

𝛼𝑗 =(2(𝑆𝑗/𝑅𝑗)1/2 − 1

)1/2e 𝛽𝑗 = (𝑆𝑗𝑅𝑗)1/2 (3.2.3)

em que 𝑆𝑗 = 1𝑛

∑𝑛𝑖=1 𝑇𝑗𝑖 e 𝑅𝑗 = ( 1

𝑛

∑𝑛𝑖=1 𝑇 −1

𝑗𝑖 )−1, para 𝑗 = 1, 2. Estes estimadoresforam derivados no trabalho de Ng et al. (2003). Uma vez que os estimadores sãoexplícitos, eles podem ser utilizados de forma eficaz em situações práticas, como porexemplo, valores iniciais do processo iterativo para calcular os estimadores de máximaverossimilhança (EMV).

Supondo que existam os estimadores consistentes 𝛼 e 𝛽 de 𝛼 e 𝛽. Então, o estima-dor, pelo método dos momentos, para 𝜂 é dado por

𝜂 = 𝜋

∑𝑛𝑖=1

(√𝑇1𝑖𝛽1

−√ 𝛽1

𝑇1𝑖

)(√𝑇2𝑖𝛽2

−√ 𝛽2

𝑇2𝑖

)√∑𝑛

𝑖=1

(√𝑇1𝑖𝛽1

−√ 𝛽1

𝑇1𝑖

)2 ∑𝑛𝑗=1

(√𝑇2𝑖𝛽2

−√ 𝛽2

𝑇2𝑖

)2

Utilizando a relação descrita em (1.3.4), temos que(𝑎𝑡1(𝛼1, 𝛽1), 𝑎𝑡2(𝛼2, 𝛽2))⊤ = (𝑍1, 𝑍2)⊤ = Z, com Z ∼ C-N2(0, ϒ) e 𝐶𝑜𝑣(𝑍1, 𝑍2) = 𝜂

𝜋.

Page 43: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

43

Assim,

𝜂 = 𝜋 × Cov(𝑎𝑡1(𝛼1, 𝛽1), 𝑎𝑡2(𝛼2, 𝛽2))

= 𝜋

∑𝑛𝑖=1 𝑎𝑡1𝑖

(𝛼1, 𝛽1), 𝑎𝑡2𝑖(𝛼2, 𝛽2)√∑𝑛

𝑖=1 𝑎2𝑡1𝑖

(𝛼1, 𝛽1)∑𝑛

𝑖=1 𝑎2𝑡2𝑖

(𝛼2, 𝛽2).

3.2.3 Estimação por Máxima VerossimilhançaNesta subsecção, discutiremos a estimação dos parâmetros do modelo C-BS bivari-

ado pelo método de máxima verossimilhança. Os EMV dos parâmetros 𝛼, 𝛽 e 𝜂 são assoluções das equações baseadas na função escore 𝑈𝛼(𝜃) = 0, 𝑈𝛽(𝜃) = 0 e 𝑈𝜂(𝜃) = 0.Contudo, essas equações não possuem solução analítica e um processo iterativo é ne-cessário.

Primeiramente vamos apresentar a matriz de informação observada que será utili-zada posteriormente para aplicação do algoritmo de Newton-Raphson.

(a) Derivadas parciais de primeira ordem

Seja ℓ(𝜃) a função de log-verossimilhança referente á fdp definida em (3.2.1), quepode ser expressada da seguinte forma

ℓ(𝜃) =𝑛∑

𝑖=1ℓ𝑖(𝜃) =

𝑛∑𝑖=1

[ℓ1𝑖(𝜃1) + ℓ2𝑖(𝜃2) + log (𝑐𝑖(𝜃))

], (3.2.4)

em que

ℓ𝑗𝑖(𝜃𝑗) = −12 log(2𝜋) + log (𝐴𝑡𝑗𝑖

(𝜃𝑗)) − 12𝑎2

𝑡𝑗𝑖(𝜃𝑗), 𝑗 = 1, 2,

e

𝑐𝑖(𝜃) = 1 + 𝜂[2Φ(𝑎𝑡𝑗𝑖(𝜃1)) − 1][2Φ(𝑎𝑡𝑗𝑖

(𝜃2)) − 1].

Derivando ℓ(𝜃) com respeito à 𝛼, 𝛽 e 𝜂 temos que a função de escore para 𝜃 é dadapor 𝑈(𝜃) = 𝜕

𝜕𝜃 ℓ(𝜃) = (𝑈𝛼(𝜃), 𝑈𝛽(𝜃), 𝑈𝜂(𝜃))⊤, em que

𝑈𝛼(𝜃) = 𝜕

𝜕𝛼ℓ(𝜃), 𝑈𝛽(𝜃) = 𝜕

𝜕𝛽ℓ(𝜃) e 𝑈𝜂(𝜃) = 𝜕

𝜕𝜂ℓ(𝜃).

Após algumas manipulações algébricas, e denotando 𝐷(·) como a matriz diagonal,esses elementos podem ser expressos como:

𝑈𝛼(𝜃) =𝑛∑

𝑖=1

{𝐷−1(At𝑖

(𝜃))𝑅𝐴𝑖(𝛼) + 𝑄𝑖(𝜃)𝑅𝑎𝑖

(𝛼)},

𝑈𝛽(𝜃) =𝑛∑

𝑖=1

{𝐷−1(At𝑖

(𝜃))𝑅𝐴𝑖(𝛽) + 𝑄𝑖(𝜃)𝑅𝑎𝑖

(𝛽)},

𝑈𝜂(𝜃) =𝑛∑

𝑖=1

1𝑐𝑖(𝜃) [2Φ(𝑎𝑡1𝑖

(𝜃1)) − 1][2Φ(𝑎𝑡2𝑖(𝜃2)) − 1],

Page 44: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

44

em que

𝑅𝐴𝑖(𝛼) =

(𝜕

𝜕𝛼1𝐴𝑡1𝑖

(𝜃1)𝜕

𝜕𝛼2𝐴𝑡2𝑖

(𝜃2)

), 𝑅𝐴𝑖

(𝛽) =(

𝜕𝜕𝛽1

𝐴𝑡1𝑖(𝜃1)

𝜕𝜕𝛽2

𝐴𝑡2𝑖(𝜃2)

),

𝑅𝑎𝑖(𝛼) =

(𝜕

𝜕𝛼1𝑎𝑡1𝑖

(𝜃1)𝜕

𝜕𝛼2𝑎𝑡2𝑖

(𝜃2)

), 𝑅𝑎𝑖

(𝛽) =(

𝜕𝜕𝛽1

𝑎𝑡1𝑖(𝜃1)

𝜕𝜕𝛽2

𝑎𝑡2𝑖(𝜃2)

),

𝑆𝐴𝑖(𝛼) =

⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛼1𝐴𝑡1𝑖

(𝜃1)𝜕2

𝜕𝛼2𝜕𝛼2𝐴𝑡2𝑖

(𝜃2)

⎞⎠ , 𝑆𝐴𝑖(𝛽) =

⎛⎝ 𝜕2

𝜕𝛽1𝜕𝛽1𝐴𝑡1𝑖

(𝜃1)𝜕2

𝜕𝛽2𝜕𝛽2𝐴𝑡2𝑖

(𝜃2)

⎞⎠ ,

𝑆𝑎𝑖(𝛼) =

⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛼1𝑎𝑡1𝑖

(𝜃1)𝜕2

𝜕𝛼2𝜕𝛼2𝑎𝑡2𝑖

(𝜃2)

⎞⎠ , 𝑆𝑎𝑖(𝛽) =

⎛⎝ 𝜕2

𝜕𝛽1𝜕𝛽1𝑎𝑡1𝑖

(𝜃1)𝜕2

𝜕𝛽2𝜕𝛽2𝑎𝑡2𝑖

(𝜃2)

⎞⎠ ,

𝐶𝐴𝑖(𝛼,𝛽) =

⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛽1𝐴𝑡1𝑖

(𝜃1)𝜕2

𝜕𝛼2𝜕𝛽2𝐴𝑡2𝑖

(𝜃2)

⎞⎠ , 𝐶𝑎𝑖(𝛼,𝛽) =

⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛽1𝑎𝑡1𝑖

(𝜃1)𝜕2

𝜕𝛼2𝜕𝛽2𝑎𝑡2𝑖

(𝜃2)

⎞⎠ ,

𝑄𝑖(𝜃) = −𝐷(at𝑖(𝜃)) + 4𝜂

𝑐𝑖(𝜃)𝐷(at𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃)),

com

at𝑖(𝜃; 𝜑) =

(𝜑(𝑎𝑡1𝑖

(𝜃1))𝜑(𝑎𝑡2𝑖

(𝜃2))

),

𝜙𝑖(𝜃) =(

Φ(𝑎𝑡2𝑖(𝜃2)) − 1

2Φ(𝑎𝑡1𝑖

(𝜃1)) − 12

),

at𝑖(𝛼,𝛽) =

(𝑎𝑡1𝑖

(𝜃1)𝑎𝑡2𝑖

(𝜃2)

)=(

𝑎𝑡1𝑖(𝛼1, 𝛽1)

𝑎𝑡2𝑖(𝛼2, 𝛽2)

)

At𝑖(𝛼,𝛽) =

(𝐴𝑡1𝑖

(𝜃1)𝐴𝑡2𝑖

(𝜃2)

)=(

𝐴𝑡1𝑖(𝛼1, 𝛽1)

𝐴𝑡2𝑖(𝛼2, 𝛽2)

)

(b) Derivadas parciais de segunda ordem

Considerando a função de log-verossimilhança definida em (3.2.4) a Matriz Hessianade segundas derivadas, ��(𝜃), é dada por

��(𝜃) = 𝜕2ℓ(𝜃)𝜕𝜃 𝜕𝜃⊤ =

[��𝜏1 𝜏2

], 𝜏1, 𝜏2 = 𝛼,𝛽 ou 𝜂, (3.2.5)

e matriz de informação observada é obtida com 𝐼𝐹 (𝜃) = [−��(𝜃)]−1.Assim, considerando as propriedades de derivadas vetoriais e após algumas manipu-

Page 45: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

45

lações algébricas, temos os seguintes elementos para a matriz de informação observada

𝜕2ℓ𝑖(𝜃)𝜕𝛼𝜕𝛼⊤ = −𝐷−2(At𝑖

(𝜃))𝐷2(𝑅𝐴𝑖(𝛼)) + 𝐷−1(At𝑖

(𝜃))𝐷(𝑆𝐴𝑖(𝛼))

−[𝐷2(𝑅𝑎𝑖

(𝛼)) + 𝐷(at𝑖(𝜃))𝐷(𝑆𝑎𝑖

(𝛼))]

+ 𝜕2 log (𝑐𝑖(𝜃))𝜕𝛼𝜕𝛼⊤ .

𝜕2ℓ𝑖(𝜃)𝜕𝛽𝜕𝛽⊤ = −𝐷−2(At𝑖

(𝜃))𝐷2(𝑅𝐴𝑖(𝛽)) + 𝐷−1(At𝑖

(𝜃))𝐷(𝑆𝐴𝑖(𝛽))

−[𝐷2(𝑅𝑎𝑖

(𝛽)) + 𝐷(at𝑖(𝜃))𝐷(𝑆𝑎𝑖

(𝛽))]

+ 𝜕2 log (𝑐𝑖(𝜃))𝜕𝛽𝜕𝛽⊤ .

𝜕2ℓ𝑖(𝜃)𝜕𝛼𝜕𝛽⊤ = −𝐷−2(At𝑖

(𝜃))𝐷(𝑅𝐴𝑖(𝛼))𝐷(𝑅𝐴𝑖

(𝛽)) + 𝐷−1(At𝑖(𝜃))𝐷(𝐶1𝑖(𝛼,𝛽))

−[𝐷(𝑅𝑎𝑖

(𝛼))𝐷(𝑅𝑎𝑖(𝛽)) + 𝐷(at𝑖

(𝜃))𝐷(𝐶2𝑖(𝛼,𝛽))]

+ 𝜕2 log (𝑐𝑖(𝜃))𝜕𝛼𝜕𝛽⊤ .

𝜕2ℓ𝑖(𝜃)𝜕𝛼𝜕𝜂

= 1𝑐𝑖(𝜃)

[4 − 4𝜂𝑈𝜂;𝑖

][𝐷(at𝑖

(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝑅𝑎𝑖(𝛼)

].

𝜕2ℓ𝑖(𝜃)𝜕𝛽𝜕𝜂

= 1𝑐𝑖(𝜃)

[4 − 4𝜂𝑈𝜂;𝑖

][𝐷(at𝑖

(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝑅𝑎𝑖(𝛽)

].

𝜕2ℓ𝑖(𝜃)𝜕𝜂𝜕𝜂

= − 1𝑐2

𝑖 (𝜃)

{[2Φ(𝑎𝑡1𝑖

(𝜃1)) − 1][

2Φ(𝑎𝑡2𝑖(𝜃2)) − 1

]}2,

em que

𝜕2 log (𝑐𝑖(𝜃))𝜕𝛼𝜕𝛼⊤ = 4𝜂

𝑐𝑖(𝜃)

[− C𝑖 ×𝜓⊤

𝑖 + 𝑅𝑎𝑖(𝛼)𝑅𝑎𝑖

(𝛼)⊤ ∘[𝐷(at𝑖

(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃))

−𝐷2(at𝑖(𝜃; 𝜑)) + at𝑖

(𝜃; 𝜑)at𝑖(𝜃; 𝜑)⊤

]+ 𝐷(at𝑖

(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝑆𝑎𝑖(𝛼)

],

𝜕2 log (𝑐𝑖(𝜃))𝜕𝛽𝜕𝛽⊤ = 4𝜂

𝑐𝑖(𝜃)

{− G𝑖 ×𝜓⊤

𝑖 + 𝑅𝑎𝑖(𝛽)𝑅𝑎𝑖

(𝛽)⊤ ∘[𝐷(at𝑖

(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃))

−𝐷2(at𝑖(𝜃; 𝜑)) + at𝑖

(𝜃; 𝜑)at𝑖(𝜃; 𝜑)⊤

]+ 𝐷(at𝑖

(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝑆𝑎𝑖(𝛽)

},

𝜕2 log (𝑐𝑖(𝜃))𝜕𝛼𝜕𝛽⊤ = 4𝜂

𝑐𝑖(𝜃)

{− G𝑖 ×𝜓⊤

𝑖 + 𝑅𝑎𝑖(𝛼)𝑅𝑎𝑖

(𝛽)⊤ ∘[𝐷(at𝑖

(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃))

−𝐷2(at𝑖(𝜃; 𝜑)) + at𝑖

(𝜃; 𝜑)at𝑖(𝜃; 𝜑)⊤

]+ 𝐷(at𝑖

(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐶2𝑖(𝛼,𝛽)}

.

Page 46: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

46

com

C𝑖 = 𝜕

𝜕𝛼log (𝑐𝑖(𝜃))

G𝑖 = 𝜕

𝜕𝛽log (𝑐𝑖(𝜃))

𝜓𝑖 =(

𝜑(𝑎𝑡1𝑖(𝜃1))[Φ(𝑎𝑡2𝑖

(𝜃2)) − 12 ] 𝜕

𝜕𝛼1𝑎𝑡1𝑖

(𝜃1)𝜑(𝑎𝑡2𝑖

(𝜃2))[Φ(𝑎𝑡1𝑖(𝜃1)) − 1

2 ] 𝜕𝜕𝛼2

𝑎𝑡2𝑖(𝜃2)

)

=(

𝜑(𝑎𝑡1𝑖(𝜃1))[𝜅𝑖(𝜃2)] 𝜕

𝜕𝛼1𝑎𝑡1𝑖

(𝜃1)𝜑(𝑎𝑡2𝑖

(𝜃2))[𝜅𝑖(𝜃1)] 𝜕𝜕𝛼2

𝑎𝑡2𝑖(𝜃2)

).

at𝑖(𝜃; 𝜑′) =

(𝜑′(𝑎𝑡1𝑖

(𝜃1))𝜑′(𝑎𝑡2𝑖

(𝜃2))

).

(c) Processo Iterativo

Considerando as expressões de 𝑈(𝜃) e ��(𝜃), o processo iterativo de Newton-Raphsoné aplicado da forma usual

𝜃(𝑘) = 𝜃(𝑘−1) − [��(𝜃(𝑘−1))]−1𝑈(𝜃(𝑘−1)).

Assumindo as estimativas obtidas via MM como valores iniciais, o processo é repetidoaté a convergência, isto é, até que a distância entre duas estimativas sucessivas da log-verossimilhança, ℓ(𝜃), dita|ℓ(𝜃(𝑘+1)) − ℓ(𝜃(𝑘))| ou |ℓ(𝜃(𝑘+1))/ℓ(𝜃(𝑘)) − 1|, seja suficientemente pequena.

Vale destacar que o processo todo foi implementado manualmente no software R.Os códigos podem ser fornecidos mediante solicitação.

3.2.4 Qualidade do AjustePara garantir que os resultados obtidos na estimação são confiáveis, é necessário

investigar a adequabilidade dos dados ao modelo proposto. Em casos de normalidademultivariada, 𝑝-variada, uma ferramenta que costuma ser utilizada é plotar as dis-tâncias de Mahalanobis em um gráfico do tipo quantil-quantil (QQ Plot), veja, porexemplo, Vilca et al. (2016). Deve-se plotar as distâncias de Mahalanobis ordenadascontra os quantis estimados (percentis) de uma amostra de tamanho 𝑛 de uma distri-buição qui-quadrado com 𝑝 graus de liberdade. O resultado final deve ser semelhante auma linha reta caso os dados sejam, de fato, provenientes de uma distribuição normal𝑝-variada.

Entretanto, para dados provenientes da distribuição normal bivariada obtida viacópula FGM, a respectiva distância de Mahalanobis não tem distribuição qui-quadrado,portanto não podemos utilizar o mesmo procedimento de ajuste utilizado no caso danormal multivariada.

Page 47: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

47

Aqui neste trabalho, vamos definir uma distância tipo Mahalanobis vinda dos dadosda distribuição C-N2(0, ϒ) e com esta distância definir um resíduo tipo Pearson. SejaZ = (𝑍1, 𝑍2)⊤ ∼ C-N2(0, ϒ), em que ϒ é como em (3.2.2).

Podemos construir a medida 𝑑 da seguinte forma:𝑑 = Z⊤ϒ−1Z, (3.2.6)

cuja distribuição não é conhecida.No teorema a seguir constam o valor esperado e variância para 𝑑.

Teorema 3.2.3. Seja Z = (𝑍1, 𝑍2)⊤ ∼ C-N2(0, ϒ) e 𝑑 como em (3.2.6), então• E(𝑑𝑖) = 2

• Var(𝑑𝑖) = 4(1−(𝜂/𝜋)2)2

[1 − 2(𝜂/𝜋)2 − (𝜂/𝜋)4

]Demonstração. Visando simplificar a notação, seja 𝜌 = 𝜂/𝜋.

Calculando𝑑 = Z⊤ϒ−1Z

=(

𝑍1 𝑍2)( 1

1−𝜌2−𝜌

1−𝜌2−𝜌

1−𝜌21

1−𝜌2

)(𝑍1𝑍2

)

= 11 − 𝜌2

[𝑍2

1 + 𝑍22 − 2𝜌𝑍1𝑍2

].

Assim,

E(𝑑𝑖) = 11 − 𝜌2

[E(𝑍2

1) + E(𝑍22) − 2𝜌E(𝑍1𝑍2)

]= 1

1 − 𝜌2 (2 − 2𝜌2) = 11 − 𝜌2 (1 − 𝜌2)2 = 2

Agora

𝑑2 =( 1

1 − 𝜌2

)2[𝑍2

1 + 𝑍22 − 2𝜌𝑍1𝑍2

]2=

( 11 − 𝜌2

)2[𝑍4

1 + 𝑍42 + 4𝜌2𝑍2

1𝑍22 + 2𝑍2

1𝑍22 − 4𝜌𝑍3

1𝑍2 − 4𝜌𝑍1𝑍32

]e

E(𝑑2) =( 1

1 − 𝜌2

)2[8 − 16𝜌2

].

Temos, então queVar(𝑑) = E(𝑑2) − [E(𝑑)]2

=( 1

1 − 𝜌2

)2[8 − 16𝜌2

]− (2)2

= 4(1 − 𝜌2)2

[1 − 2𝜌2 − 𝜌4

].

Page 48: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

48

Com isso, podemos então construir o resíduo proposto:

𝑒𝑖 = 𝑑𝑖 − E(𝑑𝑖)√Var(𝑑𝑖)

. (3.2.7)

Aplicando técnica de envelope, podemos então conferir a suposição de adequabi-lidade dos dados ao modelo proposto. Os quantis considerados para construção doenvelope foram obtidos de forma empírica.

Essa aplicação será realizada tanto no estudo de simulação quanto nos dados reais.

3.2.5 Estudo de SimulaçãoAqui apresentamos os resultados de um estudo de simulação, com intuito de avaliar

a performance dos EMV apresentados na subseção anterior. Utilizando simulações deMonte Carlo, consideramos fixos os valores de 𝛼 e 𝛽 em 𝛼1 = 0.5, 𝛼2 = 1.5, 𝛽1 = 1e 𝛽2 = 2 (veja Vilca et al, 2016), variando o tamanho amostral e o coeficiente deassociação 𝜂. Os dados são gerados através do pacote "Copula"disponível no CRAN-R,que permite simular dados provenientes de uma distribuição C-N2 e nos quais aplicamosa relação descrita em (1.3.4).

Os tamanhos de amostra considerados foram 𝑛 = 50, 100, 200, 500 e o número deréplicas de Monte Carlo foi fixado em 𝑀 = 2.000. Para cada tamanho de amostra epara cada estimativa, denotada por 𝜃𝑘, calculamos a média, representada por E[𝜃𝑘],o viés relativo (RB), denotado por 𝑅𝐵 = (E[𝜃𝑘] − 𝜃𝑘)/𝜃𝑘 e a raiz quadrada do erroquadrático médio (EQM) definida como

√EQM𝑘 = (E(𝜃𝑘 − 𝜃𝑘)2)1/2, para 𝑘 = 1, ..., 5.

Medidas que permitem mensurar a qualidade da estimação e o viés envolvido.Utilizamos também um comparativo entre o desvio padrão das estimativas (SD),

definido por

𝑆𝐷𝑘 =

⎯⎸⎸⎷ 1𝑀 − 1

𝑀∑𝑖=1

(𝜃𝑘𝑖− E[𝜃𝑘])2,

e o desvio calculado via propriedades assintóticas do estimador (SE), isto é,

𝑆𝐸𝑘 = 1𝑀

𝑀∑𝑖=1

√I𝑘𝑘(𝑖),

em que I𝑘𝑘(𝑖) representa o 𝑘-ésimo termo da diagonal de −��(𝜃)−1 na iteração 𝑖.Construímos as Tabelas 3.1-3.6 e a partir dessas, observamos que o 𝑅𝐵 e o

√EQM

diminuem quando o tamanho da amostra (𝑛) cresce, como já esperado. Notamostambém que para pequenas amostras, as EMV de 𝛼1 e 𝛼2 são viesadas de formasemelhante ao caso univariado; veja Rieck e Nedelman (1991).

Para cada um dos casos, aplicamos os resíduos definidos em 3.2.7 e construímosgráficos de envelope. Os resultados podem ser verificados nas Figuras 3.14, 3.17 e 3.20.

Page 49: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

49

Tabela 3.1: Cenário 1: Estimativas dos parâmetros considerando 𝜂 = 0.5.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

𝑛 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4930 -0.0139 0.0496 1.4728 -0.0181 0.1538 0.3497 -0.3006 0.3686100 0.4965 -0.0071 0.0347 1.4884 -0.0077 0.1095 0.4410 -0.1179 0.2635200 0.4986 -0.0027 0.0248 1.4969 -0.0021 0.0771 0.4853 -0.0294 0.2002500 0.4997 -0.0006 0.0163 1.4983 -0.0011 0.0489 0.4985 -0.0030 0.1324

Estimativas de 𝛽1 Estimativas de 𝛽2𝑛 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 1.0044 0.0044 0.0678 2.0313 0.0157 0.3338100 1.0003 0.0003 0.0485 2.0105 0.0052 0.2391200 0.9994 -0.0006 0.0340 2.0024 0.0012 0.1657500 1.0002 0.0002 0.0216 1.9995 -0.0002 0.1037

Tabela 3.2: Cenário 1: SD e SE dos parâmetros considerando 𝜂 = 0.5.𝛼1 𝛼2 𝜂𝑛 SD SE SD SE SD SE50 0.0492 0.0493 0.1515 0.1472 0.3367 0.4121100 0.0345 0.0350 0.1089 0.1051 0.2569 0.2899200 0.0247 0.0249 0.0771 0.0747 0.1997 0.2037500 0.0163 0.0158 0.0488 0.0473 0.1324 0.1288𝛽1 𝛽2𝑛 SD SE SD SE50 0.0676 0.0679 0.3324 0.3264100 0.0485 0.0482 0.2389 0.2304200 0.0340 0.0342 0.1657 0.1630500 0.0217 0.0217 0.1038 0.1030

0.00

0.05

0.10

0.15

n

EQ

M−

α

50 100 200 500

α1α2

0.00

0.10

0.20

0.30

n

EQ

M−

β

50 100 200 500

β1β2

0.15

0.20

0.25

0.30

0.35

n

EQ

M−

η

50 100 200 500

Figura 3.12: EQM para diferentes tamanhos de amostra e 𝜂 = 0.5

Page 50: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

50

0.00

00.

010

0.02

00.

030

n

RB

− α

50 100 200 500

α1α2

0.00

0.01

0.02

0.03

0.04

0.05

nR

B−

β

50 100 200 500

β1β2

0.00

0.05

0.10

0.15

0.20

0.25

0.30

n

RB

− η

50 100 200 500

Figura 3.13: Viés Relativo (RB) para diferentes tamanhos de amostra e 𝜂 = 0.5

(a)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 3.14: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = 0.5 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Page 51: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

51

Tabela 3.3: Cenário 2: Estimativas dos parâmetros considerando 𝜂 = −0.5.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

𝑛 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4927 -0.0145 0.0496 1.4793 -0.0138 0.1507 -0.3909 -0.2182 0.3585100 0.4965 -0.0069 0.0347 1.4904 -0.0064 0.1087 -0.4688 -0.0623 0.2657200 0.4987 -0.0026 0.0247 1.4979 -0.0014 0.0774 -0.4949 -0.0101 0.1992500 0.4997 -0.0006 0.0163 1.4985 -0.0010 0.0488 -0.5010 0.0019 0.1310

Estimativas de 𝛽1 Estimativas de 𝛽2𝑛 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 1.0035 0.0035 0.0671 2.0208 0.0104 0.3341100 1.0005 0.0005 0.0490 2.0102 0.0051 0.2378200 0.9998 -0.0002 0.0339 2.0048 0.0024 0.1662500 1.0002 0.0002 0.0216 2.0000 < 10−4 0.1029

Tabela 3.4: Cenário 2: SD e SE dos parâmetros considerando 𝜂 = −0.5.𝛼1 𝛼2 𝜂𝑛 SD SE SD SE SD SE50 0.0491 0.0492 0.1493 0.1478 0.3416 0.4096100 0.0345 0.0350 0.1083 0.1052 0.2639 0.2865200 0.0247 0.0249 0.0774 0.0747 0.1992 0.2022500 0.0163 0.0158 0.0488 0.0473 0.1310 0.1282𝛽1 𝛽2𝑛 SD SE SD SE50 0.0671 0.0676 0.3335 0.3247100 0.0490 0.0480 0.2376 0.2298200 0.0339 0.0340 0.1661 0.1626500 0.0216 0.0216 0.1029 0.1027

0.00

0.05

0.10

0.15

n

EQ

M−

α

50 100 200 500

α1α2

0.00

0.10

0.20

0.30

n

EQ

M−

β

50 100 200 500

β1β2

0.15

0.20

0.25

0.30

0.35

n

EQ

M−

η

50 100 200 500

Figura 3.15: EQM para diferentes tamanhos de amostra e 𝜂 = −0.5

Page 52: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

52

0.00

00.

010

0.02

00.

030

n

RB

− α

50 100 200 500

α1α2

0.00

0.01

0.02

0.03

0.04

0.05

nR

B−

β

50 100 200 500

β1β2

0.00

0.05

0.10

0.15

0.20

n

RB

− η

50 100 200 500

Figura 3.16: Viés Relativo (RB) para diferentes tamanhos de amostra e 𝜂 = −0.5

(a)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 3.17: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = −0.5 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Page 53: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

53

Tabela 3.5: Cenário 3: Estimativas dos parâmetros considerando 𝜂 = 0. Por constru-ção, não é possível calcular o viés relativo nesse caso.

Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂𝑛 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 0.4943 -0.0114 0.0493 1.4797 -0.0135 0.1521 -0.0222 NaN 0.3940100 0.4966 -0.0069 0.0347 1.4905 -0.0064 0.1090 -0.0095 NaN 0.3039200 0.4987 -0.0025 0.0248 1.4980 -0.0014 0.0773 -0.0040 NaN 0.2175500 0.4997 -0.0006 0.0163 1.4984 -0.0011 0.0488 -0.0018 NaN 0.1372

Estimativas de 𝛽1 Estimativas de 𝛽2𝑛 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 1.0040 0.0040 0.0676 2.0231 0.0115 0.3351100 1.0005 0.0005 0.0488 2.0110 0.0055 0.2405200 0.9998 -0.0002 0.0342 2.0031 0.0016 0.1658500 1.0002 0.0002 0.0217 1.9997 -0.0002 0.1036

Tabela 3.6: Cenário 3: SD e SE dos parâmetros considerando 𝜂 = 0.𝛼1 𝛼2 𝜂𝑛 SD SE SD SE SD SE50 0.0490 0.0494 0.1508 0.1480 0.3935 0.4162100 0.0346 0.0351 0.1086 0.1054 0.3039 0.2963200 0.0248 0.0249 0.0773 0.0749 0.2175 0.2107500 0.0163 0.0158 0.0488 0.0474 0.1373 0.1338𝛽1 𝛽2𝑛 SD SE SD SE50 0.0675 0.0680 0.3344 0.3251100 0.0489 0.0481 0.2403 0.2297200 0.0342 0.0341 0.1658 0.1624500 0.0217 0.0216 0.1036 0.1026

0.00

0.05

0.10

0.15

n

EQ

M−

α

50 100 200 500

α1α2

0.00

0.10

0.20

0.30

n

EQ

M−

β

50 100 200 500

β1β2

0.15

0.20

0.25

0.30

0.35

0.40

n

EQ

M−

η

50 100 200 500

Figura 3.18: EQM para diferentes tamanhos de amostra e 𝜂 = 0

Page 54: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

54

0.00

00.

010

0.02

00.

030

n

RB

− α

50 100 200 500

α1α2

0.00

0.01

0.02

0.03

0.04

0.05

n

RB

− β

50 100 200 500

β1β2

Figura 3.19: Viés Relativo (RB) para diferentes tamanhos de amostra e 𝜂 = 0. Nessecaso não foi calculado RB para o parâmetro 𝜂.

(a)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

−1

01

23

45

6

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 3.20: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = 0 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Page 55: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

55

3.2.6 Análise de dados reaisNesta seção, apresentamos a análise de dados reais, a fim de ilustrar a aborda-

gem proposta. Os dados aqui considerados foram gentilmente fornecidos pelo NúcleoInterdisciplinar de Estudos, Pesquisas e Tratamento em Nefrologia (NIEPEN) da Uni-versidade Federal de Juiz de Fora (UFJF). Neste conjunto de dados constam os níveisde triglicérides e hemoglobina glicada de 197 pacientes.

Triglicérides, ou triglicerídeos, são a reserva de energia do corpo humano, sua funçãoé fornecer "combustível" para os músculos. Quando eles não são usados como formade energia, passam a ser armazenados no tecido adiposo, como gordura. No Brasil,considera-se que a pessoa não tem nenhuma enfermidade caso os seus níveis estejamabaixo de 150 mg de triglicérides por 100 ml de sangue. Até 200 mg é considerado limitee acima disso são níveis altos. Quando o resultado indica mais de 500, normalmenteele está relacionado ao tipo genético do problema, a hipertrigliceridermia familiar. Otratamento varia de acordo com quantidade no sangue, até 300mg por 100 ml de sangue,ajustar os hábitos do paciente pode ser suficiente, ou seja, com uma dieta melhor,reduzindo o consumo de álcool e praticando atividade física bons resultados podem serobtidos. Acima desse valor são utilizados remédios, conhecidos como fibratos. Quandoo quadro de triglicérides alto está relacionado a outras condições de saúde, como ohipotireoidismo e o diabetes descontrolado, é necessário tratar a doença. No caso dehipertrigliceridermia familiar, ou seja, quando o triglicérides alto é genético, a pessoaprecisará fazer uso de remédios para o resto da vida para conter os seus níveis no sangue.Pessoas com hipertrigliceridermia, ou triglicérides alto, não possuem sintomas, a únicaforma de descobrir se há algo errado com os seus níveis de triglicérides é fazendo umexame de sangue.

A hemoglobina é uma proteína presente nos glóbulos vermelhos, célula responsávelpelo transporte de oxigênio pela circulação sanguínea. Nos pacientes com diabetes,principalmente naqueles que apresentam glicemia persistentemente elevada, o excessode glicose acaba por facilitar a ocorrência de um processo chamado glicação da he-moglobina, que nada mais é do que a ligação das moléculas de glicose à hemoglobinacirculante, formando um complexo que é chamado de hemoglobina glicada. Quantomais elevada for a glicemia, maior será a formação de hemoglobina glicada. Portanto,pacientes com diabetes descontrolado têm hemoglobina A1c elevada, enquanto paci-entes com diabetes bem controlada possuem valores de hemoglobina A1c dentro dafaixa considerada adequada. Sendo assim, os níveis de hemoglobina glicada ajudam,de forma indireta, a identificar o quão eficaz tem sido o tratamento e como tem se com-portado a glicemia do paciente nos últimos 2 ou 3 meses. Os valores da hemoglobinaglicada são interpretados da seguinte forma:

• 4,0 a 5,6: Valor esperado para pessoas não diabéticas.

• Entre 5,7 e 6,4: Indica pré-diabetes, ou seja, elevado risco do paciente desen-volver diabetes a curto prazo.

• Entre de 6,5 e 7,0: Indica diabetes

Page 56: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

56

• Entre de 6,5 e 7,0: Resultado desejado para paciente diabéticos, que indicacontrole adequado da glicemia.

• Entre de 7,0 e 7,9: Resultado anormal para adultos diabéticos, mas que podeser tolerado em pacientes idosos ou crianças, pois esses fazem parte de um grupoque tem maior risco de desenvolver episódios de hipoglicemia com a medicaçãopara o diabetes.

• Acima de 8,0: Resultado anormal, indica diabetes mal controlado.

Segundo os especialistas, estudar esses níveis conjuntamente tem sentido do ponto devista médico. Para efeito de escala, vamos analisar o nível de triglicérides considerandodivisão por 100. Vamos tomar então

• 𝑇1 = Nível de Triglicérides /100;

• 𝑇2 = Nível de Hemoglobina Glicada no sangue.

Foram observados 197 pacientes, 𝑛 = 197.Na Tabela 3.7 constam as medidas descritivas para 𝑇1 e 𝑇2.

Tabela 3.7: Medidas descritivas para 𝑇1 e 𝑇2.Min. 1st Qu. Mediana Média 3rd Qu. Max.

𝑇1 0.510 1.130 1.570 1.726 2.290 4.150𝑇2 3.200 5.900 6.800 7.255 8.100 15.700

Uma vez que as duas variáveis remetem a um mesmo paciente iremos adotar aestrutura bivariada.

A disposição dos dados de forma bivariada pode ser verificada na Figura 3.21, eunivariada nos boxplots em 3.22.

Como foi discutido no Capítulo 2, a cópula FGM é adequada para baixas correlações,portanto vamos verificar as medidas de correlação de Pearson e de Spearman:

• 𝜌(𝑇1, 𝑇2) = 0.135,

• 𝜌𝑠(𝑇1, 𝑇2) = 0.146.

Uma vez que |𝜌|< 1/3, vamos proceder o ajuste considerando a distribuição C-BS2.

Page 57: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

57

1 2 3 4

46

810

1214

16

x

y

T2

T1

Figura 3.21: Disposição das variáveis: 𝑇1 e 𝑇2

(a)

12

34

T1

(b)

46

810

1214

16

T2

Figura 3.22: Boxplot das duas variáveis. (a) 𝑇1 (b) 𝑇2

Ajuste do modelo

Visando obter valores iniciais para o algoritmo de Newton-Raphson, foi aplicadométodo dos momentos:

• 𝛼*1 = 0.480; 𝛼*

2 = 0.278

• 𝛽*1 = 1.548; 𝛽*

1 = 6.985

• 𝜂* = 0.132

Page 58: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

58

a partir desse valores calculamos a razão de verossimilhança perfilada para o parâmetro𝜂, ou seja

𝜂** = 𝑎𝑟𝑔𝑚𝑎𝑥(ℓ(𝜂|𝜃*)) = 0.378,

em que 𝜃* = (𝛼*1, 𝛼*

2, 𝛽*1 , 𝛽*

2).Tomando então 𝜃0 = (𝛼*

1, 𝛼*2, 𝛽*

1 , 𝛽*2 , 𝜂**) como valor inicial, aplicamos o método de

Newton-Raphson descrito na Seção 3.3.2. As estimativas obtidas foram:

• 𝛼1 = 0.479; 𝛼2 = 0.277

• 𝛽1 = 1.553; 𝛽1 = 6.975

• 𝜂 = 0.380

Observando de forma univariada os histogramas a seguir mostram que as curvasajustadas se adequam aos dados:

T1

1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

T2

4 6 8 10 12 14 16

0.00

0.05

0.10

0.15

0.20

0.25

Figura 3.23: Histogramas de T1 e T2 com a reta ajustada a partir dos parâmetrosobtidos.

Agora observando conjuntamente, a curva de nível indica que o modelo ajustadoesta capturando as informações dos dados, Figura 3.24.

Page 59: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

59

0.005

0.01

0.015

0.02

0.025 0.03

0.035 0.04

0.045

0.05

0.055 0.06

0.065 0.0

7

0.075

0.08

0.085

0.1

0.11

0.115

0 1 2 3 4 5 6

05

1015

20

Figura 3.24: Curva de Nível referente ao modelo C-BS bivariado ajustado aos dadosde triglicérides e hemoglobina glicada.

Qualidade do Ajuste

Supondo que o ajuste foi bem executado espera-se que 𝑎𝑡𝑗∼ 𝑁(0, 1), em que

𝑎𝑡𝑗= 1𝛼𝑗

(⎯⎸⎸⎷ 𝑡𝑗𝛽𝑗

⎯⎸⎸⎷ 𝛽𝑗

𝑡𝑗

), 𝑗 = 1, 2.

Essa suposição pode ser verificados nos envelopes a seguir:

(a)−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Quantis Teóricos da Normal

Val

ores

Am

ostr

ais

e E

nvel

ope

Sim

ulad

o

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

(b)−3 −2 −1 0 1 2 3

−2

02

Quantis Teóricos da Normal

Val

ores

Am

ostr

ais

e E

nvel

ope

Sim

ulad

o

−3 −2 −1 0 1 2 3

−2

02

−3 −2 −1 0 1 2 3

−2

02

−3 −2 −1 0 1 2 3

−2

02

Figura 3.25: Gráfico tipo envelope indicando normalidades das duas variáveis: (a) 𝑎𝑡1

(b) 𝑎𝑡2

Page 60: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

60

Por fim, devemos verificar o resíduo definido em (3.15)

−3 −2 −1 0 1 2 3

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 3.26: Gráfico tipo Envelope para os resíduos tipo Pearson

Conclusões

Diante dos resultados obtidos, podemos afirmar que o ajuste se mostrou adequado,isto é, a distribuição bivariada proposta nesse capítulo foi capaz de modelar a de-pendência que existe entre as respostas, preservando as propriedades individuais dosmodelos. Oferece uma alternativa para análise desses dados de forma conjunta, algoque não seria possível considerando as distribuições usuais.

Obtivemos que 𝜂 = 0.380, medida que quantifica o grau de associação entre os níveisde triglicérides e de hemoglobina glicada no sangue.

Além disso, a partir do modelo obtido é possível realizar inferências sobre os pa-râmetros. Medidas como média e variância podem ser facilmente obtidas através darelação descrita no Capítulo 1.

E(𝑇𝑗) = 𝛽𝑗

[1 +

𝛼𝑗2

2]

e 𝑉 𝑎𝑟(𝑇𝑗) = 𝛽𝑗

2𝛼𝑗2[1 + 5

4𝛼𝑗

2], 𝑗 = 1, 2.

Uma vez que a matriz de Informação de Fisher observada foi calculada, 𝐼𝐹 (𝜃), é possíveltambém obter distribuições assintóticas para os parâmetros

√𝑛( 𝛼−𝛼) ≈ 𝑁2(0, 𝐼𝐹 (𝜃)[𝛼,𝛼]),√𝑛(𝛽 − 𝛽) ≈ 𝑁2(0, 𝐼𝐹 (𝜃)[𝛽,𝛽])),√𝑛(𝜂 − 𝜂) ≈ 𝑁(0, 𝐼𝐹 (𝜃)[𝜂,𝜂])),

testes de hipóteses e intervalos de confiança podem então ser construídos tomandocomo base as Estatística da Razão de Verossimilhança, Escore e Wald.

Page 61: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

61

Capítulo 4

Regressão Birnbaum-Saunders

Na literatura, podemos encontrar diversos problemas de Análise de sobrevivência eConfiabilidade em que são observados dois tempos de vida para um mesmo indivíduo,e em muitas aplicações verifica-se influência de uma ou mais covariáveis. Esse tipode situação motiva a generalização de muitos modelos estatísticos univariados para aforma multivariada, veja Balakrishnan e Lai (2009).

Em outras palavras, uma maneira de estudar o efeito de covariáveis no tempo desobreviência, é considerar um modelo de regressão bivariado, como por exemplo consi-derado por Barriga et al. (2010) e Choi e Matthews (2005). Seguindo esse raciocínio,Vilca et al. (2016) introduziram um modelo de regressão log-BS bivariado a partir dadistribuição BS bivariada apresentada no Capítulo 3, extensão do modelo de regressãoproposto por Rieck e Nedelman (1991). Aqui, a variável resposta é um vetor aleatóriobivariado.

Neste capítulo, vamos revisar o modelo de regressão proposto por Vilca et al. (2016)e apresentar um modelo de regressão BS bivariado alternativo, baseando-se na estruturada cópula FGM.

4.1 Modelo de Regressão BS Bivariado baseado naDistribuição Normal Bivariada

Segundo o procedimento de Rieck e Nedelman (1991), podemos considerar 𝜇 comodependente de um vetor de variáveis explicativas x. Assumimos que as variáveis res-postas Y1, . . . , Y𝑛 são independentes e que cada Y𝑗 é tal que

𝑌1𝑖 = x⊤1𝑖𝛽1 + 𝜖1𝑖, (4.1.1)

𝑌2𝑖 = x⊤2𝑖𝛽2 + 𝜖2𝑖, (4.1.2)

em que 𝜖𝑖 = (𝜖1𝑖, 𝜖2𝑖)⊤ ∼ SN2(𝛼, 0, 𝜌), conforme definido em 1.4.2, x1𝑖 e x2𝑖, 𝑖 =1, . . . , 𝑛, são vetores de variáveis explanatórias com dimensão 𝑝1 × 1 e 𝑝2 × 1, respecti-vamente, e 𝛽1 e 𝛽2 denotam os vetores correspondentes aos coeficientes de regressão.O modelo definido em (4.1.1) e (4.1.2) resulta no modelo de regressão log-linear BS

Page 62: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

62

bivariado, extensão do caso univariado proposto por Rieck e Nedelman (1991). Alémdisso, cada regressão univariada corresponde ao modelo linear de regressão log-BS quetem sido discutido na literatura.

Podemos expressar o modelo definido (4.1.1) e (4.1.2) em notação matricialY𝑖 = x⊤

𝑖 𝛽 + 𝜖𝑖, 𝑖 = 1, . . . , 𝑛,

em que Y𝑖 = (𝑌1𝑖, 𝑌2𝑖)⊤, x𝑖 é uma matriz com blocos na diagonal formada por x⊤1𝑖 e

x⊤2𝑖, 𝛽 = (𝛽⊤

1 ,𝛽⊤2 )⊤ e 𝜖𝑖 = (𝜖1𝑖, 𝜖2𝑖)⊤. Assim, a fdp conjunta de Y𝑖 é dada por

𝑓(y𝑖) = 14𝜑2(𝜉2(y𝑖;𝛼,𝜇𝑖); 𝜌) Π𝜉1(y𝑖;𝛼,𝜇𝑖),

em que os componentes de 𝜉1(y𝑖;𝛼,𝜇𝑖) e 𝜉2(y𝑖;𝛼,𝜇𝑖) são dados, respectivamente, por

𝜉1(𝑦𝑗𝑖; 𝛼𝑗, 𝜇𝑗𝑖) = 2𝛼𝑗

cosh (𝑦𝑗𝑖 − 𝜇𝑗𝑖

2 ) e 𝜉2(𝑦𝑗𝑖; 𝛼𝑗, 𝜇𝑗𝑖) = 2𝛼𝑗

sinh(

𝑦𝑗𝑖 − 𝜇𝑗𝑖

2

),

com 𝑗 = 1, 2, 𝜇𝑗𝑖 = x⊤𝑗𝑖𝛽𝑗 e cosh indica a função cosseno hiperbólico. Além disso, a

expressão Π𝜉1(y𝑖;𝛼,𝜇𝑖) é definida como Π𝜉1(y;𝛼,𝜇,𝜎) = 𝜉11(𝜃1)𝜉12(𝜃2), com 𝜎1 =𝜎2 = 2.

Um resultado muito importante é a distribuição de𝑑𝑖 = 𝜉2(Y𝑖;𝛼,𝜇𝑖)⊤Σ−1𝜉2(Y𝑖;𝛼,𝜇𝑖) ∼ 𝜒2

1, (4.1.3)pois permite checar a validade do modelo assim como, detectar observações atípicas.

Sejam y1, ...., y𝑛 observações independentes do modelo de regressão definido em(4.1.3). Então, a função de log-verossimilhança para 𝜃 = (𝛼⊤,𝛽⊤, 𝜌)⊤, parâmetros domodelo, pode ser escrita como

ℓ(𝜃) =𝑛∑

𝑖=1ℓ𝑖(𝜃), (4.1.4)

em que

ℓ𝑖(𝜃) = − log( 4

2𝜋

)− 1

2 log(1 − 𝜌2) − 12𝜉

⊤2𝑖Σ−1𝜉2𝑖 + log (𝜉1(𝑦1𝑖; 𝛼1, 𝜇1𝑖) 𝜉1(𝑦2𝑖; 𝛼2, 𝜇2𝑖)),

com 𝜉2𝑖 = 𝜉2(y𝑖;𝛼,𝜇𝑖).A função Escore é obtida derivando ℓ(𝜃) com respeito a 𝛼, 𝛽 e 𝜌. Assim, 𝑈(𝜃) =

𝜕

𝜕𝜃 ℓ(𝜃) = (𝑈𝛼(𝜃), 𝑈𝛽(𝜃), 𝑈𝜌(𝜃))⊤, cujas componentes são

𝑈𝛼(𝜃) = 𝐷−1(𝛼)𝑛∑

𝑖=1

{𝐷(𝜉2𝑖)Σ−1𝜉2𝑖 − 12

}, (4.1.5)

𝑈𝛽(𝜃) = 12

𝑛∑𝑖=1

X⊤𝑖

{𝐷(𝜉1𝑖)Σ−1 − 𝐷−1(𝜉1𝑖)

}𝜉2𝑖, (4.1.6)

𝑈𝜌(𝜃) = 𝑛𝜌

1 − 𝜌2 − 12

𝑛∑𝑖=1𝜉⊤

2𝑖Σ−1𝜌 𝜉2𝑖, (4.1.7)

com Σ−1𝜌 = 𝑑Σ−1/𝑑𝜌 = −Σ−1Σ𝜌Σ−1, e Σ𝜌 = 𝑑Σ/𝑑𝜌.

Todos os detalhes para obter esses resultados podem ser verificados em Vilca et al.(2016).

Page 63: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

63

4.2 O Modelo de Regressão BS Bivariado Baseadona Cópula FGM

Seguindo a proposta da distribuição bivariada Sinh-Normal, introduzida por Kundu(2015) e Vilca et al. (2016), nós agora definimos a distribuição sinh-normal bivariadaatravés da seguinte representação estocástica das variáveis aleatórias 𝑌1 e 𝑌2:

𝑌𝑗 = 𝜇𝑗 + 𝜎𝑗 arcsinh (𝛼𝑗𝑍𝑗/2) , (4.2.1)

em que Z = (𝑍1, 𝑍2)⊤, 𝑗 = 1, 2, são variáveis aleatórias com distribuição conjuntadefinida através de uma distribuição cópula 𝐶𝜂 (Nelsen, 2006), dada por

𝐺𝜂(𝑧1, 𝑧2) = 𝐶𝜂(Φ(𝑧1), Φ(𝑧2)),

em que Φ(.) é a fdp de uma distribuição normal padrão e 𝐶𝜂(.) é a cópula FMG definidano Capítulo 2.

Dizemos que o vetor aleatório bivariado Y = (𝑌1, 𝑌2)⊤ possui uma distribuição sinh-normal bivariada obtida via cópula FGM (C-SN) com parâmetros de forma, locaçãoe escala dados por 𝛼 = (𝛼1, 𝛼2)⊤ ∈ R2

+, 𝜇 = (𝜇1, 𝜇2)⊤ ∈ R2, 𝜎 = (𝜎1, 𝜎2)⊤ ∈ R2+,

respectivamente, e será denotado por Y ∼ C-SN2(𝛼,𝜇,𝜎; 𝜂). Além disso, como nocaso univariado, podemos expressar cada 𝑍𝑗 em (4.2.1) como

𝑍𝑗 = 2𝛼𝑗

sinh(

𝑌𝑗 − 𝜇𝑗

𝜎𝑗

), 𝑗 = 1, 2.

Temos também que cada 𝑌𝑗 em (4.2.1) segue uma distribuição SN, como verificado porRieck e Nedelman (1991).

A seguir vamos considerar algumas notações que serão úteis para obter os resultadosnas próximas seções. Seja

Π𝜉1(y;𝛼,𝜇,𝜎) = 𝜉11(𝜃1)𝜉12(𝜃2) e 𝜉2(y;𝛼,𝜇,𝜎) = (𝜉21(𝜃1), 𝜉22(𝜃2))⊤,

em que

𝜉1𝑗(𝜃𝑗) = 𝜉1𝑗(𝑦𝑗;𝜃𝑗) = 2𝛼𝑗

cosh(

𝑦𝑗 − 𝜇𝑗

𝜎𝑗

), 𝜉2𝑗(𝜃𝑗) = 𝜉2𝑗(𝑦𝑗;𝜃𝑗) = 2

𝛼𝑗

sinh(

𝑦𝑗 − 𝜇𝑗

𝜎𝑗

),

com 𝜃𝑗 = (𝛼𝑗, 𝜇𝑗, 𝜎𝑗)⊤, 𝑗 = 1, 2.Utilizando essas notações, temos que(i) Z = 𝜉2(y;𝛼,𝜇,𝜎) é um vetor aleatório bivariado com distribuição conjunta

especificada pela cópula FGM 𝐶𝜂;

(ii) A fdp conjunta de Y = (𝑌1, 𝑌2)⊤ pode ser escrita de uma forma simplificadacomo

𝑓Y(y) = 𝑐𝜂(𝜉2(y;𝛼,𝜇,𝜎); 𝜂)𝜑(𝜉21(𝜃1))𝜑(𝜉22(𝜃2)) Π𝜉1(y;𝛼,𝜇,𝜎), y ∈ R2,

= 𝑐𝜂(𝜉2(y;𝛼,𝜇,𝜎); 𝜂)𝑓𝑌1(𝑦1)𝑓𝑌2(𝑦2), y ∈ R2, (4.2.2)

em que 𝑐𝜂(.) é a função densidade da cópula.

Page 64: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

64

Se 𝜂 = 0, temos que 𝑌1 e 𝑌2 são independentes. Por causa disso, o parâmetro 𝜂 podeser interpretado como um parâmetro de associação. Com respeito aos parâmetros deforma, notamos que a fdp conjunta de 𝑌1 e 𝑌2 tem as seguintes características:

i) É claramente unimodal para 𝛼1 < 2 e 𝛼2 < 2;

ii) É platicúrtica para 𝛼1 = 2 e 𝛼2 < 2;

iii) Tende a ser bimodal para 𝛼1 ≤ 2 e 𝛼2 > 2, especificamente quando |𝜂| é próximode 1;

iv) Possui quatro modas quando 𝛼1 > 2 e 𝛼2 > 2, especificamente quando 𝜂 épróximo de zero. Mas, para |𝜂| perto de 1, a fdp possui duas modas;

v) É platicúrtica para 𝛼1 = 2 e 𝛼2 = 2 para 𝜂 próximo de zero. Mas, quando |𝜂|perto de 1, a fdp tende a ser bimodal.

As Figuras 4.1 á 4.4 exibem gráficos da fdp para os casos (i), (ii), (iv) e (v) assumindocertos valores dos parâmetros. Na Figura 4.1, a distribuição é fortemente unimodal,na 4.2 é platicúrtica e na Figura 4.4 possui quatro modas e pontos de sela.

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

−2 −1 0 1 2

−3

−2

−1

01

23

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

α=0.5α=1.5

Figura 4.1: Gráfico de Perspectiva e Contorno da densidade da distribuição sinh-normal bivariada quando 𝛼1 = 0.5, 𝛼2 = 1.5 e 𝜂 = 0.5. No terceiro gráfico, temoso comportamento das marginais.

Page 65: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

65

0.02

0.04

0.06

0.08

0.1

0.12

0.14

−4 −2 0 2 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

α=2α=0.5

Figura 4.2: Gráfico de Perspectiva e Contorno da densidade da distribuição sinh-normal bivariada quando 𝛼1 = 2, 𝛼2 = 0.5 e 𝜂 = 0.5. No terceiro gráfico, temos ocomportamento das marginais.

0.002

0.002

0.002

0.004

0.0

04

0.004

0.004

0.006 0.008

0.01

0.012 0.014

0.014

0.016

0.016

0.018

0.018

0.02

0.02

−4 −2 0 2 4

−4

−2

02

4

−4 −2 0 2 4

0.00

0.05

0.10

0.15

0.20

0.25

α=3α=4

Figura 4.3: Gráfico de Perspectiva e Contorno da densidade da distribuição sinh-normalbivariada quando 𝛼1 = 3, 𝛼2 = 4 e 𝜂 = 0.1. No terceiro gráfico, temos o comportamentodas marginais.

Importante notar que a distribuição C-SN possui certas propriedades interessantes,análogas aquelas demonstradas por Rieck e Nedelman (1991), Kundu (2015) e Vilca etal (2016). Iremos agora obter as distribuições marginal e condicional da distribuiçãoC-SN bivariada, as quais são baseadas nas propriedades da cópula FMG. Seja Y umvetor 2 × 1, tal que

Y =(

𝑌1𝑌2

), 𝛼 =

(𝛼1𝛼2

), 𝜇 =

(𝜇1𝜇2

)e 𝜎 =

(𝜎1𝜎2

). (4.2.3)

Page 66: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

66

0.005

0.005

0.005 0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.04

−4 −2 0 2 4

−4

−2

02

4

−4 −2 0 2 4

0.00

0.05

0.10

0.15

0.20

0.25

α=3α=4

Figura 4.4: Gráfico de Perspectiva e Contorno da densidade da distribuição sinh-normalbivariada quando 𝛼1 = 2, 𝛼2 = 2 e 𝜂 = 0.8. No terceiro gráfico, temos o comportamentodas marginais.

Teorema 3. Seja Y ∼ C-SN2(𝛼,𝜇,𝜎; 𝜂), que assume a representação em (4.2.3).Então:

(i) 𝑌1 ∼ SN(𝛼1, 𝜇1, 𝜎1) e 𝑌2 ∼ SN(𝛼2, 𝜇2, 𝜎2).

(ii) 𝜌𝑠 = 13𝜂, representa a correlação de Spearman.

(iii) 𝜏 = 29𝜂, representa a correlação de Kendall.

(iv) A fdp condicional de 𝑌1, dado 𝑌2 = 𝑦2, é dada por

𝑓𝑦1|𝑦2(𝑦1|𝑦2) = 𝑐𝜂(𝜉2(y;𝛼,𝜇,𝜎); 𝜂)𝑓𝑌1(𝑦1)𝑓𝑌2(𝑦2)𝑓𝑌2(𝑦2)

= 𝑐𝜂(𝜉2(y;𝛼,𝜇,𝜎); 𝜂)𝑓𝑌1(𝑦1). (4.2.4)

(v) Se 𝑌2 = 𝜇2, então 𝑌1|(𝑌2 = 𝜇2) ∼ 𝑆𝑁(𝛼1, 𝜇1, 𝜎1).Note que 𝜉22(𝜃2) = 2

𝛼2sinh

(𝜇2−𝜇2

𝜎2

)= 0.

Portanto,

𝑐𝜂(𝜉2(y;𝛼,𝜇,𝜎); 𝜂) = 1 + 𝜂[2Φ(0) − 1

][2Φ(𝜉21(𝜃1)) − 1

]= 1

e𝑐𝜂(𝜉2(y;𝛼,𝜇,𝜎); 𝜂)𝑓𝑌1(𝑦1)𝑓𝑌2(𝑦2)

𝑓𝑌2(𝑦2)= 𝑓𝑌1(𝑦1)𝑓𝑌2(𝑦2)

𝑓𝑌2(𝑦2)= 𝑓𝑌1(𝑦1).

(vi) W = c+BY ∼ C-SN2(𝛼, c+B𝜇,𝜎12, 𝜂*); em que c ∈ R2, 𝜎12 = (|𝑏1|𝜎1, |𝑏2|𝜎2)⊤,B = 𝐷(b) denota a matriz diagonal com elementos b = (𝑏1, 𝑏2)⊤ e 𝜂* é dado por𝑠𝑖𝑔𝑛(𝑏1𝑏2)𝜂.

Page 67: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

67

Demonstração. Os resultados podem ser obtidos diretamente utilizando métodos demudança de variável e as propriedades das distribuições marginal e condicional dadistribuição normal multivariada.

Corolário 4.2.1. Seja Y = (𝑌1, 𝑌2) ∼ C-SN2(𝛼,𝜇,𝜎; 𝜂). Então:

(i) W = c ± Y ∼ C-SN2(𝛼, c ± 𝜇,𝜎; 𝜂), com c ∈ R2;

(ii) W1 = (−𝑌1, 𝑌2)⊤ ∼ C-SN2(𝛼,𝜇′1,𝜎; −𝜂), em que 𝜇′

1 = (−𝜇1, 𝜇2)⊤;

(iii) W2 = (𝑌1, −𝑌2)⊤ ∼ C-SN2(𝛼,𝜇′2,𝜎 − 𝜂), em que 𝜇′

2 = (𝜇1, −𝜇2)⊤.

(iv) Seja S𝛼 = 2𝐷−1(𝛼)𝐷−1(Y −𝜇), onde 𝐷−1 denota a inversa da matriz diagonal.Então o limite da distribuição de S𝛼, quando 𝛼 → 0 é C-N2. Especificamente,S𝛼

𝑑−→ Z ∼ C-N2(0, Σ; 𝜂).

Demonstração. Para as partes (i) a (iii) os resultados são diretamente obtidas atravésde aplicação da parte (vi) do Teorema 3 tomando 𝑏 = (±1, ±1)⊤, 𝑏 = (−1, 1)⊤ e𝑏 = (1, −1)⊤, respectivamente. Já para parte (iv) nós consideramos a fda de S𝛼 dadapor

𝑃 (S𝛼 ≤ s) = 𝑃( 2

𝛼1𝜎1(𝑌1 − 𝜇1) ≤ 𝑠1,

2𝛼2𝜎2

(𝑌2 − 𝜇2) ≤ 𝑠2

)= 𝑃

(𝑌1 ≤ 𝜇1 + 𝛼1𝜎1

2 𝑠1, 𝑌2 ≤ 𝜇2 + 𝛼2𝜎2

2 𝑠2

)= 𝑃

(𝑍1 ≤ 2

𝛼1sinh

(𝑠1𝛼1

2), 𝑍2 ≤ 2

𝛼2sinh

(𝑠2𝛼2

2))

Aplicando regra de L’Hospital para 𝑧𝛼𝑖= 2

𝛼𝑖sinh( 𝑠𝑖𝛼𝑖

2 ) notamos que lim𝛼𝑖→0 𝑧𝛼𝑖=

𝑠𝑖 cosh(0) = 𝑠𝑖. Portanto, temos que lim𝛼𝑖→0 𝑃 (S𝛼 ≤ s) = 𝐹Z(z).

4.2.1 Método dos MomentosO método de estimação baseado nos momentos modificados desenvolvido por Ng

et al. (2003), Leiva et al. (2008) e Kundu et al. (2010) depende dos momentos dadistribuição BS. Aqui, utilizamos a relação entre a distribuição C-SN bivariada e adistribuição C-N bivariada.

Dessa forma, para sua aplicação é necessário conhecer os quatro primeiros momentosnão-centrais da distribuição C-N2. Porém, diferentemente da distribuição normal biva-riada, as propriedades dessa distribuição baseada na cópula FGM não são tão popularesna literatura. Em virtude disso, iremos descrever os momentos no lema a seguir.

Lema 4.2.2. Seja Z ∼ C-N2(0, ϒ; 𝜂) então

i) E(𝑍1𝑍2) = cov(𝑍1, 𝑍2) = 𝜂𝜋.

ii) E(𝑍21𝑍2) = E(𝑍1𝑍

22) = 0.

Page 68: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

68

iii) E(𝑍31𝑍2) = E(𝑍1𝑍

32) = 5𝜂

2𝜋.

iv) E(𝑍21𝑍2

2) = 1.

Demonstração. i)

E(𝑍1𝑍2) =∫ ∞

−∞𝑧1𝑧2𝑓𝑍1,𝑍2(𝑧1, 𝑧2)𝑑𝑧1𝑑𝑧2

=∫ ∞

−∞𝑧1𝑧2𝜑(𝑧1)𝜑(𝑧2)

[1 + 𝜂(2Φ(𝑧1) − 1)(2Φ(𝑧2) − 1)

]𝑑𝑧1𝑑𝑧2

=∫ ∞

−∞𝑧1𝜑(𝑧1)𝑑𝑧1

∫ ∞

−∞𝑧2𝜑(𝑧2)𝑑𝑧2

+ 𝜂∫ ∞

−∞𝑧1𝜑(𝑧1)[2Φ(𝑧1) − 1]𝑑𝑧1

∫ ∞

−∞𝑧2𝜑(𝑧2)[2Φ(𝑧2) − 1]𝑑𝑧2

= 𝜂[ ∫ ∞

−∞𝑧1𝜑(𝑧1)2Φ(𝑧1)𝑑𝑧1 −

∫ ∞

−∞𝑧1𝜑(𝑧1)𝑑𝑧1

][ ∫ ∞

−∞𝑧2𝜑(𝑧2)2Φ(𝑧2)𝑑𝑧2 −

∫ ∞

−∞𝑧2𝜑(𝑧2)𝑑𝑧2

]= 𝜂

[ 1√𝜋

][ 1√𝜋

]= 𝜂

𝜋.

Note que

𝑓𝑋(𝑥) = 2𝜑(𝑥)Φ(𝑥) (4.2.5)

corresponde a densidade de uma distribuição Skew-normal, Azzalini (2014), em que∫ ∞

−∞𝑥𝜑(𝑥)2Φ(𝑥)𝑑𝑥 = E(𝑋) = 1√

𝜋.

ii) Visto que a distribuição é simétrica sabemos que todos os momentos ímpares sãosiguais a zero.iii) Para uma variável aleatória com distribuição como em (4.2.5), sabe-se que E(𝑋2) =1 e E(𝑋3) = 5

2√

𝜋. Usando esses resultados, temos que

E(𝑍31𝑍2) =

∫ ∞

−∞𝑧3

1𝑧2𝑓𝑍1,𝑍2(𝑧1, 𝑧2)𝑑𝑧1𝑑𝑧2

=∫ ∞

−∞𝑧3

1𝜑(𝑧1)𝑑𝑧1

∫ ∞

−∞𝑧2𝜑(𝑧2)𝑑𝑧2

+ 𝜂∫ ∞

−∞𝑧3

1𝜑(𝑧1)[2Φ(𝑧1) − 1]𝑑𝑧1

∫ ∞

−∞𝑧2𝜑(𝑧2)[2Φ(𝑧2) − 1]𝑑𝑧2

= 𝜂[ ∫ ∞

−∞𝑧3

1𝜑(𝑧1)2Φ(𝑧1)𝑑𝑧1 −∫ ∞

−∞𝑧3

1𝜑(𝑧1)𝑑𝑧1

]×[ ∫ ∞

−∞𝑧2𝜑(𝑧2)2Φ(𝑧2)𝑑𝑧2 −

∫ ∞

−∞𝑧2𝜑(𝑧2)𝑑𝑧2

]= 𝜂

[ 52√

𝜋

][ 1√𝜋

]= 5𝜂

2𝜋.

Page 69: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

69

iv)

E(𝑍21𝑍2

2) =∫ ∞

−∞𝑧2

1𝑧22𝑓𝑍1,𝑍2(𝑧1, 𝑧2)𝑑𝑧1𝑑𝑧2

=∫ ∞

−∞𝑧2

1𝜑(𝑧1)𝑑𝑧1

∫ ∞

−∞𝑧2

2𝜑(𝑧2)𝑑𝑧2

+ 𝜂∫ ∞

−∞𝑧2

1𝜑(𝑧1)[2Φ(𝑧1) − 1]𝑑𝑧1

∫ ∞

−∞𝑧2

2𝜑(𝑧2)[2Φ(𝑧2) − 1]𝑑𝑧2

= 1 + 𝜂[ ∫ ∞

−∞𝑧2

1𝜑(𝑧1)2Φ(𝑧1)𝑑𝑧1 −∫ ∞

−∞𝑧2

1𝜑(𝑧1)𝑑𝑧1

]×[ ∫ ∞

−∞𝑧2

2𝜑(𝑧2)2Φ(𝑧2)𝑑𝑧2 −∫ ∞

−∞𝑧2

2𝜑(𝑧2)𝑑𝑧2

]= 1 + 𝜂[1 − 1][1 − 1] = 1.

Seja

W𝑖 =(

2 sinh(

𝑌1𝑖 − 𝜇1𝑖

2

), 2 sinh

(𝑌2𝑖 − 𝜇2𝑖

2

))⊤

, 𝑖 = 1, . . . , 𝑛, (4.2.6)

em que 𝜇𝑖 = (𝜇1𝑖, 𝜇2𝑖)⊤ = (x⊤1𝑖𝛽1𝑖, x⊤

2𝑖𝛽2𝑖)⊤. Então, podemos expressar W𝑖 comoW𝑖 = 𝐷(𝛼)Z𝑖, em que Z ∼ C-N2(0, ϒ; 𝜂) e 𝐷(𝛼) é uma matriz diagonal com elementosda diagonal 𝛼 = (𝛼1, 𝛼2)⊤. Então, temos que

W𝑖 ∼ C-N2(0, 𝐷(𝛼)ϒ𝐷(𝛼); 𝜂).

Consequentemente, podemos utilizar os momentos definidos no Teorema 4.2.2. Se-guindo Ng et al. (2003) e Kundu et al. (2010), consideramos aqui a amostra aleatória𝑊1, . . . , 𝑊𝑛 de C-N2(0, 𝐷(𝛼)ϒ𝐷(𝛼); 𝜂), com 𝛽 fixo. Assim, obtemos os estimadorespelo MM de 𝛼 = (𝛼1, 𝛼2)⊤ e 𝜂, os quais utilizamos como valores iniciais para o processoiterativo de Newton-Raphson.

Teorema 4. Considere o modelo de regressão BS bivariado dado em (4.1.3), e suponhaque existam os estimadores consistentes 𝛽1 e 𝛽2 de 𝛽1 e 𝛽2. Então, os estimadoresobtidos pelo método dos momentos para 𝛼 e 𝜂 são dados por

𝛼 =√

4𝑛

⎛⎜⎜⎝√∑𝑛

𝑗=1 sinh2 (𝑦1𝑗−𝜇1𝑖

𝜎1)√∑𝑛

𝑗=1 sinh2 (𝑦2𝑗−𝜇2𝑖

𝜎2)

⎞⎟⎟⎠e

𝜂 = 𝜋

∑𝑛𝑗=1 sinh

(𝑦1𝑗−𝜇1𝑖

𝜎1

)sinh

(𝑦2𝑗−𝜇2𝑖

𝜎2

)√∑𝑛

𝑗=1 sinh2(

𝑦1𝑗−𝜇1𝜎1

) ∑𝑛𝑗=1 sinh2

(𝑦2𝑗−𝜇2

𝜎2

)respectivamente. Além disso, são consistentes e assintóticamente normais; isto é,

Page 70: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

70

(i) Quando 𝑛 −→ ∞, 𝛼 𝑞.𝑐.−→ 𝛼 e 𝜂 𝑞.𝑐.−→ 𝜂;

(ii) Se W𝑖 possui quarto momento finito, temos que

√𝑛

( 𝛼−𝛼𝜂 − 𝜂

)𝑑−→ N𝑧 ∼ 𝑁3(0, Λ𝛼𝜂),

em que

Λ𝛼𝜂 =

⎛⎜⎜⎝14(3𝜅 + 2)𝛼2

114𝛼1𝛼2(𝜅 + 2(𝜅 + 1) 𝜂2

𝜋2 ) 12𝛼1𝜂(𝜅 + 1)(1 − 𝜂2

𝜋2 )14(3𝜅 + 2)𝛼2

212𝛼2𝜂(𝜅 + 1)(1 − 𝜂2

𝜋2 )(𝜅 + 1)(𝜋 − 𝜂2

𝜋2 )2

⎞⎟⎟⎠e 𝜅 = 𝜋4

(𝜋2−𝜂2)2 − 1, é o parâmetro de kurtose.

Demonstração. Primeiro, vamos considerar 𝛽1 e 𝛽2 fixos e definir a matriz de covari-ância amostral 2 × 2 de W𝑖 dada por

S = 𝑆𝑛(𝛽1,𝛽2) = 1𝑛

𝑛∑𝑖=1

W𝑖 W⊤𝑖 ,

com suas entradas denotadas por 𝑆11, 𝑆12 e 𝑆22. Podemos estudar as propriedadesassintóticas da matriz de covariância S, e através dela estudar as propriedades de𝛼𝑗 = 𝑔𝑗(S) =

√𝑆𝑗𝑗, 𝑗 = 1, 2 e 𝜂 = 𝑔3(S) = 𝜋

√𝑆12

𝑆11 𝑆22. Uma vez que a distribuição

conjunta assintótica de 𝑆11, 𝑆21 e 𝑆22 é

√𝑛

⎛⎜⎝ 𝑆11 − 𝛼21

𝑆12 − 𝛼1𝛼2𝜂𝜋

𝑆22 − 𝛼22

⎞⎟⎠ 𝑑−→ 𝑁3(0, Ψ),

em que

Ψ =

⎛⎜⎝ (3𝜅 + 2)𝛼41 (3𝜅 + 2)𝛼3

1𝛼2𝜂𝜋

𝜅𝛼21𝛼2

2 + 2(𝜅 + 1)𝛼21𝛼2

2( 𝜂𝜋)2

(𝜅 + 1)𝛼21𝛼2

2 + (2𝜅 + 1)𝛼21𝛼2

2( 𝜂𝜋)2 (3𝜅 + 2)𝛼1𝛼

32

𝜂𝜋

(3𝜅 + 2)𝛼42

⎞⎟⎠ ,

o estimador consistente 𝛼 e 𝜂 resulta do fato de que S converge para Ψ com probabi-lidade um. Por outro lado, aplicando o método delta, obtemos a distribuição conjuntaassintótica de 𝛼𝑗, 𝑗 = 1, 2 e 𝜂. Esse resultado requer que 𝛽1 e 𝛽2 sejam fixos.

Finalmente, mediante a substituição de 𝛽1 e 𝛽2 por seus respectivos estimadoresconsistentes 𝛽1 e 𝛽2 nos resultados obtidos e aplicando as propriedades de convergênciaquase certa e o método delta, concluímos a prova do teorema.

No que diz respeito a condição de existência dos estimadores consistentes 𝛽1 e 𝛽2no Teorema 4, podemos considerar os estimadores a seguir:

i. 𝛽1 e 𝛽2 são os estimadores de mínimos quadrados (EQM);

Page 71: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

71

ii. 𝛽1 e 𝛽2 são os EMV de 𝛽1 e 𝛽2, respectivamente, considerando o modelo deregressão BS univariado individualmente.

Os resultados do Teorema 4 podem ser úteis para encontrar a distribuição assintóticados estimadores de 𝛼 e 𝜂 individualmente, e assim desenvolver testes de hipóteses paraos parâmetros 𝛼 e 𝜂. Por exemplo, como um subproduto do Teorema 4, temos

√𝑛(𝛼𝑗 − 𝛼𝑗) 𝑑−→ 𝑁

(0,

14(3𝜅 + 2)𝛼2

𝑗

), 𝑗 = 1, 2,

e√

𝑛(𝜂 − 𝜂) 𝑑−→ 𝑁(0, (𝜅 + 1)(𝜋 − 𝜂2

𝜋2 )2).

Para o caso específico 𝜅 = 0, que corresponde a 𝜂 = 0, podemos obter a variânciaassintótica do estimador 𝛼𝑖 como 𝛼2

𝑖 /2𝑛, que é exatamente a variância do EMV de𝛼𝑖; veja Rieck e Nedelman (1991, Eq. 10). Com relação a variância assintótica de 𝜂,podemos notar que ela tem a mesma propriedade que no caso normal bivariado. Alémdisso, com base nos resultados do Teorema 4, podemos testar uma hipótese sobre𝛾 = (𝛼⊤, 𝜂)⊤, por exemplo, a hipótese linear 𝐻0 : A𝛾 = b, em que A é uma matriz𝑞 × 3 com ordem menor ou igual 3 e b é um vetor pré-especificado. A estatística doteste de Wald para esse propósito é dada por

𝑄𝑊 = 𝑛(A𝛾 − b)⊤(AΛ𝛼𝜂A)−1(A𝛾 − b),

que pode ser usada para testar casos especiais como 𝐻0 : 𝛼𝑗 = 𝛼0𝑗 (𝑗 = 1, 2), 𝐻0 : 𝛼1 =𝛼2, e 𝐻0 : 𝜂 = 𝜂0.

4.2.2 Método de Máxima VerossimilhançaAgora, discutiremos o processo de estimação dos parâmetros do modelo de regressão

C-SN bivariado pelo método de máxima verossimilhança. Os EMV dos coeficientes daregressão 𝛽1 e 𝛽2, e dos parâmetros 𝛼 e 𝜂, são as soluções das equações baseadas nafunção escore 𝑈𝛼(𝜃) = 0, 𝑈𝛽(𝜃) = 0 e 𝑈𝜂(𝜃) = 0. Contudo, essas equações nãopossuem solução analítica e um processo iterativo é necessário para encontrar suasraízes.

Sejam y1, . . . , y𝑛 observações independentes do modelo de regressão definido ante-riormente. Então a log-verossimilhança para 𝜃 = (𝛼⊤,𝛽⊤, 𝜂)⊤, com 𝛼⊤ = (𝛼1, 𝛼2),𝛽 = (𝛽⊤

1 ,𝛽⊤2 ) e 𝜃𝑗 = (𝛼𝑗, 𝛽⊤

𝑗 ), 𝑗 = 1, 2, é dada por

ℓ(𝜃) =𝑛∑

𝑖=1ℓ𝑖(𝜃) =

𝑛∑𝑖=1

[ℓ1𝑖(𝜃1) + ℓ2𝑖(𝜃2) + log (𝑐𝑖(𝜃))

], (4.2.7)

em que

ℓ𝑗𝑖(𝜃𝑗) = −12 log(8𝜋) + log (𝜉1𝑖(𝜃𝑗)) − 1

2𝜉22𝑖(𝜃𝑗)

Page 72: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

72

e

𝑐𝑖(𝜃) = 1 + 𝜂[2Φ(𝜉2𝑖(𝜃1)) − 1], [2Φ(𝜉2𝑖(𝜃2)) − 1]

com

𝜉1𝑖(𝜃) = 𝜉1𝑖(y;𝛼,𝛽) =(

𝜉1𝑖(𝜃1)𝜉1𝑖(𝜃2)

)=⎛⎝ 2

𝛼1cosh

(𝑦1𝑖−x⊤

1𝑖𝛽12

)2

𝛼2cosh

(𝑦2𝑖−x⊤

1𝑖𝛽22

)⎞⎠ ,

𝜉2𝑖(𝜃) = 𝜉2𝑖(y;𝛼,𝛽) =(

𝜉2𝑖(𝜃1)𝜉2𝑖(𝜃2)

)=⎛⎝ 2

𝛼1sinh

(𝑦1𝑖−x⊤

2𝑖𝛽12

)2

𝛼2sinh

(𝑦2𝑖−x⊤

2𝑖𝛽22

)⎞⎠ .

(a) Derivadas parciais de primeira ordem

Considerando a log-verossimilhança definida em (4.2.7), a matriz de derivadas par-ciais de primeira ordem, a respeito de 𝜃, é dada por

𝑈(𝜃) = 𝜕

𝜕𝜃ℓ(𝜃) = (𝑈𝛼(𝜃), 𝑈𝛽(𝜃), 𝑈𝜂(𝜃))⊤,

em que

𝑈𝛼(𝜃) = 𝜕

𝜕𝛼ℓ(𝜃), 𝑈𝛽(𝜃) = 𝜕

𝜕𝛽ℓ(𝜃) e 𝑈𝜂(𝜃) = 𝜕

𝜕𝜂ℓ(𝜃).

Após algumas manipulações algébricas, esses elementos podem ser expressos como:

𝑈𝛼(𝜃) =𝑛∑

𝑖=1

{𝐷−1(𝜉1𝑖(𝜃))𝐴1𝑖(𝛼) + 𝑄𝑖(𝜃)𝐴2𝑖(𝛼)

},

𝑈𝛽(𝜃) =𝑛∑

𝑖=1

{𝐷−1(𝜉1𝑖(𝜃))𝐴1𝑖(𝛽) + 𝑄𝑖(𝜃)𝐴2𝑖(𝛽)

},

𝑈𝜂(𝜃) =𝑛∑

𝑖=1

1𝑐𝑖(𝜃) [2Φ(𝜉2𝑖(𝜃1)) − 1][2Φ(𝜉2𝑖(𝜃2)) − 1],

em que, para 𝑗 = 1, 2,

𝐴𝑗𝑖(𝛼) =(

𝑎𝑗𝑖(𝛼1)𝑎𝑗𝑖(𝛼2)

)=(

𝜕𝜕𝛼1

𝜉𝑗𝑖(𝜃1)𝜕

𝜕𝛼2𝜉𝑗𝑖(𝜃2)

), 𝐴𝑗𝑖(𝛽) =

(𝑎𝑗𝑖(𝛽1)𝑎𝑗𝑖(𝛽2)

)=(

𝜕𝜕𝛽1

𝜉𝑗𝑖(𝜃1)𝜕

𝜕𝛽2𝜉𝑗𝑖(𝜃2)

),

𝐵𝑗𝑖(𝛼) =(

𝑏𝑗𝑖(𝛼1)𝑏𝑗𝑖(𝛼2)

)=⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛼1𝜉𝑗𝑖(𝜃1)

𝜕2

𝜕𝛼2𝜕𝛼2𝜉𝑗𝑖(𝜃2)

⎞⎠ ,

𝐵𝑗𝑖(𝛽) =(

𝑏𝑗𝑖(𝛽1)𝑏𝑗𝑖(𝛽2)

)=⎛⎝ 𝜕2

𝜕𝛽1𝜕𝛽1𝜉𝑗𝑖(𝜃1)

𝜕2

𝜕𝛽2𝜕𝛽2𝜉𝑗𝑖(𝜃2)

⎞⎠ ,

𝐶𝑗𝑖(𝛼,𝛽) =(

𝑐𝑗𝑖(𝛼1, 𝛽1)𝑐𝑗𝑖(𝛼2, 𝛽2)

)=⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛽1𝜉𝑗𝑖(𝜃1)

𝜕2

𝜕𝛼2𝜕𝛽2𝜉𝑗𝑖(𝜃2)

⎞⎠ ,

𝑄𝑖(𝜃) = −𝐷(𝜉2𝑖(𝜃)) + 4𝜂

𝑐𝑖(𝜃)𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃)),

Page 73: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

73

com

𝜉2𝑖(𝜃; 𝜑) =(

𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2))

)e

𝜙𝑖(𝜃) =(

Φ(𝜉2𝑖(𝜃2)) − 12

Φ(𝜉2𝑖(𝜃1)) − 12

).

(b) Derivadas parciais de segunda ordem

Seja ℓ(𝜃) a função de log-verossimilhança definida em (4.2.7). Então, a matriz dederivadas parciais de segunda ordem com respeito de 𝜃, é dada por

��(𝜃) = 𝜕2ℓ(𝜃)𝜕𝜃𝜕𝜃⊤ =

𝑛∑𝑖=1

𝜕2ℓ𝑖(𝜃)𝜕𝜃𝜕𝜃⊤ ,

em que ��(𝜃) é uma matriz de ordem (𝑝 + 3) × (𝑝 + 3), 𝑝 = 𝑝1 + 𝑝2. Para resumir suarepresentação, esta matriz será representada por

��𝑖(𝜃) = 𝜕2ℓ𝑖(𝜃)𝜕𝜃𝜕𝜃⊤ =

[𝜕2ℓ𝑖(𝜃)𝜕𝜏 1𝜕𝜏⊤

2

], 𝜏 1, 𝜏 2 = 𝛼,𝛽 ou 𝜂.

Assim, considerando as propriedades de derivadas vetoriais e após algumas manipu-lações algébricas, temos os seguintes elementos para a matriz de informação observada

𝜕2ℓ𝑖(𝜃)𝜕𝛼𝜕𝛼⊤ = −𝐷−2(𝜉1𝑖(𝜃))𝐷2(𝐴1𝑖(𝛼)) + 𝐷−1(𝜉1𝑖(𝜃))𝐷(𝐵1𝑖(𝛼))

−[𝐷2(𝐴2𝑖(𝛼)) + 𝐷(𝜉2𝑖(𝜃))𝐷(𝐵2𝑖(𝛼))

]+ 𝜕2 log (𝑐𝑖(𝜃))

𝜕𝛼𝜕𝛼⊤

𝜕2ℓ𝑖(𝜃)𝜕𝛽𝜕𝛽⊤ = −𝐷−2(𝜉1𝑖(𝜃))𝐷2(𝐴1𝑖(𝛽)) + 𝐷−1(𝜉1𝑖(𝜃))𝐷(𝐵1𝑖(𝛽))

−[𝐷2(𝐴2𝑖(𝛽)) + 𝐷(𝜉2𝑖(𝜃))𝐷(𝐵2𝑖(𝛽))

]+ 𝜕2 log (𝑐𝑖(𝜃))

𝜕𝛽𝜕𝛽⊤

𝜕2ℓ𝑖(𝜃)𝜕𝛼𝜕𝛽⊤ = −𝐷−2(𝜉1𝑖(𝜃))𝐷(𝐴1𝑖(𝛼))𝐷(𝐴1𝑖(𝛽)) + 𝐷−1(𝜉1𝑖(𝜃))𝐷(𝐶1𝑖(𝛼,𝛽))

−[𝐷(𝐴2𝑖(𝛼))𝐷(𝐴2𝑖(𝛽)) + 𝐷(𝜉2𝑖(𝜃))𝐷(𝐶2𝑖(𝛼,𝛽))

]+ 𝜕2 log (𝑐𝑖(𝜃))

𝜕𝛼𝜕𝛽⊤

𝜕2ℓ𝑖(𝜃)𝜕𝛼𝜕𝜂

= 1𝑐𝑖(𝜃)

[4 − 4𝜂𝑈𝜂;𝑖

][𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛼)

]𝜕2ℓ𝑖(𝜃)𝜕𝛽𝜕𝜂

= 1𝑐𝑖(𝜃)

[4 − 4𝜂𝑈𝜂;𝑖

][𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛽)

]𝜕2ℓ𝑖(𝜃)𝜕𝜂𝜕𝜂

= − 1𝑐2

𝑖 (𝜃)

{[2Φ(𝜉2𝑖(𝜃1)) − 1

][2Φ(𝜉2𝑖(𝜃2)) − 1

]}2,

Page 74: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

74

em que

𝜕2 log (𝑐𝑖(𝜃))𝜕𝛼𝜕𝛼⊤ = 4𝜂

𝑐𝑖(𝜃)

{− C𝑖 ×𝜓⊤

𝑖 + 𝐴2𝑖(𝛼)𝐴2𝑖(𝛼)⊤[𝐷(𝜉2𝑖(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃))

−𝐷2(𝜉2𝑖(𝜃; 𝜑)) + 𝜉2𝑖(𝜃; 𝜑)𝜉2𝑖(𝜃; 𝜑)⊤]

+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐵2𝑖(𝛼)}

,

𝜕2 log (𝑐𝑖(𝜃))𝜕𝛽𝜕𝛽⊤ = 4𝜂

𝑐𝑖(𝜃)

{− G𝑖 ×𝜓⊤

𝑖 + 𝐴2𝑖(𝛽)𝐴2𝑖(𝛽)⊤[𝐷(𝜉2𝑖(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃))

−𝐷2(𝜉2𝑖(𝜃; 𝜑)) + 𝜉2𝑖(𝜃; 𝜑)𝜉2𝑖(𝜃; 𝜑)⊤]

+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐵2𝑖(𝛽)}

,

𝜕2 log (𝑐𝑖(𝜃))𝜕𝛼𝜕𝛽⊤ = 4𝜂

𝑐𝑖(𝜃)

{− G𝑖 ×𝜓⊤

𝑖 + 𝐴2𝑖(𝛼)𝐴2𝑖(𝛽)⊤[𝐷(𝜉2𝑖(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃))

−𝐷2(𝜉2𝑖(𝜃; 𝜑)) + 𝜉2𝑖(𝜃; 𝜑)𝜉2𝑖(𝜃; 𝜑)⊤]

+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐶2𝑖(𝛼,𝛽)}

.

com

C𝑖 = 𝜕

𝜕𝛼log (𝑐𝑖(𝜃))

G𝑖 = 𝜕

𝜕𝛽log (𝑐𝑖(𝜃))

𝜓𝑖 =(

𝜑(𝜉2𝑖(𝜃1))[Φ(𝜉2𝑖(𝜃2)) − 12 ] 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1)

𝜑(𝜉2𝑖(𝜃2))[Φ(𝜉2𝑖(𝜃1)) − 12 ] 𝜕

𝜕𝛼2𝜉2𝑖(𝜃2)

)

=(

𝜑(𝜉2𝑖(𝜃1))[𝜅𝑖(𝜃2)] 𝜕𝜕𝛼1

𝜉2𝑖(𝜃1)𝜑(𝜉2𝑖(𝜃2))[𝜅𝑖(𝜃1)] 𝜕

𝜕𝛼2𝜉2𝑖(𝜃2)

).

𝜉2𝑖(𝜃; 𝜑′) =(

𝜑′(𝜉2𝑖(𝜃1))𝜑′(𝜉2𝑖(𝜃2))

).

Todos os detalhes para obter esses resultados podem ser encontrados no ApêndiceA.

(c) Processo Iterativo

A partir das equações de 𝑈(𝜃) e ��(𝜃) o processo iterativo de Newton Raphson éaplicado da forma usual

𝜃(𝑘) = 𝜃(𝑘−1) − [��(𝜃(𝑘−1))]−1𝑈(𝜃(𝑘−1)).

Repete-se o processo até a convergência, isto é, até que a distância entre duasestimativas sucessivas da log-verossimilhança, ℓ(𝜃), dita|ℓ(𝜃(𝑘+1)) − ℓ(𝜃(𝑘))| ou |ℓ(𝜃(𝑘+1))/ℓ(𝜃(𝑘)) − 1|, seja suficientemente pequena.

Para escolha dos valores iniciais aplica-se o método dos momentos para 𝛼 e 𝜂,conforme descrito no Teorema 4. Enquanto que para 𝛽 utilizamos o estimador demínimos quadrados.

Page 75: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

75

4.2.3 Estudo de SimulaçãoApresentamos aqui os resultados de um estudo de simulação a fim de avaliar a

performance dos EMV apresentados na subseção anterior. Os dados são gerados atravésdo pacote "Copula"disponível no CRAN-R, que permite simular dados provenientes deuma distribuição C-N2, nos quais aplicamos a relação descrita em (4.2.1).

O modelo utilizado na avaliação numérica é

𝑌1𝑖 = 𝛽01 + 𝛽11𝑥11𝑖 + 𝛽21𝑥12𝑖 + 𝜖1𝑖, (4.2.8)𝑌2𝑖 = 𝛽02 + 𝛽12𝑥12𝑖 + 𝛽22𝑥22𝑖 + 𝜖2𝑖, (4.2.9)

em que 𝜖𝑖 = (𝜖1𝑖, 𝜖2𝑖)⊤ ∼ C-SN2(𝛼, 0, 𝜂).Utilizando simulações de Monte Carlo, nossa proposta é avaliar o desempenho em

amostras finitas dos EMV dos parâmetros da log-CBS bivariada com base no métododescrito na subseção anterior. As covariáveis, x1 e x2, foram geradas a partir deamostras aleatórias da distribuição uniforme e os tamanhos de amostra consideradosforam: 𝑛 = 50, 100, 200, 500. O número de réplicas de Monte Carlo foi fixado em𝑀 = 2000.

Foram mantidos fixos os coeficientes de regressão e os valores de 𝛼, alternandoapenas os valores 𝜂. Os valores foram selecionados baseados em Vilca et al. (2016).

• 𝛼1 = 0.5, 𝛼2 = 1.5;

• 𝛽01 = 10, 𝛽11 = 3.5, 𝛽21 = −1;

• 𝛽02 = −14, 𝛽12 = 4, 𝛽22 = −0.5;

• Cenário 1: 𝜂 = 0.5; Cenário 2: 𝜂 = −0.5;

• Cenário 3: 𝜂 = 0.9; Cenário 4: 𝜂 = −0.9;

• Cenário 5: 𝜂 = 0;

Para cada tamanho de amostra e para cada estimativa, denotada por 𝜃𝑘, calculamosa média, representada por 𝐸[𝜃𝑘], o viés relativo (VR), denotado por 𝑉 𝑅 = (𝐸[𝜃𝑘] −𝜃𝑘)/𝜃𝑘 e a raiz quadrada do erro quadrático médio (EQM) definida como

√EQM𝑘 =

(𝐸(𝜃𝑘 − 𝜃𝑘)2)1/2, para 𝑘 = 1, ..., 5.Verificamos também um comparativo entre o desvio padrão das estimativas (SD),

definido por

𝑆𝐷𝑘 =

⎯⎸⎸⎷ 1𝑀 − 1

𝑀∑𝑖=1

(𝜃𝑘𝑖− 𝐸[𝜃𝑘])2,

e o desvio calculado via propriedades assintóticas do estimador (SE), isto é,

𝑆𝐸𝑘 = 1𝑀

𝑀∑𝑖=1

√I𝑘𝑘(𝑖),

Page 76: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

76

em que I𝑘𝑘(𝑖) representa o 𝑘-ésimo termo da diagonal de −��(𝜃)−1 na iteração 𝑖.Os resultados do estudo de simulação estão reportados nas Tabelas 4.1-4.10. Obser-

vamos que o 𝑉 𝑅 e o√

EQM diminuem quando o tamanho da amostra 𝑛 cresce, comojá esperado. Vale notar que no cenário 5 não temos valor para 𝑉 𝑅, visto que 𝜃𝑘 = 0.

Para cada um dos casos aplicamos os resíduos definidos em (3.2.7) e construímosgráficos de envelope, que podem ser verificados nas Figuras 4.6, 4.8 e 4.14.

Através das Figuras 4.15-4.19 podemos observar de que forma o tamanho da amos-tra interfere nas estimativas dos parâmetros. Vale notar que para estimação de 𝛽 otamanho da amostra não é muito significativo, isto é, a estimação é boa independentede 𝑛 ser grande ou pequeno. Entretanto, para 𝜂 isso não é verdade, a estimação sóé boa quando o tamanho amostral é suficientemente grande, especialmente se o valorfor muito próximo de um. Nas tabelas 4.2-4.10 á mesma conclusão pode ser verificada,visto que a diferença entre as medidas 𝑆𝐷 e 𝑆𝐸 parece ser significativa apenas para oparâmetro 𝜂, em casos de amostra pequena.

Tabela 4.1: Cenário 1: Estimativas dos parâmetros considerando 𝜂 = 0.5.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

n Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4824 -0.0353 0.0529 1.4247 -0.0502 0.1691 0.3001 -0.3998 0.3896100 0.4914 -0.0173 0.0357 1.4675 -0.0217 0.1127 0.4347 -0.1305 0.2675200 0.4963 -0.0074 0.0250 1.4872 -0.0085 0.0784 0.4853 -0.0293 0.2026500 0.4987 -0.0025 0.0163 1.4947 -0.0036 0.0492 0.5004 0.0007 0.1330

Estimativas de 𝛽01 Estimativas de 𝛽11 Estimativas de 𝛽21n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 10.0055 0.0006 0.1476 3.4974 -0.0007 0.0813 -0.9999 -0.0001 0.0435100 9.9976 -0.0002 0.0946 3.5004 0.0001 0.0582 -0.9994 < 10−4 0.0263200 10.0022 0.0002 0.0679 3.4980 -0.0006 0.0377 -0.9999 < 10−4 0.0204500 9.9991 -0.0001 0.0415 3.5006 0.0002 0.0249 -1.0003 < 10−4 0.0117

Estimativas de 𝛽02 Estimativas de 𝛽12 Estimativas de 𝛽22n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 -13.9998 0.0001 0.3193 4.0006 0.0002 0.1302 -0.5337 0.0675 0.2764100 -13.9958 -0.0003 0.2631 3.9974 -0.0007 0.1090 -0.5185 0.0371 0.1889200 -14.0017 0.0001 0.1622 3.9996 -0.0001 0.0720 -0.4992 -0.0015 0.1397500 -14.0018 0.0001 0.1010 4.0001 < 10−4 0.0434 -0.5014 0.0028 0.0898

Page 77: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

77

Tabela 4.2: Cenário 1: SD e SE dos parâmetros considerando 𝜂 = 0.5.𝛼1 𝛼2 𝜂

n SD SE SD SE SD SE50 0.0499 0.0482 0.1514 0.1461 0.3345 0.4160100 0.0347 0.0347 0.1080 0.1060 0.2595 0.2918200 0.0247 0.0247 0.0774 0.0753 0.2021 0.2044500 0.0163 0.0157 0.0489 0.0475 0.1330 0.1289

𝛽01 𝛽11 𝛽21n SD SE SD SE SD SE50 0.1476 0.1440 0.0813 0.0791 0.0436 0.0419100 0.0946 0.0931 0.0582 0.0575 0.0263 0.0262200 0.0679 0.0672 0.0377 0.0373 0.0204 0.0197500 0.0415 0.0415 0.0249 0.0249 0.0117 0.0121

𝛽02 𝛽12 𝛽22n SD SE SD SE SD SE50 0.3193 0.3035 0.1302 0.1229 0.2744 0.2784100 0.2632 0.2554 0.1089 0.1056 0.1880 0.1953200 0.1622 0.1572 0.0720 0.0702 0.1397 0.1395500 0.1010 0.1002 0.0434 0.0435 0.0898 0.0896

0.02

0.04

n

EQ

M−

α1

50 100 200 500

0.06

0.10

0.14

n

EQ

M−

α2

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β01

50 100 200 500

0.03

0.05

0.07

n

EQ

M−

β11

50 100 200 500

0.01

50.

030

n

EQ

M−

β21

50 100 200 500

0.10

0.20

0.30

n

EQ

M−

β02

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β12

50 100 200 500

0.10

0.20

n

EQ

M−

β22

50 100 200 500

0.15

0.25

0.35

n

EQ

M−

η

50 100 200 500

Figura 4.5: EQM para diferentes tamanhos de amostra e 𝜂 = 0.5

Page 78: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

78

(a)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 4.6: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = 0.5 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Tabela 4.3: Cenário 2: Estimativas dos parâmetros considerando 𝜂 = −0.5.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

n Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4810 -0.0380 0.0534 1.4357 -0.0429 0.1612 -0.3367 -0.3266 0.3768100 0.4912 -0.0175 0.0357 1.4714 -0.0191 0.1107 -0.4578 -0.0843 0.2677200 0.4960 -0.0080 0.0250 1.4884 -0.0078 0.0782 -0.4992 -0.0017 0.2044500 0.4986 -0.0027 0.0164 1.4947 -0.0035 0.0491 -0.5025 0.005 0.1317

Estimativas de 𝛽01 Estimativas de 𝛽11 Estimativas de 𝛽21n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 10.0036 0.0004 0.1411 3.4986 -0.0004 0.0781 -0.9989 -0.0011 0.0412100 9.9992 -0.0001 0.1149 3.5000 -0.0004 0.0634 -0.9996 -0.0004 0.0273200 9.9987 -0.0001 0.0711 3.5005 0.0001 0.0410 -1.0002 0.0002 0.0188500 9.9996 < 10−4 0.0445 3.5002 0.0001 0.0261 -1.0000 < 10−4 0.0123

Estimativas de 𝛽02 Estimativas de 𝛽12 Estimativas de 𝛽22n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 -14.0021 0.0002 0.3161 3.9979 -0.0005 0.1254 -0.5298 0.0596 0.3064100 -14.0009 0.0001 0.2515 3.9998 -0.0001 0.1033 -0.5159 0.0319 0.1859200 -13.9991 -0.0001 0.1568 3.9988 -0.0003 0.0682 -0.5028 0.0057 0.1492500 -14.0008 0.0001 0.1087 3.9997 -0.0001 0.0465 -0.4976 -0.0048 0.0912

Page 79: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

79

Tabela 4.4: Cenário 2: SD e SE dos parâmetros considerando 𝜂 = −0.5.𝛼1 𝛼2 𝜂

n SD SE SD SE SD SE50 0.0500 0.0481 0.1478 0.1475 0.3396 0.4157100 0.0347 0.0347 0.1070 0.1063 0.2644 0.2889200 0.0247 0.0247 0.0773 0.0756 0.2044 0.2028500 0.0163 0.0157 0.0488 0.0475 0.1317 0.1283

𝛽01 𝛽11 𝛽21n SD SE SD SE SD SE50 0.1411 0.1358 0.0781 0.0756 0.0412 0.0391100 0.1149 0.1090 0.0634 0.0607 0.0273 0.0256200 0.0711 0.0717 0.0410 0.0402 0.0188 0.0185500 0.0445 0.0435 0.0261 0.0254 0.0123 0.0124

𝛽02 𝛽12 𝛽22n SD SE SD SE SD SE50 0.3161 0.3109 0.1254 0.1219 0.3050 0.3045100 0.2516 0.2474 0.1033 0.1004 0.1853 0.193200 0.1569 0.1564 0.0682 0.0685 0.1492 0.1506500 0.1087 0.1068 0.0465 0.0456 0.0912 0.0911

0.02

0.04

n

EQ

M−

α1

50 100 200 500

0.06

0.10

0.14

n

EQ

M−

α2

50 100 200 500

0.06

0.10

0.14

n

EQ

M−

β01

50 100 200 500

0.03

0.05

0.07

n

EQ

M−

β11

50 100 200 500

0.01

50.

030

n

EQ

M−

β21

50 100 200 500

0.15

0.25

n

EQ

M−

β02

50 100 200 500

0.06

0.10

n

EQ

M−

β12

50 100 200 500

0.10

0.20

0.30

n

EQ

M−

β22

50 100 200 500

0.15

0.25

0.35

n

EQ

M−

η

50 100 200 500

Figura 4.7: EQM para diferentes tamanhos de amostra e 𝜂 = −0.5

Page 80: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

80

(a)−2 −1 0 1 2

−1

01

23

4

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 4.8: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = −0.5 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Tabela 4.5: Cenário 3: Estimativas dos parâmetros considerando 𝜂 = 0.9.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

n Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4750 -0.0499 0.0557 1.4101 -0.0599 0.1786 0.5223 -0.4196 0.4628100 0.4874 -0.0251 0.0376 1.4572 -0.0286 0.1173 0.6863 -0.2374 0.2808200 0.4941 -0.0119 0.0253 1.4805 -0.0130 0.0781 0.7795 -0.1339 0.1767500 0.4976 -0.0048 0.0161 1.4919 -0.0054 0.0498 0.8525 -0.0528 0.0971

Estimativas de 𝛽01 Estimativas de 𝛽11 Estimativas de 𝛽21n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 10.0026 0.0003 0.1235 3.5010 0.0003 0.0710 -0.9987 -0.0013 0.0404100 9.9971 -0.0003 0.0992 3.5004 0.0001 0.0539 -0.9998 -0.0002 0.0298200 9.9984 -0.0002 0.0687 3.5004 0.0001 0.0386 -0.9996 -0.0004 0.0183500 9.9987 -0.0001 0.0399 3.5004 0.0001 0.0235 -1.0000 < 10−4 0.0117

Estimativas de 𝛽02 Estimativas de 𝛽12 Estimativas de 𝛽22n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 -14.0115 0.0008 0.3109 4.0075 0.0019 0.1432 -0.5406 0.0812 0.3036100 -14.0025 0.0002 0.1991 4.0016 0.0004 0.0929 -0.5169 0.0338 0.195200 -14.0058 0.0004 0.1603 4.0015 0.0004 0.0679 -0.5043 0.0086 0.1484500 -14.0026 0.0002 0.0999 4.0002 0.0001 0.0422 -0.5007 0.0013 0.0847

Page 81: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

81

Tabela 4.6: Cenário 3: SD e SE dos parâmetros considerando 𝜂 = 0.9.𝛼1 𝛼2 𝜂

n SD SE SD SE SD SE50 0.0498 0.0474 0.1543 0.1447 0.2676 0.4137100 0.0355 0.0343 0.1093 0.1049 0.1822 0.2834200 0.0246 0.0246 0.0756 0.0749 0.1292 0.194500 0.0159 0.0156 0.0492 0.0471 0.0847 0.1178

𝛽01 𝛽11 𝛽21n SD SE SD SE SD SE50 0.1235 0.1208 0.0710 0.0693 0.0404 0.0384100 0.0992 0.1005 0.0539 0.0555 0.0298 0.0291200 0.0687 0.0692 0.0387 0.0381 0.0183 0.0181500 0.0399 0.0402 0.0235 0.0234 0.0117 0.0117

𝛽02 𝛽12 𝛽22n SD SE SD SE SD SE50 0.3108 0.3014 0.1430 0.1399 0.3010 0.3192100 0.1991 0.1972 0.0929 0.0932 0.1943 0.2031200 0.1602 0.1632 0.0679 0.0694 0.1483 0.1500500 0.0999 0.1023 0.0423 0.0431 0.0847 0.0859

0.02

0.04

n

EQ

M−

α1

50 100 200 500

0.06

0.10

0.14

0.18

n

EQ

M−

α2

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β01

50 100 200 500

0.03

0.05

0.07

n

EQ

M−

β11

50 100 200 500

0.01

50.

030

n

EQ

M−

β21

50 100 200 500

0.10

0.20

0.30

n

EQ

M−

β02

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β12

50 100 200 500

0.10

0.20

0.30

n

EQ

M−

β22

50 100 200 500

0.1

0.2

0.3

0.4

n

EQ

M−

η

50 100 200 500

Figura 4.9: EQM para diferentes tamanhos de amostra e 𝜂 = 0.9

Page 82: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

82

(a)−2 −1 0 1 2

−1

01

23

45

6

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 4.10: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = 0.9 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Tabela 4.7: Cenário 4: Estimativas dos parâmetros considerando 𝜂 = −0.9.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

n Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4772 -0.0456 0.0552 1.4172 -0.0552 0.1711 -0.5392 -0.4009 0.4547100 0.4880 -0.0240 0.0372 1.4590 -0.0273 0.1129 -0.7070 -0.2144 0.2661200 0.4942 -0.0117 0.0259 1.4801 -0.0132 0.0784 -0.7888 -0.1236 0.1749500 0.4978 -0.0045 0.0161 1.4926 -0.0049 0.0501 -0.8524 -0.0529 0.0990

Estimativas de 𝛽01 Estimativas de 𝛽11 Estimativas de 𝛽21n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 9.9988 -0.0001 0.1454 3.5020 0.0006 0.0794 -1.0013 0.0013 0.0417100 10.0001 -0.0001 0.1010 3.4987 -0.0004 0.0554 -1.0007 0.0007 0.0294200 9.9958 -0.0004 0.0696 3.5019 0.0005 0.0389 -0.9999 -0.0001 0.0180500 9.9994 -0.0001 0.0395 3.5003 0.0001 0.0234 -0.9998 -0.0002 0.0117

Estimativas de 𝛽02 Estimativas de 𝛽12 Estimativas de 𝛽22n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 -14.0131 0.0009 0.3168 4.0015 0.0004 0.1266 -0.5392 0.0785 0.2666100 -13.9979 -0.0002 0.1932 3.9971 -0.0007 0.0907 -0.5154 0.0309 0.1959200 -13.9966 -0.0002 0.1605 3.9990 -0.0002 0.0692 -0.5076 0.0152 0.1440500 -14.0007 0.0001 0.1025 4.0001 < 10−4 0.0426 -0.5008 0.0016 0.0858

Page 83: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

83

Tabela 4.8: Cenário 4: SD e SE dos parâmetros considerando 𝜂 = −0.9.𝛼1 𝛼2 𝜂

n SD SE SD SE SD SE50 0.0502 0.0476 0.1498 0.1450 0.2768 0.4100100 0.0352 0.0344 0.1053 0.1050 0.1832 0.2800200 0.0253 0.0245 0.0759 0.0749 0.1351 0.1904500 0.0159 0.0156 0.0496 0.0471 0.0868 0.1156

𝛽01 𝛽11 𝛽21n SD SE SD SE SD SE50 0.1455 0.1415 0.0794 0.0777 0.0417 0.0411100 0.1011 0.1002 0.0554 0.0554 0.0294 0.0291200 0.0695 0.0690 0.0389 0.0381 0.0180 0.0181500 0.0395 0.0401 0.0234 0.0234 0.0117 0.0117

𝛽02 𝛽12 𝛽22n SD SE SD SE SD SE50 0.3166 0.3002 0.1266 0.1214 0.2638 0.2759100 0.1933 0.1967 0.0907 0.0929 0.1953 0.2031200 0.1605 0.1626 0.0692 0.0693 0.1439 0.1497500 0.1025 0.1019 0.0426 0.0431 0.0858 0.0859

0.02

0.04

n

EQ

M−

α1

50 100 200 500

0.06

0.10

0.14

n

EQ

M−

α2

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β01

50 100 200 500

0.03

0.05

0.07

n

EQ

M−

β11

50 100 200 500

0.01

50.

030

n

EQ

M−

β21

50 100 200 500

0.10

0.20

0.30

n

EQ

M−

β02

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β12

50 100 200 500

0.10

0.20

n

EQ

M−

β22

50 100 200 500

0.10

0.25

0.40

n

EQ

M−

η

50 100 200 500

Figura 4.11: EQM para diferentes tamanhos de amostra e 𝜂 = −0.9

Page 84: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

84

(a)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8

Percentis da N(0,1)

Pea

rson

Res

idua

lsFigura 4.12: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = −0.9 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Tabela 4.9: Cenário 5: Estimativas dos parâmetros considerando 𝜂 = 0.Estimativas de 𝛼1 Estimativas de 𝛼2 Estimativas de 𝜂

n Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀 Média Viés rel.√

𝐸𝑄𝑀50 0.4823 -0.0355 0.0521 1.4380 -0.0413 0.1626 -0.0183 NaN 0.3796100 0.4917 -0.0165 0.0355 1.4715 -0.0190 0.1117 -0.0184 NaN 0.3087200 0.4959 -0.0081 0.0251 1.4880 -0.0080 0.0781 -0.0049 NaN 0.2208500 0.4987 -0.0026 0.0164 1.4946 -0.0036 0.0492 -0.0015 NaN 0.1380

Estimativas de 𝛽01 Estimativas de 𝛽11 Estimativas de 𝛽21n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 9.9983 -0.0002 0.1195 3.5003 0.0001 0.0692 -0.9987 -0.0013 0.0458100 9.9979 -0.0002 0.1152 3.5010 0.0003 0.0641 -0.9993 -0.0007 0.0277200 9.9975 -0.0003 0.0683 3.5012 0.0003 0.0418 -0.9995 -0.0005 0.0201500 9.9990 -0.0001 0.0419 3.5007 0.0002 0.0252 -1.0003 0.0003 0.0118

Estimativas de 𝛽02 Estimativas de 𝛽12 Estimativas de 𝛽22n Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀 Média Viés rel.

√𝐸𝑄𝑀

50 -14.0063 0.0005 0.3281 4.0015 0.0004 0.1380 -0.5380 0.0760 0.2838100 -14.0022 0.0002 0.2571 4.0002 0.0001 0.1047 -0.5149 0.0298 0.1886200 -14.0013 0.0001 0.1621 3.9998 < 10−4 0.0724 -0.5045 0.0091 0.1384500 -14.0017 0.0001 0.1021 4.0001 < 10−4 0.0439 -0.5011 0.0023 0.0909

Page 85: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

85

Tabela 4.10: Cenário 5: SD e SE dos parâmetros considerando 𝜂 = 0.𝛼1 𝛼2 𝜂

n SD SE SD SE SD SE50 0.0490 0.0482 0.1504 0.1476 0.3792 0.4190100 0.0345 0.0348 0.1081 0.1066 0.3082 0.2973200 0.0248 0.0248 0.0772 0.0756 0.2208 0.2110500 0.0163 0.0158 0.0489 0.0476 0.1380 0.1339

𝛽01 𝛽11 𝛽21n SD SE SD SE SD SE50 0.1195 0.1207 0.0692 0.0679 0.0458 0.0431100 0.1152 0.1100 0.0641 0.0614 0.0277 0.0259200 0.0683 0.0667 0.0418 0.0401 0.0201 0.0199500 0.0419 0.0419 0.0252 0.0252 0.0118 0.0123

𝛽02 𝛽12 𝛽22n SD SE SD SE SD SE50 0.3281 0.3256 0.1380 0.1358 0.2813 0.2918100 0.2572 0.2488 0.1047 0.1013 0.1880 0.1947200 0.1621 0.1591 0.0725 0.0717 0.1384 0.1421500 0.1021 0.1009 0.0439 0.0439 0.0909 0.0906

0.01

50.

030

0.04

5

n

EQ

M−

α1

50 100 200 500

0.06

0.10

0.14

n

EQ

M−

α2

50 100 200 500

0.04

0.08

0.12

n

EQ

M−

β01

50 100 200 500

0.03

0.05

0.07

n

EQ

M−

β11

50 100 200 500

0.01

50.

030

0.04

5

n

EQ

M−

β21

50 100 200 500

0.10

0.20

0.30

n

EQ

M−

β02

50 100 200 500

0.06

0.10

0.14

n

EQ

M−

β12

50 100 200 500

0.10

0.20

n

EQ

M−

β22

50 100 200 500

0.15

0.25

0.35

n

EQ

M−

η

50 100 200 500

Figura 4.13: EQM para diferentes tamanhos de amostra e 𝜂 = 0

Page 86: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

86

(a)−2 −1 0 1 2

−1

01

23

45

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(b)−2 −1 0 1 2

−1

01

23

45

6

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(c)−3 −2 −1 0 1 2 3

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

(d)−3 −2 −1 0 1 2 3

02

46

8Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 4.14: Gráfico tipo envelope indicando adequabilidade do modelo. 𝜂 = 0 ediferentes tamanhos de amostra (a) 𝑛 = 50, (b) 𝑛 = 100, (c) 𝑛 = 200 e (d) 𝑛 = 500 .

Page 87: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

87

0.3

0.4

0.5

0.6

0.7

n

α1

50 100 200 500

1.0

1.4

1.8

n

α2

50 100 200 500

68

1012

14

n

β01

50 100 200 500

2.0

3.0

4.0

5.0

n

β11

50 100 200 500

−1.

4−

1.0

−0.

6

n

β21

50 100 200 500

−20

−16

−12

−8

n

β02

50 100 200 500

2.5

3.5

4.5

5.5

n

β12

50 100 200 500

−0.

7−

0.5

−0.

3

n

β22

50 100 200 500

0.3

0.4

0.5

0.6

0.7

n

η

50 100 200 500

Figura 4.15: 𝜃 para diferentes tamanhos de amostra e 𝜂 = 0.5

0.3

0.4

0.5

0.6

0.7

n

α1

50 100 200 500

1.0

1.4

1.8

n

α2

50 100 200 500

68

1012

14

n

β01

50 100 200 500

2.0

3.0

4.0

5.0

n

β11

50 100 200 500

−1.

4−

1.0

−0.

6

n

β21

50 100 200 500

−20

−16

−12

−8

n

β02

50 100 200 500

2.5

3.5

4.5

5.5

n

β12

50 100 200 500

−0.

7−

0.5

−0.

3

n

β22

50 100 200 500

−0.

7−

0.5

−0.

3

n

η

50 100 200 500

Figura 4.16: 𝜃 para diferentes tamanhos de amostra e 𝜂 = −0.5

Page 88: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

88

0.3

0.4

0.5

0.6

0.7

n

α1

50 100 200 500

1.0

1.4

1.8

n

α2

50 100 200 500

68

1012

14

n

β01

50 100 200 500

2.0

3.0

4.0

5.0

n

β11

50 100 200 500

−1.

4−

1.0

−0.

6

n

β21

50 100 200 500

−20

−16

−12

−8

n

β02

50 100 200 500

2.5

3.5

4.5

5.5

n

β12

50 100 200 500

−0.

7−

0.5

−0.

3

n

β22

50 100 200 500

0.6

0.8

1.0

1.2

n

η

50 100 200 500

Figura 4.17: 𝜃 para diferentes tamanhos de amostra e 𝜂 = 0.9

0.3

0.4

0.5

0.6

0.7

n

α1

50 100 200 500

1.0

1.4

1.8

n

α2

50 100 200 500

68

1012

14

n

β01

50 100 200 500

2.0

3.0

4.0

5.0

n

β11

50 100 200 500

−1.

4−

1.0

−0.

6

n

β21

50 100 200 500

−20

−16

−12

−8

n

β02

50 100 200 500

2.5

3.5

4.5

5.5

n

β12

50 100 200 500

−0.

7−

0.5

−0.

3

n

β22

50 100 200 500

−1.

2−

0.9

−0.

6

n

η

50 100 200 500

Figura 4.18: 𝜃 para diferentes tamanhos de amostra e 𝜂 = −0.9

Page 89: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

89

0.3

0.4

0.5

0.6

0.7

n

α1

50 100 200 500

1.0

1.4

1.8

n

α2

50 100 200 500

68

1012

14

n

β01

50 100 200 500

2.0

3.0

4.0

5.0

n

β11

50 100 200 500

−1.

4−

1.0

−0.

6

n

β21

50 100 200 500

−20

−16

−12

−8

n

β02

50 100 200 500

2.5

3.5

4.5

5.5

n

β12

50 100 200 500

−0.

7−

0.5

−0.

3

n

β22

50 100 200 500

−1.

00.

00.

51.

0

n

η

50 100 200 500

Figura 4.19: 𝜃 para diferentes tamanhos de amostra e 𝜂 = 0

4.2.4 Análise de dados reaisNesta Seção, apresentamos a análise de um conjunto de dados reais, a fim de ilustrar

a abordagem proposta. Consideramos o bem conhecido conjunto de dados Íris, dispo-nível no software R sob esse mesmo nome, introduzido por Fisher (1936) que a partirde uma perspetiva multivariada trabalhou com a aplicação de análise de discriminantelinear. É também conhecido como conjunto de dados “Anderson’s Iris”, pois foi EdgarAnderson quem coletou os dados para medir a variação morfológica das três espéciesde flores; veja Anderson (1936).

O conjunto de dados é composto por 5 variáveis:

• Comprimento da Sépala em cm;

• Largura da Sépala em cm;

• Comprimento da Pétala em cm;

• Largura da Pétala em cm;

• Espécie: Setosa, Versicolor ou Virginica

Para ilustração dessas variáveis, veja as Figuras 4.20 e 4.21.

Page 90: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

90

Figura 4.20: Dados Íris: Pétala e Sépala

Figura 4.21: Dados Íris: Espécies

Com base no modelo de discriminante linear proposto por Fisher (1936), este con-junto de dados se tornou referência para muitas técnicas de classificação, principalmenteconcernentes a mineração de dados; veja Loh (1997), Dy (2004) e Tung (2005). Outrosestudos adotam a distribuição normal multivariada, considerando quebra por espécie,isto é, um modelo para cada espécie; veja Korkmaz (2014). Em nossa abordagem va-mos seguir esse mesmo raciocínio, a partir da divisão de espécies já existente, ajustarum modelo bivariado como ferramenta de classificação.

Na Figura 4.22, plotamos o gráfico de dispersão para as quatro variáveis contínuas,por enquanto sem quebra de espécie, de forma a investigar a associação entre elas.

As medidas de correlação de Pearson foram avaliadas e podem ser conferidas naTabela 4.11.

Page 91: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

91

Sepala.Compr.

2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5

4.5

5.5

6.5

7.5

2.0

2.5

3.0

3.5

4.0

Sepala.Largura

Petala.Compr.

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.0

1.5

2.0

2.5

1 2 3 4 5 6 7

Petala.Largura

Figura 4.22: Diagrama de dispersão: Dados Íris

Tabela 4.11: Correlação de Pearson: Conjunto de dados Íris.Sépala.Compr. Sépala.Largura Pétala.Compr. Pétala.Largura

Sépala.Compr. 1 -0.117 0.871 0.818Sépala.Largura -0.117 1 -0.428 -0.366Pétala.Compr. 0.871 -0.428 1 0.962Pétala.Largura 0.818 -0.366 0.962 1

Como foi discutido no Capítulo 2, a cópula FGM é adequada para baixas correlações,portanto iremos proceder com as duas variáveis que apresentaram menor correlação,isto é, 𝑣1 = Comprimento da Sépala e 𝑣2 = Largura da Sépala.

Note que, para utilizar uma distribuição usual, como a normal bivariada, é necessárioque 𝜌 = 0. Testaremos então

𝑡* = 𝑟√

𝑛 − 2√1 − 𝑟2

∼ 𝑡𝑛−2,

em que 𝑟 = 𝑐𝑜𝑟𝑟(𝑣1, 𝑣2). O 𝑝 − 𝑣𝑎𝑙𝑜𝑟 resultante é de 0.15, indicando que não devemos

Page 92: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

92

rejeitar a hipótese nula de que 𝜌 = 0, ou seja, temos evidências para acreditar que,sob suposição de normalidade bivariada, as variáveis são independentes, e por isso oajuste bivariado não faz sentido. Assim, o ajuste considerando a estrutura de cópulaserá considerado.

O gráfico de dispersão para as duas variáveis escolhidas pode ser observado na Figura4.23, considerando distinção para cada espécie.

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.0

2.5

3.0

3.5

4.0

Comprimento Sepala

Larg

ura

Sep

ala

setosa versicolor virginica

Figura 4.23: Gráfico de dispersão: Comprimento da Sépala x Largura da Sépala

A partir da análise gráfica, é razoável pressupor que, para as duas variáveis escolhidas,a espécie Setosa tem um comportamento distinto das demais. Diante disso, vamosestabelecer o seguinte objetivo: aplicar o modelo C-SN bivariado como uma ferramentapara classificação das outras duas espécies, isto é, estudar se existe diferença entre asespécies versicolor e virginica.

Vamos tomar então

• Y1=Comprimento da Sépala | Espécie = "setosa";

• Y2=Largura da Sépala | Espécie = "setosa";

A disposição das variáveis 𝑌 1 e 𝑌 2 pode ser verificada na Figura 4.24, e o comporta-mento marginal pode ser verificado na Figura 4.25.

Page 93: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

93

5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.0

2.5

3.0

3.5

x

y

Comprimento

Larg

ura

Figura 4.24: Disposição das variáveis: Comprimento da Sépala x Largura da Sépala

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Y1

2.0

2.5

3.0

3.5

Y2

11

60

68,82

Figura 4.25: Boxplot das variáveis: 𝑌1 e 𝑌2

Page 94: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

94

Visto que nosso principal interesse está em identificar se existe diferença entre asespécies Versicolor e Virginica, vamos definir a seguinte variável dummy,

𝑑1𝑖 =⎧⎨⎩1, 𝑠𝑒 Espécie=Versicolor

0, 𝑐.𝑐.

Temos ainda duas variáveis, comprimento e largura da pétala, que podem ser utili-zadas como covariáveis para esse modelo. Como foi visto na Tabela 4.11, a correlaçãoentre elas é muito alta (0.962), o que pode ocasionar problemas de multicolinearidade.Por isso, optamos por trabalhar com apenas uma delas, 𝑋1 = Comprimento da Pétala.

Dessa forma, o modelo a ser considerado é

𝑦1𝑖 = 𝛽01 + 𝛽11x1𝑖 + 𝛽21𝑑1𝑖 + 𝜖1𝑖,

𝑦2𝑖 = 𝛽02 + 𝛽12x1𝑖 + 𝛽22𝑑1𝑖 + 𝜖2𝑖.

A partir deste modelo nosso principal interesse é analisar a significância dos parâme-tros 𝛽21 e 𝛽22, os quais indicam acréscimo no intercepto do modelo conforme a espécie.Note que testar 𝛽2𝑗 = 0 é o mesmo que testar

𝐷𝑗 = (𝛽0𝑗 + 𝛽1𝑗x1 + 𝛽2𝑗d1) − (𝛽0𝑗 + 𝛽1𝑗x1) = 0, 𝑗 = 1, 2.

Ajuste do modelo

Visando obter valores iniciais para o algoritmo de Newton-Raphson, foi aplicadométodo dos momentos, discutido em 4.2.1.

• 𝛼*1 = 0.332; 𝛼*

2 = 0.280

• 𝛽*01 = 1.450; 𝛽*

11 = 0.925; 𝛽*21 = 0.543

• 𝛽*02 = 1.346; 𝛽*

12 = 0.293; 𝛽*22 = 0.174

• 𝜂* = 0.611

Tomando então 𝜃0 = (𝛼*1, 𝛼*

2, 𝛽*1 , 𝛽*

2 , 𝜂*) como valor inicial, aplicamos o método deNewton-Raphson descrito na Seção 4.2.2. Assim, as estimativas obtidas foram:

• 𝛼1 = 0.333; 𝛼2 = 0.279

• 𝛽01 = 1.439; 𝛽11 = 0.926; 𝛽21 = 0.551

• 𝛽02 = 1.338; 𝛽12 = 0.294; 𝛽22 = 0.181

• 𝜂 = 0.727

Page 95: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

95

Interessante notar que as estimativas obtidas via método dos momentos são muitopróximas das EMV.

Uma vez que a matriz de Informação de Fisher observada foi calculada, 𝐼𝐹 (𝜃), épossível também obter distribuições assintóticas para os parâmetros. Assim, vamos teras seguintes aproximações

√𝑛( 𝛼−𝛼) ≈ 𝑁2(0, 𝐼𝐹 (𝜃)[𝛼,𝛼]),√𝑛(𝛽 − 𝛽) ≈ 𝑁2(0, 𝐼𝐹 (𝜃)[𝛽,𝛽])),√𝑛(𝜂 − 𝜂) ≈ 𝑁(0, 𝐼𝐹 (𝜃)[𝜂,𝜂])),

para 𝑛 suficientemente grande.Testes de hipótese e intervalos de confiança pode então ser construídos tomando

como base as Estatística da Razão de Verossimilhança, Escore e Wald. A partir desseresultado, testamos a significância de cada um dos parâmetros do modelo, isto é,

𝛽𝑘𝑗 = 0 vs 𝛽𝑘𝑗 = 0,

com 𝑘 = 0, 1, 2 e 𝑗 = 1, 2. Foram considerados o Teste de Wald e Teste da Razãode Verossimilhança (TRV), o P-valor resultante pode ser verificado na Tabela 4.12 aseguir.

Tabela 4.12: P-valor dos testes de significância para os parâmetros do modelo.Teste de Wald TRV

𝛽01 < 0.001 < 0.001𝛽11 < 0.001 < 0.001𝛽21 < 0.001 < 0.001𝛽02 < 0.001 < 0.001𝛽12 < 0.001 < 0.001𝛽22 0.03 < 0.001

Temos então que todos os parâmetros são significativos. Portanto, o modelo resul-tante é da seguinte forma:

𝑦1𝑖 =⎧⎨⎩1.439 + 0.926 × 𝑥1𝑖 + 0.551, se Espécie=Versicolor,

1.439 + 0.926 × 𝑥1𝑖, se Espécie=Virginica,

𝑦2𝑖 =⎧⎨⎩1.338 + 0.294 × 𝑥1𝑖 + 0.181, se Espécie=Versicolor,

1.338 + 0.294 × 𝑥1𝑖, se Espécie=Virginica.

Nas Figuras 4.26 e 4.27 vemos que as retas parecem se ajustar bem aos dados.Se compararmos o ajuste em Y1 e Y2 podemos ver que foi superior para a primeiracomponente. Uma possível razão para isso é o baixo poder do teste verificado em 𝛽22.

Page 96: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

96

3 4 5 6 7

5.0

5.5

6.0

6.5

7.0

7.5

8.0

x1

y1

versicolor virginica

Figura 4.26: Dispersão: 𝑦1 vs 𝑥1 e reta ajustada

3 4 5 6 7

2.0

2.5

3.0

3.5

x1

y2

versicolor virginica

Figura 4.27: Dispersão: 𝑦2 vs 𝑥1 e reta ajustada

Page 97: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

97

Vamos agora verificar a qualidade do ajuste.

Qualidade do Ajuste

Um primeiro passo para checar a adequabilidade do modelo é verificar se realmenteexiste uma associação entre os dados, isto é, 𝜂 = 0. Para isso foram consideradostrês testes assintóticos: Teste de Wald, Teste da Razão de Verossimilhança e Teste deEscore.

Tabela 4.13: Testes assintóticos para 𝜂 = 0.P-valor

Teste de Wald 0.019TRV 0.021Teste de Escore 0.020

Os três testes nos levam à mesma conclusão de que devemos rejeitar a hipótesenula de que 𝜂 = 0. Portanto, temos evidências estatísticas para afirmar que existeassociação entre as variáveis e o ajuste utilizando a cópula FGM faz sentido.

Supondo que o ajuste foi bem executado espera-se também que 𝑍𝑗 ∼ 𝑁(0, 1), emque

𝑍𝑗 = 2𝛼𝑗

sinh(

𝑌𝑗 − 𝜇𝑗

2

), 𝑗 = 1, 2.

Essa suposição pode ser verificada nos envelopes a seguir

(a)

−2 −1 0 1 2

−3

−2

−1

01

23

Quantis Teóricos da Normal

Val

ores

Am

ostr

ais

e E

nvel

ope

Sim

ulad

o

−2 −1 0 1 2

−3

−2

−1

01

23

−2 −1 0 1 2

−3

−2

−1

01

23

−2 −1 0 1 2

−3

−2

−1

01

23

(b)

−2 −1 0 1 2

−3

−2

−1

01

23

Quantis Teóricos da Normal

Val

ores

Am

ostr

ais

e E

nvel

ope

Sim

ulad

o

−2 −1 0 1 2

−3

−2

−1

01

23

−2 −1 0 1 2

−3

−2

−1

01

23

−2 −1 0 1 2

−3

−2

−1

01

23

Figura 4.28: Gráfico tipo Envelope indicando normalidades das duas variáveis: (a) 𝑍1e (b) 𝑍2

Page 98: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

98

Após ajuste do modelo verificamos 𝑐𝑜𝑟𝑟(𝜉21, 𝜉22) = 0.194.Tomando agora 𝑒𝑖𝑗 = 𝑦𝑖𝑗 − 𝑦𝑖𝑗, 𝑗 = 1, 2, vamos plotar 𝑒𝑖1 e 𝑒𝑖2.

(a)

−0.

50.

00.

5

e1

(b)

−0.

8−

0.6

−0.

4−

0.2

0.0

0.2

0.4

0.6

e2

69

Figura 4.29: Boxplots: (a) 𝑒𝑖1 e (b) 𝑒𝑖2

−0.5 0.0 0.5

−0.

8−

0.6

−0.

4−

0.2

0.0

0.2

0.4

0.6

e1

e 2

Figura 4.30: Gráfico de dispersão: 𝑒𝑖1 vs 𝑒𝑖2

Page 99: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

99

Por fim, devemos verificar o resíduo definido em (3.2.7), Figura 4.31.

−2 −1 0 1 2

02

46

Percentis da N(0,1)

Pea

rson

Res

idua

ls

Figura 4.31: Gráfico tipo Envelope para os Resíduos de Pearson

Conclusões

Diante dos resultados obtidos, podemos afirmar que o ajuste se mostrou adequado,isto é, a distribuição bivariada proposta nesse capítulo foi capaz de modelar a de-pendência que existe entre as respostas, preservando as propriedades individuais dosmodelos. Como mencionado anteriormente, oferece uma alternativa para ajuste des-sas variáveis conjuntamente, algo que não seria possível considerando as distribuiçõesusuais.

Retomando aqui nosso objetivo principal, identificar se a quebra de espécie é umaclassificação adequada para as variáveis largura e comprimento da sépala, temos queos parâmetros relativos à variável indicadora de espécie, 𝛽21 e 𝛽22, foram significativospara o modelo. Podemos então dizer que para as duas variáveis em estudo, 𝑦1 e 𝑦2,existe diferença de espécie. Ou seja, mesmo que graficamente os grupos virginica eversicolor sejam muito parecidos, existe diferença entre eles.

A utilização de uma variável dummy evidencia a inclinação da reta ajustada, con-forme presença ou não da indicadora. Isto é, se a espécie da flor é versicolor a inclinaçãoserá dado por 𝛽0𝑗 + 𝛽2𝑗, enquanto que para espécie virginica a inclinação da reta ajus-tada é dado apenas por 𝛽0𝑗, com 𝑗 = 1, 2.

Em suma, a estrutura da cópula FGM do modelo apresentado neste capítulo semostrou uma alternativa eficaz de ajuste bivariado em um caso de baixa correlação,ao passo que métodos usuais indicariam independência. Uma vez ajustada a regressão,inferências sobre os parâmetros e as variáveis aleatórias puderam ser obtidas, dentreelas destacamos a classificação conforme espécie.

Page 100: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

100

Capítulo 5

Análise de Diagnóstico

Em modelagem estatística é importante que as estimativas obtidas não sejam facil-mente influenciadas por pequenos desvios nas observações, ou seja, quando se ajustaum modelo de dados deseja-se que ele seja robusto. Para identificação e avaliação depontos aberrantes o uso de técnicas de análise de diagnóstico tem crescido constante-mente nos últimos anos.

Análise de diagnóstico consistem de métodos para mensurar o grau de sensibilidadedas inferências obtidas quando sujeitas às pequenas perturbações nos dados ou mesmono modelo proposto. Essa técnica foi introduzida por Cook (1977) em modelos deregressão linear e posteriormente adaptada para diversas classes de modelos.

Vale destacar algumas referências que têm estudado essa metodologia:

• Belsley et al. (1980), Cook e Weisberg (1982), Atkinson(1985) e Chatterjee eHadi (1988) consideraram o modelo de regressão linear;

• Belsley et al. (1980) e Paula (2004) propõem métodos de diagnóstico baseadosem esquemas de perturbação por ponderação de casos, em modelos de regressãonormal linear;

• Moolgavkar et al. (1984) aplicaram essa metodologia em diferentes modelos deregressão;

• Paula e Peres (1988) apresentaram uma discussão sobre a detecção de observaçõesem modelos lineares generalizados com parâmetros restritos;

• Davison e Tsai (1992) e Cordeiro e Paula (1992) desenvolveram uma extensãopara modelos onde a distribuição não pertence à família exponencial;

• Barriga et al. (2010) utilizaram essa metodologia em um modelo de sobrevivênciabivariado baseado na cópula FGM.

A abordagem mais comum é a exclusão de casos, a qual investiga o efeito da 𝑖-ésimaobservação na estimação dos parâmetros do modelo. Contudo, a proposta mais ino-vadora na área foi apresentada por Cook (1986), consistindo em um método bastante

Page 101: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

101

geral, o qual permite avaliar a influência conjunta das observações sob pequenas mudan-ças (perturbações) que são introduzidas no modelo, ao invés da avaliação pela retiradaindividual ou conjunta de observações. Essa metodologia, denominada influência lo-cal, teve grande aceitação entre os pesquisadores e usuários de modelos de regressão.A metodologia de Cook (1986) utiliza a medida de afastamento pela verossimilhançacomo função objetivo.

Considerando o modelo de regressão BS univariado, Galea et al. (2004) e Xie eWei (2007) realizaram estudos de análise de diagnóstico. Em Galea et al. (2004), ametodologia de Cook (1986) é adotada, enquanto que em Xie e Wei (2007) um modelode medidas de diagnóstico é proposto para avaliar o efeito da exclusão de observações,baseando-se na distância de Cook generalizada e afastamento pela verossimilhança, asquais iremos definir posteriormente. Além disso, Xie e Wei (2007) realizaram um testede outlier (MSOM - mean-shift outlier model).

Inspirando-se nos modelos de Cook (1977), Cook (1986), e Xie e Wei (2007), iremosdesenvolver, neste capítulo, uma análise de diagnóstico para o modelo de regressãoC-BS bivariado considerando eliminação de casos; avaliação de outlier e análise deinfluência local baseada no esquema de perturbação de ponderação de casos.

5.1 Método de Eliminação de casosIdentificar observações que influenciam desproporcionalmente nas estimativas dos

parâmetros é uma etapa fundamental na análise estatística, já que a presença destetipo de observação, pode gerar inferências inadequadas. Uma abordagem útil na iden-tificação de observações atípicas é baseada na metodologia conhecida como Método deEliminação de Casos (MEC), discutida em Cook (1977).

Para estudar o impacto da 𝑖-ésima observação na EMV de 𝜃, é usual comparar asestimativas dos parâmetros obtidos com todas as observações, denotada por 𝜃, e asEMV dos parâmetros obtidos considerando que a 𝑖-ésima observação foi excluída, queiremos denotar por 𝜃(𝑖). Esta metodologia é conhecida como Método de Eliminação deCasos.

Para o modelo de Regressão C-BS bivariado, definido no Capítulo 4, a função log-verossimilhança para 𝜃 sem a 𝑖-ésima observação é dada por

ℓ(𝑖)(𝜃) =∑𝑗 =𝑖

ℓ𝑗(𝜃). (5.1.1)

Muitas vezes calcular 𝜃(𝑖) = ( 𝛼⊤(𝑖),𝛽

⊤(𝑖), 𝜂(𝑖))⊤ e comparar 𝜃(𝑖) com 𝜃 , pode exigir um

grande trabalho computacional, especialmente quando o tamanho da amostra é muitogrande. A fim de facilitar o cálculo, o seguinte resultado obtido por Cook e Weisberg(1982) proporciona uma fórmula aproximada para estimação dos parâmetros, em cadaum dos 𝑛 casos:

𝜃1(𝑖) = 𝜃 + {−��(𝜃)}−1ℓ(𝑖)(𝜃), (5.1.2)

Page 102: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

102

em que ℓ(𝑖)(𝜃) = 𝜕ℓ(𝑖)(𝜃)/𝜕𝜃|𝜃=𝜃, ��(𝜃) = 𝜕2ℓ(𝜃)/𝜕𝜃𝜕𝜃⊤|

𝜃=𝜃.Para critério de comparação entre 𝜃 e 𝜃(𝑖) vamos definir duas medidas de distância:

Distância Generalizada de Cook e Afastamento pela Máxima Verossimilhança.

5.1.1 Distância Generalizada de CookA distância generalizada de Cook (GD) é definida como uma distância padronizada

entre 𝜃(𝑖) e 𝜃, dada por

𝐺𝐷𝑖 = (𝜃(𝑖) − 𝜃)⊤𝑀(𝜃(𝑖) − 𝜃), (5.1.3)

em que M é uma matriz definida não negativa. Cook e Weisberg (1982) considera-ram algumas escolhas para M. Dentre elas, uma escolha muito usada é a matriz deinformação observada, 𝑀 = −��(𝜃).

Podemos então substituir (5.1.2) em (5.1.3), veja Xie e Wei (2007), e obter a seguinteaproximação:

𝐺𝐷1𝑖 = ℓ(𝑖)(𝜃)⊤{−��(𝜃)}−1ℓ(𝑖)(𝜃). (5.1.4)

É comum também o interesse em estudar a influência da 𝑖-ésima observação naestimação de um parâmetro especifico, 𝛼, 𝛽 ou 𝜂. Através de (5.1.3), podemos definira GD para um subconjunto de parâmetros de 𝜃:

𝐺𝐷𝑖(𝛼) = ( 𝛼(𝑖) − 𝛼)⊤R𝛼𝛼( 𝛼(𝑖) − 𝛼) (5.1.5)

𝐺𝐷𝑖(𝛽) = (𝛽(𝑖) − 𝛽)⊤R𝛽𝛽(𝛽(𝑖) − 𝛽) (5.1.6)

𝐺𝐷𝑖(𝜂) = (𝜂(𝑖) − 𝜂)⊤R𝜂𝜂(𝜂(𝑖) − 𝜂), (5.1.7)

em que R𝛾𝛾 indica a entrada da matriz {−��(𝜃)}−1 correspondente à 𝛾 = 𝛼,𝛽, 𝜂.Vale aqui a aproximação definida em (5.1.4)

𝐺𝐷1𝑖 (𝛼) = ℓ(𝑖)𝛼(𝜃)⊤R𝛼𝛼ℓ(𝑖)𝛼(𝜃) (5.1.8)

𝐺𝐷1𝑖 (𝛽) = ℓ(𝑖)𝛽(𝜃)⊤R𝛽𝛽 ℓ(𝑖)𝛽(𝜃) (5.1.9)

𝐺𝐷1𝑖 (𝜂) = ℓ(𝑖)𝜂(𝜃)⊤R𝜂𝜂 ℓ(𝑖)𝜂(𝜃). (5.1.10)

Page 103: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

103

5.1.2 Afastamento pela Máxima VerossimilhançaO Afastamento pela máxima verossimilhança (LD) é uma medida da diferença entre𝜃 e 𝜃(𝑖), Cook e Weisberg (1982), definida da seguinte forma

𝐿𝐷𝑖 = 2{ℓ(𝜃) − ℓ(𝜃(𝑖))}. (5.1.11)

Analogamente ao que foi realizado em GD, podemos substituir (5.1.2) em (5.1.11),obtendo a seguinte aproximação, veja Xie e Wei (2007).

𝐿𝐷1𝑖 = 2

{ℓ(𝜃) − ℓ

(𝜃 + {−��(𝜃)}−1ℓ(𝑖)(𝜃))}

, (5.1.12)

que depende somente da estimativa 𝜃.

5.2 Avaliação de OutlierOutra metodologia que pode ser utilizada para detecção de possíveis observações

atípicas é o teste MSOM (mean-shift outlier model). Segundo a ideia de Cook e Weis-berg (1982), caso exista a suspeita de que a 𝑘-ésima observação é um outlier, o seguintemodelo pode ser utilizado,⎧⎨⎩Y𝑖 = x⊤

𝑖 𝛽 + 𝜖𝑖, 𝑖 = 1, 2, . . . , 𝑛, 𝑖 = 𝑘,

Y𝑖 = x⊤𝑖 𝛽 + 𝛾 + 𝜖𝑖, 𝑖 = 𝑘,

(5.2.1)

isto é, ⎧⎪⎪⎨⎪⎪⎩𝑌𝑖 = x⊤

𝑖 𝛽 + 𝜖𝑖, 𝑖 = 1, 2, . . . , 𝑛, 𝑖 = 𝑘,

𝑌1𝑖 = x⊤1𝑖𝛽1 + 𝛾1 + 𝜖1𝑖,

𝑌2𝑖 = x⊤2𝑖𝛽2 + 𝛾2 + 𝜖2𝑖, 𝑖 = 𝑘.

(5.2.2)

Equivalente a metodologia proposta por Xie e Wei (2007), 𝛾 = (𝛾1, 𝛾2)⊤ é um parâme-tro adicional, utilizado para indicar a presença de observações atípicas. Uma vez que 𝛾tenha valor diferente de zero, faz sentido presumir que a 𝑘-ésima observação é atípica,visto que seu valor não mais condiz com o original. Para o modelo de regressão BSunivariado, Xie e Wei (2007) propuseram a estatística escore para testar as hipóteses:𝐻0 : 𝛾𝑗 = 0 vs 𝐻1 : 𝛾 = 0; 𝑗 = 1, 2.

Já no caso bivariado, para avaliar se a 𝑘-ésima observação é em algum sentido umtipo de outlier, podemos utilizar o teste de escore para testar 𝐻0 : 𝛾 = 0 vs 𝐻1 : 𝛾 = 0.Porém, a implementação envolve obter a matriz de informação observada considerando𝜃 = (𝛼⊤,𝛽⊤, 𝜂,𝛾⊤)⊤; para evitar extensas derivadas, vamos considerar um métodoalternativo.

Page 104: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

104

Inspirado na relação intuitiva entre teste de hipóteses e influência local, discutidoem Kim (1998), vamos considerar um tipo de afastamento pela verossimilhança quechamaremos de Afastamento pela Verossimilhança Perfilada. Para cada 𝑘 = 1, . . . , 𝑛vamos avaliar a "distância" entre o modelo completo (presença de 𝛾 na 𝑘-ésima obser-vação) e o modelo incompleto (𝛾𝑘 = 0) através da função

𝐿𝐷𝑝𝑘= 2{ℓ(𝛾𝑘) − ℓ(𝛾𝑘)}, (5.2.3)

em que 𝛾𝑘 é a estimativa que maximiza

ℓ𝑝(𝛾) =∑𝑖 =𝑘

ℓ𝑖(𝜃) + ℓ*𝑘(𝜃,𝛾),

𝜃 é a EMV de 𝜃 que maximiza a log-verossimilhança genuína ℓ(𝜃), e ℓ*𝑘(𝜃,𝛾) é a

log-verossimilhança sob o modelo definido em (5.2.1). Além disso, 𝛾𝑘 = 0, e conse-quentemente ℓ*

𝑘(𝜃,𝛾) = ℓ(𝜃).Analogamente ao afastamento pela verossimilhança genuíno, o gráfico index-plot de

𝐿𝐷𝑝𝑘pode ser útil para estudar se a 𝑘-ésima observação é um tipo de outlier. Podemos

pensar este método como um procedimento equivalente ao conhecido teste de outlier.

5.3 Análise de Influência LocalUma desvantagem da exclusão individual de casos é que essa metodologia pode

eventualmente não detectar pontos que são conjuntamente influentes. Contudo, Cook(1986) propôs um método de influência local, que consiste em estudar o comportamentode uma medida de influência particular sujeita a pequenas perturbações nos dadosou modelos. Vários autores têm aplicado essa metodologia em modelos de regressãogeneralizados; veja, por exemplo, Paula (1993); Galea et al. (1997); Galea et al.(2000) e Díaz-García (2003). Nesta seção apresentaremos de forma resumida o métodode influência local proposto por Cook (1986).

Para um conjunto de observações de tamanho 𝑛, seja ℓ(𝜃) = ∑𝑛𝑖=1 ℓ𝑖(𝜃) a função de

log-verossimilhança do modelo postulado, em que 𝜃 = (𝛼⊤,𝛽⊤, 𝜂)⊤ é o vetor de parâ-metros desconhecidos, com dimensão 𝑝+3, em que 𝑝 = 𝑝1 +𝑝2; e ℓ𝑖(𝜃) é a contribuiçãoda 𝑖-ésima observação para a log-verossimilhança. A pertubação no modelo é introdu-zida através de um vetor 𝜔, de dimensão 𝑞 × 1, denominado vetor de perturbação, emque 𝜔 ∈ Ω ⊆ R𝑞, Ω um aberto.

Seja ℓ(𝜃|𝜔) a função de log-verossimilhança do modelo pertubado. Vamos assumirque existe um 𝜔𝑜 ∈ Ω tal que, ℓ(𝜃) = 𝑙(𝜃|𝜔𝑜), para todo 𝜃 e que ℓ(𝜃|𝜔) é duas vezesdiferenciável em (𝜃⊤,𝜔⊤)⊤. Sejam 𝜃 e 𝜃𝜔 os EMV de 𝜃 sob o modelo postulado eperturbado, respectivamente, o objetivo é comparar 𝜃 e 𝜃𝜔 quando 𝜔 varia em Ω.

Uma possível abordagem baseia-se na análise do afastamento pela verossimilhança,definido por

𝐿𝐷(𝜔) = 2{ℓ(𝜃) − ℓ(𝜃𝜔)}. (5.3.1)

Page 105: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

105

A função definida acima, pode ser vista como uma generalização do afastamentopela verossimilhança 𝐿𝐷𝑖, considerando a avaliação sem a 𝑖-ésima observação.

A proposta de Cook (1986) permite avaliar o comportamento da função 𝐿𝐷(𝜔),em uma vizinhança do vetor de não-perturbação 𝜔0. O método consiste em selecionaruma direção unitária h, tal que ||h||= 1, e então, considerar o gráfico de 𝐿𝐷(𝜔0 + 𝑎h)contra 𝑎, com 𝑎 ∈ R. Esse gráfico é denominado linha projetada. Cada linha projetadapode ser caracterizada pela curvatura normal 𝐶h(𝜃) em torno de 𝑎 = 0, veja Souza(1999). Dessa forma, o afastamento pela verossimilhança é uma medida de influênciaque permite mensurar a pertubação de 𝜔 na estimação do vetor 𝜃.

O sentido da distância entre 𝜃 e 𝜃𝜔, baseado na função de afastamento de veros-similhança 𝐿𝐷(𝜔), pode depender da concavidade da função de log-verossimilhançaℓ(𝜃). Se ℓ(𝜃) é suficientemente achatada, podemos dizer que 𝜃 e 𝜃𝜔 estão próximosentre si, enquanto que se ℓ(𝜃) for suficientemente concentrada em torno de 𝜃 estasestimativas podem estar distantes entre si, veja Cook (1986). A sugestão de Cook(1986) é considerar a direção h𝑚𝑎𝑥 correspondente a maior curvatura 𝐶h𝑚𝑎𝑥 . O gráficode h𝑚𝑎𝑥 contra o índice das observações pode mostrar os elementos que, sob pequenasperturbações, exercem influência sobre a EMV de 𝜃. Cook (1986) demonstrou que acurvatura normal tem forma geral dada por

𝐶h(𝜃) = 2|h⊤Δ⊤{L(𝜃)}−1Δh|, (5.3.2)

em que L(𝜃) é a matriz de informação observada e Δ é uma matriz (𝑝+3)×𝑛, 𝑝 = 𝑝1+𝑝2(dimensão de 𝛽1 e 𝛽2 respectivamente), que depende do esquema de perturbação usado,cujos elementos são

Δ𝑗𝑖 = 𝜕2𝑙(𝜃|𝜔)𝜕𝜃𝑗𝜕𝜔𝑖

,

com 𝑖 = 1, ..., 𝑝 + 3, 𝑗 = 1, ..., 𝑛 e todas as quantidades sendo avaliadas em 𝜔 = 𝜔0 e𝜃 = 𝜃.

Dessa forma, 𝐶h𝑚𝑎𝑥(𝜃) é o maior autovalor da matriz

B = Δ⊤{L(𝜃)}−1Δ (5.3.3)

e h𝑚𝑎𝑥 é o autovetor correspondente. Ver, por exemplo, Galea et al. (2004).Caso o interesse seja avaliar a influência parcial em um subconjunto de 𝜃 = (𝜃⊤

1 ,𝜃⊤2 )⊤,

𝜃1 por exemplo, temos que a curvatura normal na direção do vetor h é dada por

𝐶h(𝜃1) = 2|h⊤Δ⊤(L(𝜃)−1 − B1)Δh|, (5.3.4)

em que

B1 =(

0 00 L−1

22

),

com L22 = {𝜕2𝑙(𝜃|𝜔)/𝜕𝜃⊤2 𝜕𝜃2}|

𝜃=𝜃.

Page 106: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

106

O gráfico do autovetor associado ao maior autovalor da matriz Δ⊤(L(𝜃)−1 − B1)Δcontra o índice das observações pode revelar quais observações estão influenciando naestimação de 𝜃1. De forma análoga, se o interesse está em 𝜃2, então a curvatura normalna direção do vetor h é dada por

𝐶h(𝜃2) = 2|h⊤Δ⊤(L(𝜃)−1 − B2)Δh|, (5.3.5)

em que

B2 =(

L−111 00 0

),

com L11 = {𝜕2𝑙(𝜃|𝜔)/𝜕𝜃⊤1 𝜕𝜃1}|

𝜃=𝜃.O estudo da influência em 𝜃2 pode ser avaliada considerando o gráfico do autove-

tor associado ao maior autovalor da matriz Δ⊤(L(𝜃)−1 − B2)Δ contra o índice dasobservações.

Uma outra abordagem foi proposta por Lesaffre e Verbeke (1998), que sugeriramconsiderar a curvatura na direção da 𝑖-ésima observação, ou seja, calcular a curvaturana direção de h𝑖, em que h𝑖 é um vetor 𝑛 × 1 de zeros com um na 𝑖-ésima posição.Logo, a curvatura na direção de h𝑖 assume a forma 𝐶𝑖 = 2|Δ⊤

𝑖 {−L(𝜃)}−1Δ𝑖| em queΔ⊤

𝑖 denota a 𝑖-ésima linha de Δ.O método de influência local tem sido aplicado com sucesso em muitos problemas

estatísticos, porém, alguns aspectos têm sido questionados, veja a discussão em Cook(1986). Por exemplo, a falta de um ponto de corte.

Quanto a esse problema, Verbeke e Molenberghs (2000) propõem considerar comoinfluentes os casos em que 𝐶𝑖 é maior que uma linha de corte, ou seja, quando

𝐶𝑖 ≥ 2𝑛∑

𝑖=1𝐶𝑖/𝑛. (5.3.6)

Zhu e Lee (2001) sugeriram utilizar a média e desvio padrão da seguinte forma:

𝐶 + 2 sd(𝐶), (5.3.7)

em que sd denota o desvio padrão.Dessa forma, podemos usar h𝑚𝑎𝑥 e 𝐶𝑖 para diagnosticar influência local.

Page 107: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

107

5.3.1 Ponderação de Pertubação de casosEsse esquema de perturbação possibilita a identificação de indivíduos que tem grande

influência no processo de estimação do parâmetro 𝜃. Considere o modelo de regressãolog C-BS bivariado definido no Capítulo 4, e o vetor de pesos 𝜔 = (𝜔1, ..., 𝜔𝑛)⊤, afunção de verossimilhança do modelo perturbado considerando a ponderação de casosé dada por

ℓ(𝜃|𝜔) =𝑛∑

𝑖=1𝜔𝑖ℓ𝑗(𝜃), (5.3.8)

em que 𝜃 = (𝛼⊤,𝛽⊤, 𝜂)⊤. Nesse caso o modelo não pertubado é obtido quando consi-deramos 𝜔0 = 1𝑛.

Derivando (5.3.8) com respeito a 𝜔, temos que

𝜕ℓ(𝜃|𝜔)𝜕𝜔⊤ = (ℓ1(𝜃), ..., ℓ𝑛(𝜃)), (5.3.9)

e agora derivando essa expressão acima em relação a 𝜃, obtemos que

𝜕2ℓ(𝜃|𝜔)𝜕𝜃𝜕𝜔⊤ =

(𝜕ℓ1(𝜃)

𝜕𝜃, ...,

𝜕ℓ𝑛(𝜃)𝜕𝜃

)= (Δ1, ...Δ𝑛), (5.3.10)

em que as componentes do vetor Δ𝑖 são dadas por

Δ𝛼𝑖 = 𝐷−1(𝜉1𝑖(𝜃))𝐴1𝑖(𝛼) + 𝑄𝑖(𝜃)𝐴2𝑖(𝛼),Δ𝛽𝑖

= 𝐷−1(𝜉1𝑖(𝜃))𝐴1𝑖(𝛽) + 𝑄𝑖(𝜃)𝐴2𝑖(𝛽),

Δ𝜂𝑖 = 1𝑐𝑖(𝜃) [2Φ(𝜉2𝑖(𝜃1)) − 1][2Φ(𝜉2𝑖(𝜃2)) − 1], 𝑖 = 1, ..., 𝑛,

e para 𝑗 = 1, 2,

𝐴𝑗𝑖(𝛼) =(

𝜕𝜕𝛼1

𝜉𝑗𝑖(𝜃1)𝜕

𝜕𝛼2𝜉𝑗𝑖(𝜃2)

), 𝐴𝑗𝑖(𝛽) =

(𝜕

𝜕𝛽1𝜉𝑗𝑖(𝜃1)

𝜕𝜕𝛽2

𝜉𝑗𝑖(𝜃2)

),

𝐵𝑗𝑖(𝛼) =⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛼1𝜉𝑗𝑖(𝜃1)

𝜕2

𝜕𝛼2𝜕𝛼2𝜉𝑗𝑖(𝜃2)

⎞⎠ , 𝐵𝑗𝑖(𝛽) =⎛⎝ 𝜕2

𝜕𝛽1𝜕𝛽1𝜉𝑗𝑖(𝜃1)

𝜕2

𝜕𝛽2𝜕𝛽2𝜉𝑗𝑖(𝜃2)

⎞⎠ ,

𝐶𝑗𝑖(𝛼,𝛽) =⎛⎝ 𝜕2

𝜕𝛼1𝜕𝛽1𝜉𝑗𝑖(𝜃1)

𝜕2

𝜕𝛼2𝜕𝛽2𝜉𝑗𝑖(𝜃2)

⎞⎠ ,

𝑄𝑖(𝜃) = −𝐷(𝜉2𝑖(𝜃)) + 4𝜂

𝑐𝑖(𝜃)𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃)),

com

𝜉2𝑖(𝜃; 𝜑) =(

𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2))

)e 𝜙𝑖(𝜃) =

(Φ(𝜉2𝑖(𝜃2)) − 1

2Φ(𝜉2𝑖(𝜃1)) − 1

2

).

Page 108: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

108

Note que, para o esquema de perturbação de casos, a matriz Δ não depende dovetor 𝜔. O vetor h𝑚𝑎𝑥 é o autovetor normalizado correspondente ao maior auto-valorda matriz 2|Δ⊤L(𝜃)−1Δ|, o qual nos possibilita investigar quais observações exercemmaior influência sobre as estimativas dos parâmetros.

5.4 AplicaçãoVamos agora considerar uma aplicação dos métodos desenvolvidos nas seções ante-

riores para o modelo de regressão C-BS bivariado. Utilizaremos o conjunto de dadosreais IRIS, conforme o ajuste realizado no Capítulo 4.

5.4.1 Distâncias 𝐿𝐷𝑖 e 𝐺𝐷𝑖

Inicialmente calculamos a 𝐿𝐷𝑖 para 𝜃 = (𝛼⊤,𝛽⊤, 𝜂), a fim de identificar observaçõesinfluentes no modelo ajustado. O resultado pode ser verificado na Figura 5.1.

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Index

LD

69

Figura 5.1: Afastamento pela verossimilhança: 𝐿𝐷𝑖(𝜃)

Considerando esse método de diagnóstico a observação que parece exercer mais influên-cia na estimação de 𝜃 é a #69.

Para investigar a influência em cada parâmetro separadamente optamos por calculara GD para cada um deles. De forma a identificar se a influência ocorre em 𝜃 comoum todo, ou apenas em alguma componente: 𝛼, 𝛽 ou 𝜂. Os resultados podem serverificados na Figura 5.2. A mesma escala foi aplicada nos quatro gráficos, de tal

Page 109: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

109

forma que a comparação é justa e possibilita afirmar em qual parâmetro a influência émaior.

(a)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

69

(b)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

IndexG

D(α

)

69

(c)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

(β)

69

(d)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

(η)

1321 87

Figura 5.2: Index-Plot para: (a) 𝐺𝐷𝑖(𝜃) , (b) 𝐺𝐷𝑖(𝛼) , (c) 𝐺𝐷𝑖(𝛽) , (d) 𝐺𝐷𝑖(𝜂)

Note que o resultado verificado na Figura 5.1 se repetiu quando consideramos o mé-todo da Distância de Cook para 𝜃, isto é, a observação que se mostra mais influenteno processo de estimação é a observação #69. Verificando a contribuição para cadaparâmetro, temos que em termos de 𝛼 e 𝛽 ela também aparece em destaque. Comoos dois gráficos estão na mesma escala é intuitivo observar que a influência dessa ob-servação é maior em 𝛽 do que em 𝛼. Quando observamos o parâmetro de associação𝜂 isoladamente as observações que mais se destacaram foram: #13, #21 e #87; sendo

Page 110: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

110

a #13 a de maior influência. Porém, no contexto geral, a influência dessas observaçõesnão parece ser significativa.

Podemos ser ainda mais específicos e observar a influência em 𝛼1, 𝛼2, 𝛽1 e 𝛽2,conforme Figuras 5.4.1 e 5.3. Novamente, adotamos a mesma escala para os quatrográficos.

(a)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

(α1)

57 9234,35

(b)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

(α2)

69

(c)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

(β1)

34

57

82 92

(d)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

GD

(β2)

69

Figura 5.3: Distância de Cook para as componentes: (a) 𝛼1 e (b) 𝛼2 , (c) 𝛽1 e (d) 𝛽2

Interessante notar que a observação #69 não demonstrou influência significativa quandoolhamos para 𝛼1 ou 𝛽1 separadamente. Entretanto, continua figurando como de maiordestaque quando olhamos para a segunda componente, isto é, 𝛼2 e 𝛽2. Aparentementea influência dessa observação esta mais relacionada a largura da sépala (𝑌2) do que aocomprimento da sépala (𝑌1), de forma muito mais significativa em 𝛽2.

Page 111: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

111

Para 𝛼1 isoladamente as observações de destaque foram: #34, #35, #57 e #92.Para 𝛽1 foram as observações: #34, #57, #82 e #92.

Em suma, temos a observação #69 que desponta como de maior atenção, a qualque se destaca na estimação de 𝜃 como um todo e também aparece como relevantea respeito dos parâmetros da segunda componente, largura da sépala, 𝛼2 e 𝛽2; comdestaque em 𝛽2. Ao mesmo tempo, temos alguns pontos influentes na estimação de 𝛼1,𝛽1 e 𝜂, porém, só aparecem quando olhamos os parâmetros de forma isolada.

5.4.2 Avaliação de OutlierCabe aqui abordar três possíveis cenários.

Cenário 1: 𝛾1 = 0, 𝛾2 = 0

O modelo neste caso é dado por⎧⎪⎪⎨⎪⎪⎩𝑌𝑖 = x⊤

𝑖 𝛽 + 𝜖𝑖, 𝑖 = 1, . . . , 𝑛, 𝑖 = 𝑘,

𝑌1𝑖 = x⊤1𝑖𝛽1 + 𝜖1𝑖,

𝑌2𝑖 = x⊤2𝑖𝛽2 + 𝛾2 + 𝜖2𝑖, 𝑖 = 𝑘.

Cenário 2: 𝛾1 = 0, 𝛾2 = 0

Neste caso, o modelo é da seguinte forma⎧⎪⎪⎨⎪⎪⎩𝑌𝑖 = x⊤

𝑖 𝛽 + 𝜖𝑖, 𝑖 = 1, . . . , 𝑛, 𝑖 = 𝑘,

𝑌1𝑖 = x⊤1𝑖𝛽1 + 𝛾1 + 𝜖1𝑖,

𝑌2𝑖 = x⊤2𝑖𝛽2 + 𝜖2𝑖, 𝑖 = 𝑘.

Cenário 3: 𝛾1 = 0, 𝛾2 = 0

Neste cenário o modelo considerado é o mais geral possível⎧⎪⎪⎨⎪⎪⎩𝑌𝑖 = x⊤

𝑖 𝛽 + 𝜖𝑖, 𝑖 = 1, . . . , 𝑛, 𝑖 = 𝑘,

𝑌1𝑖 = x⊤1𝑖𝛽1 + 𝛾1 + 𝜖1𝑖,

𝑌2𝑖 = x⊤2𝑖𝛽2 + 𝛾2 + 𝜖2𝑖, 𝑖 = 𝑘.

Na Figura (5.4) constam as distâncias para os cenários 1 e 2.Como era esperado, a observação #69 situando-se como extremamente relevante na

segunda componente, largura da sépala. Visto que os gráficos estão na mesma escala,temos que ela é a de maior relevância.

Page 112: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

112

(a)0 20 40 60 80 100

02

46

8

Index

LDpk

(γ2)

69

(b)0 20 40 60 80 100

02

46

8

Index

LDpk

(γ1)

35

51

Figura 5.4: Distância 𝐿𝐷𝑝𝑘: (a) Cenário 1 (b) Cenário 2

Na Figura 5.5 podemos verificar a distância 𝐿𝐷𝑝𝑘calculada para o cenário 3.

0 20 40 60 80 100

02

46

8

Index

LDpk

(γ1,

γ 2)

35

69

Figura 5.5: Cenário 4: Distância 𝐿𝐷𝑝𝑘: Cenário 3

Confirmando resultados obtidos em análises prévias, a observação que mais se des-taca é a #69 cuja relevância maior se encontra na segunda componente.

Uma vez que essa distância é simplesmente uma adaptação do teste MSOM, nãopodemos inferir nada nesse momento. Os resultados aqui verificados devem ser enca-rados apenas como indícios de algo a ser analisado de um ponto de vista inferencial.

Page 113: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

113

Todavia, o fato deles coincidirem com o que foi visto utilizando o Método da Exclusãode Casos traz respaldo para essa metodologia que foi sugerida, abrindo oportunidadepara estudos futuros a transformarem em um teste de hipóteses.

5.4.3 Ponderação de CasosVamos agora desenvolver o método de influência local para o modelo C-BS bivari-

ado, considerando o esquema de perturbação de ponderação de casos. Primeiramenteaveriguamos a disposição de h𝑚𝑎𝑥 para 𝜃. Além disso, utilizando as partições adequa-das em 𝜃 de tal forma que 𝜃1 assume cada vez um dos três parâmetros, replicamos aanálise para cada parâmetro separadamente. A Figura 5.6 retrata esse cenário.

(a)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

Index

hmax

(θ)

69

(b)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

Index

hmax

(α)

69

(c)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

Index

hmax

(β)

69

(d)0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

Index

hmax

(η)

1321

34

87

Figura 5.6: Gráfico de h𝑚𝑎𝑥 para: (a) 𝜃 , (b) 𝛼 , (c) 𝛽 e (d) 𝜂

Page 114: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

114

Influência local total

Optamos também por utilizar a curvatura na direção da 𝑖-ésima observação, abor-dagem proposta por Lesaffre e Verbeke (1998). Novamente considerando 𝜃 como umtodo, e também cada vez um dos três parâmetros separadamente, Figura 5.7.

(a)0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci

69

(b)0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(α

)

69

(c)0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(β

)

69

(d)0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(η

)

13 21 3487

Figura 5.7: Gráfico de: (a) 𝐶𝑖(𝜃) , (b) 𝐶𝑖(𝛼) , (c) 𝐶𝑖(𝛽) e (d) 𝐶𝑖(𝜂)

Selecionando as partições adequadas em 𝜃 e em ��(𝜃) é possível também verificar ainfluência específica em 𝛼1, 𝛼2, 𝛽1 e 𝛽2. Essas medidas foram calculadas e podem serverificadas nas Figuras (5.8) e (5.9).

Page 115: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

115

(a)

0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(α

1)

5157 9234,35

(b)

0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(α

2)

69

Figura 5.8: Gráfico de 𝐶𝑖 para as componentes (a) 𝛼1 e (b) 𝛼2

(a)

0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(β

1)

34 57

(b)

0 20 40 60 80 100

0.0

0.5

1.0

1.5

2.0

Index

Ci(β

2)

69

Figura 5.9: Gráfico de 𝐶𝑖 para as componentes (a) 𝛽1 e (b) 𝛽2

Com base nessas medidas verificamos resultado muito similar ao que foi encontrado naaplicação do MEC, isto é, a observação #69 despontando como destaque, sendo a maisinfluente acerca da estimação de 𝜃, 𝛼 e 𝛽. Análogo ao que foi visto anteriormente,a influência dessa observação esta concentrada na segunda componente, largura dasépala, e apresenta maior magnitude em relação à 𝛽 do que 𝛼.

Page 116: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

116

Olhando 𝜂 isoladamente, as observações #13, #21, #21 e #57 se destacam comoinfluentes. Vale notar que três deles também apareceram no MEC. Mais uma vez, ainfluência é baixa quando estudamos o contexto geral dos parâmetros.

Construímos também gráficos de dispersão entre os diversos parâmetros associadosao modelo, de tal forma a melhorar a visualização, além de permitir encontrar pontosque são mutualmente influentes. Para as linhas de corte, assumimos a proposta de Zhue Lee (2001), utilizando a média e desvio padrão: 𝐶 + 2 sd(𝐶).

Na Figura 5.10 mostramos a dispersão entre 𝐶𝑖(𝛼) e 𝐶𝑖(𝛽), o qual deixa claro quea única observação que afeta os dois parâmetros conjuntamente é a #69.

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.0

0.5

1.0

1.5

Ci(α)

Ci(β

)

19

69

34

5782

Figura 5.10: Gráfico de dispersão: 𝐶𝑖(𝛼) x 𝐶𝑖(𝛽)

Na Figura 5.11(a) construímos um gráfico de dispersão entre 𝐶𝑖(𝛼1) e 𝐶𝑖(𝛼2) e naFigura 5.11(b) entre 𝐶𝑖(𝛽1) e 𝐶𝑖(𝛽2), A utilização de um ponte de corte evidencioumais pontos que não haviam sido percebidos anteriormente. Observação #1 para 𝛼1;#19 para 𝛼2; #92 e #82 para 𝛽1.

Em 5.12(a) temos 𝐶𝑖(𝛼) contra 𝐶𝑖(𝜂), em que os casos #69 e #19 aparecem comorelevantes quanto a estimação de 𝛼. Enquanto que acerca de 𝜂 a única novidade foi aobservação #99. Nenhum ponto em comum foi observado nesse cenário.

Já em 5.12(b) verificamos a dispersão entre 𝐶𝑖(𝛽) e 𝐶𝑖(𝜂), cuja grande novidade foio ponto #34 que apareceu como influente para os dois parâmetros, algo que não estavaevidente até esse momento. Porém, não é algo que merece destaque, pois já vimos queessa observação não afeta o modelo de forma expressiva.

Page 117: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

117

(a)0.00 0.05 0.10 0.15

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Ci(α1)

Ci(α

2)

34 3592

1 51 57

19

69

(b)0.0 0.1 0.2 0.3 0.4 0.5 0.6

0.0

0.5

1.0

1.5

Ci(β1)

Ci(β

2)

34

57

82

92

69

Figura 5.11: Gráficos de dispersão: (a) 𝐶𝑖(𝛼1) x 𝐶𝑖(𝛼2) e (b) 𝐶𝑖(𝛽1) x 𝐶𝑖(𝛽2)

(a)0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.00

0.05

0.10

0.15

0.20

Ci(α)

Ci(η

)

13

21

34

87

99

69

19

(b)0.0 0.5 1.0 1.5

0.00

0.05

0.10

0.15

0.20

Ci(β)

Ci(η

)

13

21

34

87

99

57

69

82

Figura 5.12: Gráficos de dispersão: 𝐶𝑖(𝛽) x 𝐶𝑖(𝜂), 𝐶𝑖(𝛽) x 𝐶𝑖(𝜂)

Page 118: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

118

5.4.4 ConclusõesUma vez realizada a análise de diagnóstico, a observação #69 foi a que se mostrou

mais influente. Os resultados encontrados indicaram que ela apresenta alta influênciana estimação dos parâmetros do modelo. Se destacando quando olhamos para 𝜃 comoum todo e também a respeito de 𝛼 e 𝛽. Outros pontos interessantes que a análisetrouxe foram: a associação dessa observação com a segunda componente do modelo,no caso largura da sépala; e que ela exerce maior influência em 𝛽 do que em 𝛼.

Uma primeira possibilidade a se considerar é que essa observação seja um pontoaberrante em uma das componentes da variável resposta, comprimento da sépala oulargura da sépala, possivelmente na segunda componente. Hipótese que logo foi des-cartada quando olhamos os Boxplots na Figura 5.13, a linha tracejada representa alocalização do valor que y assume na observação #69.

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Y1

2.0

2.5

3.0

3.5

Y2

11

60

68,82

Figura 5.13: Boxplots para 𝑦1:Comprimento da Sépala e 𝑦2:Largura da Sépala.

Vale notar que para 𝑦2, aparentemente, existem quatro pontos atípicos. Porém,nenhum deles apareceu como influente na análise de diagnóstico.

Outra opção descartada é que a observação #69 seja um ponto atípico a respeito davariável explicativa, Comprimento da Pétala (𝑥1), o que pode ser notado na Figura 5.14.Todavia, é importante notar que, mesmo não constando como atípica, essa observaçãorepresenta o ponto de máximo em 𝑥1, isto é, max(𝑥1) = 6.9, exatamente o ponto #69.

Page 119: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

119

34

56

7

x1

Figura 5.14: Boxplot para 𝑥1: Comprimento da Pétala

Diante dessas medidas descritivas não temos indícios para acreditar que a observação#69 é um ponto atípico, seja na variável resposta ou na variável explicativa contínua.Ou seja, aparentemente a observação #69 não é aberrante a respeito das variáveiscomprimento da sépala, largura da sépala ou comprimento da pétala. Faz sentidoentão suspeitar que ela é influente mediante a combinação dessas variáveis a partir domodelo ajustado. Considerando então o ajuste realizado através do modelo de regressãolog C-BS bivariado, plotamos também os resultados de 𝜉21 e 𝜉22, Figura 5.15.

−2

−1

01

2

ξ21

−3

−2

−1

01

2

ξ22

69

Figura 5.15: Boxplots para 𝜉21 e 𝜉22

Page 120: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

120

Nota-se então que a observação #69 é atípica quando consideramos 𝜉22.Esse resultado pode ser verificado também através dos gráficos de dispersão de 𝜉2

12e 𝜉2

22, na Figura 5.16.

(a)0 20 40 60 80 100

02

46

810

Index

ξ 212

(b)0 20 40 60 80 100

02

46

810

Index

ξ 222

69

Figura 5.16: Gráfico de dispersão para (a) 𝜉221 e (b) 𝜉2

22

Uma vez que os dois gráficos de dispersão foram construídos utilizando a mesmaescala, é possível notar que a observação #69 é a que mais se destaca.

Podemos também analisar 𝜉2(y) conjuntamente através da medida 𝑑, construídacom base na distância de Mahalanobis:

𝑑 = 𝜉2(y)⊤ϒ−1𝜉2(y) (5.4.1)

com ϒ sendo a matriz de covariância para 𝜉2(y), definida no Capítulo 4.Na Figura 5.17 verificamos que a observação #69 se destaca como atípica para 𝜉2(y).

Diante desses resultados, podemos concluir que a observação #69 não é atípicaindividualmente na variável resposta ou na variável explicativa, mas desponta comoinfluente quando verificamos as observações conjuntamente. Isto é, se torna uma ob-servação de destaque a partir do modelo de regressão ajustado.

Finalmente, discutiremos a influência das observações quando o parâmetro de inte-resse é 𝜂. Analisando 𝜂 isoladamente alguns pontos se mostraram relevantes quanto ainfluência na estimação desse parâmetro. Nenhum deles preocupa, visto que nenhumaanálise indicou que a influência de qualquer um desses pontos é relevante no ajustegeral do modelo. Todavia, é interessante tentar entender o que afetou o parâmetrode associação do modelo, no caso, a estrutura de dependência entre comprimento dasépala e largura da sépala na preseça de covariáveis, comprimento da pétala e espécie,e considerando o ajuste através do modelo de regressão C-BS bivariado.

Page 121: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

121

0 20 40 60 80 100

02

46

8

Index

d i

69

Figura 5.17: Gráfico de dispersão para 𝑑𝑖

As observações que se destacaram foram: #13, #21 e #87. Nenhuma delas semostrou atípica, seja nas variável resposta, explicativa, ou mesmo acerca de 𝜉2(Y).Todavia, as três possuem uma característica em comum, valores "altos" com sinaisopostos, isto é, se 𝜉21 apresenta um alto valor positivo, então 𝜉22 tem um valor bembaixo negativo. Podemos ver na Figura 5.18 que elas se situam nos Quadrantes 1 e 3.

Dessa forma, sua presença acarreta em um coeficiente de correlação mais baixo,enquanto que sua retirada gera um aumento significativo. Por essa razão é que apare-ceram como influentes acerca de 𝜂.

−2 −1 0 1 2

−3

−2

−1

01

2

ξ21

ξ 22

13

21

87

5135

Q1 Q2

Q3Q4

Figura 5.18: Gráfico de dispersão de 𝜉21 x 𝜉22

Page 122: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

122

Seria razoável questionar a respeito das observações #35 e #51, porém, diferentedas observações citadas anteriormente, quando olhamos o seu valor notamos um valorbem baixo negativo de 𝜉21, mas o valor de 𝜉22 não é expressivamente alto; 𝜉2(y35) =(−2.33, 0.56) e 𝜉2(y51) = (−2.14, 0.70).

Page 123: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

123

Capítulo 6

Considerações Finais

Neste trabalho desenvolvemos uma extensão do modelo de regressão linear BS uni-variado, proposto por Rieck e Nedelman (1991), para a versão bivariada considerandoa estrutura da cópula FGM, o qual denotamos por modelo C-BS bivariado. A cópulaFGM tem sido utilizada com sucesso para introduzir uma estrutura de dependênciapara dados bivariados, como pode ser visto, por exemplo, nos trabalho de Durling(1974), Lai (1978), Chinchilli e Breen (1985), Teichmann (1986), Long e Krzyszto-fowicz (1992) e Barriga et al. (2010).

Apresentamos as distribuições C-N bivariada e C-SN bivariada, e apontamos algu-mas propriedades importantes que nos permitem definir a distribuição C-BS bivariadae o modelo de regressão C-BS bivariado. Inspirados no trabalho de Rieck e Nedel-man (1991), Kundu et al. (2010) e Vilca et al. (2016), desenvolvemos primeiramentea distribuição BS bivariada baseada na cópula FGM, e logo em seguida derivamos adistribuição do logaritmo da distribuição BS bivariada, que representa um membroparticular da distribuição sinh-normal bivariada construída a partir da cópula FGM.

Para ambos os casos propusemos um tipo simples de estimador de momentos modi-ficado que, por conseguinte, foram utilizados efetivamente como valores iniciais para ocálculo iterativo, através do método de Newton–Raphson, das estimativas de máximaverossimilhança. Esses estimadores de máxima verossimilhança foram desenvolvidosseguindo a mesma ideia de Kundu et al. (2010). As propriedades assintóticas dessesestimadores são consideradas para discussão de testes para algumas hipóteses de inte-resse. O desempenho do método proposto foi avaliado através de estudo simulação eaplicação em um conjunto de dados reais.

Além disso, desenvolvemos um método de diagnóstico para o modelo de regressãoC-BS bivariado, baseado na metodologia de Cook (1977).

Em termos de pesquisas futuras, podemos citar:• considerar outros conjuntos de dados reais, para complementar os resultados

obtidos;

• considerar diferentes cópulas, além da FGM;

• utilizar distribuições marginais mais gerais que a distribuição BS usual;

Page 124: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

124

• extensão do modelo para inclusão de censuras, como no caso univariado discutidoem Leiva et al. (2007);

• propor um teste de outlier, conforme visto na Seção 5.2;

• estudar a distribuição de 𝑑 = Z⊤ϒ−1Z, visto em (3.2.6);

• desenvolver diferentes esquemas de perturbação na aplicação do método de in-fluência local de Cook (1986).

Page 125: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

125

Bibliografia

[1] Achcar, J. A. (1993). Inference for the Birnbaum-Saunders fatigue life model using Baye-sian methods. Computational Statistics and Data Analysis, 15, 367-380.

[2] Anderson, E. (1936). The Species Problem in Iris. Annals of the Missouri BotanicalGarden, 23(3), 457-509.

[3] Atkinson, A. C. (1985). Plots, Transformations and Regression: An Introduction toGraphical Methods of Diagnostic Regression Analysis. Clarendon Press, Oxford.

[4] Azzalini, A. (2014). The Skew-Normal and Related Families. Università degli Studi diPadova, Italy.

[5] Bairamov, I. G., Kotz, S. (2000). On a new family of positive quadrant dependentbivariate distribution. Technical Report, The GeorgeWashington University,Washington,D.C.

[6] Balakrishnan, N., Lai, C. D. (2009). Continuous Bivariate Distributions. Second Edition.Springer, New York.

[7] Barriga, G. D. C., Louzada-Neto, F., Ortega, E. M., Cancho, V. G. (2010). A bivariateregression model for matched paired survival data: local influence and residual analysis.Statistical Methods and Applications, 19, 477-495.

[8] Barros, M., Paula, G., Leiva, V. (2008). A new class of survival regression models withheavytailed errors: robustness and diagnostics. Lifetime Data Analysis, 14, 316–332.

[9] Bekrizadeh, H., Parham, G. A., Zadkarmi, M. R. (2012). The New Generalization ofFarlie–Gumbel–Morgenstern Copulas. Applied Mathematical Sciences, 6, 71, 3527 – 3533.

[10] Belsley, D. A., Kuh, E., Welsch, R. E. (1980). Regression Diagnostics: Identifying Influ-ential Data and Sources of Collinearity. Jonh Wiley and Sons, New York.

[11] Birbnaum, Z. W., Saunders, S. C. (1969a). A new family of life distributions. Journalof Applied Probability, 6, 319–327.

[12] Birbnaum, Z. W., Saunders, S. C. (1969b). Estimation for a family of life distributionswith applications to fatigue. Journal of Applied Probability, 6, 328–347.

[13] Chatterjee, S., Hadi, A. S. (1988). Sensitivity Analysis in Linear Regression. Jonh Wileyand Sons, New York.

Page 126: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

126

[14] Chinchilli, V. M., Breen, T. J. (1985). Testing the independence of q binary randomvariables. Technical Report, Department of Biostatistics, Medical College of Virginia,Richmond. (Abstract in Biometrics, 41, 578).

[15] Choi, Y. H., Matthews, D. E. (2005). Accelerated life regression modelling of dependentbivariate time-to-event data. Canadian Journal of Statistics, 33, 449-464.

[16] Clayton, D. G.(1978). A model for association in bivariate life-tables and its applicationin epidemiological studies of familial tendency in chronie disease incidence. Biometrika,65, 141-151.

[17] Conway, D. (1979). Multivariate distributions with specified marginals. Technical ReportNo. 145, Department of Statistics, Stanford University, Stanford, California.

[18] Cook, R. D. (1977). Detection of influential observation in linear regression. Technome-trics 19, 15-18.

[19] Cook, R. D. (1986). Assessment of local influence. Journal of the Royal Statistical Society,B, 48, 133-169.

[20] Cook, R. D., Weisberg, S. (1982). Residuals and Influence in Regression. Chapman andHall. London.

[21] Cordeiro, G. M., Paula, G. A. (1992). Estimation, large-sample parametric tests anddiagnostics for non-exponential family nonlinear models. Communications in Statistics:Simulation and Computation, 21, 149-172.

[22] Davison, A. C., Tsai, C. L. (1992). Regression model diagnostics. International StatisticalReview, 60, 337-353.

[23] Devroye, L. (1986). Non-Uniform Random Variate Generation. Springer, New York.

[24] Díaz-García, J. A., Galea, M., Leiva, V. (2003). Influence diagnostics for elliptical mul-tivariate linear regression models. Communications in Statistics: Theory and Methods,32, 625-641.

[25] Dy, Jennifer G. (2004). Feature selection for unsupervised learning. Journal of MachineLearning Research, 5, 845–889.

[26] Durling, F. C. (1974). Bivariate normit, logit, and Burrit analysis. Research Report No.24, Department of Mathematics, University of Waikato, Hamilton, New Zealand.

[27] Engelhardt, M., Bain, L. J., Wright, F. T. (1981). Inferences on the parameters of theBirnbaum- Saunders fatigue life distribution based on maximum likelihood estimation.Technometrics, 23, 251-255.

[28] Farlie, D. G. J. (1960). The performance of some correlation coefficients for a generalBivariate distribution, Biometrika, 47, 307–323.

[29] Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annalsof Eugenics, 7(2), 179–188.

Page 127: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

127

[30] Frank, M. J. (1979). On the simultaneous associativity of 𝐹 (𝑥, 𝑦) and 𝑥 + 𝑦 − 𝐹 (𝑥, 𝑦).Aequations Mathemacicae, 19, 194-226.

[31] Galea, M., Paula, G. A., Bolfarine, H. (1997). Local influence in elliptical regressionmodels. The Statistician, 46, 1, 71 - 79.

[32] Galea, M., Riquelme, M., Paula, G. A. (2000). Diagnostics methods in elliptical linearregression models. Brazilian Journal of Probability and Statistics, 14, 167-184.

[33] Galea, M., Leiva, V., Paula G. A. (2004). Influence diagnostics in log-Birnbaum-Saundersregression models. Journal of Applied Statistics, 31, 1049-1064.

[34] Genest, C., MacKay, R. J. (1986). Copules archim´ediennes et familles de lois bidimen-sionnelles dont les marges sont donn´ees. Canadian Journal of Statistics, 14, 145–159.

[35] Guiraud, P., Leiva, V., Fierro, R. (2009). A non-central version of the birnbaum-saundersdistribution for reliability analysis. IEEE Transactions on Reliability, 58, 152–160.

[36] Gumbel, E. J. (1958). Statistics of Extremes. Columbia University Press, New York.

[37] Gumbel, E.J. (1960). Bivariate exponential distributions. Journal of the American Sta-tistical Association, 55, 698–707.

[38] Huang, J. S., Kotz, S. (1999). Modifications of the Farlie–Gumbel–Morgenstern distri-butions: A tough hill to climb. Metrika, 49, 307–323.

[39] Hofert, M., Kojadinovic, I., Maechler, M., Yan, J. (2015). copula: Multivariate Depen-dence with Copulas. R package version 0.999-16.

[40] Johnson, N. L. (1949). Systems of frequency curves generated by methods of translation.Biometrika, 36, 149–176.

[41] Johnson M. E. (1987). Multivariate Statistical Simulation. Wiley, New York.

[42] Johnson, N. L., Kotz, S., Balakrishnan, N. (1994). Continuous Univariate Distributions,Vol. 1, Second Edition. John Wiley and Sons, New York.

[43] Johnson, N. L., Kotz, S., Balakrishnan, N. (1995). Continuous Univariate Distributions,Vol. 2, Second Edition. John Wiley and Sons, New York.

[44] Johnson, N. L., Kotz, S., Balakrishnan, N. (1997). Discrete Multivariate Distributions.John Wiley and Sons, New York.

[45] Johnson, R., Wichern, D. (1998). Applied Multivariate Statistical Analysis. Pearson, US.

[46] Kim, M. G. (1998). Local influence on a test of linear hypothesis in multiple regressionmodel. Journal of Applied Statistics, 25, 145-152.

[47] Korkmaz, S., Goksuluk, D., Zararsiz, G. (2014). MVN: an R package for assessing mul-tivariate normality. R Journal, 6(2), 151–162.

[48] Kotz, S., Balakrishnan, N., Johnson, N. L. (2000). Continuous Multivariate Distributi-ons, Vol. 1, Second Edition. John Wiley and Sons, New York.

Page 128: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

128

[49] Kundu, D., K., N., Balakrishnan, N. (2008). On the hazard function of birn-baum–saunders distribution and associated inference. Computational Statistics and DataAnalysis, 52, 2692–2702.

[50] Kundu, D., Balakrishnan, N., Jamalizadeh, A. (2010). Bivariate birnbaum saundersdistribution and associated inference. Journal of Multivariate Analysis, 101, 113–125.

[51] Kundu, D., Balakrishnan, N., Jamalizadeh, A. (2013). Generalized multivariate Birn-baum–Saunders distributions and related inferential issues. Journal of MultivariateAnalysis, 116, 230-244.

[52] Kundu, D. (2015). Bivariate sinh-normal distribution and a related model. BrazilianJournal of Probability and Statistics, 29, 590-607.

[53] Lai, C. D. (1978). Morgenstern’s bivariate distibution and its application to point pro-cess. Journal of Mathematical Analysis and Applications, 65, 247–256.

[54] Leiva, V., Barros, M., Paula, G., Galea, M. (2007). Influence diagnostics in log-birnbaumsaunders regression models with censored data. Computational Statistics and DataAnalysis, 51, 5694–5707.

[55] Leiva, V., Barros, M., Paula, G., Sanhueza, A. (2008). Generalized birnbaum-saundersdistributions applied to air pollutant concentration. Environmetrics, 19, 235–249.

[56] Leiva, V., Sanhueza, A., Angulo, J. M. (2009). A length-biased version of the Birnbaum-Saunders distribution with application in water quality. Stoch Environ Res Risk Assess,23, 299-307.

[57] Leiva, V., Vilca, F., Balakrishnan, N., Sanhueza, A. (2010). A skewed Sinh-Normal distri-bution and its properties and application to air pollution. Communications in Statistics-Theory and Methods, 39, 426-443.

[58] Lemonte, A. J., Cordeiro, G. M. (2009). Improved maximum likelihood estimation inBirnbaum-Saunders nonlinear regressions. Computational Statistics and Data Analysis,53(12), 4441-4452.

[59] Lesaffre, E., Verbeke G. (1998). Local influence in linear mixed models. Biometrics, 54,570 - 582.

[60] Loh, W. Y., Shih, Y. S. (1997). “SPLIT SELECTION METHODS FOR CLASSIFICA-TION TREES.” Statistica Sinica, 7, 815–840.

[61] Long, D., Krzysztofowicz, R. (1992). Farlie–Gumbel–Morgenstern bivariate densities:Are they applicable in hydrology? Stochastic Hydrology and Hydraulics, 6, 47–54.

[62] Lu, M., Chang, D. S. (1997). Bootstrap prediction intervals for the Birnbaum-Saundersdistribution. Microelectron Reliability, 37, 1213-1216.

[63] Mann, N. R., Schafer, R. E., Singpurwalla, N. (1974). Methods for Statistical Analysisof Reliability and Life Data. John Wiley and Sons, New York.

Page 129: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

129

[64] Moolgavkar, S., Lustbader, E., Venzon, D. (1984). A geometric approach to nonlinearregression diagnostic with application to matched case-control studies. Annals of Statis-tics, 12, 816-826.

[65] Nelsen, R. B. (2006). An Introduction to Copulas. New York: Springer.

[66] Ng, H., Kundu, D., Balakrishnan, N. (2003). Modified moment estimation for the two-parameter birnbaum saunders distribution. Computational Statistics and Data Analysis,43, 283–298.

[67] Paula, G. A. (1993). Assessing local influence in restricted regressions models. Compu-tational Statistics and Data Analysis, 16, 63 - 79.

[68] Paula, G. A. (2004). Modelos de Regressão com Apoio Computacional. Instituto deMatemática e Estatística-USP, São Paulo-SP, Brasil.

[69] Paula, G., Leiva, V., Barros, M., Liu, S. (2012). Robust statistical modeling using thebirnbaum saunders-t distribution applied to insurance. Applied Stochastic Models inBusiness and Industry, 28, 16–34.

[70] Paula, G. A., Peres, C. A. (1988). Diagnostics for GLMs with linear inequality parameterconstraints. Communications in Statistics: Theory and Methods, 17, 4205-4219.

[71] Poon, W. Y., Poon, Y. S. (1999). Conformal normal curvature and assessment of localinfluence. Journal of the Royal Statistical Society B, 61, 51 - 61.

[72] Rieck, J. R. (1989). Statistical Analysis for the Birnbaum-Saunders Fatigue Life Dis-tribution. Unpublished Ph.D. thesis, Department of Mathematical Sciences, ClemsonUniversity, South Carolina, USA.

[73] Rieck, J. R., Nedelman, J. R. (1991). A log-linear model for the Birnbaum-Saundersdistribution. Technometrics, 33, 51-60.

[74] Sánchez, L. M. B., Vilca, F. (2014) Modelos Birnbaum-Saunders bivariados. Dissertaçãode Mestrado. UNICAMP: Programa de Pós-Graduação em Estatística, SP.

[75] Saunders, S. C. (1974). A family of random variables closed under reciprocation. Journalof the American Statistical Association, 69, 533-539.

[76] Schucany, W. R., Parr, W. C., Boyer, J. E. (1978). Correlation structure in Far-lie–Gumbel– Morgenstern distributions. Biometrika, 65, 650–653.

[77] Souza, F. A. M. D. (1999). Influência Local e Análise de Resíduos em Modelos de Re-gressão Von Mises. Tese de Doutorado. IME/USP, São Paulo.

[78] Teichmann, T. (1986). Joint probabilities of partially coupled events. Reliability Engi-neering, 14, 133–148.

[79] Tung, A. K. H., Xu, X., Ooi, B. C. O. (2005). CURLER: Finding and VisualizingNonlinear Correlated Clusters. SIGMOD Conference.

Page 130: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

130

[80] Verbeke, G., Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. Sprin-ger, New York.

[81] Vilca, F., Romeiro, R. G., Balakrishnan, N., (2016). A bivariate Birnbaum-Saundersregression model. Computational Statistics and Data Analysis, 97, 169-183.

[82] Wada, C. Y., Hotta, L. K. (2000). Restricted alternatives tests in a bivariate exponentialmodel with covariates. Communications in Statistics - Theory and Methods, 29:1, 193-210

[83] Xie, F. C., Wei, B. C. (2007). Diagnostics analysis for log-Birnbaum-Saunders regressionmodels. Computational Statistics and Data Analysis, 51, 4692–4706.

[84] Zhu, H., S. Lee (2001). Local influence for incomplete-data models. Journal of the RoyalStatistical Society, Series B 63, 111–126.

Page 131: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

131

Apêndice A

Cálculo da Matriz de InformaçãoObservada

Neste apêndice, apresentamos os cálculos utilizados para desenvolvimento da matrizde informação de Fisher. Para maior facilidade de notação e entendimento, os cálculosserão demonstrados para apenas uma observação.

A função de verossimilhança foi definida em (4.2.7) e apresentamos novamente

ℓ𝑖(𝜃) =𝑛∑

𝑖=1𝑙1𝑖(𝜃1) + 𝑙2𝑖(𝜃2) + log(𝑐𝑖(𝜃)).

Calculando primeiramente as derivadas de primeira ordem, temos

𝑈𝑖(𝜃) = 𝜕

𝜕𝜃ℓ𝑖(𝜃) = (𝑈𝛼;𝑖(𝜃), 𝑈𝛽;𝑖(𝜃), 𝑈𝜂;𝑖(𝜃))⊤

em que

𝑈𝛼;𝑖(𝜃)) = 𝜕

𝜕𝛼ℓ𝑖(𝜃) =

(𝜕

𝜕𝛼1[𝑙1𝑖(𝜃1) + log(𝑐𝑖(𝜃))]

𝜕𝜕𝛼2

[𝑙2𝑖(𝜃2) + log(𝑐𝑖(𝜃))]

)

=(

𝜕𝜕𝛼1

[log(𝜉1𝑖(𝜃1)) − 12𝜉2

2𝑖(𝜃1)] + 𝜕𝜕𝛼1

log(𝑐𝑖(𝜃))𝜕

𝜕𝛼2[log(𝜉1𝑖(𝜃2)) − 1

2𝜉22𝑖(𝜃2)] + 𝜕

𝜕𝛼2log(𝑐𝑖(𝜃))

)

=(

𝜕𝜕𝛼1

log(𝜉1𝑖(𝜃1))𝜕

𝜕𝛼2log(𝜉1𝑖(𝜃2))

)− 1

2

(𝜕

𝜕𝛼1𝜉2

2𝑖(𝜃1)𝜕

𝜕𝛼2𝜉2

2𝑖(𝜃2)

)+(

𝜕𝜕𝛼1

log(𝑐𝑖(𝜃))𝜕

𝜕𝛼2log(𝑐𝑖(𝜃))

)

= A𝑖 − 12B𝑖 + C𝑖.

A𝑖 =(

𝜕𝜕𝛼1

log(𝜉1𝑖(𝜃1))𝜕

𝜕𝛼2log(𝜉1𝑖(𝜃2))

)=( 1

𝜉1𝑖(𝜃1)𝜕

𝜕𝛼1𝜉1𝑖(𝜃1)

1𝜉1𝑖(𝜃2)

𝜕𝜕𝛼2

𝜉1𝑖(𝜃2)

)

=( 1

𝜉1𝑖(𝜃1) 00 1

𝜉1𝑖(𝜃2)

)(𝜕

𝜕𝛼1𝜉1𝑖(𝜃1)

𝜕𝜕𝛼2

𝜉1𝑖(𝜃2)

)= 𝐷−1(𝜉1𝑖(𝜃))𝐴1𝑖(𝛼).

Page 132: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

132

B𝑖 =(

𝜕𝜕𝛼1

𝜉22𝑖(𝜃1)

𝜕𝜕𝛼2

𝜉22𝑖(𝜃2)

)= 2

(𝜉2𝑖(𝜃1) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1)

𝜉2𝑖(𝜃2) 𝜕𝜕𝛼2

𝜉2𝑖(𝜃2)

)

= 2(

𝜉2𝑖(𝜃1) 00 𝜉2𝑖(𝜃2)

)(𝜕

𝜕𝛼1𝜉2𝑖(𝜃1)

𝜕𝜕𝛼2

𝜉2𝑖(𝜃2))

)= 2𝐷(𝜉2𝑖(𝜃))𝐴2𝑖(𝛼).

C𝑖 = 𝜕

𝜕𝛼log(𝑐𝑖(𝜃)) = 1

𝑐𝑖(𝜃)𝜕

𝜕𝛼𝑐𝑖(𝜃) =

= 1𝑐𝑖(𝜃)

𝜕

𝜕𝛼

{1 + 4𝜂[Φ(𝜉2𝑖(𝜃1)) − 1

2][Φ(𝜉2𝑖(𝜃2)) − 12]}

= 4𝜂

𝑐𝑖(𝜃)

(𝜑(𝜉2𝑖(𝜃1))[Φ(𝜉2𝑖(𝜃2)) − 1

2 ] 𝜕𝜕𝛼1

𝜉2𝑖(𝜃1)𝜑(𝜉2𝑖(𝜃2))[Φ(𝜉2𝑖(𝜃1)) − 1

2 ] 𝜕𝜕𝛼2

𝜉2𝑖(𝜃2)

)

= 4𝜂

𝑐𝑖(𝜃)

(𝜑(𝜉2𝑖(𝜃1)) 0

0 𝜑(𝜉2𝑖(𝜃2))

)(Φ(𝜉2𝑖(𝜃2)) − 1

2 00 Φ(𝜉2𝑖(𝜃1)) − 1

2

)(𝜕

𝜕𝛼1𝜉2𝑖(𝜃1)

𝜕𝜕𝛼2

𝜉2𝑖(𝜃2)

)

= 4𝜂

𝑐𝑖(𝜃)𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛼).

𝑈𝛽;𝑖(𝜃)) = 𝜕

𝜕𝛽ℓ𝑖(𝜃) =

(𝜕

𝜕𝛽1[𝑙1𝑖(𝜃1) + log(𝑐𝑖(𝜃))]

𝜕𝜕𝛽2

[𝑙2𝑖(𝜃2) + log(𝑐𝑖(𝜃))]

)

=(

𝜕𝜕𝛽1

[log(𝜉1𝑖(𝜃1)) − 12𝜉2

2𝑖(𝜃1)] + 𝜕𝜕𝛽1

log(𝑐𝑖(𝜃))𝜕

𝜕𝛽2[log(𝜉1𝑖(𝜃2)) − 1

2𝜉22𝑖(𝜃2)] + 𝜕

𝜕𝛽2log(𝑐𝑖(𝜃))

)

=(

𝜕𝜕𝛽1

log(𝜉1𝑖(𝜃1))𝜕

𝜕𝛽2log(𝜉1𝑖(𝜃2))

)− 1

2

(𝜕

𝜕𝛽1𝜉2

2𝑖(𝜃1)𝜕

𝜕𝛽2𝜉2

2𝑖(𝜃2)

)+(

𝜕𝜕𝛽1

log(𝑐𝑖(𝜃))𝜕

𝜕𝛽2log(𝑐𝑖(𝜃))

)

= D𝑖 − 12F𝑖 + G𝑖.

D𝑖 =(

𝜕𝜕𝛽1

log(𝜉1𝑖(𝜃1))𝜕

𝜕𝛽2log(𝜉1𝑖(𝜃2))

)=( 1

𝜉1𝑖(𝜃1)𝜕

𝜕𝛽1𝜉1𝑖(𝜃1)

1𝜉1𝑖(𝜃2)

𝜕𝜕𝛽2

𝜉1𝑖(𝜃2)

)

=( 1

𝜉1𝑖(𝜃1) 00 1

𝜉1𝑖(𝜃2)

)(𝜕

𝜕𝛽1𝜉1𝑖(𝜃1)

𝜕𝜕𝛽2

𝜉1𝑖(𝜃2)

)= 𝐷−1(𝜉1𝑖(𝜃))𝐴1𝑖(𝛽).

F𝑖 =(

𝜕𝜕𝛽1

(𝜉22𝑖(𝜃1))

𝜕𝜕𝛽2

(𝜉22𝑖(𝜃2))

)= 2

(𝜉2𝑖(𝜃1) 𝜕

𝜕𝛽1𝜉2𝑖(𝜃1)

𝜉2𝑖(𝜃2) 𝜕𝜕𝛽2

𝜉2𝑖(𝜃2)

)

= 2(

𝜉2𝑖(𝜃1) 00 𝜉2𝑖(𝜃2)

)(𝜕

𝜕𝛽1𝜉2𝑖(𝜃1)

𝜕𝜕𝛽2

𝜉2𝑖(𝜃2)

)= 2𝐷(𝜉2𝑖(𝜃))𝐴2𝑖(𝛽).

Page 133: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

133

G𝑖 = 𝜕

𝜕𝛽log(𝑐𝑖(𝜃)) = 1

𝑐𝑖(𝜃)𝜕

𝜕𝛽𝑐𝑖(𝜃) =

= 1𝑐𝑖(𝜃)

𝜕

𝜕𝛽

{1 + 4𝜂[Φ(𝜉2𝑖(𝜃1)) − 1

2][Φ(𝜉2𝑖(𝜃2)) − 12]}

= 4𝜂

𝑐𝑖(𝜃)

(𝜑(𝜉2𝑖(𝜃1))[Φ(𝜉2𝑖(𝜃2)) − 1

2 ] 𝜕𝜕𝛽1

𝜉2𝑖(𝜃1)𝜑(𝜉2𝑖(𝜃2))[Φ(𝜉2𝑖(𝜃1)) − 1

2 ] 𝜕𝜕𝛽2

𝜉2𝑖(𝜃2)

)

= 4𝜂

𝑐𝑖(𝜃)

(𝜑(𝜉2𝑖(𝜃1)) 0

0 𝜑(𝜉2𝑖(𝜃2))

)(Φ(𝜉2𝑖(𝜃2)) − 1

2 00 Φ(𝜉2𝑖(𝜃1)) − 1

2

)(𝜕

𝜕𝛽1𝜉2𝑖(𝜃1)

𝜕𝜕𝛽2

𝜉2𝑖(𝜃2)

)

= 4𝜂

𝑐𝑖(𝜃)𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛽).

𝑈𝜂;𝑖(𝜃)) = 𝜕

𝜕𝜂ℓ𝑖(𝜃) = 𝜕

𝜕𝜂log(𝑐𝑖(𝜃)) = 1

𝑐𝑖(𝜃)𝜕

𝜕𝜂𝑐𝑖(𝜃)

= 1𝑐𝑖(𝜃)

𝜕

𝜕𝜂

[1 + 𝜂[2Φ(𝜉2𝑖(𝜃1)) − 1][2Φ(𝜉2𝑖(𝜃2)) − 1]

]= 1

𝑐𝑖(𝜃) [2Φ(𝜉2𝑖(𝜃1)) − 1][2Φ(𝜉2𝑖(𝜃2)) − 1].

Calculando agora as derivadas de segunda ordem, temos

��(𝜃) = 𝜕2ℓ(𝜃)𝜕𝜃𝜕𝜃⊤ =

𝑛∑𝑖=1

𝜕2ℓ𝑖(𝜃)𝜕𝜃𝜕𝜃⊤ =

⎛⎜⎝ ��𝛼𝛼 ��𝛼𝛽 ��𝛼𝜂

��𝛽𝛽 ��𝛽𝜂

��𝜂𝜂

⎞⎟⎠ .

em que

��𝛼𝛼 = 𝜕2ℓ(𝜃)𝜕𝛼𝜕𝛼⊤ = 𝜕

𝜕𝛼[A⊤ − 1

2B⊤ + C⊤].

𝜕

𝜕𝛼A⊤

𝑖 = 𝜕

𝜕𝛼

(1

𝜉1𝑖(𝜃1)𝜕

𝜕𝛼1𝜉1𝑖(𝜃1) 1

𝜉1𝑖(𝜃2)𝜕

𝜕𝛼2𝜉1𝑖(𝜃2)

)=

⎛⎝ − 1𝜉2

1𝑖(𝜃1)(𝑎1𝑖(𝛼1))2 00 − 1

𝜉21𝑖(𝜃2)(𝑎1𝑖(𝛼2))2

⎞⎠+

⎛⎝ 1𝜉1𝑖(𝜃1)

𝜕2

𝜕𝛼1𝛼1𝜉1𝑖(𝜃1) 0

0 1𝜉1𝑖(𝜃2)

𝜕2

𝜕𝛼2𝛼2𝜉1𝑖(𝜃2)

⎞⎠= −𝐷−2(𝜉1𝑖(𝜃))𝐷2(𝐴1𝑖(𝛼)) + 𝐷−1(𝜉1𝑖(𝜃))𝐷(𝐵1𝑖(𝛼)).

Page 134: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

134

𝜕

𝜕𝛼B⊤

𝑖 = 2 𝜕

𝜕𝛼

(𝜉2𝑖(𝜃1) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1) 𝜉2𝑖(𝜃2) 𝜕

𝜕𝛼2𝜉2𝑖(𝜃2)

)= 2

((𝑎2𝑖(𝛼1))2 0

0 (𝑎2𝑖(𝛼2))2

)

+⎛⎝ 𝜕2

𝜕𝛼1𝛼1𝜉2𝑖(𝜃1) 00 𝜕2

𝜕𝛼2𝛼2𝜉2𝑖(𝜃2)

⎞⎠= 2[𝐷2(𝐴2𝑖(𝛼)) + 𝐷(𝜉2𝑖(𝜃))𝐷(𝐵2𝑖(𝛼))].

𝜕

𝜕𝛼C⊤

𝑖 = 𝜕

𝜕𝛼

4𝜂

𝑐𝑖(𝜃)(

𝜑(𝜉2𝑖(𝜃1))[Φ(𝜉2𝑖(𝜃2)) − 12 ]𝑎2𝑖(𝛼1) 𝜑(𝜉2𝑖(𝜃2))[Φ(𝜉2𝑖(𝜃1)) − 1

2 ]𝑎2𝑖(𝛼2))

= 𝜕

𝜕𝛼

{ 4𝜂

𝑐𝑖(𝜃)}𝜓⊤

𝑖 + 4𝜂

𝑐𝑖(𝜃)𝜕

𝜕𝛼𝜓⊤

𝑖 = C1𝑖 + C2𝑖.

C1𝑖 = − 4𝜂

𝑐𝑖(𝜃)C𝑖 ×𝜓⊤.

C2𝑖 = 4𝜂

𝑐𝑖(𝜃)

[(

𝜑′(𝜉2𝑖(𝜃1))(𝑎2𝑖(𝛼1))2𝜅𝑖(𝜃2) 𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2)) 𝜕𝜕𝛼1

𝜉2𝑖(𝜃1) 𝜕𝜕𝛼2

𝜉2𝑖(𝜃2)𝜑(𝜉2𝑖(𝜃2))𝜑(𝜉2𝑖(𝜃1)) 𝜕

𝜕𝛼2𝜉2𝑖(𝜃2) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1) 𝜑′(𝜉2𝑖(𝜃2))(𝑎2𝑖(𝛼2))2𝜅𝑖(𝜃1)

)

+⎛⎝ 𝜑(𝜉2𝑖(𝜃1))𝜅𝑖(𝜃2) 𝜕2

𝜕𝛼1𝛼1𝜉2𝑖(𝜃1) 0

0 𝜑(𝜉2𝑖(𝜃2))𝜅𝑖(𝜃1) 𝜕2

𝜕𝛼2𝛼2𝜉2𝑖(𝜃2)

⎞⎠]

= 4𝜂

𝑐𝑖(𝜃)

[((𝑎2𝑖(𝛼1))2 𝑎2𝑖(𝛼1)𝑎2𝑖(𝛼2)

𝑎2𝑖(𝛼1)𝑎2𝑖(𝛼2) (𝑎2𝑖(𝛼2))2

)

∘(

𝜑′(𝜉2𝑖(𝜃1))𝜅𝑖(𝜃2) − 𝜑2(𝜉2𝑖(𝜃1)) 00 𝜑′(𝜉2𝑖(𝜃2))𝜅𝑖(𝜃1) − 𝜑2(𝜉2𝑖(𝜃2))

)

+(

𝜑2(𝜉2𝑖(𝜃1)) 𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2))𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2)) 𝜑2(𝜉2𝑖(𝜃2))

)

+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐵2𝑖(𝛼)]

= 4𝜂

𝑐𝑖(𝜃)[𝐴2𝑖(𝛼)𝐴2𝑖(𝛼)⊤ ∘

[𝐷(𝜉2𝑖(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃)) − 𝐷2(𝜉2𝑖(𝜃; 𝜑)) + 𝜉2𝑖(𝜃; 𝜑)𝜉2𝑖(𝜃; 𝜑)⊤

]+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐵2𝑖(𝛼)

].

A notação 𝐴 ∘ 𝐵 representa o Produto de Hadamard.

��𝛽𝛽 = 𝜕2ℓ(𝜃)𝜕𝛽𝜕𝛽⊤ = 𝜕

𝜕𝛽[D⊤ − 1

2F⊤ + G⊤].

Page 135: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

135

𝜕

𝜕𝛼D⊤

𝑖 = 𝜕

𝜕𝛽

(1

𝜉1𝑖(𝜃1)𝜕

𝜕𝛽1𝜉1𝑖(𝜃1) 1

𝜉1𝑖(𝜃2)𝜕

𝜕𝛽2𝜉1𝑖(𝜃2)

)

=⎛⎝ − 1

𝜉21𝑖(𝜃1)(𝑎1𝑖(𝛽1))2 0

0 − 1𝜉2

1𝑖(𝜃2)(𝑎1𝑖(𝛽2))2

⎞⎠+

⎛⎝ 1𝜉1𝑖(𝜃1)

𝜕2

𝜕𝛽1𝛽1𝜉1𝑖(𝜃1) 0

0 1𝜉1𝑖(𝜃2)

𝜕2

𝜕𝛽2𝛽2𝜉1𝑖(𝜃2)

⎞⎠= −𝐷−2(𝜉1𝑖(𝜃))𝐷2(𝐴1𝑖(𝛽)) + 𝐷−1(𝜉1𝑖(𝜃))𝐷(𝐵1𝑖(𝛽)).

𝜕

𝜕𝛽F⊤

𝑖 = 2 𝜕

𝜕𝛽

(𝜉2𝑖(𝜃1) 𝜕

𝜕𝛽1𝜉2𝑖(𝜃1) 𝜉2𝑖(𝜃2) 𝜕

𝜕𝛽2𝜉2𝑖(𝜃2)

)= 2

((𝑎2𝑖(𝛽1))2 0

0 (𝑎2𝑖(𝛽2))2

)

+⎛⎝ 𝜕2

𝜕𝛽1𝛽1𝜉2𝑖(𝜃1) 00 𝜕2

𝜕𝛽2𝛽2𝜉2𝑖(𝜃2)

⎞⎠= 2[𝐷2(𝐴2𝑖(𝛽)) + 𝐷(𝜉2𝑖(𝜃))𝐷(𝐵2𝑖(𝛽))].

𝜕

𝜕𝛽G⊤

𝑖 = 𝜕

𝜕𝛽

4𝜂

𝑐𝑖(𝜃)(

𝜑(𝜉2𝑖(𝜃1))[Φ(𝜉2𝑖(𝜃2)) − 12 ]𝑎1𝑖(𝛽1) 𝜑(𝜉2𝑖(𝜃2))[Φ(𝜉2𝑖(𝜃1)) − 1

2 ]𝑎1𝑖(𝛽2))

= 𝜕

𝜕𝛽

{ 4𝜂

𝑐𝑖(𝜃)}𝜓⊤

𝑖 + 4𝜂

𝑐𝑖(𝜃)𝜕

𝜕𝛽𝜓⊤

𝑖 = G1𝑖 + G2𝑖.

G1𝑖 = − 4𝜂

𝑐𝑖(𝜃)G𝑖 ×𝜓⊤.

Page 136: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

136

G2𝑖 = 4𝜂

𝑐𝑖(𝜃)

[(

𝜑′(𝜉2𝑖(𝜃1))(𝑎1𝑖(𝛽1))2𝜅𝑖(𝜃2) 𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2)) 𝜕𝜕𝛽1

𝜉2𝑖(𝜃1) 𝜕𝜕𝛽2

𝜉2𝑖(𝜃2)𝜑(𝜉2𝑖(𝜃2))𝜑(𝜉2𝑖(𝜃1)) 𝜕

𝜕𝛽2𝜉2𝑖(𝜃2) 𝜕

𝜕𝛽1𝜉2𝑖(𝜃1) 𝜑′(𝜉2𝑖(𝜃2))(𝑎1𝑖(𝛽2))2𝜅𝑖(𝜃1)

)

+⎛⎝ 𝜑(𝜉2𝑖(𝜃1))𝜅𝑖(𝜃2) 𝜕2

𝜕𝛽1𝛽1𝜉2𝑖(𝜃1) 0

0 𝜑(𝜉2𝑖(𝜃2))𝜅𝑖(𝜃1) 𝜕2

𝜕𝛽2𝛽2𝜉2𝑖(𝜃2)

⎞⎠]

= 4𝜂

𝑐𝑖(𝜃)

[((𝑎2𝑖(𝛽1))2 𝑎2𝑖(𝛽1)𝑎2𝑖(𝛽2)

𝑎2𝑖(𝛽1)𝑎2𝑖(𝛽2) (𝑎2𝑖(𝛽2))2

)

∘(

𝜑′(𝜉2𝑖(𝜃1))𝜅𝑖(𝜃2) − 𝜑2(𝜉2𝑖(𝜃1)) 00 𝜑′(𝜉2𝑖(𝜃2))𝜅𝑖(𝜃1) − 𝜑2(𝜉2𝑖(𝜃2))

)

+(

𝜑2(𝜉2𝑖(𝜃1)) 𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2))𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2)) 𝜑2(𝜉2𝑖(𝜃2))

)

+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐵2𝑖(𝛽)]

= 4𝜂

𝑐𝑖(𝜃)[𝐴2𝑖(𝛽)𝐴2𝑖(𝛽)⊤ ∘

[𝐷(𝜉2𝑖(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃)) − 𝐷2(𝜉2𝑖(𝜃; 𝜑)) + 𝜉2𝑖(𝜃; 𝜑)𝜉2𝑖(𝜃; 𝜑)⊤

]+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐵2𝑖(𝛽)

].

��𝛼𝛽 = 𝜕2ℓ(𝜃)𝜕𝛼𝜕𝛽⊤ = 𝜕

𝜕𝛽[A⊤ − 1

2B⊤ + C⊤].

𝜕

𝜕𝛽A⊤

𝑖 = 𝜕

𝜕𝛽

(1

𝜉1𝑖(𝜃1)𝜕

𝜕𝛼1𝜉1𝑖(𝜃1) 1

𝜉1𝑖(𝜃2)𝜕

𝜕𝛼2𝜉1𝑖(𝜃2)

)

=⎛⎝ − 1

𝜉21𝑖(𝜃1)

𝜕𝜕𝛼1

𝜉1𝑖(𝜃1) 𝜕𝜕𝛽1

𝜉1𝑖(𝜃1) 00 − 1

𝜉21𝑖(𝜃2)

𝜕𝜕𝛼2

𝜉1𝑖(𝜃2) 𝜕𝜕𝛽2

𝜉1𝑖(𝜃2)

⎞⎠+

⎛⎝ 1𝜉1𝑖(𝜃1)

𝜕2

𝜕𝛼1𝛽1𝜉1𝑖(𝜃1) 0

0 1𝜉1𝑖(𝜃2)

𝜕2

𝜕𝛼2𝛽2𝜉1𝑖(𝜃2)

⎞⎠= −𝐷−2(𝜉1𝑖(𝜃))𝐷(𝐴1𝑖(𝛼))𝐷(𝐴1𝑖(𝛽)) + 𝐷−1(𝜉1𝑖(𝜃))𝐷(𝐶1𝑖(𝛼,𝛽)).

𝜕

𝜕𝛽B⊤

𝑖 = 2 𝜕

𝜕𝛽

(𝜉2𝑖(𝜃1) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1) 𝜉2𝑖(𝜃2) 𝜕

𝜕𝛼2𝜉2𝑖(𝜃2)

)= 2

(𝜕

𝜕𝛽1𝜉2𝑖(𝜃1) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1) 0

0 𝜕𝜕𝛽2

𝜉2𝑖(𝜃2) 𝜕𝜕𝛼2

𝜉2𝑖(𝜃2)

)

+⎛⎝ 𝜉2𝑖(𝜃1) 𝜕2

𝜕𝛼1𝛽1𝜉2𝑖(𝜃1) 0

0 𝜉2𝑖(𝜃2) 𝜕2

𝜕𝛼2𝛽2𝜉2𝑖(𝜃2)

⎞⎠= 2[𝐷(𝐴2𝑖(𝛼))𝐷(𝐴2𝑖(𝛽)) + 𝐷(𝜉2𝑖(𝜃))𝐷(𝐶2𝑖(𝛼,𝛽))].

Page 137: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

137

𝜕

𝜕𝛽C⊤

𝑖 = 𝜕

𝜕𝛽

4𝜂

𝑐𝑖(𝜃)(

𝜑(𝜉2𝑖(𝜃1))[Φ(𝜉2𝑖(𝜃2)) − 12 ]𝑎2𝑖(𝛼1) 𝜑(𝜉2𝑖(𝜃2))[Φ(𝜉2𝑖(𝜃1)) − 1

2 ]𝑎2𝑖(𝛼2))

= 𝜕

𝜕𝛽

{ 4𝜂

𝑐𝑖(𝜃)}𝜓⊤

𝑖 + 4𝜂

𝑐𝑖(𝜃)𝜕

𝜕𝛽𝜓⊤

𝑖 = C3𝑖 + C4𝑖.

C3𝑖 = − 4𝜂

𝑐𝑖(𝜃)G𝑖 ×𝜓⊤.

C4𝑖 = 4𝜂

𝑐𝑖(𝜃)

[⎛⎜⎝ 𝜑′(𝜉2𝑖(𝜃1)) 𝜕

𝜕𝛽1𝜉2𝑖(𝜃1)) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1))𝜅(𝜃2) 𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2)) 𝜕

𝜕𝛼1𝜉2𝑖(𝜃1)) 𝜕

𝜕𝛽2𝜉2𝑖(𝜃2))

𝜑(𝜉2𝑖(𝜃2))𝜑(𝜉2𝑖(𝜃1)) 𝜕𝜕𝛼2

𝜉2𝑖(𝜃2)) 𝜕𝜕𝛽1

𝜉2𝑖(𝜃1)) 𝜑′(𝜉2𝑖(𝜃2)) 𝜕𝜕𝛽2

𝜉2𝑖(𝜃2)) 𝜕𝜕𝛼2

𝜉2𝑖(𝜃2))𝜅(𝜃1)

⎞⎟⎠

+

⎛⎜⎜⎝ 𝜑(𝜉2𝑖(𝜃1))𝜅(𝜃2) 𝜕2

𝜕𝛼1𝛽1𝜉2𝑖(𝜃1) 0

0 𝜑(𝜉2𝑖(𝜃2))𝜅(𝜃1) 𝜕2

𝜕𝛼2𝛽2𝜉2𝑖(𝜃2)

⎞⎟⎟⎠]

= 4𝜂

𝑐𝑖(𝜃)

[(𝑎2𝑖(𝛽1)𝑎2𝑖(𝛼1) 𝑎2𝑖(𝛼1)𝑎2𝑖(𝛽2)𝑎2𝑖(𝛽1)𝑎2𝑖(𝛼2) 𝑎2𝑖(𝛽2)𝑎2𝑖(𝛼2)

)

∘(

𝜑′(𝜉2𝑖(𝜃1))𝜅𝑖(𝜃2) − 𝜑2(𝜉2𝑖(𝜃1)) 00 𝜑′(𝜉2𝑖(𝜃2))𝜅𝑖(𝜃1) − 𝜑2(𝜉2𝑖(𝜃2))

)

+(

𝜑2(𝜉2𝑖(𝜃1)) 𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2))𝜑(𝜉2𝑖(𝜃1))𝜑(𝜉2𝑖(𝜃2)) 𝜑2(𝜉2𝑖(𝜃2))

)

+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐶2𝑖(𝛼,𝛽)]

= 4𝜂

𝑐𝑖(𝜃)[𝐴2𝑖(𝛼)𝐴2𝑖(𝛽)⊤ ∘

[𝐷(𝜉2𝑖(𝜃; 𝜑′))𝐷(𝜙𝑖(𝜃)) − 𝐷2(𝜉2𝑖(𝜃; 𝜑)) + 𝜉2𝑖(𝜃; 𝜑)𝜉2𝑖(𝜃; 𝜑)⊤

]+ 𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐶2𝑖(𝛼,𝛽)

].

��𝛼𝜂 = 𝜕2ℓ(𝜃)𝜕𝛼𝜕𝜂

= 𝜕

𝜕𝜂[A + B + C] = 𝜕

𝜕𝜂C

= 𝜕

𝜕𝜂

{ 4𝜂

𝑐𝑖(𝜃)}[𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛼)]

= 1𝑐𝑖(𝜃) [4 − 4𝜂𝑈𝜂;𝑖][𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛼)].

Page 138: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

138

��𝛽𝜂 = 𝜕2ℓ(𝜃)𝜕𝛽𝜕𝜂

= 𝜕

𝜕𝜂[D + E + G] = 𝜕

𝜕𝜂G

= 𝜕

𝜕𝜂

{ 4𝜂

𝑐𝑖(𝜃)}[𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛽)]

= 1𝑐𝑖(𝜃) [4 − 4𝜂𝑈𝜂;𝑖][𝐷(𝜉2𝑖(𝜃; 𝜑))𝐷(𝜙𝑖(𝜃))𝐴2𝑖(𝛽)].

��𝜂𝜂 = 𝜕2ℓ(𝜃)𝜕𝜂𝜕𝜂

= − 1𝑐2

𝑖 (𝜃)𝜕𝑐𝑖(𝜃)

𝜕𝜂[2Φ(𝜉2𝑖(𝜃1)) − 1][2Φ(𝜉2𝑖(𝜃2)) − 1]

= − 1𝑐2

𝑖 (𝜃){[2Φ(𝜉2𝑖(𝜃1)) − 1][2Φ(𝜉2𝑖(𝜃2)) − 1]}2.

Page 139: Victor de Andrade Corder - Unicamptaurus.unicamp.br/bitstream/REPOSIP/331952/1/Corder_VictorDeAnd… · As cópulas são funções de distribuição multivariadas que permitem agregar

139

Apêndice B

Primeira e Segunda Derivadas dasFunções 𝜉1𝑖 e 𝜉2𝑖

Para simplificar a notação, omitimos o índice 𝑖 e consideramos 𝜉1𝑗 = 𝜉1(𝜃𝑗), 𝑗 = 1, 2.

𝜕

𝜕𝛼𝑗

𝜉1𝑗 = −𝜉1𝑗

𝛼𝑗

,𝜕

𝜕𝛽𝑗

𝜉1𝑗 = −12𝜉2𝑗x𝑗.

𝜕2

𝜕𝛼𝑗𝜕𝛼𝑗

𝜉1𝑗 = 2𝛼2

𝑗

𝜉1𝑗,𝜕2

𝜕𝛽𝑗𝜕𝛽⊤𝑗

𝜉1𝑗 = 14𝜉1𝑗x𝑗x⊤

𝑗 ,𝜕2

𝜕𝛼𝑗𝜕𝛽⊤𝑗

𝜉1𝑗 = 12𝛼𝑗

𝜉2𝑗x𝑗.

𝜕

𝜕𝛼𝑗

𝜉2𝑗 = −𝜉2𝑗

𝛼𝑗

,𝜕

𝜕𝛽𝑗

𝜉2𝑗 = −12𝜉1𝑗x𝑗.

𝜕2

𝜕𝛼𝑗𝜕𝛼𝑗

𝜉2𝑗 = 2𝛼2

𝑗

𝜉2𝑗,𝜕2

𝜕𝛽𝑗𝜕𝛽⊤𝑗

𝜉2𝑗 = 14𝜉2𝑗x𝑗x⊤

𝑗 ,𝜕2

𝜕𝛼𝑗𝜕𝛽⊤𝑗

𝜉2𝑗 = 12𝛼𝑗

𝜉1𝑗x𝑗.