44
UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA MÉDIA VIA AMOSTRAGEM POR CONJUNTOS ORDENADOS COM VARIÁVEL CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO Curitiba-PR 2009

UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

UNIVERSIDADE FEDERAL DO PARANÁ

CURSO DE ESTATÍSTICA

REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA

MÉDIA VIA AMOSTRAGEM POR CONJUNTOS ORDENADOS COM

VARIÁVEL CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO

Curitiba-PR

2009

Page 2: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

ii

JOAQUIM CANDIDO DA SILVA

MARELYN MAGDA MARQUETTI

REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA

MÉDIA VIA AMOSTRAGEM POR CONJUNTOS ORDENADOS COM

VARIÁVEL CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO

Trabalho de Conclusão de Curso apresentado como

exigência parcial para obtenção do Diploma de

Graduação em Estatística, da Universidade Federal

do Paraná.

Orientador: Profº Dr. Cesar Augusto Taconeli

Banca:Profº Dr. Idemauro Antonio Rodrigues de Lara

Curitiba-PR

2009

Page 3: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

iii

FOLHA DE APROVAÇÃO

JOAQUIM CANDIDO DA SILVA

MARELYN MAGDA MARQUETTI

REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA MÉDIA VIA

AMOSTRAGEM POR CONJUNTOS ORDENADOS COM VARIÁVEL

CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO

Trabalho de conclusão de Curso aprovado como requisito parcial para obtenção do

Diploma de Graduação em Estatística da Universidade Federal do Paraná.

BANCA EXAMINADORA:

Ass.___________________________________

Orientador: Profº Dr. Cesar Augusto Taconeli

Ass.___________________________________

Profº Dr. Idemauro A. Rodrigues de Lara

Curitiba, 01 de julho de 2009

Page 4: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

iv

Dedicamos este trabalho a nossa família,

que nos apoiou e suportou nossa ausência,

a Deus por nos dar esta oportunidade e

principalmente ao nosso orientador pelos

dias dedicados a nós e seu desempenho

em nos orientar e ensinar.

Page 5: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

v

AGRADECIMENTOS

Ao iniciar uma caminhada, o ser humano nunca pode determinar se

conseguirá atingir seus objetivos; nesse caminhar existem possibilidades de que

ocorram tropeços, porém a grande virtude é a coragem para se levantar e começar

novamente, nunca desistir.

Todavia, ao terminar uma jornada, não há prazer no mundo que possa ser

comparado aquele momento. Todas as dificuldades são esquecidas, mesmo que

momentaneamente e após a euforia, novas metas e novos objetivos sejam traçados

e o ser humano recomeçe sua caminhada.

Agradecemos às pessoas que, direta ou indiretamente, ajudaram na

elaboração deste trabalho.

Aos nossos familiares, pelo amor, paciência e apoio.

Ao corpo docente do curso de graduação de Estatística, pelos

ensinamentos, em especial ao nosso orientador César Augusto Taconeli, que teve a

palavra certa nos momentos de dificuldades.

Page 6: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

vi

RESUMO

Introduzida por McIntyre (1952), a amostragem por conjuntos ordenados (ACO) é

uma alternativa eficiente quando a variável de interesse é de difícil mensuração ou

de custo amostral elevado podendo-se, no entanto, ordenar amostras aleatórias

simples segundo esta variável, mas sem de fato medi-la. Tal ordenação pode ser

fundamentada em uma variável concomitante, fortemente correlacionada com a

variável de interesse, ou em algum julgamento pessoal. O bootstrap, por sua vez, é

uma técnica de reamostragem amplamente utilizada na obtenção de estimativas

intervalares, bem como na avaliação da acurácia de estimativas e testes. Barreto e

Taconeli (2006) propõem um algoritmo de reamostragem bootstrap em

delineamentos por conjuntos ordenados. Este trabalho apresenta um estudo por

simulação que tem por objetivo avaliar o referido algoritmo quando aplicado à

estimação intervalar da média quando as amostras são ordenadas segundo uma

variável concomitante. Os intervalos produzidos via ACO se mostraram mais

precisos e, em geral, tão ou mais acurados do que aqueles produzidos via

amostragem aleatória simples. O ganho em precisão aumenta à medida que são

consideradas variáveis com maiores graus de correlação e maiores tamanhos

amostrais. Intervalos mais acurados foram verificados na estimação da média de

distribuições simétricas (normal e uniforme) em relação à distribuição assimétrica

considerada (exponencial).

Palavra Chave: Amostragem por Conjuntos Ordenados, Método Bootstrap

Page 7: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

vii

LISTA DE TABELAS

TABELA 1 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA....................................... 29

TABELA 2 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO UNIFORME, OBTIDA ATRAVÉS DE SIMULAÇÃO, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA ................................... 31

TABELA 3 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA .......................... 33

TABELA 4 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA T-BOOTSTRAP PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA .......................... 36

Page 8: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

viii

LISTA DE FIGURAS

FIGURA 1 - ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS SEM REPLICAS.................................................................................................................15

FIGURA 2 - ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS COM REPLICAS.................................................................................................................15

FIGURA 3- ILUSTRAÇÃO DO PROCEDIMENTO PARA OBTENÇÃO DE REAMOSTRAS BOOTSTRAP.................................................................................18

FIGURA 4 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO NORMAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA ...........................................................28

FIGURA 5 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO UNIFORME, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.................................................30

FIGURA 6 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.................................................32

FIGURA 7 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP T-BOOTSTRAP PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA ...........................35

Page 9: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

ix

SUMÁRIO

INTRODUÇÃO ......................................................................................................................10

2. REVISÃO DE LITERATURA..........................................................................................12

2.1 AMOSTRAGEM ALEATÓRIA SIMPLES (AAS)...........................................................12

2.2 AMOSTRAGEM EM CONJUNTOS ORDENADO (ACO).............................................12

2.2.1 Seleção da amostra por conjuntos ordenados..................................................................14

2.2.2 Estimação da média via ACO..........................................................................................16

2.3 MÉTODO BOOTSTRAP...................................................................................................17

2.3.1 Técnicas de reamostragem bootstrap...............................................................................17

2.3.2 Intervalos de confiança bootstrap....................................................................................19

2.3.3 Propriedades desejáveis de um intervalo de confiança ...................................................21

2.3.4 Reamostragem bootstrap em amostragem por conjuntos ordenados ..............................22

3. METODOLOGIA ..............................................................................................................24

4. RESULTADOS E DISCUSSÕES ....................................................................................26

4.1 ANALISE DOS RESULTADOS OBTIDOS ATRAVÉS DO MÉTODO PERCENTIL..27

4.2 ANALISE DOS RESULTADOS OBTIDOS ATRAVÉS DO MÉTODO T-BOOTSTRAP....................................................................................................................................34

5. CONCLUSÕES ..................................................................................................................37

REFERÊNCIAS .....................................................................................................................38

APÊNDICES ...........................................................................................................................40

Page 10: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

x

Page 11: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

10

INTRODUÇÃO

A amostragem por conjuntos ordenados - ACO (Ranked Set Sampling (RSS)

- McIntyre, 1952) é um delineamento amostral aplicável nas situações em que não

se tem a possibilidade de extrair grandes amostras devido ao custo ou à dificuldade

em se obter as informações de interesse, havendo, no entanto, a possibilidade de

ordenar unidades amostrais sem a efetiva mensuração da variável considerada.

Essa ordenação pode ser realizada com base em uma variável concomitante

(variável correlacionada) ou no julgamento de algum especialista (julgamento

pessoal). O processo de ordenação é dito perfeito caso não seja passível de falhas e

imperfeito caso contrário. Dada a restrição associada à coleta de amostras

numerosas, a utilização de propriedades assintóticas dos estimadores produzidos

por amostras por conjuntos ordenados torna-se inviável. Além disso, a distribuição

desses estimadores somente é conhecida em situações bem particulares, sobretudo

quando a variável de interesse é normalmente distribuída.

O bootstrap consiste na geração de réplicas das estimativas dos parâmetros

com base na seleção de uma amostra e extração de reamostras. Essas reamostras

podem ser geradas com reposição a partir da amostra original (bootstrap não

paramétrico) ou de uma específica distribuição de probabilidades com parâmetros

estimados via amostra original (bootstrap paramétrico). Embora o bootstrap seja

fundamentado em amostragem aleatória simples - AAS (Simple Random Sampling

(SRS)), diversas extensões têm sido propostas com o objetivo de utilizá-lo em

delineamentos por conjuntos ordenados (Cesário e Barreto, 2003; Taconeli e

Barreto, 2005; Barreto e Taconeli, 2006; Modarres et al, 2006). Tais estudos

comprovam a produção de inferências mais precisas (e igualmente acuradas) sob

ACO do que as obtidas via AAS.

O objetivo deste trabalho é avaliar o desempenho do algoritmo de

reamostragem bootstrap para delineamentos em conjuntos ordenados, proposto em

Barreto e Taconeli (2006), na construção de intervalos de confiança para a média,

quando, a ordenação das amostras é realizada por meio de uma variável

concomitante. Foram consideradas variáveis com diferentes distribuições de

Page 12: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

11

probabilidades, simétricas (normal e uniforme) e assimétrica (exponencial) e

variáveis concomitantes com diferentes graus de correlação em relação à variável

de interesse. Os tamanhos amostrais investigados foram todos inferiores a 30,

buscando abordar situações em que resultados assintóticos não são válidos. Os

intervalos de confiança produzidos foram comparados segundo a precisão

(amplitude) e a acurácia (cobertura) dos mesmos.

No Capitulo 2 apresenta-se a revisão de literatura do presente trabalho.

Inicialmente, são abordados os delineamentos amostrais por AAS e ACO,

ressaltando a estimação da média via ACO e suas principais propriedades. Na

seqüência descreve-se o método de reamostragem bootstrap, suas aplicações na

determinação de estimativas de erros padrões de estimadores e intervalos de

confiança para os parâmetros estudados. O capítulo se encerra com a apresentação

de um algoritmo que faz a junção do bootstrap com o delineamento por conjuntos

ordenados.

O Capitulo 3, por sua vez, apresenta o delineamento do estudo por

simulação realizado. São destacadas as configurações consideradas quanto aos

tamanhos de amostras, distribuições e graus de correlações entre variáveis.

Apresenta ainda os números de amostras e reamostras simuladas e a forma como

os resultados produzidos foram avaliados.

Os resultados do estudo por simulação são mostrados no Capitulo 4 por

meio de gráficos e tabelas adequados. A conclusão do trabalho encontra-se no

Capitulo 5.

Page 13: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

12

2 REVISÃO DE LITERATURA

Na Seção 2.1 tem-se uma breve descrição do delineamento por

Amostragem Aleatória Simples. Já a Seção 2.2 apresenta o delineamento por

Amostragem por Conjuntos Ordenados, destacando suas principais propriedades e

seu estimador para a média populacional. A Seção 2.3 descreve o método de

reamostragem bootstrap (convencional, fundamentado em amostragem aleatória

simples) e os intervalos de confiança percentil e t-bootstrap. Na Seção 2.4 encontra-

se o algoritmo de reamostragem bootstrap em delineamentos por conjuntos

ordenados proposto em Barreto e Taconeli (2006).

2.1 AMOSTRAGEM ALEATÓRIA SIMPLES

A amostragem aleatória simples consiste na seleção de uma amostra de

uma população, tal que qualquer item da população tenha a mesma probabilidade

de ser selecionado. Este tipo de amostragem requer que todos os itens da

população estejam disponíveis para serem avaliados na amostra. Na maioria das

aplicações, uma vez selecionado um item da população como parte da amostra,

esta unidade não é retornada à população para ser disponibilizada novamente para

a amostra.

2.2 AMOSTRAGEM POR CONJUNTOS ORDENADOS

A amostragem por conjuntos ordenados foi introduzida na década de 50 por

McIntyre (1952) e vem sendo desenvolvida desde então por pesquisadores como:

Cesário e Barreto, 2003; Taconeli e Barreto, 2005; Barreto e Taconeli, 2006;

Modarres et al, 2006, entre outros. Tal delineamento aplica-se nas situações em que

a mensuração da variável de interesse é difícil ou cara, mas há a possibilidade de

Page 14: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

13

ordenar amostras de maneira precisa sem tomar o valor da referida variável. Nessas

situações, a amostragem por conjuntos ordenados produz estimadores mais

precisos do que a amostragem aleatória simples. Seus desenvolvimentos recentes

têm em vista aplicações em estudos no meio ambiente. Outros esquemas amostrais

também úteis em estudos ambientais são, por exemplo, amostragem adaptativa e

captura-recaptura, conforme mencionado em Taconeli e Barreto (2003). Estimadores

apropriados para esses tipos de amostragem são apresentados em Thompson

(1992).

A ordenação das amostras em delineamentos por conjuntos ordenados pode

se basear, por exemplo, em alguma variável concomitante que seja de fácil

mensuração e apresente uma forte correlação com a variável de interesse (conforme

metodologia). Considerando a ordenação mediante a mensuração de uma variável

correlacionada, a utilização de uma variável concomitante X (por exemplo, alguma

medida externa de pacientes ou cobaias) pode servir de base para ordenação de

uma variável Y (por exemplo, alguma característica interna dos mesmos). A título

de ilustração, o estudo das alturas de árvores em uma região densa pode ser

complicado e limitar o tamanho amostral, devido à dificuldade em se alcançar o topo

das árvores e à impossibilidade de inferir os tamanhos a partir de suas sombras.

Pode-se, no entanto, ordenar de maneira simples e eficiente amostras de árvores

segundo suas alturas com base no diâmetro de seus troncos à altura do peito, caso

o diâmetro seja fortemente correlacionado com a altura. Essa é uma típica situação

em que a amostragem por conjuntos ordenados é aplicável (TACONELI e

BARRETO, 2003).

Outro típico critério de ordenação pode ser baseado em uma opinião

subjetiva, fornecida pelo próprio pesquisador da área (ordenação por meio de

julgamento pessoal). Como exemplo, pode-se ordenar famílias de acordo com suas

rendas com base em características de cunho visual de suas residências (como

tamanho e estado de conservação). O modelo com ordenação por julgamento

pessoal é discutido com detalhes em Taconeli (2005).

Pode-se classificar o procedimento de ACO de duas maneiras, de acordo

com o desempenho do procedimento adotado para ordenação das unidades

amostrais: ordenação perfeita, quando o método não apresenta erros, e ordenação

Page 15: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

14

imperfeita, nas situações em que a ordenação pode apresentar falhas, resultando

em uma menor precisão dos estimadores dos parâmetros de interesse.

Logicamente, esta perda de precisão torna-se mais acentuada à medida que a

ordenação seja realizada de maneira mais imprecisa. Portanto, a eficiência destes

delineamentos esta associada à qualidade do critério de ordenação.

2.2.1 Seleção da amostra por conjuntos ordenados

O procedimento para obtenção de uma amostra de conjuntos ordenados

consiste em três etapas: seleção, ordenação e mensuração. Inicialmente, são

selecionadas n amostras aleatórias simples de tamanho n , com reposição, da

população de interesse. Ordena-se então, cada uma das n amostras, em ordem

crescente do possível valor da variável de interesse, baseado em algum critério

subjetivo (julgamento pessoal) ou através de uma variável concomitante fortemente

correlacionada. Efetivamente é mensurada a primeira observação (aquela que se

julga apresentar o menor valor) da primeira amostra, a segunda observação da

segunda amostra, e assim por diante, até que na ésiman - amostra seja

mensurada a unidade amostral com maior valor para a variável de interesse. Este

procedimento pode ser replicado m vezes, originando uma amostra de tamanho

nm * . Esta amostra pode ser representada por:

minry ir ,,2,1;,,2,1;][ KK == (1)

sendo iry ][ a observação mensurada na ésimar - amostra da

ésimai - repetição. O algoritmo deste delineamento pode ser visto em detalhes

em Taconeli (2005).

A titulo de ilustração, na Figura 1 apresenta-se o delineamento responsável

pela produção de uma amostra por conjuntos ordenados de tamanho

( )6 1, 6N m n= = = . Já o delineamento apresentado na Figura 2 também produz uma

Page 16: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

15

amostra de tamanho 6N = , mas com ( )2, 3m n= = . Em ambos os casos, vale

ressaltar que [ ]ry × não necessariamente se refere a uma estatística de ordem, dada

a possibilidade de cometer erros no processo de ordenação.

FIGURA 1 – ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS SEM RÉPLICA

FIGURA 2 – ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS COM RÉPLICA.

Page 17: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

16

2.2.2 Estimação da média via ACO

O objetivo principal da amostragem por conjuntos ordenados, assim como

acontece com os outros delineamentos amostrais, é a estimação de parâmetros, de

maneira particular a estimação da média. A grande vantagem da amostragem em

conjuntos ordenados está no aumento da precisão da média da amostra em

conjuntos ordenados em relação à média da amostra aleatória simples como

estimador da média populacional (DELL e CLUTTER, 1972). A média de uma

amostra por conjuntos ordenados de tamanho mn pode ser expressa como:

å å= =

=n

r

m

iirY

mnY

1 1][

1, (2)

sendo um estimador não viciado da média populacional. Na situação em que a

ordenação das amostras é perfeita, [ ]ry × é de fato uma estatística de ordem e,

segundo Takahashi & Wakimoto (1968), a variância de Y fica dada por:

( ) 2 2 2,

1

[( ) / ] ( ) /n

r nr

Var Y nm n ms m m=

é ù= - -ê ú

ë ûå (3)

sendo m e 2s respectivamente a média e a variância de Y e nr ;m a média da r-

ésima estatística de ordem de amostras aleatórias simples de tamanho n . Como

mn/2s é a variância da média de uma amostra aleatória simples de tamanho mn ,

isso garante que ( )( ) 1£YVarYVar

. Dell & Clutter (1972) comprovaram por meio de um

estudo por simulação a maior eficiência de Y em relação à Y mesmo na presença

de erros de ordenação.

Page 18: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

17

2.3 MÉTODO BOOTSTRAP

O bootstrap consiste na replicação do processo de estimação via re-

amostragem, através da amostra original ou da distribuição da variável de interesse

com parâmetros estimados via amostra original (EFRON & TIBSHIRANI, 1993).

Tendo em vista os benefícios decorrentes da amostragem em conjuntos ordenados

no processo de estimação de diversos parâmetros, Barreto e taconeli (2006),

estendem a metodologia bootstrap, fundamentada em amostragem aleatória

simples, para delineamentos em conjuntos ordenados.

2.3.1 Técnica de reamostragem bootstrap

Seja )....,( 21 nyyy=y uma amostra aleatória simples de uma distribuição

F , e q um parâmetro (ou função de parâmetros) desta distribuição. Suponhamos

que se deseja produzir inferências para q . Pode-se representar q como alguma

função de F , ou seja, )(Ft=q . Considere ainda q̂ um estimador para q . O

principio “plug-in”, que fundamenta o bootstrap, parte da determinação de um

estimador para F ( F̂ ), de maneira que ˆ ˆ( )t Fq = . Assim, uma vez estimada F por

F̂ , pode-se gerar amostras a partir de F̂ e calcular as consequentes estimativas,

*q̂ , que são ‘réplicas’ de q̂ . O bootstrap baseia-se na aproximação das distribuições

das seguintes estatísticas:

)ˆ(~)ˆˆ( * qqqq -- (4)

Assim, gerando-se um grande número de réplicas *q̂ de q̂ , pode-se estimar

a distribuição de q̂ e utilizá-la na estimação do erro padrão do estimador, na

construção de intervalos de confiança e em testes de hipóteses. A obtenção das

referidas réplicas se dá pela geração de reamostras de tamanho n (como a amostra

Page 19: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

18

original) a partir de F̂ , sendo executada de maneiras distintas conforme a

abordagem (paramétrica ou não paramétrica) utilizada.

No caso paramétrico parte-se do conhecimento da distribuição de Y ,

desconhecendo-se apenas seus parâmetros. Seja ψ o vetor de parâmetros

associado a F e ψ̂ um vetor de estimativas de ψ , calculado a partir da amostra

original. Assim, obtém-se F̂ simplesmente substituindo ψ por ψ̂ , podendo-se

utilizá-la na geração das reamostras, responsáveis pela produção das estimativas de

interesse. Caso não se conheça a forma de F , pode-se estimá-la pela distribuição

empírica dos dados amostrais, designando uma massa de probabilidade igual a 1/ n

para cada ponto amostral. Nesse caso, reamostras de tamanho n são extraídas

com reposição da amostra original. O presente estudo aborda o bootstrap apenas

em sua versão não paramétrica. Sob qualquer uma das abordagens, geram-se

**2

*1 ,,, Byyy K , B reamostras bootstrap, obtendo-se *

1̂q , *2q̂ ,..., *ˆ

Bq , as respectivas

estimativas bootstrap produzidas.

nyyy ,,, 21 L=y → Amostra original

*11y , *

12y ,...,*

1ny → *1̂q

*21y ,

*22y ,..., *

2ny → *2q̂

M M M M *

1By , *2By ,..., *

Bny → *ˆBq

FIGURA 3 – ILUSTRAÇÃO DO PROCEDIMENTO PARA OBTENÇÃO DE REAMOSTRAS

BOOTSTRAP

Como dito anteriormente, uma aplicação frequente do bootstrap é a

estimação do erro padrão de estimadores. O estimador bootstrap para o erro padrão

de q̂ é dado por:

( )2

^1

ˆ ˆ( )ˆ

1

B

bb

bootepB

q qq

* *

=

-=

-

å, (5)

Page 20: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

19

sendo 1

ˆ ˆ(1/ )*B

bbBq q* *

== å . No limite, tem-se que ( ) ( )

^ˆ ˆlim bootB

ep epq q®¥

æ ö =ç ÷è ø

(EFRON e

TIBSHIRANI, 1993).

2.3.2 Intervalos de confiança bootstrap

No processo de inferência de um determinado parâmetro q não se pode

valer simplesmente da utilização de uma estimativa pontual q̂ , pois esta estimativa

não apresenta medidas de precisão e confiança decorrentes do processo de

estimação. Já para construir os intervalos de confiança, a precisão do estimador e o

erro de estimação são levados em consideração, possibilitando assim a obtenção de

estimativas mais confiáveis.

Utilizando-se reamostragem bootstrap, torna-se possível a obtenção de

estimativas intervalares dos parâmetros de interesse. Isto pode ocorrer sob diversas

abordagens, produzindo diferentes intervalos. No presente trabalho são

considerados os intervalos percentil e t-bootstrap.

O procedimento t-bootstrap (Efron & Tibshirani, 1993), também conhecido

como método pivotal, é uma generalização do usual método t de Student, sendo

particularmente aplicável aos parâmetros de locação, como a média amostral, a

mediana, ou percentil amostral. Estes autores citam que, pelo menos em sua forma

tradicional o método t-bootstrap não é adequado para a estimação de outros tipos de

parâmetros.

A construção usual de intervalos de confiança para a média populacional

(q m= ), baseado na média amostral ( ˆ Xq = ) parte da seguinte aproximação:

(6)

derivando-se dessa aproximação os seguintes limites para um intervalo com

confiança a-1 , com 10 << a :

1~ ,ˆ( )nZ t

êp

q qq --

=)

Page 21: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

20

÷÷

ø

ö

çç

è

æ÷øö

çèæ

-

Ù

± qq aˆˆ

1),( ept n, (7)

sendo t 1),( -na o ésimoa - percentil da distribuição t com 1n - graus de liberdade.

O método t -bootstrap também se baseia na estatística (6). Nesse caso,

porém, a distribuição de Z é estimada diretamente a partir dos dados amostrados,

calculando-se, para cada reamostra,

( )

Bbep

Z

b

bb ,,2,1,

ˆ

ˆˆ

*

** K=

-=

Ùq

qq (8)

sendo q̂ a estimativa pontual da amostra original e ˆ( )bêp q* o erro padrão estimado

de b̂q* , obtido a partir de um novo bootstrap aplicado a by , a b-ésima reamostra,

1, 2,...,b B= . Este procedimento é denominado duplo-bootstrap e requer,

invariavelmente, um intenso esforço computacional. Os limites do intervalo de

confiança t-bootstrap baseiam-se nos percentis da distribuição de Z . O ésimoa -

percentil de bZ * é estimado por ( )t̂ a , tal que:

( )( )

1

ˆB

bb

I Z t

B

a

a

*

=

£=

å, (9)

sendo ( )I × a função indicadora. O intervalo de confiança t-bootstrap tem, portanto,

os seguintes limites:

÷÷÷

ø

ö

ççç

è

æ÷øö

çèæ

Ù÷øö

çèæ

Ù

--- qqqq aa

ˆˆˆ;ˆˆˆ)2()21( bootboot eptept (10)

O método t-bootstrap produz intervalos de confiança acurados de segunda

ordem. Martinez e Louzada-Neto (2001). discutem com mais detalhes a acurácia de

intervalos de confiança.

Page 22: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

21

Já o intervalo de confiança bootstrap percentil baseia-se nos percentis

estimados via reamostragem da distribuição de q̂ . Assim, um intervalo de confiança

1 a- para q tem os seguintes limites:

( )* *( /2) (1 /2)

ˆ ˆ,a aq q - , (11)

sendo *( )

ˆaq o ésimoa - percentil da distribuição empírica das B estimativas q̂ * .

O intervalo bootstrap percentil é destacado devido à simplicidade do método

e propriedade de invariância à transformação monótonas (Martinez e Louzada-Neto,

2001). Este método produz intervalos acurados de primeira ordem (ver Seção 2.3.3).

2.3.3 Propriedades desejáveis de um intervalo de confiança

Uma propriedade desejável para intervalos de confiança é a acurácia

(cobertura dos intervalos). Seja, por simplicidade, um intervalo de confiança

unilateral para um parâmetro de interesse q , cujo único limite de confiança é dado

por )(̂aq , sendo a a probabilidade de cobertura deste intervalo. Assim,

aqq a ȣ ][ )(

)P (12)

Segundo Martinez e Louzada-Neto (2001), um limite de confiança )(aq)

é dito

acurado de primeira ordem se

)(0][ 2/1)(

-+ȣ nP aqq a

) (13)

e, é dito acurado de segunda ordem se

)(0][ 1)(

-+ȣ nP aqq a

) (14)

Page 23: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

22

sendo (.)0 o resto. Em outras palavras, se )(aq)

é acurado de primeira ordem, a

probabilidade de cobertura ][ )(aqq)

£P é igual a a mais um termo cuja ordem de

magnitude é, no máximo, de 2/1-n , para todo n suficientemente grande.

Quanto maior o intervalo de confiança, mais confiante nós estaremos de

que realmente o intervalo calculado contenha o verdadeiro valor de q . Por outro

lado, quanto maior o intervalo, menos informação teremos sobre o verdadeiro valor

de q . Portanto em uma situação ideal, obtemos um intervalo relativamente curto

com alta confiança. Assim, referente à precisão dos intervalos de confiança, deseja-

se que essa seja a maior possível, mas sem afetar a acurácia dos mesmos.

2.3.4 Reamostragem bootstrap em amostragem por conjuntos ordenados

O algoritmo a seguir, apresentado em Barreto e Taconeli (2006), descreve a

proposta de reamostragem bootstrap em amostragem por conjuntos ordenados.

1. Seleção de uma amostra por conjuntos ordenados { }[ ] ; 1,..., ; 1,...,r iy r n i m= = ;

2. Ordenação da amostra obtida no passo 1 com base no critério de ordenação

adotado (de maneira particular, com base nos resultados da variável

concomitante);

3. Atribuição de ranks de 1 a nm * às unidades amostrais relacionadas no passo

1, de acordo com a ordenação estabelecida no passo 2 ( )mnrrr ,,, 21 K ;

4. Geração de B reamostras 1 2, ,..., B* * *y y y , segundo procedimento de amostras por

conjuntos ordenados, utilizando como critério para ordenação das unidades

amostrais os ranks determinados no passo 3.

Repare que ao ordenar as amostras bootstrap de acordo com a variável

concomitante, tem-se a garantia de que os erros de ordenação influenciam

diretamente na ordem das reamostras, evitando, desta maneira, problemas

Page 24: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

23

referentes à acurácia dos estimadores considerados.

Barreto e Taconeli (2006) verificaram que os intervalos obtidos através dos

esquemas de reamostragem, executando este algoritmo, apresentam uma forte

similaridade com os intervalos de confiança bootstrap baseados em amostragem

aleatória simples no que se refere a acurácia, se destacando, no entanto, por um

acentuado ganho em termos de precisão das estimativas geradas. Este ganho

decresce à medida que aumenta o grau de imperfeição na ordenação das unidades

amostrais, embora haja um relevante ganho em precisão ainda na situação mais

critica em que se considerou o maior valor para a variância dos erros de ordenação.

Page 25: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

24

3 METODOLOGIA

Neste Capitulo apresentamos a metodologia utilizada para a avaliação do

algoritmo de reamostragem bootstrap em delineamentos por conjuntos ordenados,

apresentado na Seção 2.3.4, na produção de intervalos de confiança para a média,

quando a ordenação das amostras se dá segundo os resultados de uma variável

concomitante. Com tal finalidade, foi executado um estudo por simulação em que

foram considerados:

· Três distribuições de probabilidades: a variável resposta ( )Y e concomitante ( )X

foram geradas com distribuição normal(0,1), uniforme(0,1) e exponencial(1)

bivariadas;

· Cinco diferentes graus de correlação entre as variáveis: 0=r (independência),

5.0=r , 7.0=r , 9.0=r (ordenação imperfeita), 1=r (ordenação perfeita);

· Três tamanhos de amostra e números de replicação: 8=N ( )4;2 == nm

15=N ( )5;3 == nm e 25=N ( )5;5 == nm

Para cada possível combinação dos tamanhos de amostra e número de

réplicas, correlação e distribuições da variável de interesse foram simuladas K

amostras por conjuntos ordenados, responsáveis pela determinação de K intervalos

de confiança bootstrap (percentil e t-bootstrap) para a média populacional, com 90%,

95% e 99% de confiança. Tais intervalos foram avaliados de acordo com sua

precisão e acurácia , baseado, respectivamente, no comprimento médio e na

probabilidade de cobertura (PC) das estimativas geradas. A probabilidade de

cobertura pode ser expressa pela seguinte razão:

calculadosCIdetotalnúmero

parâmetrodovalorverdadeiroocontémqueCIdenúmeroPC

.

.= (15)

Page 26: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

25

Os critérios utilizados na determinação do número de reamostragens ( B ) e

intervalos de confiança ( K ) simulados para cada configuração são essencialmente

fundamentados em análises de convergência apresentadas em Taconeli (2005). A

determinação adequada das referidas constantes garante a produção de resultados

consistentes sem a geração de resultados em excesso, o que consumiria tempo e

esforço computacional desnecessários. Com base nisso, foram definidos 400K = e

400B = .

Devido à complexidade, para as simulações do intervalo t-bootstrap foi

utilizado o LCPAD (Laboratório Central de Processamento de Alto Desempenho) da

UFPR, que disponibiliza recursos computacionais para procedimentos intensos

como o caso destas simulações.

Page 27: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

26

4 RESULTADOS E DISCUSSÕES

Neste capitulo são apresentados os resultados do estudo realizado via

simulação, através de figuras e tabelas da probabilidade de cobertura e da amplitude

média dos intervalos de confiança gerados em cada uma das configurações

consideradas.

As seções seguintes trazem as análises das três distribuições estudadas.

Cada figura e tabela mostram o desempenho referente à acurácia e precisão dos

intervalos propostos na estimação da média da população considerada naquela

seção. Na intenção de fazer comparações da performance dos intervalos propostos

sob ordenação perfeita e imperfeita, também se realizaram simulações de intervalos

de confiança baseados em amostragem aleatória simples ( 0=r ).

Nas tabelas de probabilidade de cobertura, valores acompanhados de um

asterisco (*) indicam que, para essa configuração, não se pode rejeitar a hipótese da

probabilidade de cobertura ser a inicialmente desejada (90%, 95% ou 99%) a um

nível de significância de 5%. Tal hipótese é verificada através de um teste para

proporções, baseado na distribuição binomial com parâmetros n e p sendo n o

número de intervalos de confiança simulados e p o nível de confiança considerado.

Page 28: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

27

4.1 ANALISE DOS RESULTADOS OBTIDOS ATRAVÉS DO MÉTODO PERCENTIL

A Figura 4 e a Tabela 1 apresentam os resultados obtidos para amostras

geradas com distribuição normal (0,1), com os diferentes tamanhos amostrais e

correlações. De acordo com a Figura 4 verifica-se que a amplitude média dos

intervalos diminui à medida que N cresce, e também conforme aumenta a correlação

entre as variáveis e em todos os casos a amplitude média dos intervalos é menor

comparando-se a AAS, ou seja tem-se um ganho em precisão. Analisando as

probabilidades de cobertura, é possível observar que este ganho em termos de

precisão não compromete a acurácia dos intervalos.

Como mostra a Figura 4 e a Figura 5, sob todas as configurações avaliadas,

os intervalos obtidos via ACO foram mais precisos do que aqueles obtidos via AAS

para cada tamanho amostral considerado. Para as distribuições simétricas, este

ganho de precisão, em geral, não resultou em perda de acurácia, mesmo quando a

ordenação é perfeita, onde algumas coberturas ficaram abaixo do nível de confiança

estipulado, uma vez que as probabilidade de cobertura, obtidas via ACO não diferem

significativamente dos níveis de confiança desejados. Já no caso em que os dados

foram gerados de uma distribuição exponencial, nas situações em que se

consideraram maiores correlações, tiveram-se intervalos mais precisos, mas em

diversos casos sua cobertura não atingiu o nível de confiança estipulado.

Page 29: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

28

(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)

Ordenação Perfeita 1=r

FIGURA 4 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO NORMAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.

0.8

00.8

50.9

00.9

51.0

0

N=8, m=2,n=4NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.8

00.8

50.9

00.9

51.0

0

N=15,m=3,n=5NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.8

00.8

50.9

00.9

51.0

0

N=25, m=5,n=5NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.4

0.6

0.8

1.0

1.2

1.4

1.6

N=8, m=2,n=4NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.4

0.6

0.8

1.0

1.2

1.4

1.6

N=15, m=3,n=5NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.4

0.6

0.8

1.0

1.2

1.4

1.6

N=25, m=5,n=5NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

Page 30: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

29

TABELA 1 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.

Nível de Confiança

Amplitude média dos IC

Tamanho amostral 90% 95% 99% 90% 95% 99%

ρ= 0 95,00% 97,00%* 99,30%* 1,0169 1,1979 1,5398

ρ= 0.5 94,80% 98,30% 99,50%* 0,9893 1,1701 1,5024

ρ= 0. 7 92,30%* 94,50%* 98,30%* 0,9026 1,0670 1,3777

ρ= 0. 9 90,50%* 94,00%* 98,30%* 0,8051 0,9553 1,2364

( )4n2;m8 ===N

ρ= 1 87,80%* 92,00% 96,30% 0,7417 0,8819 1,1477

ρ= 0 98,30% 99,50% 100,00% 0,7807 0,9265 1,2058

ρ= 0.5 97,80% 98,80% 99,50%* 0,7367 0,8758 1,1390

ρ= 0. 7 96,50% 99,50% 100,00% 0,6716 0,7997 1,0463

ρ= 0. 9 94,50% 97,30% 99,80%* 0,5832 0,6937 0,9093

( )5n3;m15 ===N

ρ= 1 87,50%* 94,30%* 98,30%* 0,5034 0,5995 0,7860

ρ= 0 99,30% 99,80% 100,00% 0,6300 0,7502 0,9834

ρ= 0.5 97,30% 99,50% 100,00% 0,5845 0,6976 0,9124

ρ= 0. 7 97,00% 99,30% 100,00% 0,5329 0,6355 0,8317

ρ= 0. 9 94,80% 97,50% 99,80%* 0,4494 0,5340 0,6981

( )5n5;m25 ===N

ρ= 1 89,80%* 94,00%* 99,80%* 0,3945 0,4698 0,6157

N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de

interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados

Page 31: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

30

(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)

Ordenação Perfeita 1=r

FIGURA 5 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA

DE UMA VARIAVEL COM DISTRIBUIÇÃO UNIFORME, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.

0.8

00.8

50

.90

0.9

51

.00

N=8, m=2,n=4NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.8

00.8

50

.90

0.9

51

.00

N=8, m=2,n=4NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.8

00.8

50

.90

0.9

51

.00

N=8, m=2,n=4NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.1

50.2

00.2

50.3

00.3

50.4

00.4

5

N=8, m=2,n=4NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.1

50.2

00.2

50.3

00.3

50.4

00.4

5

N=15, m=3,n=5NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.1

50.2

00.2

50.3

00.3

50.4

00.4

5

N=25, m=5,n=5NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

Page 32: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

31

TABELA 2 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO UNIFORME, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.

Nível de Confiança

Amplitude média dos IC

Tamanho amostral 90% 95% 99% 90% 95% 99%

ρ= 0 82,5% 87,3% 93,8% 0,2948 0,3481 0,4457

ρ= 0.5 83,3% 89,5% 96,0% 0,2795 0,3309 0,4270

ρ= 0. 7 82,5% 87,5% 94,3% 0,2607 0,3084 0,3987

ρ= 0. 9 89,8%* 92,5% 97,5% 0,2355 0,2797 0,3621

( )4n2;m8 ===N

ρ= 1 89,0% 93,8%* 97,3% 0,2154 0,2563 0,3335 ρ= 0 84,5% 91,8% 96,3% 0,2279 0,2707 0,3524

ρ= 0.5 85,0% 90,0% 96,5% 0,2110 0,2506 0,3253

ρ= 0. 7 87,3%* 92,5% 97,0% 0,1938 0,2306 0,3003

ρ= 0. 9 87,5%* 94,0%* 98,5%* 0,1663 0,1980 0,2595

( )5n3;m15 ===N

ρ= 1 89,5%* 93,8%* 98,3%* 0,1449 0,1727 0,2261 ρ= 0 88,0%* 93,0%* 97,5% 0,1829 0,2172 0,2839

ρ= 0.5 83,5% 91,5% 96,5% 0,1661 0,1979 0,2582

ρ= 0. 7 89,8%* 94,3%* 98,5%* 0,1540 0,1831 0,2391

ρ= 0. 9 89,5%* 94,5%* 98,8%* 0,1291 0,1537 0,2021

( )5n5;m25 ===N

ρ= 1 89,5%* 95,5%* 98,8%* 0,1111 0,1325 0,1735

N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de

interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados

Page 33: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

32

0.8

00.8

50

.90

0.9

51

.00

N=8, m=2,n=4NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.8

00.8

50

.90

0.9

51

.00

N=15,m=3,n=5NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.8

00.8

50

.90

0.9

51

.00

N=25, m=5,n=5NÍVEL DE CONFIANÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.4

0.6

0.8

1.0

1.2

1.4

N=8, m=2,n=4NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.4

0.6

0.8

1.0

1.2

1.4

N=15, m=3,n=5NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.4

0.6

0.8

1.0

1.2

1.4

N=25, m=5,n=5NÍVEL DE CONFIANÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)

Ordenação Perfeita 1=r FIGURA 6 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA

DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.

Page 34: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

33

TABELA 3 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.

Nível de Confiança

Amplitude média dos IC

Tamanho amostral 90% 95% 99% 90% 95% 99%

ρ= 0 89,5%* 92,0% 95,8% 0,9607 1,1217 1,4185

ρ= 0.5 91,3%* 93,5%* 96,5% 0,9556 1,1193 1,4159

ρ= 0. 7 88,3%* 92,3% 95,8% 0,8931 1,0570 1,3365

ρ= 0. 9 85,3% 90,0% 95,3% 0,8051 0,9618 1,2122

( )4n2;m8 ===N

ρ= 1 82,3% 86,8% 91,8% 0,7031 0,8436 1,0696 ρ= 0 94,5% 96,3%* 98,0%* 0,7850 0,9256 1,1932

ρ= 0.5 93,3% 94,3%* 98,3%* 0,7042 0,8321 1,0726

ρ= 0. 7 89,5%* 93,0%* 98,0%* 0,6482 0,7675 0,9921

ρ= 0. 9 89,5%* 92,5% 96,5% 0,5827 0,6891 0,8906

( )5n3;m15 ===N

ρ= 1 85,8% 88,3% 94,5% 0,5196 0,6150 0,7950 ρ= 0 94,3% 97,8% 99,3%* 0,6320 0,7507 0,9764

ρ= 0.5 93,8% 96,8%* 99,5%* 0,5815 0,6912 0,9021

ρ= 0. 7 94,0% 97,8% 99,8%* 0,5371 0,6373 0,8309

ρ= 0. 9 89,0%* 93,8%* 97,0% 0,4658 0,5517 0,7152

( )5n5;m25 ===N

ρ= 1 85,8% 92,0% 98,0%* 0,4211 0,4987 0,6482

N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de

interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados

Page 35: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

34

4.2 ANALISE DOS RESULTADOS OBTIDOS ATRAVES DO MÉTODO

T-BOOTSTRAP

As simulações para este método foram geradas com as mesmas

configurações consideradas para o método percentil. No entanto, devido a não

conformidades dos resultados com aquilo que era esperado, são apresentados, a

título de discussão, apenas os resultados obtidos para a distribuição exponencial

(Tabela 4 e Figura 7). Conclui-se que à medida que cresce a correlação a amplitude

média dos intervalos diminui e a probabilidade de cobertura decresce na mesma

proporção. Estes resultados são contraditórios com as propriedades mencionadas

quanto à acurácia do método t-bootstrap, que é conhecido por apresentar resultados

menos precisos, porem mais acurados em relação a outros intervalos de confiança

bootstrap (particularmente o percentil). Com base nisso, não são apresentados os

resultados relativos às outras distribuições, uma vez que seria adequado rever o

processo de simulação. Como seria necessário dispor de muito tempo para isso, não

foi possível essa revisão, deixamos à comprovação dos resultados como proposta

para estudos futuros.

Page 36: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

35

0.6

0.7

0.8

0.9

1.0

N= 8, m =2,n= 4NÍV E L DE CONFIA NÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.6

0.7

0.8

0.9

1.0

N= 15, m = 3,n=5NÍV E L DE CONFIA NÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.6

0.7

0.8

0.9

1.0

N= 25, m = 5,n=5NÍV E L DE CONFIA NÇA

PR

OB

AB

ILID

AD

E D

E C

OB

ER

TU

RA

90% 95% 99%

0.5

1.0

1.5

2.0

2.5

N= 8, m =2,n= 4NÍV E L DE CONFIA NÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.5

1.0

1.5

2.0

2.5

N= 15, m = 3,n=5NÍV E L DE CONFIA NÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

0.5

1.0

1.5

2.0

2.5

N= 25, m = 5,n=5NÍV E L DE CONFIA NÇA

CO

MP

RIM

EN

TO

DIO

90% 95% 99%

(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)

Ordenação Perfeita 1=r FIGURA 7 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP T-BOOTSTRAP PARA A

MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.

Page 37: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

36

TABELA 4 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA T-BOOTSTRAP PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.

Nível de Confiança

Amplitude média dos IC

Tamanho amostral 90% 95% 99% 90% 95% 99%

ρ= 0 88,8%* 95,0%* 99,0%* 1.09 1,70 2,80

ρ= 0.5 84,3% 93,5%* 97,0%* 0,95 1,48 2,58

ρ= 0. 7 81,0% 89,8% 96,8% 0,89 1,34 2,41

ρ= 0. 9 72,0% 84,3% 93,0% 0,72 1,04 1,78 ( )4n2;m8 ===N

ρ= 1 67,8% 77,3% 89,0%

0,60 0,85 1,45

ρ= 0 91,0%* 97,3%* 99,8%* 0,75 1,03 1,64

ρ= 0.5 86,0% 94,8%* 98,8%* 0,64 0,87 1,37

ρ= 0. 7 79,8% 89,8%* 98,0%* 0,58 0,72 1,14

ρ= 0. 9 68,8% 80,0% 90,8% 0,41 0,54 0,85 ( )5n3;m15 ===N

ρ= 1 60,5% 70,5% 84,8%

0,33 0,45 0,69

ρ= 0 94,0% 98,0% 99,5%* 0,56 0,74 1,14

ρ= 0.5 86,0%* 94,5%* 98,8%* 0,47 0,63 0,95

ρ= 0. 7 83,5% 91,3%* 98,5%* 0,40 0,53 0,81

ρ= 0. 9 67,0% 78,8% 91,0% 0,39 0,45 0,66 ( )5n5;m25 ===N

ρ= 1 57,0% 70,5% 83,3%

0,24 0,32 0,47

N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de

interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados.

Page 38: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

37

5 CONCLUSÃO

As dificuldades na obtenção das medidas de interesse (como, por exemplo,

difícil acesso, custo elevado) tornam inviável a obtenção de grandes amostras para

se realizar um estudo confiável com as técnicas de amostragem mais usuais. Devido

às estimativas originárias de pequenas amostras não possuírem boa precisão e

considerada confiabilidade, deve-se procurar usar um esquema amostral capaz de

contornar tal dificuldade. Diante disso, a amostragem por conjuntos ordenados é um

delineamento alternativo capaz de produzir estimativas mais precisas nas situações

que há restrições quanto à seleção de grandes amostras.

A unidade de um procedimento não paramétrico de reamostragem

(bootstrap) e um delineamento amostral adequado para amostras reduzidas

(amostragem por conjuntos ordenados) que, com base em estudos anteriores, é

capaz de produzir estimativas mais precisas, pode ser de extrema relevância e

notável aplicabilidade para um grande número de estudos que envolvem

amostragem.

Foram realizados, neste trabalho, estudos via simulação a fim de avaliar o

desempenho do delineamento bootstrap via ACO em relação ao bootstrap original,

na estimação intervalar da média, utilizando variável concomitante com diferentes

graus de correlação. Verificou-se, por meio dos resultados obtidos com o intervalo

bootstrap percentil, que os intervalos de confiança calculados utilizando-se

reamostragem bootstrap via ACO apresentam uma forte similaridade com os

intervalos de confiança bootstrap baseado em AAS no que se refere à acurácia, se

destacando, no entanto, por uma maior precisão nas estimativas geradas, sendo

que este ganho decresce a medida que diminui o grau de correlação entre as

variáveis, dada a maior imperfeição na ordenação das unidades amostrais. Quanto

aos resultados obtidos com o intervalo t-bootstrap verificou-se que à medida que

cresce a correlação a amplitude média dos intervalos diminui, porém, a

probabilidade de cobertura decresce na mesma proporção. Estes resultados são

contraditórios com as propriedades mencionadas quanto a acurácia do método t-

bootstrap, conhecido por apresentar resultados menos precisos e mais acurados em

relação a outros intervalos de confiança bootstrap (particularmente o percentil).

Page 39: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

38

REFERÊNCIAS

BARRETO, M. C. M.; TACONELI, C. A. Reamostragem bootstrap em delineamentos por conjuntos imperfeitamente ordenados. Revista Brasileira de Estatística, v.67, n.226, p.65-94, 2006.

CESÁRIO, L. C.; BARRETO, M. C. M. Um estudo sobre o desempenho de intervalos de confiança para a média de uma distribuição normal usando amostragem por conjuntos ordenados perfeitamente. Rev. Mat. Estat. São Paulo, v.21, p.7-20, 2003.

DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics

background biometrics, Washington, v.28, p.545-555, 1972. EFRON, B.; TIBSHIRANI, R. J. An Introduction to the bootstrap. New York:

Chapman & Hall, 1993. 436p.

MODARRES, R.; HUI, T. P.; ZHENG, G. Resample methods for ranked set samples. Computational Statistics & Data Analysis, v.51, p.1039 – 1050, 2006.

MARTINES, E. Z.; NETO F. L. Estimação Intervalar Via Bootstrap. Rev. Mat.

Estat. São Paulo, v.19, p.217-251, 2001.

MCINTYRE, G. A. A method for unbiased seletive sampling, using ranked sets. Aust. J.Agric. Res., Collingwood, v.3, p.385-390. 1952.

R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing., Vienna, Austria, 2006. Disponível em: http://www.R-project.org, 2008.

TACONELI, C. A.; BARRETO, M. C. M. Intervalos de confiança para a média populacional usando amostragem em conjuntos ordenados. Rev. Mat. Estat. São Paulo, v.21, p.41-66, 2003.

TACONELI, C. A.; BARRETO, M. C. M. Avaliação de uma proposta de

intervalos de confiança bootstrap em amostragem por conjuntos ordenados perfeitamente. Rev. Mat. Estat. São Paulo, v.23, n.3, p.33-53, 2005.

Page 40: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

39

TACONELI, C. A. Reamostragem bootstrap em amostragem por conjuntos ordenados e intervalos de confiança não paramétricos para a média: 2005, 120f. Dissertação (Mestrado em Estatística) – Centro de Ciências Exatas e de Tecnologia: Universidade Federal de São Carlos. São Carlos.

TAKAHASHI, K., WAKIMOTO, K. On biased estimates of population mean

based on sample stratified by means of ordering. Ann. Inst. Stat. Math., v.20, p, 1-31,

1968.

THOMPSON, S.K. Sampling . New York: John Wiley, 1992, 343p.

Page 41: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

40

APÊNDICE

Apêndice A. Programa para simular amostras por conjuntos ordenados com base em uma variável concomitante require(MASS) ACOMV=function(m,n,correl){ # m: é o número de réplicas do delineamento # n: é o tamanho das amostras do delineamento # correl: é a correlação desejada entre as variáveis mu=c(0,0) sigma=matrix(c(1,correl,correl,1),2,2) amostrafinal=numeric() concomitante=numeric() for(j in 1:m){ for(i in 1:n){ amostra=mvrnorm(n,mu,sigma) x=amostra[,1] y=amostra[,2] p=which(rank(x)==i) amostrafinal=c(amostrafinal,y[p]) concomitante=c(concomitante,x[p]) }} list(x=amostrafinal,y=concomitante) }

Page 42: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

41

Apêndice B. Programa que constrói intervalos de confiança bootstrap percentil para a média em delineamentos por conjuntos imperfeitamente ordenados ICBRSS<-function(amostra,m,n,ranks,B,alfa){ if (missing(ranks)) ranks<-seq(1:m*n) if (missing(B)) B<-1000 if (missing(alfa)) alfa<-0.05 amostra<-amostra[order(ranks)] teta.star<-rep(0,B) for (i in 1:B){ reamostra<-numeric() for (t in 1:m){ for (p in 1:n){ d<-sample(seq(1:(m*n)),n,replace=T) reamostra<-c(reamostra,amostra[(sort(d))[p]]) } } teta.star[i]<-mean(reamostra)} teta.star=sort(teta.star) lim.infpercent<-teta.star[(B+1)*alfa/2] lim.suppercent<-teta.star[(B+1)*(1-alfa/2)] list('lim.inf'=lim.infpercent,'lim.sup'=lim.suppercent) }

Page 43: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

42

Apêndice C. Programa que simula 400 intervalos de confiança bootstrap e armazena suas coberturas e amplitudes SIMULACAO=function(m,n,correl){ cob90=0 cob95=0 cob99=0 matam=matrix(0,400,3) for(v in 1:400){ amostra=ACOMV(m,n,correl) ic=ICBRSS(amostra$y,m,n,amostra$x,alfa=c(0.1,0.05,0.01)) if((ic$lim.inf[1]<=0)&&(ic$lim.sup[1]>=0)) cob90=cob90+1 if((ic$lim.inf[2]<=0)&&(ic$lim.sup[2]>=0)) cob95=cob95+1 if((ic$lim.inf[3]<=0)&&(ic$lim.sup[3]>=0)) cob99=cob99+1 matam[v,]=ic$lim.sup-ic$lim.inf} list(tamanhos=matam,c90=cob90,c95=cob95,c99=cob99)} # contadores utilizados no cálculo das cobertura: cob90=0 cob95=0 cob99=0 # cálculo do número de intervalos que contém o parâmetro . if((ic$lim.inf[1]<=0)&&(ic$lim.sup[1]>=0)) if((ic$lim.inf[2]<=0)&&(ic$lim.sup[2]>=0)) if((ic$lim.inf[3]<=0)&&(ic$lim.sup[3]>=0)) # cálculo das amplitudes dos intervalos ic$lim.sup-ic$lim.inf # matriz utilizada para armazenar as amplitudes dos intervalos de confiança matam[v,]=ic$lim.sup-ic$lim.inf # função para executar a simulação simu1=SIMULACAO(2,4,0) # função para salvar, no R, os resultados da simulação save(simu1,file=’simu1.Rdata’) Apêndice D. Comandos para gerar gráficos

Page 44: UNIVERSIDADE FEDERAL DO PARANÁ - Curso de Estatística

43

# Probabilidade de Cobertura #Para distribuição normal com N=8 m=2 n=4 par(mfrow=c(2,3)) plot(c(90,100),c(0.8,1),type='n',xaxt='n',xlab='NÍVEL

DECONFIANÇA',cex.lab=1.2,ylab='PROBABILIDADE DE COBERTURA', cex.sub=1.2,sub='N=8, m=2,n=4') axis(1,at=c(90,95,100),labels=c('90%','95%','99%')) x=c(90,95,100) y0=c(0.95,.97,.993) y05=c(0.948,.983,.995) y07=c(0.923,0.945,0.983) y09=c(0.905,0.94,0.983) y1=c(0.878,0.920,0.963) points(x,y0,pch=3,cex=1.35) points(x,y05,pch=5,cex=1.35) points(x,y07,pch=2,cex=1.35) points(x,y09,pch=15,cex=1.35) points(x,y1,pch=19,cex=1.45) abline(a=0.9,b=0,lty=2) abline(a=0.95,b=0,lty=2) abline(a=0.99,b=0,lty=2) lines(c(90,90),c(0.75,1.05), lty=3) lines(c(95,95),c(0.75,1.05),lty=3) lines(c(100,100),c(0.75,1.05), lty=3) #Comprimento Médio # Para distribuição Normal com N=8 m=2 n=4 plot(c(90,100),c(0.44,1.45),type='n',xaxt='n',xlab='NÍVEL DE CONFIANÇA', cex.lab=1.2,ylab='COMPRIMENTO MÉDIO', cex.sub=1.2,sub='N=8, m=2,n=4') axis(1,at=c(90,95,100),labels=c('90%','95%','99%')) x=c(90,95,100) y0=c(1.02,1.20,1.54) y05=c(0.99,1.17,1.50) y07=c(0.90,1.07,1.38) y09=c(0.81,0.96,1.24) y1=c (0.74,0.88,1.15) points(x,y0,pch=3,cex=1.35) points(x,y05,pch=5,cex=1.35) points(x,y07,pch=2,cex=1.35) points(x,y09,pch=15,cex=1.35) points(x,y1,pch=19,cex=1.45) lines(c(90,90),c(0.35,1.50), lty=3) lines(c(95,95),c(0.35,1.50),lty=3) lines(c(100,100),c(0.35,1.50), lty=3)