Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO PARANÁ
CURSO DE ESTATÍSTICA
REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA
MÉDIA VIA AMOSTRAGEM POR CONJUNTOS ORDENADOS COM
VARIÁVEL CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO
Curitiba-PR
2009
ii
JOAQUIM CANDIDO DA SILVA
MARELYN MAGDA MARQUETTI
REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA
MÉDIA VIA AMOSTRAGEM POR CONJUNTOS ORDENADOS COM
VARIÁVEL CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO
Trabalho de Conclusão de Curso apresentado como
exigência parcial para obtenção do Diploma de
Graduação em Estatística, da Universidade Federal
do Paraná.
Orientador: Profº Dr. Cesar Augusto Taconeli
Banca:Profº Dr. Idemauro Antonio Rodrigues de Lara
Curitiba-PR
2009
iii
FOLHA DE APROVAÇÃO
JOAQUIM CANDIDO DA SILVA
MARELYN MAGDA MARQUETTI
REAMOSTRAGEM BOOTSTRAP NA ESTIMAÇÃO INTERVALAR DA MÉDIA VIA
AMOSTRAGEM POR CONJUNTOS ORDENADOS COM VARIÁVEL
CONCOMITANTE – UM ESTUDO POR SIMULAÇÃO
Trabalho de conclusão de Curso aprovado como requisito parcial para obtenção do
Diploma de Graduação em Estatística da Universidade Federal do Paraná.
BANCA EXAMINADORA:
Ass.___________________________________
Orientador: Profº Dr. Cesar Augusto Taconeli
Ass.___________________________________
Profº Dr. Idemauro A. Rodrigues de Lara
Curitiba, 01 de julho de 2009
iv
Dedicamos este trabalho a nossa família,
que nos apoiou e suportou nossa ausência,
a Deus por nos dar esta oportunidade e
principalmente ao nosso orientador pelos
dias dedicados a nós e seu desempenho
em nos orientar e ensinar.
v
AGRADECIMENTOS
Ao iniciar uma caminhada, o ser humano nunca pode determinar se
conseguirá atingir seus objetivos; nesse caminhar existem possibilidades de que
ocorram tropeços, porém a grande virtude é a coragem para se levantar e começar
novamente, nunca desistir.
Todavia, ao terminar uma jornada, não há prazer no mundo que possa ser
comparado aquele momento. Todas as dificuldades são esquecidas, mesmo que
momentaneamente e após a euforia, novas metas e novos objetivos sejam traçados
e o ser humano recomeçe sua caminhada.
Agradecemos às pessoas que, direta ou indiretamente, ajudaram na
elaboração deste trabalho.
Aos nossos familiares, pelo amor, paciência e apoio.
Ao corpo docente do curso de graduação de Estatística, pelos
ensinamentos, em especial ao nosso orientador César Augusto Taconeli, que teve a
palavra certa nos momentos de dificuldades.
vi
RESUMO
Introduzida por McIntyre (1952), a amostragem por conjuntos ordenados (ACO) é
uma alternativa eficiente quando a variável de interesse é de difícil mensuração ou
de custo amostral elevado podendo-se, no entanto, ordenar amostras aleatórias
simples segundo esta variável, mas sem de fato medi-la. Tal ordenação pode ser
fundamentada em uma variável concomitante, fortemente correlacionada com a
variável de interesse, ou em algum julgamento pessoal. O bootstrap, por sua vez, é
uma técnica de reamostragem amplamente utilizada na obtenção de estimativas
intervalares, bem como na avaliação da acurácia de estimativas e testes. Barreto e
Taconeli (2006) propõem um algoritmo de reamostragem bootstrap em
delineamentos por conjuntos ordenados. Este trabalho apresenta um estudo por
simulação que tem por objetivo avaliar o referido algoritmo quando aplicado à
estimação intervalar da média quando as amostras são ordenadas segundo uma
variável concomitante. Os intervalos produzidos via ACO se mostraram mais
precisos e, em geral, tão ou mais acurados do que aqueles produzidos via
amostragem aleatória simples. O ganho em precisão aumenta à medida que são
consideradas variáveis com maiores graus de correlação e maiores tamanhos
amostrais. Intervalos mais acurados foram verificados na estimação da média de
distribuições simétricas (normal e uniforme) em relação à distribuição assimétrica
considerada (exponencial).
Palavra Chave: Amostragem por Conjuntos Ordenados, Método Bootstrap
vii
LISTA DE TABELAS
TABELA 1 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA....................................... 29
TABELA 2 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO UNIFORME, OBTIDA ATRAVÉS DE SIMULAÇÃO, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA ................................... 31
TABELA 3 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA .......................... 33
TABELA 4 - PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA T-BOOTSTRAP PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA .......................... 36
viii
LISTA DE FIGURAS
FIGURA 1 - ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS SEM REPLICAS.................................................................................................................15
FIGURA 2 - ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS COM REPLICAS.................................................................................................................15
FIGURA 3- ILUSTRAÇÃO DO PROCEDIMENTO PARA OBTENÇÃO DE REAMOSTRAS BOOTSTRAP.................................................................................18
FIGURA 4 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO NORMAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA ...........................................................28
FIGURA 5 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO UNIFORME, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.................................................30
FIGURA 6 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.................................................32
FIGURA 7 - PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP T-BOOTSTRAP PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA ...........................35
ix
SUMÁRIO
INTRODUÇÃO ......................................................................................................................10
2. REVISÃO DE LITERATURA..........................................................................................12
2.1 AMOSTRAGEM ALEATÓRIA SIMPLES (AAS)...........................................................12
2.2 AMOSTRAGEM EM CONJUNTOS ORDENADO (ACO).............................................12
2.2.1 Seleção da amostra por conjuntos ordenados..................................................................14
2.2.2 Estimação da média via ACO..........................................................................................16
2.3 MÉTODO BOOTSTRAP...................................................................................................17
2.3.1 Técnicas de reamostragem bootstrap...............................................................................17
2.3.2 Intervalos de confiança bootstrap....................................................................................19
2.3.3 Propriedades desejáveis de um intervalo de confiança ...................................................21
2.3.4 Reamostragem bootstrap em amostragem por conjuntos ordenados ..............................22
3. METODOLOGIA ..............................................................................................................24
4. RESULTADOS E DISCUSSÕES ....................................................................................26
4.1 ANALISE DOS RESULTADOS OBTIDOS ATRAVÉS DO MÉTODO PERCENTIL..27
4.2 ANALISE DOS RESULTADOS OBTIDOS ATRAVÉS DO MÉTODO T-BOOTSTRAP....................................................................................................................................34
5. CONCLUSÕES ..................................................................................................................37
REFERÊNCIAS .....................................................................................................................38
APÊNDICES ...........................................................................................................................40
x
10
INTRODUÇÃO
A amostragem por conjuntos ordenados - ACO (Ranked Set Sampling (RSS)
- McIntyre, 1952) é um delineamento amostral aplicável nas situações em que não
se tem a possibilidade de extrair grandes amostras devido ao custo ou à dificuldade
em se obter as informações de interesse, havendo, no entanto, a possibilidade de
ordenar unidades amostrais sem a efetiva mensuração da variável considerada.
Essa ordenação pode ser realizada com base em uma variável concomitante
(variável correlacionada) ou no julgamento de algum especialista (julgamento
pessoal). O processo de ordenação é dito perfeito caso não seja passível de falhas e
imperfeito caso contrário. Dada a restrição associada à coleta de amostras
numerosas, a utilização de propriedades assintóticas dos estimadores produzidos
por amostras por conjuntos ordenados torna-se inviável. Além disso, a distribuição
desses estimadores somente é conhecida em situações bem particulares, sobretudo
quando a variável de interesse é normalmente distribuída.
O bootstrap consiste na geração de réplicas das estimativas dos parâmetros
com base na seleção de uma amostra e extração de reamostras. Essas reamostras
podem ser geradas com reposição a partir da amostra original (bootstrap não
paramétrico) ou de uma específica distribuição de probabilidades com parâmetros
estimados via amostra original (bootstrap paramétrico). Embora o bootstrap seja
fundamentado em amostragem aleatória simples - AAS (Simple Random Sampling
(SRS)), diversas extensões têm sido propostas com o objetivo de utilizá-lo em
delineamentos por conjuntos ordenados (Cesário e Barreto, 2003; Taconeli e
Barreto, 2005; Barreto e Taconeli, 2006; Modarres et al, 2006). Tais estudos
comprovam a produção de inferências mais precisas (e igualmente acuradas) sob
ACO do que as obtidas via AAS.
O objetivo deste trabalho é avaliar o desempenho do algoritmo de
reamostragem bootstrap para delineamentos em conjuntos ordenados, proposto em
Barreto e Taconeli (2006), na construção de intervalos de confiança para a média,
quando, a ordenação das amostras é realizada por meio de uma variável
concomitante. Foram consideradas variáveis com diferentes distribuições de
11
probabilidades, simétricas (normal e uniforme) e assimétrica (exponencial) e
variáveis concomitantes com diferentes graus de correlação em relação à variável
de interesse. Os tamanhos amostrais investigados foram todos inferiores a 30,
buscando abordar situações em que resultados assintóticos não são válidos. Os
intervalos de confiança produzidos foram comparados segundo a precisão
(amplitude) e a acurácia (cobertura) dos mesmos.
No Capitulo 2 apresenta-se a revisão de literatura do presente trabalho.
Inicialmente, são abordados os delineamentos amostrais por AAS e ACO,
ressaltando a estimação da média via ACO e suas principais propriedades. Na
seqüência descreve-se o método de reamostragem bootstrap, suas aplicações na
determinação de estimativas de erros padrões de estimadores e intervalos de
confiança para os parâmetros estudados. O capítulo se encerra com a apresentação
de um algoritmo que faz a junção do bootstrap com o delineamento por conjuntos
ordenados.
O Capitulo 3, por sua vez, apresenta o delineamento do estudo por
simulação realizado. São destacadas as configurações consideradas quanto aos
tamanhos de amostras, distribuições e graus de correlações entre variáveis.
Apresenta ainda os números de amostras e reamostras simuladas e a forma como
os resultados produzidos foram avaliados.
Os resultados do estudo por simulação são mostrados no Capitulo 4 por
meio de gráficos e tabelas adequados. A conclusão do trabalho encontra-se no
Capitulo 5.
12
2 REVISÃO DE LITERATURA
Na Seção 2.1 tem-se uma breve descrição do delineamento por
Amostragem Aleatória Simples. Já a Seção 2.2 apresenta o delineamento por
Amostragem por Conjuntos Ordenados, destacando suas principais propriedades e
seu estimador para a média populacional. A Seção 2.3 descreve o método de
reamostragem bootstrap (convencional, fundamentado em amostragem aleatória
simples) e os intervalos de confiança percentil e t-bootstrap. Na Seção 2.4 encontra-
se o algoritmo de reamostragem bootstrap em delineamentos por conjuntos
ordenados proposto em Barreto e Taconeli (2006).
2.1 AMOSTRAGEM ALEATÓRIA SIMPLES
A amostragem aleatória simples consiste na seleção de uma amostra de
uma população, tal que qualquer item da população tenha a mesma probabilidade
de ser selecionado. Este tipo de amostragem requer que todos os itens da
população estejam disponíveis para serem avaliados na amostra. Na maioria das
aplicações, uma vez selecionado um item da população como parte da amostra,
esta unidade não é retornada à população para ser disponibilizada novamente para
a amostra.
2.2 AMOSTRAGEM POR CONJUNTOS ORDENADOS
A amostragem por conjuntos ordenados foi introduzida na década de 50 por
McIntyre (1952) e vem sendo desenvolvida desde então por pesquisadores como:
Cesário e Barreto, 2003; Taconeli e Barreto, 2005; Barreto e Taconeli, 2006;
Modarres et al, 2006, entre outros. Tal delineamento aplica-se nas situações em que
a mensuração da variável de interesse é difícil ou cara, mas há a possibilidade de
13
ordenar amostras de maneira precisa sem tomar o valor da referida variável. Nessas
situações, a amostragem por conjuntos ordenados produz estimadores mais
precisos do que a amostragem aleatória simples. Seus desenvolvimentos recentes
têm em vista aplicações em estudos no meio ambiente. Outros esquemas amostrais
também úteis em estudos ambientais são, por exemplo, amostragem adaptativa e
captura-recaptura, conforme mencionado em Taconeli e Barreto (2003). Estimadores
apropriados para esses tipos de amostragem são apresentados em Thompson
(1992).
A ordenação das amostras em delineamentos por conjuntos ordenados pode
se basear, por exemplo, em alguma variável concomitante que seja de fácil
mensuração e apresente uma forte correlação com a variável de interesse (conforme
metodologia). Considerando a ordenação mediante a mensuração de uma variável
correlacionada, a utilização de uma variável concomitante X (por exemplo, alguma
medida externa de pacientes ou cobaias) pode servir de base para ordenação de
uma variável Y (por exemplo, alguma característica interna dos mesmos). A título
de ilustração, o estudo das alturas de árvores em uma região densa pode ser
complicado e limitar o tamanho amostral, devido à dificuldade em se alcançar o topo
das árvores e à impossibilidade de inferir os tamanhos a partir de suas sombras.
Pode-se, no entanto, ordenar de maneira simples e eficiente amostras de árvores
segundo suas alturas com base no diâmetro de seus troncos à altura do peito, caso
o diâmetro seja fortemente correlacionado com a altura. Essa é uma típica situação
em que a amostragem por conjuntos ordenados é aplicável (TACONELI e
BARRETO, 2003).
Outro típico critério de ordenação pode ser baseado em uma opinião
subjetiva, fornecida pelo próprio pesquisador da área (ordenação por meio de
julgamento pessoal). Como exemplo, pode-se ordenar famílias de acordo com suas
rendas com base em características de cunho visual de suas residências (como
tamanho e estado de conservação). O modelo com ordenação por julgamento
pessoal é discutido com detalhes em Taconeli (2005).
Pode-se classificar o procedimento de ACO de duas maneiras, de acordo
com o desempenho do procedimento adotado para ordenação das unidades
amostrais: ordenação perfeita, quando o método não apresenta erros, e ordenação
14
imperfeita, nas situações em que a ordenação pode apresentar falhas, resultando
em uma menor precisão dos estimadores dos parâmetros de interesse.
Logicamente, esta perda de precisão torna-se mais acentuada à medida que a
ordenação seja realizada de maneira mais imprecisa. Portanto, a eficiência destes
delineamentos esta associada à qualidade do critério de ordenação.
2.2.1 Seleção da amostra por conjuntos ordenados
O procedimento para obtenção de uma amostra de conjuntos ordenados
consiste em três etapas: seleção, ordenação e mensuração. Inicialmente, são
selecionadas n amostras aleatórias simples de tamanho n , com reposição, da
população de interesse. Ordena-se então, cada uma das n amostras, em ordem
crescente do possível valor da variável de interesse, baseado em algum critério
subjetivo (julgamento pessoal) ou através de uma variável concomitante fortemente
correlacionada. Efetivamente é mensurada a primeira observação (aquela que se
julga apresentar o menor valor) da primeira amostra, a segunda observação da
segunda amostra, e assim por diante, até que na ésiman - amostra seja
mensurada a unidade amostral com maior valor para a variável de interesse. Este
procedimento pode ser replicado m vezes, originando uma amostra de tamanho
nm * . Esta amostra pode ser representada por:
minry ir ,,2,1;,,2,1;][ KK == (1)
sendo iry ][ a observação mensurada na ésimar - amostra da
ésimai - repetição. O algoritmo deste delineamento pode ser visto em detalhes
em Taconeli (2005).
A titulo de ilustração, na Figura 1 apresenta-se o delineamento responsável
pela produção de uma amostra por conjuntos ordenados de tamanho
( )6 1, 6N m n= = = . Já o delineamento apresentado na Figura 2 também produz uma
15
amostra de tamanho 6N = , mas com ( )2, 3m n= = . Em ambos os casos, vale
ressaltar que [ ]ry × não necessariamente se refere a uma estatística de ordem, dada
a possibilidade de cometer erros no processo de ordenação.
FIGURA 1 – ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS SEM RÉPLICA
FIGURA 2 – ILUSTRAÇÃO DE AMOSTRA POR CONJUNTOS ORDENADOS COM RÉPLICA.
16
2.2.2 Estimação da média via ACO
O objetivo principal da amostragem por conjuntos ordenados, assim como
acontece com os outros delineamentos amostrais, é a estimação de parâmetros, de
maneira particular a estimação da média. A grande vantagem da amostragem em
conjuntos ordenados está no aumento da precisão da média da amostra em
conjuntos ordenados em relação à média da amostra aleatória simples como
estimador da média populacional (DELL e CLUTTER, 1972). A média de uma
amostra por conjuntos ordenados de tamanho mn pode ser expressa como:
å å= =
=n
r
m
iirY
mnY
1 1][
1, (2)
sendo um estimador não viciado da média populacional. Na situação em que a
ordenação das amostras é perfeita, [ ]ry × é de fato uma estatística de ordem e,
segundo Takahashi & Wakimoto (1968), a variância de Y fica dada por:
( ) 2 2 2,
1
[( ) / ] ( ) /n
r nr
Var Y nm n ms m m=
é ù= - -ê ú
ë ûå (3)
sendo m e 2s respectivamente a média e a variância de Y e nr ;m a média da r-
ésima estatística de ordem de amostras aleatórias simples de tamanho n . Como
mn/2s é a variância da média de uma amostra aleatória simples de tamanho mn ,
isso garante que ( )( ) 1£YVarYVar
. Dell & Clutter (1972) comprovaram por meio de um
estudo por simulação a maior eficiência de Y em relação à Y mesmo na presença
de erros de ordenação.
17
2.3 MÉTODO BOOTSTRAP
O bootstrap consiste na replicação do processo de estimação via re-
amostragem, através da amostra original ou da distribuição da variável de interesse
com parâmetros estimados via amostra original (EFRON & TIBSHIRANI, 1993).
Tendo em vista os benefícios decorrentes da amostragem em conjuntos ordenados
no processo de estimação de diversos parâmetros, Barreto e taconeli (2006),
estendem a metodologia bootstrap, fundamentada em amostragem aleatória
simples, para delineamentos em conjuntos ordenados.
2.3.1 Técnica de reamostragem bootstrap
Seja )....,( 21 nyyy=y uma amostra aleatória simples de uma distribuição
F , e q um parâmetro (ou função de parâmetros) desta distribuição. Suponhamos
que se deseja produzir inferências para q . Pode-se representar q como alguma
função de F , ou seja, )(Ft=q . Considere ainda q̂ um estimador para q . O
principio “plug-in”, que fundamenta o bootstrap, parte da determinação de um
estimador para F ( F̂ ), de maneira que ˆ ˆ( )t Fq = . Assim, uma vez estimada F por
F̂ , pode-se gerar amostras a partir de F̂ e calcular as consequentes estimativas,
*q̂ , que são ‘réplicas’ de q̂ . O bootstrap baseia-se na aproximação das distribuições
das seguintes estatísticas:
)ˆ(~)ˆˆ( * qqqq -- (4)
Assim, gerando-se um grande número de réplicas *q̂ de q̂ , pode-se estimar
a distribuição de q̂ e utilizá-la na estimação do erro padrão do estimador, na
construção de intervalos de confiança e em testes de hipóteses. A obtenção das
referidas réplicas se dá pela geração de reamostras de tamanho n (como a amostra
18
original) a partir de F̂ , sendo executada de maneiras distintas conforme a
abordagem (paramétrica ou não paramétrica) utilizada.
No caso paramétrico parte-se do conhecimento da distribuição de Y ,
desconhecendo-se apenas seus parâmetros. Seja ψ o vetor de parâmetros
associado a F e ψ̂ um vetor de estimativas de ψ , calculado a partir da amostra
original. Assim, obtém-se F̂ simplesmente substituindo ψ por ψ̂ , podendo-se
utilizá-la na geração das reamostras, responsáveis pela produção das estimativas de
interesse. Caso não se conheça a forma de F , pode-se estimá-la pela distribuição
empírica dos dados amostrais, designando uma massa de probabilidade igual a 1/ n
para cada ponto amostral. Nesse caso, reamostras de tamanho n são extraídas
com reposição da amostra original. O presente estudo aborda o bootstrap apenas
em sua versão não paramétrica. Sob qualquer uma das abordagens, geram-se
**2
*1 ,,, Byyy K , B reamostras bootstrap, obtendo-se *
1̂q , *2q̂ ,..., *ˆ
Bq , as respectivas
estimativas bootstrap produzidas.
nyyy ,,, 21 L=y → Amostra original
*11y , *
12y ,...,*
1ny → *1̂q
*21y ,
*22y ,..., *
2ny → *2q̂
M M M M *
1By , *2By ,..., *
Bny → *ˆBq
FIGURA 3 – ILUSTRAÇÃO DO PROCEDIMENTO PARA OBTENÇÃO DE REAMOSTRAS
BOOTSTRAP
Como dito anteriormente, uma aplicação frequente do bootstrap é a
estimação do erro padrão de estimadores. O estimador bootstrap para o erro padrão
de q̂ é dado por:
( )2
^1
ˆ ˆ( )ˆ
1
B
bb
bootepB
q qq
* *
=
-=
-
å, (5)
19
sendo 1
ˆ ˆ(1/ )*B
bbBq q* *
== å . No limite, tem-se que ( ) ( )
^ˆ ˆlim bootB
ep epq q®¥
æ ö =ç ÷è ø
(EFRON e
TIBSHIRANI, 1993).
2.3.2 Intervalos de confiança bootstrap
No processo de inferência de um determinado parâmetro q não se pode
valer simplesmente da utilização de uma estimativa pontual q̂ , pois esta estimativa
não apresenta medidas de precisão e confiança decorrentes do processo de
estimação. Já para construir os intervalos de confiança, a precisão do estimador e o
erro de estimação são levados em consideração, possibilitando assim a obtenção de
estimativas mais confiáveis.
Utilizando-se reamostragem bootstrap, torna-se possível a obtenção de
estimativas intervalares dos parâmetros de interesse. Isto pode ocorrer sob diversas
abordagens, produzindo diferentes intervalos. No presente trabalho são
considerados os intervalos percentil e t-bootstrap.
O procedimento t-bootstrap (Efron & Tibshirani, 1993), também conhecido
como método pivotal, é uma generalização do usual método t de Student, sendo
particularmente aplicável aos parâmetros de locação, como a média amostral, a
mediana, ou percentil amostral. Estes autores citam que, pelo menos em sua forma
tradicional o método t-bootstrap não é adequado para a estimação de outros tipos de
parâmetros.
A construção usual de intervalos de confiança para a média populacional
(q m= ), baseado na média amostral ( ˆ Xq = ) parte da seguinte aproximação:
(6)
derivando-se dessa aproximação os seguintes limites para um intervalo com
confiança a-1 , com 10 << a :
1~ ,ˆ( )nZ t
êp
q qq --
=)
20
÷÷
ø
ö
çç
è
æ÷øö
çèæ
-
Ù
± qq aˆˆ
1),( ept n, (7)
sendo t 1),( -na o ésimoa - percentil da distribuição t com 1n - graus de liberdade.
O método t -bootstrap também se baseia na estatística (6). Nesse caso,
porém, a distribuição de Z é estimada diretamente a partir dos dados amostrados,
calculando-se, para cada reamostra,
( )
Bbep
Z
b
bb ,,2,1,
ˆ
ˆˆ
*
** K=
-=
Ùq
qq (8)
sendo q̂ a estimativa pontual da amostra original e ˆ( )bêp q* o erro padrão estimado
de b̂q* , obtido a partir de um novo bootstrap aplicado a by , a b-ésima reamostra,
1, 2,...,b B= . Este procedimento é denominado duplo-bootstrap e requer,
invariavelmente, um intenso esforço computacional. Os limites do intervalo de
confiança t-bootstrap baseiam-se nos percentis da distribuição de Z . O ésimoa -
percentil de bZ * é estimado por ( )t̂ a , tal que:
( )( )
1
ˆB
bb
I Z t
B
a
a
*
=
£=
å, (9)
sendo ( )I × a função indicadora. O intervalo de confiança t-bootstrap tem, portanto,
os seguintes limites:
÷÷÷
ø
ö
ççç
è
æ÷øö
çèæ
Ù÷øö
çèæ
Ù
--- qqqq aa
ˆˆˆ;ˆˆˆ)2()21( bootboot eptept (10)
O método t-bootstrap produz intervalos de confiança acurados de segunda
ordem. Martinez e Louzada-Neto (2001). discutem com mais detalhes a acurácia de
intervalos de confiança.
21
Já o intervalo de confiança bootstrap percentil baseia-se nos percentis
estimados via reamostragem da distribuição de q̂ . Assim, um intervalo de confiança
1 a- para q tem os seguintes limites:
( )* *( /2) (1 /2)
ˆ ˆ,a aq q - , (11)
sendo *( )
ˆaq o ésimoa - percentil da distribuição empírica das B estimativas q̂ * .
O intervalo bootstrap percentil é destacado devido à simplicidade do método
e propriedade de invariância à transformação monótonas (Martinez e Louzada-Neto,
2001). Este método produz intervalos acurados de primeira ordem (ver Seção 2.3.3).
2.3.3 Propriedades desejáveis de um intervalo de confiança
Uma propriedade desejável para intervalos de confiança é a acurácia
(cobertura dos intervalos). Seja, por simplicidade, um intervalo de confiança
unilateral para um parâmetro de interesse q , cujo único limite de confiança é dado
por )(̂aq , sendo a a probabilidade de cobertura deste intervalo. Assim,
aqq a ȣ ][ )(
)P (12)
Segundo Martinez e Louzada-Neto (2001), um limite de confiança )(aq)
é dito
acurado de primeira ordem se
)(0][ 2/1)(
-+ȣ nP aqq a
) (13)
e, é dito acurado de segunda ordem se
)(0][ 1)(
-+ȣ nP aqq a
) (14)
22
sendo (.)0 o resto. Em outras palavras, se )(aq)
é acurado de primeira ordem, a
probabilidade de cobertura ][ )(aqq)
£P é igual a a mais um termo cuja ordem de
magnitude é, no máximo, de 2/1-n , para todo n suficientemente grande.
Quanto maior o intervalo de confiança, mais confiante nós estaremos de
que realmente o intervalo calculado contenha o verdadeiro valor de q . Por outro
lado, quanto maior o intervalo, menos informação teremos sobre o verdadeiro valor
de q . Portanto em uma situação ideal, obtemos um intervalo relativamente curto
com alta confiança. Assim, referente à precisão dos intervalos de confiança, deseja-
se que essa seja a maior possível, mas sem afetar a acurácia dos mesmos.
2.3.4 Reamostragem bootstrap em amostragem por conjuntos ordenados
O algoritmo a seguir, apresentado em Barreto e Taconeli (2006), descreve a
proposta de reamostragem bootstrap em amostragem por conjuntos ordenados.
1. Seleção de uma amostra por conjuntos ordenados { }[ ] ; 1,..., ; 1,...,r iy r n i m= = ;
2. Ordenação da amostra obtida no passo 1 com base no critério de ordenação
adotado (de maneira particular, com base nos resultados da variável
concomitante);
3. Atribuição de ranks de 1 a nm * às unidades amostrais relacionadas no passo
1, de acordo com a ordenação estabelecida no passo 2 ( )mnrrr ,,, 21 K ;
4. Geração de B reamostras 1 2, ,..., B* * *y y y , segundo procedimento de amostras por
conjuntos ordenados, utilizando como critério para ordenação das unidades
amostrais os ranks determinados no passo 3.
Repare que ao ordenar as amostras bootstrap de acordo com a variável
concomitante, tem-se a garantia de que os erros de ordenação influenciam
diretamente na ordem das reamostras, evitando, desta maneira, problemas
23
referentes à acurácia dos estimadores considerados.
Barreto e Taconeli (2006) verificaram que os intervalos obtidos através dos
esquemas de reamostragem, executando este algoritmo, apresentam uma forte
similaridade com os intervalos de confiança bootstrap baseados em amostragem
aleatória simples no que se refere a acurácia, se destacando, no entanto, por um
acentuado ganho em termos de precisão das estimativas geradas. Este ganho
decresce à medida que aumenta o grau de imperfeição na ordenação das unidades
amostrais, embora haja um relevante ganho em precisão ainda na situação mais
critica em que se considerou o maior valor para a variância dos erros de ordenação.
24
3 METODOLOGIA
Neste Capitulo apresentamos a metodologia utilizada para a avaliação do
algoritmo de reamostragem bootstrap em delineamentos por conjuntos ordenados,
apresentado na Seção 2.3.4, na produção de intervalos de confiança para a média,
quando a ordenação das amostras se dá segundo os resultados de uma variável
concomitante. Com tal finalidade, foi executado um estudo por simulação em que
foram considerados:
· Três distribuições de probabilidades: a variável resposta ( )Y e concomitante ( )X
foram geradas com distribuição normal(0,1), uniforme(0,1) e exponencial(1)
bivariadas;
· Cinco diferentes graus de correlação entre as variáveis: 0=r (independência),
5.0=r , 7.0=r , 9.0=r (ordenação imperfeita), 1=r (ordenação perfeita);
· Três tamanhos de amostra e números de replicação: 8=N ( )4;2 == nm
15=N ( )5;3 == nm e 25=N ( )5;5 == nm
Para cada possível combinação dos tamanhos de amostra e número de
réplicas, correlação e distribuições da variável de interesse foram simuladas K
amostras por conjuntos ordenados, responsáveis pela determinação de K intervalos
de confiança bootstrap (percentil e t-bootstrap) para a média populacional, com 90%,
95% e 99% de confiança. Tais intervalos foram avaliados de acordo com sua
precisão e acurácia , baseado, respectivamente, no comprimento médio e na
probabilidade de cobertura (PC) das estimativas geradas. A probabilidade de
cobertura pode ser expressa pela seguinte razão:
calculadosCIdetotalnúmero
parâmetrodovalorverdadeiroocontémqueCIdenúmeroPC
.
.= (15)
25
Os critérios utilizados na determinação do número de reamostragens ( B ) e
intervalos de confiança ( K ) simulados para cada configuração são essencialmente
fundamentados em análises de convergência apresentadas em Taconeli (2005). A
determinação adequada das referidas constantes garante a produção de resultados
consistentes sem a geração de resultados em excesso, o que consumiria tempo e
esforço computacional desnecessários. Com base nisso, foram definidos 400K = e
400B = .
Devido à complexidade, para as simulações do intervalo t-bootstrap foi
utilizado o LCPAD (Laboratório Central de Processamento de Alto Desempenho) da
UFPR, que disponibiliza recursos computacionais para procedimentos intensos
como o caso destas simulações.
26
4 RESULTADOS E DISCUSSÕES
Neste capitulo são apresentados os resultados do estudo realizado via
simulação, através de figuras e tabelas da probabilidade de cobertura e da amplitude
média dos intervalos de confiança gerados em cada uma das configurações
consideradas.
As seções seguintes trazem as análises das três distribuições estudadas.
Cada figura e tabela mostram o desempenho referente à acurácia e precisão dos
intervalos propostos na estimação da média da população considerada naquela
seção. Na intenção de fazer comparações da performance dos intervalos propostos
sob ordenação perfeita e imperfeita, também se realizaram simulações de intervalos
de confiança baseados em amostragem aleatória simples ( 0=r ).
Nas tabelas de probabilidade de cobertura, valores acompanhados de um
asterisco (*) indicam que, para essa configuração, não se pode rejeitar a hipótese da
probabilidade de cobertura ser a inicialmente desejada (90%, 95% ou 99%) a um
nível de significância de 5%. Tal hipótese é verificada através de um teste para
proporções, baseado na distribuição binomial com parâmetros n e p sendo n o
número de intervalos de confiança simulados e p o nível de confiança considerado.
27
4.1 ANALISE DOS RESULTADOS OBTIDOS ATRAVÉS DO MÉTODO PERCENTIL
A Figura 4 e a Tabela 1 apresentam os resultados obtidos para amostras
geradas com distribuição normal (0,1), com os diferentes tamanhos amostrais e
correlações. De acordo com a Figura 4 verifica-se que a amplitude média dos
intervalos diminui à medida que N cresce, e também conforme aumenta a correlação
entre as variáveis e em todos os casos a amplitude média dos intervalos é menor
comparando-se a AAS, ou seja tem-se um ganho em precisão. Analisando as
probabilidades de cobertura, é possível observar que este ganho em termos de
precisão não compromete a acurácia dos intervalos.
Como mostra a Figura 4 e a Figura 5, sob todas as configurações avaliadas,
os intervalos obtidos via ACO foram mais precisos do que aqueles obtidos via AAS
para cada tamanho amostral considerado. Para as distribuições simétricas, este
ganho de precisão, em geral, não resultou em perda de acurácia, mesmo quando a
ordenação é perfeita, onde algumas coberturas ficaram abaixo do nível de confiança
estipulado, uma vez que as probabilidade de cobertura, obtidas via ACO não diferem
significativamente dos níveis de confiança desejados. Já no caso em que os dados
foram gerados de uma distribuição exponencial, nas situações em que se
consideraram maiores correlações, tiveram-se intervalos mais precisos, mas em
diversos casos sua cobertura não atingiu o nível de confiança estipulado.
28
(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)
Ordenação Perfeita 1=r
FIGURA 4 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO NORMAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.
0.8
00.8
50.9
00.9
51.0
0
N=8, m=2,n=4NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.8
00.8
50.9
00.9
51.0
0
N=15,m=3,n=5NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.8
00.8
50.9
00.9
51.0
0
N=25, m=5,n=5NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.4
0.6
0.8
1.0
1.2
1.4
1.6
N=8, m=2,n=4NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.4
0.6
0.8
1.0
1.2
1.4
1.6
N=15, m=3,n=5NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.4
0.6
0.8
1.0
1.2
1.4
1.6
N=25, m=5,n=5NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
29
TABELA 1 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.
Nível de Confiança
Amplitude média dos IC
Tamanho amostral 90% 95% 99% 90% 95% 99%
ρ= 0 95,00% 97,00%* 99,30%* 1,0169 1,1979 1,5398
ρ= 0.5 94,80% 98,30% 99,50%* 0,9893 1,1701 1,5024
ρ= 0. 7 92,30%* 94,50%* 98,30%* 0,9026 1,0670 1,3777
ρ= 0. 9 90,50%* 94,00%* 98,30%* 0,8051 0,9553 1,2364
( )4n2;m8 ===N
ρ= 1 87,80%* 92,00% 96,30% 0,7417 0,8819 1,1477
ρ= 0 98,30% 99,50% 100,00% 0,7807 0,9265 1,2058
ρ= 0.5 97,80% 98,80% 99,50%* 0,7367 0,8758 1,1390
ρ= 0. 7 96,50% 99,50% 100,00% 0,6716 0,7997 1,0463
ρ= 0. 9 94,50% 97,30% 99,80%* 0,5832 0,6937 0,9093
( )5n3;m15 ===N
ρ= 1 87,50%* 94,30%* 98,30%* 0,5034 0,5995 0,7860
ρ= 0 99,30% 99,80% 100,00% 0,6300 0,7502 0,9834
ρ= 0.5 97,30% 99,50% 100,00% 0,5845 0,6976 0,9124
ρ= 0. 7 97,00% 99,30% 100,00% 0,5329 0,6355 0,8317
ρ= 0. 9 94,80% 97,50% 99,80%* 0,4494 0,5340 0,6981
( )5n5;m25 ===N
ρ= 1 89,80%* 94,00%* 99,80%* 0,3945 0,4698 0,6157
N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de
interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados
30
(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)
Ordenação Perfeita 1=r
FIGURA 5 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA
DE UMA VARIAVEL COM DISTRIBUIÇÃO UNIFORME, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.
0.8
00.8
50
.90
0.9
51
.00
N=8, m=2,n=4NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.8
00.8
50
.90
0.9
51
.00
N=8, m=2,n=4NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.8
00.8
50
.90
0.9
51
.00
N=8, m=2,n=4NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.1
50.2
00.2
50.3
00.3
50.4
00.4
5
N=8, m=2,n=4NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.1
50.2
00.2
50.3
00.3
50.4
00.4
5
N=15, m=3,n=5NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.1
50.2
00.2
50.3
00.3
50.4
00.4
5
N=25, m=5,n=5NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
31
TABELA 2 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO UNIFORME, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.
Nível de Confiança
Amplitude média dos IC
Tamanho amostral 90% 95% 99% 90% 95% 99%
ρ= 0 82,5% 87,3% 93,8% 0,2948 0,3481 0,4457
ρ= 0.5 83,3% 89,5% 96,0% 0,2795 0,3309 0,4270
ρ= 0. 7 82,5% 87,5% 94,3% 0,2607 0,3084 0,3987
ρ= 0. 9 89,8%* 92,5% 97,5% 0,2355 0,2797 0,3621
( )4n2;m8 ===N
ρ= 1 89,0% 93,8%* 97,3% 0,2154 0,2563 0,3335 ρ= 0 84,5% 91,8% 96,3% 0,2279 0,2707 0,3524
ρ= 0.5 85,0% 90,0% 96,5% 0,2110 0,2506 0,3253
ρ= 0. 7 87,3%* 92,5% 97,0% 0,1938 0,2306 0,3003
ρ= 0. 9 87,5%* 94,0%* 98,5%* 0,1663 0,1980 0,2595
( )5n3;m15 ===N
ρ= 1 89,5%* 93,8%* 98,3%* 0,1449 0,1727 0,2261 ρ= 0 88,0%* 93,0%* 97,5% 0,1829 0,2172 0,2839
ρ= 0.5 83,5% 91,5% 96,5% 0,1661 0,1979 0,2582
ρ= 0. 7 89,8%* 94,3%* 98,5%* 0,1540 0,1831 0,2391
ρ= 0. 9 89,5%* 94,5%* 98,8%* 0,1291 0,1537 0,2021
( )5n5;m25 ===N
ρ= 1 89,5%* 95,5%* 98,8%* 0,1111 0,1325 0,1735
N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de
interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados
32
0.8
00.8
50
.90
0.9
51
.00
N=8, m=2,n=4NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.8
00.8
50
.90
0.9
51
.00
N=15,m=3,n=5NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.8
00.8
50
.90
0.9
51
.00
N=25, m=5,n=5NÍVEL DE CONFIANÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.4
0.6
0.8
1.0
1.2
1.4
N=8, m=2,n=4NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.4
0.6
0.8
1.0
1.2
1.4
N=15, m=3,n=5NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.4
0.6
0.8
1.0
1.2
1.4
N=25, m=5,n=5NÍVEL DE CONFIANÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)
Ordenação Perfeita 1=r FIGURA 6 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP PERCENTIL PARA A MÉDIA
DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.
33
TABELA 3 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA PERCENTIL PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.
Nível de Confiança
Amplitude média dos IC
Tamanho amostral 90% 95% 99% 90% 95% 99%
ρ= 0 89,5%* 92,0% 95,8% 0,9607 1,1217 1,4185
ρ= 0.5 91,3%* 93,5%* 96,5% 0,9556 1,1193 1,4159
ρ= 0. 7 88,3%* 92,3% 95,8% 0,8931 1,0570 1,3365
ρ= 0. 9 85,3% 90,0% 95,3% 0,8051 0,9618 1,2122
( )4n2;m8 ===N
ρ= 1 82,3% 86,8% 91,8% 0,7031 0,8436 1,0696 ρ= 0 94,5% 96,3%* 98,0%* 0,7850 0,9256 1,1932
ρ= 0.5 93,3% 94,3%* 98,3%* 0,7042 0,8321 1,0726
ρ= 0. 7 89,5%* 93,0%* 98,0%* 0,6482 0,7675 0,9921
ρ= 0. 9 89,5%* 92,5% 96,5% 0,5827 0,6891 0,8906
( )5n3;m15 ===N
ρ= 1 85,8% 88,3% 94,5% 0,5196 0,6150 0,7950 ρ= 0 94,3% 97,8% 99,3%* 0,6320 0,7507 0,9764
ρ= 0.5 93,8% 96,8%* 99,5%* 0,5815 0,6912 0,9021
ρ= 0. 7 94,0% 97,8% 99,8%* 0,5371 0,6373 0,8309
ρ= 0. 9 89,0%* 93,8%* 97,0% 0,4658 0,5517 0,7152
( )5n5;m25 ===N
ρ= 1 85,8% 92,0% 98,0%* 0,4211 0,4987 0,6482
N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de
interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados
34
4.2 ANALISE DOS RESULTADOS OBTIDOS ATRAVES DO MÉTODO
T-BOOTSTRAP
As simulações para este método foram geradas com as mesmas
configurações consideradas para o método percentil. No entanto, devido a não
conformidades dos resultados com aquilo que era esperado, são apresentados, a
título de discussão, apenas os resultados obtidos para a distribuição exponencial
(Tabela 4 e Figura 7). Conclui-se que à medida que cresce a correlação a amplitude
média dos intervalos diminui e a probabilidade de cobertura decresce na mesma
proporção. Estes resultados são contraditórios com as propriedades mencionadas
quanto à acurácia do método t-bootstrap, que é conhecido por apresentar resultados
menos precisos, porem mais acurados em relação a outros intervalos de confiança
bootstrap (particularmente o percentil). Com base nisso, não são apresentados os
resultados relativos às outras distribuições, uma vez que seria adequado rever o
processo de simulação. Como seria necessário dispor de muito tempo para isso, não
foi possível essa revisão, deixamos à comprovação dos resultados como proposta
para estudos futuros.
35
0.6
0.7
0.8
0.9
1.0
N= 8, m =2,n= 4NÍV E L DE CONFIA NÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.6
0.7
0.8
0.9
1.0
N= 15, m = 3,n=5NÍV E L DE CONFIA NÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.6
0.7
0.8
0.9
1.0
N= 25, m = 5,n=5NÍV E L DE CONFIA NÇA
PR
OB
AB
ILID
AD
E D
E C
OB
ER
TU
RA
90% 95% 99%
0.5
1.0
1.5
2.0
2.5
N= 8, m =2,n= 4NÍV E L DE CONFIA NÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.5
1.0
1.5
2.0
2.5
N= 15, m = 3,n=5NÍV E L DE CONFIA NÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
0.5
1.0
1.5
2.0
2.5
N= 25, m = 5,n=5NÍV E L DE CONFIA NÇA
CO
MP
RIM
EN
TO
MÉ
DIO
90% 95% 99%
(+) AAS 0=r , (◊) ACO - Ordenação imperfeita 5.0=r , (∆) ACO - Ordenação imperfeita 7.0=r , (■) ACO - Ordenação imperfeita 9.0=r , (●)
Ordenação Perfeita 1=r FIGURA 7 – PROBABILIDADES DE COBERTURA E AMPLITUDE MÉDIA DOS INTERVALOS DE CONFIANÇA BOOTSTRAP T-BOOTSTRAP PARA A
MÉDIA DE UMA VARIAVEL COM DISTRIBUIÇÃO EXPONENCIAL, VIA AAS E ACO COM ORDENAÇÃO PERFEITA E IMPERFEITA.
36
TABELA 4 – PROBABILIDADE DE COBERTURA E AMPLITUDE MÉDIA DE INTERVALOS DE CONFIANÇA T-BOOTSTRAP PARA MÉDIA DE UMA DISTRIBUIÇÃO EXPONENCIAL, OBTIDA ATRAVÉS DE SIMULAÇÃO VIA AAS E ACO.
Nível de Confiança
Amplitude média dos IC
Tamanho amostral 90% 95% 99% 90% 95% 99%
ρ= 0 88,8%* 95,0%* 99,0%* 1.09 1,70 2,80
ρ= 0.5 84,3% 93,5%* 97,0%* 0,95 1,48 2,58
ρ= 0. 7 81,0% 89,8% 96,8% 0,89 1,34 2,41
ρ= 0. 9 72,0% 84,3% 93,0% 0,72 1,04 1,78 ( )4n2;m8 ===N
ρ= 1 67,8% 77,3% 89,0%
0,60 0,85 1,45
ρ= 0 91,0%* 97,3%* 99,8%* 0,75 1,03 1,64
ρ= 0.5 86,0% 94,8%* 98,8%* 0,64 0,87 1,37
ρ= 0. 7 79,8% 89,8%* 98,0%* 0,58 0,72 1,14
ρ= 0. 9 68,8% 80,0% 90,8% 0,41 0,54 0,85 ( )5n3;m15 ===N
ρ= 1 60,5% 70,5% 84,8%
0,33 0,45 0,69
ρ= 0 94,0% 98,0% 99,5%* 0,56 0,74 1,14
ρ= 0.5 86,0%* 94,5%* 98,8%* 0,47 0,63 0,95
ρ= 0. 7 83,5% 91,3%* 98,5%* 0,40 0,53 0,81
ρ= 0. 9 67,0% 78,8% 91,0% 0,39 0,45 0,66 ( )5n5;m25 ===N
ρ= 1 57,0% 70,5% 83,3%
0,24 0,32 0,47
N = tamanho da amostra; m = número de réplicas; n = tamanho da amostra em cada réplica; r = correlação entre a variável medida e a variável de
interesse, (*) valores de cobertura, calculados através de simulações, que não diferem significativamente dos valores estipulados.
37
5 CONCLUSÃO
As dificuldades na obtenção das medidas de interesse (como, por exemplo,
difícil acesso, custo elevado) tornam inviável a obtenção de grandes amostras para
se realizar um estudo confiável com as técnicas de amostragem mais usuais. Devido
às estimativas originárias de pequenas amostras não possuírem boa precisão e
considerada confiabilidade, deve-se procurar usar um esquema amostral capaz de
contornar tal dificuldade. Diante disso, a amostragem por conjuntos ordenados é um
delineamento alternativo capaz de produzir estimativas mais precisas nas situações
que há restrições quanto à seleção de grandes amostras.
A unidade de um procedimento não paramétrico de reamostragem
(bootstrap) e um delineamento amostral adequado para amostras reduzidas
(amostragem por conjuntos ordenados) que, com base em estudos anteriores, é
capaz de produzir estimativas mais precisas, pode ser de extrema relevância e
notável aplicabilidade para um grande número de estudos que envolvem
amostragem.
Foram realizados, neste trabalho, estudos via simulação a fim de avaliar o
desempenho do delineamento bootstrap via ACO em relação ao bootstrap original,
na estimação intervalar da média, utilizando variável concomitante com diferentes
graus de correlação. Verificou-se, por meio dos resultados obtidos com o intervalo
bootstrap percentil, que os intervalos de confiança calculados utilizando-se
reamostragem bootstrap via ACO apresentam uma forte similaridade com os
intervalos de confiança bootstrap baseado em AAS no que se refere à acurácia, se
destacando, no entanto, por uma maior precisão nas estimativas geradas, sendo
que este ganho decresce a medida que diminui o grau de correlação entre as
variáveis, dada a maior imperfeição na ordenação das unidades amostrais. Quanto
aos resultados obtidos com o intervalo t-bootstrap verificou-se que à medida que
cresce a correlação a amplitude média dos intervalos diminui, porém, a
probabilidade de cobertura decresce na mesma proporção. Estes resultados são
contraditórios com as propriedades mencionadas quanto a acurácia do método t-
bootstrap, conhecido por apresentar resultados menos precisos e mais acurados em
relação a outros intervalos de confiança bootstrap (particularmente o percentil).
38
REFERÊNCIAS
BARRETO, M. C. M.; TACONELI, C. A. Reamostragem bootstrap em delineamentos por conjuntos imperfeitamente ordenados. Revista Brasileira de Estatística, v.67, n.226, p.65-94, 2006.
CESÁRIO, L. C.; BARRETO, M. C. M. Um estudo sobre o desempenho de intervalos de confiança para a média de uma distribuição normal usando amostragem por conjuntos ordenados perfeitamente. Rev. Mat. Estat. São Paulo, v.21, p.7-20, 2003.
DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics
background biometrics, Washington, v.28, p.545-555, 1972. EFRON, B.; TIBSHIRANI, R. J. An Introduction to the bootstrap. New York:
Chapman & Hall, 1993. 436p.
MODARRES, R.; HUI, T. P.; ZHENG, G. Resample methods for ranked set samples. Computational Statistics & Data Analysis, v.51, p.1039 – 1050, 2006.
MARTINES, E. Z.; NETO F. L. Estimação Intervalar Via Bootstrap. Rev. Mat.
Estat. São Paulo, v.19, p.217-251, 2001.
MCINTYRE, G. A. A method for unbiased seletive sampling, using ranked sets. Aust. J.Agric. Res., Collingwood, v.3, p.385-390. 1952.
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing., Vienna, Austria, 2006. Disponível em: http://www.R-project.org, 2008.
TACONELI, C. A.; BARRETO, M. C. M. Intervalos de confiança para a média populacional usando amostragem em conjuntos ordenados. Rev. Mat. Estat. São Paulo, v.21, p.41-66, 2003.
TACONELI, C. A.; BARRETO, M. C. M. Avaliação de uma proposta de
intervalos de confiança bootstrap em amostragem por conjuntos ordenados perfeitamente. Rev. Mat. Estat. São Paulo, v.23, n.3, p.33-53, 2005.
39
TACONELI, C. A. Reamostragem bootstrap em amostragem por conjuntos ordenados e intervalos de confiança não paramétricos para a média: 2005, 120f. Dissertação (Mestrado em Estatística) – Centro de Ciências Exatas e de Tecnologia: Universidade Federal de São Carlos. São Carlos.
TAKAHASHI, K., WAKIMOTO, K. On biased estimates of population mean
based on sample stratified by means of ordering. Ann. Inst. Stat. Math., v.20, p, 1-31,
1968.
THOMPSON, S.K. Sampling . New York: John Wiley, 1992, 343p.
40
APÊNDICE
Apêndice A. Programa para simular amostras por conjuntos ordenados com base em uma variável concomitante require(MASS) ACOMV=function(m,n,correl){ # m: é o número de réplicas do delineamento # n: é o tamanho das amostras do delineamento # correl: é a correlação desejada entre as variáveis mu=c(0,0) sigma=matrix(c(1,correl,correl,1),2,2) amostrafinal=numeric() concomitante=numeric() for(j in 1:m){ for(i in 1:n){ amostra=mvrnorm(n,mu,sigma) x=amostra[,1] y=amostra[,2] p=which(rank(x)==i) amostrafinal=c(amostrafinal,y[p]) concomitante=c(concomitante,x[p]) }} list(x=amostrafinal,y=concomitante) }
41
Apêndice B. Programa que constrói intervalos de confiança bootstrap percentil para a média em delineamentos por conjuntos imperfeitamente ordenados ICBRSS<-function(amostra,m,n,ranks,B,alfa){ if (missing(ranks)) ranks<-seq(1:m*n) if (missing(B)) B<-1000 if (missing(alfa)) alfa<-0.05 amostra<-amostra[order(ranks)] teta.star<-rep(0,B) for (i in 1:B){ reamostra<-numeric() for (t in 1:m){ for (p in 1:n){ d<-sample(seq(1:(m*n)),n,replace=T) reamostra<-c(reamostra,amostra[(sort(d))[p]]) } } teta.star[i]<-mean(reamostra)} teta.star=sort(teta.star) lim.infpercent<-teta.star[(B+1)*alfa/2] lim.suppercent<-teta.star[(B+1)*(1-alfa/2)] list('lim.inf'=lim.infpercent,'lim.sup'=lim.suppercent) }
42
Apêndice C. Programa que simula 400 intervalos de confiança bootstrap e armazena suas coberturas e amplitudes SIMULACAO=function(m,n,correl){ cob90=0 cob95=0 cob99=0 matam=matrix(0,400,3) for(v in 1:400){ amostra=ACOMV(m,n,correl) ic=ICBRSS(amostra$y,m,n,amostra$x,alfa=c(0.1,0.05,0.01)) if((ic$lim.inf[1]<=0)&&(ic$lim.sup[1]>=0)) cob90=cob90+1 if((ic$lim.inf[2]<=0)&&(ic$lim.sup[2]>=0)) cob95=cob95+1 if((ic$lim.inf[3]<=0)&&(ic$lim.sup[3]>=0)) cob99=cob99+1 matam[v,]=ic$lim.sup-ic$lim.inf} list(tamanhos=matam,c90=cob90,c95=cob95,c99=cob99)} # contadores utilizados no cálculo das cobertura: cob90=0 cob95=0 cob99=0 # cálculo do número de intervalos que contém o parâmetro . if((ic$lim.inf[1]<=0)&&(ic$lim.sup[1]>=0)) if((ic$lim.inf[2]<=0)&&(ic$lim.sup[2]>=0)) if((ic$lim.inf[3]<=0)&&(ic$lim.sup[3]>=0)) # cálculo das amplitudes dos intervalos ic$lim.sup-ic$lim.inf # matriz utilizada para armazenar as amplitudes dos intervalos de confiança matam[v,]=ic$lim.sup-ic$lim.inf # função para executar a simulação simu1=SIMULACAO(2,4,0) # função para salvar, no R, os resultados da simulação save(simu1,file=’simu1.Rdata’) Apêndice D. Comandos para gerar gráficos
43
# Probabilidade de Cobertura #Para distribuição normal com N=8 m=2 n=4 par(mfrow=c(2,3)) plot(c(90,100),c(0.8,1),type='n',xaxt='n',xlab='NÍVEL
DECONFIANÇA',cex.lab=1.2,ylab='PROBABILIDADE DE COBERTURA', cex.sub=1.2,sub='N=8, m=2,n=4') axis(1,at=c(90,95,100),labels=c('90%','95%','99%')) x=c(90,95,100) y0=c(0.95,.97,.993) y05=c(0.948,.983,.995) y07=c(0.923,0.945,0.983) y09=c(0.905,0.94,0.983) y1=c(0.878,0.920,0.963) points(x,y0,pch=3,cex=1.35) points(x,y05,pch=5,cex=1.35) points(x,y07,pch=2,cex=1.35) points(x,y09,pch=15,cex=1.35) points(x,y1,pch=19,cex=1.45) abline(a=0.9,b=0,lty=2) abline(a=0.95,b=0,lty=2) abline(a=0.99,b=0,lty=2) lines(c(90,90),c(0.75,1.05), lty=3) lines(c(95,95),c(0.75,1.05),lty=3) lines(c(100,100),c(0.75,1.05), lty=3) #Comprimento Médio # Para distribuição Normal com N=8 m=2 n=4 plot(c(90,100),c(0.44,1.45),type='n',xaxt='n',xlab='NÍVEL DE CONFIANÇA', cex.lab=1.2,ylab='COMPRIMENTO MÉDIO', cex.sub=1.2,sub='N=8, m=2,n=4') axis(1,at=c(90,95,100),labels=c('90%','95%','99%')) x=c(90,95,100) y0=c(1.02,1.20,1.54) y05=c(0.99,1.17,1.50) y07=c(0.90,1.07,1.38) y09=c(0.81,0.96,1.24) y1=c (0.74,0.88,1.15) points(x,y0,pch=3,cex=1.35) points(x,y05,pch=5,cex=1.35) points(x,y07,pch=2,cex=1.35) points(x,y09,pch=15,cex=1.35) points(x,y1,pch=19,cex=1.45) lines(c(90,90),c(0.35,1.50), lty=3) lines(c(95,95),c(0.35,1.50),lty=3) lines(c(100,100),c(0.35,1.50), lty=3)