31
 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 1 ESTUDO E APLICAÇÕES DA TÉCNICA BOOTSTRAP Ana Lucia Tucci Rizzo ([email protected]), Raquel Cymrot Orientadora: Raquel Cymrot ([email protected]) Resumo A técnica de reamostragem Bootstrap é muito útil por não necessitar de muitas suposições para estimação de parâmetros das distribuições de interesse. Este artigo apresenta os diferentes métodos de cálculo de intervalos de confiança utilizando a técnica de reamostragem Bootstrap na forma paramétrica e não paramétrica. Tais métodos são o Intervalo de Confiança Bootstrap Percentil, o Intervalo de Confiança Bootstrap Percentil das Diferenças, o Intervalo de Confiança Bootstrap t, o I ntervalo de Confiança Percentil Corrigido em Relação ao Viés ( BCPB) e o Intervalo de Confiança de Correção de Vício Acelerado (BC a ) , além da técnica de Bootstrap para a regressão e realização de testes de hipóteses utilizando intervalos de confiança Bootstrap. Foram apresentadas as situações onde cada método de obtenção dos intervalos de confiança Bootstrap é mais adequado, dependendo do tipo de distribuição, vício e assimetria da estatística do parâmetro estudado. Para aplicação destas técnicas foram realizados seis estudos de caso que possibilitaram a aplicação dos métodos de estimação Bootstrap mais recomendados na estimação dos parâmetros média, variância, proporção e desvio padrão de processos. Estes casos incluíram distribuições simétricas e assimétricas. Quando a distribuição de probabilidades da estatística do parâmetro a ser estimado era conhecida foi também calculado o intervalo de confiança baseado na distribuição de probabilidades do estimador. Palavras chave: Reamostragem ; Método Bootstrap; Intervalo de confiança Abstract The Bootstrap resampling technique is very useful because it does not need many assumptions to estimate parameters of the distributions of interest. This article presents the different methods to calculate confidence intervals by using Bootstrap

Ana Lucia Bootstrap

Embed Size (px)

Citation preview

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 1/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

1

ESTUDO E APLICAÇÕES DA TÉCNICA BOOTSTRAP

 Ana Lucia Tucci Rizzo ([email protected]), Raquel Cymrot

Orientadora: Raquel Cymrot ([email protected])

Resumo

 A técnica de reamostragem Bootstrap é muito útil por não necessitar de muitas

suposições para estimação de parâmetros das distribuições de interesse. Este

artigo apresenta os diferentes métodos de cálculo de intervalos de confiança

utilizando a técnica de reamostragem Bootstrap na forma paramétrica e não

paramétrica. Tais métodos são o Intervalo de Confiança Bootstrap Percentil, o

Intervalo de Confiança Bootstrap Percentil das Diferenças, o Intervalo de

Confiança Bootstrap t, o Intervalo de Confiança Percentil Corrigido em Relação ao

Viés ( BCPB) e o Intervalo de Confiança de Correção de Vício Acelerado (BCa) ,

além da técnica de Bootstrap para a regressão e realização de testes de

hipóteses utilizando intervalos de confiança Bootstrap. Foram apresentadas as

situações onde cada método de obtenção dos intervalos de confiança Bootstrap é

mais adequado, dependendo do tipo de distribuição, vício e assimetria da

estatística do parâmetro estudado. Para aplicação destas técnicas foram

realizados seis estudos de caso que possibilitaram a aplicação dos métodos de

estimação Bootstrap mais recomendados na estimação dos parâmetros média,

variância, proporção e desvio padrão de processos. Estes casos incluíram

distribuições simétricas e assimétricas. Quando a distribuição de probabilidades

da estatística do parâmetro a ser estimado era conhecida foi também calculado o

intervalo de confiança baseado na distribuição de probabilidades do estimador.

Palavras chave: Reamostragem ; Método Bootstrap; Intervalo de confiança

Abstract

The Bootstrap resampling technique is very useful because it does not need many

assumptions to estimate parameters of the distributions of interest. This article

presents the different methods to calculate confidence intervals by using Bootstrap

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 2/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

2

resampling technique in parametric and nonparametric form. Such methods are

the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap

Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected

Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected

 Accelerated Confidence Interval (BCa), besides Bootstrap technique for 

regression and hypothesis tests accomplishment by using Bootstrap confidence

intervals. Situations were presented wherein each method used to obtain the

Bootstrap confidence intervals is more proper, depending on the kind of 

distribution, bias and skewness of the studied parameter. Aiming at applying these

techniques, six studies of case were carried out, enabling the application of the

most recommended Bootstrap estimation methods to estimate the parameter 

mean, variance, proportion and standard deviation of processes. These cases

included symmetrical and skewed distributions. When the distribution of 

probabilities of the parameter to be estimated was known, the confidence interval

based on the probability distribution of the estimator was also computed.

Key terms: Resampling, Bootstrap technique, Confidence Interval

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 3/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

3

INTRODUÇÃO

 A utilização de técnicas estatísticas no mundo dos negócios vem

crescendo cada vez mais, devido principalmente a sua utilidade na comparação

de serviços, verificação de qualidade, análise para desenvolvimento de produtos e

outros. A técnica de Bootstrap é uma das possíveis técnicas de reamoostragem a

serem utilizadas.

 A reamostragem consiste em sortear com reposição dados pertencentes a

uma amostra retirada anteriormente, de modo a formar uma nova amostra.

Técnicas de reamostragem são úteis em especial quando o cálculo de

estimadores por métodos analíticos for complicado. Reamostrar permitediferentes alternativas para se encontrar desvios padrões e intervalos de

confiança através da análise de um conjunto de dados.

Existem diversas técnicas de reamostragem que visam estimar parâmetros

de uma distribuição de interesse. Uma vantagem em utilizar a técnica de

reamostragem Bootstrap é a generalidade com que pode ser aplicada, pois requer 

que menos suposições sejam feitas. Outras vantagens são que geralmente

fornece respostas mais precisas, além de favorecer o entendimento.

Muitas vezes a distribuição de probabilidade da estatística de interesse é

desconhecida. Nesse caso o Bootstrap é muito útil, pois é uma técnica que não

exige diferentes fórmulas para cada problema e pode ser utilizada em casos

gerais, não dependendo da distribuição original da estatística do parâmetro

estudado.

Segundo Davison e Hinkley (1997), repetir um procedimento de análiseoriginal com muitas réplicas de dados pode ser denominado método intensivo

computadorizado. Para realizar uma estimação através da utilização de Bootstrap

é necessária a realização de um número muito grande de reamostragens e o

cálculo de diversas estatísticas para cada uma destas reamostragens. Isto exige o

auxílio de programas computacionais para realizar as reamostras e os cálculos de

forma mais rápida e eficaz.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 4/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

4

Esse é um dos motivos pelo qual essa técnica vem se desenvolvendo mais

nos últimos tempos, pois com o avanço tecnológico os softwares estão ficando

mais práticos, rápidos e acessíveis.

 A utilização da técnica de Bootstrap não implica que as outras devam ser ignoradas, podendo ser usada como um complemento na argumentação das

conclusões obtidas.

Devido a sua generalidade, a técnica Bootstrap se encaixa na solução de

problemas complexos. Através do uso da técnica de Bootstrap os parâmetros

como a média, a variância, a proporção e até mesmo parâmetros menos

utilizados como o máximo, mínimo, etc. de uma população podem ser estimados

pontualmente e por intervalo.

 A reamostragem baseada nos dados da amostra mestre é utilizada pela

técnica de Bootstrap denominada não paramétrica uma vez que a distribuição de

probabilidades da estatística do parâmetro a ser estimado é desconhecida.

 Através desta técnica é possível obter a distribuição amostral de um parâmetro a

partir da amostra original.

 A forma não paramétrica é a mais utilizada. Entretanto, quando adistribuição de probabilidades das estimativas dos parâmetros de interesse da

população da qual a amostra mestre foi extraída for conhecida, outra forma de

Bootstrap pode ser aplicada. Esta forma denominada paramétrica consiste em

gerar reamostras baseadas na distribuição de probabilidades conhecida utilizando

como parâmetros desta distribuição a estimativa dos mesmos obtida através da

amostra mestre. Neste caso o interesse será estimar o vício das estimativas dos

parâmetros e assim efetuar as correções necessárias (NAVIDI, 2006).Outra utilidade relatada por Hall (1988) é que, ao se comparar o intervalo

de confiança obtido através da utilização da técnica Bootstrap com o intervalo de

confiança baseado na distribuição de probabilidades conhecida do estimador, se

este último tiver sido calculado usando suposições inadequadas, a diferença entre

estes dois resultados será gritante, chamando assim atenção em relação ao erro

cometido.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 5/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

5

Neste artigo serão apresentadas as diversas técnicas de Bootstrap para

estimação. Seis estudos de caso também serão realizados.

BOOTSTRAP

Para realizar o teste utilizando a técnica Bootstrap é preciso colher uma

amostra de tamanho n que será denominada amostra mestre. Essa amostra deve

ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e

não representar bem a população, a técnica de Bootstrap não levará à resultados

confiáveis.

Hesterberg et al . (2003) afirmam que a amostra mestre representa a

população da qual foi retirada. As reamostras desta amostra mestre representam

o que se deve obter quando são retiradas muitas amostras da população original.

 A distribuição Bootstrap da estatística, baseada em muitas reamostras,

representa uma distribuição amostral desta estatística. Esta característica faz com

que uma das utilidades da técnica Bootstrap seja checar a normalidade da

distribuição original da estatística em foco.

Para que a aplicação da técnica resulte em valores confiáveis devem ser 

feitas, a partir da amostra mestre, centenas ou até milhares de reamostras do

mesmo tamanho n. A maioria dos autores recomenda a utilização de 1000

reamostras. Segundo Montgomery (2001) o número de reamostragens pode ser 

estipulado verificando a variação do desvio padrão para a estimativa do

parâmetro em questão calculado para as reamostras à medida que estas são

realizadas. No momento em que esse valor se estabilizar o tamanho da reamostraBootstrap estará adequado.

É importante que a reamostragem seja realizada com reposição sempre

selecionando os valores de forma aleatória. Para a geração destas reamostras as

técnicas computacionais são de grande utilidade, pois sem estas, o tempo para

que fossem feitas todas as reamostras desejadas de forma manual seria

excessivamente grande.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 6/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

6

Uma vez geradas as reamostras, deve-se calcular para cada uma delas a

estatística solicitada no problema. Essa técnica não altera nenhum valor da

amostra mestre, ela apenas trabalha na análise da combinação dos valores

iniciais com a finalidade de se obter as conclusões desejadas.

 A variabilidade presente no Bootstrap é dada pela escolha da amostra

mestre e pelas reamostras, sendo a variabilidade devido à escolha da amostra

mestre a mais significativa.

O desvio padrão da distribuição Bootstrap para a média (também chamado

de erro padrão) é uma medida de variabilidade e é calculado da seguinte forma:

∑ ∑   

   −

−=

2

** ˆ1ˆ1

1iibootstrap

 B BSE  θ θ  (1)

com*ˆiθ  igual ao valor da estatística para cada reamostra e B igual ao

número de reamostragens realizadas. O asterisco é usado para diferenciar a

estatística das reamostras da estatística da amostra original, a qual é

representada por  θ  . Algumas literaturas utilizam no primeiro valor do

denominador, apenas B ao invés de (B – 1), pois como o número de

reamostragens é um valor muito alto, essa alteração acaba ficando praticamenteinsignificante.

 A distribuição Bootstrap geralmente tem aproximadamente a mesma forma

e amplitude que a distribuição amostral da estatística, porém está centrada na

estatística dos dados originais (amostra mestre), enquanto a distribuição amostral

está centrada no parâmetro da população.

Segundo Montgomery e Runger (2003), uma estatística utilizada paraestimar um parâmetro é viciada quando a distribuição amostral não estiver 

centrada no verdadeiro valor do parâmetro. A técnica Boostrap nos permite

verificar o vício olhando se a distribuição Bootstrap da estatística está centrada na

estatística da amostra mestre.

O estimador do vício da distribuição Bootstrap é:

θ θ  ˆˆ*

−=bootstrap

vício (2)

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 7/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

7

Segundo González Manteiga, Prada Sánchez e Romo Urroz (1994) uma

das aplicações da metodologia Bootstrap é obter intervalos de confiança

confiáveis. Há diversas técnicas distintas para o cálculo de intervalos de confiança

Bootstrap. Entre as diferentes maneiras de calcular o Intervalo de Confiança pelo

método Bootstrap destacam-se o método Bootstrap t, o método Percentil, que

pode ser obtido de duas formas diferentes, o Método do Percentil Corrigido em

Relação ao Viés, Biased-Corrected Percentile Bootstrap ( BCPB) e o Método de

Correção de Vício Acelerado, Biased-Corrected Accelerated (BCa). Estas técnicas

serão apresentadas a seguir:

a) O Intervalo de Confiança Bootstrap t

Calcula-se o intervalo de confiança Bootstrap t para uma determinada

estatística da seguinte maneira:

bootstrapt bootstrap SE t aestatístic IC  ×±=  

(3)

, sendo n o tamanho da amostra mestre, t  encontrado utilizando-se (n-1)graus de liberdade, e bootstrapSE  , o desvio padrão bootstrap, calculado utilizando a

Equação (1) para a estatística em estudo.

 A flexibilidade e quase automaticidade do cálculo de intervalo de confiança

por esse método é muito boa, porém existe um problema que pode afetar sua

eficácia. O intervalo de confiança Bootstrap t realmente só funciona bem quando

sabemos que a distribuição da estatística na distribuição Bootstrap é

aproximadamente normal e a estatística é pouco viciada. Respeitadas estas

condições o intervalo de confiança Bootstrap t pode ser calculado na estimação

de diversos parâmetros além da média populacional, como por exemplo, a

proporção e o coeficiente de correlação. 

b) O Intervalo de Confiança Bootstrap Percentil

O intervalo de confiança percentil pode ser calculado de duas maneiras:

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 8/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

8

Segundo Efron (1986), para uma confiança (1 – α)100%, a primeira forma é

encontrar o percentil (1 – α/2)100% e o percentil (α/2)100% da média das

reamostras da estatística do parâmetro que se deseja estimar.

 A segunda maneira de se obter o intervalo de confiança percentil utilizandoa técnica em estudo é através dos percentis das diferenças dos valores das

estatísticas das reamostras em relação ao valor médio desta mesma estatística

nas reamostras (MONTGOMERY e RUNGER, 2003).

Para estimar um intervalo de confiança para uma estimativa θ  , calcula-se o

valor destas estatísticas para cada uma das “i” reamostras Bootstrap ( *ˆiθ  ) e a

média dessas estimativas

*

θ  . Encontra-se então, para cada reamostra “i”, adiferença entre esses valores, isto é:

** ˆˆ θ θ  −= idiferença (4)

Para uma confiança de 95%, encontram-se os percentils 97,5% e 2,5%

destas diferenças e calcula-se o intervalo de confiança Bootstrap Percentil da

seguinte forma:

diferenças P diferenças P  IC  percentil bootstrap %5,2%5,97

ˆ;ˆ −−= θ θ 

(5)

Para verificar se o intervalo de confiança t calculado é confiável podemos

compará-lo com o intervalo de confiança percentil. Se o vício for pequeno e a

distribuição Bootstrap for aproximadamente normal, os dois intervalos irão

apresentar valores muito próximos. Segundo Hesterberg et al. (2003), caso os

intervalos de confiança Bootstrap calculados pela t e pelo percentil não tiverem

valores próximos nenhum destes métodos deve ser utilizado. Entretanto Efron

(1986) afirma que se a distribuição Bootstrap não for aproximadamente normal,

mas existir uma transformação monotônica possível que a torne normal, pode-se

calcular o intervalo de confiança Bootstrap Percentil para os dados transformados

e posteriormente desfazer a transformação para os limites do intervalo

encontrado. Isto é possível uma vez que a transformação utilizada foi uma

transformação monotônica, portanto o intervalo de confiança Bootstrap pelo

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 9/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

9

método Percentil assim calculado coincidirá com o intervalo de confiança

Bootstrap pelo método Percentil para os dados não transformados.

Se o vício e a assimetria estão presentes de forma muito forte é

mais recomendável que se utilize métodos de Bootstrap de correção como oMétodo BCPB e o método BCa.

c) O Intervalo de Confiança Bootstrap BCPB 

No cálculo do intervalo de confiança BCPB os extremos do intervalo são os

percentis da distribuição Bootstrap ajustados para corrigir o vício e assimetria

desta distribuição.

Por exemplo, para encontrar um intervalo de confiança BCPB com 95% de

confiança, é preciso ajustar os percentis que para um cálculo de intervalo de

confiança Percentil tradicional seriam 2,5% e 97,5% para outros valores, a fim de

corrigir o vício e assimetria. Se a estatística for viciada para cima o BCPB move

os extremos para a esquerda e se a estatística for viciada para baixo o BCPB

move os extremos para a direita.

Para realizar o cálculo do intervalo de confiança BCPB deve-se

primeiramente ordenar as B estimativas *ˆiθ  em forma crescente e calcular a

probabilidade denominada p0 de uma estimativa ser inferior à estimativa da

amostra mestre (θ  ). Esse passo pode ser representado da seguinte forma:

θ θ  ˆˆ*0 ≤= i P  p (6)

 A partir do valor encontrado p0 é obtido o parâmetro correção do vício z0 

que representa a inversa da normal no ponto p0.

( )0

1

0 p z  −Φ= (7)

O próximo passo é selecionar um nível (1– α)100% de confiança para a

estimativa do parâmetro e determinar  2

α  z 

. É então possível obter os percentis PI e

PS:

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 10/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

10

 

  

 −Φ=

2

02α 

 z  z  P  I (8)

 

 

 

 

+Φ=2

02 α  z  z  P S  (9)

O Intervalo de Confiança BCPB é calculado da seguinte maneira:

)ˆ(;)ˆ(**

i P i P  BCPB S  I  P  P  IC  θ θ = (10)

d) O Intervalo de Confiança Bootstrap BCa 

O método de Correção de Vício Acelerado permite encontrar o intervalo de

confiança quando assimetria estiver presente de maneira muito forte. Esse

método não difere muito do BCPB sendo esta diferença o fato de o BCa possuir 

uma constante de aceleração “a” que ajusta o intervalo de confiança em relação à

assimetria. Segundo Efron (1986) nesta situação este método é mais indicado

que o método BCPB.

O intervalo de Confiança BCa é obtido realizando os mesmo passos do

cálculo do intervalo de confiança BCPB com os limites PI e PS , porém utilizando

um ajuste por meio da constante de aceleração “a”. A obtenção da constante “a”

envolve cálculos não triviais, o que leva o Intervalo de Confiança BCa ser mais

utilizado quando há algum software estatístico disponível. O programa S-PLUS é

citado em vários artigos como, por exemplo, em Pereira et al . (2000). É possível

encontrar também alguns programas livres que calculam esta constante.

O cálculo do intervalo de confiança BCa é feito através da mesma Equação

(10), porém com PI e PS respectivamente iguais a:

 

 

 

 

 

  

 +−

 

  

 +

−Φ=

2

0

2

0

0

1α 

α 

 z  z a

 z  z 

 z  P  I (11)

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 11/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

11

 

 

 

 

 

  

 +−

 

  

 +

+Φ=

2

0

2

0

0

1α 

α 

 z  z a

 z  z 

 z  P  I 

(12)

De acordo com Andrews e Buchinsky (2002) é possível determinar a

constante “a” de maneira mais simples quando as variáveis aleatórias observadas

na amostra mestre forem independentes e identicamente distribuídas. Neste caso:

( ) ( )( )

( ) ( )( )( )23

1

2

.

1

3

.

ˆˆ6

ˆˆ

=

=

−=

n

i i

n

i ia

θ θ 

θ θ 

(13)

, com ( )iθ  representando o valor das estimativas do parâmetro estudado

para cada amostra “i” que consiste na amostra mestre sem a observação “i” da

mesma, com 1 ≤ i ≤ n e ( ).θ  o valor da média das estimativas ( )iθ  .

e) A técnica Bootstrap na Regressão

Existem dois procedimentos para se estimar os coeficientes do modelo de

regressão utilizando a técnica de Bootstrap: o método Bootstrap dos Resíduos e o

método Bootstrap dos Casos ou Pares (MONTGOMERY, 2001).

O procedimento de Bootstrap paramétrico denominado Bootstrap dos

Resíduos consiste em estimar os coeficientes de regressão para os dados

originais e assim gerar os respectivos resíduos para as n observações realizadas.

Estes resíduos formarão a amostra mestre. Deve-se então gerar as reamostras a

partir destes resíduos. O valor do vetor resposta para uma reamostragem (y*)

será obtido somando-se o vetor de resíduos desta reamostra ao vetor resposta

estimado nos dados originais ( y ). Para cada reamostra são então calculadas as

estimativas dos coeficientes de regressão. As médias das estimativas dos

coeficientes de regressão para as reamostras serão as estimativas Bootstrap

pontuais dos mesmos. Intervalos de confiança para os coeficientes da regressão

podem ser obtidos pelo método percentil. A coincidência dos intervalos

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 12/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

12

tradicionais e Bootstrap confirmará as suposições feitas para a realização da

análise de regressão.

O procedimento de Bootstrap não paramétrico denominado Bootstrap dos

Casos ou Pares deve ser usado quando existe uma transformação nos dadosoriginais de modo que para estes dados transformados possa ser realizada uma

regressão linear. Neste caso as estimativas dos erros padrão dos coeficientes

serão aproximadas e estas aproximações serão válidas apenas para grandes

amostras. O método Bootstrap fornecerá uma estimativa dos intervalos de

confiança para os coeficientes da regressão e será útil para checar a validade da

aplicação assintótica para os resultados obtidos.

Na forma Bootstrap dos Casos ou Pares os próprios dados originais devem

compor a amostra mestre. Estes dados originais (que são vetores) devem ser 

reamostrados. Para cada reamostra são estimados os coeficientes da regressão

linear para os dados da reamostra transformados. Intervalos de confiança para os

coeficientes da regressão podem ser obtidos pelo método percentil.

f) Teste de Hipótese com Intervalos de Confiança Bootstrap

Dado um intervalo de confiança calculado por qualquer método

Bootstrap com 100(1–α  )%, deve-se rejeitar com 100α % as hipóteses nulas de

que o parâmetro estimado seja igual a qualquer valor fora desse intervalo e deve-

se aceitar com 100α % as hipótese nulas de que este mesmo parâmetro seja

igual a qualquer valor dentro do intervalo de confiança Bootstrap (NAVIDI, 2006)

g) Outras considerações sobre os estimadores Bootstrap

O Bootstrap é muito genérico e, devido a esta generalidade, há mais de um

método Bootstrap como solução para um determinado problema.

Na maioria das publicações não técnicas em estatística, a forma de cálculo

dos intervalos de confiança Bootstrap não costuma ser apresentada. Segundo

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 13/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

13

enquête realizada por Hall (1988), o método Percentil é utilizado em mais da

metade destas publicações.

 A maioria dos procedimentos de intervalo de confiança se torna mais

precisa quando o tamanho da amostra aumenta. Hesterberg et al. (2003) afirmaque um problema que existe nos intervalos de confiança Bootstrap t e Percentil é

que esta melhora ocorre de forma mais lenta necessitando de um grande

aumento no tamanho da amostra para refletir uma melhora na precisão (na base

de 10 para 1).

METODOLOGIA

 Alguns estudos de caso foram realizados para colocar em prática à técnica

de reamostragem Bootstrap. Para cada estudo foi coletada uma amostra mestre

diferente, seguindo as técnicas de amostragem apropriadas.

Foram realizadas 1000 reamostras e calculados os intervalos de confiança

Bootstrap segundo as diversas formas convenientes para cada situação. Quando

existia uma fórmula de cálculo do intervalo de confiança para a estimativa doparâmetro baseada na sua distribuição de probabilidades (denominado neste

trabalho intervalo de confiança padrão), este foi calculado. Os resultados foram

então comparados.

Para o cálculo dos diversos intervalos de confiança foi utilizada uma

confiança de 95%. Apenas no estudo de caso envolvendo o desvio padrão de um

controle estatístico de processos a confiança utilizada para os cálculos foi de

99,73%, de acordo com as cartas de controle de Shewhart.

Para a realização das reamostras e análises foi utilizado o programa

MINITAB. 

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 14/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

14

Estudo de caso 1 - Número de alunos reunidos diariamente em determinado

local durante um intervalo de tempo estabelecido

Neste caso foi analisada a quantidade de alunos reunidos durante 25 dias

no corredor do 2º andar do prédio da Escola de Engenharia da Universidade

Presbiteriana Mackenzie em algum horário pertencente ao intervalo das 16:30 h

às 16:40 h.

O número de alunos foi observado diariamente em um horário sorteado

aleatoriamente dentro do intervalo estipulado.

 A partir desta amostra de tamanho 25, foram realizadas mil reamostragens.

 Através da ferramenta Bootstrap foi estimado o número médio de alunos

presentes naquele determinado local do corredor no horário entre 16:30 h e 16:40

h. 

Estudo de caso 2 - Transporte utilizado pelos alunos no seu deslocamento

diário para a Universidade

Foi realizada, no segundo semestre de 2005, uma pesquisa para se

estimar a probabilidade de um aluno do curso Engenharia de Produção da Escola

de Engenharia da Universidade Presbiteriana Mackenzie utilizar transporte

público no seu deslocamento de ida e/ou volta para a universidade.

Foi realizada uma amostragem por conglomerado no qual foi sorteado o

sexto semestre. Foi perguntado para seus 33 alunos matriculados se eles

utilizavam, na maior parte dos dias, transporte público como meio de locomoção

para a universidade. Quando a resposta foi positiva a variável foi codificada como

1 e quando negativa a variável foi codificada como 0. Foi então calculada a

probabilidade p de o aluno utilizar transporte público.

Os 33 dados coletados formaram a amostra mestre. Com base nesta

amostra, foram realizadas 1000 reamostras de mesmo tamanho e aplicada à

técnica Bootstrap a fim de calcular os intervalos de confiança Bootstrap para aproporção de respostas afirmativas. Estes resultados foram comparados com o

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 15/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

15

intervalo de confiança padrão. Foi também calculado o intervalo de confiança

Bootstrap para a variância desta proporção.

Estudo de Caso 3 - Medição de parafusos

Foi selecionada uma amostra casual simples de cinqüenta parafusos

pertencentes a uma caixa fechada contendo 200 parafusos de um mesmo lote.

Foi realizada a medição destes cinqüenta parafusos no laboratório de física da

Universidade Presbiteriana Mackenzie utilizando como dispositivo de medição

dimensional um paquímetro digital ajustado em milímetros, devidamente

calibrado.

Para realizar a amostragem os 200 parafusos pertencentes a uma caixa

foram numerados. Destes, foram sorteados cinqüenta parafusos para compor a

amostra mestre. A caixa de parafusos representa a população de onde foi retirada

a amostra mestre.

 A partir desta amostra de cinqüenta comprimentos de parafusos, foram

geradas mil reamostras de mesmo tamanho.

Estudo de caso 4 - Tempo de espera na fila do Benjamim Abrahão

Neste caso o objetivo era analisar o tempo de espera desde o momento em

que um indivíduo entra na fila da Padaria Benjamim Abrahão situada na praça de

alimentação da Universidade Presbiteriana Mackenzie até o momento em que

este mesmo indivíduo recebe seu pedido. Os dados foram coletados entre os

horários de 19:30 h e 20:20 h de um dia letivo.

 A coleta dos dados foi feita de forma sistemática, observando-se o intervalo

de tempo de espera e atendimento da primeira pessoa de cada três que entravam

na fila. O objetivo desse estudo de caso foi obter um intervalo de confiança para

média do tempo total de espera e atendimento ao cliente utilizando a técnica de

Bootstrap.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 16/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

16

Utilizou-se para medição relógios digitais ajustados no mesmo horário e

duas pessoas, uma situada na entrada da fila e a outra na saída. A pessoa da

entrada distribuía a ficha com o horário em que o indivíduo participante da

pesquisa entrava na fila e a pessoa da saída recolhia a ficha e anotava o horário

de saída.

Foi coletada uma amostra mestre de tamanho 60. A partir desses dados,

foram realizadas 1000 reamostras.

Estudo de caso 5 – Tempo de processamento de um digestor de vísceras de

aves

Segundo Ferroli et al . (2002) as fábricas de farinhas e óleos de

subprodutos de origem animal estão em processo de evolução e mudanças. Para

que estas consigam acompanhar as constantes modificações que ocorrem no

mercado, uma de suas principais preocupações é reduzir a emissão de poluentes

ao meio ambiente.

O digestor é a principal máquina em uma graxaria e está envolvido

diretamente no aproveitamento de resíduos de indústrias de transformação de

produtos animais.

Foi analisado o funcionamento de um digestor existente em uma fábrica

onde funcionam seis digestores de vísceras de aves. Os dados para este caso

foram retirados do artigo “Fábrica de subprodutos de origem animal: a importância

do balanceamento das cargas dos digestores de vísceras” de Ferroli et al . (2002).

 A variável medida foi o tempo de processamento de um digestor de

vísceras de aves. Para cada um dos 43 conjuntos de valores medidos contendo 6

observações cada, foi calculada a amplitude R. Essas 43 amplitudes

representaram amostra mestre e a partir destas foram geradas 1000 reamostras.

Neste caso a estatística será a estimativa do desvio padrão do processo igual a

2

 Ronde d2 é um valor tabelado.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 17/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

17

Este caso é um exemplo de aplicação da técnica de Bootstrap na área de

Engenharia de Produção.

Estudo de caso 6 - Verificação da adesão dos alunos a um programa de usoracional de água

Considerando que a água potável é um recurso raro no planeta, sua

economia torna-se absolutamente necessária.

 A Universidade Presbiteriana Mackenzie, consciente deste problema, vem,

desde 2002, implantando um programa de Uso Racional de Água dentro do

Campus Itambé. (CYMROT et al.)

Várias medidas foram tomadas desde então, dentre elas, destacam-se as

seguintes medidas:

• Foram registrados, em todos os prédios, todos os pontos de água, como

torneiras, bacias, mictórios, chuveiros, etc.

• A partir de 2002, foram trocadas torneiras de lavatório por modelos mais

econômicos, com fechamento automático de água. Em 2004, cerca de 60% das

torneiras já haviam sido trocadas. Segundo a SABESP (Companhia de

Saneamento Básico do Estado de São Paulo), esta tal medida resulta em uma

economia de consumo em torno de 20%.

• No começo de 2003, foi oferecido um curso na SABESP de “caça

vazamentos” a todos os funcionários da manutenção, inclusive encarregados.

Este curso propiciou a localização de inúmeros vazamentos, sendo entãotrocadas às tubulações necessárias. Estas mudanças acabaram provocando

algumas modificações nas configurações da rede hidráulica do Campus Itambé.

• Foram colocados adesivos para conscientização da necessidade de se

economizar água através do uso adequado de torneiras e bacias na maioria dos

sanitários existentes no Campus Itambé.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 18/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

18

Este estudo foi realizado com o objetivo de verificar a adesão dos alunos

do curso de Engenharia de Produção da Universidade Presbiteriana Mackenzie

em relação ao programa.

Foi realizada uma amostragem casual simples e coletados os dadosrelativos aos cinqüenta alunos sorteados.

Três perguntas foram feitas a estes alunos, a saber:

- O aluno tinha notado os adesivos com avisos alertando quanto à necessidade

do uso racional de água?

- O aluno tinha reparado na alteração dos dispositivos de funcionamento das

torneiras de modo que estas permanecessem abertas somente o temponecessário?

- O aluno colabora com a campanha procurando economizar a água quando de

sua utilização dentro do Campus Itambé da Universidade Presbiteriana

Mackenzie?

Para cada variável estudada foram realizadas 1000 reamostras a partir das

respostas obtidas.

RESULTADOS E DISCUSSÃO

Estudo de caso 1: Número de alunos reunidos diariamente em

determinado local durante um intervalo de tempo estabelecido

 Ao realizar a análise descritiva para a amostra mestre, verificou-se a

existência de alguns possíveis outliers que foram mantidos na amostra. O

histograma e o gráfico de probabilidade normal utilizando o método de Anderson

Darling para os dados da amostra mestre apresentados nos Gráficos 1 e 2

confirmam a aderência à distribuição Normal (p = 0,362).

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 19/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

19

GRÁFICO 1 - Histograma da amostra mestre  GRÁFICO 2 - Gráfico de probabilidade normalpara a amostra mestre 

 A Tabela 1 apresenta a amostra mestre, algumas reamostras, a média e a

variância para a amostra mestre e para as reamostras. Cada reamostra foi gerada

atribuindo probabilidade igual a 1/25 para cada observação da amostra mestre e

realizando a amostragem com reposição.

TABELA 1 - Amostra mestre, reamostras, média e variância para a amostra mestre e reamostras.

Pode-se afirmar que a média da população tem distribuição Normal.

Realizadas as 1000 reamostragens com reposição, plotado o histograma (Gráfico

3) e realizado o teste de aderência de Anderson Darling (p = 0,082) para as

C1

   P  e  r  c  e  n   t

282624222018161412

99

95

90

80

70

60

50

40

30

20

10

5

1

Mean

0,362

19,52

StDev 3,070

N 25

 AD 0,387

P-Value

Probability Plot of C1Normal

C1

   F

  r  e  q  u  e  n  c  y

2725232119171513

7

6

5

4

3

2

1

0

Mean 19,52

StDev 3,070

N 25

Histogram of C1Normal

observação amostra mestre reamostra 1 reamostra 2 reamostra 3 ... reamostra 10001 24 25 18 21 222 17 20 17 25 173 19 18 17 20 184 20 19 18 26 225 22 20 23 21 186 26 17 17 19 227 18 19 22 18 20

8 20 17 14 14 239 17 17 26 14 17

10 19 19 22 20 1711 14 25 17 22 2212 18 17 21 25 1913 25 22 23 14 1814 17 25 22 18 1715 14 23 19 26 1916 23 17 24 23 1717 18 25 22 17 2118 17 17 22 20 1719 22 19 26 17 1920 19 24 17 21 1721 20 20 17 22 2222 21 17 19 22 25

23 19 17 20 20 1424 17 22 18 19 1825 22 14 17 22 18

média 19,5200 19,8000 19,9200 20,2400 19,1600variância 9,4267 3,2146 3,1612 3,4434 2,5768

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 20/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

20

médias das reamostras é possível verificar que a distribuição da estatística média

das reamostras Bootstrap se aproxima da distribuição desta mesma estatística na

população.

GRÁFICO 3 - Histograma das 1000 reamostras das médias

Os valores da média e variância da amostra mestre foram respectivamente

iguais a 19,52 e 9,4267. O vício calculado para a média foi igual a – 0,0211,

considerado pequeno (0,11% do valor da média da amostra mestre).

Nestas condições foram calculados os intervalos de confiança para as

médias utilizando a técnica de reamostragem Boostrap pelos métodos Percentil =

[18,3200 ; 20,6800] e pelo método Bootstrap t = [18,2804 ; 20,7596] que

resultaram bem próximos.

O histograma das variâncias (Gráfico 4) apresenta uma forma diferente do

esperado caso a distribuição fosse Normal e o teste de Anderson Darling (Gráfico

5) forneceu valor de p menor que 0,005.

GRÁFICO 4 - Histograma para variância das1000 reamostras 

GRÁFICO 5 - Gráfico de probabilidade normalpara a variância das 1000 reamostras 

reamostras

   F  r  e  q  u  e  n  c  y

22,221,621,020,419,819,218,618,0

140

120

100

80

60

40

20

0

Mean 19,50

StDev 0,6006

N 1000

Histogram of reamostrasNormal

variancias

   F  r  e  q  u  e  n  c  y

17,515,012,510,07,55,02,5

100

80

60

40

20

0

Mean 9,109

StDev 2,337

N 1000

Histogram of varianciasNormal

variancias

   P  e  r  c  e  n   t

20151050

99,99

99

95

80

50

20

5

1

0,01

Mean

<0,005

9,109

StDev 2 ,337

N 1000

 AD 1,196

P-Value

Probability Plot of varianciasNormal

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 21/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

21

Desta forma os intervalos de confiança Bootstrap pelo método t e Percentil

não são muito confiáveis uma vez que a suposição de normalidade não se

verificou. Neste caso é aconselhável o cálculo por métodos como BCPB e BCa.

O cálculo de intervalos de confiança para a variância através dos métodosBCPB = [5,6034 ; 14,9469] e BCa = [4,1667 ; 15,3657] resultam em valores mais

precisos devido a adequação desses à presença de um viés igual a – 0,3173,

considerado grande (3,37 % do valor da variância da amostra mestre). O valor da

constante de aceleração “a” para a variância é 0,05119.

O intervalo de confiança Bootstrap Percentil é [4,7599 ; 13,7515]. Como o

vício foi negativo, isto é, a estimativa Bootstrap está subestimando o valor da

estatística, pode-se observar que o intervalo de confiança BCPB corrige o

intervalo de confiança para a direita. O Intervalo de confiança Bootstrap BCa 

corrige o intervalo para a direita porém, neste caso, amplia seu tamanho devido

ao valor da constante “a”.

Os intervalos de confiança padrão para a média [18,2526 ; 20,7874] e para

a variância [5,7474 ; 18,2435] apresentaram valores próximos aos dos intervalos

Bootstrap. 

Estudo de caso 2: Transporte utilizado pelos alunos no seu deslocamento

diário para a Universidade

No Gráfico 6 é apresentado o histograma das proporções obtidas nas 1000

reamostras. O teste de aderência de Kolmogorov Smirnov confirma a aderência à

distribuição Normal das proporções estimadas nas 1000 reamostras (p > 0,150).

O Gráfico 7 apresenta o Box Plot para as proporções nas 1000 reamostras onde é

notada a simetria da distribuição. Foram encontrados quatro possíveis outliers, a

saber: 0,8182; 0,7879; 0,3030; 0,2727 mantidos na amostra.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 22/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

22

Proporção

   F  r  e  q   ü   ê  n  c   i  a

0,800,720,640,560,480,400,32

160

140

120

100

80

60

40

20

0

Mean 0,5451

StDev 0,08433

N 1000

Histograma da proporção de alunos usuários de transporte público

 

   P  r  o  p  o  r  ç   ã  o

0,8

0,7

0,6

0,5

0,4

0,3

0,2

Boxplot da proporção de alunos usuários de transporte público

 

GRÁFICO 6 - Histograma das proporções nas1000 reamostras 

GRÁFICO 7 - Boxplot da proporção de alunosusuários de transporte público nas 1000

reamostras Como a distribuição é Normal, o intervalo de Confiança Bootstrap t pode

ser utilizado e deve coincidir com os intervalos de Confiança Bootstrap Percentil.

 A amostra mestre apresentou uma proporção estimada de alunos queutilizavam na maior parte dos dias transporte público como meio de locomoção

para a universidade igual a 0,5455 com variância da proporção igual a 0,0075. As

reamostras apresentaram uma média das proporções igual a 0,5451 com

variância da proporção igual a 0,0073.

Os intervalos de confiança para a proporção dos alunos que utilizavam na

maior parte dos dias transporte público como meio de locomoção para a

universidade foram calculados através dos métodos Percentil e Bootstrap t.

Os intervalos de confiança para a proporção, calculados através dos três

métodos revelaram-se muito próximos, a saber: intervalo de confiança Bootstrap

Percentil = [0,3932 ; 0,7273], intervalo de confiança Bootstrap Percentil das

Diferenças = [0,3632 ; 0,6973] e intervalo de confiança Bootstrap t = [0,3737 ;

0,7172].

Foi também calculado o intervalo de confiança padrão para a proporção.

Para este cálculo foram utilizados os dados da amostra mestre, tendo sido obtido

o intervalo [0,3756 ; 0,7153], também bem próximo aos demais intervalos de

confiança calculados.

O vício encontrado foi de – 0,0004 (0,07% do valor da estatística na

amostra mestre).

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 23/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

23

O Gráfico 8 apresenta o teste de aderência de Kolmogorov Smirnov no

qual não foi confirmada a normalidade da distribuição das variâncias das

proporções estimadas nas 1000 reamostras (p < 0,010).

variância da proporção

   P  o  r  c  e  n   t  a  g  e  m

0,0090,0080,0070,0060,0050,004

99,99

99

95

80

50

20

5

1

0,01

Mean 0,007299

StDev 0,0003851

N 1000

KS 0,165

P-Value <0,010

gráfico de probabilidade normal da variância da proporção

 

GRÁFICO 8 - Gráfico de probabilidade normal para as variâncias das proporções de alunosusuários de transporte público nas 1000 reamostras.

Devido à falta de normalidade não é indicado o uso do intervalo de

confiança Bootstrap t.

O intervalo de confiança para a variância da proporção calculado através

do método de Percentil foi igual a [0,0060 ; 0,0076]. Como a distribuição de

probabilidades da variância é assimétrica e o vício encontrado foi de – 0,0002

(2,67% do valor da estatística na amostra mestre), sendo o estimador 

tendencioso, a melhor opção é o cálculo dos intervalos de confiança para a

variância através dos métodos BCPB e BCa, os quais apresentaram

respectivamente os seguintes valores [0,0064 ; 0,0076] e [0,0060 ; 0,0076]. Para

obtenção do intervalo de confiança pelo método BCa o valor encontrado para a

constante “a” foi igual a 0,005297. Neste caso a correção realizada foi

desprezível. 

Estudo de Caso 3: Medição de parafusos

O Gráfico 9 apresenta o histograma das 1000 médias das reamostras

Bootstrap.

Pode-se notar a forma muito próxima à Normal. O teste de aderência à

distribuição Normal realizado pelo método de Anderson Darling confirma estahipótese (p = 0,156). 

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 24/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

24

parafusos

   F  r  e  q  u  e  n  c  y

27,1827,1227,0627,0026,9426,8826,82

140

120

100

80

60

40

20

0

Mean 26,99

StDev 0,06374

N 1000

Histogram of parafusosNormal

GRÁFICO 9 - Histograma das médias das mil reamostras dos comprimentos dos parafusos

 A média da amostra mestre encontrada foi 26,9908, sua mediana 27,0050

e sua variância apresentada por 0,2043. É possível verificar a simetria dos dados

que compõe a amostra mestre pela proximidade do valor da mediana e o valor da

média.

Utilizando a técnica Bootstrap, calculou-se os intervalos de confiança para

a média e para a variância de forma paramétrica e não paramétrica através do

método Percentil.

No cálculo do intervalo de confiança Bootstrap Percentil não paramétrico

para as médias, os valores obtidos foram [26,8770 ; 27,1178] e o intervalo deconfiança Bootstrap Percentil das Diferenças foi igual a [26,8657 ; 27,1066]. O

Intervalo de Confiança Bootstrap Percentil paramétrico apresentou os seguintes

valores [26,8645 ; 27,1035]. Também foi calculado o intervalo de confiança

Bootstrap t igual a [26,8627 ; 27,1189].

Como a distribuição das médias dos comprimentos dos parafusos é

conhecida, foi possível realizar o cálculo do intervalo de confiança padrão. O

intervalo obtido foi [26,8610 ; 27,1206].

 A média das médias nas reamostras foi igual a 26,9928. O valor do viés na

forma não paramétrica calculado com os dados das reamostras foi igual a 0,0020,

considerado pequeno (0,0007% do valor da estatística na amostra mestre). Neste

caso os métodos Bootstrap t e Bootstrap Percentil de cálculo de intervalo de

confiança são adequados e resultaram em valores próximos.

Os intervalos de confiança para variância utilizando a técnica Bootstrap

forneceram valores próximos, a saber: intervalo de confiança Bootstrap Percentil

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 25/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

25

não paramétrico = [0,1313; 0,2740] e Percentil das Diferenças não paramétrico =

[0,1296; 0,2723]. Através da aplicação da técnica paramétrica obteve-se o

intervalo de confiança Bootstrap Percentil paramétrico = [0,1363 ; 0,2914].

Supondo a distribuição Quiquadrado para a variância dos comprimentosdos parafusos, foi possível calcular o intervalo de confiança igual a [0,1425 ;

0,3172].

 A média das variâncias nas reamostras foi igual a 0,1993. O valor do viés

para a estimativa da variância foi igual a – 0,0050 considerado grande (2,45%

valor da estatística na amostra mestre).

Neste caso é aconselhável o cálculo dos intervalos de confiança para a

variância através dos métodos BCPB e BCa, os quais apresentaram

respectivamente os seguintes valores [0,1425 ; 0,2887] e [0,1230 ; 0,3022]. Para

obtenção do intervalo de confiança pelo método BCa o valor encontrado para a

constante “a” foi igual a 0,043243.

Estudo de caso 4: Tempo de espera na fila do Benjamim Abrahão

 Através da construção do Box Plot , foram encontrados os possíveis outliers 

235,283 ; 232,850 ; 189,0167 ; 188,017 ; 187,650, os quais foram mantidos na

amostra mestre uma vez que tais dados extremos realmente ocorreram.

Segundo Prado (1999), o tempo de espera em uma fila tem em geral

distribuição exponencial, porém, neste caso como foi computado o tempo de

espera, tempo de atendimento e tempo de pagamento, a distribuição resultante

não se comportou como exponencial. Deve-se salientar que a forma de

pagamento determinou, de maneira marcante, a diferença nos tempos totais

computados. Se o comprador utilizava dinheiro a operação era bem rápida,

porém, se ele usava algum cartão eletrônico poderia ser consumido um tempo

muito maior.

O histograma (Gráfico 10) indicou a forma da distribuição do tempo total

próxima da Normal. O teste de aderência pelo método de Anderson Darlingconfirmou a aderência à distribuição Normal (p = 0,809).

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 26/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

26

Os dados da amostra mestre apresentaram uma média igual a 209,0333.

 As mil reamostragens foram feitas com reposição e calculadas as estatísticas

necessárias para a aplicação da técnica Bootstrap.

Os intervalos de confiança para a média foram obtidos pelo métodoPercentil das Diferenças = [193,9140 ; 223,8027], método Percentil = [194,1488 ;

224,0375] e, sendo a distribuição aproximadamente normal, o cálculo foi realizado

pelo método Bootstrap t = [193,9850 ; 224,0817]. Os três intervalos de confiança

apresentaram valores próximos.

Tempo de ate ndimento

   F  r  e  q   ü   ê  n  c   i  a

232224216208200192

120

100

80

60

40

20

0

Mean 208,9

StDev 7,520

N 1000

Histograma do tempo de atendimento

 

GRÁFICO 10 - Histograma das 1000 médias das reamostras do tempo de espera e atendimentona fila

Foi calculado o intervalo de confiança para a média do modo padrão para

que os resultados fossem comparados, a saber: [193,3806 ; 224,6861]. O vício

presente para o tempo médio de atendimento foi igual a – 0,1152 (0,055% do

valor da estatística na amostra mestre), considerado pequeno.

Estudo de caso 5: Tempo de processamento de um digestor de vísceras de

aves

 As amplitudes foram reamostradas e calculado o desvio padrão do

processo para essas 1000 reamostras bootstrap. A partir dessas reamostras, foi

plotado o histograma que permite verificar a proximidade da distribuição dos

desvios padrões do processo com a distribuição Normal. O teste de probabilidade

de aderência pelo método de Anderson Darling confirmou esta hipótese (p =

0,537).

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 27/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

27

 Através da técnica Bootstrap, foram obtidos intervalos de confiança para o

desvio padrão do processo pelos métodos Percentil e t. Para o cálculo do

intervalo de confiança Bootstrap t foi estimado o desvio padrão do processo da

amostra mestre, a saber: 22,6226. Os resultados obtidos pelos intervalos foram

respectivamente iguais a [18,3447 ; 26,9005] e [19,0134 ; 26,6287 ] para os

métodos Bootstrap t e Percentil.

 A proximidade dos intervalos ocorre devido à distribuição ser 

aproximadamente Normal além do vício calculado pela diferença entre a média do

desvio padrão das reamostras do processo e o desvio padrão do processo da

amostra mestre ser relativamente pequeno, igual a 0,0154 (0,07% do valor da

estatística na amostra mestre).

Estudo de caso 6: Verificação da adesão dos alunos a um programa de uso

racional de água

 As respostas para as perguntas foram codificadas como zero quando

negativas e um quando positivas. Através da técnica Bootstrap, foram calculadosos intervalos de confiança para a proporção de respostas afirmativas e seus

resultados comparados com o intervalo de confiança padrão.

Para cada resposta obtida para as três perguntas, foram geradas 1000

reamostras e obtidos os seguintes resultados:

Em relação à percepção de adesivos que estavam sendo colados, foi

realizado um teste de aderência à distribuição Normal pelo método de

Kolmogorov Smirnov (p > 0,150), o que possibilita o cálculo dos intervalos de

confiança Bootstrap pelo método Percentil = [0,5200 ; 0,8000] e pelo método

Bootstrap t= [0,5243 ; 0,7957]. Como a distribuição da proporção nas reamostras

é aproximadamente Normal, foi possível calcular o intervalo de confiança padrão

para proporção e o resultado obtido foi [0,5287 ; 0,6954]. Todos os intervalos

resultaram muito próximos. 

Para as 1000 reamostras dos dados que representam o resultado dapesquisa sobre o aluno que havia notado a alteração dos dispositivos de

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 28/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

28

funcionamento das torneiras, foram calculadas as proporções cuja distribuição foi

considerada Normal através do teste de aderência pelo método de Kolmogorov

Smirnov (p > 0,150).

Os intervalos de confiança Bootstrap Percentil e t foram calculados e seusresultados comparados com o cálculo do intervalo de confiança padrão para

proporção. Os resultados obtidos foram: intervalo de confiança Bootstrap t =

[0,2623 ; 0,5377], intervalo de confiança Bootstrap Percentil = [0,2800 ; 0,5400] e

intervalo de confiança padrão = [0,2642 ; 0,4183], todos muito próximos.

O teste de aderência realizado pelo método de Kolmogorov Smirnov para a

distribuição das proporções nas 1000 reamostras das respostas dos alunos

quanto à colaboração na diminuição do consumo de água confirma a aderência à

distribuição Normal (p >0,150).

Os valores encontrados nos cálculos dos intervalos de confiança Bootstrap

Percentil, t e padrão foram muito próximos, a saber: intervalo de confiança

Bootstrap t = [0,4228 ; 0,6972], intervalo de confiança Bootstrap Percentil =

[0,4200 ; 0,7000] e intervalo de confiança padrão = [0,4224 ; 0,5897].

CONCLUSÃO

 Através da realização dos estudos de caso, foi possível verificar a

adequação da técnica Bootstrap em situações presentes no cotidiano.

Os intervalos de confiança e as estimativas encontradas em todos os

estudos de caso foram coerentes e confirmaram a confiabilidade do método para

estimação de parâmetros em situações onde as distribuições das estimativas dos

parâmetros eram conhecidas.

O método também tornou possível a estimação de intervalos de confiança

em situações onde as distribuições dos parâmetros são desconhecidas ou

complexas.

Verificou-se, pelos casos estudados, a generalidade de aplicação da

técnica de estimação através da reamostragem e que o método Bootstrap permiteque o cálculo do intervalo de confiança seja realizado de modo mais simples e

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 29/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

29

abrangente para diversas estatísticas, mesmo quando as distribuições de

probabilidades das mesmas são desconhecidas.

Foi possível estabelecer o intervalo de confiança adequado para cada

situação diferente.

Quando a estatística do parâmetro estudado tinha distribuição Normal, os

intervalos de confiança Bootstrap pelos métodos t e Percentil coincidiram e foram

adequados.

Quando a distribuição da estatística do parâmetro estudado não era

Normal, porém existia uma transformação monotônica para a estatística do

parâmetro que tornasse sua distribuição Normal, o intervalo Bootstrap Percentil foi

adequado.

Nos casos em que a distribuição não era Normal com a estimativa pontual

Bootstrap muito viciada ou a assimetria presente de modo muito forte, foram

utilizados os métodos BCPB e BCa. Quando era conhecida a distribuição da

estatística do parâmetro, os intervalos BCPB e BCa resultaram mais próximos do

intervalo padrão que o intervalo Bootstrap Percentil, confirmando a melhora na

estimação com o uso dos intervalos corrigidos.

O valor pequeno do viés é uma indicação de que os valores estimados

devem estar próximos dos verdadeiros valores.

Para cada situação deve ser escolhida a técnica de cálculo de intervalo

Bootstrap mais adequada. Quando houve mais de uma técnica possível de ser 

utilizada, verificou-se que os intervalos de confianças resultaram muito próximos.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 30/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

30

REFERÊNCIAS

[1] ANDREWS, D. W. K.; BUCHINSKY, M. On the number of bootstrap repetitions 

for BCa confidence intervals. Econometric Theory , v. 18, n. 4, p. 962-984, Aug.2002.

[2] CYMROT, R.; ROCHA, A. J. F.; MARTINS, A. J.; MOUETTE, D.; DURO, M. A.

S.; MONEZI JUNIOR, O.; ANTUNES, V. R. G. L.; ZIVIERI, J. N. Estudo do uso

racional da água implantado em um campus da Universidade Presbiteriana

Mackenzie. In: WORLD CONGRESS ON COMPUTER SCIENCE, ENGINEERING

 AND TECHNOLOGY EDUCATION, 2006, Itanhaém.  Anais … São Vicente:

COPEC, 2006. 1 CD-ROM.

[3] DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application.

Cambridge: Cambridge University Press, 1997.

[4] EFRON, B.; TIBSHIRANI, R. Bootstrap methods for standard errors,

confidence intervals, and other measures of statistical accuracy. Statistical 

Science , v. 1, n. 1, p. 55–77, Feb. 1986.

[5] FERROLI, P. C. M.; FIOD NETO, M.; CASAROTTO, N.; CASTRO, J. E.

Fábrica de subprodutos de origem animal: a importância do balanceamento das

cargas dos digestores de vísceras. Revista Produção, v. 10, n. 2, p. 5-9, 2002.

[6] HALL, P. Theoretical comparison of bootstrap confidence intervals. Annals of 

Statistics, v. 16, n. 3, p. 927–953, Sep. 1988.

[7] HESTERBERG, T.; MOORE, D. S.; MONAGHAN, S.; CLIPSON, A.; EPSTEIN,

R. Bootstrap methods and permutation tests. In: The practice of businessstatistics: using data for decisions. New York: W.H. Freeman, 2003. cap. 18.

[8] GONZÁLEZ MANTEIGA, W.; PRADA SÁNCHEZ, J. M.; ROMO URROZ, J. J.

The Bootstrap: a review. Computational Statistics, v. 9, n. 1, p. 165-205, 1994.

[9] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear  

regression analysis. 3rd ed. New York: Wiley, 2001.

[10] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2. ed. Rio de Janeiro: LTC, 2003.

5/15/2018 Ana Lucia Bootstrap - slidepdf.com

http://slidepdf.com/reader/full/ana-lucia-bootstrap 31/31

 

Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

31

[11] NAVIDI, W. C. Statistics for engineers and scientists. Boston: McGraw-Hill,

c2006.

[12] PEREIRA, J. E.; SILVA, J. F. V.; DIAS, W. P.; SOUZA, G. S. Intervalo de

confiança “Bootstrap” como ferramenta para classificar raças do nematóide decisto de soja. Pesquisa Agropecuária Brasileira, Brasília, v. 35, n. 2, fev. 2000.

Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-

204X2000000200005 Acesso em: 9 jun. 2006.

[13] PRADO, D. S. Teoria das filas e da simulação. Belo Horizonte:

Desenvolvimento Gerencial, 1999. (Pesquisa operacional, v. 2).