Ana Lucia Bootstrap

  • View
    79

  • Download
    1

Embed Size (px)

Text of Ana Lucia Bootstrap

Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica

ESTUDO E APLICAES DA TCNICA BOOTSTRAPAna Lucia Tucci Rizzo (analurizzo@uol.com.br), Raquel Cymrot Orientadora: Raquel Cymrot (raquelc@mackenzie.com.br)

Resumo

A tcnica de reamostragem Bootstrap muito til por no necessitar de muitas suposies para estimao de parmetros das distribuies de interesse. Este artigo apresenta os diferentes mtodos de clculo de intervalos de confiana utilizando a tcnica de reamostragem Bootstrap na forma paramtrica e no paramtrica. Tais mtodos so o Intervalo de Confiana Bootstrap Percentil, o Intervalo de Confiana Bootstrap Percentil das Diferenas, o Intervalo de Confiana Bootstrap t, o Intervalo de Confiana Percentil Corrigido em Relao ao Vis (BCPB) e o Intervalo de Confiana de Correo de Vcio Acelerado (BCa) , alm da tcnica de Bootstrap para a regresso e realizao de testes de hipteses utilizando intervalos de confiana Bootstrap. Foram apresentadas as situaes onde cada mtodo de obteno dos intervalos de confiana Bootstrap mais adequado, dependendo do tipo de distribuio, vcio e assimetria da estatstica do parmetro estudado. Para aplicao destas tcnicas foram realizados seis estudos de caso que possibilitaram a aplicao dos mtodos de estimao Bootstrap mais recomendados na estimao dos parmetros mdia, varincia, proporo e desvio padro de processos. Estes casos incluram distribuies simtricas e assimtricas. Quando a distribuio de probabilidades da estatstica do parmetro a ser estimado era conhecida foi tambm calculado o intervalo de confiana baseado na distribuio de probabilidades do estimador. Palavras chave: Reamostragem ; Mtodo Bootstrap; Intervalo de confiana

Abstract

The Bootstrap resampling technique is very useful because it does not need many assumptions to estimate parameters of the distributions of interest. This article presents the different methods to calculate confidence intervals by using Bootstrap

1

Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica

resampling technique in parametric and nonparametric form. Such methods are the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected Accelerated Confidence Interval (BCa), besides Bootstrap technique for regression and hypothesis tests accomplishment by using Bootstrap confidence intervals. Situations were presented wherein each method used to obtain the Bootstrap confidence intervals is more proper, depending on the kind of distribution, bias and skewness of the studied parameter. Aiming at applying these techniques, six studies of case were carried out, enabling the application of the most recommended Bootstrap estimation methods to estimate the parameter mean, variance, proportion and standard deviation of processes. These cases included symmetrical and skewed distributions. When the distribution of probabilities of the parameter to be estimated was known, the confidence interval based on the probability distribution of the estimator was also computed. Key terms: Resampling, Bootstrap technique, Confidence Interval

2

Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica

INTRODUO

A utilizao de tcnicas estatsticas no mundo dos negcios vem crescendo cada vez mais, devido principalmente a sua utilidade na comparao de servios, verificao de qualidade, anlise para desenvolvimento de produtos e outros. A tcnica de Bootstrap uma das possveis tcnicas de reamoostragem a serem utilizadas. A reamostragem consiste em sortear com reposio dados pertencentes a uma amostra retirada anteriormente, de modo a formar uma nova amostra. Tcnicas de reamostragem so teis em especial quando o clculo de estimadores por mtodos analticos for complicado. Reamostrar permite diferentes alternativas para se encontrar desvios padres e intervalos de confiana atravs da anlise de um conjunto de dados. Existem diversas tcnicas de reamostragem que visam estimar parmetros de uma distribuio de interesse. Uma vantagem em utilizar a tcnica de reamostragem Bootstrap a generalidade com que pode ser aplicada, pois requer que menos suposies sejam feitas. Outras vantagens so que geralmente fornece respostas mais precisas, alm de favorecer o entendimento. Muitas vezes a distribuio de probabilidade da estatstica de interesse desconhecida. Nesse caso o Bootstrap muito til, pois uma tcnica que no exige diferentes frmulas para cada problema e pode ser utilizada em casos gerais, no dependendo da distribuio original da estatstica do parmetro estudado. Segundo Davison e Hinkley (1997), repetir um procedimento de anlise original com muitas rplicas de dados pode ser denominado mtodo intensivo computadorizado. Para realizar uma estimao atravs da utilizao de Bootstrap necessria a realizao de um nmero muito grande de reamostragens e o clculo de diversas estatsticas para cada uma destas reamostragens. Isto exige o auxlio de programas computacionais para realizar as reamostras e os clculos de forma mais rpida e eficaz.

3

Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica

Esse um dos motivos pelo qual essa tcnica vem se desenvolvendo mais nos ltimos tempos, pois com o avano tecnolgico os softwares esto ficando mais prticos, rpidos e acessveis. A utilizao da tcnica de Bootstrap no implica que as outras devam ser ignoradas, podendo ser usada como um complemento na argumentao das concluses obtidas. Devido a sua generalidade, a tcnica Bootstrap se encaixa na soluo de problemas complexos. Atravs do uso da tcnica de Bootstrap os parmetros como a mdia, a varincia, a proporo e at mesmo parmetros menos utilizados como o mximo, mnimo, etc. de uma populao podem ser estimados pontualmente e por intervalo. A reamostragem baseada nos dados da amostra mestre utilizada pela tcnica de Bootstrap denominada no paramtrica uma vez que a distribuio de probabilidades da estatstica do parmetro a ser estimado desconhecida. Atravs desta tcnica possvel obter a distribuio amostral de um parmetro a partir da amostra original. A forma no paramtrica a mais utilizada. Entretanto, quando a distribuio de probabilidades das estimativas dos parmetros de interesse da populao da qual a amostra mestre foi extrada for conhecida, outra forma de Bootstrap pode ser aplicada. Esta forma denominada paramtrica consiste em gerar reamostras baseadas na distribuio de probabilidades conhecida utilizando como parmetros desta distribuio a estimativa dos mesmos obtida atravs da amostra mestre. Neste caso o interesse ser estimar o vcio das estimativas dos parmetros e assim efetuar as correes necessrias (NAVIDI, 2006). Outra utilidade relatada por Hall (1988) que, ao se comparar o intervalo de confiana obtido atravs da utilizao da tcnica Bootstrap com o intervalo de confiana baseado na distribuio de probabilidades conhecida do estimador, se este ltimo tiver sido calculado usando suposies inadequadas, a diferena entre estes dois resultados ser gritante, chamando assim ateno em relao ao erro cometido.

4

Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica

Neste artigo sero apresentadas as diversas tcnicas de Bootstrap para estimao. Seis estudos de caso tambm sero realizados.

BOOTSTRAP

Para realizar o teste utilizando a tcnica Bootstrap preciso colher uma amostra de tamanho n que ser denominada amostra mestre. Essa amostra deve ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e no representar bem a populao, a tcnica de Bootstrap no levar resultados confiveis. Hesterberg et al. (2003) afirmam que a amostra mestre representa a populao da qual foi retirada. As reamostras desta amostra mestre representam o que se deve obter quando so retiradas muitas amostras da populao original. A distribuio Bootstrap da estatstica, baseada em muitas reamostras, representa uma distribuio amostral desta estatstica. Esta caracterstica faz com que uma das utilidades da tcnica Bootstrap seja checar a normalidade da distribuio original da estatstica em foco. Para que a aplicao da tcnica resulte em valores confiveis devem ser feitas, a partir da amostra mestre, centenas ou at milhares de reamostras do mesmo tamanho n. A maioria dos autores recomenda a utilizao de 1000 reamostras. Segundo Montgomery (2001) o nmero de reamostragens pode ser estipulado verificando a variao do desvio padro para a estimativa do parmetro em questo calculado para as reamostras medida que estas so realizadas. No momento em que esse valor se estabilizar o tamanho da reamostra Bootstrap estar adequado. importante que a reamostragem seja realizada com reposio sempre selecionando os valores de forma aleatria. Para a gerao destas reamostras as tcnicas computacionais so de grande utilidade, pois sem estas, o tempo para que fossem feitas todas as reamostras desejadas de forma manual seria excessivamente grande.

5

Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica

Uma vez geradas as reamostras, deve-se calcular para cada uma delas a estatstica solicitada no problema. Essa tcnica no altera nenhum valor da amostra mestre, ela apenas trabalha na anlise da combinao dos valores iniciais com a finalidade de se obter as concluses desejadas. A variabilidade presente no Bootstrap dada pela escolha da amostra mestre e pelas reamostras, sendo a variabilidade devido escolha da amostra mestre a mais significativa. O desvio padro da distribuio Bootstrap para a mdia (tambm chamado de erro padro) uma medida de variabilidade e calculado da seguinte forma:1 1 SEbootstrap = i* Bi* B1 2

(1)

* com i igual ao valor da estatstica para cada reamostra e B igual aonmero de reamostragens realizadas. O asterisco usado para diferenciar a estatstic