145
UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS Departamento de Estatística e Investigação Operacional Métodos de Captura e Recaptura para a Estimação da Abundância de uma População Aplicação da Metodologia Bootstrap Catarina Isabel Figueiredo Oliveira Mestrado em Probabilidades e Estatística 2007

UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIASrepositorio.ul.pt/bitstream/10451/1232/1/18951_ULFC072534_TM.pdf · método de captura e recaptura simples, quer ao método de captura

  • Upload
    dinhdan

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

Departamento de Estatística e

Investigação Operacional

Métodos de Captura e Recaptura para a Estimação da Abundância de uma População

Aplicação da Metodologia Bootstrap

Catarina Isabel Figueiredo Oliveira

Mestrado em Probabilidades e Estatística

2007

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

Departamento de Estatística e

Investigação Operacional

Métodos de Captura e Recaptura para a Estimação da Abundância de uma População

Aplicação da Metodologia Bootstrap

Catarina Isabel Figueiredo Oliveira

Dissertação orientada pela Professora Doutora Teresa Themido Pereira

Dissertação para a obtenção do grau de Mestre em Probabilidades e Estatística

2007

Agradecimentos:

Agradeço aos meus pais pelo incentivo inicial e apoio constante; à minha orientadora;

às minhas amigas Helenas; à grande amiga sempre presente Ana; aos meus primos

Hugo e Lara; principalmente ao Francisco, a minha cara-metade. Agradeço a todos o

apoio, a paciência e o incentivo constante que fizeram com que eu nunca desistisse,

apesar de todos os contratempos que surgiram. Obrigada!

Resumo

Ao longo dos tempos foi crescendo a necessidade de estimar a dimensão de uma

população, geralmente uma população animal, ou mesmo uma população humana ou

um grupo de risco. Para tal, desenvolveram-se diferentes técnicas que se têm vindo a

aperfeiçoar, tendo em conta a especificidade da população que se pretende estimar.

Um dos métodos mais utilizados para a estimação da abundância de uma população é o

método de captura e recaptura simples. Este método baseia-se na recolha de duas

amostras aleatórias independentes representativas da população. Os indivíduos da

primeira amostra recolhida são marcados e devolvidos à população e, depois de

misturados com os restantes, é recolhida uma segunda amostra e são contabilizados os

indivíduos marcados. A proporção de indivíduos marcados na segunda amostra é

aproximadamente igual à proporção dos indivíduos da primeira amostra na população

total e a estimativa do número total de indivíduos na população é retirada da relação

existente entre estas proporções.

No caso de se recolherem mais do que duas amostras, utiliza-se o método de captura e

recaptura múltipla. São vários os modelos considerados, tendo em conta as condições da

população em estudo e de recolha das amostras; neste trabalho, estudar-se-á o modelo

em que a probabilidade de captura é igual para cada um dos indivíduos e para cada uma

das capturas.

Com a evolução dos computadores desenvolveram-se novas técnicas de reamostragem

que utilizam algoritmos computacionais para obter estimativas e intervalos de confiança

de uma forma mais rápida e acessível. Um exemplo disso é o método bootstrap que tem

aplicação em diversas áreas da estatística e que foi aplicado, neste trabalho, quer ao

método de captura e recaptura simples, quer ao método de captura e recaptura múltipla,

com o objectivo de obter estimativas com menor viés e intervalos de confiança com

menores amplitudes para a dimensão da população.

Palavras chave: Estimação da Dimensão de uma População, Método de Captura e

Recaptura, Método Bootstrap, Intervalos de Confiança Bootstrap, Dimensão das

Amostras.

Abstract

The need for estimating the size of a population, usually an animal population or even

the population of a country or a risk-group in a certain city has been growing. In order

to address this issue, different techniques have been developed, stemming from the

characteristics of the population one wishes to estimate.

One of the most used methods of estimation of population abundance is the simple

capture-recapture method. This method is based on the capture of two independent,

random samples that represent the population. After taking the first sample, the

individuals of the first sample are tagged and returned to the population. After all the

individuals are mixed, a second sample is taken and the tagged individuals from the first

sample are counted. The proportion of tagged individuals in the second sample is

approximately the same as the proportion of tagged individuals in the overall

population. The estimate of the population size is derived from the equality of these two

proportions.

In situations when more than two samples are taken, the multiple capture-recapture

method is used. Depending on the characteristics of the population under study and the

conditions for sampling, different models can be considered; in this study, a model with

equal probability of capture for all individuals and for all captures is considered.

The evolution of computing led to a development of new resampling techniques based

on computational algorithms that deliver estimators and confidence intervals much

more easily and faster than ever before. The bootstrap method is an example of such a

technique, that has a widespread application in statistics and that was applied in this

thesis to both the simple and multiple capture-recapture methods with the objective of

obtaining more robust estimators and shorter length confidence intervals for the overall

population size.

Keywords: Estimation of Population Size, Simple and Multiple Capture-Recapture

Methods, Bootstrap Method, Bootstrap Confidence Intervals, Sample sizes.

i

ÍNDICE

1 INTRODUÇÃO.................................................................................................................................1

2 MÉTODO DE CAPTURA E RECAPTURA SIMPLES ...............................................................7

2.1 INTRODUÇÃO .............................................................................................................................7

2.2 PRESSUPOSTOS NECESSÁRIOS PARA A ESTIMAÇÃO DA DIMENSÃO DA POPULAÇÃO .....................8

2.3 ESTIMADORES DA DIMENSÃO DA POPULAÇÃO .........................................................................11

2.3.1 Estimador de Petersen........................................................................................................11

2.3.2 Estimador de Chapman ......................................................................................................14

2.3.3 Estimador de Bailey............................................................................................................16

2.3.4 Intervalos de Confiança......................................................................................................17

2.4 DIMENSÃO DAS AMOSTRAS ......................................................................................................21

2.5 ESTUDO COMPARATIVO ...........................................................................................................24

2.6 TABELAS DE CONTINGÊNCIA NA OBTENÇÃO DE INTERVALOS DE CONFIANÇA PARA A

ABUNDÂNCIA DE UMA POPULAÇÃO.........................................................................................................51

2.7 MÉTODO BOOTSTRAP NA OBTENÇÃO DE ESTIMATIVAS DA ABUNDÂNCIA DE UMA POPULAÇÃO 61

2.7.1 Introdução Teórica .............................................................................................................61

2.7.2 Estimativa bootstrap do erro padrão de um estimador ......................................................65

2.7.3 Intervalos de Confiança bootstrap .....................................................................................75

2.7.4 Aplicação Prática ...............................................................................................................79

2.8 CONCLUSÕES DAS VÁRIAS APLICAÇÕES PRÁTICAS. ..................................................................83

3 MÉTODO DE CAPTURA E RECAPTURA MÚLTIPLA .........................................................87

3.1 INTRODUÇÃO ...........................................................................................................................87

3.2 CENSO DE SCHNABEL...............................................................................................................88

3.3 ESTUDO COMPARATIVO............................................................................................................95

3.4 MÉTODO BOOTSTRAP PARA A CAPTURA E RECAPTURA MÚLTIPLA ........................................104

3.4.1 Intervalos de Confiança bootstrap ...................................................................................106

3.4.2 Exemplo prático................................................................................................................108

3.5 MÉTODO ALTERNATIVO DE CAPTURA E RECAPTURA MÚLTIPLA............................................111

4 CONSIDERAÇÕES FINAIS .......................................................................................................115

ÍNDICE DE TABELAS .........................................................................................................................123

BIBLIOGRAFIA....................................................................................................................................125

ANEXOS .................................................................................................................................................127

1

1 Introdução

Em diversas áreas de conhecimento como é o caso da Ecologia, Biologia, … é

necessário estimar a abundância de uma determinada população. Por exemplo, estimar o

número de mamíferos de uma certa espécie, o número de plantas que se encontram

numa região, o número de peixes num lago, o número de sem-abrigo de uma cidade ou

região, o número de doentes de diabetes de um país, etc.

Ao longo dos anos foram desenvolvidas várias técnicas que se foram tornando

cada vez mais específicas, tendo em conta a população e o objecto em estudo, já que,

quando se trata de populações animais existem algumas dificuldades na estimação da

dimensão da população devidas a alterações que podem ocorrer no seu habitat ou a

modificações que podem ocorrer no comportamento dos animais em estudo. Efectuar

estudos em populações animais sem que isso afecte o seu comportamento nem sempre é

tarefa fácil, devendo, por isso, utilizar-se os modelos estatísticos com alguma

precaução, pois deve ter-se em conta os pressupostos necessários para a sua aplicação,

de forma a que os métodos utilizados sejam mais robustos e permitam obter estimativas

mais precisas. Os primeiros trabalhos desenvolvidos para estimar a dimensão de uma

população animal têm a sua proveniência em estudos desenvolvidos por Lincoln (1930)

e Jackson (1933).

As várias técnicas empregues podem ser classificadas em duas categorias

conforme se está perante uma população fechada ou uma população aberta, isto é, se

existem alterações na população durante o período em estudo, tais como: nascimentos,

mortes, imigrações, emigrações, entre outras.

Antes de se proceder a qualquer tipo de estudo devem ter-se em conta algumas

condições iniciais que levam a uma escolha acertada do modelo a utilizar; isto porque,

por vezes, pode ser preferível utilizar um método menos eficiente mas mais robusto, em

vez dum método altamente eficiente mas com bastantes condições iniciais difíceis de

controlar.

Entre os vários métodos desenvolvidos para estimar a dimensão de uma

população encontram-se, o método da captura e recaptura (método que será estudado

neste trabalho), band and tag return models (Laurs e Wetherall, 1981; Ebert, 1980;

McCaughran, 1981), transect sampling models (Burnham, Andersen e Laake, 1980,

2

1981; Gates, 1980; Quinn e Gallucci, 1980; Franzeb, 1981; Seber, 1982; Buckland,

1985), quadrat and strip sampling removal (Thompson, 1982, 1990, 1991, 1992;

Thompson, Ramsey e Seber, 1991), catch per unit effort models (Pollock, 1984; Butler

e McDonal, 1979; Chapman, 1961; Paloheimo, 1961), change-in-ratio or selective

removal models (Seber, 1982; Keller e Burnham, 1982; Pollock, 1991; Routledge,

1989), rádio tagging survival models (Amlaner e MacDonald, 1980; Thomas, 1980;

White e Garrott, 1990) e aerial censusing (Seber, 1982; Besom, 1979; Ridpath e outros,

1983; Caughley e Grice, 1982).

Em alguns destes métodos é necessário capturar uma ou mais amostras da

população, o que, por vezes, pode ser uma tarefa difícil pois depende de factores como a

acessibilidade da população e os custos da recolha da(s) amostra(s), entre outros. A

amostra recolhida deve ser tão representativa da população quanto possível, de modo a

se realizarem inferências sobre a população com o menor enviesamento possível.

Em muitos estudos em que o objectivo é estimar a dimensão de uma população

utiliza-se o método da captura e recaptura múltipla; este método foi inicialmente

discutido por Schnabel (1938), tendo Cormack (1968)1 apresentado várias técnicas e

Darroch (1958) e White e outros (1982), entre outros autores, contribuído para o

desenvolvimento desses métodos. Geiger e Werner (1924) e Sekar e Deming (1949)2

foram dos primeiros autores a utilizar o método de captura e recaptura apresentando um

exemplo para o caso de se recolherem duas amostras. Neyman (1938) foi também um

dos primeiros a introduzir um método para a recolha de duas amostras denominado por

two-phase sampling ou double sampling, e Stockford e Page (1984) utilizaram esse

método para estimar a percentagem de veteranos que tinham realmente servido na

guerra do Vietname através das listas dos hospitais de veteranos de guerra que

intervieram na guerra do Vietname.

Com a evolução dos computadores criaram-se novos métodos de reamostragem

que, através de programas de simulação, permitiram calcular estimativas e intervalos de

confiança para um certo parâmetro ou característica populacional, de uma forma mais

rápida e acessível. Exemplo disso são: o método jackknife (Maurice Quenouille, 1949;

1 Para maior detalhe consultar o artigo: Cormack, R. M. (1968) “The statistics of capture-recapture methods.” Oceanogr. Mar. Biol. Ann. Rev. 6, pág. 455-501. 2 Para maior detalhe consultar o artigo: Sekar, C. C. e Deming, W. E. (1949) “On a method of estimating birth and death rates and the extent of registration.” J. Am. Statist. Assoc. 44, pág 101-15.

3

Efron, 1979); o método bootstrap (Efron e Tibshirani, 1986; Buckland, 1984; Buckland

e Garthwaite, 1991) e o método de Monte Carlo (Buckland, 1984).

No caso da população ser fechada, isto é, quando não há nascimentos, mortes e

migrações durante o decorrer do estudo, as condições iniciais são mais fáceis de

controlar e o número de parâmetros é menor. Normalmente o estudo é efectuado num

curto período de tempo e alguns dos modelos utilizados assumem que todos os

indivíduos da população têm a mesma probabilidade de captura. Nos casos em que isso

não acontece, deve ter-se em conta, entre outros aspectos, a heterogeneidade da

população e a diferente variação que pode existir na probabilidade de captura do

indivíduo.

Nos casos da população ser aberta é necessário dispor de alguma informação

adicional e devem considerar-se nascimentos, mortes e migrações, obtendo-se, desta

forma, modelos mais complexos, com um maior número de condições iniciais assim

como um maior número de parâmetros. Vários autores realizaram estudos nesse campo

destacando-se como referências Seber (1982) e Pollock (1991) (Pollock apresenta num

diagrama, uma perspectiva geral, dos métodos de captura e recaptura que se podem

utilizar, ver anexo 1).

Este trabalho tem por objectivo estudar vários métodos para estimar a dimensão

de uma população fechada considerando numa primeira referência, capítulo 2, o método

de captura e recaptura simples. Para tal, a primeira coisa a ter em conta são os diferentes

pressupostos necessários para estimar a dimensão da população fechada, secção 2.2.,

pressupostos que são considerados necessários para os vários métodos apresentados ao

longo deste trabalho.

Neste capítulo consideram-se na secção 2.3., os estimadores da dimensão da

população propostos por Petersen (1965), por Chapman (1951) e por Bailey (1951) e, na

secção 2.3.4, os respectivos intervalos de confiança.

De forma a proceder ao estudo duma determinada população é necessário, em

primeiro lugar, compreender a estrutura e a dinâmica dessa mesma população. Ao

aplicar o método de captura e recaptura simples para estimar a dimensão de uma

população fechada, o investigador precisa de recolher duas amostras e, para o efeito,

deve apurar a dimensão de cada uma delas o mais adequadamente possível, pois uma

escolha errada da dimensão de cada uma das amostras pode originar sobrestimativas nos

resultados do estimador assim como grandes enviesamentos. Um dos métodos utilizados

4

para a escolha das dimensões a serem utilizadas no estudo é proposto por Robson e

Regier (1964) no caso de se empregar o estimador de Petersen, secção 2.4..

Uma outra abordagem para a estimação da abundância de uma dada população,

usando o método de captura e recaptura simples, é sugerida por Fienberg (1972), secção

2.6.. A sua sugestão passa por recorrer à utilização de tabelas de contingência

incompletas de margens fixas para o tratamento dos dados por forma a obter intervalos

de confiança, sem haver necessidade de assumir que os estimadores têm distribuição

aproximadamente Normal. Neste contexto, Cormack (1992) propõe a utilização do teste

de independência do qui-quadrado de Pearson para a construção de intervalos de

confiança para a dimensão da população. Com o mesmo objectivo é também utilizado o

teste de razão de verosimilhanças.

Apesar de neste trabalho se considerarem tabelas de contingência apenas para o

método de captura e recaptura simples, as mesmas podem aplicar-se no caso de haver

recolha de mais do que duas amostras, tendo Fienberg (1972) e Cormack (1992)

efectuado vários estudos nesse campo considerando sugestões dadas por outros autores.

No método de captura e recaptura múltipla, a utilização de tabelas de contingência

incompletas implica o recurso ao ajustamento de modelos loglineares que permitem

avaliar a existência de independência entre as várias amostras. Obviamente que a célula

com o valor em falta não poderá ser testada relativamente ao modelo que melhor se

ajusta aos dados, mas, ainda assim, é possível utilizar esse modelo para obter uma

estimativa da dimensão da população, e o respectivo intervalo de confiança.

O método de captura e recaptura múltipla utiliza-se quando existe

disponibilidade de recolher mais do que duas amostras. No capítulo 3, estudar-se-á esse

método no caso mais simples do modelo considerado ser o modelo 0M , em que a

probabilidade de captura é a mesma para cada um dos indivíduos e não varia ao longo

das várias capturas. Para esse modelo são referidas, ao longo do capítulo, diferentes

alternativas para estimar a abundância de uma população fechada, nomeadamente o

estimador de Schnabel e o estimador modificado de Petersen.

Tanto para o método de captura e recaptura simples como para o método de

captura e recaptura múltipla é possível a aplicação da metodologia bootstrap de forma a

obter estimativas mais precisas e com menor viés da dimensão da população, secção 2.7

e secção 3.4, respectivamente. Além disso podem construir-se intervalos de confiança

5

bootstrap para a abundância populacional que são mais robustos e de menor amplitude

que os usuais, subsecção 2.7.3 e subsecção 3.4.1 respectivamente.

Quando se utilizam os censos para fazer o levantamento de certas características

de uma população um dos resultados obtidos é o número de pessoas que integram essa

população. No entanto, nem sempre se consegue obter o valor exacto da dimensão da

população, pois alguns indivíduos podem não ser contabilizados. Por ser extremamente

importante para certas medidas governamentais conhecer, o mais rigorosamente

possível, a dimensão da população, desde a década de 1950 que se realizam estudos

onde se utiliza o método de captura e recaptura, neste contexto designado por dual-

system estimation, para ajustar a estimativa da dimensão da população obtida pelos

censos. Este método gerou alguma controvérsia, tendo Fienberg (1992) realizado

estudos sobre dual-system e discutido num seu artigo de 1994 sobre essa controvérsia.

Por outro lado Hogan (1993) descreve no seu artigo o método utilizado para os censos

Pos-Enumeration Survey realizados nos Estados Unidos da América em 1990, e Leo

Breiman (1994) enumera razões que podem justificar alguns erros nos resultados desses

mesmos censos.

Os vários estudos comparativos realizados neste trabalho, para os diferentes

estimadores da dimensão da população tiveram como base a utilização de um algoritmo

computacional gerador de amostras aleatórias de dados entre 1 e 1000. Nesses estudos

consideraram-se duas ou mais amostras aleatórias com diferentes dimensões, conforme

se aplicava o método de captura e recaptura simples ou o método de captura e recaptura

múltipla. Para a construção das réplicas necessárias à utilização da metodologia

bootstrap foi também utilizado este algoritmo.

6

7

2 Método de captura e recaptura simples

2.1 Introdução

O método de captura e recaptura surge da necessidade de se estimar o número

total de indivíduos de uma determinada população. Este método consiste em obter uma

amostra inicial de indivíduos que serão marcados ou identificados, dependendo da

necessidade e do habitat da população em estudo, sendo, de seguida, devolvidos à

população. Posteriormente é retirada uma segunda amostra, independente da primeira,

na qual se contabilizam os indivíduos marcados da primeira amostra.

Este método assume que, no caso da segunda amostra ser representativa da

população total, a proporção de indivíduos marcados na segunda amostra será

aproximadamente igual à proporção dos indivíduos marcados na população total. A

estimativa do número total de indivíduos na população é retirada da relação existente

entre estas proporções.

Este tipo de método é muito utilizado para estimar a abundância de mamíferos,

pássaros, peixes, répteis, insectos, entre outros, numa determinada região. Sendo útil

também para estimar o número de acidentes de uma dada população, o número de

viciados em cocaína ou qualquer outro tipo de grupo de risco que, de outra forma, seria

impossível de estimar.

Para os casos em que, de alguma forma, seja possível avistar os indivíduos da

população em estudo não se torna necessário haver captura, marcação e recaptura, pois,

nesses casos, as amostras são obtidas exclusivamente por observação da região em

estudo. No entanto, para todos os casos devem ter-se em conta alguns factores que

podem prejudicar o estudo como, por exemplo, o tamanho do animal, a cobertura do

terreno provocada pela vegetação, a actividade do animal, entre outros.

No caso do estudo ser realizado para uma população de humanos, consideram-se

para as amostras diferentes listas de nomes. Por exemplo, para estimar o número de

acidentes numa determinada cidade, considera-se a lista de acidentes contabilizados

pelo sistema de saúde como a primeira amostra, e a lista de acidentes das seguradoras

8

como a segunda amostra, sendo o número de “marcados” os nomes que constam em

ambas as listas.

O método de captura e recaptura não se limita a duas amostras, já que pode

haver mais do que uma marcação ou mais do que uma captura, sendo, nesses casos,

necessário contabilizar as marcas, distintas entre si, nas amostras retiradas nas diferentes

capturas, caso que será analisado no capítulo 3.

Ao estimar a dimensão de uma população de animais podem surgir algumas

complicações, sendo necessário ter em consideração que: o tipo de marca utilizada nos

animais pode provocar a morte do animal; os animais ao serem devolvidos ao local em

estudo poderão seguir caminhos diferentes dos seus hábitos, originando maior ou menor

probabilidade de serem recapturados relativamente aos restantes elementos; o local

escolhido para o uso de armadilhas deve ter em conta factores como o vento e o

movimento dos animais;... Os resultados do estudo podem também variar muito de

região para região ou podem inclusivamente sofrer alterações nas diferentes estações do

ano.

2.2 Pressupostos necessários para a estimação da

dimensão da população

Os métodos utilizados no estudo de populações animais, nomeadamente no

cálculo da estimativa da dimensão da população, devem ser utilizados com devido

cuidado pois não existe controle da população animal, havendo factores que podem

prejudicar gravemente o estudo pondo em causa os seus resultados. Daí a necessidade

de considerar pressupostos para melhorar a precisão do estimador em causa.

O método de captura e recaptura simples é um dos métodos que se utiliza

quando se pretende estimar a dimensão N de uma população. Para tal, recolhe-se uma

primeira amostra aleatória de indivíduos de dimensão 1n ; estes indivíduos são

devidamente marcados para poderem ser identificados e, em seguida, são repostos na

população. Algum tempo depois, de forma a possibilitar a mistura dos indivíduos

marcados com os não marcados, retira-se uma segunda amostra aleatória de dimensão

2n e contabiliza-se o número de indivíduos marcados nesta amostra, que se designa por

m .

9

Para se proceder à recolha das duas amostras e para que se obtenha uma

estimativa mais adequada da dimensão da população é necessário ter em consideração

os seguintes pressupostos:

- A população é fechada, ou seja, não há entrada nem saída dos seus elementos,

sendo que o valor de N é constante;

- Todos os elementos da população têm igual probabilidade de serem escolhidos,

ou seja, é realizada uma amostragem aleatória simples da população;

- As duas amostras são independentes; os elementos da primeira amostra são

recolocados na população originando igual probabilidade dos elementos serem

escolhidos na segunda amostra, quer sejam elementos marcados ou não;

- A segunda amostra é uma amostra aleatória simples, isto é, cada uma das

2n

N

amostras possíveis tem igual probabilidade de ser escolhida;

- As marcas devem ser feitas e colocadas de forma a não se degradarem nem

desaparecerem para não afectar a recaptura dos elementos da população.

Estes pressupostos dependem uns dos outros pois, para que a segunda amostra

seja aleatória, é necessário que todos os elementos marcados na primeira recolha

tenham probabilidade de ser escolhidos igual à probabilidade dos elementos não

marcados. Assim, a recolha das amostras deve ser cumprida de forma a possibilitar a

mistura dos indivíduos, sendo para tal necessário que a população seja fechada, visto

que, no caso de haver migrações ou mortes, tal pressuposto não pode ser garantido. De

igual modo, o tipo de marcas escolhidas para distinguir os indivíduos uns dos outros

deve ter em conta que estas não os podem prejudicar, não devem alterar os seus hábitos,

ou ser colocadas de forma a poderem perder-se ou degradar-se, alterando a

probabilidade dos indivíduos serem novamente recolhidos.

Alguns destes pressupostos podem ser difíceis de cumprir em termos práticos,

principalmente quando se trata de estudos realizados em populações animais, como é o

caso do pressuposto da segunda amostra ser uma amostra aleatória simples. Uma forma

de tentar resolver esse problema passa por escolher zonas da população onde os

indivíduos tenham a mesma probabilidade de serem recolhidos (Leslie e outros (1953));

claro que, por vezes, isso pode não se verificar pois, para certas populações animais, o

simples facto de se recolher uma primeira amostra vai desestabilizar toda a população e

10

afectar as futuras recapturas. Muitas vezes a probabilidade de captura varia em função

de factores como a idade, o sexo, a espécie, entre outras, dos indivíduos em causa

(Kikkawa (1964), Pucek (1969)).

Se, por exemplo, a primeira amostra não for uma amostra aleatória simples, por

existirem na população indivíduos que são mais fáceis de recolher do que outros, esse

facto determina que a segunda amostra também não seja aleatória pois, ao marcar todos

os indivíduos da primeira amostra e ao colocá-los novamente na população, estes têm

maior probabilidade de serem novamente recolhidos comparativamente com os

indivíduos não marcados. Dificilmente se consegue ultrapassar este problema; no

entanto, alguns autores sugerem o uso de diferentes formas de captura para cada

amostra recolhida.

Da mesma forma, quando se trata de marcar os indivíduos em estudo,

nomeadamente para populações animais, deve ter-se o cuidado de colocar marcas que

não se degradem, não desapareçam e que não afectem a possível recaptura. Com o

objectivo de minimizar este problema deve ter-se em consideração que: as marcas

devem ser escolhidas de forma a não prejudicar o animal nem influenciar os seus

hábitos; é necessário ter bastante cuidado ao capturar os animais e ao marcá-los para

que estes recuperem e se devolvam à população sem alterações; o procedimento para a

sua devolução à população deve ter em conta alterações no seu comportamento que

devem ser minimizadas para não afectar a sua mistura com os restantes elementos da

população. Um processo utilizado para evitar os problemas que surgem com a perda da

marca é a utilização de duas marcas, havendo até estudos que determinam uma

estimativa da probabilidade dos indivíduos perderem as duas marcas (Hubert, 1976).

Bohlin e Sundstrom (1977) quando utilizaram o método de captura e recaptura

para estimar a dimensão de uma determinada população de peixes com o estimador

proposto por Petersen, ver subsecção 2.3.1, aperceberam-se do efeito que as marcas

tinham nessa população pois os peixes marcados tinham maior probabilidade de

captura. De forma a confirmar as suas suspeitas, procederam a um novo estudo com

uma população de dimensão conhecida dessa espécie de peixes, onde constataram que

efectivamente a marca afectava a captura, aumentando a sua probabilidade, levando a

uma sobrestimação do valor da dimensão da população.

Obviamente que todas estas considerações aos pressupostos exigidos dependem

da população em estudo que, no caso dos animais, varia muito de espécie para espécie;

11

vários autores conduziram o seu estudo desenvolvendo técnicas para ajudar os

investigadores no melhor caminho a seguir para a recolha e para a escolha da dimensão

das amostras tendo em conta a espécie em estudo.

No caso destes pressupostos não serem válidos, o estimador da população pode

sofrer algumas alterações ou haver necessidade de reformular o modelo considerado. No

entanto, esta questão não irá ser abordada neste trabalho. Daqui em diante supõe-se que

os pressupostos referidos anteriormente são verificados.

2.3 Estimadores da Dimensão da População

São várias as propostas para se estimar a dimensão de uma população utilizando

o método de captura e recaptura simples, sendo que as mais utilizadas, e aqui

referenciadas, são os estimadores de Petersen, de Chapman e de Bailey. Para todos eles

é necessário a recolha de duas amostras e que os pressupostos referidos anteriormente

(secção 2.2) sejam válidos, tanto quanto possível.

2.3.1 Estimador de Petersen

Supondo que se pretende estimar a dimensão N de uma população, recolhe-se

uma primeira amostra aleatória de 1n indivíduos; estes indivíduos são devidamente

marcados para poderem ser identificados e, em seguida, são repostos na população.

Algum tempo depois, de forma a possibilitar a mistura dos indivíduos marcados com os

não marcados, retira-se uma segunda amostra aleatória de dimensão 2n da população e

contabiliza-se o número de indivíduos marcados nesta amostra, que se designa por m .

Sabe-se então que a proporção de indivíduos marcados na segunda amostra é

aproximadamente igual à proporção dos indivíduos da primeira amostra na população.

A estimativa do número total de indivíduos na população é retirada da relação existente

entre estas proporções, N

n

n

m 1

2

≈ .

Desta forma, obtemos o estimador de Petersen (1965) da dimensão total da

população, que é dado por

12

m

nnN 21ˆ = .

Exemplo 2-1:População de França: Laplace (1783)

Para estimar o total da população de França, Laplace considerou como primeira

amostra, de dimensão 1n , os registos dos nascimentos de todo o país e como segunda

amostra, de dimensão 2n , o total de baptizados da população, sendo que o número de

indivíduos “marcados”, m , seria o número de nascimentos registados de entre os

baptizados, o que não é mais do que uma aplicação do método de Petersen utilizado nos

dias de hoje.

Sabendo que existem

2n

N amostras possíveis em 2n extracções sem reposição

da população, o número m de indivíduos marcados na segunda amostra tem distribuição

Hipergeométrica, ( )pnNHm ,, 2∩ . Ou seja, designando por )(mP a probabilidade de

obter m indivíduos marcados (“sucessos”) na segunda amostra, tem-se:

=

2

1

2

1

)(

n

N

m

n

mn

nN

mP , ( )21 ,min...,,1,0 nnm = ,

em que 1n representa o número de indivíduos marcados da população com

probabilidade de captura N

np 1= e 1nN − representa o número de indivíduos não

marcados.

Robson (1969)3 mostrou que no caso de não se verificar o pressuposto das duas

amostras serem aleatórias, a probabilidade de obter m indivíduos marcados na segunda

amostra tem igualmente uma distribuição Hipergeométrica, ( )pnNHm ,, 2∩ , visto que

esta distribuição é simétrica em 1n e 2n .

O estimador de Petersen da dimensão da população coincide com o estimador de

N obtido pelo método dos momentos. De facto, o método dos momentos consiste em 3 Para maior detalhe consultar artigo Robson, D. S. (1969) “Mark-recapture methods of population estimation.” Development in Survey Sampling, Eds N. L. Johnson and H. Smith, pág. 120-40. New York: Wiley.

2-1

2-2

13

igualar momentos amostrais a momentos populacionais e, atendendo a que neste caso

particular se tem apenas uma recaptura, isto é, mm = e pnmE ×= 2)( , obtém-se

mN

nnmmE =⇔= 1

2)( , resultando m

nnN 21ˆ = .

Além disso, o estimador de máxima verosimilhança de N coincide com a parte

inteira do estimador de Petersen (Thompson, pág. 216).

As propriedades do estimador de Petersen foram amplamente estudadas por

Chapman (1951) 4 que mostrou que N tem uma distribuição assintoticamente Normal

quando +∞→N , embora enviesada. Além disso, o viés de N tende a ser muito

elevado para valores pequenos de 1 2 e n n , tendo Chapman (1951) obtido uma sua

estimativa.

Em populações de grande dimensão, se a dimensão da segunda amostra for

muito menor do que a dimensão da população, isto é, se Nn <<2 vem que 02 ≈N

n, ou

seja, 11

2 ≈−

N

nN e a variância da distribuição Hipergeométrica, que é dada por

( )1

1 2

−−

N

nNppn em que

N

np 1= , aproxima-se da variância da distribuição Binomial,

( )ppn −1 . Por outras palavras, quando a dimensão da segunda amostra é muito

diminuta em relação à dimensão da população, a distribuição Hipergeométrica pode ser

aproximada pela distribuição Binomial e m segue aproximadamente uma distribuição

( )pnb ,2 . Logo,

mnm

N

n

N

n

m

nmP

2

112 1)( , 2...,,1,0 nm = .

Utilizando este modelo Binomial, o estimador de máxima verosimilhança de N é

novamente o estimador de Petersen.

Por sua vez, quando a dimensão da segunda amostra, 2n , é elevada e a

probabilidade de sucesso de cada prova, N

np 1= , é pequena pode-se aproximar a

4 Para maior detalhe consultar o artigo de Chapman, D. G. (1951) “Some properties of the hypergeometric distribution with applications to zoological censuses.” Univ. Calif. Public. Stat. 1, 131-60

2-3

14

distribuição Binomial pela distribuição de Poisson com parâmetro pn2=λ , ou seja,

pode-se considerar que m tem aproximadamente distribuição ( )pnP 2 . Logo,

mN

nn

N

nn

m

emP

21

!)(

21

, ...,1,0=m .

De igual modo, utilizando o modelo Poisson, o estimador de máxima

verosimilhança de N é o estimador de Petersen.

Um estimador para a variância do estimador de Petersen da dimensão da

população foi proposto por Sekar & Deming (1949) e é dado por:

3

2121 ))(()ˆr(av

m

mnmnnnN

−−= .

Note-se que pode acontecer que 0m = e, nesses casos, o estimador de Petersen

não pode ser utilizado, sendo que Chapman propõe outro estimador para a dimensão da

população, conforme se faz referência a seguir.

2.3.2 Estimador de Chapman

Pode acontecer que não existam indivíduos marcados na segunda amostra, ou

seja, 0m = e, nesses casos, a estimativa de Petersen da dimensão da população é

infinita. De forma a tentar minimizar este problema, e com o objectivo de encontrar

outro estimador que tenha viés mais reduzido e com um estimador para a variância que

seja centrado, Chapman (1951) propôs um novo estimador, baseado no estimador de

Petersen, dado por:

( )( )( )

11

11~ 21 −+

++=

m

nnN .

A proposta encontrada por Chapman para estimar a dimensão da população é um

estimador centrado sempre que Nnn ≥+ 21 , como se demonstra a seguir. Seja,

( ) ( )( )( )

( )( ) .11

111

11

11~

21

21

+++=

+

++=

mEnn

m

nnENE

2-4

2-5

2-6

15

Sabendo que

N

nnNHm 1

2 ,, , tem-se que

( )

.1

1

1

1 21 ,min

0

2

1

2

1

∑=

×+

=

+

nn

m

n

N

m

n

mn

nN

mmE

Considerando 1, += mm e notando que ,m ( ){ }1,1min...,,1 21 ++∈ nn , obtém-

se, depois de algumas simplificações,

( )( )

( )

( )( )( )

.

1

1

11

11

1

1

1

1

1

11

1

1

1

2

2

1

21

1,1min

1

2

1

2

1

21

21

'

,,

+

+

+

−×++

+=

+

+

+

−+

++

+=

+∑

++

=

n

N

n

nN

nn

N

n

N

m

n

mn

nN

nn

N

mE

nn

m

Substituindo na expressão anterior 2-6 tem-se:

( ) ( )( ) ( )( )( )

( ) .

1

1

11

1

1

1

1

1

1

11

1

1

1

11

11

111

~

2

2

1

2

2

1

2

2

1

2

2

1

2121

+

+

+

+−=

+

+

+

+

+

+

−+=

+

+

+

−×++

+×++=

n

N

n

nN

NN

n

N

n

nN

n

N

n

nN

NN

n

N

n

nN

nn

NnnNE

Para o estimador ser centrado, deve ter-se que 012

1=

+

n

nN. Como se trata de

uma combinação, esta só faz sentido se 11 2121 ++≥⇔+≥− nnNnnN ; desta forma,

16

sempre que 121 ++< nnN , ou seja, NnnNnn ≥+⇔−>+ 2121 1 , tem-se

012

1=

+

n

nN e o estimador N

~ é centrado, conforme se pretendia demonstrar.

Seber (1970) e Wittes (1972) apresentam um estimador para a variância do

estimador de Chapman da dimensão da população, da forma:

( )( )( )( )( ) ( )21

11)

~r(av

22121

++

−−++=

mm

mnmnnnN

Mesmo que m seja zero esta estimativa da variância é sempre finita, sendo

centrada quando Nnn ≥+ 21 .

Por vezes não é possível fixar antecipadamente a dimensão da segunda amostra,

2n , pois na prática esse valor pode depender do tempo ou do esforço necessário para a

recolha da segunda amostra. No entanto, quando a dimensão da segunda amostra é uma

variável aleatória e não um parâmetro fixo, a estimativa da dimensão da população

proposta por Chapman, N~

, expressão 2-5, continua a ser centrada, já que

[ ] [ ][ ] .

,~~

2

2211

NNE

nnNEEnNE

n

n

==

=

Da mesma forma se tem que a estimativa da variância, )~

r(av N , é uma estimativa

centrada da [ ]1

~var nN , não existindo grandes diferenças no tratamento de 2n como um

parâmetro fixo ou como uma variável aleatória, quando se pretende estimar a dimensão

de uma população.

2.3.3 Estimador de Bailey Como o estimador da dimensão da população proposto por Petersen (subsecção

2.3.1) é enviesado, Bailey (1951, 1952) propôs uma alteração ao estimador da dimensão

da população no caso da distribuição Binomial, expressão 2-3, constituir uma boa

aproximação da distribuição Hipergeométrica, dado por:

( )1

121*

+

+=

m

nnN .

2-8

2-7

17

Bailey propõe para o respectivo estimador da variância, o seguinte:

( )( )( ) ( )21

1)r(av

222

21*

++

−+≈

mm

mnnnN .

Nas situações em que a fracção amostral Nn2 seja suficientemente pequena, de

forma a ignorar-se o facto de, na recolha de amostras, existir ou não reposição, pode-se

utilizar o estimador da dimensão da população proposto por Bailey, *N , em vez do

proposto por Chapman (2.3.2). Este estimador também pode ser o mais apropriado de

entre os apresentados, nas situações em que não existe recolha de amostras, mas sim

contagem dos indivíduos através da observação dos mesmos dentro do seu habitat, visto

que, nesse caso, continua a ser válida a utilização da distribuição Binomial. No entanto,

em termos práticos, não existem diferenças significativas entre o estimador proposto por

Chapman e o proposto por Bailey.

2.3.4 Intervalos de Confiança Nas subsecções anteriores foram fornecidas fórmulas para calcular estimativas

pontuais da dimensão da população. No entanto, quando se pretende estimar um

parâmetro θ desconhecido, além de calcular uma estimativa pontual, é de grande

importância determinar um intervalo de confiança para o parâmetro. Sendo I um

intervalo de confiança de ( )%1100 α− para θ , pode afirmar-se que αθ −=∈ 1)( IP ,

ou seja, a proporção dos intervalos de confiança que contêm o parâmetro θ é de

( )%1100 α− .

Suponha-se que se tem uma amostra aleatória de valores ( )nxxx ...,,, 21=x , da

distribuição de probabilidade F desconhecida e que )(ˆ xs=θ representa a estimativa do

parâmetro )(Ft=θ . Em certas situações, quando a dimensão da amostra é elevada, a

distribuição de θ é aproximadamente Normal com valor médio θ e variância ∧

2se ,

pelo que se pode afirmar que ( )θ

θθ

ˆ

ˆ∧

−=

se

Z segue aproximadamente uma distribuição

)1,0(N .

Para determinar um intervalo de confiança para o parâmetro θ , começa-se por

definir um intervalo tal que

18

α−=<< 1)( supinf lZlP ,

ou seja, determinar um intervalo [ ]supinf ,ll onde a variável aleatória Z pertença com

probabilidade igual a α−1 , que se designa por grau de confiança do intervalo. Com o

objectivo de minimizar a amplitude do intervalo e tendo em conta que a distribuição

Normal é simétrica, deve considerar-se:

ααα −=

≤≤−

−−1

2121zZzP ,

ou seja,

( )α

θ

θθαα −=

−≤−

−∧−1

ˆ

ˆ

2121z

se

zP .

Resolvendo em ordem ao parâmetro θ , obtém-se

( ) ( ) αθθθθθ αα −=

×+≤≤×−

−1ˆˆˆˆ

2121sezsezP .

Logo, o intervalo a )%1(100 α−× de confiança para θ é dado por

( ) ( )

×+×−

−θθθθ ααˆˆ,ˆˆ

2121sezsez ,

onde 21 α−

z é o quantil de probabilidade 21 α− da distribuição ( )1,0N .

Chapman (1951) mostrou que a distribuição do estimador de Petersen é

assintoticamente Normal, quando ∞→N e, portanto, considera-se o intervalo de

(aproximadamente) )%1(100 α− de confiança para N dado por:

)ˆr(avˆ21

NzN α−± .

Tal como o estimador de Petersen, também o estimador de Chapman tem

distribuição assintoticamente Normal quando ∞→N . Sendo assim, considera-se o

intervalo (aproximado) de )%1(100 α− de confiança dado por:

)~

r(av~

21NzN α−

± .

Igualmente para o estimador da dimensão da população proposto por Bailey se

mostra que a distribuição do estimador é assintoticamente Normal, quando ∞→N ,

considerando-se o intervalo de )%1(100 α− de confiança dado por:

)r(av *

21

* NzN α−± .

19

Estes intervalos de confiança, construídos a partir do facto da distribuição dos

estimadores ser assintoticamente Normal, não satisfazem a necessidade de precisão

necessária para alguns dos estudos, nomeadamente quando se trata de populações de

pequena dimensão ou quando a dimensão das amostras não é muito elevada. Fienberg

(1972) sugere uma nova abordagem para a construção dos intervalos de confiança

através da utilização de tabelas de contingência incompletas, como se refere na secção

2.6.

Como para determinados valores de 1n , 2n e N a distribuição Hipergeométrica

pode ser aproximada pela distribuição de Poisson, pela distribuição Binomial ou pela

distribuição Normal, alguns autores sugerem algumas recomendações tendo em conta as

dimensões das amostras e o número de indivíduos marcados na segunda amostra, m.

Seja N

np 1= e considere-se

2

ˆn

mp = . Quando 1,0ˆ <p e 1,0

1

<n

m, a distribuição

de Poisson é recomendada e pode considerar-se um intervalo de confiança para

N

nn 21=µ como proposto na tabela de Pearson e Hartley (1966: 227, 50≤m ), na tabela

de Crow e Gardner (1959: 300≤m ) ou no gráfico de Adams (1951: 50≤m ). No

entanto, para 50≤m pode utilizar-se a tabela proposta por Chapman (1948) onde se

indica um intervalo, com menor amplitude, a 95% de confiança para λ

N com 21nn=λ ,

tabela que se encontra no anexo 2.

No caso de 1,0ˆ <p e 50>m a proposta de Cochran (1963: 87) consiste na

utilização da distribuição Normal na obtenção de um intervalo de confiança a 95% para

p, sendo este dado por:

( ) ( )( )

+

−−±

2

2

1

2 2

1

1

ˆ1ˆ196,1ˆ

nn

ppfp

em que N

nf 2= , que pode ser menosprezado se a sua estimativa

1n

m for inferior a 0,1.

Muitas vezes o factor de correcção 22

1

n também é menosprezado. Com este intervalo

de confiança para N

np 1= obtém-se o respectivo intervalo de confiança para N.

2-9

20

Quando se verifica 150>N , 501 >n e 502 >n , m segue uma distribuição

aproximadamente Normal e um intervalo de confiança a 95%, com maior precisão que o

anterior, para a dimensão da população, é sugerido por Robson e Regier (1964) através

do cálculo das duas maiores raízes da equação cúbica:

2

2112

2

21

96,1

11

=

−×

N

nN

N

n

N

nn

N

nnm

.

Para os casos em que 1,0ˆ >p pode usar-se a aproximação Binomial, expressão

2-3, ou a distribuição Normal, tendo em conta que para valores pequenos da dimensão

da segunda amostra se pode utilizar a expressão 2-9, seguindo a sugestão de Cochran

(1963: 57) que se encontra na tabela seguinte:

p (ou p1− ) 0,5 0,4 0,3 0,2 0,1

2n 30 50 80 200 600

Se, por outro lado, não for possível utilizar a aproximação à distribuição Normal,

pode obter-se um intervalo de confiança para p com o uso da distribuição Binomial,

quando 1,0ˆ >p pelos gráficos Clopper-Pearson propostos por Pearson e Hartley (1966:

228-229) e por Adams (1951) ou através das tabelas de Harvard Computation

Laboratory (1955).

Nos casos em que a recolha de amostras não é muito acessível, um outro método

foi desenvolvido para tornar os estimadores e os intervalos de confiança mais exactos e

não tão enviesados, sem haver um esforço muito elevado na recolha de amostras. Esse

método consiste em considerar apenas as duas amostras iniciais e criar um determinado

número de réplicas da segunda amostra com a mesma dimensão, construindo a partir

dessas novas amostras os cálculos necessários para a estimação do parâmetro e do

respectivo intervalo de confiança. Este método denomina-se por método bootstrap e

será analisado na secção 2.7.

21

2.4 Dimensão das amostras

Para estimar a dimensão de uma determinada população fechada, aplicando o

método de captura e recaptura simples, é necessário recolher duas amostras. Para tal, é

importante que a dimensão de cada uma das amostras seja a mais adequada, já que uma

escolha errada da dimensão de cada amostra pode originar desvios importantes nos

resultados obtidos. A recolha das amostras e a dimensão de cada uma delas deve ter em

conta a população em estudo, a sua estrutura e a sua dinâmica.

Existem vários critérios nos quais um investigador se pode apoiar para proceder

à escolha da dimensão das amostras a realizar, com vista a um cálculo mais preciso do

estimador da dimensão total da população, N. Um dos métodos utilizados é proposto por

Robson e Regier (1964) (para o caso de se querer empregar o estimador de Petersen,

representado por N ) que principia pela escolha de um determinado valor de α e de A,

de modo que a probabilidade do estimador da dimensão da população tenha um erro

relativo inferior a A seja igual a ( )α−1 , isto é, de forma a que:

<

−<−≤− A

N

NNA

ˆPr1 α ,

onde N

NN −ˆ representa o erro relativo do estimador.

São sugeridos três valores para a escolha de α e de A:

1) 95,01 =−α , 50,0=A , recomendado para estudos preliminares ou para

situações em que apenas seja necessária uma ideia aproximada do tamanho da

população;

2) 95,01 =−α , 25,0=A , recomendado para estudos que necessitem de maior

precisão;

3) 95,01 =−α , 10,0=A , recomendado para estudos que necessitem de um

resultado mais fiel da dimensão da população.

Robson e Regier criaram gráficos5 para os diferentes valores de α e de A tendo

em conta a dimensão da população em estudo e a necessidade de precisão da estimativa,

no caso de se utilizar o estimador de Petersen. Através da análise dos gráficos é possível 5 Ver anexos 3, 4 e 5

22

avaliar se a escolha da dimensão das amostras foi ou não a mais adequada. Para o caso

em que basta um valor aproximado da estimativa da dimensão da população, 50,0=A ,

é proposto no gráfico respectivo que a segunda amostra tenha dimensão inferior à

primeira; para o caso em que 25,0=A e de modo que o estudo tenha alguma precisão é

necessário que as dimensões das amostras sejam aproximadamente as mesmas; se, por

outro lado, 10,0=A , isto é quando se pretende que o estudo tenha bastante precisão, a

dimensão da segunda amostra tem de ser superior à primeira.

Como seria de esperar, pode concluir-se que, quanto menor é o valor de A, maior

é a necessidade da dimensão das duas amostras ser elevada (Seber, 1982). Os autores

salientam que para os valores de 1n e 2n dados pelos gráficos, o viés do estimador de

Petersen é apenas da ordem de 1%.

Uma medida que se pode considerar para avaliar a qualidade da estimativa da

dimensão da população é o coeficiente de variação, CV, que é dado pelo quociente entre

o erro padrão amostral e o valor amostral da estimativa. Em função do valor obtido para

este coeficiente podem retirar-se conclusões acerca da fiabilidade da estimativa obtida.

A seguinte tabela apresenta uma classificação da qualidade das estimativas:

Valores em % Qualidade da estimativa

5<CV Excelente

105 <≤ CV Muito Boa

1510 <≤ CV Boa

2515 <≤ CV Aceitável

5025 <≤ CV Pouco fiável

50≥CV Sem fiabilidade

Tabela 2-1 – Qualidade da estimativa em função do coeficiente de variação

Supondo que numa primeira investigação se consideram dimensões para as duas

amostras que originam maus resultados para a qualidade do estimador da dimensão da

23

população pode-se, de antemão, para um novo estudo escolher dimensões para as

amostras que originem melhores resultados no coeficiente de variação obtendo assim

uma estimativa com melhor qualidade e precisão.

Petersen propôs uma aproximação para o coeficiente de variação do seu

estimador da dimensão da população no caso desta ser fechada. Assim, e considerando

que todos os pressupostos referidos na secção 2.2. são satisfeitos e que a dimensão da

segunda amostra é suficientemente elevada, o coeficiente de variação sugerido por

Petersen de N , é:

mnn

NCV

21

≈≈ .

Petersen refere também que para se obter 25,0<CV devem obter-se no mínimo

16 indivíduos marcados, isto é, 16≥m .

Sabendo que o estimador de Petersen da dimensão da população é dado por

m

nnN 21ˆ = e a respectiva estimativa da variância dada por

32121 ))((

)ˆr(avm

mnmnnnN

−−= , substituindo na definição do coeficiente de variação

( )N

NseCV

ˆ

ˆ= , obtém-se:

( )( )

.1

2

2

1

1

21

21

21

2121

n

mn

n

mn

m

nnm

mnmn

nn

m

mm

mnmnnnCV

−×

−×=

××

−−=

×−−

=

Assim, constata-se que Petersen considera apenas m

1 para o coeficiente de

variação, assumindo que 12

2

1

1 ≈−

×−

n

mn

n

mn o que nem sempre se verifica. Por outro

lado, a qualidade do estimador iria depender quase exclusivamente do valor de m, ou

seja, dos indivíduos encontrados na segunda amostra que foram marcados na primeira

amostra. Deste modo, o coeficiente proposto por Petersen produz piores resultados que

24

o coeficiente de variação usual e, por esse motivo, não será considerado nos exemplos

que se seguem.

Tendo em conta os valores sugeridos para a escolha de α e de A, assim como os

gráficos propostos por Robson e Regier que orientam os investigadores na escolha da

dimensão das duas amostras, verifica-se que, para obter uma estimativa mais correcta e

adequada à situação em causa, é necessário uma razoável proporção de indivíduos

marcados. Assim, para o caso de nnn == 21 e considerando o valor de A anteriormente

mencionado, podem considerar-se para a proporção de indivíduos necessários na

recolha das amostras, tendo em conta a dimensão da população em estudo, os seguintes

valores da tabela:

A 0,5 0,25 0,1 0,5 0,25 0,1 0,5 0,25 0,1

N 50 50 50 100 100 100 1000 1000 1000

Nn100 40 54 74 32 43 64 13 20 40

Para alguns autores o ideal seria considerar para a dimensão da primeira

amostra, isto é, o número de indivíduos que seriam marcados, aproximadamente metade

da população em causa. Outros autores consideram que o estimador proposto por

Petersen para a dimensão da população nem sempre é satisfatório, chegando a propor

que, no caso de haver um uso exaustivo desse estimador no estudo duma determinada

espécie, os resultados sejam comparados com estimativas calculadas anteriormente por

outros processos ou, eventualmente, seja testado o estimador numa população

conhecida.

2.5 Estudo Comparativo

Pretende-se com os exemplos aqui apresentados tirar algumas conclusões e

confirmar algumas teorias no que respeita à dimensão das amostras necessárias para o

cálculo dos diferentes estimadores da dimensão de uma dada população, assim como

tentar avaliar qual o melhor estimador. Para tal, utilizou-se um algoritmo computacional

gerador de amostras aleatórias de dados constituídos pelos números de 1 a 1000. Esse

25

algoritmo utilizou-se para todos os exemplos em que foi necessário gerar duas ou mais

amostras de números e cada número representará um certo indivíduo da população em

estudo.

Exemplo 2-2:

Com a utilização do algoritmo geram-se duas amostras aleatórias independentes

com diferentes dimensões. Considera-se que os valores da primeira amostra gerada

constituem os indivíduos da população que são marcados e, portanto, o número de

indivíduos marcados na segunda amostra gerada é o número de valores repetidos nas

duas amostras, que se designa por m. Num primeiro estudo foram realizadas várias

simulações em que se fez variar a dimensão da primeira amostra e se considerou para a

dimensão da segunda amostra, 150, 100, 75, 50 e 25% da dimensão da primeira,

respectivamente, onde se registaram o número de indivíduos marcados para cada uma

das simulações.

Foram realizadas quarenta e uma simulações para cada uma das variações

realizadas às dimensões das amostras, obtendo-se para cada uma delas um determinado

valor de m, e, consequentemente, os respectivos valores para a estimação da dimensão

da população segundo as propostas de Petersen, de Chapman e de Bailey que se

encontram nas tabelas seguintes e nos respectivos gráficos:

1º Caso: Dimensão da primeira amostra 100 indivíduos

Dimensão da segunda amostra 25 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

0 5 -------- -------- --------

1 10 2500 1312 1300

2 13 1250 874 867

3 9 833 656 650

4 4 625 524 520

Total 41

26

Dimensão da segunda amostra 50 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

1 1 5000 2575 2550

2 6 2500 1716 1700

3 7 1667 1287 1275

4 6 1250 1029 1020

5 8 1000 858 850

6 4 833 735 729

7 3 714 643 638

8 6 625 571 567

Total 41

Dimensão da segunda amostra 75 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

2 1 3750 2558 2533

3 1 2500 1918 1900

4 4 1875 1534 1520

5 7 1500 1278 1267

6 3 1250 1096 1086

7 8 1071 959 950

8 6 938 852 844

9 3 833 767 760

10 1 750 697 691

11 3 682 639 633

12 1 625 589 585

13 3 577 547 543

Total 41

Dimensão da segunda amostra 100 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

5 2 2000 1699 1683

6 1 1667 1456 1443

7 3 1429 1274 1263

8 3 1250 1132 1122

9 10 1111 1019 1010

10 4 1000 926 918

11 5 909 849 842

12 6 833 784 777

13 5 769 728 721

16 1 625 599 594

17 1 588 566 561

Total 41

27

02468

101214

-------- 1300 867 650 520

-------- 1312 874 656 524

-------- 2500 1250 833 625

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 150 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

10 2 1500 1385 1373

11 5 1364 1270 1258

12 3 1250 1172 1162

13 4 1154 1088 1079

14 3 1071 1016 1007

15 3 1000 952 944

16 4 938 896 888

17 5 882 846 839

18 2 833 802 795

19 2 789 762 755

20 2 750 725 719

21 3 714 692 686

22 2 682 662 657

27 1 556 544 539

Total 41

Gráficos do 1º Caso: Dimensão da primeira amostra 100 indivíduos

Dimensão da segunda amostra 25 indivíduos

28

02468

10

2550 1700 1275 1020 850 729 638 567

2575 1716 1287 1029 858 735 643 571

5000 2500 1667 1250 1000 833 714 625

Fre

qu

ênci

a

N

N

N

ˆ

~

*

0

2

4

6

8

10

12

1683 1443 1263 1122 1010 918 842 777 721 594 561

1699 1456 1274 1132 1019 926 849 784 728 599 566

2000 1667 1429 1250 1111 1000 909 833 769 625 588

Fre

qu

ênci

a

N

N

N

ˆ

~

*

0123456789

2533 1900 1520 1267 1086 950 844 760 691 633 585 543

2558 1918 1534 1278 1096 959 852 767 697 639 589 547

3750 2500 1875 1500 1250 1071 938 833 750 682 625 577

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 50 indivíduos

Dimensão da segunda amostra 75 indivíduos

Dimensão da segunda amostra 100 indivíduos

29

0

4

8

1373 1258 1162 1079 1007 944 888 839 795 755 719 686 657 539

1385 1270 1172 1088 1016 952 896 846 802 762 725 692 662 544

1500 1364 1250 1154 1071 1000 938 882 833 789 750 714 682 556

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 150 indivíduos

2º Caso: Dimensão da primeira amostra 120 indivíduos

Dimensão da segunda amostra 30

indivíduos Estimativas

Valor de m Frequência Petersen Chapman Bailey

0 1 -------- -------- --------

1 6 3600 1875 1860

2 11 1800 1249 1240

3 8 1200 937 930

4 8 900 749 744

5 4 720 624 620

6 2 600 535 531

7 1 514 468 465

Total 41

30

Dimensão da segunda amostra 60

indivíduos Estimativas

Valor de m Frequência Petersen Chapman Bailey

2 1 3600 2459 2440

3 1 2400 1844 1830

4 2 1800 1475 1464

5 8 1440 1229 1220

6 5 1200 1053 1046

7 6 1029 922 915

8 5 900 819 813

9 3 800 737 732

10 4 720 670 665

11 1 655 614 610

12 1 600 567 563

13 3 554 526 523

14 1 514 491 488

Total 41

Dimensão da segunda amostra 90 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

7 3 1543 1375 1365

8 4 1350 1222 1213

9 3 1200 1100 1092

10 9 1080 1000 993

11 2 982 917 910

12 6 900 846 840

13 3 831 786 780

14 4 771 733 728

15 3 720 687 683

16 4 675 647 642

Total 41

31

Dimensão da segunda amostra 120

indivíduos Estimativas

Valor de m Frequência Petersen Chapman Bailey

8 1 1800 1626 1613

9 1 1600 1463 1452

10 2 1440 1330 1320

11 2 1309 1219 1210

12 6 1200 1125 1117

13 4 1108 1045 1037

14 3 1029 975 968

15 6 960 914 908

16 3 900 860 854

17 3 847 812 807

18 3 800 770 764

19 5 758 731 726

20 1 720 696 691

21 1 686 665 660

Total 41

Dimensão da segunda amostra 180

indivíduos Estimativas

Valor de m Frequência Petersen Chapman Bailey

14 2 1543 1459 1448

15 2 1440 1368 1358

16 1 1350 1287 1278

17 4 1271 1216 1207

18 2 1200 1152 1143

19 2 1137 1094 1086

20 6 1080 1042 1034

21 1 1029 995 987

22 7 982 951 944

23 6 939 912 905

24 3 900 875 869

25 2 864 841 835

26 1 831 810 804

27 2 800 781 776

Total 41

32

0

2

4

6

8

10

12

-------- 1860 1240 930 744 620 531 465

-------- 1875 1249 937 749 624 535 468

-------- 3600 1800 1200 900 720 600 514

Fre

qu

ênci

a

N

N

N

ˆ

~

*

0123456789

2440 1830 1464 1220 1046 915 813 732 665 610 563 523 488

2459 1844 1475 1229 1053 922 819 737 670 614 567 526 491

3600 2400 1800 1440 1200 1029 900 800 720 655 600 554 514

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Gráficos do 2º Caso: Dimensão da primeira amostra 120 indivíduos

Dimensão da segunda amostra 30 indivíduos

Dimensão da segunda amostra 60 indivíduos

33

0123456789

10

1365 1213 1092 993 910 840 780 728 683 642

1375 1222 1100 1000 917 846 786 733 687 647

1543 1350 1200 1080 982 900 831 771 720 675

Fre

qu

ênci

a

N

N

N

ˆ

~

*

01234567

1613 1452 1320 1210 1117 1037 968 908 854 807 764 726 691 660

1626 1463 1330 1219 1125 1045 975 914 860 812 770 731 696 665

1800 1600 1440 1309 1200 1108 1029 960 900 847 800 758 720 686

Fre

qu

ênci

a

N

N

N

ˆ

~

*

012345678

1448 1358 1278 1207 1143 1086 1034 987 944 905 869 835 804 776

1459 1368 1287 1216 1152 1094 1042 995 951 912 875 841 810 781

1543 1440 1350 1271 1200 1137 1080 1029 982 939 900 864 831 800

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 90 indivíduos

Dimensão da segunda amostra 120 indivíduos

Dimensão da segunda amostra 180 indivíduos

34

3º Caso: Dimensão da primeira amostra 150 indivíduos

Dimensão da segunda amostra 38 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

2 2 2850 1962 1950

3 3 1900 1471 1463

4 6 1425 1177 1170

5 7 1140 981 975

6 7 950 840 836

7 7 814 735 731

8 5 713 653 650

9 1 633 588 585

10 2 570 534 532

11 1 518 490 488

Total 41

Dimensão da segunda amostra 75 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

6 1 1875 1638 1629

7 3 1607 1434 1425

8 5 1406 1274 1267

9 8 1250 1147 1140

10 6 1125 1042 1036

11 7 1023 955 950

12 1 938 882 877

13 6 865 819 814

16 2 703 674 671

17 2 662 637 633

Total 41

35

Dimensão da segunda amostra 113 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

11 2 1541 1434 1425

12 1 1413 1323 1315

13 2 1304 1229 1221

14 2 1211 1147 1140

15 5 1130 1075 1069

16 5 1059 1012 1006

17 7 997 955 950

18 4 942 905 900

20 4 848 819 814

21 5 807 781 777

22 1 770 747 743

23 1 737 716 713

24 1 706 688 684

25 1 678 661 658

Total 41

Dimensão da segunda amostra 150 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

14 1 1607 1519 1510

15 1 1500 1424 1416

19 2 1184 1139 1133

20 4 1125 1085 1079

21 7 1071 1035 1030

22 5 1023 990 985

23 2 978 949 944

24 4 938 911 906

25 4 900 876 871

26 3 865 843 839

27 3 833 813 809

28 1 804 785 781

29 3 776 759 755

31 1 726 712 708

Total 41

36

012345678

1950 1463 1170 975 836 731 650 585 532 488

1962 1471 1177 981 840 735 653 588 534 490

2850 1900 1425 1140 950 814 713 633 570 518

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 225 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

25 1 1350 1312 1304

26 2 1298 1263 1256

27 1 1250 1218 1211

28 1 1205 1176 1169

29 3 1164 1137 1130

30 3 1125 1100 1094

31 2 1089 1065 1059

32 2 1055 1033 1027

33 1 1023 1003 997

34 3 993 974 969

35 1 964 947 942

36 6 938 921 916

37 5 912 897 892

38 5 888 874 869

40 3 844 831 827

41 2 823 812 807

Total 41

Gráficos do 3º Caso: Dimensão da primeira amostra 150 indivíduos

Dimensão da segunda amostra 38 indivíduos

37

0

2

4

6

8

10

1629 1425 1267 1140 1036 950 877 814 671 633

1638 1434 1274 1147 1042 955 882 819 674 637

1875 1607 1406 1250 1125 1023 938 865 703 662

Fre

qu

ênci

a

N

N

N

ˆ

~

*

012345678

1425 1315 1221 1140 1069 1006 950 900 814 777 743 713 684 658

1434 1323 1229 1147 1075 1012 955 905 819 781 747 716 688 661

1541 1413 1304 1211 1130 1059 997 942 848 807 770 737 706 678

Fre

qu

ênci

a

N

N

N

ˆ

~

*

012345678

1510 1416 1133 1079 1030 985 944 906 871 839 809 781 755 708

1519 1424 1139 1085 1035 990 949 911 876 843 813 785 759 712

1607 1500 1184 1125 1071 1023 978 938 900 865 833 804 776 726

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 75 indivíduos

Dimensão da segunda amostra 113 indivíduos

Dimensão da segunda amostra 150 indivíduos

38

0

1

2

34

5

6

7

1304 1256 1211 1169 1130 1094 1059 1027 997 969 942 916 892 869 827 807

1312 1263 1218 1176 1137 1100 1065 1033 1003 974 947 921 897 874 831 812

1350 1298 1250 1205 1164 1125 1089 1055 1023 993 964 938 912 888 844 823

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 225 indivíduos

4º Caso: Dimensão da primeira amostra 200 indivíduos

Dimensão da segunda amostra 50 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

5 1 2000 1708 1700

6 5 1667 1463 1457

7 4 1429 1280 1275

8 5 1250 1138 1133

9 5 1111 1024 1020

10 6 1000 931 927

11 3 909 853 850

12 5 833 788 785

13 3 769 731 729

14 1 714 682 680

15 3 667 640 638

Total 41

39

Dimensão da segunda amostra 100 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

11 1 1818 1691 1683

12 1 1667 1561 1554

13 1 1538 1449 1443

14 1 1429 1352 1347

15 1 1333 1268 1263

16 2 1250 1193 1188

17 2 1176 1127 1122

18 7 1111 1067 1063

19 7 1053 1014 1010

20 7 1000 966 962

21 2 952 922 918

22 5 909 882 878

23 1 870 845 842

24 1 833 811 808

26 1 769 751 748

27 1 741 724 721

Total 41

Dimensão da segunda amostra 150 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

23 2 1304 1264 1258

24 2 1250 1213 1208

25 1 1200 1166 1162

27 7 1111 1083 1079

28 5 1071 1046 1041

29 1 1034 1011 1007

30 6 1000 978 974

31 2 968 947 944

32 2 938 919 915

33 4 909 892 888

34 1 882 866 863

35 5 857 842 839

36 1 833 819 816

38 1 789 777 774

40 1 750 739 737

Total 41

40

Dimensão da segunda amostra 200 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

29 1 1379 1346 1340

33 2 1212 1187 1182

34 1 1176 1153 1149

37 3 1081 1062 1058

38 3 1053 1035 1031

39 6 1026 1009 1005

40 7 1000 984 980

41 6 976 961 957

42 2 952 939 935

44 5 909 897 893

46 2 870 859 855

48 1 833 824 820

49 1 816 807 804

50 1 800 791 788

Total 41

Dimensão da segunda amostra 300 indivíduos

Estimativas

Valor de m Frequência Petersen Chapman Bailey

51 1 1176 1162 1158

52 4 1154 1141 1136

53 3 1132 1119 1115

54 2 1111 1099 1095

55 1 1091 1079 1075

56 3 1071 1060 1056

57 4 1053 1042 1038

58 2 1034 1024 1020

59 3 1017 1007 1003

60 3 1000 991 987

61 2 984 975 971

62 1 968 959 956

63 4 952 944 941

64 2 938 930 926

66 1 909 902 899

68 2 882 876 872

69 1 870 863 860

70 1 857 851 848

74 1 811 806 803

Total 41

41

01234567

1700 1457 1275 1133 1020 927 850 785 729 680 638

1708 1463 1280 1138 1024 931 853 788 731 682 640

2000 1667 1429 1250 1111 1000 909 833 769 714 667

Fre

qu

ênci

a

N

N

N

ˆ

~

*

0

1

2

3

4

5

6

7

8

1683 1554 1443 1347 1263 1188 1122 1063 1010 962 918 878 842 808 748 721

1691 1561 1449 1352 1268 1193 1127 1067 1014 966 922 882 845 811 751 724

1818 1667 1538 1429 1333 1250 1176 1111 1053 1000 952 909 870 833 769 741

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Gráficos do 4º Caso: Dimensão da primeira amostra 200 indivíduos

Dimensão da segunda amostra 50 indivíduos

Dimensão da segunda amostra 100 indivíduos

42

012345678

1340 1182 1149 1058 1031 1005 980 957 935 893 855 820 804 788

1346 1187 1153 1062 1035 1009 984 961 939 897 859 824 807 791

1379 1212 1176 1081 1053 1026 1000 976 952 909 870 833 816 800

Fre

qu

ênci

a

N

N

N

ˆ

~

*

012345678

1258 1208 1162 1079 1041 1007 974 944 915 888 863 839 816 774 737

1264 1213 1166 1083 1046 1011 978 947 919 892 866 842 819 777 739

1304 1250 1200 1111 1071 1034 1000 968 938 909 882 857 833 789 750

Fre

qu

ênci

a

N

N

N

ˆ

~

*

0

1

2

3

4

5

1158 1136 1115 1095 1075 1056 1038 1020 1003 987 971 956 941 926 899 872 860 848 803

1162 1141 1119 1099 1079 1060 1042 1024 1007 991 975 959 944 930 902 876 863 851 806

1176 1154 1132 1111 1091 1071 1053 1034 1017 1000 984 968 952 938 909 882 870 857 811

Fre

qu

ênci

a

N

N

N

ˆ

~

*

Dimensão da segunda amostra 150 indivíduos

Dimensão da segunda amostra 200 indivíduos

Dimensão da segunda amostra 300 indivíduos

43

De forma a se poder proceder a um estudo conclusivo consideram-se, para cada

um dos casos, os resultados da estimativa da dimensão da população obtidos através da

mediana das quarenta e uma simulações. Verifica-se, depois de uma análise mais

detalhada das tabelas e dos histogramas, que nem sempre esse valor correspondeu ao

valor mais frequente. Na seguinte tabela encontram-se os valores obtidos para todas as

variações realizadas à dimensão de cada uma das amostras:

44

Dimensão das amostras e número de indivíduos

marcados

Estimativa de

Petersen N

Estimativa de

Chapman N~

Estimativa de

Bailey *N

2001 =n 3002 =n 59=m 1017 1007 1003

2001 =n 2002 =n 40=m 1000 984 980

2001 =n 1502 =n 30=m 1000 978 974

2001 =n 1002 =n 19=m 1053 1014 1010

2001 =n 502 =n 10=m 1000 931 927

1501 =n 2252 =n 36=m 938 921 916

1501 =n 1502 =n 23=m 978 949 944

1501 =n 1132 =n 17=m 997 955 950

1501 =n 752 =n 10=m 1125 1042 1036

1501 =n 382 =n 6=m 950 840 836

1201 =n 1802 =n 22=m 982 951 944

1201 =n 1202 =n 15=m 960 914 908

1201 =n 902 =n 11=m 982 917 910

1201 =n 602 =n 7=m 1029 922 915

1201 =n 302 =n 3=m 1200 937 930

1001 =n 1502 =n 16=m 938 896 888

1001 =n 1002 =n 10=m 1000 926 918

1001 =n 752 =n 7=m 1071 959 950

1001 =n 502 =n 5=m 1000 858 850

1001 =n 252 =n 2=m 1250 874 867

Tabela 2-2- Estimativas da dimensão da população segundo Petersen, Chapman e Bailey6 (Estes resultados foram obtidos com a mediana das estimativas das quarenta e uma simulações)

6 No caso da estimativa da dimensão da população, N, calculada não resultar um número inteiro o valor sofre um arredondamento ao número inteiro mais próximo.

45

Analisando individualmente os resultados de cada uma das estimativas para cada

simulação efectuada e atendendo a que se tem 1000=N , verifica-se que:

- o estimador de Petersen com menor erro da dimensão da população obteve-se

em cinco simulações, quando a dimensão da primeira amostra foi de 200 indivíduos e a

segunda amostra igual valor, 75% e 25% da dimensão da primeira; quando a dimensão

da primeira amostra foi de 100 indivíduos e a segunda amostra de igual valor e metade

da dimensão da primeira;

- o estimador com menor erro proposto por Chapman e por Bailey para a

dimensão da população obteve-se na simulação em que a dimensão da primeira amostra

foi de 200 indivíduos e a segunda amostra com dimensão de 300 indivíduos.

Quando analisados todos os resultados das estimativas da dimensão da

população verifica-se que, para estas simulações, na maioria dos casos, as estimativas

de Petersen foram as que obtiveram as melhores aproximações da dimensão da

população, principalmente nos casos em que a dimensão da segunda amostra foi maior,

igual ou 75% da dimensão primeira. Os melhores resultados das estimativas de

Chapman, ocorreram apenas em três simulações efectuadas, no caso em que a dimensão

da primeira amostra foi de 120 indivíduos e a dimensão da segunda 25% desse valor e

no caso em que a dimensão da primeira amostra foi de 100 indivíduos (dimensão mais

pequena que foi considerada nestas simulações) e a segunda amostra de 75% e 25%

desse valor. Nas estimativas obtidas através da proposta de Bailey as que obtiveram os

melhores resultados ocorreram quando, a primeira amostra teve de dimensão 200

indivíduos e a segunda 150% e 50% da primeira e no caso em que a dimensão da

primeira amostra foi de 150 indivíduos e a segunda amostra metade desse valor.

Pode concluir-se também que, como já tinha sido referido em 2.3.3, não existem

diferenças significativas entre a estimativa da dimensão da população proposta por

Chapman e a estimativa proposta por Bailey.

As estimativas da dimensão da população com maior erro ocorreram, na maioria

dos casos, quando a dimensão da primeira amostra foi baixa e, principalmente, quando

o mesmo acontecia com a segunda amostra.7

Analisando os gráficos propostos por Robson e Regier, como referenciado em

2.4, para a simulação realizada nos exemplos aqui considerados em que se utilizou uma 7 Para alguns destes casos, como se pode verificar nas tabelas onde constam os resultados de todas as simulações, quando a segunda amostra tinha 25% da dimensão da primeira sendo esta de dimensão pequena, verificou-se noutras simulações realizadas que o número de marcados era nulo.

46

população de números inteiros de 1 a 1000, para um resultado em que fosse necessário

alguma precisão na estimativa desejada, A = 0,258, a primeira amostra deveria ter 200

números a segunda amostra também de 200 números; se para o estudo em causa

satisfizesse uma ideia aproximada da dimensão da população, A = 0,509, bastaria que a

primeira amostra tivesse 100 números e a segunda aproximadamente 120 números. As

dimensões propostas por Robson e Regier para as duas amostras não divergem dos

resultados aqui obtidos, já que, entre as melhores aproximações obtidas neste exemplo

se encontram estas propostas.

Exemplo 2-3:

Num segundo estudo mais pormenorizado, procedeu-se ao cálculo dos erros

padrão das várias estimativas e respectivos intervalos de confiança das simulações

apresentadas na Tabela 2-2, sendo que, os piores resultados não foram apresentados

nesta tabela.

Com a utilização do mesmo algoritmo gerador de amostras aleatórias simulou-se

uma população de 1000 indivíduos. As duas amostras aleatórias consideradas são as

mesmas do exemplo anterior em que se fez variar as suas dimensões e se representa por

m o número de indivíduos que constam nas duas amostras. Determinaram-se os erros

padrão das várias estimativas e respectivos intervalos de confiança para os melhores

resultados da mediana das quarenta e uma simulações efectuadas nas diferentes

dimensões consideradas e apresentadas na Tabela 2-2. Os resultados obtidos encontram-

se na tabela seguinte:

8 Ver figura 3.5 do anexo 5. 9 Ver figura 3.4 do anexo 4.

47

Tabela 2-3 - Estimativas do total da população, erro padrão e intervalo de confiança respectivo

(Estes resultados foram obtidos com a mediana das estimativas das quarenta e uma simulações)

Petersen Chapman Bailey Dimensão das

amostras e número de indivíduos marcados N ( )Nse ˆ

CV%

I. C. a 95% Amp.I. C. N

~ ( )Nse

~

CV%

I. C. a 95% Amp.I. C.

*N ( )*Nse

CV %

I. C. a 95% Amp .I. C.

2001 =n 3002 =n

59=m 1017 100 10 [ 822, 1212 ] 390 1007 97 10 [ 818, 1197 ] 379 1003 115 11 [ 778, 1229 ] 451

2001 =n 2002 =n

40=m 1000 126 13 [ 752, 1248 ] 496 984 121 12 [ 747, 1222 ] 475 980 135 14 [ 716, 1245 ] 529

2001 =n 1502 =n

30=m 1000 151 15 [ 705, 1295 ] 590 978 142 15 [ 700, 1256 ] 556 974 154 16 [ 673, 1275 ] 602

2001 =n 502 =n

10=m 1000 276 28 [ 460, 1540 ] 1080 931 232 25 [ 477, 1385 ] 908 927 237 26 [ 463, 1392 ] 929

1501 =n 1502 =n

23=m 978 173 18 [ 640, 1317 ] 677 949 160 17 [ 636, 1262 ] 626 944 173 18 [ 604, 1283 ] 679

1501 =n 1132 =n

17=m 997 210 21 [ 586, 1408 ] 822 955 189 20 [ 585, 1326 ] 741 950 200 21 [ 558, 1342 ] 784

1201 =n 1802 =n

22=m 982 177 18 [ 634, 1329 ] 695 951 163 17 [ 631, 1272 ] 641 944 180 19 [ 591, 1297 ] 706

1201 =n 902 =n

11=m 982 264 27 [ 464, 1500 ] 1036 917 225 25 [ 475, 1358 ] 883 910 235 26 [ 449, 1371 ] 922

1201 =n 602 =n

7=m 1029 355 34 [ 334, 1724 ] 1390 922 277 30 [ 379, 1465 ] 1086 915 284 31 [ 358, 1472 ] 1114

1001 =n 1002 =n

10=m 1000 285 29 [ 442, 1558 ] 1116 926 239 26 [ 459, 1394 ] 935 918 250 27 [ 428, 1409 ] 981

1001 =n 502 =n

5=m 1000 414 41 [ 189, 1811 ] 1622 858 296 34 [ 278, 1437 ] 1159 850 302 36 [ 259, 1441 ] 1182

48

Sabendo que as simulações resultam de um algoritmo gerador de amostras

aleatórias de dados entre 1 e 1000, ao analisar as estimativas da dimensão da população

apresentadas nesta tabela verifica-se, como visto anteriormente, que as melhores

aproximações para o estimador de Petersen ocorrem quando a dimensão da primeira

amostra foi de 200 indivíduos e a segunda amostra tem igual valor, 75% e 25% da

dimensão da primeira e quando a dimensão da primeira amostra foi de 100 indivíduos e

a segunda amostra de igual valor e metade da dimensão da primeira; no estimador

proposto por Chapman e por Bailey isso ocorreu quando a dimensão da primeira

amostra foi de 200 indivíduos e a segunda amostra de 300 indivíduos. No entanto, não é

com estas dimensões de amostras que se obtém o menor erro padrão nem o intervalo de

confiança com menor amplitude, já que o menor erro padrão é obtido quando a primeira

amostra tem a maior dimensão considerada nas simulações efectuadas, 200 indivíduos,

e a segunda amostra é superior, de igual valor e de 75% da dimensão da primeira.

Relativamente aos intervalos de confiança, observa-se que os de menor

amplitude ocorrem quando a primeira amostra tem dimensão de 200 indivíduos e a

segunda de 300 indivíduos, sendo também nesse caso que se obtêm os menores erros

padrão.

Uma das conclusões que se pode apurar pela análise dos resultados desta tabela é

que quanto maior é a dimensão da segunda amostra, melhores são os resultados,

nomeadamente quando a segunda amostra tem 150%, ou 100% da dimensão da

primeira.

Analisando a qualidade das estimativas através do coeficiente de variação e

tendo em conta a Tabela 2-1 pode-se verificar que as estimativas determinadas no caso

da primeira amostra ter dimensão 200 indivíduos e a segunda amostra ter dimensão 300

ou 200 indivíduos têm qualidade boa e que, tal como visto anteriormente, à medida que

a dimensão da segunda amostra diminui relativamente à dimensão da primeira a

qualidade da estimativa vai piorando e tornando-se menos fiável10 (ver casos em que 2n

é 50% de 1n onde o CV nos indica a pouca fiabilidade da estimativa).

Nesta tabela não se incluíram todos os resultados da tabela do exemplo anterior,

principalmente nos casos em que a dimensão da segunda amostra foi de 50 ou 25% da

10 Não esquecendo que os resultados aqui apresentados se tratam da mediana das quarenta e uma estimativas obtidas para a dimensão da população, sendo que a variabilidade dos dados é bastante grande e por isso os resultados são efectivamente maus e essas estimativas pouco fiáveis.

49

dimensão da primeira (com excepção dos casos em que 1201 =n , 602 =n e 1001 =n ,

502 =n ), já que os resultados não foram muito bons pois a qualidade da estimativa

segundo o coeficiente de variação era pouco fiável ou sem fiabilidade, o que originava

piores resultados nos erros padrão e intervalos de confiança com elevada amplitude.

Analisando os resultados, em termos gerais, verifica-se que, apesar de não haver

diferenças muito significativas, os erros padrão das estimativas de Chapman são

inferiores aos erros padrão das estimativas de Petersen, sendo que os piores resultados

ocorrem quando obtidos através da proposta de Bailey. O mesmo se pode concluir

relativamente aos intervalos de confiança.

Exemplo 2-4:

Num terceiro estudo, e utilizando os resultados da mediana das quarenta e uma

simulações do exemplo 2-2, procedeu-se ao cálculo das estimativas, dos respectivos

erros padrão e intervalos de confiança fixando a dimensão da primeira amostra e

fazendo variar apenas a dimensão da segunda amostra.

Utilizando o mesmo algoritmo dos exemplos anteriores, fixando a dimensão da

primeira amostra em 2001 =n e fazendo variar a dimensão da segunda amostra em 150,

100, 75, 50 e 25% da dimensão da primeira, obtiveram-se os resultados seguintes:

50

Dimensão das amostras

2001 =n

3002 =n

2001 =n

2002 =n

2001 =n

1502 =n

2001 =n

1002 =n

2001 =n

502 =n

Indivíduos marcados

59=m 40=m 30=m 19=m 10=m

Estimativa de Petersen

1017 1000 1000 1053 1000

Erro padrão estimado

100 126 151 207 276

Coef. de Var. % 10 13 15 20 28

Intervalo de confiança a 95%

[ 822, 1212 ] [ 752, 1248 ] [ 705, 1295 ] [ 647, 1458 ] [ 460, 1540 ]

Amplitude 390 496 590 811 1080

Estimativa de Chapman

1007 984 978 1014 931

Erro padrão estimado

97 121 142 188 232

Coef. de Var. % 10 12 15 19 25

Intervalo de confiança a 95%

[ 818, 1197 ] [ 747, 1222 ] [ 700, 1256 ] [ 645, 1383 ] [ 477, 1385 ]

Amplitude 379 475 556 738 908

Estimativa de Bailey

1003 980 974 1010 927

Erro padrão estimado

115 135 154 197 237

Coef. de Var. % 11 14 16 20 26

Intervalo de confiança a 95%

[ 778, 1229 ] [ 716, 1245 ] [ 673, 1275 ] [ 623, 1397 ] [ 463, 1392 ]

Amplitude 451 529 602 774 929

Tabela 2-4- Estimativas da população, erro padrão e intervalo de confiança respectivo quando se fixa a dimensão da primeira amostra e se faz variar a dimensão da segunda amostra.

(Estes resultados foram obtidos com a mediana das estimativas das quarenta e uma simulações)

Fazendo variar apenas a dimensão da segunda amostra, verifica-se que a melhor

estimativa da dimensão da população de Petersen ocorre quando a mesma é composta

por 200, 150 e 50 indivíduos, enquanto que as melhores estimativas de Chapman e de

Bailey são obtidas quando a dimensão da segunda amostra é de 300 indivíduos.

51

Quando se comparam todos os resultados obtidos nas amostras consideradas a

estimativa que melhor se aproxima dos 1000 indivíduos é a de Petersen11 e ocorre

quando a segunda amostra é composta por 200, 150 e 50 indivíduos.

Ao analisar todos os resultados do erro padrão observa-se que, para todas as

simulações efectuadas e para as três estimativas propostas, à medida que a dimensão da

segunda amostra aumenta a estimativa do erro padrão diminui, sendo que o menor valor

ocorre quando a dimensão da segunda amostra é de 300 indivíduos e o maior valor

ocorre quando a dimensão da segunda amostra é apenas um quarto da primeira.

Relativamente aos intervalos de confiança obtidos, verifica-se que, tal como

sucede no erro padrão, estes têm menor amplitude quando a dimensão da segunda

amostra é superior, igual ou 75% da dimensão da primeira.

Ao calcular estes intervalos de confiança em pequenas amostras a cobertura do

intervalo é baixa porque a distribuição das três estimativas propostas é bastante

enviesada.

Alguns autores apresentam, entre outras sugestões, o uso da distribuição t de

Student ou o uso de transformações nos parâmetros a estimar (por exemplo,

transformações logarítmicas).

2.6 Tabelas de contingência na obtenção de

intervalos de confiança para a abundância de

uma população

Outra abordagem para a estimação da abundância de uma dada população

usando o método de captura e recaptura, é estudada por Fienberg (1972). Esta nova

abordagem passa por recorrer à utilização de tabelas de contingência incompletas de

margens fixas para o tratamento dos dados e, será útil para a construção de intervalos de

confiança, já que, considerando que os estimadores têm distribuição aproximadamente

Normal nem sempre os intervalos de confiança obtidos têm boa precisão,

nomeadamente, nos casos de populações ou amostras de pequenas dimensões. Cormack

(1992) propõe o uso do teste de independência do qui-quadrado de Pearson, quando se

11 De notar que os resultados das estimativas da dimensão da população foram, sempre que não resultavam de um número inteiro, aproximados ao número inteiro mais próximo.

52

utilizam tabelas de contingência, para construir um intervalo de confiança para N, pois

estes intervalos têm melhor cobertura do que aqueles determinados sabendo que o

estimador segue uma distribuição aproximadamente Normal.

No método de captura e recaptura simples, em que se recolhem duas amostras,

para estimar a dimensão N de uma população fechada, podemos dispor a informação

numa tabela de contingência 22 × onde os indivíduos da população se encontram

classificados segundo o critério de pertencer ou não a cada uma das amostras.

Assim sendo, e sabendo que 1n representa a dimensão da primeira amostra, 2n a

dimensão da segunda amostra e m o número de indivíduos marcados na segunda

amostra, obtém-se a seguinte tabela de contingência incompleta:

Indivíduos

na 2ª amostra

Sim Não

Sim )(11 mx = 12x )( 11 nx =+ Indivíduos na

1ª amostra Não 21x *

22x *2+x

)( 21 nx =+

*2+x

)(* Nx =++

em que ijx representa o valor observado na célula ),( ji da tabela de contingência e *22x

representa o número de indivíduos da população que não foram observados.

A correspondente tabela de valores esperados ( )ijij xEm = é dada por:

53

Indivíduos

Na 2ª amostra

Sim Não

Sim 11m 12m +1m Indivíduos na

1ª amostra Não 21m *

22m *2+m

1+m *2+m Nm =++

*

em que +1m e 1+m representam o número de indivíduos que constam na primeira e na

segunda amostra respectivamente. Note-se que, sendo +1p a probabilidade dos

indivíduos pertencerem à primeira amostra, 1+p a probabilidade de pertencerem à

segunda e 11p a probabilidade de pertenceram a ambas as amostras, tem-se que

1111 ++= ppp visto as duas amostras serem independentes.

Atendendo a que a tabela de contingência é incompleta, e como se desconhece o

valor de *22x , as estimativas dos valores esperados são dadas por:

212112121111 ˆeˆ;ˆ xmxmxm === .

Se a probabilidade dos indivíduos pertencerem à primeira amostra é

independente da probabilidade de pertencerem à segunda amostra, então, a

probabilidade dos indivíduos figurarem na segunda amostra é igual quer sejam

marcados ou não marcados, obtendo-se que a proporção de indivíduos marcados na

segunda amostra será aproximadamente igual à proporção dos indivíduos marcados na

população total. A estimativa do número esperado de indivíduos da população que não

constam em nenhuma das duas amostras é retirada da relação existente entre estas

proporções, isto é, de 11 12

21 22

m m

m m= .

Ou seja, os indivíduos não marcados na segunda amostra estão em proporção

com os indivíduos não marcados do total da população.

Sendo assim, sob a hipótese de independência, a estimativa do número esperado

de indivíduos que não aparecem em nenhuma das amostras é:

54

12 21 12 2122

11 11

ˆ ˆˆ

ˆm m x x

mm x

= =

Podemos estimar a dimensão da população através da estimativa da frequência

esperada do valor em falta na tabela. Como 22211211 mmmmN +++= , tem-se

1 111 12 21 22

11

ˆ ˆ ˆ ˆ ˆx x

N m m m mx

+ += + + + =

e obtém-se uma estimativa da dimensão da população que não é mais do que o

estimador de Petersen (subsecção 2.3.1), dado que estimar o valor em falta 22x , não é

mais do que estimar o valor da dimensão da população N.

Ao estimar a dimensão total da população parte-se do pressuposto que as duas

amostras são independentes. No entanto, nas tabelas de contingência incompletas existe

o problema de não se poder testar tal pressuposto, já que existe um valor em falta nas

quatro células presentes na tabela. Para tal, atribui-se um determinado valor a 22x* ,

obtendo-se o respectivo valor esperado 22m e, desta forma, pode proceder-se a um teste

de independência. Pretende-se assim testar se as duas amostras são independentes

versus as duas amostras não são independentes, isto é:

jiij pppH •• ×=:0 , 2,1;2,1 == ji vs jiij pppjiH •• ×≠==∃ :2,1,2,1:1 .

Um dos testes de independência a que se pode recorrer é o teste do qui-quadrado

de Pearson cuja estatística de teste compara as frequências observadas com as

frequências esperadas e que se expressa por:

( )∑∑

= =

−=

2

1

2

1

2

2

i j ij

ijij

m

mxX .

Sob a hipótese de independência, tem-se jiij ppNm ++ ××= e a estatística de

teste tem distribuição assintótica de um 2χ com um grau de liberdade pois só uma das

células é independente.

Outro teste de independência que pode utilizar-se é o teste de razão de

verosimilhanças cuja estatística de teste compara a probabilidade de obter uma tabela

com os valores observados com a probabilidade de obter uma nova tabela em que em

cada célula figurem os valores esperados, verificando a hipótese de independência, com

a seguinte expressão:

55

∑∑= =

−=2

11

2

1

2 log2j ij

ij

ijx

mxY .

A distribuição assintótica desta estatística é também um 2χ com um grau de

liberdade quando a hipótese nula de independência se verifica, já que as duas estatísticas

de teste são assintóticamente equivalentes.

Para qualquer um destes testes de independência, rejeita-se a hipótese nula de

independência das duas amostras quando a estatística assume valores elevados

relativamente aos valores da distribuição qui-quadrado com um grau de liberdade.

Para a construção dos intervalos de confiança, considerou-se o facto, tal como

demonstrado por Chapman, da distribuição dos estimadores da dimensão da população

propostos por Petersen, N , por Chapman, N~

e por Bailey, *N , ser assintoticamente

Normal, quando ∞→N . Sendo os respectivos intervalos de )%1(100 α− de confiança

dados por:

)ˆr(avˆ21

NzN α−± ou )

~r(av

~21

NzN α−± ou )r(av *

21

* NzN α−± .

No entanto, ao obter este tipo de intervalos de confiança, estes podem ter fraca

cobertura, já que, no caso da dimensão das amostras ser pequena, o valor da estimativa é

geralmente enviesada, provocando alguma imprecisão nos resultados. Além disso,

nestas situações, os intervalos de confiança podem conter valores não admissíveis para

N pois o limite inferior de confiança é, muitas vezes, inferior ao número total dos

diferentes indivíduos observados nas duas amostras, isto é, inferior a mnn −+ 21 . Por

estes motivos, estes podem não ser os melhores intervalos de confiança a ter em

consideração e outras alternativas foram desenvolvidas.

Cormack (1992) sugere, para a estimativa da dimensão da população de

Petersen, o uso do teste do qui-quadrado para testar a independência entre as amostras e

construir um novo intervalo de confiança. Ele propõe que seja dado um valor, u, à

observação em falta, 22x* , e que se teste a independência entre as amostras usando o

teste do qui-quadrado de Pearson.

Ao atribuir um valor a 22x* , obtém-se o respectivo valor esperado 22m . Se ao

efectuar o teste do qui-quadrado de Pearson a um nível de significância de 5%, não se

rejeitar a hipótese nula da independência entre as amostras, conclui-se que esse valor

atribuído a 22x se encontra dentro do intervalo de confiança de 95% para 22x . Logo, o

56

valor correspondente da dimensão da população, pertence ao intervalo de confiança de

95% para N.

Ao atribuir diferentes valores a u, para alguns deles a hipótese de independência

das amostras não será rejeitada a um nível de significância de 5%. O conjunto desses

valores constitui um intervalo de confiança de 95% para 22x .

O intervalo de possíveis valores de u, isto é, os valores de u para os quais o teste

de independência não rejeita a hipótese nula, pode ser obtido algebricamente; os limites

desse intervalo devem satisfazer a equação

( ) ( ) ( )( )( )( )uxuxxxxxkuxxxxxux ++++=+++− 1221121121111221112

211211 α

em que αk representa o quantil de probabilidade α−1 da distribuição de qui-quadrado

com um grau de liberdade.

Posto isto, o intervalo de confiança a 95% para a dimensão da população, N,

obtém-se somando aos extremos do intervalo de confiança encontrado para 22x , a soma

dos valores observados das restantes células, ou seja 211211 xxx ++ .

Exemplo 2-5:

Aplicando o método da captura e recaptura para a estimação da dimensão da

população e utilizando os resultados dos exemplos anteriores, quando seleccionadas

duas amostras aleatórias independentes com dimensões 2001 =n e 2002 =n ,

respectivamente, em que o número de indivíduos marcados se verificou ser de 40=m ,

e considerando *22x o número de indivíduos da população que não foram observados,

pode construir-se a seguinte tabela de contingência incompleta:

57

Indivíduos que constam

na 2ª amostra

Sim Não

Sim 40 160 200 Indivíduos que

constam na

1ª amostra Não 160 ∗22x ∗

+2x

200 ∗+2x Nx =∗

++

De forma a determinar-se um intervalo de confiança para 22x vão-se atribuindo

diferentes valores aos indivíduos não observados ∗22x e realizando, para cada um deles,

o teste de independência do qui-quadrado. Como se trata duma distribuição de 2χ com

um grau de liberdade o valor, para 5%, com o qual se compara a estatística de teste será

de 3,841. Por exemplo,

- no caso de ∗22x = 939 obtém-se o valor de teste de 846,32 =X . Como é

superior a 3,841 rejeita-se a hipótese de independência, ou seja, 939 não será

considerado para o intervalo de confiança;

- se =∗22x 938 tem-se que ,32 =X 824 < 3,841. Logo, não se rejeita a hipótese

de independência e este valor irá pertencer ao intervalo de confiança;

- no caso ∗22x = 433 tem-se que 865,32 =X > 3,841. Logo, rejeita-se a hipótese

de independência;

- se =∗22x 434 tem-se 820,32 =X < 3,841 e não se rejeita a hipótese de

independência, sendo que este valor pertence ao intervalo de confiança.

Deste modo, encontra-se o intervalo de confiança a 95% para o valor de 22x que

é dado por [ ]938,434 e que satisfaz a equação referida anteriormente.

De forma a obter o intervalo de confiança correspondente para a dimensão da

população, basta acrescentar aos extremos do intervalo encontrado para o valor de 22x a

soma dos valores observados das outras células, ou seja, 360211211 =++ xxx ,

resultando o intervalo de confiança a 95% da dimensão da população [ ]1298,794 .

58

Para a mesma tabela de contingência, mas agora utilizando o teste de razão de

verosimilhanças que compara a estatística de teste com o valor 3,841 da distribuição de

2χ com um grau de liberdade para 5%.

- para ∗22x = 436 tem-se que 860,32 =Y > 3,841 rejeitando-se a hipótese de

independência;

- se 43722 =∗x tem-se 814,32 =Y < 3,841 e não se rejeita a hipótese de

independência, sendo que este valor pertence ao intervalo de confiança.

- para ∗22x = 950 tem-se que 843,32 =Y > 3,841 rejeitando-se a hipótese de

independência;

- se 94922 =∗x tem-se 823,32 =Y < 3,841 e não se rejeita a hipótese de

independência, sendo que este valor pertence ao intervalo de confiança.

Desta forma o intervalo de confiança obtido para o valor de 22x , com a

utilização do teste de razão de verosimilhanças é [ ]949,437 , e acrescentando aos seus

extremos a soma dos valores das restantes células, que se verificou ser de 360, resulta o

intervalo de confiança a 95% para a dimensão da população [ ]1309,797 .

Pelos resultados obtidos neste exemplo, relativamente ao intervalo de confiança

a 95% para a dimensão da população, verifica-se que o intervalo de confiança com

maior amplitude é o resultante do teste de razão de verosimilhanças, que é ligeiramente

mais enviesado para a direita e tem 512 de amplitude, enquanto que o intervalo obtido

pelo teste do qui-quadrado tem 504 de amplitude. No entanto, não existem diferenças

muito significativas entre estes dois intervalos.

Exemplo 2-6:

A tabela seguinte apresenta os intervalos de confiança calculados até ao

momento em função dos estimadores de Petersen, de Chapman e de Bailey,

determinados para o exemplo em que se considerou para as duas amostras aleatórias

dimensão igual a 200 indivíduos, e o número de indivíduos marcados se verificou ser de

40 indivíduos.

59

2001 =n

2002 =n Petersen Chapman Bailey Tabelas de contingência

Estimativas 1000 984 980 1000 1000

Normal Normal Normal Teste do qui-quadrado

Teste de razão de veros. Intervalos de

confiança a 95% [ 752, 1248 ] [ 747, 1222 ] [ 716, 1245 ] [ 794, 1298 ] [ 797, 1309 ]

Amplitude do intervalo

496 475 529 504 512

Tabela 2-5- Intervalos de confiança a 95% calculados com a estimativa de Petersen, de Chapman e de Bailey pela distribuição Normal, pelo teste do qui-quadrado e pela razão de verosimilhanças.

Quando comparados com os restantes intervalos, os intervalos de confiança

obtidos pelo teste do qui-quadrado e pelo teste de razão de verosimilhanças, não diferem

muito dos determinados pela distribuição Normal; aliás, não existem diferenças muito

significativas entre todos os intervalos aqui apresentados. Verifica-se que os intervalos

de confiança determinados pelo teste de qui-quadrado e pelo teste de razão de

verosimilhanças são ligeiramente mais enviesados à direita. De todos os intervalos, os

calculados pela proposta de Bailey para a estimativa da dimensão da população têm

maior amplitude.

Chapman considera que os intervalos de confiança obtidos através do teste de

qui-quadrado e do teste de razão de verosimilhanças, aplicado às tabelas de

contingência usando o método de captura e recaptura, são apropriados em situações que

não se consegue fixar à partida a dimensão das amostras a recolher ou quando não se

segue à risca essa escolha prévia.

Outra alternativa aos intervalos de confiança mencionados ao longo deste

capítulo é a construção de um intervalos de confiança utilizando o método bootstrap

para a estimativa da dimensão da população como se refere na subsecção 2.7.3.

Da mesma forma que se utilizam tabelas de contingência incompletas 22 ×

quando se recolhem duas amostras também para o método de captura e recaptura

múltipla, inicialmente discutido por Schnabel (1938) (referido na secção 3.2), é possível

a utilização de tabelas de contingência incompletas, nesses casos, é necessário recorrer a

modelos loglineares que avaliam se existe independência entre as amostras. Apesar de

60

não ser possível testar se a célula com o valor em falta segue o modelo em estudo, pode

obter-se uma estimativa da dimensão população com o modelo ajustado assim como o

intervalo de confiança respectivo. Fienberg (1972) e Cormack (1992) efectuaram

estudos nesse campo onde utilizam modelos e considerações propostas por autores

como Darroch (1958), Mantel (1951), Li e Mantel (1968), Deming e Keyfitz (1967),

Bishop e outros (1975), Otis e outros (1978), Edwards (1972), Harding (1986) e Aitkin

e outros (1989).

Uma aplicação desse método foi posta em prática por Domingo-Salvany e outros

(1995)12 num estudo em que se desejava fazer um levantamento dos viciados em

heroína na cidade de Barcelona no ano de 1989. Para tal, foi considerada a informação

fornecida por três listas: uma lista onde constavam os viciados em heroína que se

encontravam nas salas de emergência dos hospitais (lista E); uma lista onde constavam

os indivíduos que se encontravam a fazer tratamento no decorrer desse ano (lista T); e

uma lista onde constavam os indivíduos que tinham falecido por overdose de heroína no

decorrer desse ano (lista D).

Deste modo e depois de recolhidos os dados, estes foram organizados segundo a

tabela de contingência 32 incompleta seguinte:

Indivíduos que constam

na lista D

Sim Não

Constam na lista T Constam na lista T

Sim Não Sim Não

Sim 6 27 314 1728 Indivíduos que

constam na

Lista E Não 8 69 712 ∗22x

Neste tipo de estudos nem sempre é possível que os pressupostos necessários

para aplicar o método de captura e recaptura sejam satisfeitos, pois a condição de ter

amostras independentes pode não ser assegurada, visto que, neste caso em particular, os

indivíduos para os quais o tratamento teve resultados benéficos têm menor

12 Exemplo mencionado por Sharon L Lohr (1999)

61

probabilidade de se encontrarem nas listas E e D. Por outro lado, esta população não se

considera fechada, pois uma das listas é constituída por indivíduos que já faleceram.

Ainda assim, este tipo de análise indica-nos um possível valor para os viciados em

heroína que de outro modo seria muito difícil de estimar. Como se trata de três listas

utilizam-se modelos loglineares que avaliam se existe independência entre elas. Os

autores chegaram a um modelo que lhes permitiu obter uma estimativa de viciados em

heroína na cidade de Barcelona que se verificou ser de 6831 indivíduos.

2.7 Método bootstrap na obtenção de estimativas da

abundância de uma população

2.7.1 Introdução Teórica

Para se estimar o número total de indivíduos de uma determinada população

pode utilizar-se o método de captura e recaptura que consiste em obter uma amostra

inicial de indivíduos, que serão marcados ou identificados e devolvidos à população, e

posteriormente, retirar-se uma segunda amostra, independente da primeira, na qual se

contabilizam os indivíduos marcados da primeira amostra. Procede-se da mesma forma

para o caso da possibilidade de recolher mais do que duas amostras em função do

estudo pretendido. Para a recolha destas amostras é preciso ter em consideração alguns

factores tais como: a população em estudo e o seu habitat, o tipo de marca a ser

utilizado, a dimensão de cada uma das amostras, entre outros.

Na recolha das amostras nem sempre se conseguem evitar alguns problemas ou

dificuldades que surgem no decorrer do estudo. Um dos métodos que se pode utilizar, e

que possibilita não ser necessário recolher muitas amostras, para o cálculo da estimativa

da dimensão de uma população é o método bootstrap, estudado por Efron (1979) que

foi o primeiro a desenvolver uma técnica de cálculo da estimativa bootstrap do erro

padrão de um estimador. Este método consiste em considerar a amostra como se fosse a

população e obter através dela uma estimativa do parâmetro de interesse. Esta técnica é

bastante flexível, pode ser aplicada a uma grande variedade de problemas e permite

fazer inferências sem necessitar das hipóteses distribucionais fortes que são necessárias

62

na teoria inferencial clássica. O método obtém estimativas de um parâmetro θ a partir

de uma amostra observada, que permanece fixa e sobre a qual se geram aleatoriamente

B amostras, calculando-se para cada uma delas o valor do estimador. Com esta

metodologia admite-se que a função de distribuição empírica é um bom estimador da

função de distribuição da população da qual a amostra que se considera foi obtida. O

método bootstrap é uma boa ferramenta para determinar variâncias e intervalos de

confiança mais robustos.

Uma das vantagens do método bootstrap é a facilidade de implementação do seu

algoritmo em computador, permitindo a determinação de réplicas e cálculos necessários

para a estimação quer do parâmetro, quer do erro padrão da estimativa, ainda que se

trate de estimadores de cálculo complexo e não se disponha de uma expressão para o

cálculo da respectiva variância.

A metodologia bootstrap pode ser aplicada quando se pretende estimar a

abundância de uma população fechada usando o método de captura e recaptura simples,

tendo Buckland (1984), assim como Efron (1979), efectuado vários estudos nesse

campo, mas também no método de captura e recaptura múltipla, como se faz referência

na secção 3.4. Com o uso da estimativa da dimensão da população proposta por Darroch

(1958) e Chapman (1952), referenciada na secção 3.2, equação 3-2, Buckland e

Garthwaite (1991) apresentam no seu artigo outra abordagem da metodologia bootstrap

para as múltiplas recapturas nomeadamente o método bootstrap paramétrico. Para além

disso, mencionam, tal como Efron (1993) no seu livro, uma metodologia similar à de

bootstrap, denominada por jackknife, proposta primeiramente por Maurice Quenouille

(1949). Este método, criado inicialmente para a estimação do viés de estimadores e do

erro padrão de um estimador, é uma técnica de reamostragem que tem a sua aplicação

na obtenção de intervalos de confiança mais robustos que os usuais. Esta metodologia

consiste em obter amostras a partir de uma amostra observada pela remoção consecutiva

de um elemento da amostra original. Uma das desvantagens do método jackknife é o

facto de o número de réplicas utilizadas ser fixo e não se ter uma ideia prévia sobre se

esse número de réplicas é suficiente para o estudo, assim como o facto de não existir

nenhuma forma de melhorar os intervalos de confiança, tornando-os mais robustos, tal

como existe para o método bootstrap o método dos percentis (estudado na subsecção

2.7.3). No método jackknife considera-se que o estimador segue uma distribuição

assintoticamente Normal, o que nem sempre se verifica. Uma vantagem do método

63

jackknife, relativamente ao método bootstrap, é no caso de ser necessário um número

reduzido de réplicas, por exemplo 100 ou 200, fazendo com que a implementação do

seu algoritmo no computador ser mais acessível.

Tal como Buckland e Garthwaite (1991) alguns autores consideram o método

jackknife como outro método de reamostragem que em determinadas situações é menos

eficiente e, por esse motivo, consideram ser muitas vezes preferível a utilização do

método bootstrap.

Suponhamos que, com base numa amostra aleatória de observações,

( )nxxx ...,,, 21=x , de uma distribuição de probabilidade F desconhecida, se pretende

estimar um parâmetro )(Ft=θ . O método bootstrap não é mais do que uma técnica de

reamostragem para estimar esse parâmetro )(Ft=θ utilizando a amostra de valores x ,

bem como o respectivo erro padrão.

O método bootstrap é uma aplicação do princípio “plug-in”, isto é, quando se

pretendem obter estimativas de vários parâmetros de uma determinada distribuição F,

com base numa amostra aleatória dessa distribuição, utiliza-se a função de distribuição

empírica, representada por F , que é uma estimativa simples da função de distribuição

de probabilidade F.

Considere-se uma amostra aleatória de tamanho n de uma função de distribuição

F desconhecida, ( )nxxx ...,,, 21=x .

A função de distribuição empírica F é uma função de distribuição discreta que

associa a cada um dos valores da amostra ix , o valor de probabilidade n

1, isto é,

( )n

xXP i

1== , para cada ni ...,,2,1= .

Assim, a função de distribuição empírica da amostra aleatória x define-se da

seguinte forma:

<≤−

<≤

<≤

<

=

)(

)()1(

)3()2(

)2()1(

)1(

se ,1

se ,11

se ,2

se ,1

se ,0

)(ˆ

n

nn

xx

xxxn

xxxn

xxxn

xx

xFM

64

onde )()2()1( ... nxxx ≤≤≤ são os valores ordenados por ordem crescente da amostra,

isto é, as estatísticas ordinais associadas à amostra x .

Antes de determinar as réplicas bootstrap da estimativa do(s) parâmetro(s), deve

considerar-se um algoritmo que, através de um conjunto aleatório de n números inteiros

niii ...,,, 21 , dos n primeiros números inteiros { }n...,,1 , cada um dos quais com

probabilidade de ocorrência de n

1, determina amostras aleatórias com reposição desse

conjunto de dados. Cada amostra bootstrap é constituída pelos elementos

correspondentes da amostra inicial ( )nxxx ...,,, 21=x , da forma

ninii xxxxxx === **2

*1 ...,,,

21.

Exemplo 2-7: 3...,,6,14,2 321 ==== niiii , obtendo-se para a amostra bootstrap

3*

6*314

*22

*1 ,...,,, xxxxxxxx n ==== .

Assim, ( )**2

*1 ...,,, nxxx consiste numa amostra aleatória com reposição de

elementos de ( )nxxx ...,,, 21 , podendo existir elementos que figurem uma ou mais vezes

e outros que não se encontrem aí representados. Uma amostra bootstrap é uma amostra

aleatória de tamanho n obtida de F , que representamos por ( )**2

*1

* ...,,, nxxx=x , isto é,

os valores *ix , ni ...,,1= são obtidos por selecção aleatória com reposição da amostra

aleatória x .

Quando se pretende estimar o parâmetro )(Ft=θ com base na amostra x ,

utilizando-se o estimador )( xs , calcula-se uma estimativa de θ , dada por )(ˆ xs=θ .

Considerando a amostra bootstrap *x , uma réplica bootstrap da estimativa θ resulta da

aplicação da função )( ⋅s à amostra *x , que se representa por )(ˆ ** xs=θ .

O algoritmo de bootstrap consiste em calcular, a partir de B amostras bootstrap,

B estimativas bootstrap do parâmetro θ , designadas por )(ˆ* bθ , Bb ...,,2,1= . O

estimador bootstrap de θ define-se como a média das B réplicas bootstrap de θ , isto é,

∑=

=B

b

bB 1

** )(ˆ1ˆ θθ .

65

Exemplo 2-8:

Seja )(xs a média do conjunto de dados ix , ni ...,,2,1= , isto é, xs =)(x .

Neste caso, *x representa a média dos B valores de x obtidos a partir das B amostras

bootstrap, que é dada por ∑=

=B

b

b

B

x

1

**

x .

2.7.2 Estimativa bootstrap do erro padrão de um estimador O método bootstrap tem especial importância na estimação do erro padrão de

um estimador, porque permite obter uma estimativa desse erro padrão mesmo quando

teoricamente não seja possível deduzir uma expressão para o seu cálculo.

Para se estimar o erro padrão de θ , ( )θFse , usa-se a função de distribuição

empírica F em vez da função de distribuição F desconhecida. Assim, a estimativa

(ideal) bootstrap do erro padrão de θ é definida por

( )*ˆ θ

Fse ,

em que *θ representa a estimativa bootstrap de θ , a qual é bem aproximada pelo erro

empírico das B réplicas bootstrap de θ que se denota por Bse∧

.

Algoritmo bootstrap para estimar o erro padrão de θ

1- Obter B amostras bootstrap independentes **2

*1 ...,,, Bxxx , cada uma delas

constituída por n dados obtidos, com reposição, da amostra inicial x .

2- Calcular as réplicas bootstrap de θ correspondentes a cada amostra bootstrap

( ) Bbsb b ....,,2,1)(ˆ* == *xθ .

3- Estimar o erro padrão ( )θFse através do erro padrão amostral das B réplicas

de θ

( )( ) 2

1

1

2**

1

ˆˆ

−= ∑

=

∧ B

b

B

B

bse

θθ

66

em que ( )

∑=

=B

b B

b

1

**

ˆˆ θ

θ .

Quanto maior for o número B de amostras bootstrap consideradas, melhor é a

estimativa do erro padrão do estimador, já que

( )*ˆˆ

ˆlim θFF

BB

sesese ==∧

∞→.

É possível utilizar a metodologia bootstrap para o método da captura e recaptura

com o estimador de Petersen.

Supondo que se pretende estimar a dimensão N de uma população, recolhe-se

uma primeira amostra aleatória de 1n indivíduos da população, que são devidamente

marcados para poderem ser identificados, e são novamente repostos na população; em

seguida, retira-se uma segunda amostra aleatória, de dimensão 2n , da população e

contabiliza-se o número m de indivíduos marcados nessa amostra. O estimador de

Petersen para a dimensão total da população é dado por m

nnN 21ˆ = .

Ao aplicar o método bootstrap a este caso utiliza-se a segunda amostra, de

dimensão 2n , como sendo a amostra aleatória inicial ( )nxxx ...,,, 21=x de tamanho n

da metodologia de bootstrap, pois é através desta amostra que se obtêm os valores dos

indivíduos marcados e que influenciam o resultado de estimativa da dimensão da

população. Assim a partir da segunda amostra obtêm-se B amostras bootstrap

independentes com reposição, **2

*1 ...,,, Bxxx . Estas podem conter indivíduos repetidos

ou não; desta forma, vão-se obter B réplicas que originam B valores para o número de

indivíduos marcados, m , e, consequentemente, B estimativas para a dimensão da

população:

( )( )*

1

21* 1ˆxm

nnN = , ... , ( )

( )*21*ˆBm

nnBN

x= .

A média destes B novos valores de N será o estimador bootstrap de Petersen da

dimensão total da população,

( )∑=

=B

b

bNB

N1

** ˆ1ˆ .

67

Determina-se, assim, uma nova estimativa da dimensão total da população,

através de um novo método de cálculo.

Exemplo 2-9:

Uma forma de obter outra estimativa da dimensão da população é através da

aplicação do método bootstrap. Para tal, considera-se a segunda amostra

( )2

...,,, 21 nxxx=x como sendo a amostra inicial no método bootstrap e determinam-se

B amostras independentes, com reposição, da segunda amostra, gerando B novas

estimativas para a dimensão da população.

Com a utilização do mesmo algoritmo gerador de amostras aleatórias de dados

constituídos por números de 1 a 1000, considerando fixa a dimensão da primeira

amostra, 2001 =n , e fazendo variar a dimensão da segunda amostra, apresentam-se na

tabela seguinte as diferentes estimativas bootstrap de Petersen da dimensão da

população obtidas, assim como os respectivos erros padrão estimados, quando se

efectuaram 500 e 1000 réplicas bootstrap.

68

Nº de réplicas bootstrap Dimensão das

amostras B = 500 B = 1000

2001 =n Estimativa de Petersen da dimensão da população13

502 =n 1097 1059

1002 =n 982 975

1502 =n 1012 1013

2002 =n 1009 1007

3002 =n 1014 1022

Erro padrão estimado

502 =n 358 318

1002 =n 179 169

1502 =n 117 114

2002 =n 85 86

3002 =n 79 82

Tabela 2-6 - Estimativas bootstrap de Petersen da dimensão da população e respectivos erros padrão estimados, obtidos para 500 e 1000 réplicas e diferentes dimensões da segunda amostra.

Verifica-se através da análise da tabela, que aumentar o número de réplicas

bootstrap de B = 500 para B = 1000 não origina melhores estimativas da dimensão da

população, pois não existem diferenças significativas entre elas para cada grupo de

amostras. Também se conclui que, para estas dimensões das duas amostras, as melhores

aproximações, tendo em conta que se utilizou um algoritmo gerador de amostras

aleatórias de dados entre 1 e 1000, resultam quando a segunda amostra teve a mesma

dimensão do que a primeira amostra, como aliás já se tinha verificado na Tabela 2-2.

13 No caso da estimativa da dimensão da população, N, calculada não resultar num número inteiro o valor sofre um arredondamento ao número inteiro mais próximo.

69

Relativamente ao erro padrão estimado, verifica-se que à medida que a dimensão

da segunda amostra aumenta, a estimativa do erro padrão diminui; logo, quanto maior

for a dimensão da segunda amostra, que é aquela que se emprega para a construção das

amostras bootstrap, menor é o valor do erro padrão, como já se tinha detectado na

Tabela 2-4 do primeiro exemplo do estudo comparativo da secção 2.5. e verifica-se,

mais uma vez, que os piores resultados se obtiveram quando a dimensão da segunda

amostra é uma quarto da dimensão da primeira.

Analisando os resultados sob o ponto de vista do número de réplicas bootstrap,

verifica-se que, à medida que esse número aumenta, e apesar do valor da estimativa da

dimensão da população não variar muito, o erro padrão diminui para a maioria dos

casos aqui considerados. No entanto, ao analisar a variação do erro padrão em conjunto

com o aumento na dimensão da segunda amostra, para os resultados obtidos com 500

réplicas e os resultados obtidos com 1000 réplicas, verifica-se ser a diminuição cada vez

menor à medida que se aumenta a dimensão da segunda amostra; inclusivamente,

quando a segunda amostra tem dimensão igual ou superior à da primeira, esta

diminuição não se verifica, tendo estas amostras as estimativas do erro padrão

aproximadamente iguais.

A utilização do método bootstrap parece, portanto, ser mais vantajosa quando a

dimensão da segunda amostra é mais reduzida. Quando o esforço de amostragem é

elevado, no caso da segunda amostra ter dimensão igual ou superior à da primeira

amostra, não existe vantagem no aumento do número de réplicas bootstrap (de 500 para

1000) para estimar a dimensão da população.

Esses resultados devem-se ao facto de, em virtude do valor da estimativa

depender do número de indivíduos marcados que surgiram na segunda amostra, isto é,

de m , quanto maior for o número de réplicas bootstrap maior é a variabilidade de m .

De seguida, apresentam-se os Histogramas relativos aos resultados das réplicas

de bootstrap das estimativas da dimensão da população, quando 2001 =n e se fez variar

a dimensão da segunda amostra, em 300, 200, 150, 100 e 50 indivíduos. Os valores aqui

apresentados dizem respeito às estimativas da dimensão da população proposta por

Petersen, obtidas quando se efectuaram, por exemplo, 500 e 1000 réplicas:

70

13001260

12201180

11401100

10601020

980940

900860

820780

me

ro d

e r

ép

lica

s

160

140

120

100

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 3002 =n (B = 1000)

12401200

11601120

10801040

1000960

920880

840

me

ro d

e r

ép

lica

s

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 3002 =n (B = 500)

71

13501300

12501200

11501100

10501000

950900

850800

750

me

ro d

e r

ép

lica

s

140

120

100

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 2002 =n (B = 1000)

13601320

12801240

12001160

11201080

10401000

960920

880840

me

ro d

e r

ép

lica

s

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 2002 =n (B = 500)

72

14251375

13251275

12251175

11251075

1025975

925875

825775

725

me

ro d

e r

ép

lica

s

120

100

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 1502 =n (B = 1000)

14251375

13251275

12251175

11251075

1025975

925875

825775

725

Núm

ero

de r

éplic

as

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 1502 =n (B = 500)

73

19501850

17501650

15501450

13501250

11501050

950850

750650

me

ro d

e r

ép

lica

s

220

200

180

160

140

120

100

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 1002 =n (B = 1000)

17501650

15501450

13501250

11501050

950850

750650

me

ro d

e r

ép

lica

s

100

80

60

40

20

0

Estimativas da dimensão da população no caso de 2001 =n e 1002 =n (B = 500)

74

32003000

28002600

24002200

20001800

16001400

12001000

800600

me

ro d

e r

ép

lica

s

200

180

160

140

120

100

80

60

40

20

0

Estimativas da dimensão da população

no caso de 2001 =n e 502 =n (B = 1000)

33003100

29002700

25002300

21001900

17001500

13001100

900700

500

me

ro d

e r

ép

lica

s

100

80

60

40

20

0

Estimativas da dimensão da população no caso de 2001 =n e 502 =n (B = 500)

75

Através da análise dos histogramas conclui-se, mais uma vez, que as piores

estimativas ocorrem quando a dimensão da segunda amostra é de 50 indivíduos, quer se

tenham realizado 500 ou 1000 réplicas bootstrap, já que, como se verifica, existem

valores extremamente altos para a estimativa da dimensão da população (que nas

simulações aqui realizadas é de 1000 indivíduos).

Os histogramas que melhor se aproximam do comportamento de uma

distribuição Normal são os que dizem respeito às estimativas da dimensão da população

no caso em que a dimensão da segunda amostra é de 150 indivíduos ou de 200

indivíduos, principalmente quando estas estimativas foram obtidas calculando 1000

réplicas bootstrap.

Verifica-se também que a maioria dos histogramas apresentados revela um

enviesamento dos dados à direita.

2.7.3 Intervalos de Confiança bootstrap Usualmente, determina-se um intervalo de confiança para o parâmetro θ , em

detrimento da utilização exclusiva de uma estimação pontual do parâmetro. Como já foi

referido anteriormente, sempre que o estimador do parâmetro tenha distribuição

assintoticamente Normal, pode obter-se um intervalo a )%1(100 α−× de confiança

para θ , que é dado por

( ) ( )

×+×−

− θθθθ ααˆˆ,ˆˆ

2121 sezsez ,

onde 21 α−z é o quantil de probabilidade 21 α− da distribuição ( )1,0N e ( )θ∧

se é o erro

padrão estimado do estimador θ .

Quando se utiliza o método bootstrap na estimação do parâmetro θ , o seu

estimador bootstrap, *θ , é uma variável aleatória com distribuição aproximadamente

∧2* ,ˆBseN θ em que Bse

representa o estimador do erro padrão de *θ . Então, pode

concluir-se que um intervalo de confiança de aproximadamente )%1(100 α−× para θ

da forma usual, é dado por:

×+×−

− BB sezsez 21*

21* ˆ,ˆ

αα θθ .

76

Por forma a obter uma maior precisão na estimação intervalar e, uma vez que

apenas para valores elevados da dimensão da amostra é que se pode afirmar que a

distribuição da estimativa é bem aproximada por uma distribuição Normal, foram

desenvolvidos outros tipos de intervalo de confiança para o parâmetro θ .

Em seguida, apresentam-se duas outras abordagens para a construção de

intervalos de confiança para θ com base na metodologia bootstrap: os intervalos de

confiança bootstrap-t e os intervalos de confiança dos percentis.

O intervalo de confiança usual parte do pressuposto que ( )1,0ˆ

ˆN

es→

−θθ,

quando ∞→n , o que significa que para amostras finitas a distribuição ( )1,0N é apenas

uma aproximação. Quando a dimensão da amostra é pequena, uma melhor aproximação

da distribuição de ∧

se

θθ é a distribuição t de Student com n -1 graus de liberdade, que

se representa por 1−nt . Utilizando esta aproximação, tem-se que:

( ) ( ) αθθ αα −≈

≤−

≤ −−− 1

ˆ

ˆ21

12

1 nn tes

tP

o que conduz ao seguinte intervalo de confiança de )%1(100 α−× para θ :

( )

×−×−

∧∧−

setset nn

21

211 , αα θθ ,

em que ( )211α−

−nt representa o percentil de ordem ( )21100 α−× e ( )21

α−nt representa o

percentil de ordem 2100 α× da distribuição t de Student com n -1 graus de liberdade.

No entanto, o uso da distribuição t de Student não tem em conta a possível

assimetria dos dados, e, como tal, de forma a obter uma maior precisão dos intervalos

de confiança, podem considerar-se intervalos de confiança bootstrap-t que têm origem

numa generalização do método t de Student.

Para a construção dos intervalos bootstrap-t determinam-se as B réplicas de

bootstrap **2

*1 ...,,, Bxxx a partir da amostra aleatória inicial ( )nxxx ...,,, 21=x de

tamanho n , para se proceder ao cálculo de cada um dos seguintes valores

)(

ˆ)(ˆ)(

*

**

bse

bbZ

−=

θθ Bb ....,,2,1= ,

77

em que ( ) )(ˆ* *

bxsb =θ representa o valor de θ para a réplica correspondente à amostra

bootstrap *

bx e )(* bse∧

representa o erro padrão estimado de ( )b*θ para cada uma das

réplicas. Deste modo, obtêm-se B valores de *Z que, depois de ordenados por ordem

crescente, fornecem os percentis de bootstrap para a construção do intervalo a

)%1(100 α−× de confiança para θ , que é dado por

×−×−

∧∧−

seZseZ)2*()21*( ˆ,ˆ αα θθ ,

em que, )2*(αZ é o percentil empírico de ordem 2100 α× dos valores de ( )bZ * e

)21*( α−Z é o percentil empírico de ordem ( )21100 α−× dos valores de ( )bZ * .

Por exemplo, no caso de se efectuarem 1000=B réplicas e se considerar

05,0=α , )2*(αZ é o 25º-ésimo valor da lista ordenada das B réplicas de *Z e, por sua

vez, )21*( α−Z é o 975º-ésimo valor dessa lista.

Uma das vantagens deste método para a construção do intervalo de confiança é o

facto de este utilizar apenas a amostra inicial. No entanto, os intervalos de confiança que

se obtêm com os valores de *Z podem ser assimétricos, isto é, podem ser mais longos à

direita ou à esquerda do valor estimado de θ , visto que este método é facilmente

influenciado pelos possíveis valores extremos ou outliers de *Z , podendo perder, assim,

alguma credibilidade.

Exemplo 2-10:

Na tabela seguinte encontram-se os percentis da distribuição t de Student com

20, 50 e 100 graus de liberdade e os percentis da distribuição N (0,1), assim como os

percentis da distribuição bootstrap de *Z calculados para o exemplo da estimativa da

dimensão da população de Petersen quando 2001 =n , 1002 =n e B =1000.

78

Percentis 2,5 % 5% 10% 50% 90% 95% 97,5%

20t -2,08 -1,73 -1,33 0,00 1,33 1,73 2,09

50t -2,01 -1,68 -1,30 0,00 1,30 1,68 2,01

100t -1,98 -1,66 -1,29 0,00 1,29 1,66 1,98

Normal -1,96 -1,65 -1,28 0,00 1,28 1,65 1,96

bootstrap-t -2,75 -2,34 -2,34 -0,57 0,50 0,92 1,10

Como se sabe, à medida que o número de graus de liberdade da distribuição t de

Student aumenta, os seus percentis aproximam-se dos percentis da distribuição N (0, 1).

No entanto, estas distribuições partem do pressuposto que a população é simétrica pois,

como se pode verificar, o seu percentil de ordem 50 toma o valor de zero. A simetria

dos dados é algo que nem sempre se observa, podendo o intervalo de confiança

construído pelo método bootstrap-t ser uma possível solução para essa ocorrência, já

que, se verifica pela tabela que esta distribuição é assimétrica com os seus percentis a

diferirem bastante dos percentis da t de Student e da N (0, 1).

Um outro tipo de intervalo de confiança que se pode considerar é o que utiliza,

como extremos do intervalo, os percentis da distribuição das estimativas bootstrap.

Estes intervalos têm boas propriedades de cobertura e determinam-se com facilidade,

sendo mais robustos que os anteriores, pois não se deixam afectar com tanta facilidade

por possíveis outliers ou assimetrias na população em estudo.

Depois de geradas B amostras bootstrap independentes **2

*1 ...,,, Bxxx , e sendo,

( ) Bbsb ....,,2,1),(ˆ ** == bxθ as réplicas correspondentes a cada amostra bootstrap, o

intervalo de confiança de ( )α−× 1100 % pelo método de percentis, é definido por:

( ) ( )[ ]21*2* ˆ,ˆ αα θθ − ,

em que:

• )2*(ˆ αθ é o percentil empírico de ordem 2100 α× dos valores de ( )b*θ , ou

seja, é o [ ]2α⋅B -ésimo valor da lista ordenada por ordem crescente das B

réplicas de *θ ;

79

• )21*(ˆ αθ − é o percentil empírico de ordem ( )21100 α−× dos valores de ( )b*θ ,

ou seja, é o ( )[ ]21 α−⋅B -ésimo valor da lista ordenada por ordem crescente

das B réplicas de *θ .

Uma das vantagens do intervalo de confiança obtido pelo método dos percentis é

o facto se ser bastante intuitivo e muito simples de determinar. No entanto, quando as

amostras são pequenas estes intervalos conduzem a resultados menos precisos. Efron

sugere outras alternativas para os intervalos de confiança bootstrap, o uso de métodos

onde utiliza uma correcção de enviesamento: o método BCa

e o método ABC.

Independentemente do método utilizado, espera-se que quanto maior for o

número de réplicas de bootstrap realizadas, melhor seja a aproximação do intervalo de

confiança construído, sendo referido por vários autores que para a construção de

intervalos de confiança bootstrap se devem considerar 1000 réplicas. Note-se que, caso

a distribuição das estimativas bootstrap seja aproximadamente Normal, o intervalo de

confiança pelo método dos percentis aproxima-se do intervalo de confiança usual.

2.7.4 Aplicação Prática

Na construção do intervalo de confiança para θ devem considerar-se amostras

bootstrap em maior número do que as consideradas para a estimação pontual do

parâmetro θ , isto é, o número de réplicas B deve ser maior do que 200, segundo a

sugestão de alguns autores, visto que se tem o maior interesse em reduzir a amplitude

do intervalo, assim como em reduzir o viés do estimador.

Exemplo 2-11:

Considere-se o exemplo anterior com duas amostras aleatórias de dimensões

2001 =n e 1002 =n , em que o número de indivíduos marcados se verificou ser 19=m

e a estimativa de Petersen da dimensão da população que se obteve foi de

1053ˆ 21 ≈=m

nnN indivíduos com

se 207≈ . Aplicando o método bootstrap com 500

80

réplicas, obteve-se uma estimativa bootstrap de Petersen para a dimensão da população

de ( )

∑=

=500

1

**

500

ˆˆ

b

bNN 982≈ indivíduos com erro padrão Bse

179≈ .

De forma a proceder ao cálculo do intervalo de confiança de 95%, para a

dimensão da população, N, vamos aplicar cada um dos três métodos referidos

anteriormente:

- assumindo que a distribuição do estimador bootstrap de N, *N , seja

aproximadamente Normal considerando, por isso, o intervalo de confiança dado

por:

×+×−

− BB sezNsezN 21*

21* ˆ,ˆ

αα .

Para %5=α , tem-se 21 α−z ≈ 1,96, obtendo-se o intervalo de confiança

aproximado a 95% de [ ]1334,631 ;

- utilizando o método bootstrap-t e os percentis dos valores ordenados da

distribuição de *Z , o intervalo de confiança para N é dado por:

×+×−

∧∧−

seZNseZN)2*()21*( ˆ,ˆ αα .

Como ∧

se ≈ 207 e, para %5=α , se tem que )2*(αZ ( ) ≈= *13Z -3,19 e

( ) ≈=− *488

)21*( ZZ α 1,10, obtém-se o intervalo de confiança aproximado a 95% de

[ ]1711,825 ;

- utilizando o método de percentis das réplicas de bootstrap, o intervalo de

confiança de ( )α−× 1100 % é definido por:

[ ])21*()2*( ˆ,ˆ αα −NN .

Para %5=α , tem-se que ≈= *)13(

)2*( ˆˆ NN α 714 e ≈=− *)488(

)21*( ˆˆ NN α 1429; logo,

o intervalo de confiança para N a 95% é [ ]1429,714 .

Destes intervalos de confiança para N, calculados por cada um dos três métodos

e com base em 500 réplicas bootstrap, verifica-se que o que apresenta menor amplitude

é o intervalo de confiança que assume que o estimador bootstrap *N segue uma

distribuição aproximadamente Normal.

81

Ao efectuar as 500 réplicas bootstrap não se comprova que esse número de

réplicas seja suficiente para uma maior robustez e menor amplitude do intervalo de

confiança. Assim, e conforme referenciado anteriormente, vamos determinar intervalos

de confiança utilizando 1000 réplicas bootstrap.

Exemplo 2-12:

Na tabela seguinte apresentam-se os intervalos de confiança obtidos quando se

considera a dimensão da primeira amostra 2001 =n e se faz variar, quer a dimensão da

segunda amostra ( 1002 =n , 1502 =n , 2002 =n e 3002 =n ), quer o número de

réplicas bootstrap calculadas (B = 500 e B = 1000), utilizando cada um dos três

métodos atrás referidos.

Dimensão das

amostras

Nº de réplicas

bootstrap

Estimativa bootstrap

da dimensão

da população

CV%

I. C. Normal Amp.

do I. C.

I. C. bootstrap-t

Amp. do

I. C.

I. C. método dos percentis

Amp. do

I. C.

B = 500 982 18 [631, 1334] 703 [825, 1711] 886 [714, 1429] 715 2001 =n 1002 =n

B = 1000 975 17 [643, 1307] 664 [825, 1622] 797 [741, 1429] 688

B = 500 1012 12 [783, 1241] 458 [828, 1273] 445 [811, 1250] 439 2001 =n 1502 =n

B = 1000 1013 11 [789, 1236] 447 [828, 1273] 445 [811, 1250] 439

B = 500 1009 8 [842, 1175] 333 [867, 1167] 300 [870, 1176] 306 2001 =n 2002 =n

B = 1000 1007 9 [838, 1175] 337 [867, 1198] 331 [851, 1176] 325

B = 500 1014 8 [860, 1168] 308 [894, 1214] 320 [870, 1176] 306 2001 =n 3002 =n

B = 1000 1022 8 [861, 1183] 322 [881, 1214] 333 [870, 1200] 330

Tabela 2-714: Estimativas e intervalos de confiança bootstrap para diferentes dimensões da segunda amostra e para 500 e 1000 réplicas bootstrap.

14 Neste exemplo não se considerou o caso da segunda amostra ter dimensão de 50 indivíduos, visto que, a qualidade da estimativa obtida para a dimensão da população é considerada pouco fiável, como nos indica o CV (Tabela 2-1).

82

Analisando os intervalos de confiança obtidos, verifica-se que, para todos os

métodos utilizados e quer se tenham determinado 500 ou 1000 réplicas bootstrap, estes

têm amplitudes inferiores quando a segunda amostra teve de dimensão 200 ou 300

indivíduos, e amplitudes superiores quando a segunda amostra teve de dimensão metade

da primeira.

Relativamente aos diferentes intervalos de confiança estabelecidos, os que têm

menor amplitude, quando se efectuaram 1000 réplicas bootstrap, são: no caso de

1002 =n e 3002 =n , o que se determinou pela aproximação à distribuição Normal e no

caso de 1502 =n e 2002 =n , o que se determinou utilizando o método dos percentis.

Quando se efectuaram 500 réplicas bootstrap, os intervalos de confiança com menor

amplitude são: no caso de 1002 =n , o que se determinam pela aproximação à

distribuição Normal, no caso de 1502 =n e 3002 =n , o que se determinou utilizando o

método dos percentis e no caso de 2002 =n , o que se determinou pelo método

bootstrap-t. Apesar dos resultados obtidos nestas simulações, apenas se verificaram

ligeiras alterações nos intervalos de confiança que, por não serem muito significativas,

não leva a que se consiga distinguir um dos métodos como mais vantajoso para a

construção de intervalos de confiança para a dimensão da população.

As melhores aproximações para a estimativa da dimensão da população

verificam-se no caso em que 2002 =n , quer se tenham determinado 500 ou 1000

réplicas bootstrap, pois a qualidade da estimativa indicada pelo coeficiente de

variação15 é considerada muito boa, o mesmo acontecendo na classificação da qualidade

da estimativa para o caso em que a segunda amostra tem de dimensão 300 indivíduos.

Para os casos em que 1502 =n e 3002 =n , quer se efectuem 500 ou 1000 réplicas

bootstrap a qualidade da estimativa é considerada boa e, para o caso em que a segunda

amostra é composta por 100 indivíduos, esta é considerada aceitável. Não existem, no

entanto, diferenças significativas na qualidade da estimativa, para cada grupo de

amostras consideradas, quando comparados os seus resultados tendo em conta o

aumento no número de réplicas. Aliás, como se pode observar pelos resultados obtidos,

quer nas estimativas da dimensão da população quer nos intervalos de confiança

respectivos, quanto maior for a dimensão da segunda amostra menos vantagem existe

15 Ver Tabela 2-1.

83

em aumentar o número de réplicas bootstrap; de facto, no caso da segunda amostra ter

dimensão igual ao superior à primeira, os intervalos de confiança têm menores

amplitudes quando se efectuaram 500 réplicas bootstrap.

2.8 Conclusões das várias aplicações práticas.

Pretende-se fazer uma análise relativamente aos intervalos de confiança obtidos,

utilizando o estimador proposto por Petersen para a dimensão da população e calculados

pelos diferentes métodos. Para os três intervalos de confiança calculados pelo método

bootstrap os resultados aqui apresentados dizem respeito ao exemplo em que se

efectuaram 1000 réplicas bootstrap. Na tabela seguinte encontram-se os vários

intervalos de confiança obtidos:

84

Dimensão das amostras 2001 =n 1002 =n

2001 =n 1502 =n

2001 =n 2002 =n

2001 =n 3002 =n

I. C. Normal [647, 1458] [705, 1295] [752, 1248] [822, 1212]

Amplitude 811 590 496 390

I. C. Teste do qui-quadrado

[739, 1576] [761, 1364] [794, 1298] [851, 1246]

Amplitude 837 603 504 395

I. C. Teste de razão de ver. [746, 1617] [765, 1382] [797, 1309] [852, 1251]

Amplitude 871 617 512 399

I. C. Normal [643, 1307] [789, 1236] [838, 1175] [861, 1183]

Amplitude 664 447 337 322

I.C. bootstrap-t [825, 1622] [828, 1273] [867, 1198] [881, 1214]

Amplitude 797 445 331 333

I. C. método dos percentis [741, 1429] [811, 1250] [851, 1176] [870, 1200]

Método bootstrap

B = 1000

Amplitude 688 439 325 330

Tabela 2-8- Intervalos de confiança a 95%, para a dimensão da população usando os diferentes métodos com o estimador de Petersen.

Analisando os intervalos de confiança obtidos pelos vários métodos verifica-se

que, para as várias dimensões consideradas, os melhores intervalos são os que se obtêm

pela metodologia bootstrap. Tal como já foi mencionado, quando as dimensões não são

muito pequenas nem muito grandes, os que têm menor amplitude são os intervalos

obtidos pelo método dos percentis, pois, à excepção do caso em que a segunda amostra

tem de dimensão 100 e 300 indivíduos, estes têm menores amplitudes

comparativamente com os restantes intervalos.

Por outro lado, nas simulações consideradas, ao comparar os intervalos obtidos

com e sem a metodologia bootstrap, conclui-se que há vantagens na utilização da

metodologia bootstrap para obter melhores intervalos de confiança para a dimensão da

população. No entanto, à medida que se aumenta a dimensão da segunda amostra, ou

85

seja, à medida que o esforço de amostragem é cada vez maior, menores são as

diferenças verificadas nos intervalos de confiança determinados pelos diferentes

métodos. Por esse motivo, quando se consegue recolher amostras com dimensões

bastante razoáveis tendo em conta a dimensão da população total, pode não se justificar

a aplicação da metodologia bootstrap.

Por outro lado, quando se comparam os resultados obtidos no caso da dimensão

da segunda amostra variar entre 100 e 300 indivíduos, verifica-se que em todos os

intervalos de confiança calculados, estes têm menores amplitudes quando a dimensão da

segunda amostra é igual à dimensão da primeira, tal como já foi mencionado nos

exemplos anteriores. Note-se que para esta população a proposta de Robson e Regier,

como referenciado em 2.4, nos indica que, para um estudo com alguma precisão nos

resultados da estimativa, as duas amostras devem ter igual dimensão16.

16 Ver figura 3.5 do anexo 5.

86

87

3 Método de Captura e Recaptura Múltipla

3.1 Introdução

As várias técnicas utilizadas para a estimação da dimensão de uma população

podem considerar populações fechadas ou populações abertas, conforme se verifiquem,

ou não, alterações na população durante o período de estudo, tais como nascimentos,

mortes, imigrações, emigrações, entre outras.

Ao longo deste trabalho analisaram-se vários métodos de estimação apenas para

populações fechadas, pois não se consideraram as hipóteses de ocorrerem nascimentos,

mortes ou migrações dos indivíduos entre os instantes de recolha das duas amostras. No

entanto, para algumas investigações, independentemente de se considerar a população

fechada ou não, é essencial recolher mais do que duas amostras. Para tal utiliza-se o

método de captura e recaptura múltipla, discutido em detalhe por White e outros (1982),

por Otis e outros (1978) e por Seber (1982).

São vários os modelos que podem ser utilizados no caso da população ser

fechada e que têm em conta variações na recolha das múltiplas recapturas, como por

exemplo, 0M , bM , hM , tM , bhM , thM , btM e bhtM , onde “b” representa a reacção

do indivíduo ao tipo de marca utilizada nas capturas, isto é, a probabilidade de captura

dos indivíduos marcados e não marcados pode variar, “h” representa a heterogeneidade

dos indivíduos, ou seja, cada indivíduo tem a mesma probabilidade de recolha nas

diferentes capturas mas essa probabilidade difere de indivíduo para indivíduo e “t”

representa o caso dos indivíduos que têm a mesma probabilidade de captura entre si mas

com probabilidade variável para as diferentes capturas. O caso mais simples, e o que

será estudado na secção seguinte, é o modelo 0M em que a probabilidade de captura é

igual para cada um dos indivíduos e para cada uma das capturas.

Tal como no método de captura e recaptura simples se podem empregar tabelas

de contingência incompletas de margens fixas para estimar a dimensão de uma

população fechada e para a construção de intervalos de confiança mais robustos (secção

2.6), também no caso de se aplicar o método de captura e recaptura múltipla com s

88

amostras de diferentes dimensões se podem construir intervalos de confiança para a

abundância de uma população recorrendo a tabelas de contingência incompletas s2 ,

Fienberg (1972) e Darroch (1958), entre outros autores, utilizam os modelos loglineares

neste contexto.

3.2 Censo de Schnabel

Uma extensão do método de Petersen para a estimação da dimensão de uma

população foi proposta por Schnabel (1938), sempre que existe possibilidade de

recolher mais do que duas amostras de diferentes dimensões, isto é, de dimensões

snnn ...,,, 21 . Neste método, tal como no método de Petersen, recolhe-se uma amostra

inicial na qual se marcam todos os 1n indivíduos que são, em seguida, devolvidos à

população; posteriormente, recolhe-se uma segunda amostra de dimensão 2n , registam-

se os indivíduos marcados, cujo número se designa por 2m , e marcam-se novamente

todos os indivíduos; o processo repete-se um determinado número s de vezes. Para tal,

torna-se necessário a utilização de marcas distintas em cada uma das capturas de forma

a ser possível apurar em que altura os indivíduos foram recolhidos e, consequentemente,

marcados.

Considere-se a seguinte notação necessária para o cálculo das diferentes

estimativas da dimensão de uma população fechada que serão apresentadas ao longo da

secção, utilizando o método de captura e recaptura múltipla:

N - dimensão total da população

s - número de amostras seleccionadas (número de capturas)

in - dimensão da amostra i, si ...,,2,1=

im - número de indivíduos marcados na amostra i de dimensão in

iii mnu −=

∑−

=

=1

1

i

j

ji uM , 1...,,2,1 += si - número de indivíduos marcados na população

imediatamente antes da amostra i ter sido recolhida.

89

Como não existem indivíduos marcados na primeira amostra tem-se que 01 =m

e, consequentemente, 01 =M e 112 nuM == , e define-se 1+sM como sendo o total de

indivíduos marcados (com pelo menos uma marca) no final do estudo. Note-se que

1+sM representa o número total de indivíduos distintos capturados durante a

experiência.

Como para o modelo 0M a probabilidade de captura é a mesma para cada um

dos indivíduos e não varia ao longo das várias capturas, e como um dos pressupostos é o

facto de cada amostra ser uma amostra aleatória simples com dimensão previamente

fixada (essa escolha é realizada no início do estudo), tem-se que a função massa de

probabilidade conjunta do número de indivíduos marcados nas amostras si ...,,2,1= é

dada pelo produto de distribuições Hipergeométricas da seguinte forma

{ }( )

( ) ∏∏

=

=

=

=

×

−×

=

=

s

i is

i

i

s

i i

i

ii

is

i i

i

is

n

N

rN

N

u

m

M

n

N

u

MN

m

Mnmmf

1

1

1

2

22

,!

!

!

...,,

em que 1+= sMr , representa o total de indivíduos marcados no final do estudo com uma

determinada história de captura.

Para estimar N utiliza-se o método da máxima verosimilhança que, aplicado a

3-1, conduz à equação de máxima verosimilhança, obtida primeiramente por Chapman

(1952) e mais tarde por Darroch (1958) com o uso de um modelo ligeiramente diferente,

dada por:

∏=

−=

s

i

i

N

n

N

r

1

11 ,

cuja única solução superior a r é o estimador de máxima verosimilhança da dimensão da

população, N .

No caso de 2=s , obtém-se de 3-2 uma equação do primeiro grau que, depois de

resolvida em ordem a N, não é mais do que o estimador proposto por Petersen, isto é,

m

nnN 21ˆ = . Para 3=s , obtém-se a seguinte equação do segundo grau:

3-1

3-2

90

( ) ( ) 0321323121322 =+++−+ nnnnnnnnnNmmN ,

em que 2m representa o número de indivíduos recolhidos na segunda amostra que têm a

primeira marca e 3m representa o número de indivíduos da terceira amostra que

apresentam ou a primeira marca ou a segunda marca (podendo apresentar ambas).

Esta equação de segundo grau é de fácil resolução e o estimador de máxima

verosimilhança para a dimensão da população N é a sua maior raiz. Para os casos em

que 3>s existe necessidade de utilização de métodos iterativos para a resolução da

equação 3-2.

Na resolução da equação 3-2, verifica-se que apenas é necessário conhecer o

valor de r, ou seja, o número de diferentes indivíduos que foram marcados durante a

experiência, já que r é uma estatística suficiente para N. Sendo assim, neste caso não

haveria necessidade de se recorrer a diferentes marcas. No entanto, para alguns modelos

e até pela necessidade de validação de alguns pressupostos, a informação obtida em

cada recaptura nos casos da utilização de diferentes marcas pode ser extremamente útil.

Exemplo 3-1:

Considere que se pretende estimar a população de peixes num pequeno lago,

(ver Thompson, 1992), e se recolheu uma primeira amostra de 20 peixes com a

utilização de anzóis, isto é, que se tem 201 =n . Antes de os devolver ao lago, cada

peixe foi marcado com um pequeno corte na barbatana. No dia seguinte foram

novamente recolhidos 20 peixes, 202 =n , aos quais foi feita uma nova marca, um

pequeno corte na barbatana diferente do anterior, e destes foram encontrados 2 que já

possuíam a marca anterior, ou seja, 22 =m . Todos eles foram devolvidos ao lago e no

terceiro dia recolheu-se novamente uma amostra de 20 peixes, 203 =n , onde se utilizou

uma nova marca, diferente das anteriores, para distinguir os peixes. Destes 20 peixes, 16

não continham nenhuma das marcas anteriormente utilizadas, 4 tinham pelo menos uma

das marcas, ou seja 43 =m , 2 tinham só a marca do primeiro dia, 1 tinha só a segunda

marca e 1 tinha ambas as marcas. Assim, neste caso, a equação 3-1 escreve-se:

3-3

91

( ) ( )

×

==

20

16

38

4

38

20

18

20

2

20

4,2, 32N

N

N

N

fmmf ,

E, resolvendo a equação 3-3, obtém-se para a estimativa de máxima

verosimilhança da dimensão da população de peixes nesse lago 193ˆ =N peixes.

A informação obtida pelas diferentes marcas utilizadas fornece-nos o dia exacto

em que cada peixe foi recolhido e marcado. Por exemplo, pode-se considerar, no caso

de três marcas distintas, o código 000 para representar os peixes em que não foi

colocada nenhuma marca, 100 para os peixes que tinham apenas a marca do primeiro

dia, 110 para os peixes com as duas primeiras marcas, 101 para os peixes que tinham a

primeira marca e a terceira mas não tinham a segunda, e assim sucessivamente. Como

se utilizaram três marcas existem 823 = hipóteses distintas para a história de captura de

cada peixe do lago. Assumindo que a população de peixes do lago deste exemplo é

fechada, tem-se: um número desconhecido de peixes sem marca que se representam

com o código 000, 16 peixes com o código 100, 17 peixes com 010, 1 peixe com 110,

16 peixes com 001, 2 peixes com 101, 1 peixe com 011 e 1 peixe com 111. O número

total de peixes com o qual se manteve contacto ao longo deste estudo foi de 54 peixes.

Darroch (1958) provou que quando ∞→∞→ inN , e para o caso de Nni se

manter constante, tem-se que [ ] bNNE +=ˆ , podendo o viés b ser estimado por:

2

1

2

12

2

1

ˆ1

ˆ1

ˆ1

2

ˆ1

ˆ1

ˆ1

ˆ1

ˆ

−−

−+

−−

−+

−−

=

∑∑

=

==

s

i i

s

i i

s

i i

nNN

s

rN

nNN

s

nNN

s

b ,

e a variância assintótica de N estimada por:

( )1

1ˆrav

=

−−

−+

−= ∑

s

i inNN

s

rNN .

Desta forma, e admitindo que o estimador de máxima verosimilhança da

dimensão da população, N , seja assintoticamente Normal quando ∞→N , pode

considerar-se o seguinte intervalo de 95% de confiança para N:

3-6

3-4

3-5

92

)ˆr(av96,1ˆˆ NbN ±− ,

em que o valor de b pode ser desprezado se este for inferior a um décimo da )ˆr(av N .

Normalmente na maioria dos estudos realizados onde existe possibilidade de

recolher mais do que uma amostra da população, as dimensões das amostras recolhidas

são variáveis aleatórias e não parâmetros fixos, pois, em muitos casos, só no decorrer do

estudo é possível tomar a decisão da dimensão da amostra a recolher, já que existem

muitos factores que podem influenciar essa decisão. Darroch (1958) investigou com

algum detalhe essa questão e mostrou que, assintoticamente, não existem diferenças

para o estimador da dimensão da população e respectivo intervalo de confiança no caso

das dimensões não serem previamente fixas. O motivo apresentado por Darroch é o

facto da estimativa de máxima verosimilhança de N para ambos os casos não ser muito

diferente.

Um outro método para estimar a dimensão de uma população usando a captura e

recaptura múltipla considera uma modificação do estimador de Petersen em cada uma

das etapas realizadas. Assim, para cada uma das s amostras de dimensão snnn ...,,, 21 ,

respectivamente, o estimador modificado de Petersen de N é dado por:

( )( )( )

sim

nMN

i

ii

i ...,,3,2,11

11~=−

+

++= .

Note-se que quando 2=s , 2

~N não é mais do que o estimador proposto por

Chapman no caso de só haver recolha de duas amostras, já referida em 2.3.2..

O estimador da variância de cada um dos valores obtidos pela equação 3-7 para

a dimensão da população é dado por

( )( )( )( )( ) ( )21

11)

~r(av

2++

−−++=

ii

iiiiii

imm

mnmMnMN si ...,,3,2, = .

A sugestão de Chapman (1952) para obter um estimador da dimensão de uma

dada população fechada quando se utiliza mais do que uma recaptura, é considerar a

média dos diferentes estimadores obtidos pela expressão 3-7, ou seja, considera-se o

seguinte estimador

( )1~

2

−=∑=

sNNs

i

i .

3-7

3-8

3-9

93

Como as covariâncias de iN~

podem ser desprezadas comparativamente com as

suas variâncias, tem-se que a variância do estimador N é aproximadamente dada por:

{ }[ ] [ ] ( )∑=

−=s

i

iiiii sMnNVMnN2

21,~

,rav ,

que se pode estimar pela expressão

( ) ( )∑=

−=s

i

i sNN2

21~

rav)r(av .

Este estimador da variância é aproximadamente centrado se e apenas se cada

uma das estimativas da )~

var( iN , para si ...,,3,2= , também for aproximadamente

centrada.

No entanto, existe um estimador alternativo da variância do estimador da

dimensão da população que é dado por:

[ ] ( ) ( )( )∑=

−−−=s

i

i ssNNNV2

2 21~

,

que revela ser aproximadamente centrado quando todos os valores de iN~

têm

aproximadamente o mesmo valor médio. No caso destas condições não se verificarem,

as estimativas tendem a sobrestimar o verdadeiro valor da variância.

Tendo em conta que para o caso de só haver recolha de duas amostras, 2=s ,

2

~N não é mais do que o estimador proposto por Chapman e a expressão do estimador

da respectiva variância, )~

var( iN , é igual à expressão 2-7, e atendendo ao facto da

distribuição do estimador de Petersen ser assintoticamente Normal quando ∞→N ,

considera-se o intervalo (aproximado) de )%1(100 α− de confiança para N é dado por:

)r(av21

NzN α−± .

Uma outra alternativa ao modelo proposto por Schnabel, parte do pressuposto

que iM se tratam de parâmetros fixos e, utilizando uma aproximação dada pela

distribuição Binomial (expressão 2-3) obtém-se uma alternativa ao censo de Schnabel,

ou seja, uma aproximação ao modelo 3-1, denominado modelo Binomial de Schnabel,

em que a função massa de probabilidade de im , si ...,,3,2= , é dada por:

{ }( )ii

imn

s

i

i

m

i

i

i

iisN

M

N

M

m

nMnmmf

=

=

22 1,...,, .

94

Para este modelo a estimativa de máxima verosimilhança da dimensão da

população é a raiz da seguinte equação

( )∑∑

==

=

− s

i

i

s

i i

iii mMN

Mmn

22

.

Este modelo assume que para cada etapa realizada o valor de Nni seja

suficientemente pequeno (inferior a 0,1) de forma a se poder ignorar as possíveis

complicações que advêm do facto de se tratar de amostras sem reposição. Se por outro

lado, as fracções NM i também forem pequenas pode-se aproximar a solução da

equação 3-10 por:

mmMnNs

i

i

s

i

ii λ=

= ∑∑

== 22

' .

No caso das fracções Nni e NM i serem ambas inferiores a 0,1 para cada

si ...,,3,2= , pode considerar-se uma modificação aproximadamente centrada do

estimador anterior da seguinte forma

( )1'' += mN λ .

Chapman (1952) indicou que este estimador tem valor médio dado por

{ }[ ] ( )( )NNMnNE ii λ−−= exp1,''

obtendo assim a variância do estimador dada pela expressão

{ }[ ]

++=

3

3

2

22 62,''

λλλ

NNNNMnNV ii .

Chapman propõe esta expressão para a variância do estimador ''N , no caso de

Nni e NM i serem ambas inferiores a 0,1, com base no facto de que, nessas

condições, im tem aproximadamente distribuição ( )NnMP ii e, portanto, sendo

∑=

=s

i

imm1

a soma de variáveis independentes de Poisson tem também uma distribuição

de Poisson, neste caso com parâmetro Nλ . Mais tarde Raff (1956) sugere que a

distribuição de Poisson ainda se pode aplicar mesmo nos casos em que

2,01,0 << NM i , desde que Nni seja muito inferior a 0,1, para que a distribuição

Hipergeométrica de im seja bem aproximada pela distribuição Binomial.

3-10

3-11

3-12

3-13

95

O intervalo de confiança a considerar para a dimensão da população pode, tal

como nos intervalos de confiança anteriormente considerados, ser determinado da

maneira usual, assumindo que o estimador ''N seja assintoticamente Normal. No

entanto, tal como no método de Petersen, o intervalo de confiança deve basear-se na

distribuição de m. Assim, Chapman propõe a consulta de uma tabela para os casos em

que se verifica 50≤m , onde indica os extremos do intervalo de confiança com menor

amplitude para λN . Consequentemente, para obter o intervalo de confiança para N

basta multiplicar os seus extremos por λ . No caso em que 50>m pode considerar-se a

aproximação Normal da distribuição de Poisson, obtendo-se que, para um intervalo de

confiança a 95%, os extremos desse intervalo são as raízes da equação quadrática:

( ) 22

96,1=−

N

Nm

λ

λ,

ou seja,

( )2

22

2

96,1496,196,12

m

mmN

+±+=λ .

No caso de não ser apropriado considerar a aproximação da distribuição

Binomial pela distribuição de Poisson, a variância de m será inferior a Nλ , e o

intervalo de confiança anterior terá uma amplitude demasiado grande. Para estes casos

considera-se uma nova expressão, que substitui a expressão 3-14, e é dada por

( )( ) ( ) ( )( )

2

22

2

196,14196,1196,12

m

mmN

δδδλ

−+−±−+=

em que ( )∑=

=s

i

ii NMn2

2 'λδ .

3.3 Estudo comparativo

Com a utilização do mesmo algoritmo dos exemplos do capítulo 2, gerador de

amostras aleatórias de dados constituídos por números de 1 a 1000, consideram-se

amostras de diferentes dimensões e determinam-se várias estimativas da dimensão da

população empregando as várias expressões dos estimadores indicadas ao longo deste

capitulo.

3-14

3-15

96

Exemplo 3-2:

Num primeiro estudo consideram-se duas capturas, isto é, 2=s . Assim,

considerando a notação referida na secção 3.2., tem-se 01 =m , visto que na primeira

amostra não existem indivíduos marcados e, consequentemente, 01 =M , 112 nuM == .

Da mesma forma se tem que 221213 mnnuuM −+=+= , sendo 2m o número de

indivíduos repetidos nas duas amostras.

Consultando os casos já apresentados na Tabela 2-2, em que se fizeram variar as

dimensões de duas amostras, considere-se, por exemplo, o caso em que 2001 =n ,

2002 =n e o número de indivíduos marcados, ou seja, o número de valores repetidos

nas duas amostras, se verificou ser de 402 =m . Obtiveram-se as seguintes estimativas

da dimensão da população para cada uma das expressões acima mencionadas:

- utilizando a equação 3-2 obtém-se precisamente a expressão proposta por

Petersen para o estimador da dimensão da população, que neste caso produz um

resultado de 1000ˆ2

21 ≈=m

nnN indivíduos.

Considerando o intervalo de confiança para N, indicado em 2.3.4., dado por

)ˆr(avˆ21

NzN α−± ,

com 96,121

=−αz , obtém-se o intervalo de confiança a 95% de [752, 1248]

(como se pode observar na Tabela 2-3).

Considerando o intervalo de confiança 3-6, proposto por Darroch, dado por:

)ˆ(96,1ˆˆ NvbN ±− ,

em que se tem, utilizando a expressão 3-4,

2

213

2

2

2

12

2

21

ˆ1

ˆ1

ˆ1

ˆ1

2

ˆ1

ˆ1

ˆ1

ˆ1

ˆ1

ˆ1

ˆ

−+

−−+

−+

−−+

−+

−−

=

nNnNNMN

nNnNNnNnNNb ,

e, pela expressão 3-5,

( )1

213ˆ

1ˆ1

ˆ1ˆrav

−+

−−+

−=

nNnNNMNN ,

97

e como 2=s , )( 2213 mnnMr −+== , resulta o intervalo de confiança a 95%

de [736, 1232].

- utilizando a equação 3-7, tem-se ( )( )

( )1

1

11~

2

222 −

+

++=

m

nMN que se verifica ser a

expressão do estimador da dimensão da população proposta por Chapman, já

referida na subsecção 2.3.2., equação 2-4, obtendo-se para a estimação da

dimensão da população o valor de 984 indivíduos.

Por outro lado a expressão 3-8 para 2=s , é dada por:

( )( )( )( )( ) ( )21

11)

~r(av

22

2

2222222

++

−−++=

mm

mnmMnMN ,

que corresponde à expressão 2-7 proposta por Seber (1970) e Wittes (1972) para

estimar a variância do estimador de Chapman da dimensão da população.

Considerando que para o estimador de Chapman, quando ∞→N , a distribuição

seja assintoticamente Normal, tem-se o intervalo de )%1(100 α− de confiança

dado por:

)~

r(av~

21NzN α−

± ,

obtendo-se para este exemplo o intervalo de confiança a 95% de [747, 1222].

- utilizando a equação 3-10 para 2=s , ( )

22

222 mMN

Mmn=

−, e resolvendo-a em

ordem a N obtém-se a expressão do estimador da dimensão da população

proposta por Petersen, tal como acontecia utilizando a equação 3-2.

Tal como foi notado no capítulo anterior, o melhor resultado para a estimativa da

dimensão da população, quando as dimensões da primeira e da segunda amostra são

ambas iguais a 200 indivíduos, foi obtida pela proposta de Petersen. Quanto aos

intervalos de confiança obtidos pela proposta de Petersen, Darroch e Chapman, com

amplitudes, respectivamente, 496, 496 e 475, o que tem menor amplitude é aquele que

utiliza a estimativa da variância proposta por Chapman quando a distribuição do

estimador é assintoticamente Normal.

Verifica-se para este exemplo que, apesar de não existirem diferenças muito

significativas nos resultados obtidos, não existe vantagem na utilização do intervalo de

confiança proposto por Darroch, já que este tem amplitude maior do que o proposto por

98

Chapman e aproximadamente igual ao obtido utilizando a estimativa da variância

proposta por Petersen.

Exemplo 3-3:

Num segundo estudo realizaram-se 3 capturas, isto é, 3=s . Assim,

considerando a notação referida na secção 3.2., 01 =m e, consequentemente, 01 =M ,

112 nuM == , 221213 mnnuuM −+=+= e 332213214 mnmnnuuuM −+−+=++=

em que 2m representa o número de elementos marcados na segunda amostra, 3m o

número de elementos marcados na terceira amostra, 3M o número total de elementos

marcados antes da recolha da terceira amostra e 4M representa o número total de

marcados antes da recolha da quarta amostra.

Realizaram-se quarenta e uma simulações para cada caso em que se fez variar a

dimensão das três amostras, considerando para primeira amostra apenas dimensões de

200 e 250 indivíduos visto que, e conforme constatado no Exemplo 2-2: da secção 2.5,

com estas dimensões para a primeira amostra e fazendo variar a dimensão da segunda

amostra os resultados, na sua maioria, foram os melhores. Verificou-se também que

quando a segunda amostra tinha dimensão bastante inferior à primeira, 25%, os

resultados eram piores do que aqueles em que tal não sucedia; como tal, para os

exemplos que se seguem apenas se fez variar a dimensão da segunda amostra em 150%,

100% e 50% da primeira, sofrendo a terceira amostra uma maior variação na sua

dimensão relativamente às restantes dimensões.

De forma a se poder proceder a um estudo mais conclusivo consideram-se, para

cada um dos casos, os resultados da estimativa da dimensão da população obtidos

através da mediana das quarenta e uma simulações, valor esse que nem sempre

correspondeu ao valor mais frequente. Na seguinte tabela encontram-se os valores

obtidos para todas as variações realizadas à dimensão de cada uma das amostras

utilizando os estimadores apresentados anteriormente:

99

Estimativa da dimensão da população utilizando as equações Dimensão das amostras

3-3 3-9

2001 =n 3002 =n 4003 =n 622 =m 1743 =m 1000 582 =m 1843 =m 992

2001 =n 3002 =n ; 3003 =n 552 =m 1363 =m 1006 612 =m 1303 =m 992

2001 =n 3002 =n 2503 =n 552 =m 1133 =m 1013 602 =m 1063 =m 1012

2001 =n 3002 =n 2003 =n 542 =m 933 =m 1007 552 =m 943 =m 1011

2001 =n 3002 =n 1503 =n 612 =m 653 =m 1000 612 =m 653 =m 990

2001 =n 2002 =n 3003 =n 372 =m 1123 =m 993 422 =m 1053 =m 978

2001 =n 2002 =n 2003 =n 362 =m 753 =m 1010 372 =m 763 =m 1006

2001 =n 2002 =n 1003 =n 412 =m 343 =m 1014 412 =m 343 =m 999

2001 =n 2002 =n 503 =n 422 =m 173 =m 982 342 =m 233 =m 966

2001 =n 1002 =n 2003 =n 112 =m 643 =m 1014 222 =m 473 =m 1024

2001 =n 1002 =n 1003 =n 192 =m 293 =m 1000 192 =m 293 =m 981

2001 =n 1002 =n 753 =n 182 =m 233 =m 1000 182 =m 233 =m 981

1501 =n 1502 =n 2253 =n 242 =m 613 =m 999 252 =m 553 =m 994

1501 =n 1502 =n 1503 =n 242 =m 403 =m 1002 192 =m 503 =m 986

1501 =n 1502 =n 753 =n 232 =m 193 =m 1033 182 =m 253 =m 1013

Tabela 3-1 - Estimativas da dimensão da população utilizando as expressões 3-3 e 3-9.17 (Estes resultados foram obtidos com a mediana das estimativas das quarenta e uma simulações)

Verifica-se pela tabela que considerando a mediana das estimativas da dimensão

da população das quarenta e uma simulações efectuadas para cada caso, e para cada

uma das equações, esta nem sempre correspondeu a valores idênticos de 2m e 3m .

17 No caso da estimativa da dimensão da população, N, calculada não resultar um número inteiro o valor sofre um arredondamento ao número inteiro mais próximo.

100

Analisando os valores alcançados em cada grupo de amostras recolhido verifica-

se que, na maioria dos casos, as melhores estimativas da dimensão da população foram

obtidas através de cálculos empregando a equação 3-2, que utiliza o método da máxima

verosimilhança aplicado à equação 3-1, e que conduz, no caso de 3=s , à equação do

segundo grau 3-3 donde se extrai a maior raiz.

As melhores estimativas da dimensão da população obtidas através da fórmula

indicada na equação 3-918 ocorreram apenas nos casos em que as dimensões das três

amostras recolhidas foram 200, 300 e 250 indivíduos respectivamente, 150, 150 e 75, e

nos casos em que se consideraram iguais dimensões nas duas primeiras amostras mais

precisamente de 200 indivíduos e se fez variar a dimensão da terceira amostra em 200 e

100 indivíduos.

Numa análise geral verifica-se que não houve diferenças muito significativas

entre os diferentes resultados, quer analisando cada estimativa de acordo com as duas

equações, quer analisando as estimativas em função da variação da dimensão das três

amostras. É claro que se o estudo incidisse em dimensões mais baixas ou dimensões

bastante superiores, nomeadamente nas duas primeiras amostras, tais conclusões não

poderiam ser tiradas conforme se constatou nos primeiros exemplos, em que se

consideraram apenas duas amostras e que se encontram na Tabela 2-2 e na Tabela 2-3.

De qualquer forma, do estudo aqui realizado e sabendo que as simulações

resultam de um algoritmo gerador de amostras aleatórias de dados entre 1 e 1000, as

melhores estimativas da dimensão da população foram obtidas nos casos em que a

primeira amostra tinha dimensão 200 indivíduos e se fez variar a dimensão das outras

duas amostras em 3002 =n com 4003 =n , 3002 =n com 1503 =n , 1002 =n com

1003 =n e 1002 =n com 753 =n , tendo todos estes casos ocorrido quando se calculou

a estimativa da dimensão da população pela equação 3-3.

Analisando as dimensões das três amostras para os resultados com piores

aproximações, chega-se à conclusão que, considerando os resultados com a utilização

da equação 3-3, estes ocorrem no caso da dimensão da terceira amostra assumir o valor

mais baixo de todos os considerados nestas simulações, e inferior à segunda e à primeira

amostra; mais precisamente, quando 2001 =n , 2002 =n e 503 =n e quando 1501 =n ,

18 Equação que considera a média das diferentes estimativas obtidas pela equação 3-7, proposta por Chapman, que se trata de uma fórmula modificada da proposta por Petersen.

101

1502 =n e 753 =n . Considerando os resultados com piores aproximações, utilizando a

equação 3-9, estes ocorrem com maior frequência que utilizando a equação anterior

pois, conforme já analisado, estas estimativas têm de um modo geral piores resultados.

Exemplo 3-4:

Num terceiro estudo procedeu-se ao cálculo das estimativas dos erros padrão das

várias estimativas da dimensão da população, apresentadas na tabela anterior, e

respectivos intervalos de confiança, sendo que os piores resultados não foram

apresentados nesta tabela.

102

Tabela 3-2 – Estimativas da dimensão da população e respectivos erros padrão e intervalos de confiança.

(Estes resultados foram obtidos com a mediana das estimativas das quarenta e uma simulações)

Equação 3-3 Equação 3-9

Dimensão das amostras N ( )Nes ˆ..

CV %

I. C. a 95% Amplitude

do I. C. N~

( )Nes~

.. CV %

I. C. a 95% Amplitude

do I. C.

2001 =n 3002 =n 4003 =n 1000 40 4 [ 921, 1077 ] 156 992 54 5 [ 887, 1097 ] 210

2001 =n 3002 =n ; 3003 =n 1006 48 5 [ 910, 1098 ] 188 992 53 5 [ 888, 1097 ] 209

2001 =n 3002 =n 2003 =n 1007 58 6 [ 890, 1118 ] 228 1011 63 6 [ 888, 1134 ] 246

2001 =n 3002 =n 1503 =n 1000 64 6 [ 871, 1121 ] 250 990 62 6 [868, 1112 ] 244

2001 =n 1002 =n 1003 =n 1000 119 12 [ 754, 1219 ] 465 981 116 12 [ 754, 1208 ] 454

2001 =n 1002 =n 753 =n 1000 130 13 [ 729, 1238 ] 509 981 125 13 [ 737, 1225 ] 488

1501 =n 1502 =n 2253 =n 999 84 8 [ 829, 1157 ] 328 994 90 9 [ 818, 1171 ] 353

1501 =n 1502 =n 1503 =n 1002 101 10 [ 795, 1190 ] 395 986 116 12 [ 759, 1214 ] 455

103

Por análise da tabela verifica-se que, quanto maior é a dimensão da segunda e da

terceira amostra, menor é o erro padrão e melhores são os intervalos de confiança. Dos

casos aqui considerados, quando a dimensão da segunda amostra é inferior à dimensão

da primeira, e à medida que a dimensão da terceira diminui relativamente à segunda e

consequentemente à primeira, os erros vão aumentando e a amplitude dos intervalos de

confiança vai aumentando.

Analisando a qualidade da estimativa da dimensão da população, através dos

resultados dos coeficientes de variação, verifica-se que, esta é considerada pela

classificação apresentada na Tabela 2-1, boa e muito boa para todos os exemplos.

Destaca-se o caso em que as dimensões das três amostras foram, respectivamente,

2001 =n , 3002 =n e 4003 =n principalmente, quando se utilizou a equação 3-3, em

que pela classificação do coeficiente de variação esta estimativa tem uma qualidade

excelente.

Ao analisar os valores alcançados em cada grupo de amostras e apresentados

nesta tabela, verifica-se que, para todos eles, as melhores estimativas da dimensão da

população foram obtidas através do método de máxima verosimilhança, por resolução

da equação 3-3. Quando analisados os erros padrão de cada estimativa, na sua maioria,

estes são menores quando se aplica esta equação, com excepção do caso em que a

primeira amostra foi de 200 indivíduos, a segunda de 300 e a terceira de 150; a segunda

de 100 e a terceira de 100 e quando a segunda amostra teve dimensão 100 indivíduos e a

terceira 75 indivíduos. Em termos gerais, não existem diferenças muito significativas

entre os erros padrão obtidos para as estimativas calculadas pela equação 3-3 e os

obtidos para as estimativas calculadas pela equação 3-9.

Ao analisar os intervalos de confiança19 e as respectivas amplitudes as

conclusões que se podem apurar são idênticas às retiradas pela análise do erro padrão.

19 O intervalo de confiança aqui considerado obteve-se através da expressão 3-6, já que para nenhum

destes casos se verificou que o valor de b pudesse ser menosprezado.

104

3.4 Método bootstrap para a Captura e Recaptura

Múltipla

Tal como se pode utilizar a metodologia bootstrap no método de captura e

recaptura simples com o estimador de Petersen, ver secção 2.7, também, no método de

captura e recaptura múltipla essa metodologia é válida.

A metodologia bootstrap utiliza-se numa grande variedade de problemas e

consiste em considerar uma certa amostra observada como se fosse a população e

através de reamostragem obter uma estimativa do parâmetro de interesse.

Supondo que se pretende estimar um parâmetro )(Ft=θ com base numa

amostra ( )nxxx ...,,, 21=x , designa-se por amostra bootstrap uma amostra aleatória

com reposição de tamanho n obtida de F , que se representa por ( )**2

*1

* ...,,, nxxx=x . A

partir de B amostras bootstrap *x , determinam-se B réplicas bootstrap da estimativa

)(ˆ xs=θ , que se representam por )(ˆ ** xs=θ . Assim, são obtidas B estimativas

bootstrap do parâmetro θ , )(ˆ* bθ , Bb ...,,2,1= , e o estimador bootstrap de θ define-

se como a média das B réplicas bootstrap de θ , ou seja, ∑=

=B

b

bB 1

** )(ˆ1ˆ θθ .

Ao aplicar o método bootstrap à situação em que se utiliza o método de captura

e recaptura múltipla para estimar a dimensão N de uma população fechada, as amostras

bootstrap, são obtidos a partir das amostras ix , de dimensão in , com si ...,,2= , em

que s representa o número de amostras realizadas (número de capturas). A partir de cada

uma destas amostras obtêm-se B amostras bootstrap independentes com reposição,

**2

*1 ...,,, iBii xxx , com si ...,,2= , que podem ou não conter indivíduos repetidos.

De notar que para o cálculo da estimativa da dimensão da população, como na

primeira amostra não existem indivíduos marcados, isto é, como 01 =m , ao utilizar a

metodologia bootstrap as amostras que se devem considerar para obter as amostras

bootstrap independentes com reposição são as amostras s...,,2 , pois são estas que vão

originar novos valores de indivíduos marcados, im , que vão influenciar o cálculo da

estimativa da dimensão da população.

105

As B amostras bootstrap obtidas, vão originar B valores para o número de

indivíduos marcados na amostra i de dimensão in , que se representam por

im , com

si ...,,2= . Deste modo, para cada uma das amostras bootstrap da segunda amostra de

dimensão 2n vai obter-se um novo valor de 2m , para cada uma das amostras bootstrap

da terceira amostra de dimensão 3n vai obter-se um novo valor de 3m , e assim

sucessivamente. Consequentemente, vão obter-se B estimativas para a dimensão da

população.

Aplicando o bootstrap ao método de estimação proposto por Schnabel (1938),

que não é mais do que uma extensão do método de Petersen, obtêm-se B réplicas

bootstrap que originam B valores de 1+= sMr , ou seja, **2

*1 ...,,, Brrr . Recorde-se que

1+= sMr é o número total de indivíduos diferentes capturados durante o estudo. Desta

forma, a equação de máxima verosimilhança, para cada uma das réplicas, é dada por

∏=

−=

s

i

ij

N

n

N 1

*

11r

, Bj ...,,1= ,

e cada uma das soluções obtidas, ( )1ˆ *N , ... , ( )BN *ˆ , é um estimador de máxima

verosimilhança da dimensão da população, N .

A média destes B novos valores de N será o estimador bootstrap da dimensão

total da população para a proposta de Schnabel,

( )∑=

=B

b

bNB

N1

** ˆ1ˆ .

Da mesma forma, para a estimativa modificada de Petersen de N no método de

captura e recaptura múltipla, equação 3-7, obtêm-se B valores de iN~

para cada

si ...,,3,2= , isto é:

( )( )( )

( )( )( )

( )( )1

1

11~...,,1

1)(

11)1(

~*

**

*1

** −

+

++=−

+

++=

Bi

ii

i

i

ii

im

nMBN

m

nMN

xx.

Como Chapman (1952) considera para a estimativa da dimensão da população a

média das diferentes estimativas alcançadas anteriormente, obtêm-se B estimativas

bootstrap dadas por:

( ) ( )1~

)(2

** −=∑=

sbNbNs

i

i , Bb ...,,1= .

3-16

3-17

106

A média destes B novos valores de N será o estimador bootstrap da dimensão

total da população para este método, ou seja,

( )∑=

=B

b

bNB

N1

** 1.

3.4.1 Intervalos de Confiança bootstrap

Tal como foi referido na subsecção 2.7.3, quando se utiliza o método de

bootstrap na estimação do parâmetro θ , o seu estimador bootstrap, *θ , é uma variável

aleatória com distribuição aproximadamente

∧2* ,ˆBseN θ em que Bse

representa o

estimador do erro padrão de *θ . Então, pode concluir-se que um intervalo de confiança

bootstrap para θ da forma usual é dado por:

×+×−

− BB sezsez 21*

21* ˆ,ˆ

αα θθ ,

onde 21 α−z é o quantil de probabilidade 21 α− da distribuição ( )1,0N .

Por forma a obter uma maior precisão na estimação intervalar, e tal como foi

considerado no método de captura e recaptura simples, também para o método de

captura e recaptura múltipla se vão abordar, ainda, outras duas alternativas para a

construção de intervalos de confiança para θ utilizando a metodologia bootstrap,

nomeadamente, o método de bootstrap–t e o método dos percentis. Estes métodos de

construção de intervalos de confiança vão ser utilizados com os estimadores da

dimensão da população propostos, anteriormente, pelas equações 3-16 e 3-18.

A partir das B réplicas provenientes das amostras bootstrap independentes com

reposição, **2

*1 ...,,, iBii xxx , com si ...,,2= , de tamanho in , constroem-se os B valores

de *Z , em que

)(

ˆ)(ˆ)(

*

**

bse

bbZ

−=

θθ com Bb ....,,2,1= , que, depois de ordenados por

ordem crescente, fornecem os percentis de bootstrap para a construção do intervalo de

confiança bootstrap-t a )%1(100 α−× para θ , que é dado por

×−×−

∧∧−

seZseZ)2*()21*( ˆ,ˆ αα θθ ,

3-18

107

em que )2*(αZ é o percentil empírico de ordem 2100 α× e )21*( α−Z é o percentil

empírico de ordem ( )21100 α−× dos valores de ( )bZ * , Bb ....,,2,1= .

De forma análoga, e sendo ( ) ),(ˆ **bixsb =θ com si ...,,2= e Bb ....,,2,1= as

réplicas correspondentes a cada amostra bootstrap, o intervalo de confiança de

( )α−× 1100 % pelo método de percentis, é definido por:

( ) ( )[ ]21*2* ˆ,ˆ αα θθ − ,

em que )2*(ˆ αθ é o percentil empírico de ordem 2100 α× e )21*(ˆ αθ − é o percentil

empírico de ordem ( )21100 α−× da lista ordenada por ordem crescente das B réplicas

de *θ .

Deste modo, considerando o estimador bootstrap da dimensão total da

população *N , resultante da equação 3-16, podem construir-se três intervalos de

confiança para N:

- utilizando a distribuição Normal

×+×−

− )ˆ(ˆ),ˆ(ˆ *21

**21

*NsezNNsezN BB αα ,

onde ( )∑=

=B

b

bNB

N1

** ˆ1ˆ ;

- utilizando o método bootstrap-t

( ) ( )

×−×−

∧∧−

NseZNNseZN ˆˆ,ˆˆ )2*()21*( αα ,

onde )2*(αZ e )21*( α−Z são os percentis empíricos de ordem 2100 α× e

( )21100 α−× , respectivamente, dos valores de ( )bZ * , Bb ....,,2,1= ;

- utilizando o método dos percentis

( ) ( )[ ]21*2* ˆ,ˆ αα −NN ,

onde )2*(ˆ αN e )21*(ˆ α−N são os percentis empíricos de ordem 2100 α× e

( )21100 α−× das B réplicas ( )bN *ˆ , Bb ....,,2,1= .

Da mesma forma para o estimador *N , resultante da equação 3-18, podem-se

construir os intervalos de confiança:

- utilizando a distribuição Normal

108

×+×−

− )(),( *21

**21

*NsezNNsezN BB αα ,

onde ( )∑=

=B

b

bNB

N1

** 1, Bb ....,,2,1= ;

- utilizando o método bootstrap-t:

( ) ( )

×−×−

∧∧−

NseZNNseZN)2*()21*( , αα

onde )2*(αZ e )21*( α−Z são os percentis empíricos de ordem 2100 α× e

( )21100 α−× , respectivamente, dos valores de ( )bZ * , Bb ....,,2,1= ;

- utilizando do método dos percentis

( ) ( )[ ]21*2* , αα −NN ,

onde )2*(αN e )21*( α−N são os percentis empíricos de ordem 2100 α× e

( )21100 α−× das B réplicas ( )bN * , Bb ....,,2,1= .

3.4.2 Exemplo prático

Vai aplicar-se a metodologia bootstrap ao método de captura e recaptura

múltipla para a estimação da abundância da população, no caso em que se considera a

recolha de apenas três amostras, isto é, no caso em que 3=s . Desta forma, a segunda

amostra, ( )2

...,,, 21 nxxx=2x , e a terceira amostra, ( )3

...,,, 21 nxxx=3x , vão ser as

amostras iniciais do método bootstrap. Para cada uma destas amostras, determinam-se

B amostras independentes com reposição, que geram B novos valores de 2m e 3m20 e,

consequentemente, B novas estimativas bootstrap da dimensão da população.

Aplicando de igual modo o algoritmo gerador de amostras de números aleatórios

entre 1 e 1000, tal como nos exemplos anteriores, e para várias dimensões das três

amostras, efectuaram-se 500 e 1000 amostras independentes com reposição da segunda

e da terceira amostra, isto é, B = 500 e B = 1000, obtendo-se para as estimativas da

dimensão da população, calculadas através das expressões indicadas em 3-16 e 3-18, e

respectivos intervalos de confiança, os resultados seguintes:

20 De notar que 01 =m , pois não existem marcados na primeira amostra recolhida.

109

Expressão 3-16 Dimensão

das amostras

Nº de réplicas

bootstrap *N )ˆ( *Nse B

CV%

I. C. Normal

Amp. do

I. C.

I. C. bootstrap-t

Amp. do

I. C.

I. C. método dos percentis

Amp. do

I. C.

500 1060 64 6 [934, 1187] 253 [860, 1063] 203 [943, 1191] 248 2001 =n

3002 =n

1503 =n 1000 1068 63 6 [944, 1193] 249 [854, 1045] 191 [959, 1203] 244

500 1085 127 12 [837, 1333] 496 [774, 1170] 396 [867, 1387] 520 2001 =n

1002 =n

1003 =n 1000 1093 127 12 [844, 1341] 497 [774, 1144] 370 [884, 1387] 503

500 1082 95 9 [896, 1267] 371 [821, 1128] 307 [898, 1271] 373 1501 =n

1502 =n

1503 =n 1000 1070 96 9 [881, 1258] 377 [821, 1109] 288 [911, 1271] 360

Expressão 3-18 Dimensão

das amostras

Nº de réplicas

bootstrap *N )( *Nse B

CV%

I. C. Normal

Amp. do

I. C.

I. C. bootstrap-t

Amp. do

I. C.

I. C. método dos percentis

Amp. do

I. C.

500 1050 64 6 [926, 1175] 249 [852, 1053] 201 [933, 1189] 256 2001 =n

3002 =n

1503 =n 1000 1058 62 6 [936, 1180] 244 [850, 1035] 185 [948, 1186] 238

500 1061 126 12 [813, 1309] 496 [763, 1141] 378 [856, 1366] 510 2001 =n

1002 =n

1003 =n 1000 1067 124 12 [825, 1309] 484 [767, 1123] 356 [864, 1350] 486

500 1036 89 9 [862, 1210] 348 [795, 1131] 336 [881, 1224] 343 1501 =n

1502 =n

1503 =n 1000 1025 91 9 [847, 1204] 357 [795, 1142] 347 [876, 1226] 350

Tabela 3-3- Estimativas, erros padrão e intervalos de confiança bootstrap para diferentes dimensões da segunda e terceira amostras e para 500 e 1000 réplicas, utilizando as equações 3-16 e 3-18.

Analisando os resultados obtidos para a estimação da dimensão da população

através dos dois estimadores considerados, verifica-se que o caso com menor erro

padrão e intervalo de confiança com menor amplitude, quer se tenham determinado 500

110

ou 1000 réplicas bootstrap, ocorre quando as dimensões das três amostras são,

respectivamente, 200, 300 e 150 indivíduos; é, também, esse um dos casos em que a

qualidade da estimativa é considerada muito boa.

Comparando os vários intervalos de confiança calculados utilizando quer o

estimador 3-16, quer o estimador 3-18, constata-se que, para estas simulações e com

estas dimensões das amostras, os que apresentam menores amplitudes são os intervalos

de confiança construídos pelo método bootstrap-t, ao contrário do que acontecia nas

simulações do exemplo da captura e recaptura simples (ver subsecção 2.7.4).

Tal como já foi referido no exemplo 3-4, quando comparados os resultados das

estimativas e dos intervalos de confiança obtidos a partir das duas expressões aqui

consideradas, estes não revelam diferenças muito significativas. No entanto, como se

pode apurar pela tabela, os melhores intervalos de confiança obtidos são os que se

construíram utilizando o estimador dado pela expressão 3-18, quer se analise as várias

dimensões das amostras consideradas, quer se analise o número de réplicas bootstrap

calculadas.

Quando comparados os resultados em função do número de réplicas bootstrap

efectuadas verifica-se que, à excepção do caso em as dimensões das três amostras foram

iguais a 150 indivíduos e, principalmente, quando se utilizou a expressão 3-18, estes são

ligeiramente melhores quando se efectuaram 1000 réplicas bootstrap. Por outro lado, os

intervalos de confiança onde foi mais notória essa melhoria, por terem amplitudes

inferiores, foram os construídos pelo método bootstrap-t. Para os outros intervalos de

confiança calculados não será vantajoso aumentar o número de réplicas bootstrap.

Quando comparados estes resultados com os obtidos sem a metodologia

bootstrap, ver tabela 3-2, verifica-se que, para os casos em que as dimensões das

amostras são, respectivamente, 2001 =n , 3002 =n , 1503 =n e 2001 =n , 1002 =n ,

1003 =n , só é vantajoso utilizar o método bootstrap se a construção do intervalo de

confiança for através do método bootstrap-t; para o caso em que 1501 =n , 1502 =n ,

1503 =n é mais vantajoso utilizar a metodologia bootstrap, quer se determinem 500 ou

1000 réplicas bootstrap, independentemente da forma especifica utilizada para a

construção dos intervalos de confiança bootstrap.

111

3.5 Método alternativo de Captura e Recaptura

Múltipla

Para algumas investigações realizadas em populações fechadas, em que é

necessário recolher mais do que duas amostras e nas situações em que os indivíduos são

permanentemente removidos da população, como é o caso do estudo da dimensão de

uma população de peixes num determinado local, existe um método de captura e

recaptura múltipla alternativo ao método proposto por Schnabel (secção 3.2.).

O método consiste em recolher previamente vários grupos de indivíduos da

população em estudo ou, eventualmente, originários de uma população semelhante à

população de interesse, marcar cada grupo de indivíduos com uma determinada marca e

devolvê-los à população durante um certo período de tempo. À medida que os grupos

são incluídos na população e se permite que os respectivos indivíduos marcados se

misturem com os indivíduos não marcados, recolhem-se amostras e contabilizam-se os

indivíduos marcados com as diferentes marcas em cada uma das amostras.

Considera-se um dado número finito de s grupos de indivíduos de dimensões

sRRR ...,,, 21 e posteriormente à colocação na população em estudo do grupo i de

dimensão iR , com si ...,,2,1= , é recolhida permanentemente uma amostra de in

indivíduos, contabilizando-se os indivíduos com a marca i nessa amostra, ou seja:

colocam-se os indivíduos do grupo 1, de dimensão 1R , com uma dada marca na

população em estudo, retiram-se 1n indivíduos e contabilizam-se os marcados que se

representa por 1m ; de seguida, colocam-se os indivíduos do grupo 2, de dimensão 2R ,

com uma nova marca, diferente da primeira, na população em estudo, retiram-se 2n

indivíduos e contabilizam-se os marcados que se representa por 2m , procedendo-se

desta forma até colocar na população todos os s grupos previamente escolhidos.

As dimensões dos grupos de indivíduos, sRRR ...,,, 21 , que se consideram para o

estudo em causa são fixas e escolhidas à priori, devendo ser bastante inferiores às

dimensões das amostras posteriormente recolhidas na população.

Considere-se a seguinte notação para a utilização deste método de captura e

recaptura múltipla:

N - dimensão total da população

112

iR - dimensão do grupo i, si ...,,2,1=

s - número total de grupos e de amostras

jn - dimensão da amostra j, sj ...,,2,1=

jm - número de indivíduos marcados na amostra j de dimensão jn

jim - número de indivíduos do grupo i de dimensão iR capturados na amostra j

de dimensão jn , ji ...,,1=

jjj mnu −=

∑=

=s

j

jur1

.

Como as várias dimensões das amostras, { }jn , são consideradas parâmetros

fixos e cada amostra é uma amostra aleatória simples, tem-se que a função massa de

probabilidade conjunta de { }jji um , é dada pelo produto de distribuições Multi-

Hipergeométricas (Seber, 1962) da seguinte forma:

{ }{ }( ) ∏∑ ∑

∑∑∑

=

=

=

=

=

=

−+

=s

i

i

i

j

i

j

jj

i

i

j

j

ii

i

i

i

j

j

i

i

j

j

jijji

n

nRN

u

uN

m

R

m

mR

m

mR

nRumf1

1

1

1

1

1

2

1

222

1

1

111 ...

,,

Fazendo 0log =∆ f , a estimativa de máxima verosimilhança, N , de N é a

única raiz superior a r de ( ) 0=Nh , onde

( ) ∏∑ ∑=

=

=

−+

−×−−=s

ii

j

i

j

jj

i

nRN

nNrNNh

1

1

1

1

1 .

Seber mostrou que N é assintoticamente centrado e que a sua variância

assintótica é estimada por:

3-19

3-20

113

[ ] ( )( )

( ).

ˆˆˆˆ

ˆ'

ˆˆrav

1

11

1111

=−

====

−+

−+

−−

=

−=

∑∑∑∑∑

s

ii

j

j

i

j

j

i

j

j

i

j

j

i

nRNnRN

n

rNN

r

Nh

rNN

A equação ( ) 0=Nh pode ser resolvida por um método iterativo proposto por

Robson e Regier, sendo que a última iteração conduz a uma aproximação para a

variância do estimador.

Para o caso de 2=s , ou seja, considerando apenas dois conjuntos de indivíduos

retirados inicialmente à população, assim como duas amostras recolhidas após a entrada

de cada um dos grupos na população, a expressão 3-20 com ( ) ( )2211 mnmnr −+−= é

dada por:

( )

−++−×

+−×−−=

121

2

1

1 11nRRN

n

RN

nNrNNh

e, como a estimativa de máxima verosimilhança de N é a raiz superior a r de ( ) 0=Nh ,

obtém-se, neste caso, uma equação do segundo grau. Da mesma forma, para o caso de

3=s , tem-se que:

( ) ,11121321

3

121

2

1

1

−−+++−×

−++−×

+−×−−=

nnRRRN

n

nRRN

n

RN

nNrNNh

com ( ) ( ) ( )332211 mnmnmnr −+−+−= e resolvendo a equação ( ) 0=Nh em ordem a

N, obtém-se uma equação do terceiro grau. Para os casos em que 3≥s existe

necessidade de utilização de métodos iterativos para a resolução da equação ( ) 0=Nh .

Na prática, nem sempre é possível recolher no início do estudo os diferentes

grupos de indivíduos de dimensões sRRR ...,,, 21 , pois, muitas vezes, torna-se mais

exequível recolher esses grupos durante o período de estudo, ou seja, à medida que se

vão recolhendo as amostras de dimensão jn com sj ...,,2,1= . Para esses casos a

função massa de probabilidade conjunta de { }jji um , é dada por:

114

{ }{ }( ) ∏∑

∑∑∑

=−

=

==

=

−−

=s

i

i

i

j

j

i

i

j

j

i

j

j

ii

i

i

i

j

j

jijji

n

nN

u

uRN

m

R

m

mR

nRumf1

1

1

1

11

1

1

111 ...

,, .

Nesta situação a dimensão iR diz respeito aos indivíduos que são recolhidos no

instante i e que não apresentam ainda nenhuma marca. Assim, ao retirar um novo

conjunto de indivíduos, no caso de haver algum já marcado este é devolvido à

população sem lhe ser colocada nova marca.

A estimativa de máxima verosimilhança da dimensão da população N , é a

maior raiz da equação

∏∑

∑∏

∑∑

∑∑

=−

=

=

=−

==

==

=

−−

−−s

ii

j

j

i

j

js

ii

j

j

i

j

j

i

j

j

i

j

j

nN

nN

uRN

uRN

11

1

1

11

11

11 .

Tal como na secção 3.2 relativa ao censo de Schnabel, também neste caso os

valores da estimativa da dimensão da população, N , e da sua variância, ( )Nrav , são os

mesmos quer a dimensão das amostras sejam variáveis aleatórias quer sejam parâmetros

fixos.

115

4 Considerações finais

Ao longo deste trabalho foram referenciados vários métodos para estimar a

dimensão de uma população fechada, quando não há entrada nem saída dos seus

elementos. Tanto no método da captura e recaptura simples como no método da captura

e recaptura múltipla, devem ter-se em conta aspectos como: se os elementos da

população têm igual probabilidade de serem escolhidos; se as amostras são aleatórias e

independentes umas das outras e se as marcas não se degradam, desaparecem ou

prejudicam o elemento em estudo, afectando a recaptura dos elementos da população.

Sabe-se que, na prática, nem sempre se conseguem garantir estes pressupostos,

principalmente quando a população em estudo é uma população animal. No entanto,

alguns autores dedicam o seu estudo a criar métodos de controlo de certos pressupostos

ou de certos imprevistos que podem ocorrer na recolha das amostras. Outros, tentam de

alguma forma ajudar os investigadores na melhor escolha das marcas, na dimensão mais

adequada das amostras e no número de amostras que devem ser recolhidas, conforme a

população e o objecto em estudo. Exemplo disso são os autores Robson e Regier que

criaram gráficos de apoio para a escolha da dimensão da amostra conforme a

necessidade de precisão do estudo, tal como se referiu na secção 2.4. As conclusões dos

exemplos práticos aqui realizados para o método de captura e recaptura simples estão

em concordância com as suas propostas e de acordo com os gráficos sugeridos.

Ao longo deste trabalho foram realizados vários exemplos que tiveram como

objectivo analisar os resultados dos diferentes métodos sugeridos. Assim, houve a

necessidade de construir um algoritmo computacional gerador de amostras de dados

aleatórios constituídos pelos números de 1 a 1000, de forma a simular a recolha das

várias amostras do método de captura e recaptura e proceder à contagem dos indivíduos

marcados nas várias recapturas. Para todas as simulações efectuadas ao longo deste

trabalho, visando estimar a dimensão de uma população fechada, neste caso 1000=N ,

foram consideradas várias amostras de diferentes dimensões.

No caso do método de captura e recaptura simples, em que é necessário recolher

duas amostras aleatórias sem reposição, foram consideradas para a primeira amostra

dimensões que variaram entre 100 e 200 indivíduos e, para cada uma delas, considerou-

116

se a segunda amostra de dimensão 150, 100, 75, 50 e 25% da dimensão da primeira.

Para todos esses casos calcularam-se estimativas da dimensão da população utilizando

os estimadores propostos por Petersen (1965), por Chapman (1951) e por Bailey (1951),

bem como os respectivos intervalos de confiança. Deste modo, verificou-se que os

estimadores da dimensão da população têm maior variabilidade quanto maior for a

dimensão das amostras, conforme se pode constatar através da análise das tabelas e dos

gráficos de barras do exemplo 2-2, que apresentam os resultados das quarenta e uma

simulações efectuadas. Por outro lado, e tal como era previsto, quanto maior for a

dimensão das amostras e quanto menor for a diferença entre a dimensão das duas

amostras recolhidas, melhor são as estimativas da dimensão da população e menor é o

respectivo erro padrão estimado. Quando se fez variar a dimensão das duas amostras e

se considerou para estimativa da dimensão da população a mediana das quarenta e uma

estimativas obtidas, os resultados foram bons para a maioria dos casos mas, ao analisar

os resultados dos intervalos de confiança obtidos para cada caso, verificou-se que os que

tinham menor amplitude ocorreram quando a primeira amostra teve de dimensão o valor

mais elevado considerado nestas simulações, 2001 =n , e a segunda amostra teve de

dimensão 200 e 300 indivíduos (ver Tabela 2-3 e Tabela 2-4).

De todas as estimativas da dimensão da população determinadas pelas propostas

de Petersen, Chapman e Bailey, as que obtiveram melhores resultados foram as

calculadas pela proposta de Petersen. Já quando se analisaram os erros padrão e os

intervalos de confiança, apesar de não se registarem diferenças significativas entre eles,

os calculados através da estimativa da dimensão da população proposta por Chapman

apresentaram valores inferiores e menores amplitudes, respectivamente.

O método bootstrap é um método de reamostragem que tem tido uma vasta

aplicação em várias áreas da estatística e que se pode aplicar igualmente quando se

pretende estimar a dimensão de uma população fechada usando o método de captura e

recaptura simples ou múltipla.

Para as amostras obtidas no exemplo 2-4, em que se fixou a dimensão da

primeira amostra em 200 indivíduos e, se fez variar a dimensão da segunda amostra em

300, 200, 150, 100 e 50 indivíduos, para a aplicação do método bootstrap foram

determinadas 500 e 1000 réplicas bootstrap. Todas as estimativas da dimensão da

população em que se aplicou a metodologia bootstrap foram calculadas através da

proposta de Petersen e os intervalos de confiança foram construídos de três formas

117

distintas: assumindo que a distribuição do estimador bootstrap é bem aproximada pela

distribuição Normal, pelo método bootstrap-t e pelo método dos percentis.

Analisados os resultados, confirmou-se que a aplicação desta metodologia de

reamostragem ao método de captura e recaptura traz grandes vantagens na estimação da

dimensão da população, já que os resultados obtidos reduzem significativamente o erro

padrão das estimativas, aumentando a precisão dos resultados, e permitem construir

intervalos de confiança com menores amplitudes. No entanto, quando as amostras têm

dimensões consideravelmente grandes, como nos exemplos aqui simulados, de 200 e

300 indivíduos para a dimensão da segunda amostra, não existiram grandes vantagens

no aumento de 500 para 1000 réplicas bootstrap, já que as diferenças não foram

significativas ao ponto de justificar esse aumento no número de réplicas.

Quando se comparam os intervalos de confiança construídos com e sem a

metodologia bootstrap, verificou-se, para as simulações aqui realizadas, que essa

metodologia é vantajosa principalmente quando a dimensão da segunda amostra é

inferior à dimensão da primeira. No entanto, caso o esforço de amostragem tenha sido

elevado, ou seja, quando se consegue recolher amostras com dimensões razoáveis, pode

não se justificar a aplicação da metodologia bootstrap.

Os resultados dos intervalos de confiança construídos pelos três processos da

metodologia bootstrap, não revelaram grandes diferenças e, por isso, nas simulações

aqui realizadas, não se conseguiu distinguir nenhum dos métodos como mais vantajoso.

Quando se passa para a aplicação prática do método de captura e recaptura

múltipla, neste trabalho realizado apenas para três amostras, o algoritmo necessário é

mais complexo e mais difícil de pôr em prática; como tal, as simulações efectuadas

foram em menor número do que no caso da captura e recaptura simples e não se

consideraram para as duas primeiras amostras dimensões que poderiam ter como

resultado piores estimativas da dimensão da população em estudo, como se concluiu

pelos resultados do exemplo 2-2, secção 2.5. Deste modo, as simulações realizadas para

o método de captura e recaptura múltipla tiveram como base três amostras em que a

primeira amostra teve dimensão 150 e 200 indivíduos, a segunda teve dimensão a variar

entre os 100 e 300 indivíduos e a terceira foi a que apresentou maior variação na sua

dimensão, entre 50 a 400 indivíduos.

Os resultados obtidos para a estimativa da dimensão da população usando o

estimador proposto por Schnabel, expressão 3-2, e o estimador modificado de Petersen,

118

expressão 3-7, e apresentados na Tabela 3-1, permitem uma vez mais verificar que,

quanto maior for a dimensão das amostras melhores são os resultados; nestas

simulações, tal facto ocorreu em todos os casos em que a dimensão da primeira amostra

foi de 200 indivíduos e a dimensão da segunda amostra foi de 300 indivíduos,

destacando-se o caso em que a terceira teve de dimensão 400 indivíduos. Analisando as

estimativas obtidas por cada uma das expressões, apesar de, de um modo geral, não

haver diferenças significativas entre as estimativas, as que mais se aproximaram do

valor da dimensão da população, foram aquelas em que se utilizou a proposta de

Schnabel. Quando analisados os resultados da estimação do erro padrão e respectivo

intervalo de confiança, verifica-se que à medida que as dimensões da segunda e da

terceira amostra aumentam diminui o valor do erro padrão e menor é a amplitude do

intervalo de confiança, destacando-se o caso em que as dimensões das amostras foram,

respectivamente, 2001 =n , 3002 =n e 4003 =n .

Ao aplicar o método bootstrap a alguns exemplos das simulações anteriores

verifica-se que, ao contrário do que sucedia sem a metodologia bootstrap e apesar de

não se verificarem diferenças muito significativas, os melhores resultados para as

estimativas da dimensão da população e para o intervalo de confiança respectivo, foram

obtidos utilizando a modificação do estimador de Petersen, dado pela expressão 3-18.

Por outro lado, quando se construíram os intervalos de confiança pelas três

propostas apresentadas com a metodologia bootstrap, ao contrário do que sucedia no

método de captura e recaptura simples, os melhores resultados obtidos no método de

captura e recaptura múltipla com três amostras foram obtidos utilizando o método

bootstrap-t, sendo também para esses intervalos que se revelou existir alguma vantagem

em aumentar o número de réplicas bootstrap. Nos restantes casos, o aumento do número

de réplicas bootstrap de 500 para 1000 só se verificou vantajoso, para as simulações

aqui realizadas, nos casos em que as dimensões das amostras foram mais baixas,

nomeadamente, no caso em que 1501 =n , 1502 =n e 1503 =n .

Nos exemplos práticos do método de captura e recaptura múltipla, apenas se

consideraram três amostras, visto que para um maior número de amostras era necessário

um algoritmo mais complexo e mais pesado.

Este trabalho teve como objectivo pôr em prática alguns conceitos e conclusões

mencionados por alguns autores relativamente ao método de captura e recaptura. Mas,

mais importante que tudo é o facto de ser possível e bastante proveitoso poder aplicar a

119

metodologia bootstrap a esta situação, já que, em termos práticos, quando se pretende

estimar a dimensão de uma população, nomeadamente populações animais, torna-se

muito difícil e até dispendioso a recolha de várias amostras e ao aplicar a metodologia

bootstrap esse custo pode ser deveras minimizado. A aplicação dessa metodologia tem

por objectivo recolher um menor número de amostras que servirão para, através de um

algoritmo computacional, produzir estimativas mais precisas e intervalos de confiança

com menor amplitude.

Vários foram os estudos desenvolvidos tendo em conta a especificidade da

população que se pretende estimar, principalmente no que respeita a populações

animais. Aspectos como a variabilidade na captura, o tipo de marca utilizada, a forma

como se lida com os animais na sua recolha e na colocação das marcas, o método mais

adequado para os devolver à população, a perda das marcas utilizadas, entre outros,

podem afectar seriamente o estudo. Alguns autores desenvolveram modelos tendo em

conta alguns desses aspectos mais específicos: Leslie e outros (1953) efectuaram

estudos em que consideravam a população dividida por subáreas quando existia

variabilidade na captura; Kikkawa (1964) e Pucek (1969) consideraram modelos em que

a população estava dividida por grupos em função do sexo, da idade, da espécie do

animal, etc; Corbet (1952) estudou o facto de algumas espécies terem certas

preferências relativamente ao seu habitat; Robson (1969) considerou o facto de ser

necessário ter em atenção o tamanho do animal na recolha das amostras. No que

respeita ao tipo de marca a utilizar Guthrie e outros (1967), Keith e outros (1968),

Bouck e Ball (1966) estudaram o efeito que certas marcas produziam nos animais de

certas espécies. Por outro lado, Buckner (1957) estudou a importância para o modelo de

manter algum controlo regular nas armadilhas para capturar certos animais. Pucek

(1969) e Andrzejewski e outros (1966) investigaram algumas considerações a ter em

conta na escolha da marca a utilizar; da mesma forma Richer (1958), Paulik (1963),

Clancy (1963) e Shetter (1967) estudaram o efeito que as marcas têm nos animais

(nomeadamente nos peixes), o efeito produzido pela captura e posterior devolução ao

seu habitat natural. Métodos que levam em consideração a perda das marcas, ou o uso

de duas marcas são discutidos em detalhe por Seber e Felton (1981).

Existem vários modelos que consideram o esforço necessário na recolha de cada

uma das amostras para determinar a estimativa da dimensão da população. Esses

modelos partem do pressuposto que a dimensão de cada amostra recolhida é

120

proporcional ao esforço necessário na sua recolha, ou seja, a um determinado valor

atribuído ao esforço na recolha de uma amostra resulta uma certa proporção fixa de

indivíduos da população. Se, por outro lado, houver recolhas de amostras sem

reposição, a diminuição na população total leva a que, da mesma forma, haja uma

diminuição do esforço necessário na recolha de cada indivíduo. Norway (Hjort e

Ottestad, 1933) foi o primeiro a desenvolver essas técnicas em 1914 que hoje são muito

utilizadas no estudo de populações de peixes e pequenos mamíferos, onde o esforço é

medido na maioria dos casos através de redes com as mesmas características.

Tanto Leslie e Davis (1939) como Richer (1958) apresentaram outros métodos

para medir o esforço necessário na recolha das amostras, tendo De Lury (1951) e

Chapman (1954) realizado alguns desenvolvimentos nesses métodos.

Alguns autores mencionados por Seber, tanto no seu livro como nos artigos mais

recentes, realizaram estudos específicos de acordo com uma determinada população

animal. Assim pode-se concluir que todos estes aspectos devem ser considerados em

função da população em estudo. Obviamente que algumas considerações são específicas

para a população em estudo: por exemplo, o tipo de marca a usar nos peixes e as suas

particularidades não são as mesmas a ter em conta para os insectos.

Poderia ter-se alargado o âmbito deste trabalho, bastando para isso considerar,

não apenas o modelo mais simples das múltiplas recapturas, o modelo 0M , como

também um dos modelos referidos na secção 3.1 do terceiro capítulo: bM , hM , tM ,

bhM , thM ,

btM ou bhtM que têm em conta alguma variação ao modelo base, como

referido anteriormente.

No caso da população ser aberta é necessário haver alguma informação

adicional, pois devem considerar-se nascimentos, mortes e migrações obtendo-se, desta

forma, modelos mais complexos, com um maior número de condições iniciais, assim

como um maior número de parâmetros a ter em conta. Vários autores realizaram estudos

nesse campo e como referência destacam-se em estudos mais recentes os autores Seber

(1982) e Pollock (1991).

Alguns métodos de captura e recaptura múltipla aplicados a populações fechadas

também se podem aplicar a populações abertas tendo em conta mais alguns

pressupostos iniciais ou algumas modificações no modelo original. Na opinião dos

121

autores Jolly (1965) e Seber (1965), um exemplo disso é o método de Schnabel

(subsecção 3.2).

Por outro lado, no método de captura e recaptura múltipla para a estimação da

dimensão de uma população aberta é particularmente útil o uso de modelos loglineares

como referem os autores Bishop, Fienberg e Holland (1975), Cormack (1979) e Heckel

e Roughgarden (1979). Testes de ajustamento dos modelos são propostos por Pollock,

Hines e Nichols (1985).

Por outro lado, Buckland e Garthwaite (1991) referem que a metodologia

bootstrap se pode aplicar em estudos efectuados para populações abertas e que estes são

mais simples e acessíveis de pôr em prática e que a validação dos pressupostos é feita

com maior facilidade.

122

123

Índice de tabelas

Tabela 2-1 – Qualidade da estimativa em função do coeficiente de variação _____________________ 22

Tabela 2-2- Estimativas da dimensão da população segundo Petersen, Chapman e Bailey __________ 44

Tabela 2-3 - Estimativas do total da população, erro padrão e intervalo de confiança respectivo _____ 47

Tabela 2-4- Estimativas da população, erro padrão e intervalo de confiança respectivo quando se fixa a

dimensão da primeira amostra e se faz variar a dimensão da segunda amostra.___________________ 50

Tabela 2-5- Intervalos de confiança a 95% calculados com a estimativa de Petersen, de Chapman e de

Bailey pela distribuição Normal, pelo teste do qui-quadrado e pela razão de verosimilhanças._______ 59

Tabela 2-6 - Estimativas bootstrap de Petersen da dimensão da população e respectivos erros padrão

estimados, obtidos para 500 e 1000 réplicas e diferentes dimensões da segunda amostra. ___________ 68

Tabela 2-7: Estimativas e intervalos de confiança bootstrap para diferentes dimensões da segunda

amostra e para 500 e 1000 réplicas bootstrap. _____________________________________________ 81

Tabela 2-8- Intervalos de confiança a 95%, para a dimensão da população usando os diferentes métodos

com o estimador de Petersen. ___________________________________________________________ 84

Tabela 3-1 - Estimativas da dimensão da população utilizando as expressões 3-3 e 3-9. ____________ 99

Tabela 3-2 – Estimativas da dimensão da população e respectivos erros padrão e intervalos de

confiança.__________________________________________________________________________ 102

Tabela 3-3- Estimativas, erros padrão e intervalos de confiança bootstrap para diferentes dimensões da

segunda e terceira amostras e para 500 e 1000 réplicas, utilizando as equações 3-16 e 3-18. _______ 109

124

125

BIBLIOGRAFIA Bailey, Norman T. J. – “On Estimation the Size of Mobile Populations from Recapture

Data.” Biometrika 38, 1, 293 – 306.

Barnett, Vic (1991) – “Sample Survey: Principles & Methods.” Hodder Headline

Group.

Breiman, Leo (1994) – “The 1991 Census Adjustment: Undercount or Bad Data?”

Statistical Science vol. 9, no 4, 458 – 537

Brownie, Cavell (1987) – “Recent Models for Mark-Recapture and Mark-Resighting

Data.” Biometrics 43, 1017 – 1022.

Brownie, Cavell; Pollock, Kenneth H. (1985) – “Analysis of Multiple Capture-

Recapture Data Using Band-Recovery Methods.” Biometrics 41, 411 – 420.

Buckland, Stephen T. (1984) – “Monte Carlo Confidence Intervals.” Biometrics 40, 811

– 817.

Buckland, Stephen T.; Garthwaite, Paul H. (1991) – “Quantifying Precision of Mark –

Recapture Estimates Using the Bootstrap and Related Methods.” Biometrics 47, 255 –

268

Chapman, Douglas G. – “The Estimation of Biological Populations.” Ann. Math. Statist.

25, 1-15.

Cormack, R. M. (1992) – “Interval Estimation for Mark – Recapture Studies of Closed

Populations.” Biometrics 48, 567 – 576.

Darroch J. N. (1958) – “The Multiple-Recapture Census.” Biometrika 45, 343 – 359.

Davison A. C.; Hinkley D. V. (1997) – “Bootstrap Methods and Their Application

(Cambridge Series in Statistical and Probabilistic Mathematics).” Cambridge University

Press

Efron, Bradley (1982) – “The Jackknife, the Bootstrap and Other Resampling Plans.”

Philadelphia: Society for Industrial and Applied Mathematics

Efron, Bradley; Tibshirani, Robert J. (1993) – “An Introduction to the Bootstrap.” 1º

volume. Chapman and Hall

Elzinga, Caryl L. [et al.] (2001) – “Monitoring plant and animal populations.”

Massachusetts 02148 USA, Blackwell Science, Inc

126

Fienberg, Stephen E. (1972) – “The multiple capture census for closed populations and

incomplete k2 contingency tables.” Biometrika 59, 3, 591 – 603.

Garthwaite, Paul H.; Buckland, Stephen T. (1990) – “Analysis of a Multiple –

Recapture Census by Computing Conditional Probabilities.” Biometrics 46, 231 – 238.

Hogan, Howard (1993) – “The 1990 Post-Enumeration Survey: Operations and

Results.” Journal of the American Statistical Association vol. 88, no. 423, 1047 – 1060.

International Working Group for Disease Monitoring and Forecasting (1995) –

“Capture-Recapture and Multiple-Record Systems Estimation I: History and Theoretical

Development” American Journal of Epidemiology 142, 10, 1047 – 1058.

International Working Group for Disease Monitoring and Forecasting (1995) –

“Capture-Recapture and Multiple-Record Systems Estimation II: Applications in

Human Diseases.” American Journal of Epidemiology 142, 10, 1059 – 1068.

Jolly, G. M. (1982) – “Mark-Recapture Models with Parameters Constant in Time.”

Biometrics 38, 301 – 321.

Lohr, Sharon L. (1999) – “Sampling: Design and Analysis.” Duxbury Press.

International Thompson Publishing Company.

McDonald J. F.; Palanacki D. (1989) – “Interval Estimation of the Size of a Small

Population from a Mark-Recapture Experiment.” Biometrics 45, 1223 – 1231.

Pollock, Kenneth H. (1991) – “Modeling Capture, Recapture, and Removal Statistics

for Estimation of Demographic Parameters for Fish and Wildlife Populations: Past,

Present, and Future.” Journal of the American Statistical Association Vol. 86, No. 413,

225 – 238.

Seber, G. A. F. (1982) – “The Estimating of Animal Abundance and Related

Parameters.” (2ª Edição). Griffin, London.

Seber, G. A. F. (1986) – “A Review of Estimation Animal Abundance.” Biometrics 42,

267 – 292.

Seber, G. A. F. (1992) – “A Review of Estimating Animal Abundance II.” International

Statistical Review 60, 2, 129 – 166.

Seber, G. A. F.; Felton R. (1981) – “Tag loss and the Petersen mark-recapture

experiment.” Biometrika 68, 1, 211 – 219.

Thompson, Steven K. (1992) – “Sampling.” A Wiley-Interscience Publication. John

Wiley & Sons, Inc.

127

ANEXOS

128

129

Anexo 1

Diagrama retirado do artigo de Pollock, Kenneth H. (1991) – “Modeling Capture,

Recapture, and Removal Statistics for Estimation of Demographic Parameters for Fish

and Wildlife Populations: Past, Present, and Future.” Journal of the American Statistical

Association Vol. 86, No. 413, 225 – 238.

130

Anexo 2

131

Anexo 3

132

Anexo 4

133

Anexo 5