TÉCNICAS DE AMOSTRAGEM - Apostila Zélia

Embed Size (px)

Citation preview

Tcnicas de Amostragem (parte 2)(2averso)Zlia Magalhes BianchiniAgosto/20032Contedo1 Estimadores Especiais 11.1 Informaes auxiliares em amostragem. . . . . . . . . . . . . 11.2 Estimao de uma razo. . . . . . . . . . . . . . . . . . . . . 11.2.1 Propriedades do estimador de uma razo . . . . . . . . 31.2.2 Varincia do estimador de uma razo . . . . . . . . . . 91.2.3 Estimao da varincia do estimador de uma razo . . 141.2.4 Preciso do estimador de uma razo . . . . . . . . . . . 141.3 Estimadores de razo para o total e a mdia. . . . . . . . . . 161.3.1 Varincias dos estimadores de razo para o total e amdia . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.2 Estimao das varincias dos estimadores de razo parao total e a mdia . . . . . . . . . . . . . . . . . . . . . 191.3.3 Comparao da preciso do estimador de razo com ado estimador simples em amostragem aleatria simples 191.4 Estimadores de razo em amostragem estraticada . . . . . . 201.4.1 Estimador de razo combinada . . . . . . . . . . . . . 201.4.2 Estimador de razo separada . . . . . . . . . . . . . . . 261.4.3 Comparao dos estimadores de razo separada e com-binada . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.4.4 O uso de estimadores de razo . . . . . . . . . . . . . . 321.5 Estimadores de Regresso . . . . . . . . . . . . . . . . . . . . 331.5.1 Comparao dos estimadores de regresso, razo e sim-ples da mdia sob amostragem aleatria simples . . . . 361.5.2 O uso de estimadores de regresso . . . . . . . . . . . . 371.6 Ps-estraticao. . . . . . . . . . . . . . . . . . . . . . . . . 381.6.1 Estimao do total e da mdia . . . . . . . . . . . . . . 391.6.2 Preciso dos estimadores com ps-estraticao . . . . 401.7 O uso de informaes auxiliares na estimao . . . . . . . . . . 431.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4734 CONTEDO2 Amostragem de Conglomerados 532.1 Conceituao Bsica . . . . . . . . . . . . . . . . . . . . . . . 532.2 Amostragem de reas . . . . . . . . . . . . . . . . . . . . . . 552.3 Conglomerados em 1 estgio . . . . . . . . . . . . . . . . . . 562.3.1 Probabilidades iguais de seleo . . . . . . . . . . . . . 562.3.2 Estimao de propores na Ac1 . . . . . . . . . . . . 652.3.3 Coeciente de Correlao Intraclasse . . . . . . . . . . 692.3.4 Estimao do coeciente de correlao intraclasse . . . 752.3.5 Ecincia da Ac1 em relao AAS com conglomera-dos de tamanhos iguais . . . . . . . . . . . . . . . . . . 772.4 Controle na variao de tamanho . . . . . . . . . . . . . . . . 822.5 Probabilidades desiguais de seleo . . . . . . . . . . . . . . . 832.5.1 Seleo dos conglomerados comprobabilidades desiguaise com reposio . . . . . . . . . . . . . . . . . . . . . . 832.6 Estraticao de conglomerados . . . . . . . . . . . . . . . . . 932.6.1 Estimadores e respectivas precises . . . . . . . . . . . 942.7 Estimador de razo . . . . . . . . . . . . . . . . . . . . . . . . 972.7.1 Estimador de razo baseado no tamanho dos conglom-erados . . . . . . . . . . . . . . . . . . . . . . . . . . . 982.7.2 Estimador de razo baseado em uma caracterstica queno seja o tamanho do conglomerado. . . . . . . . . . 1012.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1023 Conglomerados em 2 estgios 1093.1 Probabilidades iguais de seleo . . . . . . . . . . . . . . . . . 1093.1.1 Introduo e denies bsicas . . . . . . . . . . . . . . 1093.1.2 Parmetros da caracterstica y . . . . . . . . . . . . . . 1123.1.3 Estatsticas da amostra em cada estgio . . . . . . . . 1133.1.4 Estimadores de total e mdias e respectivas varincias . 1143.1.5 Estimadores das varincias dos estimadores de total emdias . . . . . . . . . . . . . . . . . . . . . . . . . . 1193.1.6 Amostra autoponderada . . . . . . . . . . . . . . . . . 1233.1.7 Dimensionamento da amostra de conglomerados em 2estgios . . . . . . . . . . . . . . . . . . . . . . . . . . 1273.1.8 Efeito de conglomerao . . . . . . . . . . . . . . . . . 1353.2 Controle de variao de tamanho das UPAs . . . . . . . . . . 1373.2.1 Probabilidades desiguais de seleo das unidades primrias1383.2.2 Estraticao das unidades primrias e seleo comprobabilidades desiguais de seleo . . . . . . . . . . . 1473.2.3 Estimador de razo . . . . . . . . . . . . . . . . . . . . 1493.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153CONTEDO i4 Conglomerados em 3 estgios 1614.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1614.2 Seleo com probabilidades desiguais . . . . . . . . . . . . . . 1614.2.1 Estimador no viciado de Y . . . . . . . . . . . . . . . 1624.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1635 Estimao de varincias 1655.1 Porque importante estimar varincias? . . . . . . . . . . . . 1655.2 Problemas para estimar varincias . . . . . . . . . . . . . . . 1655.3 Mtodos para estimar varincias . . . . . . . . . . . . . . . . . 1665.3.1 Mtodo de Linearizao de Taylor ou -mtodo . . . . 1665.3.2 Mtodo do Conglomerado Primrio (Ultimate Cluster- Hansen et al, 1953) . . . . . . . . . . . . . . . . . . . 1685.3.3 Mtodos de Replicao . . . . . . . . . . . . . . . . . . 1705.4 Sistemas para estimao de varincias . . . . . . . . . . . . . . 1726 Dupla amostragem 1756.1 Descrio da tcnica . . . . . . . . . . . . . . . . . . . . . . . 1756.2 Consideraes sobre o custo . . . . . . . . . . . . . . . . . . . 1766.3 Dupla amostragem para estraticao . . . . . . . . . . . . . . 1776.3.1 Estimador no viciado para V yd,est . . . . . . . . . . 1806.3.2 Estimao de uma proporo na dupla amostragempara estraticao . . . . . . . . . . . . . . . . . . . . 1806.4 Dupla amostragem para estimadores de razo . . . . . . . . . 1816.5 Dupla amostragem para probabilidades desiguais . . . . . . . 183PrefcioEstas notas de aula vm sendo ministradas na disciplina de Tecnologia daAmostragem II do Curso de Graduao em Estatstica da Escola Nacionalde Cincias Estatsticas - ENCE. Trata-se da apresentao da teoria e apli-cao de estimadores especiais e das tcnicas de seleo e de estimao emamostras de conglomerados em um ou mais estgios e de dupla amostragem.As notas de aula preparadas por Pedro Luis do Nascimento Silva quandode sua atuao como professor no referido curso, bem como as refernciasbibilogrcas bsicas, serviram como base para a elaborao deste material.ii CONTEDOCabe esclarecer que inteno incorporar num mesmo volume o contedoda disciplina de Tecnologia de Amostragem I, que corresponde aos funda-mentos e tcnicas bsicas para selecionar amostras e realizar estimao empesquisas por amostragem: conceitos bsicos de amostragem, amostragemaleatria simples come semreposio, distribuies amostrais e erro amostral,estimao de propores e domnios, clculo de tamanhos de amostra, amostra-gem sistemtica, amostragem estraticada e amostragem com probabilidadesdesiguais.A realizao deste trabalho deve-se em grande parte ao incentivo de PedroLuis do Nascimento Silva para a preparao de um livro de amostragem emportugus com o objetivo de facilitar o aprendizado dos alunos de graduaoem Estatstica na aplicao de tcnicas para selecionar amostras e realizarestimao em pesquisas por amostragem.Uma primeira verso dessas notas vinha sendo utilizada no curso de Gra-duao da ENCE no 6operodo, desde o 2osemestre de 1999. Agradeo aosalunos pelas indicaes de correes efetuadas, em especial a Adrian HeringerPizzinga, Ralph dos Santos Silva e Rodrigo Lage de Sousa, do 6operodo do2osemestre de 1999.Agradeo a Waldecir Bianchini pela colaborao no aprendizado para autilizao do processador de texto Scientic Workplace e pela sua compreen-so e de nossos lhos (Renata, Fernanda e Henrique) das inmeras horasextraordinrias de trabalho desviadas do convvio familiar para a realizaodesta empreitada para a primeira verso.Esta verso ainda passar por outras revises e quaisquer sugestes sobreeventuais falhas e omisses e sobre a incorporao de novos temas so bemvindas em busca do aprimoramento do texto, do uso adequado da teoria eaplicaes em amostragem e da prepararao do prossional de Estatsticapara os desaos que a carreira certamente lhe proporcionar.Zlia Magalhes BianchiniRio de Janeiro, agosto de 2003.Captulo 1Estimadores Especiais1.1 Informaes auxiliares em amostragemAlm da varivel de interesse yi, uma ou mais variveis xi podem estarassociadas com a i-sima unidade da populao. Por exemplo, se a varivelde interesse o nmero de cabeas de gado em uma determinada fazenda,variveis auxiliares pode incluir a rea da fazenda, o tipo de vegetao, etc.Em algumas situaes, os valores para a caracterstica x so conhecidospara toda a populao, enquanto que em outras situaes os valores de x soconhecidos s para as unidades da amostra. Em muitas pesquisas, o valorda varivel de interesse de um censo anterior pode servir como uma varivelauxiliar.Informaes auxiliares podem ser usadas no desenho amostral ou na es-timao. Variveis usadas na estraticao, ou como medidas de tamanhopara a seleo com probabilidades proporcional ao tamanho, representam ouso de informaes auxiliares no desenho amostral.Na estimao de total ou de mdia de uma caracterstica y, a relao entreyi e xi pode muitas vezes ser aproveitada para produzir estimativas maisprecisas do que estimativas que utilizam apenas as informaes dos dados dacaracterstica y.Estimadores de razo, de regresso e de ps-estraticaoso exemplos do uso de informaes auxiliares na estimao.1.2 Estimao de uma razoFreqentemente na prtica de pesquisas por amostragem, o valor a ser esti-mado com a amostra uma razo entre duas variveis que varia de unidadepara unidade da populao.Um exemplo, que pode ser citado, a necessidade de se estimar a razo12 CAPTULO 1. ESTIMADORES ESPECIAISentre os gastos das famlias com alimentao e a renda das famlias. Outroexemplo seria a razo entre a quantidade colhida de certo produto pela reaplantada, medindo a produtividade da lavoura. Ainda outro exemplo se-ria a razo entre o salrio dos trabalhadores da indstria e o nmero detrabalhadores da indstria, medindo o salrio mdio dos trabalhadores daindstria.Em todos estes exemplos, o que se procura conhecer o valor de umarazo R onde R = YX .Considere-se a populao PN = {U1, U2, , UN}, onde sero investigadasduas caractersticas, x e y, gerando uma populao-matriz bivariadaPN(x, y) = {(X1, Y1), (X2, Y2), , (XN, YN)} ,onde:___XI = x(UI)YI = y(UI)I {1, 2, , N}Pode-se ento denir o parmetro razo na populao, R, de formaque:R = YX =NPI=1YINPI=1XI= YXPonha-se ento, o problema de estimar a razo R a partir de uma amostraaleatria simples sem reposio de n unidades de PN ,{u1, u2, , un}, ondesero investigadas as caractersticas x e y, fornecendo{(x1, y1), (x2, y2), , (xn, yn)} .Note-se que:P [(xi, yi) = (XI, YI)] = 1N i {1, 2, , n} e I {1, 2, , N} .Conclui-se que os vetores (xi, yi), i {1, 2, , n}, so identicamentedistribudos e que no so independentes, devido se tratar de amostragemsem reposio.Como R = Y / X = Y / X , um estimador intuitivamente razovel paraR dado por:bR = yxonde y = 1nnXi=1yie x = 1nnXi=1xi.1.2. ESTIMAO DE UMA RAZO 31.2.1 Propriedades do estimador de uma razoComo vericar se bR um estimador razovel? Em primeiro lugar, nota-se que bR deve ser um estimador viciado de R, porm se pode mostrar quebR assintoticamente no viciado; pode-se mostrar tambm que bR umestimador consistente de R.Para provar que bR um estimador consistente de R, necessrio intro-duzir a denio de consistncia.Diz-se que um estimador bn baseado numa amostra sem reposio detamanho n da populao consistente para o parmetro se e somente sebN = , isto , se P hbN = i = 1.Assim, a prova de que bR consistente para R imediata devido x seigualar a X e y a Y quando a amostra cobrir todas as unidades da populao.Alm disto,y = 1nnXi=1yi = 1nnXi=1Y +i = Y + 1nnXi=1i = Y +onde: = 1nnXi=1iDe modo anlogo se tem que:x = X + onde = 1nnXi=1i.Sabe-se ainda que:N nNS2yn= V ( y ) = V (Y + ) = V ( ) = E(2) E()2= E(2)pois, E() = 0.Analogamente,E(2) = V () = N nNS2xnNote-se que:S2x =1N 1NXI=1XIX2e S2y =1N 1NXI=1YIY2.4 CAPTULO 1. ESTIMADORES ESPECIAISDesta forma, se pode escrever:bR = yx= Y +X + = Y 1 + YX 1 + X = R 1 + Y 1 + X1Suponha-se que Y 6= 0 e X 6= 0. Suponha-se, ainda queX < 1, isto ,que a amostra foi dimensionada de forma que se pode esperar que < Xou x X < X.Ento, desenvolvendo-se o fator 1 + X1como srie de potncias de, vem:bR =R 1 + Y1 + X1= R 1 + Y1 X + 2X2 3X3 + !bR =R(1 X + 2X2 3X3 + ! +Y Y X + 2YX2 !)Desprezando-se na expresso entre parnteses todos os termos com grausuperior a 2, obtm-se uma aproximao para o valor de bR.bR= R1 X + 2X2 + Y Y X!Agora calculando-se o valor esperado de bR vem:E(bR) = ER1 X + Y + 2X2 Y X!!= RE1 X + Y + 2X2 Y X!!= R1 E X+E Y+E2X2!E Y X!= R1 +1X2E 21Y XE No entanto:E 2 = V () = N nNS2xn1.2. ESTIMAO DE UMA RAZO 5Por outro lado:E = E y Y x X = COV ( x, y) = N nNSxynonde:Sxy =1N 1NXI=1XIX YI YDe qualquer forma, a tendenciosidade do estimador bR dada aproximada-mente por:T (bR) =E(bR) R= R 1 +1X2E 21Y XE R=R1X2V 1Y XCOV ( x, y)ou ainda:T (bR) = R 1X2N nNS2xn 1Y XN nNSxyn= R N nN1nS2xX2 SxyY XAgora note-se que a correlao entre x e y na populao, (x, y),denida por: (x, y) = E xiX yiYpV (xi) V (yi)=6 CAPTULO 1. ESTIMADORES ESPECIAIS (x, y) =1NNPI=1XI X YIYs 1NNPI=1XIX2 1NNPI=1YIY2=NPI=1XIX YIYs NPI=1XIX2 NPI=1YIY2=1N 1NPI=1XIX YIYs1N 1NPI=1XIX21N 1NPI=1YI Y2 (x, y) =SxypS2x S2y=SxySx SyDenotando-se ento (x, y) simplesmente por , vem:Sxy = Sx SyEnto:T (bR) = R N nN1nS2xX2 1Y X Sx Sy= R N nN1nC2x CxCyonde C2x a varincia relativa de caracterstica x na populao.Agora, imediato provar que limnN T (bR) = 0No entanto, uma anlise de expresso de T (bR) nos mostra que T (bR) seanula exatamente quando:C2x CxCy = 0Isto , quando:S2xX2= SxXSyY1.2. ESTIMAO DE UMA RAZO 7Ou melhor, quando:Y = SxSyXS2xX2= SySx XAssim, a condio para que bR seja um estimador no viciado de R queY= ( Sy/Sx) X, que a condio para a reta de regresso entre y e xpassar pela origem, com coeciente angular ( Sy/Sx) .Foi vericado que, quando a condio anterior no satisfeita, bR umestimador tendencioso, embora com tendncia que tende a se anular quandoo tamanho n da amostra for grande.Com o objetivo de calcular uma medida da preciso do estimador bR, serestabelecida uma cota superior a tendenciosidade de bR que permitir tambma determinao do tamanho de amostra necessrio para tomar desprezvel atendenciosidade.Inicialmente, quando se trata de um estimador viciado, a medida de suapreciso deve ser o seu erro quadrtico mdio, dado por:EQM(bR) =E(bR R)2= EbR E(bR) +E(bR) R2=EbR E(bR)2+EbRR22E(bR) R EbR E(bR)=V (bR) +hT (bR)i2.Note-se que se a tendenciosidade se anula, isto , se o estimador for noviciado, ento o erro quadrtico mdio igual varincia do estimador.Note-se, ainda, que a expresso de EQM pode ser escrita como:EQM(bR) = V (bR) +hT (bR)i2= V (bR)__1 +hT (bR)i2V (bR)__Analisando-se a expresso acima, note-se que:V (bR)= EQM(bR)quando:hT (bR)i2V (bR)= 08 CAPTULO 1. ESTIMADORES ESPECIAISUm critrio prtico para avaliar quo prximos esto V (bR) e EQM(bR)consiste em vericar se:hT (bR)i2V (bR) 0, 01Ora. isto eqivale a vericar se:T (bR)qV (bR) 0, 10 ouE(bR) RqV (bR) 0, 10Por outro lado, note-se que:COV (bR, x) =E(bRx) E(bR) E(x)=E( y) E(bR) X=Y E(bR) XDonde:COV (bR, x)X= YX E(bR)ou seja:E(bR) = YX COV (bR, x)X= R COV (bR, x)Xou ainda:T(bR) = E(bR) R = COV (bR, x)XSeja (bR, x) = o coeciente de correlao entre bR e x. Logo:COV (bR, x) = qV (bR)pV (x)Substituindo na expresso anterior, segue-se que:T(bR) = qV (bR)pV (x)XT(bR)qV (bR) = pV (x)Xou ainda: T(bR)qV (bR) = || CV (x)1.2. ESTIMAO DE UMA RAZO 9Lembrando a condio de || 1 segue-se que:T(bR)qV (bR) CV (x).Considere a expresso do tamanho de uma amostra aleatria simplesdada por:n =N z2/2S2xX2N d2r + z2/2S2xX2=N z2/2C2xN z2/2 (CV (x))2+ z2/2C2x=C2x(CV (x))2+C2xNj que a preciso relativa da mdia amostralpode ser escrita como:dr = z/2CV (x) e C2x = S2x/X2 a varincia relativa da caracterstica xna populao (ou coeciente de variao da populao ao quadrado da car-acterstica x).Assim, para se ter tendenciosidade desprezvel no estimador de razo bR,deve-se ter:CV (x) 0, 10Sendo assim, basta tomar n tal que:n C2x0, 01 +C2xNPor exemplo, se Cx = 0, 4 e N = 5.000, ento n 16 bastaria para tornardesprezvel a tendenciosidade do estimador de razo bR.1.2.2 Varincia do estimador de uma razoAgora o objetivo obter uma expresso para a varincia do estimador derazo bR, que seja adequada para medir sua preciso. De fato, isto s temsentido quando se puder admitir que T(bR) /qV (bR) < 0, 10, isto , quandoo vcio de bR for pequeno.Ora, j foi visto na demonstrao anterior que:bR= R +RY X+R2X2 Y X!10 CAPTULO 1. ESTIMADORES ESPECIAISe que:E(bR)= R +R E2X2 Y X!logo,bRE(bR)= RY X+R2X2 Y X!R E2X2 Y X!Da, a varincia de bR dada por:V (bR) = EbRE(bR)2= E"RY X+R2X2 Y X!R E2X2 Y X!#2Nesta ltima expresso, desprezar todos os termos com grau superior a2. Ento:V (bR) = R2EY X2!= R2E2Y2!+E2X2!2E Y X!= R2 1Y2V (y) +1X2V (x) 2Y XCov(x, y)= R2 N nN1nS2yY2 + S2xX2 2 SxyY X=N nN1nR2S2yY2 +R2 S2xX2 2 R2 SxyY X=N nN1nX2S2y +R2S2x2 RSxyou ainda:V (bR)= N nN1nX2S2y +R2S2x2 R SxSyH outra maneira de escrever a expresso da varincia de bR, certas vezesmais conveniente para ns de clculo que as expresses j apresentadas:V (bR)= N nN1nX21N 1NXI=1(YI RXI)21.2. ESTIMAO DE UMA RAZO 11Exemplo 1.1Ovcio e erro quadrtico mdio do estimador de uma razo, sob amostragemaleatria simples, pode ser ilustrado imaginando a aplicao de amostragemem uma populao muito pequena e examinando o espao amostral, isto ,o conjunto de todas as possveis amostras. Suponha que os valores de duasvariveis x e y nas 4 unidades da populao so:UiYiXiU11 1U22 3U33 4U44 6(a) Calcule o valor da razo populacionalYX , obtenha todas as possveisamostras de tamanho 2, a serem selecionadas aleatoriamente e semreposio e estime essa razo para cada possvel amostra.(b) Calcule os valores exatos do vcio, do erro quadrtico mdio e da var-incia desse estimador.(c) Calcule os valores aproximados do vcio e da varincia desse estimador.(d) Compare os resultados obtidos em (b) com os resultados obtidos em(c).Soluo:a) A razo populacional dada por:R = YX =NPi=1YiNPi=1Xi= 1014 = 57O nmero de possveis amostras dado por:Nn = 42 =4!2!(4 2)! = 612 CAPTULO 1. ESTIMADORES ESPECIAISAmostras possveis Probabilidades y =nPi=1yix =nPi=1xi bR = yxU1U2163 434U1U3164 545U1U4165 757U2U3165 757U2U4166 969U3U4167 10710b) Os valores exatos do vcio e do erro quadrtico mdio deste estimadorpodem ser obtidos a partir da distribuio de todas as possveis amostras:E(bR) = 1634 + 45 + 57 + 57 + 69 + 710 = 365504o valor exato do vcio de bR dado por:T(bR) = E(bR) R = 365504 57 =5504 = 0, 0099O erro quadrtico mdio dado por:E(bR R)2= 16(34 57)2+ (45 57)2+ (69 57)2+ ( 710 57)2 = 0, 00185e a varincia dada por:V (bR) = E(bRR)2hT (bR)i2= 0, 00185 0, 0000009 = 0, 0018491c) O vcio aproximado dado por:T(bR)= R N nN1nS2xX2 SxyY X =1 fnX2RS2x Sxy1.2. ESTIMAO DE UMA RAZO 13sendo: f = 12n = 2 X = 72S2x =NPI=1X2i N X2N 1= 62 493= 133Sxy =NPI=1XiYiN X YN 1= 43 353= 83T(bR)=1 fnX2RS2x Sxy =12272257133 83 =3343 = 0, 0087com respeito varincia aproximada tem-se:V (bR) =N nN1nX2S2y +R2S2x2 R Sxy=1 fnX2S2y +R2S2x2 R Sxysendo:S2y =NPI=1Y2i N Y2N 1= 30 253= 53portanto:V (bR) =1 fnX2S2y +R2S2x2 R Sxy=12272253 +57213325783! = 0, 00139d) Observe que o vcio aproximado subestima ligeiramente o valor ver-dadeiro do vcio e a varincia aproximada subestima ligeiramente o valorverdadeiro da varincia.14 CAPTULO 1. ESTIMADORES ESPECIAIS1.2.3 Estimao da varincia do estimador de uma razoUm estimador consistente para V (bR), quando X for conhecido, dado por:v1(bR) = N nN1nX2s2y + bR2s2x2 bR sxyonde:s2y=1n 1nXi=1(yiy)2s2x=1n 1nXi=1(xix)2sxy=1n 1nXi=1(xix)(yiy)que so estimadores no viciados de S2y, S2x e Sxy, respectivamente.Um estimador para V (bR), quando X for conhecido, expresso de outraforma dado por:v1(bR) = N nN1nX21n 1nXi=1(yi bRxi)2Quando X no for conhecido, um estimador alternativo para V (bR) dado por:v2(bR) = N nN1nx2s2y + bR2s2x2 bR sxyouv2(bR) = N nN1nx21n 1nXi=1(yi bRxi)2.1.2.4 Preciso do estimador de uma razoA preciso do estimador de uma razo depende da distribuio de probabil-idades do estimador bR, que se vericou ser bastante intratvel e intrincada,devido ao fato de tanto os xi como os yi variarem de amostra para amostra.Os resultados tericos conhecidos se distanciam muito do que seria desejvele necessrio possuir nas aplicaes prticas.Assim, os principais resultados sero aqui apresentados semdemonstrao.1.2. ESTIMAO DE UMA RAZO 15Inicialmente, j foi demonstrado que o estimador de razo consistente.Alm disso, se viu tambm que ele viciado, exceto para certos tipos especiaisde populao, embora o vcio seja desprezvel para amostras grandes.Outro aspecto que a distribuio assinttica do estimador de razo normal para amostras bastantes grandes, sujeito apenas a restries muitofracas quanto ao tipo de populao de que se esteja selecionando a amostra.Em amostras de tamanhos moderados, a distribuio de bR mostra certatendncia a uma assimetria positiva para os tipos de populao para as quaiso mtodo comumente usado.Estes resultados indicam que no h problemas para calcular a precisoou a preciso relativa do estimador de razo quando:a) a distribuio de bR for aproximadamente normal;b) a frmula para estimao da varincia de bR possa ser utilizada.Em termos prticos, as hipteses a) e b) podem ser assumidas sem riscoaprecivel para amostras de no mnimo 30 unidades, sucientemente grandespara que se tenha CV (x) < 0, 10 e CV (y) < 0, 10, isto , o tamanho n daamostra deve ser tal que:n max___30;C2x0, 01 +C2xN;C2y0, 01 +C2yN___Nestas condies, se pode armar que:bRRqV (bR)= N(0, 1)Da segue-se que:P__bR RqV (bR) z/2__ = 1 =P bRR z/2qV (bR)= 1 onde:z/2 a abscissa da distribuio Normal padro tal queP__ bRRqV (bR) > z/2__= 2e o nvel de signicncia.16 CAPTULO 1. ESTIMADORES ESPECIAISPortanto,D(bR) = z/2qV (bR) a preciso do estimador bR; eDr(bR) = z/2V (eR)R= z/2CV (bR) a preciso relativa do estimador bR;Pode-se utilizar como estimador da preciso do estimador de bR, o valord(bR) tal que:d(bR) = z/2qv(bR)com v(bR) dado por v1(bR) ou v2(bR) conforme a convenincia.O estimador da preciso relativa do estimador de bR, o valor dr(bR) talque:dr(bR) = z/2qv(bR)bR= z/2cv(bR)Estas informaes podem ser utilizadas para a construo de intervalosde conana para R.Aesse respeito, consultar Fieller (1932) e Paulson (1942), caso as condiespara aproximao pela normal no sejam satisfeitas.1.3 Estimadores de razo para o total e a m-diaUma forma usualmente ecaz de aproveitar o conhecimento de informaesexistentes sobre a populao, com o objetivo de melhorar a qualidade dasestimativas de uma amostra, a utilizao de estimadores de razo.Se para determinada caracterstica x, correlacionada com a caractersticade interesse y so conhecidos:i) o valor verdadeiro da mdia ou total da populao; eii) os valores observados na amostra.Ento possvel construir estimadores cuja preciso deve ser melhor quea dos estimadores simples ou naturais j apresentados. A dia bsica aproveitar a interdependncia de x e y e a existncia de informaes sobre xlivres de erro de amostragem para conseguir estimativas mais precisas.Muitas vezes, desejvel incorporar informao de fontes externas in-dependentes para aumentar a conabilidade das estimativas da pesquisa etambm para promover consistncia nos resultados publicados por diferentespesquisas.1.3. ESTIMADORES DE RAZO PARA O TOTAL E A MDIA 17As tcnicas que foram apresentadas para estimao de uma razo podemser adaptadas e utilizadas para melhorar as estimativas da mdia e totalde uma dada caracterstica y, bastando que seja conhecido o total popula-cional (X) ou a mdia (X) da caracterstica x na populao, sem erro deamostragem.Ora, se X for conhecido, tem-se:R =YXe bR = yxY =YX X = R X= bYR = bRXY =YX X = R X=yR = bR X = bYRNsendo:bYR o estimador de razo para estimar o total da caracterstica y; eyR o estimador de razo para estimar a mdia da caracterstica y.Em pesquisas domiciliares, por exemplo, prtica corrente no IBGE o usode estimadores de razo para estimar o total, utilizando como varivel auxil-iar a estimativa da populao residente, obtida pela projeo de populao.Neste caso feito um ajuste das estimativas provenientes da amostra de talmodo que os totais da populao estimados coincidam com os resultados dapopulao projetada que o IBGE elabora e divulga. O estimador do totalde uma caracterstica y qualquer, para uma determinada rea da PesquisaNacional por Amostra de Domiclios (PNAD) pode ser escrito genericamentecomo um estimador de razo da forma:bYPNAD = bRXp = bYbX Xp =nPi=1wiyinPi=1wixiXp = nXi=1wiyi =nXi=1(wi) yi =nXi=1iyionde:bYPNAD o estimador de razo para o total da caracterstica y ajustadopela projeo de populao, utilizado na PNAD, para a rea em questo;bY o estimador de total da caracterstica y, obtido considerando os pesossimples da amostra;bX o estimador de total da populao residente, obtido considerando ospesos simples da amostra;Xp a estimativa da populao residente, obtida pela projeo de popu-lao.18 CAPTULO 1. ESTIMADORES ESPECIAISwi o peso amostral associado ao i-simo domiclio da amostra, obtidoconsiderando os pesos simples da amostra;n o nmero de domiclios na amostra da PNAD, para a rea em questo;yi o valor da caracterstica y associado ao i-simo domiclio da amostra,para a rea em questo;xi o total de pessoas associado ao i-simo domiclio da amostra, para area em questo; = XpbX o fator de ajuste dos pesos simples wi;i=i o peso nal ajustado associado ao i-simo domiclio daamostra.A ttulo de ilustrao, o valor do fator de ajuste dos pesos da PNAD95 para Sergipe de = 1, 05, que corresponde razo entre a populaoresidente projetada para a data da pesquisa (1.611.711) e o valor da estima-tiva do total da populao residente obtida considerando os pesos simples daamostra para a rea em questo (1.535.111).1.3.1 Varincias dos estimadores de razo para o totale a mdiaTodas as tcnicas para estimao da preciso anteriormente apresentadasforam feitas supondo que o desenho da amostra era com seleo aleatriasimples sem reposio. Para esse mesmo desenho amostral, as expresses soadaptadas e utilizadas, bastando notar que bYR igual a bR vezes a constanteX.Dessa forma, tem-se:E(bYR) bYR = X E(bR) bRV (bYR) =X2V (bR)= X2N nN1nX2S2y +R2S2x2 RSxy=NN nnS2y +R2S2x2 RSxyouV (bYR) = NN nn1N 1NXI=1(YIRXI)2De modo anlogo, para a mdia yR tem-se:E(yR) yR = X E(bR) bR1.3. ESTIMADORES DE RAZO PARA O TOTAL E A MDIA 19V (yR) = V (bYRN )= N nN1nS2y +R2S2x2 RSxyouV (yR)= N nN1n1N 1NXI=1(YIRXI)21.3.2 Estimao das varincias dos estimadores de razopara o total e a mdiaUm estimador para V (bYR) dado por:v(bYR) = X2v(bR) = NN nnhs2y + bR2s2x2 bR sxyiouv(bYR) = X2v(bR) = NN nn1n 1nXi=1(yi bRxi)2e um estimador para V (yR) dado por:v(yR) = X2v(bR) = N nN1nhs2y + bR2s2x2 bR sxyiouv(yR) = N nN1n1n 1nXi=1(yi bRxi)21.3.3 Comparao da preciso do estimador de razocoma do estimador simples emamostragemaleatriasimplesA partir de uma amostra aleatria simples sem reposio de n unidades seconhece expresses para as varincias do estimador simples e do estimadorde razo para estimar o total (ou a mdia). Portanto, possvel comparar apreciso alcanada comcada umatravs da comparao entre suas varincias.Sendo assim, para o caso do estimador de total, sabe-se que:V (bY ) =N2 N nNS2ynV (bYR) =X2 N nN1nX2S2y +R2S2x2 RSxy=N2 N nN1nS2y +R2S2x2 RSxy20 CAPTULO 1. ESTIMADORES ESPECIAISNote-se que:V (bYR) < V (bY ) S2y +R2S2x2 R SxSy < S2yR2S2x < 2 R SxSy > RSx2 Sy >Y Sx2 X Sy >Sx/X2 Sy/Y = > 12 CxCyNa prtica, esta relao pode ser utilizada para vericar, quando conve-niente o uso do estimador de razo ao invs do estimador simples do total ouda mdia, j que muitas vezes possvel conhecer aproximadamente o valorde = (x, y) e tambm a relao entre Cx e Cy.1.4 Estimadores de razo em amostragem es-traticadaNas seo 1.3 foi tratado o caso de utilizao do estimador de razo paraestimar o total populacional (Y ) a partir de uma amostra aleatria simplessem reposio de tamanho n. No caso de uma amostra estraticada, h doisestimadores de razo para estimar o total populacional (Y ): estimador de razo combinada; e estimador de razo separada.1.4.1 Estimador de razo combinadaConsidere ento, o problema de estimar o total Y a partir de uma amostraaleatria estraticada selecionada de uma populao comL estratos de tamanhoNh (h = 1, 2, , L), tendo sido selecionadas nh unidades e investigadas ascaractersticas x e y em cada unidade da amostra de cada estrato. Suponhaque seja tambm conhecido o total populacional para a caracterstica x. Oestimador de razo combinada bYRC para estimar o total populacional (Y ) denido por:bYRC = bYestbXestX = yestxest Xonde:bYest =LPh=1Nhyh o estimador simples do total da caracterstica y naamostra estraticada;1.4. ESTIMADORES DERAZOEMAMOSTRAGEMESTRATIFICADA21bXest =LPh=1Nhxh o estimador simples do total da caracterstica x naamostra estraticada;X o total da caractersticax, conhecido de alguma fonte externa aamostra, livre de erros de amostragem;1yest = bYestN o estimador simples da mdia da caracterstica y na amostraestraticada; exest = bXestN o estimador simples da mdia da caracterstica x na amostraestraticada.O estimador de razo combinada bYRC consistente para o total Y .Isto ,bYRC |n=N = YProva: se n = N com nh = Nh h = 1, 2, , L vem:bYest=LXh=1Nhyh =LXh=1NhYh = YbXest=LXh=1Nhxh =LXh=1NhXh = Xdonde:bYRC |n=N = YX X = Y sabido que os estimadores de razo so viciados exceto se a populaofor de um tipo muito especial em termos de relao entrexe y.Apesar disso, temse armado que em muitos casos o estimador de razo prefervel ao estimador natural (simples) por que d melhor preciso. Entre-tanto, esta armao s verdadeira, quando se consegue tornar desprezvelo vcio ou tendenciosidade do estimador de razo.Acontece que, comoYRC um estimador de razo se pode demonstrarque:| E(bYRCY |qV (bYRC) CV (bXest) = CV (xest)1O estimador bYRC depende apenas do conhecimento do total X, e no dos totais Xhdos estratos.22 CAPTULO 1. ESTIMADORES ESPECIAIS usual considerar a tendensiosidade desprezvel quandoCV (bXest) = CV (xest) 0, 10.Assim ao dimensionar a amostra para estimar Y indispensvel garantirum tamanho mnimo tal que se tenhaCV (xest) 0, 10Isto signica em:V (xest)X2 0, 01 1X2LXh=1N2hN2S2h(x)nh LXh=1N2hN2S2h(x)Nh! 0, 01LXh=1N2hN2S2h(x)nh 0, 01 X2+LXh=1N2hN2Sh(x)Nhn LPh=1S2h(x)hN2hN20, 01 X2+LPh=1N2hN2S2h(x)Nhonde:h = nhndepende do critrio de alocao da amostra em cada estrato;S2h(x) =1Nh1NhPj=1XhjXh2Xhj o valor da caracterstica x associada unidade j do estrato h.Esta condio quanto preciso na estimao de X ser tambm usada noestabelecimento de uma expresso aproximada para a varincia do estimadorde razo combinada.Alm disto, h que notar a equivalncia de xar um coeciente de variaode 10% para xeste de admitir um erro mximo de 20% na estimao de Xcom 95% de conana.No se dispe de uma expresso exata para a varincia do estimador derazo combinada. Porm, se a amostra de tamanho sucientemente grandepara tornar desprezvel a tendenciosidade do estimador, podese obter umaexpresso aproximada para a varincia:V (bYRC) = EbYRCY2= Eyestxest X Y2!= Eyestxest X YXXxest xest2! = E X2x2est(yestRxest)2= N2E X2x2est(yestR xest)2!1.4. ESTIMADORES DERAZOEMAMOSTRAGEMESTRATIFICADA23supondose ngrande, tem seXxest= 1DaV (bYRC)= N2E (yestRxest)2= N2Ey2est +R2x2est2RyestxestPorm:E(y2est) =V (yest) + [E(yest)]2= V (yest) +Y2E(x2est) =V (xest) +X2E(xestyest) =COV (xest, yest) +E(xest)E(yest) = COV (xest, yest) +X YDaV (bYRC) = N2[V (yest) +R2V (xest) 2 RCOV (xest, yest)]+N2[Y2+R2X22RX Y ]como:Y2+R2X22RX Y = (Y RX)2= 02= 0V (bYRC)= N2[V (yest) +R2V (xest) 2RCOV (xest, yest)]agora:V (yest) =LXh=1N2hN2NhnhNhS2h(y)nhV (xest) =LXh=1N2hNhNhnhNhS2h(x)nhonde:S2h(y) =1Nh1NhXj=1(YhjYh)2S2h(x) =1Nh1NhXj=1(XhjXh)224 CAPTULO 1. ESTIMADORES ESPECIAISe nalmente:COV (xest, yest) =E[xestX)(yestY )]=E"LXh=1NhN xhLXh=1NhN Xh!LXh=1NhN yhLXh=1NhN Yh!#=E("LXh=1NhN (xhXh)#"LXh=1NhN (yhYh)#)=E"LXh=1N2hN2(xhXh)(yhYh)#+E__LXh=1LXk=1k6=hNhN NkN (xhXh)(ykYk)__=LXh=1N2hN2E(xhXh)(yhYh) + 0=LXh=1N2hN2COV (xh, yh)Lembrandose que a amostra dentro de cada estrato aleatria simples,vem:COV (xh, yh) = NhnhNhSh(x, y)nhondeSh(x, y) =1Nh1NhXj=1(XhjXh)(YhjYh)Ento nalmente:COV (xest, yest) =LXh=1N2hN2NhnhNhSh(x, y)nhDa, obtm-se:V (bYRC)= N2LXh=1N2hN2NhnhNh1nh[S2h(y) +R2S2h(x) 2 RSh(x, y)]1.4. ESTIMADORES DERAZOEMAMOSTRAGEMESTRATIFICADA25Substituindo-se nesta expresso os valores de S2h(y), S2h(x) e Sh(x, y) vem:V (bYRC) =LXh=1N2hNh1NhnhNh1nh"NhXj=1(YhjYh)2+R2(XhjXh)22R(XhjXh)(YhjYh)#V (bYRC)=LXh=1NhNh1Nhnhnh(NhXj=1[(YhjYh) R(XhjXh)]2)Um estimador de V (bYRC) dado por:v(bYRC) =LXh=1Nh(Nhnh)nhhs2h(y) + bR2ests2h(x) 2 bRestsh(x, y)ionde:bRest = yestxeste s2h(y), s2h(x) esh(x, y) so estimadores no viciados de S2h(y), S2h(x) eSh(x, y), respectivamente, ou seja:s2h(y) =1nh1nhXj=1(yhjyh)2s2h(x) =1nh1nhXj=1(xhjxh)2sh(x, y) =1nh1nhXj=1(xhjxh)(yhjyh)O estimador de razo combinada para estimar a mdia Y dado por:yRC = bYRCNNeste caso a varincia V (yRC) dada por:V (yRC) =1N2V (bYRC)e um estimador de V (yRC) dado por:v(yRC) =1N2v(bYRC)26 CAPTULO 1. ESTIMADORES ESPECIAIS1.4.2 Estimador de razo separadaUma outra forma de utilizar estimadores de razo para conseguir maior pre-ciso na amostragem estraticada o chamado estimador de razo separada.bYRS =LXh=1yhxhXh =LXh=1yhxh Xh =LXh=1bRhXhNotese que necessrio conhecer os totais por estratoXh da caractersticaauxiliar x.A principal diferena do estimador de razo separada para o estimadorde razo combinada est no nvel em que se faz uso da estimao por razo:no estimador de razo separada so feitas razes em cada um dos estratos,enquanto que no estimador de razo combinada uma nica razo feita paraos estimadores de total disponveis.O estimador de razo separada bYRS consistente para o total Y . Isto:YRS |n=N = YProva: se n = N com nh = Nh =yh = YhbYRS |n=N =LXh=1yhxh Xh =LXh=1YhXh Xh =LXh=1NhYh = YQuanto tendendiosidade, este estimador precisa ser analisado commaior cuidado, porque depende de razes constudas em cada um dos es-tratos.Denindo bYhR = yhxh XhVem:bYRS =LXh=1bYhREm cada estrato, sabese que:| E(bYhR) Yh |qV (bYhR) CV (xh)h = 1, 2, , LSe os nhforem todos sucientemente grandes, podese admitir que ovcio de bYRS desprezvel.Caso isto no acontea o uso deste estimadorno aconselhvel, pois o vcio do estimador pode ser signicativo impedindomesmo o clculo de uma estimativa da preciso como ser visto mais adiantePara ver porque isto ocorre, basta um raciocnio intuitivo:1.4. ESTIMADORES DERAZOEMAMOSTRAGEMESTRATIFICADA27Suponha que o vcio tenha o mesmo nvel em todos os estratos, comopode ocorrer, e ento o vcio de bYRSser aproximadamente L vezes ovcio em bYhR. Porm, o erro padro deYRS apenas da ordem de Lvezes o erro padro de bYhR. Logo:| E(bYRS) Y |qV AR(bYRS)poderia ser to grande quantoLCV (xh)Exemplo: Se tivermos 50 estratos com CV (xh) = 0, 1 em cada estrato,o vcio de bYRSpoderia ser da ordem de 0,7 vezes seu erro padro.Uma regra prtica a adotar contra-indica o uso do estimador de razoseparada a menos que: L(CV (xh) < 0, 20L = 1, 2, , L.Talvez esta regra seja conservadora demais pois o vcio pode ser bemmenor que o limite superior conhecido; mas a menos que haja forte evidnciadisso no se deve usar o estimador de razo separada.Tambm no existe uma expresso exata para a varincia de bYRS. Serobtida uma expresso aproximada no caso em que os nh so sucientementegrandes para tornar desprezvel o vcio em cada um dos estratos. Caso estacondio no se verique, a expresso obtida para a varincia no convel,e o estimador de razo separada no deve ser usado.Supondo os nhsucientemente grandes, vem:V (bYRS) = E[(bYRSY )2] = E__LXh=1bYhRLXh=1Yh!2__= E__LXh=1(yhxhXhYh)!2__=LXh=1E"yhxhXhYh2#++LXh=1LXk=1k6=hEyhxhXhYhykxkXkYk=LXh=1V (bYhR) + 0=LXh=1N2hNhnhNh1nhS2h(y) +R2hS2h(x) 2RhSh(x, y)28 CAPTULO 1. ESTIMADORES ESPECIAISonde: Rh = YhXh e S2h(y), S2h(x) e Sh(x, y) so como denidos anteriormente.Esta varincia pode ainda ser escrita:V (bYRS)=LXh=1N2hNh1NhnhNh1nh(NhXj=1[(YhjYh) Rh(XhjXh)]2)Um estimador de V (bYRS) dado por:v(bYRS) =LXh=1Nh(Nhnh)nhhs2h(y) + bR2hs2h(x) 2 bRhsh(x, y)ionde: bRh = yhxh = yhxh e s2h(y), s2h(x) e sh(x, y) so como denidos anterior-mente.O estimador de razo separada para estimar a mdia Y dado por:yRS = bYRSNNeste caso a varincia V (yRS) dada por:V (yRS) =1N2V (bYRS)e um estimador de V (yRS) dado por:v(yRS) =1N2v(bYRS)v(yRS) = X NhN2(Nhnh)nh[s2h(y) + bR2hs2h(x) 2bRhsh(x, y)]1.4.3 Comparao dos estimadores de razo separadae combinadaEm geral, para amostras de tamanho idntico, o estimador de razo combi-nada deve ter vcio bem menor que o estimador de razo separada.No uso do estimador de razo separada, h que vericar sempre seLCV (xh) 0, 20 h1.4. ESTIMADORES DERAZOEMAMOSTRAGEMESTRATIFICADA29Em ambos os casos, os tamanhos de amostra que garantem uma tendenciosi-dade desprezvel podem ser determinados.Atravs da comparao das varincias feita a avaliao da melhor pre-ciso alcanada entre os estimadores de razo em amostragem estraticada:V (bYRC) V (bYRS) =LXh=1N2hNhnhNh1nh[S2h(y) +R2S2h(x) 2RSh(x, y)]LXh=1N2hNhnhNh1nh[S2h(y) +R2hS2h(x) 2RhSh(x, y)]=LXh=1NhNhnhnh[(R2R2h)S2h(x) 2(RRh)Sh(x, y)]Os dois estimadores sero igualmente precisos se Rh = RouYh/Xh =Y/Xpara todos os estratos.A medida que os Rhsejam mais distantes deR, o estimador da razoseparada tende a dar maior preciso, inclusive por se basear num conheci-mento mais detalhado dos dados do universo da caractersticax.Exemplo 1.2 (Cochran (1977), pg.167)Os dados so provenientes do Censo Agropecurio de todas as fazendasdo municpio de Jeerson em Iowa. A varivel y investigada em cada fazenda a rea (em acres) com plantao de milho e a varivel x a rea de cadafazenda. A populao dividida em 2 estratos, sendo que o primeiro contmas fazenda com menos de 160 acres. Suponha que se deseja selecionar umaamostra de 100 fazendas, sendo que 70 sero selecionadas do estrato 1 e 30do estrato 2. A idia comparar a preciso de estimadores alternativos paraestimar a mdia da rea com plantao de milho por fazenda.Calcule a varincia do estimador da mdia segundo cada uma das 5 es-tratgias:1 - estimador simples, supondo que a amostra ser aleatria simples semconsiderar a estraticao;2 - estimador de razo, supondo que a amostra ser aleatria simples semconsiderar a estraticao;3 - estimador simples da amostragem estraticada, supondo que em cadaestrato a amostra ser aleatria simples;4 - estimador de razo combinada da amostragem estraticada, supondoque em cada estrato a amostra ser aleatria simples;5 - estimador de razo separada da amostragem estraticada, supondoque em cada estrato a amostra ser aleatria simples;.30 CAPTULO 1. ESTIMADORES ESPECIAISOs dados so apresentados na tabela a seguir:EstratosTamanho(acres)NhYhXhS2h(y) S2h(x) Sh(x, y) Rh1 160 1580 19,40 82,56 312 2055 494 0,23502 > 160 430 51,63 244,85 922 7357 858 0,2109Total - 2010 26,30 117,28 620 7619 1453 0,2242Os fatores de correo de populao nita podem ser ignorados, ou seja,considerar N nN= 1 e NhnhNh= 1, h = 1 e 2.Considere Qh = N2hN21nh e que Q1 = 0,008828e Q2 =0,001525.Compare os resultados e comente.Soluo:1 - Amostra aleatria simples (AAS): y = 1nnPi=1yi o estimador simplesda mdia da rea com plantao de milho por fazendaV (y) = N nNS2yn = S2yn= 620100 = 6, 202 - Amostra aleatria simples (AAS): yR = yxX o estimador de razoda mdia da rea com plantao de milho por fazendaV (yR) =N nN1nS2y +R2S2x2 RSxy= 1nS2y +R2S2x2 RSxy=1100[620 + (0, 2242)2(7619) 2(0, 2242)(1453)] = 3, 513 - Amostra aleatria estraticada (AAE): yest =LPh=1NhN yh o estimadorsimples da mdia da rea com plantao de milho por fazendaV (yest) =LXh=1N2hN2NhnhNhS2h(Y )nh=LXh=1N2hN2S2h(y)nh=LXh=1QhS2h(y) = (0, 008828)(312) + (0, 001525)(922) = 4, 161.4. ESTIMADORES DERAZOEMAMOSTRAGEMESTRATIFICADA314 - Amostra aleatria estraticada (AAE): yRC = yestxest X o estimadorde razo combinada da mdia da rea com plantao de milho por fazendaV ( yRC) =LXh=1N2hN2NhnhNh1nhS2h(y) +R2S2h(x) 2RSh(x, y)=LXh=1QhS2h(y) +R2S2h(x) 2RSh(x, y)= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2242)2(2055) ++(0, 001525)(0, 2242)2(7357) 2(0, 008828)(0, 2242)(494) +2(0, 001525)(0, 2242)(858)= 3, 105 - Amostra aleatria estraticada (AAE): yRS =1NLPh=1yhxh Xh o es-timador de razo separada da mdia da rea com plantao de milho porfazendaV ( yRS) =LXh=1N2hN2NhnhNh1nhS2h(y) +R2hS2h(x) 2RhSh(x, y)=LXh=1QhS2h(y) +R2hS2h(x) 2RhSh(x, y)= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2350)2(2055) ++(0, 001525)(0, 2109)2(7357) 2(0, 008828)(0, 2350)(494) +2(0, 001525)(0, 2109)(858)= 3, 0632 CAPTULO 1. ESTIMADORES ESPECIAISResumo e comentrios:Estrat egiaDesenhoamostralM etodo deestima aoV ari anciasGanhos deprecis ao1 AAS simples V (y) = 6, 20 -2 AAS razo V (yR) = 3, 51V (y)V (yR) = 1, 773 AAE simples V (yest) = 4, 16V (y)V (yest) = 1, 494 AAE razo combinada V ( yRC) = 3, 10V (y)V ( yRC) = 2, 005 AAE razo separada V ( yRS) = 3, 06V (y)V ( yRS) = 2, 03Os resultados mostram que h ganhos de preciso com as estratgias 2 a5 quando comparadas com a estratgia 1. Verica-se que o ganho de precisoquando utilizar o estimador de razo com amostragem aleatria simples de77%, enquanto que ao utilizar o estimador de razo separada em relao aoestimador simples da amostragem aleatria simples de 103%. Porm, pode-se vericar que ao se adotar amostragem estraticada, o ganho de precisoao utilizar o estimador de razo separada em relao ao estimador simplesda amostragem estraticada de apenas 36%, pois: V (yest) / V ( yRS) =4, 16 / 3, 06 = 1, 36. Isto ocorre porque a varivel de estraticao (tamanhoda rea) a mesma varivel auxiliar utilizada no estimador de razo.1.4.4 O uso de estimadores de razoNo planejamento das pesquisas a deciso entre utilizar uma determinadavarivel na estraticao ou na estimao depende de uma srie de circuns-tncias. Alguns pontos relevantes so: Fatores como localizao geogrca, so mais fceis de serem introduzi-dos na estraticao do que no mtodo de estimao. A deciso depende da natureza da relao entre x e y.Todos os mtodosde estimao de razo estudados dependem da efetividade da propor-cionalidade da relao entre os xi e yi. Com relaes complexas oudiscontnuas, a estraticao pode ser mais eciente. Se para algumas variveis da pesquisa existir uma relao proporcionalcom a varivel xi e para outras variveis existir uma relap propor-cional a uma outra varivel zi , ento, melhor utilizar xi e zi como1.5. ESTIMADORES DE REGRESSO 33variveis auxiliares em estimadores de razo do que estraticar por umadelas.Algumas restries devem ser consideradas ao tomar a deciso de usarestimadores de razo: Os tamanhos de amostra devem satisfazer s condies para tornardesprezvel o vcio do estimador empregado. Quanto maior a associao entre a caractertica auxiliar x e a car-acterstica de interresse y maior o ganho de preciso no uso de esti-madores de razo. No existem frmulas exatas para o vcio nem para a varincia dos es-timadores, embora as aproximaes da varincia existentes sejam sat-isfatrias para amostras cujo tamanho satisfaz a condio de tornardesprezvel o vcio.1.5 Estimadores de RegressoO estimador de regresso tem sua denio baseada num modelo de regressousado para representar a distribuio condicional da varivel de interesse ydada a varivel auxiliar x.Assim como o estimador de razo, o estimador de regresso utilizadopara melhorar a preciso atravs do uso de uma varivel auxiliar x que correlacionada com y. Quando a relao entre y e x examinada, pode sernotado que embora haja uma relao linear, a reta no necessariamente passapela origem. Neste caso sugere-se a utilizao de um estimador baseado naregresso linear de y e x.O papel do modelo o de descrever a disperso condicional da varivelde interesse y dada a varivel auxiliar x na populao nita. Espera-se queo modelo represente bem a relao de y e x. A idia pensar que os valorespopulacionais poderiam ter sido gerados pelo modelo. Entretanto, no necessrio supor que os valores populacionais foram de fato gerados pelomodelo.Suponha que seja selecionada uma amostra aleatria simples de tamanhon, que sejam investigados os valores da caracterstica de interesse y e dacaracterstica x, cuja mdia populacional (X) seja conhecida.O estimadorde regresso linear de Y denido por:yreg = y +b(X x)34 CAPTULO 1. ESTIMADORES ESPECIAISonde:b o estimador usual de mnimos quadrados baseado na amostra.b = sxys2x=nPi=1(yiy)(xix)nPi=1(xix)2O papel desempenhado pelo modelo ser essencialmente de sugerir umestimador adequado b para usar no estimador de regresso. possvel demonstrar que o estimador de regresso yreg consistente etem vcio de ordem 1n.Sua varincia pode ser aproximada por:V (yreg)= N nN1nS2y(1 2xy)onde: xy = (x, y) a correlao entre as variveis x e y na populao.Esta varincia pode ser estimada usando:v(yreg) =N nN1n n 1n 2s2y +b2s2x2bsxy=N nN1n1n 2nXi=1[(yiy) b(xix)]2Outros estimadores de varincia podem ser usados, oferecendo melhordesempenho.O estimador de regresso para estimar o total Y dado por:bYreg = N yregNeste caso, a varincia aproximada por:V (bYreg)= N2N nN1nS2y(1 2xy)e a varincia pode ser estimada por:v(bYreg) = N2N nN1n1n 2nXi=1[(yiy) b(xix)]2Exemplo 1.3 (Thompson (1992), pg. 80)1.5. ESTIMADORES DE REGRESSO 35Para estimar a produo total de uma plantao numa regio com N =100 reas, foram selecionadas aleatoriamente 4 reas e medida a quantidadeyi da produo de cada rea da amostra. A produo de uma rea dependeda quantidade xi de fertilizante aplicada na rea, que conhecida para cadarea da regio, resultando numa mdia populacional 100.Os 4 pares de valores (xi, yi) da amostra so: (50, 1410), (100, 1690),(150, 1680) e (200, 1850).As mdias amostrais so: y = 1657, 5 e x = 125 eb o estimador usual de mnimos quadrados baseado na amostra:b =nPi=1(yiy)(xix)nPi=1(xix)2=(50 125)(1410 1657, 5) + + (200 125)(1850 1657, 5)(50 125)2 + + (2200 125)2=3275012500 = 2, 62A estimativa da produo total da referida plantao, obtida atravs doestimador de regresso, dada por:bYreg=N yreg = N y +b(X x)=100 (1657, 5 + 2, 62 (100 125))=100 (1592) = 159 200Para obter a estimativa da varincia, vamos considerar o valor da linhade regresso ajustada para a i-sima unidade da amostra estimada por:b yi = a +bxionde: a = y bx = 1675, 5 2, 62 (125) = 1330.Neste caso, tem-se:b y1 = 1330 + 2, 62 (50) = 1461b y2 = 1330 + 2, 62 (100) = 1592b y3 = 1330 + 2, 62 (150) = 1723b y4 = 1330 + 2, 62 (200) = 185436 CAPTULO 1. ESTIMADORES ESPECIAISv(bYreg) =N2v(yreg) = N (N n)n1n 2nXi=1[(yiy) b(xix)]2=N (N n)n(n 2)nXi=1(yi b yi)2=100 (100 4)4 (4 2)(1410 1461)2+ + (1850 1854)2=100 (96)4(7035) = 16 884 000cujo desvio padro estimado por: qv(bYreg) = 4 109.Por outro lado, a estimativa da produo total da referida plantao,obtida atravs do estimador simples da amostragem aleatria simples, dadapor:bY = N y = 100 (1657, 5) = 165 750e a respectiva estimativa da varincia dada por:v(bY ) =N2v(y) = N (N n)n4Xi=1(yiy)2=100 (96)4(33292) = 79 900 000cujo desvio padro estimado por: qv(bY ) = 8 939.Portanto, o estimador de regresso mais preciso que o estimador simplesno exemplo com essa pequena amostra.Isto ocorre em funo da pequenavariao dos resduos sobre a reta de regresso ajustada.1.5.1 Comparao dos estimadores de regresso, razoe simplesda mdia sob amostragem aleatriasimplesV (yreg)= N nN1nS2y(1 2xy)V (yR)= N nN1nS2y +R2S2x2 RSxy1.5. ESTIMADORES DE REGRESSO 37V (y) = N nN1nS2yExaminando as expresses acima, imediato notar que o estimador deregresso mais preciso que o estimador simples da mdia a no ser xy = 0,caso em que os estimadores so igualmente precisos.O estimador de regresso prefervel ao estimador de razo quando:2xyS2y < R2S2x2 RSxyou, equivalentemente quando:2xyS2y < R2S2x2 RxySySxxySyRSx2> 0 =xySySxS2xR2> 0isto , quando:SxyS2x R2> 0 =(B R)2> 0B corresponde ao ajuste populacional (hipottico) do modelo aos dados dapopulao.Logo, o estimador de regresso mais preciso que o estimador de razoa menos queB = R, o que ocorre somente quando a regresso entre y e x linear passando pela origem.1.5.2 O uso de estimadores de regressoO estimador de regresso til por pelo menos trs motivos: oferece calibrao na varivel auxiliar, isto , se aplicado a varivelauxiliar replica exatamente seu total conhecido na populao; oferece ganhos de ecincia em relao ao estimador simples; tem grande exibilidade, podendo ser utilizado com um vetor de var-iveis auxiliares e ser facilmente generalizado para o uso em desenhosamostrais complexos.Algumas desvantagens e problemas devem ser consideradas ao tomar adeciso de usar estimadores de regresso: o vcio pode ser no desprezvel com pequenas amostras;38 CAPTULO 1. ESTIMADORES ESPECIAIS os pesos podem ser negativos ou menores que 1, o que indesejvel. a preciso pode no ser boa caso o modelo linear no se ajuste bem. maior complicao na estimao da varincia. quando h mais de uma varivel auxiliar, necessrio usar mtodopara escolha das que vo ser incorporadas na estimao.Acrescentarvariveis auxiliares nem sempre traz bom resultado. usar pesos diferentes para diferentes variveis de interesse da pesquisa uma tentao, mas aumenta a complexidade e cria diculdades prticas.1.6 Ps-estraticao muito comum na prtica a ocorrncia de situaes onde a tcnica de estrat-icao poderia ser aplicada para melhorar a qualidade da amostra, pormno se dispe de uma lista completa das unidades da populao com os re-spectivos valores da caracterstica a ser usada na estraticao, ou seja, oestrato para o qual a unidade pertence no conhecido at que os dados daamostra sejam coletados. Caractersticas de pessoas, tais como: idade, sexo,raa e nvel educacional so exemplos prticos dessa aplicao.Nestes casos, quando forem conhecidos os limites dos estratos, e os seusrespectivos tamanhos (atravs de um censo anterior, por exemplo), possvelfazer uso da estraticao para melhorar a qualidade das estimativas, atravsda tcnica de ps-estraticao que consiste no seguinte:i) selecionase uma amostra aleatria simples sem reposio de tamanhonda populaoN (sem considerar a estraticao);ii) observase para cada unidade selecionada o valor da caracterstica deestraticaox;iii) de acordo com os valores observados de x,distribui-se a amostra emL estratos previamente delimitados;iv) considera-se a parte da amostra em cada um dos estratos como umaamostra aleatria simples sem reposio do estrato (vide estimao em sub-populaes), de tal forma que n1 +n2 + +nL = nNeste caso n1, n2, nLso variveis aleatrias. A amostra em cadaestrato considerada como uma amostra aleatria simples sem reposio dasubpopulao formada pelas unidades pertencentes ao estrato.Assim sendo, a maneira de estimar ser derivada da teoria apresentadapara estimao em subpopulaes.1.6. PS-ESTRATIFICAO 391.6.1 Estimao do total e da mdiaDe acordo com o que foi visto no estudo de estimao em subpopulaes umestimador no tendencioso para o total y da populao com ps-estraticao dado por:bYp os =LXh=1Nhyh =LXh=1NhnhnhXj=1yhjNote que em termos de expresso, o estimador bYp os idntico ao esti-mador bYest. A diferena existente entre ambos que no caso de bYestasmdias amostrais nos estratos (yh) so calculadas com amostras de taman-hos nhconhecidos a priori, enquanto que no caso de bYp osestes tamanhosso variveis aleatrias dependendo da particular amostra selecionada.A seguir, ser demonstrada a armao de que bYp os estimador noviciado paraY .Inicialmente, devese recordar que, se Z e T so variveis aleatrias,ento:E(Z) = ET[E(Z/T)]Neste caso conveniente considerar internamente a esperana condi-cionada quando se xa uma dada seleo de amostra de tamanhos n1, n2, , nL,e depois a esperana sobre todas as possveis selees de amostra. Vericaseque:E(yh) =E 1nhnhXj=1yhj!=En1,n2, ,nL[E 1nhnhXj=1yhj | n1, n2, , nL]=En1,n2, ,nL[Yh] = Yh h = 1, 2, , LSeguindose imediatamente que:E(bYp os) = E"LXh=1Nhyh# =LXh=1NhE(yh) =LXh=1NhYh = YUma consequncia imediata disto que um estimador no tendencioso damdiay dado por :yp os = 1N bYp os =LXh=1NhN yh40 CAPTULO 1. ESTIMADORES ESPECIAISNa psestraticao, concluise ento que, os estimadores do total e damdia so obtidos da mesma forma que na estraticao comum, uma vezselecionada a amostra. O que ser diferente a preciso resultante desteprocesso de estimao, como ser visto adiante.1.6.2 Preciso dos estimadores com ps-estraticaoNosso objetivo aqui o clculo das medidas da preciso dos estimadores compsestraticao, e a comparao dessa preciso com aquela resultante daaplicao convencional da estraticao.Inicialmente vale notar que no se dispe de expresso exata para a var-incia de bYp osou de yp os. Isto se deve ao fato de ambas dependerem darazo1nhonde agora nh varivel aleatria. Mas vamos ao problema,calculando uma aproximao paraV (yp os).Varincia aproximada de yp os.Se Ze T so variveis aleatrias pode se escrever:V (Z) = ET(V (Z/T)) +VT[E(Z/T)]Ento:V (yp os) =En1,n2, ,nLV (yp os | n1, n2, , nL++Vn1,n2, ,nL[E(yp os | n1, n2, , nL]Mas:E(yp os | n1, n2, , nL) = YDonde:Vn1,n2, ,nL[E(yp os | n1, n2, , nL] = Vn1,n2, ,nL(Y ) = 0Logo:V (yp os) =En1,n2, ,nLV (yp os | n1, n2, , nL=En1,n2, ,nLLXh=1N2hN2( 1nh 1Nh)S2h!Da:V (yp os) =LXh=1N2hN2E( 1nh)S2hLXh=1N2hN2S2hNh1.6. PS-ESTRATIFICAO 41Para calcular E( 1nh) vamos usar a aproximao em srie de Taylor emtorno do pontoE(nh) da funo1nh. Esta funo pode ser escrita como:1nh =1E(nh)E(nh)nh=1E(nh)1nhE(nh)=1E(nh)11 + nhE(nh)E(nh)agora sabese que:11 + = 1 +2 .= 1 +2Para = nhE(nh)E(nh)vem:11 + nhE(nh)E(nh)= 1 nhE(nh)E(nh)+nhE(nh)E(nh)2Donde:1nh=1E(nh)"1 nhE(nh)E(nh)+nhE(nh)E(nh)2#Tomando expectncias nos 2 membros vem:E( 1nh) =1E(nh)1 E(nhE(nh))E(nh)+ E[(nhE(nh))2][E(nh)]2=1E(nh)1 +V (nh)[E(nh)]2Agora nh/n um estimador no viciado da proporo Nh/N de unidadespertencentes ao estratoh.Logo:V nhn=N nN1nNN 1NhN1 NhN=N nN1nNhN1 NhNTambm:Ehnhni = NhN42 CAPTULO 1. ESTIMADORES ESPECIAISLogo:E(nh) =nNhNV (nh) =n2N nN1nNhN1 NhNIsto :E(nh) =nNhNV (nh) =n(N n)NNhN1 NhNLevando na expresso de E( 1nh) vem:E( 1nh) =1nNhN____1 + n(N n)NNhN1 NhNn2N2hN2____=1nNhN___1 + (N n)N1n___ 1NhN1______=1nNhN1 + (N n)N1nNhN 1Substituindo, nalmente, na expresso de V (yp os), vem:V (yp os) =LXh=1N2hN2NnNh1 + N nN1nNNh 1S2hLXh=1N2hN2S2hNh=LXh=1N2hN2 NnNh 1NhS2h +LXh=1N2hN2NnNhN nN1nNNh 1S2h=N nN1nLXh=1NhN S2h + N nN1n2LXh=1(1 NhN )S2hDa:V (yp os)= V (y(p)est) + N nN1n2LXh=1(1 NhN )S2h1.7. O USO DE INFORMAES AUXILIARES NA ESTIMAO 43onde: V (y(p)est) a varincia do estimador da mdia no desenho de amostragemestraticada com alocao proporcional. medida que ncresce, a segunda parcelade V (yp os) tende a zero.V (yp os) V (y(p)est)Seguese que, para amostras grandes, a ecincia da ps-estraticao emrelao amostragem aleatria simples equivale alocao proporcional. Umcritrio habitualmente empregado na prtica para ter uma ps estraticaoefeciente tornar cada nh 20, este pode ser obtido de 2 maneiras, a saber:i) dimensionar a amostra aleatria simples de tal sorte que esta condioocorra com elevada probabilidade;ii) utilizar um esquema de amostragem por cotas, onde os tamanhos deamostra em cada um dos estratos seriam previamente xados por alocaoproporcional e as unidades de populao iriam sendo selecionadas por AASe alocadas nos estratos respectivos, at preencher a cota de cada estrato;cada nova unidade selecionada um estrato j com a cota preenchida seria re-jeitada, e uma nova unidade deveria ser selecionada, repetindose o processoat satisfazer as cotas xadas para todos os estratos.A desvantagem deste esquema de amostragem por cotas o aumento docusto da pesquisa, em funo da seleo, investigao e posterior rejeio deunidades pertencentes a estratos j completos.Devese enfatizar que a adoo deste esquema s vlida se o proced-imento da seleo das unidades da amostra for realmente o de uma AASsem reposio.1.7 O uso de informaes auxiliares na esti-maoSilva (1996a) nos aponta que o aproveitamento de informaes populacionaisauxiliares para estimao em pesquisas por amostragem uma das partesda teoria de amostragem que mais progrediu desde os anos 70. O livro querepresentava oestado da arte da amostragem at ento (Cochran (1977))contempla o uso de informaes auxiliares atravs de estimadores de razoou de regresso simples (ambos incorporando apenas uma varivel auxiliar)ou de ps-estraticao. Entretanto, essas tcnicas eram apresentadas comoferramentas separadas, sem uma ligao comum.O livro que corresponde ao estado da arte da amostragem no inciodos anos 90 (Srndal, Swensson e Wretman (1992)) apresenta as tcnicas deps-estraticao, estimao de razo e de regresso como casos particulares44 CAPTULO 1. ESTIMADORES ESPECIAISdo estimador de regresso generalizado, o qual fornece uma estrutura exvele eciente para incorporar informaes auxiliares na etapa de estimao.Neste livro enfatizada uma abordagem model assisted, em que o modelode regresso usado para motivar o estimador, mas em que as propriedadesdo mesmo so avaliadas com respeito distribuio gerada por repetidasaplicaes do processo de seleo da amostra.Tambmrecentemente, Deville e Srndal (1992) identicaramo estimadorde regresso como um dos membros de uma famlias de estimadores de cali-brao, em que os pesos so ajustados, cujos os fatores de ajuste so obtidosde forma a minimizar uma funo de distncia sujeita a restries que sofunes das variveis auxiliares. Empregando-se distintas funes de dis-tncia se gera uma ampla famlia de estimadores que inclui raking ratioestimators, estimadores de regresso, de razo, de ps-estraticao e out-ros.O IBGE j adquiriu larga experincia e tem feito uso efetivo dos desen-volvimentos recentes da teoria. Para corroborar essa armao apresentadaa aplicao de estimadores especiais para a obteno dos fatores de expansodas amostras utilizadas na coleta de Censos Demogrcos brasileiros.O IBGE, desde 1960, tem usado dois modelos de questinrios na coletadas informaes dos Censos Demogrcos: um questionrio bsico, que con-tm os quesitos necessrios ao conhecimento de certas caractersticas bsi-cas da populao e dos domiclios, referentes a 100% da populao, e umquestionrio de amostra (ampliado) que contm, alm dos quesitos bsicosque tambm constam do questionrio bsico, outos quesitos mais detalhadossobre caractersticas dos domiclios e das pessoas, tais como religio, cor,migrao, escolaridade, fecundidade, mo-de-obra, rendimento, etc.O conhecimento de totais da populao para um subconjunto de car-actersticas investigadas (as quais so pesquisadas a 100%) torna vivel aaplicao de estimadores especiais.Nos censos demogrcos de 1960 e 1970 foram utilizados estimadoresde ps-estraticao, com 46 ps-estratos em 1970, aplicado separadamentepara cada municpio. Cada ps-estrato era formado por combinaes devalores das variveis auxiliares, as quais foram investigadas a 100% atravsdo questionrio bsico.Na expanso da amostra do Censo Demogrco de 1980 foi adotado rakingratio estimator aqui denominado Processo Iterativo de Estimao por TotaisMarginais - PIETOM (IBGE (1983)) aplicado separadamente para cada umadas 4219 reas de ponderao.2Esse mtodo consistia em denir uma tabela2rea de ponderao a menor rea para a qual se calculava estimativas, e coincidiana maior parte das vezes com um municpio, podendo ser subdiviso deste nos de maior1.7. O USO DE INFORMAES AUXILIARES NA ESTIMAO 45(ou matriz) de ps-estraticao de dupla entrada, cujas linhas e colunaseram dadas por combinaes de valores das variveis auxiliares, as quaisforam investigadas a 100% atravs do questionrio bsico. Eram portantoconhecidos os totais populacionais das celas, linhas e colunas dessa tabela.Os pesos amostrais para unidades em cada cela eram calculados por umprocesso iterativo de ajuste dos pesos iniciais, de tal forma que as estimativasamostrais eram sucessivamente calibradas nos totais das linhas e depois dascolunas, at que fosse observada convergncia dos pesos.O uso dese mtodo permitiu ampliar bastante o nmero de variveis aux-iliares consideradas para a calibrao das estimativas amostrais: a tabela deps-estraticao empregada no censo de 1980 tinha 720 celas, em compara-o com os 46 ps-estratos adotados no Censo de 70.A metodologia adotada para a expanso da amostra do Censo de 1991 foibaseada no ajuste de um modelo linear generalizado sujeito a restries, en-tendidas como condies que buscam igualar estimativas dos valores conheci-dos do universo para um conjunto de variveis auxiliares comuns amostrae toda populao de cada rea de ponderao. Essa metodologia baseadanum dos membros da famlia de estimadores de calibrao identicada porDeville e Srndal (1992), identicada por estimao de mnimos quadradosgeneralizados em duas etapas - MQG2 (Silva, Bianchini e Albieri (1993);Albieri e Dias (1994)).Essa metodologia foi desenvolvida por tcnicos do Statistics Canada eaplicada na expanso da amostra do Censo de Populao canadense de 91e 96,que parecido com o Censo Demogrco brasileiro. Foi possvel contar comprogramas cedidos ao IBGE pelo Statistics Canada para a implementao domtodo para uso no censo brasileiro.A metodologia MQG2 adotada para expandir a amostra do Censo De-mogrco de 1991 permite incorporar grande nmero de variveis auxiliares,mas no oferece uma teoria para a escolha tima das mesmas. Esse um dosaspectos do emprego de estimadores de regresso que tem merecido atenoda comunidade de pesquisa recentemente. Em particular, Silva e Skinner(1996) apresentam um mtodo para seleo de variveis auxiliares quando seutiliza estimadores de regresso cuja ecincia para estimar a mdia de umavarivel resposta especicada foi maior que a de vrios competidores. Silvae Skinner (1996) apontam ainda uma perda de preciso deo estimador deregresso quando o nmero de variveis auxiliares cresce demasiadamente,alertando para a necessidade de establecer um compromisso entre a cali-brao no maior nmero possvel de variveis auxiliares sem impor grandeperda de ecincia no estimador.populao.46 CAPTULO 1. ESTIMADORES ESPECIAISNa rea de estimao em amostragem h hoje em dia vrias opes desistemas genricos: SUDAAN - SUrvey DAta ANalysis (Shah et al. (1992)),GES - Generalized Estimation System (Estevao, Hidiroglou e Srndal (1995)),CLAN (Andersson e Nordberg (1994)), WESVARPC (Westat (1995)). Todosesses sistemas so capazes de calcular estimativas de totais e mdias, e re-spectivas medidas de preciso para uma ampla gama de desenhos amostraise tipos de estimadores. Em particular, o sistema GES desenvolvido peloStatistics Canada implementa a metodologia de estimadores de regressogeneralizados tal como descrita no livro de Srndal, Swensson e Wretman(1992).1.8. EXERCCIOS 471.8 Exerccios1.8.1 (Thompson (1992),pg. 76) Numa cidade com 75.000 habitantes,uma amostra aleatria simples de 4 domiclios selecionada dos 25.000domiclios da cidade para estimar o custo mdio de alimentao pordomiclio em uma semana. O primeiro domiclio selecionado tinha 4pessoas e gastou R$150,00 com alimentao naquela semana. O se-gundo domiclio tinha 2 pessoas e gastou R$100,00. O terceiro, com 4pessoas, gastou R$200,00. O quarto, com 3 pessoas, gastou R$140,00.Considere: N nN= 1 s2y = 1691, 70 s2x = 0, 9166 sxy = 37, 5a) Identique as unidades de amostragem, a varivel de interesse, ealguma informao auxiliar associada com as unidades.b) Descreva dois tipos de estimadores para estimar a despesa m-dia por domiclio para a alimentao por uma semana na cidade.Sumarize algumas propriedades de cada estimador.c) Estime a despesa mdia por domiclio usando o primeiro estimadore estime a varincia do estimador.d) Estime a despesa mdia por domiclio usando o segundo estimadore estime a varincia do estimador.e) Baseado nos dados, qual estimador prefervel nesta situao?1.8.2 Seja {u1, u2, , un}uma amostra aleatria simples sem reposio dapopulao N, onde so observadas as caractersticas x e y. Mostreque a covarincia amostralsxy =1n 1nXi=2(xix)2 um estimador no viciado para a covarincia populacionalSxy =1N 1NXI=1(XIX)(YIY )1.8.3 De uma populao com 40 domiclios foi selecionada uma amostraaleatria simples sem reposio de tamanho n = 4 que proporciona48 CAPTULO 1. ESTIMADORES ESPECIAISos seguintes valores semanais expressos em reais.Gastos com alimentao Gastos total(yi) (xi)125 250135 30070 200158 3504Pi=1yi = 4884Pi=1xi = 1.1004Pi=1y2i = 63.7144Pi=1x2i = 315.0004Pi=1xiyi = 141.050Estime a porcentagem de gasto com alimentao e o respectivo erroamostral medido pelo coeciente de variao.1.8.4 Oobjetivo estimar o total de despesa comgastos sociais das prefeiturasde uma regio que abrange 281 municpios. Foi selecionada uma amostraaleatria sem reposio de 50 municpios. Sabe-se que a populao to-tal da regio de 6.818 (em milhares).Calcule a estimativa de totalda caracterstica y, que representa a despesa com gastos sociais, e o re-spectivo intervalo com 95% de conana para essa estimativa de totalbaseada em cada um dos seguintes estimadores:a) Estimador simples.b) Estimador de razo, utilizando como varivel auxiliar a populao,representada pela caracterstica x.c) Comente os resultados.So dadas as seguintes informaes provenientes da amostra:50Pi=1yi = 128.08050Pi=1xi = 1.067s2y = 6.244.516 s2x = 454, 51 sxy = 45.399Obs: Tanto os valores de x com de y esto representados em milhares.1.8. EXERCCIOS 491.8.5 Dena estimadores consistentes e suas respectivas varincias aproxi-madas para a mdia de Y baseados em:a) estimador de razo simples;b) estimador de razo combinada;c) estimador de razo separada.Quando razovel a utilizao de estimadores de razo, luz das re-stries existentes para esse tipo de estimador? eA partir das frmulas aproximadas para as varincias dos estimadoresde (a), (b) e (c), obtenha estimadores consistentes que possam ser cal-culados a partir da amostra.1.8.6 Uma pesquisa piloto, onde foram selecionados aleatoriamente 21 domi-clios (di i = 1, 2, , 21), forneceu os seguintes dados para o nmerode pessoas no domiclio (x), nmero de crianas (y1), nmero de carros(y2) e nmero de televisores (y3).dix y1y2y3dix y1y2y3dix y1y2y3d15 3 1 3 d82 0 0 1 d156 3 2 0d22 0 1 1 d93 1 1 1 d164 2 1 1d34 1 2 0 d102 0 2 0 d174 2 1 1d44 2 1 1 d116 4 2 1 d183 1 0 1d56 4 1 1 d123 1 0 0 d192 0 2 1d63 1 1 2 d134 2 1 1 d204 2 1 1d75 3 1 1 d145 3 1 1 d213 1 1 1Assumindo que a populao total X conhecida, voc recomendariaque os estimadores de razo fossem utilizados ao invs do estimadorsimples para estimar o total de crianas, carros e televisores?1.8.7 Em uma determinada localidade de 500 famlias se deseja fazer umestudo sobre o hbito de fumar entre as pessoas maiores de 16 anos.A populao foi estraticada em 2 estratos: famlias com renda alta(estrato 1), onde foram classicadas 200 famlias; e famlias com rendamais baixa (estrato 2), onde foram classicadas as outras 300 famlias. conhecido que o nmero de pessoas com mais de 16 anos no estrato 1 520 e no estrato 2 1230. De cada um dos estratos foi selecionada umaamostra aleatria de 5 famlias, apresentando os seguintes resultados:50 CAPTULO 1. ESTIMADORES ESPECIAISEstrato 1Famlias na amostra 1 2 4 4 5Pessoas com mais de 16 anos 4 3 2 1 2Fumantes com mais de 16 anos 1 1 0 1 1Estrato 2Famlias na amostra 1 2 4 4 5Pessoas com mais de 16 anos 5 6 4 4 3Fumantes com mais de 16 anos 3 3 1 2 2Estimar o total de fumantes entre as pessoas maiores de 16 anos nalocalidade, utilizando:a) o estimador simples da amostragem estraticada;b) o estimador de razo combinada; ec) o estimador de razo separada.Calcule os intervalos com 95% de conana para estimar os totais de fu-mantes entre as pessoas maiores de 16 anos na localidade, considerandoos estimadores utilizados em (a), (b) e (c).Comente os resultados.1.8.8 Considere uma populao de pomares de plantio de pssegos.A var-ivel y a produo de pssegos e a varivel auxiliar x o nmero deps de pssego do pomar.A idia comparar a preciso dos estimadores alternativos da produototal de pssegos na populao, que tem 256 pomares, com base numaamostra aleatria de 100 pomares.Os dados bsicos obtidos de um censo anterior so:S2y = 6.409 S2x = 3.898 Sxy = 3.898 e R = 1, 270Calcule a varincia do estimador de total segundo cada uma das es-tratgias: estimador simples, razo e regresso. Comente o resultado.1.8.9 De um Censo Agropecurio foram obtidas 1200000 fazendas e a rea(x) de cada fazenda foi investigada fornecendo uma mdia de 31,25acres por fazenda. Uma amostra aleatria simples de 2055 fazendas foiselecionda e foram obtidas as seguintes informaes sobre o nmero decabeas de gado (y) em cada fazenda e a rea de cada fazenda.1.8. EXERCCIOS 512.055Pi=1 yi = 25. 7512.055Pi=1 xi = 62. 989s2y = 1.334, 470 s2x = 490, 4300 b = 0, 354585(Considere N nN= 1)a) Calcule as estimativas do total de cabeas de gado utilizando oestimador simples, de razo e de regresso.b) Calcule a estimativa da varincia de cada estimativa obtida em(a).c) Obtenha o intervalo com 95% de conana para cada uma dasestimativas obtida em (a).d) Comente os resultados.1.8.10 Para estimar o total de cabeas de gado em uma determinada regio, foiselecionada aleatoriamente uma amostra de 24 fazendas dentre as 1.238fazendas daquela regio. O nmero de cabeas de gado de cada fazendada amostra foi coletado (caracterstica y) e alm disso dispunha-se docorrespondente nmero de cabeas de gado obtido no ltimo CensoAgropecurio. Usando como varivel auxiliar (x) a informao donmero de cabeas de gado coletado no ltimo censo e sabendo-se que:24Pi=1yi = 13.64624Pi=1xi = 13.638 s2y = 256.154, 86s2x = 278.836, 89 sxy = 256.262, 02a) Compare a ecincia do estimador de regresso em relao aoestimador simples.b) Compare a ecincia do estimador de regresso em relao aoestimador de razo.1.8.11 Uma amostra aleatria simples de 546 domiclios foi selecionada deuma rea que continha 2097 domiclios. As caractersticas tamanhodo domiclio e idade do chefe foram investigadas em todo universo ea varivel sexo do chefe do domiclio foi investigada apenas atravs daamostra, fornecendo os seguintes resultados.52 CAPTULO 1. ESTIMADORES ESPECIAISNmero de domiclios no universoTamanho do Idade do chefedomiclio 0 a 39 anos 40 e mais Total1 a 3 moradores 303 464 7674 e 5 moradores 426 339 7656 e mais moradores 171 394 565Total 900 1197 2097Nmero de domiclios na amostraTamanho do Idade do chefedomiclio 0 a 39 anos 40 e mais Total1 a 3 moradores 103 154 2574 e 5 moradores 120 80 2006 e mais moradores 32 57 89Total 255 291 546Nmero de domiclios na amostra, cujo chefe mulherTamanho do Idade do chefedomiclio 0 a 39 anos 40 e mais Total1 a 3 moradores 1 8 94 e 5 moradores 1 3 46 e mais moradores 0 3 3Total 2 14 16Estimar o nmero de domiclios cujo chefe mulhera) usando o estimador simples.b) usando o estimador de ps-estraticao, considerando como ps-estrato a varivel idade do chefe.c) usando o estimador de ps-estraticao, considerando como ps-estrato o tamanho do domiclio.d) usando o estimador de ps-estraticao, considerando como ps-estrato a varivel idade do chefe cruzada como tamanho do domiclio.Captulo 2Amostragem de Conglomerados2.1 Conceituao BsicaOobjetivo pretendido coma aplicao da tcnica de amostragem a obtenode estimativas para certos parmetros da populao a partir de uma amostrade unidades dessa populao, cuja preciso seja conhecida e satisfatria.As unidades dessa amostra podem ser obtidas selecionando-se direta-mente unidades na populao com probabilidades conhecidas. Elas podemainda ser obtidas por um outro esquema de amostragem onde grupos deunidades so selecionados com probabilidades conhecidas.A amostragem de conglomerados (cluster sampling) consiste num es-quema de amostragem em estgios, sendo que em cada estgio a unidadeamostral, para a qual atribuda a probabilidade de seleo, grupada emum subconjunto (CONGLOMERADO) de unidades populacionais.O termo unidade populacional usado para denotar um membro de umaparticular populao para a qual as anlises dos resultados do levantamentoso feitas.1A formao dos conglomerados pode ser:- natural (exemplos: um cacho de uvas, uma turma de alunos, um edifcio,um quarteiro, um municpio); ou- articial, construdo pelo estatstico de acordo como objetivo da pesquisa(exemplos: conglomerados de seis pessoas, de dez peas industriais do mesmotipo, de cinco domiclios do mesmo edifcio).1Nos esquemas de amostragem at ento apresentados (amostragem aleatria simp-ples, amostragem estraticada e amostragem sistemtica) a unidade amostral era igual aunidade de anlise.5354CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSA unidade populacional depende da anlise que est sendo feita e de-terminada pelo propsito do levantamento e no pelo plano amostral. Podeacontecer de mais de uma unidade populacional estar envolvida no levanta-mento, quando por exemplo, caractersticas de domiclios e de pessoas soinvestigadas no mesmo levantamento.No h uma nica denio possvel para os conglomerados. Por exemplo,a turma tanto pode ser uma unidade populacional (se estivermos interessadosem investigar o nmero de alunos por turma), como pode ser um conglom-erado de alunos (se estivermos interessados em investigar o aproveitamentodos alunos).A m de exemplicar, seguem-se algumas ilustraes de possveis con-glomerados associados com a populao, a varivel de interesse e a unidadede referncia para anlise.Populao Variveis de Unidade de Conglome-Interesse Referncia radosTurmas de Alunos por turma Turma EscolasalunosEstudantes de Aproveitamento Estudante Turmasescolas de 2ograu dos estudantesVisitantes de Facilidades do Visitante de Veculos queparques parque parque entram nonacionais nacional parquePassageiros Propsito da Passageiro de Lotaes dede avio Viagem avio passageirosDomiclios Caractersticas Domiclio Setoresde domicliosMoradores Caractersticas Morador de Domicliosem favelas de pessoas favela em favelasdo Rio do Rio do RioCabe lembrar que os vrios esquemas de amostragem: amostragem aleat-ria simples (AAS), amostragem estraticada e amostragem sistemtica dis-cutidos anteriormente podem ser aplicados a amostragem de conglomerados,onde os conglomerados so as unidades amostrais.2.2. AMOSTRAGEM DE REAS 552.2 Amostragem de reasO cadastro ou marco de referncia a fonte de materiais que serve de guia epermite identicar a populao a ser coberta para a seleo de amostras.Os esquemas probabilsticos propostos para seleo de amostras pres-supem a existncia de uma lista completa das unidades da populao a serpesquisada. Porm, uma lista pode no estar disponvel, ou estar desatual-izada, ou o custo de preparar uma lista atualizada pode ser proibitivo. Almdisso, uma amostra selecionada de uma populao dispersa geogracamenteprovavelmente ser muito dispersa tambm.Para reduzir custos muito freqente o uso de amostragem de conglom-erados denidos por reas geogrcas com limites naturais ou articiais bemdenidos, Neste caso a amostra resultante pode ser concentrada dentro deum nmero de reas geogrcas.Portanto, a utilizao de amostras de reas se d quando no existe umcadastro de boa qualidade disponvel e/ou quando a populao for muitodispersa e o fator custo de deslocamento for preponderante. Neste caso anecessidade de uma lista atualizada das unidades para as quais se requer ainformao restrita s reas que forem selecionadas para a amostra.A grande vantagem da amostra de conglomerados a sua conveninciaoperacional vinculada a possveis redues no custo.Num levantamento de populao, por exemplo, operacionalmente maisconveniente pesquisar todas as pessoas numa amostra de domiclios do queselecionar o mesmo nmero de pessoas espalhadas por toda a populao oumesmo pesquisar todos os domiclios de uma amostra de reas (por exemplo,setores) do que selecionar uma amostra do mesmo nmero de domicliosselecionados aleatoriamente de uma lista de todos os domiclios. Tal listanem sempre disponvel e o seu preparo torna a pesquisa bem mais cara.Suponha-se que uma AAS de n=400 domiclios deva ser selecionada deuma populao de N=10.000 domiclios de uma cidade. Como no dispomosde uma lista atualizada com todos os domiclios, optamos por uma amostrade domiclios localizados dentro de uma amostra de quarteires.Isto podeser feito dividindo a rea toda da cidade em quarteires e selecionando 1/25quarteires. A probabilidade de selecionar um domiclio na cidade a prob-abilidade de selecionar um quarteiro, ou seja, 1/25=400/10.000.Portanto, as unidades amostrais so quarteires selecionados de uma listacompleta. A seleo da amostra de quarteires determina a seleo dosdomiclios que esto localizados nos quarteires.Mesmo se a lista de todos os domiclios fosse disponvel, consideraes nareduo do custo pode ser observada na amostra de conglomerados. Pois a56CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSlocalizao e identicao dos 400 domiclios espalhados aumentaria o custocom gastos com transporte, bem como um maior tempo para a coleta emcomparao com a localizao dos quarteires e visita a todos os domicliosnestes quarteires.Mas para um dado tamanho de amostra, uma unidade menor em gerald resultados mais precisos do que uma unidade maior.Portanto, se compararmos uma amostra de conglomerados comuma amostrade unidades elementares compreendida do mesmo nmero de elementos, emgeral na amostra de conglomerados tem-se:- o custo por unidade elementar mais baixo, devido ao mais baixo custoda listagem ou da localizao, ou de ambos;- a varincia amostral mais alta dependendo da homogeneidade doselementos nos conglomerados.Entretanto, levando em conta os aspectos operacionais e a reduo decustos (devido ao possvel ganho no tempo de coleta, identicao, contato,etc.) que a amostragem de conglomerados proporciona, em muitas situaesprticas a perda na ecincia amostral balanceada com essas vantagens.2.3 Conglomerados em 1 estgio2.3.1 Probabilidades iguais de seleoDenies bsicas e notaoSeja N a populao, com suas N unidades grupadas em M conglomeradosdisjuntos. Seleciona-se uma amostra aleatria simples sem reposio de mdesses M conglomerados. As unidades de N pertencentes aos m conglom-erados selecionados formam a amostra de conglomerados em 1 estgio deN (Ac1).Se a caracterstica y observada nas unidades da amostra, tem-se umaamostra de conglomerados em 1 estgio de y.Pode-se representar esquematicamente a populao por:C1C2CMU11 Y11U21 Y21. . . UM1 YM1U12 Y12U22 Y22. . . UM2 YM2..................U1N1 Y1N1U2N2 Y2N2. . . UMNM YMNMonde:2.3. CONGLOMERADOS EM 1 ESTGIO 57Uij a j-sima unidade de N no i-simo conglomerado Ci;i {1, 2, ..., M}ej {1, 2, ..., Ni} ;Yij o valor da caracterstica y associada a Uij;Ni o tamanho do conglomerado Ci;MPi=1Ni = NSelecionando-se atravs de amostragem aleatria simples sem reposiom conglomerados dentre os M existentes, pode-se representar esquematica-mente a amostra por:C01C02C0mU011 Y011U021 Y021. . . U0m1 Y0m1U012 Y012U022 Y022. . . U0m2 Y0m2..................U01N01 Y01N01U02N02 Y02N02. . . U0mN0m Y0mN0mNote-se que como os conglomerados so selecionados por amostragemaleatria simples:C0i pode ser qualquer um dos conglomerados C1, C2, , CM.N0i o tamanho do conglomerado selecionado C0i e pode ser qualquer umdos valores N1, N2, , NM.Consequentemente os Y0ij (i = 1, 2, ..., m e j = 1, 2, ..., N0i) e os N0i(i = 1, 2, ..., m) so variveis aleatrias.A amostra constituda pelas unidades:nU011, ..., U01N01; ...; U0m1, ..., U0mN0moe os valores da caracterstica y associados s unidades da amostra so:nY011, ..., Y01N01; ...; Y0m1, ..., Y0mN0moO tamanho total da amostra : n =mPi=1N0i que uma varivel aleatria,cujos valores dependem dos conglomerados selecionados.Pode-se calcular o valor esperado de n, n que ser dado por:n =EmXi=1N0i! =mXi=1E(N0i) = mMPi=1NiM=mNM = mMN = f1N58CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSsendo: f1 = mM, a frao de amostragem do primeiro estgio.A gura 2.1 apresenta uma ilustrao da seleo das unidades de umaamostra de conglomerados em 1 estgio.Figura 2.1: Ilustrao da seleo das unidades de uma Ac1Aamostragemde conglomerados em1 estgio caracterizada pelos seguintesfatos: Pertencem amostra todas as unidades dos conglomerados seleciona-dos. S necessrio listar as unidades da populao nos m conglomera-dos selecionados para a amostra. Isto acarreta evicente economia detempo e custo quando comparado amostragem aleatria simples ou amostragem estraticada, nas quais so listadas todas as unidades dapopulao. O tamanho da amostra no pode ser exatamente prexado, pois de-pender dos conglomerados selecionados. Cada unidade da populao tem a mesma probabilidade de participarda amostra, e esta probabilidade igual frao de amostragem noprimeiro estgio mM. Mais adiante se ver que em muitas ocasies, a preciso da amostragemde conglomerados inferior preciso da amostragem aleatria simples.2.3. CONGLOMERADOS EM 1 ESTGIO 59Entretanto, a vantagem do menor custo e tempo pode compensar aperda de preciso.Parmetros da caracterstica yTotal da caracterstica y no conglomerado Ci :Yi =NiXj=1YijMdia da caracterstica y no conglomerado Ci :Yi = YiNiVarincia da caracterstica y em Ci :S2i =1Ni1NiXj=1(YijYi)2Total da caracterstica y em toda populao:Y =MXi=1YiMdia da caracterstica y por unidade da populao:Y = YNMdia da caracterstica y por conglomerado:Y = YMVarincia da caracterstica y em toda populao:S2=1N 1MXi=1NiXj=1(YijY )260CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSEstatsticas da amostra em cada conglomerado selecionadoComo resultado da amostragem de conglomerados tem-se as seguintes es-tatsticas:Total da caracterstica y no i-simo conglomerado selecionado C0i :Y0i =N0iXj=1Y0ijMdia da caracterstica y no conglomerado C0i :Y0i = Y0iN0iVarincia da caracterstica y em C0i :S02i=1N0i1N0iXj=1(Y0ijY0i)2Estimadores do total e da mdia na Ac1Quando os conglomerados so selecionados por amostragem aleatria simplessem reposio, um estimador no viciado do total Y dado por:bYAc1 = MmmXi=1Y0iProva:E(bYAc1) =MmmXi=1E(Y0i ) = MmmXi=1E(Y0i )=MmmXi=11M MXk=1Yk! = Mm mM MXk=1Yk!=MXk=1Yk = YConseqentemente, um estimador no viciado de Y , mdia por unidadeda populao, dado por:yAc1 = bYAc1N= 1N MmmXi=1Y0i =1mNmXi=1Y0i2.3. CONGLOMERADOS EM 1 ESTGIO 61onde: N = NM o tamanho mdio por conglomerado.EyAc1 = EbYAc1N! = 1NEbYAc1 =1N Y = YE um estimador no viciado de Y , mdia por conglomerado dado por:yAc1 = bYAc1M=1mmXi=1Y0iE(yAc1) = EbYAc1M! =1M EbYAc1 = YM= Y62CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSVarincias dos estimadores do total e da mdia na Ac1V (bYAc1) =VMmmXi=1Y0i! = EMmmXi=1Y0i Y!2=E______MmPi=1Y0i mYm______2= E__M2m2mXi=1Y0i mY!2__=M2m2 E__mXi=1Y0i mY!2__= M2m2 E__mXi=1Y0i Y!2__=M2m2 E__mXi=1Y0i Y2+mXi=1mXk=1i6=kY0i Y Y0kY__=M2m2__mXi=1EY0i Y2+mXi=1mXk=1i6=kEY0i Y Y0kY__=M2m2__mMMXi=1YiY2+ m(m1)M(M 1)MXi=1MXk=1i6=kY0i Y Y0kY__=Mm__MXi=1YiY2+ (m1)(M 1)MXi=1MXk=1i6=kY0i Y Y0kY__fazendo:S2e =1M 1MXi=1YiY22.3. CONGLOMERADOS EM 1 ESTGIO 63e notando que:0 =MXi=1YiY = MXi=1YiY!2=MXi=1YiY2+MXi=1MXk=1i6=kYiY YkY=MXi=1MXk=1i6=kYiY YkY = MXi=1YiY2Segue-se que:V (bYAc1) =Mm"(M 1) S2e (m1)(M 1)MXi=1YiY2#=Mm(M 1) S2e (m1) S2e=M(M m)mS2e = M2(M m)MS2emObserve que a varincia do estimador bYAc1 depende somente da fraode amostragem do primeiro estgio e da variabilidade entre os totais dosconglomerados. Em termos de expresso, a varincia de bYAc1 idntica varincia do estimador de total com amostragem aleatria simples.Estimador da varincia do estimador de total na Ac1Agora que se conhece a expresso da varincia do estimador bYAc1, trata-se daobteno de um estimador para essa varincia. Isto feito usando a teoria jconhecida da amostragem aleatria simples e supondo que os conglomeradosso as unidades investigadas.Assim,s2e =1m1mXi=1(Y0i yAc1)2deve ser um estimador no viciado de S2e.64CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSPara vericar este fato, note-se que:s2e=1m1mXi=1(Y0i yAc1)2=1m1mXi=1Y0i Y ) (yAc1Y2=1m1mXi=1Y0i Y )22(yAc1Y(Y0i Y ) + (yAc1Y )2=1m1"mXi=1(Y0i Y )2+mXi=1(yAc1Y )22(yAc1Y )mXi=1(Y0i Y )#s2e=1m1"mXi=1(Y0i Y )2+m(yAc1Y )22m(yAc1Y )2#=1m1"mXi=1(Y0i Y )2m(yAc1Y )2#da pode-se obter:E(s2e) =E(1m1"mXi=1(Y0i Y )2m(yAc1Y )2#)=1m1(mXi=1E(Y0i Y )2mE(yAc1Y )2)=1m1(mMMXi=1(YiY )2mV (yAc1))=1m1mM(M 1) S2e m(M m)MS2em=mM1m1M S2e S2e (M m) S2em=mM1m1M(1 1m ) S2e=mM1m1M(m1m) S2e = S2eConseqentemente, um estimador no viciado para V (bYAc1) dado por:v(bYAc1) = M2(M m)Ms2em2.3. CONGLOMERADOS EM 1 ESTGIO 652.3.2 Estimao de propores na Ac1Considere-se a populao dividida em 2 classes A e eA (no A), de acordocom algum atributo associado s unidades da populao N.Ento, se a populao grupada em M conglomerados disjuntos, cadaconglomerado pode ser dividido nas classes A e eA.Denindo uma caracterstica y tal que:Yij =___1 se Uij A0 se Uij Ai = 1, 2, , M e j = 1, 2, , NiSejam Ai e eAi o nmero de unidades de N em A e eA, respectivamente,no conglomerado i.Ai pode assumir os valores 0, 1, 2, , Ni e se tem:Ai + eAi = NiSegue-se que:Ai = Yi =NiPj=1Yij o nmero de unidades em A, do conglomerado i;PAi = AiNi = YiNi = Yi a proporo de unidades em A, do conglomeradoi.Assim, a proporo global de unidades emA na populao N dadapor:PA =MPi=1AiMPi=1Ni=MPi=1YiMPi=1Ni= YN = You ainda,PA =MPi=1AiN=MXi=1NiN PAiEm vista dessas expresses, e considerando a teoria j apresentada paraobteno dos parmetros de N, imediata a obteno de estimadores noviciados para a proporo PA:pAc1 = MmmXi=1N0iN P0Ai =1mNmXi=1N0iP0Ai =1mNmXi=1A0i66CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSonde:A0i = Y0i =N0iPi=1Y0ij o nmero de unidades em A, do i-simo conglomeradoselecionado;P0Ai = A0iN0i= Y0iN0i= Y0i a proporo de unidades em A, do i-simoconglomerado selecionado.Alm disto, a varincia de pAc1 dada por:V (pAc1) = M mMS2em =1N2M mMS2emonde:S2e=1M 1MXi=1YiN PA2=1M 1MXi=11N2NiPAiNPA2=1M 11N2MXi=1N2i P2Ai2NNiPAiPA +N2P2A=1N21M 1( MXi=1N2i P2Ai2NPAMXi=1NiPAi +MXi=1N2P2A)=1N21M 1( MXi=1N2i P2Ai2NPANPA +MN2P2A)=1N21M 1( MXi=1N2i P2AiMN2P2A)=1N21M 1( MXi=1Y2i M N2M2P2A) =1N21M 1( MXi=1Y2i M Y2M2)=1N21M 1( MXi=1Y2i MY2) =1N21M 1MXi=1YiY2=1N2S2eEsta varincia pode ser estimada por:v(pAc1) = M mMs2em =1N2M mMs2emcom:s2e =1m1mXi=1Y0iN pAc122.3. CONGLOMERADOS EM 1 ESTGIO 67es2e =1m1mXi=1Y0i 1mmXi=1Y0i!2mas:s2e=1N2(m1)mXi=1Y0i N pAc12=1N2(m1)mXi=1Y0i NmNmXi=1Y0i!2=1N2(m1)mXi=1Y0i 1mmXi=1Y0i!2=1N2(m1)__mXi=1Y02i 1mmXi=1Y0i!2__=1N2s2econseqentemente:v(pAc1) =1N2M mM1m1(m1)__mXi=1Y02i 1mmXi=1Y0i!2__Exemplo 2.1Com o objetivo de avaliar a proporo de fumantes, entre os alunos da 3asrie do 2ograu da rede de ensino publico de certa localidade, foram formadosconglomerados a partir de uma relao de 3500 turmas existentes, grupando-se cada 5 turmas em aproximadamente 150 alunos, supondo uma base de 30alunos por turma.Uma amostra de 10 conglomerados foi selecionada, observando-se:68CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSConglomerados Nmero de Nmero de alunosda amostra alunos (N0i) fumantes (A0i)1 162 502 170 633 145 474 151 485 166 686 162 597 145 368 148 459 171 7110 178 75Soma 1592 562M = 700, N = 150 e m = 10Uma estimativa da proporo de alunos fumantes dada por:pAc1 =1mNmXi=1A0i =110 (150)562 = 0, 375 ou 37, 5%Uma estimativa da varincia dada por:v(pAc1) =1N2M mMs2emsendo:s2e=1m1__mXi=1A02i 1mmXi=1A0i!2__=1933074 (562)210! = 165, 51ento:v(pAc1) =1N2M mMs2em =1(150)2700 10700165, 5110=0, 000725Uma estimativa do erro padro dada por:pv(pAc1) = p0, 000725 = 0, 0269 = 2, 69%2.3. CONGLOMERADOS EM 1 ESTGIO 69e uma estimativa do coeciente de variao pode ser obtida atravs da ex-presso:cv(pAc1) =pv(pAc1)pAc1cv(pAc1) = 0, 0007250, 375= 0, 0717 = 7, 17%2.3.3 Coeciente de Correlao IntraclasseO objetivo neste item comparar a ecincia da amostragem por conglo-merados com a da amostragem aleatria simples. Inicialmente, ser estudadoo caso em que os conglomerados so de tamanhos iguais. Ocorre que paracomparar a preciso da amostragem de conglomerados em 1 estgio com aamostrgem aleatria simples muito til a introduo do coeciente decorrelao intraclasse.Seja a populao N distribuda em M conglomerados de tamanho N =NM cada um.Imagine o seguinte experimento aleatrio: Seleciona-se aleatoriamente 1 entre os M conglomerados. Seleciona-se aleatoriamente sem reposio 2 unidades dentro deste con-glomerado.Sejam Y0ij e Y0ik as variveis aleatrias resultantes da observao nas 2unidades selecionadas da caracterstica y. possvel calcular a correlao entre essas 2 variveis aleatrias:(Y0ij, Y0ik) =EY0ijE(Y0ij)(Y0ikE(Y0ik))rEhY0ijE(Y0ij)2iE(Y0ikE(Y0ik))2Agora, notando que:E(Y0ij) =MXi=11MNXj=11NYij =1M NMXi=1NXj=1Yij = YE(Y0ik) = YEhY0ijE(Y0ij)2i =MXi=1NXj=11M NYijY2= MN 1M NS270CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSS2=1MN 1MXi=1NXj=1YijY2Donde tambm:Eh(Y0ikE(Y0ik))2i = MN 1M NS2Finalmente:EY0ijE(Y0ij)(Y0ikE(Y0ik)) =MXi=1NXj=1NXk=1j6=kYijYYikYM NN 1Logo, esta correlao ser:(Y0ij, Y0ik) =1M NN 1MPi=1NPj=1NPk=1j6=kYijYYikYMN 1M NS2Esta correlao expressa uma medida de homogeneidade dentro dos con-glomerados da populao, e ser denominada coeciente de correlaointraclasse e denotada por : = (Y0ij, Y0ik) =1M NN 1MPi=1NPj=1NPk=1j6=kYijYYikYMN 1M NS2Agora ser tratado o problema de obter uma expresso adequada para ocoeciente de correlao intraclasse, que permita visualizar este coecientecomo uma medida de homogeneidade dentro dos conglomerasdos.Note-se que: =1M NN 1MPi=1NPj=1NPk=1j6=kYijYYikYMN 1M NS22.3. CONGLOMERADOS EM 1 ESTGIO 71Ento pode-se escrever:MXi=1NXj=1NXk=1j6=kYijYYikY ==MXi=1NXj=1NXk=1j6=kYijYi +YiYYikYi +YiY=MXi=1NXj=1NXk=1j6=kYijYi(YikYi) +YiY2=MXi=1NXj=1NXk=1j6=kYijYi(YikYi) +N(N 1)MXi=1YiY2=MXi=1__NXj=1YijYi__2MXi=1NXj=1YijYi2+N(N 1)MXi=1YiY2Note que:NXj=1YijYi = 0Lembrando que:S2i =1N 1NXj=1YijYi2e fazendo:S2d =1MMXi=1S2iSegue-se que:MXi=1NXj=1NXk=1j6=kYijYYikY = MXi=1N 1S2i +N(N1)MXi=1YiY272CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOSComo tambm:S2e =1M 1MXi=1YiY2vem:MXi=1NXj=1NXk=1j6=kYijYYikY = N 1 M S2d+N(N1) (M 1) S2eAssim pode-se escrever: =1M NN 1hN(N 1) (M 1) S2eN 1 M S2diMN 1M NS2 =(M 1) S2eM 1N S2dMN 1M NS2Se o nmero de conglomerados M for grande, vem:= S2e 1N S2dS2Para compreender melhor o signicado desta expresso, deve-se notar que:MN 1S2=MXi=1NXj=1YijY2=MXi=1NXj=1YijYi +YiY2MN 1S2=MXi=1NXj=1h(YijYi)2+ 2(YijYi)(YiY ) + (YiY )2i=MXi=1NXj=1(YijYi)2+ 2MXi=1(YiY )NXj=1(YijYi) +NMXi=1(YiY )2=MXi=1(N 1)S2i +NMXi=1(YiY )2=(N 1) M S2d +N (M 1) S2e2.3. CONGLOMERADOS EM 1 ESTGIO 73ou seja:S2= (N 1) M S2d +N (M 1) S2eMN 1Assim estamos agora em posio para analisar melhor a inuncia navariao de da maior homogeneidade dos conglomerados.Supondo que os conglomerados fossem homogneos devemos ter:S2d = 0portanto: =(M 1) S2eM 1N S2dMN 1M NS2=(M 1) S2eMN (M 1) S2eM N= 1Logo, quando h homogeneidade mxima dentro dos conglomerados = = 1.Por outro lado, se h heterogeneidade dentro dos conglomerados comhomogeneidade entre eles, o valor de deve diminuir. Se admitirmos queS2e = 0 vem:MN 1S2= (N 1) M S2ddonde: =1N S2d(N 1) M S2dM N= 1(N 1)Logo, conclui-s