Bioestatistica - Margarida Pocinho e Joao Paulo de Figueiredo

Embed Size (px)

Citation preview

ESTATSTICAEBIOESTATSTICA

NDICE GERAL

I - INTRODUO .............................................................................................................................................5 1. NOES GERAIS ..........................................................................................................................................6 2. POPULAO E AMOSTRA ............................................................................................................................9 3. MTODOS DE AMOSTRAGEM ....................................................................................................................11

3.1 AMOSTRAGENS PROBABILSTICAS E NO-PROBABILSTICAS .......................................................113.1.1 As Amostras Probabilsticas .................................................................................................................11 3.1.1.1 TIPOS DE AMOSTRAGENS PROBABILSTICAS ......................................................................................12 3.1.1.2 TIPOS DE AMOSTRAGENS NO PROBABILSTICAS:............................................................................14

3.2 DETERMINAO DO TAMANHO DA AMOSTRA..................................................................................163.2.1 Clculo do Tamanho da Amostra para Populaes Infinitas (>100.000 elementos)..............16 3.2.2 Clculo do Tamanho da Amostra para Populaes Finitas (100.000 elementos) Aamostradependeda: 1. Extensodouniverso; 2. DoNveldeConfiana; 3. DoErroMximopermitido; 4. Dapercentagemcomqueofenmenoseverifica.n= 2 . (p.q) e2

F rm ula:

n=Tamanhodaamostra =Nveldeconfianaescolhidoexpressoemndesviospadro(s) p=%comoqualofenmenoseverifica q=%complementar(100p) e=Erromximopermitido

16 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Sedesejarmosumnveldeconfianabastantealtosuperiora99%aplicaseafrmuladostrs desvios.

Figura 3: converso dos niveis de confiana em desvios padro

Logo,odesvio(s)2seriaiguala32=9 Seoerromximoforde2%oe2seriguala22=4 Exemplo:Seforpossveladmitirqueonmerodecaptaesdeguaemprofundidadesesituam porvoltados50%,noultrapassandoesta%,entop=50e,consequentemente,q=10050ouseja 50.Assim,temseaequaon= 9 . (50.50) = 5625 4

Isto,paraatendersexignciasestabelecidas,on.decaptaesaanalisarseria5625. Setodavia,foraceiteonveldeconfianade95%(2desvios)eumerromximode5%on.de elementosserbemmenor. osclculos.n=2 . (p.q) e2 n= 4 . (50.50) = 400 25

Convmlembrarquesemprequenosejapossvelestimarumapercentagemdofenmeno,deve utilizarsesemprep=50

17 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

3.2.2 Clculo do Tamanho da Amostra para Populaes Finitas ( Moda

Figura 6: Curva assimtrica esquerda

Moda > Mediana Moda > Mdia Mediana > Mdia

A UTILIZAO DA MDIA ARITMTICA, DA MEDIANA E DA MODAMDIA ARITMTICA:

A medida de tendncia central mais usada a mdia aritmtica, que apresenta em relao medianaemodavantagensapreciveis,taiscomo: facilmentecalculvel; aquemelhorseprestaaulterioresanlisesestatsticas; Dependedetodososvaloresdasrie; umamedidadetendnciacentralparticularmenteestvel,variandoomenospossvel deamostraparaamostraextradasdamesmapopulao; Existem,todavia,casosemqueainformaofornecidapelamedianaoupelamoda,pareceser maiscompletadoqueafornecidapelamdiaaritmtica,comopassamosaindicar. Podesertratadaalgebricamente.

36 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

MEDIANA:

Estamedidadetendnciacentraldeverutilizarsequando: Sedesejaconheceropontomdioexactodadistribuio; Existemresultadosextremosqueafectariamgrandementeamdia.Importasalientarque a mediana no influenciada pelos resultados extremos exemplo: na srie 10,13,15,16,18,19,21,tantoamdiacomoamedianaso16;sesubstituirmos21por50eos restantesresultadospermaneceremosmesmos,amediana16eamdiaserde20,1; A distribuio truncada, isto , incompleta nas extremidades exemplo: desejamos medir os tempos de reaco em Psicologia e as vrias respostas ultrapassam as capacidades de medida do aparelho; vemonos, assim, impossibilitados de calcular a mdia,jquenodispomosdetodososvaloresdavarivel,sendo,noentanto,possvel calcularovalordamediana,jqueconhecemosonmerodemedidasefectuadas.MODA:

Estamedidadetendnciacentraldeverutilizarsequando: Umamedidarpidaeaproximadadatendnciacentralforsuficiente; Sedesejaconhecerovalormaistpicodeumadistribuioexemplos:descreveroestilo devestidousadopelamulhermdia,salriopreponderanteemdeterminadaempresa.

desalientarque,apesardasvantagensapresentadasparaamoda,estatemadesvantagemde serdedeterminaoimprecisa,nocasodasvariveiscontnuas.

37 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

3.8.4 Quantis Chamasequantildeordempcom0p1erepresentase,habitualmente,porCpaovalordex talqueF(x)=p. Algunsquantistmdenominaesespeciais: QUARTIS:

Osquartisdividemasrieordenadaem4partesiguais,contendocadaumadelas1/4ou25%das observaes. Q1=1quartil(correspondeaoquantildeordemp=1/4) Q2=2quartil(correspondeaoquantildeordemp=1/2) Q3=3quartil(correspondeaoquantildeordemp=3/4) Assim, Q1 o valor da varivel estatstica que deixa atrs de si 25% das observaes; Q2 o valordavarivelestatsticaquedeixaatrsdesi50%dasobservaeseQ3ovalordavarivel estatsticaquedeixaatrsdesi75%dasobservaes.A(Q1Q3)chamaseintervalointerquartil eointervaloaoqualpertencem50%dasobservaes,deixando25%paraadireitae25%paraa esquerda. de notar que dizer que os quartis dividem a srie em 4 partes iguais no significa que, por exemplo, os intervalos (Q1, Q2) e (Q2, Q3) tm a mesma amplitude, mas sim que contm o mesmonmerodeobservaes. DECIS:

Os decis dividem a srie ordenada em 10 partes iguais, contendo cada uma delas 1/10 ou 10% dasobservaes. D1=1decil(correspondeaoquantildeordemp=1/10) D2=2decil(correspondeaoquantildeordemp=2/10)38 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

CENTIS:

Oscentisdividemasrieordenadaem100partesiguais,contendocadaumadelas1/100ou1% dasobservaes. C1=1centil(correspondeaoquantildeordemp=1/100) C2=2centil(correspondeaoquantildeordemp=2/100) RELAES ENTRE QUARTIS, DECIS, CENTIS E MEDIANA:

Comopodemosobservarnafigura18 Q1=C25 Q2=Md=D5=C50 Q3=C75 D1=C10 D2=C20

Figura 7: Curva assimtrica direita

39 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

3.8.5 Medidas de disperso Uma medida de tendncia central no nos d, s por si, uma informao exaustiva da distribuio considerada; pelo contrrio, a capacidade que se lhe atribui de representar os elementos de uma distribuio depende do modo como estes se concentram ou dispersam em torno dela. Assim, podemos dizer que os parmetros de tendncia central no so suficientes para caracterizar uma srie estatstica, apesar de a mediana e os quantis darem j uma ideia sumriadomodocomoestodistribudasasobservaes. Consideremososeguinteexemplo:Doisgruposdealunoscomasseguintesclassificaes A B 2 8 3 9 10 10 16 11 19 12

A mdia e a mediana 10 e, contudo, estas distribuies so muito diferentes. Com efeito, enquanto no grupo A as notas apresentam desvios muito grandes, na distribuio B todos os valoresseaproximamde10.Adispersoouvariabilidadedaprimeirasriemaisacentuadado quenasegunda. Quer dizer: distribuies com a mesma tendncia central podem apresentar aspectos bastante diferentesnoqueconcernedispersoouvariabilidade,emedidaqueestadispersoaumenta, menossignificativasdadistribuiovosendoasmedidasdetendnciacentral. Assim,paramelhorcaracterizarmosumadistribuio,temosdeconsiderar,almdasmedidasde tendncia central, uma outra medida que exprima o grau de disperso ou variabilidade dos dados. Vamos considerar as seguintes medidas de disperso: amplitude total, amplitude interquartis, desviomdio,varincia,desviopadroecoeficientededispersooudevariao. AMPLITUDE TOTAL

Aamplitudetotaladiferenaentreomaiorvaloreomenorvalor,isto,aamplitudetotalde uma varivel estatstica a diferena entre o valor mximo e o valor mnimo dos valores

40 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

observados.aformamaissimplesdeavaliaradispersodosdados,detalmodoquequanto maiorforaamplitudetotalmaioradispersodosdados. A amplitude total pode ser tambm denominada de intervalo total ou campo de variao; representase,habitualmente,porAeapenasusavaloresextremos. Numaamostraseriada: A=xmximoxmnimo Numaamostraclassificada: A=extremosuperiordaltimaclasseextremoinferiordaprimeiraclasse Se alguma destas classes for de amplitude indeterminada no possvel definir o intervalo de variao. Aamplitudetotalapresentaasseguintesdesvantagens: Emborasejafcildecalcular,aamplitudetotaldependesomentedosvaloresextremos,queso, geralmente,osmenosfrequenteseosmenossignificativosdeumadistribuio,desprezandose os valores intermdios que so os mais frequentes. Alm disso, os valores extremos so vulgarmenteanmalosemuitovariveis,consoanteaamostraqueseretiredeumapopulao, detalmodoqueduasdistribuiespodemteramesmaamplitudetotal,masdispersesmuito diferentes. Outro inconveniente da amplitude total consequncia de no tomar em considerao as frequnciasdasobservaes. Exemplo:CalculeaamplitudetotaldogrupoG,sabendoque:G= 2 3 10 16 19

A = xmximo - xmnimo = 19-2 = 17

41 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

AMPLITUDE INTERQUARTIS

Osquartisfornecemindicaoquantoformacomoasobservaessedistribuememtornoda mediana. Como o 1 e o 3 quartis representam valores abaixo dos quais esto, grosso modo, respectivamente, 25% e 75% das observaes, entre eles existiro, assim, 50% das observaes centrais. Consequentemente, quanto mais aproximados estiverem estes quartis, maior ser a concentraodasobservaesemtornodamediana. AamplitudeinterquartispodeserdefinidacomoadiferenaentreoQuartil3eoQuartil1.Esta medida de disperso pode ser tambm denominada de intervalo interquartis ou intervalo quartlico. Como podemos observar na figura 8, quanto mais achatada a curva, maior a amplitude e quantomaioraamplitudeinterquartlicamaisdispersaadistribuio.

Q1

Md

Q3

Figura 8: Curva simtrica achatada (platocurtica)

Exemplo:Calculeaamplitudeinterquartis,sabendoqueQ3=177,46eQ1=166,88. Q=Q3Q1=177,46166,88=10,58 Podemostambmcalcularaamplitudesemiinterquatisouintervalointerquartlicoouintervalo semiquartil ou desvio quartlico ou amplitude semiinterquartlico, que se representa, habitualmente,porQepodeserdefinidadoseguintemodo:Q = (Q3-Q1) / 2

Adistribuiotantomaisdispersaquantomaiorforaamplitudeinterquartis. Podemos enumerar as vantagens e as desvantagens do uso da amplitude interquartis e da amplitudesemiinterquartis:42 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Estas medidas so mais completas do que a amplitude total, porque usam dois valores menos extremos(Q1eQ3).Noentanto,tmaindaalimitaodenoentrarememlinhadecontacoma disposio das frequncias nos intervalos definidos pelos valores separados exemplo: a amplitudeinterquartisseramesma,queras50%dasobservaesseacumulemnumsponto, querestejamuniformementedistribudasporesseintervalointerquartis. As medidas de disperso que passaremos a descrever no tm esta limitao, porquanto o seu clculodependedetodososvaloresdasrie.DESVIO

Dadosnvaloresx1,x2,...,xndeumavarivelX,chamasedesviodecadavalorxiemrelao constantec,adiferenadexiparac,isto,xi - c

NotesequeosdesviosdavarivelXemrelaoac,isto,(x1c),(x2c),...,(xnc)constituemosn valoresdavarivelXc. DESVIO MDIO

Falamosemdesviomdioquandoconsideramososdesviosdecadavalorxiemrelaomdia aritmtica,isto:xi-x

O simples total destes desvios no pode ser utilizado como medida de disperso, por ser identicamentenulo.Defacto,paranvaloressingulares,terse: (xi-x)=0

Noentanto,oquocienteentreasomadosmdulosdestesdesvioseonmerodeles,jpodeser consideradocomomedidadedispersoD.M.= |xi-x | / n

43 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Exemplo20:CalculeodesviomdioparaA=453 Quadro 8: Clculo do Desvio Mdio

xi 4 5 3

xi-x 4-4=0 5-4=1 3-4=-1 3-4=-1

|xi-x | 0 1 1

=12x = xi / n =12/3=4 D.M.= |xi-x| / n = 2/3=0,67

= 2

Observao:tambmseutilizaodesviomdioemrelaoaqualqueroutramedidadeposio central. Numaamostraseriadatemos:D.M.= ni |xi-x| / n = fi |xi-x|

Se os valores da varivel estiverem tabelados de modo que cada valor xi corresponda a frequnciaabsolutani,odesviomdioigualsomadosprodutosdasfrequnciaspelosvalores absolutosdosrespectivosdesviosemrelaomdia,divididapeloefectivodadistribuio. Numaamostraclassificada,osdesviosemrelaomdiaaritmticasocalculadosapartirdos pontosmdiosdecadaclasse,ouseja:D.M.= ni |x'i-x'| / n = fi |x'i-x'|

44 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Exemplo: Calcule o desvio mdio para

classes ni

[4-6[ 1

[6-8] 2

Quadro 9: Clculo do Desvio Mdio para classes

Classes

ni 1 2

xi 4,5 7

xi-x 4,5-6,2 7-6,2

|xi-x| 1,7 0,8

ni|xi-x| 1,7 1,6

[4-6[ [6-8]

=2,4 x' = nix'i / n = [(1x4,5) + (2x7)] / 3 = 6,2

=3,3

Ento,odesviomdioD.M.= ni |x'i-x'| / n = 3,3 /3 = 1,1

Odesviomdioapresentaaseguintedesvantagem: Embora dependa de todos os valores observados, o desvio mdio tem a desvantagem de considerarosvaloresabsolutosdosdesvios,oqueimpedeoseutratamentoalgbrico. VARINCIA

Outramaneiradeeliminarmosossinaisdosdesvios,consisteemelevlosaoquadrado.Porisso, em vez da mdia dos valores absolutos dos desvios considerase a mdia dos quadrados dos desvios.Obtmse,assim,umaoutramedidadedispersobastanteusadaavarincia. Dados n valores x1, x2, ..., xn de uma varivel X, chamase varincia e representase, habitualmente,pors2ous2xamdiaaritmticadosquadradosdosdesviosemrelaomdia dessasvalores,isto:S2 = (xi-x)2 / n Exemplo 22: Calcule a varincia para X=17,18,19,20,21 Resoluo 22: x = xi / n = (17+18+19+20+21) / 5 = 19 Ento,avarincia:Quadro 10: Clculo da Varincia

xi 17 18 19 20 21 N=5

(xi-x) 17-19=-2 18-19=-1 19-19=0 20-19=1 21-19=2

(xi-x)2 4 1 0 1 4 =10

S2 = (xi-x)2/ n = 10/5 = 245 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Sex1,x2,...,xnocorremn1,n2,...,nkvezes,respectivamente,temos Paraumaamostraseriada:S2 = ni (xi-x)2 / n = fi (xi-x)2

Paraumaamostraclassificada:S'2 = ni (x'i-x ')2 / n = fi (x'i-x ')2

Exemplo23:Calculeavarinciaparaadistribuiocujamdia103Classes [85-90[ [90-95[ [95-100[ [100-105[ [105-110[ [110-115[ [115-120] ni 12 25 38 85 93 16 9Quadro 11: Clculo da Varincia

Classes 85-90 90-95 95-100 100-105 105-110 110-115 115-120

ni 12 25 38 85 93 16 9 278

xi 87 92 97 102 107 112 117,5

(nixi) 1044 2300 3686 8670 9951 1792 1057,5 28500,5

(xi-x) -15,5 -10,5 -5,5 -0,5 4,5 9,5 15

(xi-x)2 240,25 110,25 30,25 0,25 20,25 90,25 225

ni(xi-x)2 2883 2756,25 1149,5 21,25 1883,25 1444 2025 12162,25

x = (nixi) / n =28500,5/278 =102,5

Ento,avarinciaS'2 = ni (x'i-x)2/ n = 12162,25/ 278 = 43,7491

Podemos,agora,enumeraraspropriedadesdavarincia: Somando ou subtraindo uma constante a todos os valores observados, a varincia resultantepermanecerinalterada;

46 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Multiplicandooudividindotodososvaloresobservadosporumaconstantediferentede zero, a varincia resultante vir multiplicada ou dividida, respectivamente, pelo quadradodessaconstante.

CORRECODESHEPPARD: Aocalcularseamdiaeavarinciadaamostraclassificadaatravsdadistribuioempricadas marcas, cometese um certo erro (erro de agrupamento), pois supomos que as observaes agrupadas em cada classe tm todas o valor da respectiva marca. Todavia, existem frmulas correctivas devidas a Sheppard, isto ,na variancia, ao valor calculado deve subtrairse 1/12 ao quadradodaamplitudedasclasses(a)s2x = s2x' - a2/12 assim,nonossoexemploanterior,avarianciacorrigida

eras2x =43,7491 - 52 12 s2x =41.666

DESVIOPADRO O desvio padro pode ser definido como a raiz quadrada da varincia, representandose, habitualmente,porsx,isto:sx = s 2x

Ainda que a varincia nos d uma boa informao sobre a distribuio ou variabilidade dos valores observados em relao sua mdia, apresenta, no entanto, a desvantagem de no se exprimirnamesmaunidadeaqueestoreferidososdadosiniciais.Contudo,estadesvantagem poder ser eliminada se extrairmos a raiz quadrada da varincia. A nova medida chamase desviopadrooudesvioquadrtico. Numaamostraseriada,temos:

sx =

s 2x

47 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Exemplo:Calculeodesviopadro,sabendoqueavarinciadeumaamostraseriada2.sx = s2x = 2 = 1,414

Numaamostraclassificada,temos:sx = s2x

Exemplo: Calcule o desvio padro, sabendo que a varincia corrigida de uma amostra classificada4327,16.

sx =

s2x

=4327,16 = 65,78

AUTILIZAODASMEDIDASABSOLUTASDEDISPERSO Amplitudetotal Utilizasequando: Osdadosforemmuitorarosoudemasiadodispersosparasejustificaroclculodeuma medidamaisprecisadedisperso; Amplitudeinterquartlica Utilizasequando: Amedianaamedidadetendnciacentralusada; Existirem resultados extremos que poderiam afectar o desvio padro de uma maneira desproporcionada; Adistribuiotruncada; Adistribuioapresentaumaforteassimetria.48 Margarida Pocinho e Joo Paulo de Figueiredo

Forapenasnecessriooconhecimentodosresultadosextremos; Desejamosumndicemuitorpidodedisperso.

ESTATSTICAEBIOESTATSTICA

Desviomdio Utilizasequando: DesviopadroeVarincia Utilizamsequando: Seprocuraumamedidadedispersoemrelaocomacurvanormal; Tiveremdesercalculadosposteriormentecoeficientesdecorrelaoeoutrasestatsticas; Sedesejarobterumamedidaqueserevistadeummximodeestabilidade; Sesetratasomentededescreverumadistribuioprefereseodesviopadrovarincia. Avarinciaintervmsobretudonaanliseestatstica. Desejamosponderartodososdesviosemrelaomdiadeacordocomasuagrandeza; Osdesviosextremosinfluenciaremindeterminadamenteodesviopadro.

3.8.6 Coeficiente de disperso As medidas de disperso a que anteriormente nos referimos so medidas que se exprimem na mesma unidade dos dados e, sendoassim,tornaseimpossvelcompararentresiasdisperses deduasdistribuiescujosvaloresnoserefirammesmaunidade. Exemplo: DistribuioA: xA=30 DistribuioB:xB=600 sA=10 sB=20

49 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Qual a distribuio mais dispersa? Se compararmos os desvios padres a B, porque tem maiordesviopadro.Masavariaode20para600muitomaiordoque10para30.Assim,em vezdecompararmososdesviospadres,aplicamosoutramedidadedispersorelativaqueo coeficientedevariaooudedisperso,quepodeserdefinidopelafrmulaV = sx /x

Exemplo26:Adistribuiodospesosedasalturasdeumgrupodeestudantesdedeterminada Universidadeconduziuaosseguintesresultados: Determineocoeficientededispersoparacadaumadasdistribuiese,depois,indiqueemqual delasadispersorelativamaior. Vx=sx/x=7,5Kg/57,5Kg=0,130=13% Vy=sy/Y=7,1cm/170cm=0,042=4,2% X:Pesos Y:Alturas Mdia=57,5Kg Mdia=170cm DesvioPadro=7,5Kg DesvioPadro=7,1cm

Assim,podemosdizerqueadispersorelativamaisacentuadanadistribuiodospesos(X). Adispersomaiornadistribuioquetivermaiorcoeficientededisperso. Se pretendermos estabelecer comparaes entre disperses absolutas, devemos usar o desvio padro,detalmodoquequantomaiorforodesviopadromaiorseradisperso. Se pretendermos estabelecer comparaes entre disperses relativas, devemos usar um coeficiente de disperso, de tal modo que quanto maior for o coeficiente de disperso V maior seradisperso.

50 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

3.9 AS CARACTERSTICAS DA DISTRIBUIO NORMAL A distribuio normal apresenta uma curva em forma de sino, como mostra a figura 9. A sua principalcaractersticaadeastrsmedidasdetendnciacentralmdia,medianaemodaSe encontrarem todas no mesmo ponto da curva, ou seja, todas terem o mesmo valor ou, pelo menos,valoresmuitoprximos.SeOselementosqueconstituemumadistribuioestomuito prximosoumuitodispersos,encontraremosformassemelhantesdafigura10.

Figura 9: Distribuio normal

Figura 10 - Distribuio leptocrtica e platicrtica

Estas no so distribuies normais, apesar de a mdia, a mediana e a moda se encontrarem todas no mesmo ponto ( isto que confere simetria distribuio); a distribuio normal tem sempre a forma de um sino. Como foi descoberta pelo matemtico Gauss, tambm lhe chamamosdistribuiogaussiana. Amaiorpartedosdadosrecolhidoscomorganismosvivostmestepadro.Podemosobservar que, devido forma da curva, h poucos resultados muito baixos e poucos resultados muito eleva. dos (a curva cai nos extremos esquerdo e direito, o que se deve s baixas frequncias encontradas),enquantoamaioriadosresultadosseencontramjuntomdia.Vamosdebruar51 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

nossobreopadroderesultadosmuitoembreve,masnestafasereferiremosoutracaracterstica muito importante da distribuio normal. Tericamente, a curva nunca toca o eixo horizontal, mas aproximase dele infinitamente. Esta uma propriedade matemtica da distri buio que no se reflecte na recolha de dados real. No nos cruzamos com seres humanos com dimensesgigantescasoumicroscspicas! Entoaspropriedadesdadistribuionormalsoasseguintes: 1)simtrica; 2)Temformadesino; 3) A mdia, a mediana e a moda encontramse no mesmo pontodacurva; 4)Temduaspontasquenuncatocamoeixohorizontal.

Podemos perguntarnos quo rgida a distribuio normal relativamente aos elementos. Por outras palavras, quanto pode uma curva desviarse da forma de sino e continuar a ser consideradanormal?Geralmente,usamosduasabordagensparatomarmosestetipodedeciso; na verdade, este problema mais importante do que o leitor pode pensar, pois existem testes estatsticos,descritosmaisfrente,quespodemrealizarseseoselementosforemnormalmente distribudos. Uma das abordagens baseiase na observao dos dados por averiguao, para lhe darmos um nome mais respeitvel. Se o conjunto de nmeros for extenso, tornarse mais fcil desenhar uma distribuio de frequncias. A outra abordagem reside em seguir um dos procedimentos matemticos para determinar se um conjunto de resultados normalmente distribudo. A verso do teste do quiquadrado que inclumos neste manual um desses procedimentos.Naverdade,improvvelquenestafasedasuacarreiraestatsticanecessitede saber com grande preciso se uma distribuio considerada normal ou no, pelo que o teste grficodevebastar.Noentanto,devesersensvelaoproblema.

52 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

3.9.1 A curva normal e os desvios-padro Suponhamos que temos um conjunto de nmeros cuja mdia 50 e cujo desvio padro 5. Chamamos a este valor (centmetros, segundos, pontos numa escala, ou outra coisa qualquer) um desvio padro. Dez centmetros, segundos, etc., seriam dois desvios padro e quinze centmetros,segundos,etc.,trsdesviospadro...semprecomrefernciaaoconjuntoatravsdo qual obtivemos o valor 5. como se pudssemos tirar o desvio padro e transformlo numa unidadedemedidadeumaescala;comosedissssemosqueumapolegadaso2,54cm.Nunca misturaramos polegadas e centmetros nos mesmos clculos, mas poderamos converter uma unidade na outra. Do mesmo modo, no misturamos resultados de desvios padro com resultadosreais,masconvertemosumaescalanaoutra. Voltemos s propores de nmeros em diferentes partes da distribuio. Se retirarmos uma partedacurvaentreamdia,queestamarcadanoeixohorizontaldafiguraqueseseguecomo 50,eumdesviopadro,marcadonoeixohorizontalcomo55,sabemosquedevemostercercade um tero de todos os resultados neste conjunto, porque o que acontece sempre com a distribuio normal. De uma forma mais precisa, a proporo exacta do nmero total de resultados que se encontram entre a mdia e um desviopadro acima da mdia(50e55neste caso)34,13%.Comoadistribuionormalsimtrica,deveverificarseamesmacoisaabaixo damdia,isto,devemosteroutros34,13%dosresultadosentreosvalores50e45sendo45o valordamdiamenosumdesviopadrode5pontos.Observemosasduaspartesasombreado. Aaritmticaelementardiznosque68,26%dototaldosresultadosseencontramentreosvalores 45e55,pertencendo31,74%aosvaloresextremosqueseencontramnosoutrosdoislados.Mais umavez,asimetriadacurvasignificaque,paraestaproporo,metadede31,74%,ouseja,15,87 %,encontrasedecadaumdosladosdadistribuio.Poroutraspalavras,cercade16%detodos osnmerosnesteconjuntoseromenoresdoque45,sendoamesmaquantidademaiordoque 55.

53 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Figura 11: % de resultados 1 dp acima e abaixo da mdia

Exemplo: Suponhamos que o professor obtm os resultados de um teste de leitura feito a 200 crianas.Osresultadossonormalmentedistribudoscomumamdiade60eumdesviopadro de 8. A partir das propriedades da distribuio normal, sabemos que cerca de dois teros dos resultados,isto,aquelesqueforamobtidoscomcercade136crianas,encontrarseoentreos 52eos68pontos.Cercade32crianas(16%)teroresultadosabaixode52ecercade32tero resultadosacimade68.Josreferimostodos.Suponhamosentoqueospaisdeumacrianaque obteve 68 gostariam de saber algo acerca do progresso do seu filho. Quando souberam que o resultado da criana estava acima da mdia, ficaram contentes, mas gostariam de saber, posteriormente,quoacimadamdiaseencontra,relativamenteaosoutros50%decrianasque tambmobtiveramresultadosacimadamdia.Poroutraspalavras,ospaispretendemsaber qualaposiorelativadodesempenhodofilho.Seosresultadosestivessemtodosmuitoperto da mdia, sendo a nota mxima 68, os pais continuariam encantados. Ficariam, porm, menos satisfeitos se soubessem que a nota mxima tinha sido 90, com um grande conjunto de notas altas,acimade70.Noentanto,oprofessorsabequeodesviopadrodasnotasfoi8e,porisso, umterodetodososresultadosestavaentre60e68.Sabendoque50%dosresultadosobtidos estavamabaixodamdia,podemosperceberqueaposiodestacrianaestaonvelde84% dosresultados,napartesuperiordetodososresultados.Afinal,ospaistmrazesparaestarem contentes! Se a criana tivesse obtido 76, os pais teriam muito mais razes para estarem orgulhosos, pois saberiam que o seu filho estava acima de 98 % das outras crianas (nota 76 e dois desviospadro acima da mdia);umanota84colocariaomeninonaposioinvejvelde estar acima de 99,87 % das outras crianas por outras palavras, num grupo de 200 crianas,54 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

estaria, muito provavelmente, no topo. Os desviospadro cortam propores fixas da distribuio normal, a partir da mdia e at ao infinito (pelo menos teoricamente), nas duas direces.Devecertificarsedequepercebeucomoseobtmaposiorelativadanota76(isto, 50%+33%+15%)ecomosecalculaquenestegrupodecrianasexistemoutrasquatrocomnotas acimade76.Vejaseconseguecalcularanotaquecolocariaacriananaposio,menosinvejvel, deestarapenasaquatrolugaresdofim. Aresposta44.Paraobtermosestanotanecessitamosdesaberquenotarepresentadoisdesvios padro abaixo da mdia ou que nota corresponde a 2%. Partindo de 60, a mdia, se lhe subtrairmos o valor de dois desviospadro 16, duas vezes o valor de 8, que um desvio padroobteremos44.Devemostercuidadoenomisturarosvaloresdosdesviospadrocom os resultados reais. Neste exemplo no subtramos o valor 2 da mdia de 60, apesar de querermos oresultadoqueestavadoisdesviospadroabaixodele.Subtramos16pontos,pois esteonmeroquecorrespondeadoisdesviospadroparaesteconjuntoderesultados. Resultados z Nos exemplos considerados os resultados encontravamse sempre na mdia, ou exactamenteum,doisoutrsdesviospadroacimaouabaixodela.Temos,porm,deexaminar resultados que no sejam to facilmente convertveis para desviospadro. Suponhamos, por exemplo,queumacrianacompaisansiososobteveumanota64numtestedeleitura.Aposio dacriananacurvaseriaametadedadistncia,noeixohorizontal,entreoresultadodamdia (60)eumdesviopadroacima(68).

Figura 12: posio de um resultado

55 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

A posio da criana exactamente a meio entre os pontos 60 e 68. Significar isto que a sua posionogrupoopontocentralentreamdiade50%e84%danota68?Isto,encontrarse acrianaacimade67%doscolegas?Olhemoscuidadosamenteparaasduasporesdacurva que est dividida pela linha ao nvel da nota 64. Sero simtricas? No e aqui temos um problemaquetornaoclculodeumaposiorelativamuitomaiscomplicadoecansativodoque gostaramos. Quanto mais nos afastamos da mdia, menos resultados correspondem s diferentes propores. Assim, se tivermos duas pores entre 60 e 64 e entre 64 e 68, haver menos resultados neste ltimo intervalo. Haver ainda menos no intervalo sguinte, entre as notas 68 e 72, e assim sucessivamente. Isto tambm verdadeiro para os resultados abaixo da mdia,mas,nestecaso,soosresultadosmaiselevados,enoosmaisbaixos,queseencontram maispertodamdia.Hmuitomenosresultadosentre44e48doqueentre48e52,apesarde, em ambos os casos, a variao de notas ser de 4 pontos, ou seja, meio desviopadro. Quando olhamosparaaformadeumadistribuionormal,otamanhodiferentedasproporesquecada desviopadro compreende parece bvio. No entanto, o problema de decidir a posio relativa de uma nota 64, quando comparada com os resultados, no desapareceu. Como podemos determinla? A resposta dada atravs de resultados z. Os resultados z correspondem a desviospadroe,naverdade,sovirtualmenteamesmacoisa,exceptonofactodeumresultado zsereferirsempreposiodeumpontoemrelaoamdia.Istovaitornarseclaroembreve. Paraj,pensemosqueumresultadozde1amesmacoisaqueumdesviopadrode1,queum resultado z de 2 e um dp 2, e assim por diante. Como no h, virtualmente, nada numa distribuionormaldepoisdoterceirodesviopadroouresultadozemqualquerdasdireces ,r,aroqueosdesviospadroouosresultadoszincluamovalor4.Ecomumreferirmonosaos resultadoszcomomaisoumenos;aosdesviospadrodescrevemoloscomosituandoseacima ouabaixodamdia,emvezdemaisoumenos.Umdesviopadrotemumvalordefinidono varivel, enquanto um resultado z se refere a uma posio relativa na curva e referido em funo da mdia. Como, at agora, um resultado z tem o mesmo significado que um desvio padroacimadamdia,podemosconsiderarqueosresultadoszeosdesviospadrosoiguais. No entanto, um desviopadro pode referirse a um conjunto de resultados que distem um desviopadro de qualquer ponto da curva, enquanto os resultados z tm posies fixas. Um resultado z de + 1 corresponde exactamente a um desviopadro acima da mdia, e no a qualquer conjunto de resultados que constituam um desviopadro. Voltemos ao problema do resultadode64esuaposiorelativa.Sabemosqueasuaposioexactamentemetadedeum desviopadroacimadamdia,peloquelhedamosumresultadozde+0,5.

56 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

H tabelas que nos permitem ver muito facilmente onde os resultados z se situam na curva normal(AnexoVIII).Vejamoscomoutilizlas.Utilizaremosonossoexemplode64,cujovalorz +0,5. Lemos o valor na primeira coluna da esquerda, encabeada por z, at chegarmos ao valor 0,5. Olhamos para a coluna direita e vemos o nmero 19,15. Temos de somar 50%, de modo a obtermos o valor 69,15. Sabemos ento que h 69,15% dos resultados abaixo de 64 e 30,85% acima. Devemos arredondar os valores para 69% e 31%, respectivamente. Consideremos outro exemplo,destavezcomovalor65.Estevalorest5pontosacimadamdiaeodesviopadro paraoconjuntode8.Umresultadode5pontosacimadamdia5/8dedesviopadroacima damdia.Sefizermosascontas,sabemosquez+0,63.Comoseencontraacimadamdia,oseu valor positivo. Voltemos tabela 51. Como z tem, desta vez, duas casas decimais, os procedimentos vo ser um pouco diferentes. O valor imediatamente direita (22,7) a percentagemcorrectaparaumresultadozde0,6.Noentanto,onossoresultado0,63,peloque temosdeandartrscolunasdatabelaataovalor0,03,notopo.Estevalor,somadoaovalor0,6, dnos o z de 0,63 ou seja, 23,57. Como o nosso z positivo, devemos somarlhe 50% para obtermos o valor final de 73,57. Assim, a nota 65 est frente de 74% da escala. Podemos ver pelatabelaque49%detodasasnotasemcadaumdosladosdacurvaestoincludasnumzde 2,33ouumbocadinhomaisabaixo,parasermosmaisprecisos).Notemosque,matematicamente, ascaudasdacurvanuncatocamoeixohorizontal,nemincluemtodososresultadospossveis. Reparemosagoranaposiorelativadeumapessoaqueobtenhaumresultadoabaixodamdia, digamosumanota41naamostraoriginal.Estanotaest19pontosabaixodamdia,apenasum poucomenosdoquedoisdesviospadro.Parasermosprecisos,est19/8ou2,375abaixo.Oseu zser2,375.NatabelaSIiemanexovemosqueumzde+2,3inclui48,93%dosresultados,mas onossoresultadozovalorumpoucosuperiorde2,375.Anossatabelaspodeserusadacom duascasasdecimais,peloquevamosarredondarestevalorpara2,38.Paramos,destavez,junto dacolunade0,08eobtemosovalor49,13.Assim,umzde+2,38inclui50%+49,13%=99,13%de todososresultados.Atagoratudobem,masoproblemaqueonossovaloreranegativo.Basta virarmosanossacurvaaocontrrioetrabalharmoscomasuaimagemaoespelho.Assim,como nosso valor 2,38 sabemos que 99,13% de todas as notas da distribuio esto acima dele e apenas0,87%abaixo.Seconsiderarmosestapequenaproporode1%,devemosesperarque,na nossaamostrade200indivduos,1%,ouseja,doisindivduostenhamnotasinferioresa41.No57 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

outroextremodasnotas,devemosesperarqueapenasdoisalunostenhamnotasde19oumais pontosacimadamdia,ouseja,notasqueexcedamos79%. OmododeobterovalorzdadopelaexpressoformalZ= desvio da nota em relao mdia desvio-padro

Seodesvioemrelaomdiativerumsinalpositivoounegativo,seestiveracimaouabaixoda mdia,respectivamente,zficarcomosinalcorrecto. Nota: : tenha cuidado quando trabalhar com z e dp, de modo a uslos sempre que os dados atravs dos quais foram obtidos sigam uma distribuio normalOuaproximadamentenormal. Deoutromodo,arranjarconfuses

58 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

4. ESTATSTICA PARAMTRICA E NO PARAMTRICA Paramtricos:calculaasdiferenasnumricasexactasentreosresultados. Noparamtricos:apenasconsideramsecertosresultadossosuperioresouinferioresaoutros resultados. REQUISITOSPARAUTILIZAODETESTESPARAMTRICOS Quando se pretende empregar um teste t de Student ou uma anlise da varincia para fazer comparaesentreamostras(testesparamtricos),existeumalistaderequisitosqueinclui,entre outros: 1. queavariveltenhasidomensuradanumnvelmnimointervalar; 2. queadistribuiosejasimtricaemesocurtica; 3. queacaractersticaestudada(varivel)tenhadistribuionormalnumadadapopulao. Semprequenosepode,honestamente,admitirasimetriaeanormalidadededistribuio,ou osdadosforamrecolhidosnumnveldemensuraoinferioraointervalar,devemosrecorrera testesquenoincluemanormalidadedadistribuioounvelintervalardemensurao.Esses testeschamamsenoparamtricos VANTAGENSDOSTESTESNOPARAMTRICOS Podemserutilizados,mesmoquandoosseusdadosspodemsermedidosnumnvelordinal, isto , quando for apenas possvel ordenlos por ordem de grandeza) podem ser utilizados mesmoquandoosseusdadossoapenasnominais,isto,quandoossujeitospodemapenasser classificadosemcategorias.

59 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

PODERDEUMTESTE OpoderdeumtesteaprobabilidadederejeitarmosaH0quandoelarealmentenula Os testes mais poderosos (os que tm maior probabilidade) de rejeio de H0, so testes que possuemprrequisitosmaisdifceisdesatisfazer(testesparamtricoscomoteF). As alternativas no paramtricas exigem muito menos prrequisitos mas produzem testes de significnciacommenospoderqueoscorrespondentesparamtricos. EMCONSEQUNCIA Ao rejeitarse a H0 sem preencher as exigncias mnimas dos testes paramtricos, mais provvelqueessarejeiosejafalsa(serejeitaraH0quandoelaverdadeiracometeumerrode tipoI;seaceitaraH0quandoelafalsacometeumerrodetipoII).Quandoosrequisitosdeum testeparamtricosoviolados,tornaseimpossvelconheceroseupodereasuadimenso() obvioqueosinvestigadoresquerem,atodoocusto,rejeitaraH0quandoelamesmofalsa, evitandoumerrodetipoI. Otesteidealseriaaqueleque=0e=1,oqueimplicariaqueotesteconduziriasempredeciso correcta,contudoestetesteidealraramenteexiste. Aprobabilidadedoerrode1espciedeveserreduzida,fixandotericoem0,1;0,05ou0,01.o valor fixado para depende da importncia que se d ao facto de rejeitar a H0 quando esta verdadeira. Umailustraodestepontodevistapodeserfeitacomoseguinteexemplo: Umapessoainocenteatprovadocontrrio H0:Apessoainocente H1:Apessoaculpada

ErroI:Apessoacondenadamasestinocente ErroII:Apessoaabsolvidamasculpada

60 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Naturalmente a justia procura reduzir a possibilidade de ocorrer o erro de 1 espcie, pois entendesequemaisgravecondenarinocentesqueabsolvercriminosos. Para certos sistemas judiciais um = 0,1 demasiado elevado, optando por =0,01; noutros sistemasjudiciaispodeadmitirque=0,05umvalorrazovel.

ASSIM Fixada a probabilidade do erro de tipo I (dimensodoteste),otestemaispotenteaqueleem que a escolha da regio critica minimiza a probabilidade do erro de 2 espcie. Dizse tambm queestaregiocriticaamaispotente. Facilmenteseconcluiqueotestemaispotenteaqueleque,umavezfixadaaprobabilidadede rejeitar a H0, quando ela verdadeira, maximiza a potncia ou a capacidade para rejeitar a mesmahiptesequandoestafalsa. PRESSUPOSTOS Para saber se uma varivel simtrica dividimos o coeficiente assimetria (Skewness) pelo erro padroeseoresultadoestiverentre2e2adistribuiosimtrica. Parasaberseumavarivelmesocurticadividimosocoeficientedeachatamento(Kurtosis)pelo erropadroeseoresultadoestiverentre2e2adistribuiomesocurtica. Mas se os resultados de um teste paramtrico, no cumpriram com os requisitos (no mnimo dados intervalares; distribuio simtrica, mesocurtica e normal), ento no tm interpretao significativa. Quando acontecem estes factos, a maioria dos investigadores opta por testes de significncia noparamtricos.

61 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

PARAESCOLHERQUALQUERTIPODETESTEESTATSTICO Distinguirseanossaamostraconstitudapelosmesmossujeitosemtodasassituaesouse formadapordiferentessujeitosparacadasituao

INTERSUJEITOSOUDESIGNNORELACIONADO estetipodedesignutilizadoquandoumindivduoouobjectoavaliadoapenasumavez.A comparao efectuado entre os grupos de sujeitos/ objectos cujos resultados so no relacionados. Desvantagem: conjunto das diferenas individuais na forma como os sujeitos reagem ou respondemtarefa. INTRASUJEITOSOUDESIGNRELACIONADO Acomparaofeitaentreosmesmossujeitos(sujeitosdomesmogrupo). Aimportnciadestesdesignsaeliminaodequaisquerparticularidadesindividuais,umavez queficamigualizadasemtodasassituaes. Desvantagem:Efeitodememriaeaprendizagem. AMOSTRASEMPARELHADAS Igualizamsesujeitosdiferentesmasemparelhados,emtermosdeidade,sexo,profissoeoutras caractersticasgeraisqueparecemimportantesparacadapesquisaemparticular. estes tipos de designs podem ser considerados de designs relacionados, uma vez que controladonassuascaractersticasrelevantes. Desvantagem: Dificuldade em encontrar sujeitos que permitam o emparelhamento de todas as caractersticasrelevantes. Dificuldadesarranjargrandesamostras.

62 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

5. TESTES NO PARAMTRICOS PASSO-A-PASSO5.1 TESTE DO QUI-QUADRADO O QuiQuadrado (X2) de aderncia consiste em comparar os dados obtidos experimentalmente comosdadosesperadosdeacordocomalei.Dascomparaessurgemdiferenasquepodemser grandes ou pequenas: se forem grandes, a hiptese nula (H0) que pressupe um bom ajustamento dever ser rejeitada em favor da hiptese alternativa (H1); se forem pequenas, a hiptesenulanoserrejeitadaeasdiferenassoatribuveisaoacaso. OX2deindependnciaserveparaajudaradecidirseasduasvariveisestoounoamarradas umaoutraporumarelaodedependncia.

QUANDOUTILIZAR

Utilizasequandoosdadossonominais,peloqueemvezdesemediremresultadosdossujeitos apenassepodemdistribuirossujeitosporumaoumaiscategorias. OQuiQuadrado(X2)testaahipteseexperimentalqueprevquantossujeitosdecadagruposo distribudosporumadeterminadacategoria. OX2umtesteestatsticonoparamtrico,sendoumdosmaisutilizadosebastanteaplicadoem diferentes planeamentos experimentais. O X2 muito usado mesmo ao nvel da estatstica multivariada(nosentidodeobterograudeadernciaentreomodeloobtidoeoterico).

OBJECTIVO

Oobjectivocompararfrequnciasobservadascomfrequnciastericasouesperadas,ouseja, verificaroseugraudeaproximao,quepodesergrande(=0)oupequeno(>0).63 Margarida Pocinho e Joo Paulo de Figueiredo

ESTATSTICAEBIOESTATSTICA

Assim,oobjectivocompararasfrequnciasobservadasemcadaumadasclulasdeumatabela de contingncia com as diferenas esperadas. O teste compara o nmero de sujeitos que se distribuem por uma determinada categoria com o nmero de sujeitos que se esperaria se distribussemporessamesmacategoria,casonoexistissemdiferenas. OtestedoX2reflecteotamanhodasdiferenasentreasfrequnciasobservadaseesperadas.Para sersignificativo,ovalordeX2deverserigualousuperioraosvalorescrticosdatabela(Anexo I). INSTRUESPASSOAPASSO 1. Calcular as frequncias esperadas (E) para cada clula, multiplicando os dois totais parciais relevantesparacadaumaedividindopelonmerototaldesujeitos. 2.CalcularX2:

(O-E)2X2 =______________

E

emque: O=frequnciasobservadasparacadaclula; E=frequnciasesperadasparacadaclula.

3.Calcularosgrausdeliberdade:g.l. = (r-1) (c-1)

emque r=nmerodelinhasdatabeladecontingncia c=nmerodecolunasdatabeladecontingncia

SeX2observado>X2crticorejeitaseH0 SeX2observado