Monograf01estat nparamt bom amanha

Universidade dos Açores Departamento de Matemática

Discente: Filipe Gago da Câmara Docente: Dr. Osvaldo Silva

Ponta Delgada, 29 de Junho de 2001

Estatística Não Paramétrica

Testes de Hipóteses e Medidas de Associação

Índice

ÍND CE I

Teste de Hipóteses ......................................................................................................................1 Introdução...................................................................................................................................3 Capitulo 1: Caso de uma amostra ...............................................................................................6

1.1 Teste da Binomial.............................................................................................................6 21.2 Teste do Qui-Quadrado ( χ ) para uma amostra............................................................10

1.3 Teste de Kolmogorov-Smirnov ......................................................................................12 1.4. Teste de Iterações de Uma Amostra ..............................................................................17

Capítulo 2: Caso de duas amostras relacionadas ......................................................................23 2.1 Teste dos Sinais ..............................................................................................................23 2.2 Teste de McNemar .........................................................................................................25 2.3 Teste de Wilcoxon ..........................................................................................................28

Capitulo 3: Caso de duas amostras independentes ...................................................................32 3.1 Teste de Iterações de Wald-Wolfowitz ..........................................................................32 3.2 Teste U de Mann-Whitney .............................................................................................37 3.3 Teste de Moses para reacções extremas .........................................................................41 3.4 Teste da Qui-Quadrado ( 2χ ) para duas amostras independentes ..................................44

Capítulo 4: Caso de k amostras relacionadas ...........................................................................50 4.1 Teste Q de Cochran .......................................................................................................50 4.2 Teste de Friedman ..........................................................................................................54

Capítulo 5: Caso de k amostras independentes ........................................................................57 5.1 Teste de Kruskal-Wallis .................................................................................................57

Capitulo 6: Medidas de Correlação ..........................................................................................60 6.1 Coeficiente de Correlação por postos de Kendall: τ .....................................................60 6.2 Coeficiente de Correlação por postos de Spearman: Sr .................................................64 6.3 Coeficiente de Concordância de Kendall: W ................................................................66

Conclusão .................................................................................................................................70 Bibliografia...............................................................................................................................75 Anexos ......................................................................................................................................75

Anexo 0 ................................................................................................................................76 Anexo I: Caso de uma amostra.............................................................................................77 Anexo II: Caso duas amostras relacionadas .........................................................................81 Anexo III: Caso de duas amostras independentes ................................................................85 Anexos IV: Caso de k amostras relacionadas.......................................................................91 Anexo V: Caso de k amostras independentes.......................................................................94 Anexo VI: Medidas de Correlação. ......................................................................................95

Tabelas......................................................................................................................................75 Tabela A ...............................................................................................................................76 Tabela B................................................................................................................................77 Tabela C................................................................................................................................78 Tabela D ...............................................................................................................................79 Tabela E................................................................................................................................81 Tabela F ................................................................................................................................82 Tabela G ...............................................................................................................................84 Tabela J.................................................................................................................................85 Tabela K ...............................................................................................................................88 Tabela N ...............................................................................................................................89 Tabela O ...............................................................................................................................91 Tabela P ................................................................................................................................93 Tabela Q ...............................................................................................................................94 Tabela R................................................................................................................................95

Teste de Hipóteses

TESTE DE HIPÓTESES

Em muitas situações, queremos tomar uma decisão de forma a minimizar os riscos

envolventes.

No campo da estatística, formulamos hipóteses acerca de uma dada amostra, estas

hipóteses são submetidas a determinados testes. A hipótese a ser testada designamos por

Hipótese Nula ( ), a Hipótese Alternativa ( 1H ) é a conclusão a que chegamos quando a

hipótese nula é rejeitada.

0H

Quando formulamos uma decisão sobre podem ocorrer dois erros distintos. O

primeiro, designado por erro tipo I, consiste em rejeitar a hipótese nula quando ela é

verdadeira. O segundo, designado por erro tipo II, consiste em aceitar 0 quando ela é falsa

0H

H .

A estes erros estão associados uma probabilidade, isto é,

β=)|.(α=.)|.(

00

00

falsaHHacPverdHHrejP

Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar

a dimensão da amostra.

À probabilidade α damos o nome de nível de significância.

Como o valor α entra no processo de determinação de aceitação ou rejeição de H , a

condição de objectividade da prova exige que o nível de significância seja fixado antes da

recolha de dados. Os valores mais comuns para α são de 0,05 e 0,01 de acordo com a

importância prática dos resultados.

0

Quanto mais pequena é a probabilidade β mais potente é o teste, ou seja, o teste óptimo

da hipótese 0 vs. 1 é aquele que para uma probabilidade de ocorrer o erro tipo I, torne

mínima a probabilidade de ocorrer o erro tipo II.

H H

Após ter escolhido as hipóteses e o nível de significância devemos determinar qual a

distribuição amostral. Esta é uma distribuição teórica que, se puséssemos considerar todos

os eventos possível, dava-nos as probabilidades, sob , associadas aos valores numéricos

possíveis da estatística.

0H

1

Teste de Hipóteses

Neste momento temos que escolher o teste estatístico apropriado, tendo em conta os

seus pressupostos.

Definida as hipóteses, o nível de significância, o teste estatístico, falta-nos saber como

rejeitar/aceitar 0H .

o .

e ita a

hipótese nula.

Região de rejeição é uma região da distribuição amostral, na qual consiste num

conjunto de valores tão extremos que, quando é verdadeira, a probabilidade α do valor

observado da amostra estar entre eles é muito pequena. A probabilidade associada a qualquer

valor na região de rejeição é afectada pela natureza da hipótese alternativa. Se indica o

sentido da diferença, utiliza-se um teste unilateral, caso contrário, utiliza-se um teste

bilateral.

0H

1H

A seguinte figura ilustra-nos como as duas regiões diferem entre si, mas não altera o

tamanho.

Figura 1: Dois tipos de testes

P=0.05P=0.025P=0.025

Teste bilateral Teste unilateral

A área de cor azul é a região de rejeição para um =α 05.0

Para uma decisão final, basta ver se o valor resultante de um teste estatístico está na

região de rejeição ou não.

Uma abordagem alternativa para o teste de hipóteses é sugerida pelo cálculo da

probabilidade associada. ( ) a uma dada observação. O valor é a probabilidade de ser

verdadeira. Se toma um valor menor ou igual a , então rejeitamos a hipótese nula, caso

contrário, se p toma um valor superi r a α , então aceitamos H O valor p (ou

probabiliade de significância) dá-nos também uma ideia do poder do teste estatístico.

Quanto maior for a probabilidade p mais forte é o teste e com mais facilidade s

p p 0H

p α

0

ace

2

Introdução

INTRODUÇÃO

Nos primórdios da estatística, desde que o Homem se organiza em sociedade, ela

aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc..

Estes processos de contagem eram, posteriormente, apresentados à sociedade através de

tabelas e gráficos.

A palavra estatística aparece sempre ligada a coisas do Estado (status), mas só no séc.

XVII a estatística é tida como uma disciplina autónoma destinada a descrever factos ligados

ao estado. A estatística era associada ao processo político, como base para o planeamento do

Estado.

Esse processo de contagem do todo, denominado Censo, não é um procedimento dos

tempos passados. Na verdade ela constitui uma importante área da Estatística.

Relativamente à totalidade dos dados, há uma outra linha de trabalho que é conhecida

como Estatística Descritiva, que procura expressar as informações mais relevantes contidas

num conjunto de dados através do cálculo de valores. Cada um destes valores resume de uma

forma específica o conjunto de dados.

Mais recentemente, surgiu outro campo da estatística que designa-se por Estatística

Indutiva ou Inferência Estatística

Esta estatística preocupa-se em estimar o verdadeiro valor desconhecido do(s)

parâmetro(s) de uma população e testar hipóteses com respeito ao valor dos parâmetros

estimados, ou à natureza da distribuição da população.

Aqui é que surge uma separação, ou sabemos à partida qual a distribuição da população

(Estatística Paramétrica), ou não sabemos qual a sua distribuição (Estatística Não

Paramétrica).

Focaremos o nosso estudo sobre a Estatística Não Paramétrica. Os primeiros métodos

da estatística não paramétrica, embora com pouco uso até aos anos 40, foram referidos por

John Arbuthnot em 1710. Estes começaram a ter maior impacto só a partir de 1942 com

Wolfowitz. A partir daí o interesse aumentou de uma forma rápida.

Hoje a estatística não paramétrica é considerada como um dos campos mais importantes

da estatística. As técnicas que advêm desta categoria são usadas com grande frequência nas

ciências físicas, biológicas e sociais ou até mesmo na comunicação. Outros autores, também

dão importância a outros campos, tais como, na análise de dados da qualidade da água

3

Introdução

(Helsel), em aplicações na medicina (Brown and Hayden) ou mesmo na psicologia

(Buckalew).

Enumeremos, algumas vantagens para os métodos conhecidos:

1. Como os métodos da estatística não paramétrica depende do mínimo de suposições,

a possibilidade de o método não ser adequado é menor.

2. Para alguns métodos a avaliação pode ser rápida e fácil, especialmente se o cálculo

for manual. Deste modo, usando-os pode poupar tempo. É considerado importante,

se não tivermos tempo ou se não temos meios técnicos para o cálculo rápido.

3. Os métodos estatísticos são fáceis de perceber, mesmo tendo o mínimo de

preparação matemática e estatística.

4. Muito dos testes não paramétrica trabalham só com a ordem dos dados.

5. Poderão trabalhar com amostras de pequenas dimensões.

É claro que os métodos de estatística não paramétrica também trazem desvantagens. As

mais importantes são as seguintes:

1. Os testes não paramétricos, por vezes, são usados quando os testes paramétricos são

mais apropriados, porque estes testes são mais simples e rápidos, deste modo, pode

haver perda de informação.

2. Ainda que os procedimentos não paramétricos têm a reputação de requerer só

cálculos simples, a aritmética em muitas instâncias pode ser tendenciosa e

trabalhosa, especialmente quando as amostras são grandes.

3. Os métodos paramétricos são mais potentes para uma mesma dimensão e um

mesmo α do que os métodos da estatística não paramétrica.

Situação onde podemos usar os métodos da estatística não paramétrica

Os métodos não paramétricos são apropriados quando:

1. As hipóteses a testar não envolve parâmetros da população.

2. Se conhece a ordem dos dados.

3. Os pressupostos necessários para o uso válidos dos métodos paramétricos não são

conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode

4

Introdução

sugerir um certo processo paramétrico, mas quando iremos aplicar este processo

poderá violar de uma forma determinante os pressuposto. Neste caso, um método

não paramétrico seria a única alternativa.

Quando queremos implementar um método devemos ter em conta o nível de medida das

variáveis a analisar, estas estão divididas em diferentes grupos:

1. Escala Nominal: neste nível situam-se todas as observações que são categorias e

não têm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma.

Para que tenha uma ordem, pode ser atribuído um valor numérico, no entanto, os

números não tem um verdadeiro e único significado (Ex.: masculino=1, feminino=2

ou feminino=1, masculino=2);

2. Escala Ordinal: as observações são categorias que têm uma ordem natural. Estas

observações podem não ser numéricas. Por exemplo, as classificações dos testes

podem ser mau, não satisfaz, satisfaz, bom ou muito bom.

3. Escala Intervalar: tem todas as características da ordinal com a vantagem de

conhecer as distâncias entre dois números quaisquer da escala. Estes valores estão

limitados entre dois valores. (Ex. As notas das frequências de uma dada turma, os

valores estão entre zero e vinte).

4. Escala de Razões: além das características de uma escala intervalar, tem um

verdadeiro ponto zero como origem. Não existe limites. Nesta escala, a razão de

dois pontos quaisquer é independente da unidade de mensuração, por exemplo, se

determinarmos os pesos de dois objectos diferentes não somente em libras, mas

também em gramas, observamos que a razão dos dois pesos em libras é idêntica à

razão dos dois pesos em gramas.

Os vários métodos para testar as hipóteses serão apresentados de forma a focar as

diferenças entre as várias fontes de informação disponíveis, tais como, as tabelas e os dois

Software especializados: o Mathematica® e o SPSS®. A introdução dos dados, no caso do

SPSS®, e a programação das funções, no caso do Mathematica®, estarão em anexo, bem com

as tabelas aqui utilizadas.

5

Capítulo 1: Caso de uma amostra

CAPITULO 1: CASO DE UMA AMOSTRA

Os testes estatísticos inerentes ao caso de uma amostra servem para comprovar uma

hipótese que exige a extracção de uma amostra. É usualmente usado para teste de aderência,

isto é, se determinada amostra provém de uma determinada população com uma distribuição

específica.

As provas de uma amostra verificam se há diferenças significativas na locação

(tendência central) entre a amostra e a população, se há diferenças significativas entre

frequências observadas e as frequências que poderíamos esperar com base em determinado

princípio, se há diferenças significativas entre as proporções observadas e as proporções

esperadas e se é razoável admitir que a amostra seja uma amostra aleatória de alguma

população conhecida.

1.1 Teste da Binomial

Antes de falar no teste da Binomial, falemos um pouco da distribuição Binomial. Esta

distribuição é comum ser usada para a contagem de eventos de um modelo observado. É

baseado no pressuposto de que a contagem podem ser representada como um resultado de

uma sequência de resultados independentes de Bernoulli (por exemplo: o lançamento de uma

moeda). Se a probabilidade de observar um resultado R é P para cada n ensaios, então a

probabilidade que R será observado num ensaio x exacto é

xNxx PP

xN

p −−⎟⎟⎠

⎞⎜⎜⎝

⎛= )1(

A distribuição definida por: [ ] ),,1( NxpxXP x K=== é chamada distribuição

bi râmnomial com pa etros n e p. O nom que a expansão binomial de e aparece, pelo facto denp)− é nPPP +++ K10 .

O Teste da Binomial aplica-se a amostras que provém de uma população, onde o

número de casos observados podem ser representados por uma variável aleatória que tenha

distribuição binomial. As amostras consistem em dois classes (ex: cara o

p 1( +

u coroa; sucesso ou

insucesso), deste modo este teste é aplicado a amostra de escala nominal.

(1.1.1)

6


Cada uma das classes tem a sua proporção de casos esperados, tomaremos, assim, P

para a proporção de uma das classes, e para a outra classe. PQ -1=

P é fixo para uma determinada população, mas, devido aos efeitos aleatórios, não

podemos esperar que determinada amostra tenha exactamente a mesma proporção.

A hipótese a ser testada é se o valor da população é P .

A probabilidade de obter x objectos numa das categorias e noutra categoria é

dada pela fórmula 1.1.1..

xN −

No entanto, não queremos saber qual a probabilidade exacta dos valores observadas,

mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Então

para o método aplicamos a seguinte distribuição amostral:

∑=

iNiNi QPC -

ão da amostra);

3. ostra, elas são classificadas em pequenas amostras

3.1.

x

i 0

Método:

1. Determinar o número de casos observados N (dimens

2. Determinar as frequências em cada uma das classes;

Conforme a dimensão da am

( )25≤N ) e grandes amostras ( 25>N ):

Para pequenas amostra e 21== QP , a tabela D dá as probabilidades unilaterais,

sob 0H , de vários tão pequenos quanto um x observado. Emprega-se uma prova

unilateral quando se conhece em antemão qual das classes tem menor frequência,

3.2. Se robabilidade, sob , de ocorrência do valor

caso contrário basta, para uma prova bilateral, duplicar os valores da tabela D.

QP = , determina-se a p 0H

observado x , utilizando a fórmula 1.1.2.

Para grandes amostras, pode-se demonstrar que quando N cresce a distribuição

binomial tende para a distribuição Normal. Se s rápida se P estiver próximo

de

3.3.

rá mai

21 . Os parâmetros a usar serão a média =NPµ x e o desvio padrão NPQ=σ ,

deste m

x

odo, tem distribuição aproximadamente normal com média 0 e

variância 1, sendo:

z

NPQx-NP

=σ

x-µz= x (1.

x

(1.1.2)

1.3)

7


Devido à natureza da variável x ser discreta e a distribuição normal ser contínua,

deve-se incorporar um factor de correcção. Assim sendo z fica

NPQ-NPx

z)5.0±(

=

onde x + 0.5

(1.1.4)

é utilizado quando x < NP e x – 0.5 quando x > NP.

Então para grandes amostras e P próximo de 21 , testamos a hipóteses pla icando a

fórmula 1.1.4. A tabela A dá a probabilidade, sob , associada à ocorrência de

grandes quanto um valor de z observado, dado por aquela fórmula. A

tabela dá os valores unilaterais de p, sendo necessário para prova bilateral,

plo 1.1.1:

mos que num

. O pais querem saber se a probabilidade de nascer feminino ou masculino é igual.

R

idade de ascer menino ( ) ou

menina (

p babilidade.

ial porque os dados estão dicotomizados em duas classes

discretas. O nascim ,

0H

valores tão

duplicá-los.

Se o valor p associado ao valor observado x, não superar α , então rejeita-se H . 0

Exem

Suponha a dada família nasceram 12 filhos, 7 do sexo feminino e 5 do sexo

masculino s

esolução:

Hipóteses:

210 =: ppH Não há diferenças na probabil n 1p

)2p .

211 : pH ≠ Há diferença na pro

Escolhe-se o teste binom

ento é um processo aleatório, assim 21== QP .

Seja e N número de filhos = 12 01,0=α

8


A distribuição amostral é dada pela fórmula:

387,05

00 == ii

ii

-12- == ∑∑ iNix

iNiN QPCQPC

ara a bilateral basta

duplicar o valor, sendo assim,

Sabemos que o cálculo anterior deu a probabilidade unilateral, p

774,0387,02 =×=p . A região de rejeição consiste em todos

e x tão pequenos que a probabilidade, sob a hipótese nula, associada à sua

ocorrência não seja superior a 0,01.

Como a probabilidade p = 0,774 associado a

os valores d

5≤x é maior que 01,0=α , conclui-se

que não existe diferenças nas probabilidades de nascer menino ou menina.

O SPSS®, além do valor p, dá-nos um quadro resumo da amostra:

Output 1.1.1:

Este software pode fazer o teste com maior rapidez, muito embora, se a dimensão da

amos

nascimentos e que

nasceram 725 crianças do sexo masculino, para testar a hipótese, basta:

pmB

tra for muito grande, a introdução dos dados poderá ser demorada. Para colmatar esta

situação podemos recorrer ao Mathematica®, pois, basta dar o número de casos de um das

classes como ilustra o seguinte exemplo:

E emplo 1.1.2: x

Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou

feminino num dado país é igual. Considerando uma amostra de 1500

n inomial p-value = 0.5725 One- Sided PValue - > 0.102896822008 Two- Sided PValue - > 0.205793644017

9


Como o “p-value” é maior que 01.0=α , então aceitamos a hipótese de que não existe

diferenças entre o número de nascimentos do sexo masculino e feminino.

1.2 Teste do Qui-Quadrado ( 2χ ) para uma amostra

É adequado aplicar este teste quando temos os dados da amostra dividida em duas ou

mais categoria. O propósito deste método é ver se existem diferenças significativas entre o

núme ivíduos, de objectos ou de respostas, em determinada classe, e o respectivo

núme Isto é, a técnica testa se as frequências

obser

hipótese

método envolve os seguintes passos:

1. Enquadrar as frequências observadas nas k categorias. A soma das frequências deve

ser N, número de observações independentes;

Por meio de , determinar as frequências esperadas para uma das k células;

3. órmula:

ros de ind2χro esperado baseado na hipótese nula.

vadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob a

nula.

Método:

O

2. 0H

Calcular o valor de 2χ por meio da seguinte f

( )∑ −=

kii EO 2

2χ =i i

calc E1.

iO = número de casos observados na categoria i

= número de casos esperados na categoria i sob 0H

= número de categorias na classificação;

iE

k

4. Determinar o grau de liberdade ( 1−= kgl );

5. Com base na tabela C, determinar a probabilidade associada à

2de um valor tão grande quanto o valor observado de

considerado. Se o valor de p, assim obtido, for igual a, ou meno

χ

se a hipótese nula.

(1.2.1)

ocorrência, sob 0H ,

para o valor de

r do que,

gl

α , rejeita-

10


Nota: quando k > 2, se mais de 20 por cento dos ’s são inferiores a cinco, combina-

se de maneira razoável, categorias adjacentes. Reduzindo, assim o número de classes e

aume uns dos ’s. Quando k = 2. Pode-se empregar a prova

para uma amostra só se cada frequência esperada é no mínimo, igual a 5 (Cochran, 1954).

E

Tabela

elho Branco Preto Azul Cinzento

iE

iE 2χ ntando o números de alg

xemplo 1.2.1:

Dada a seguinte tabela:

1.2.1:

Cor Verm

Número de automóveis 29 25 19 15 17

Querem e há preferência em determinada cor, isto é, há razões para dizer que

há preferência rminada cor? Com um nível de significância

os saber s

em dete 05,0=α .

esolução:

ormulamos as hipóteses:

R

F

51: CinzentoAzulPretoBrancoVermelho0 ===== PPPPPH

01 : HH é falsa.

Calculamos o número total de frequências e o valor esperado:

105 ++++====== 1715192529CinzentoAzulPretoBrancoVermelho NNNNNN =

215

105===Ei

kN

alculamos 2χ : C

( ) ( ) ( ) ( ) ( ) 48,621

211721

211521

211921

212521

2129 222222 ≈

−+

−+

−+

−+

−=χ

11


A tabela C indica que 48,62 ≥χ para gl = 4 tem a probabilidade de ocorrência

entre 1,0=p e 2,0=p . Como p > α então não podemos rejeitar 0H . Concluindo que a

proporção de casos em cada categoria é igual, para um nível de 0,05.

Através deste exemplo, verifica-se que

tabela, deste modo, seria mais preciso se util

não podemos ir buscar o valor exacto de p na

assim, o SPSS® seria a melhor escolha, como

Output 1.2.1:

oderíamos utilizar o Mathematica®, através da função QuiQuadrada1Amostra[],

iQuadrada1Amostra 29,25,19,17,15

izarmos outros meios de cálculo mais eficazes,

ilustra o seguinte output:

P

dando como parâmetro a amostra:

QuPValue: 0.166297

como é observado, o

associad

a am

função de distribuição empírica da amostra define-se como a proporção das observações da

amostra que são menores ou iguais a

Mathematica® calcula com maior precisão o valor da probabilidade

a.

1.3 Teste de Kolmogorov-Smirnov

O Teste de Kolmogorov-Smirnov de um ostra é baseado na diferença entre a função

de distribuição cumulativa )(0 xF e a função de distribuição empírica da amostra )(xSn . A

x para todos os valores reais x . )(xSn dispõe dum

estimador pontual consistente para a verdadeira distribuição . Mais, através do teorema )(xFX

12


de Glivenko-Cantelli1 , podemos afirmar que )(xSn aproxima-se da distribuição teórica.

Portanto, p ra um n grande, o desvio entre as duas dia stribuições, ,)()( xFxS Xn − fica cada

vez m is pequenos para todos os valores de x . Assim ficama os com o seguinte resultado:

)()(sup xFxD Xx

n −= (1.3.1)

À esta nD chama os estatística de Kolmogorov-Smirnov de uma amostra. É

particularmente út

Sn

tística m

i a a Estatística Não Paramétrica, porque a probabilidade de não

depen este modo, pode ser chamada estatística

sem distribuição.

l par nD

de de )(xFX desde que XF seja contínua. D nD

O desvio à direita e à esquerda definida por

[ ])()(sup xFxSD Xn

xn −=+ [ ])()(sup xSxFD nXn −=− (1.3.2)

x

são c

uições de são independentes de

podem s assumir, sem perda de generalidade, que é a distribuição uniforme com

par sim o s o seguinte teorema:

Teorema 1.3.1: Para

hamados estatísticas de Kolmogorov-Smirnov unilaterais. Estas medidas também não

têm distribuição.

Para que possamos utilizar a estatística de Kolmogorov para inferência, a distribuição

da amostra deve ser conhecida. Sabendo que as distrib nD XF ,

o XF

âmetros (0,1). As btemo

)()(sup xFxSD Xnx

n −= onde é uma função distribuição

cumulativa contínua qualquer, temos:

)(xFX

1 Teore ko-Cantelli: converge uniformemente para com a probabilidade 1; que é ma de Gliven )(xnS )(xFX

10)()(suplim =⎥⎦⎤

⎢⎣⎡ =−

∞<<∞−∞→xFxSP Xn

xn

13


⎪⎩1⎪⎪

−≥

nnvse

vse

212

0

10! uun K

i extraí d

preciso ter em enos

ordinal.

Seja uma distribuição de frequências acumuladas, teórica, sob

Seja a distribuição de frequências acumuladas de uma amostra aleatória de N

⎪⎨

−<<=⎟

⎠⎞

⎜⎝⎛ +< ∫ ∫ ∫

+

−

+

−

+−

−− nnvseduduuuufv

nDP

vn

vn

vn

vn

vnn

vnn nnn 2120),,,(

21 2/1

2/1

2/3

2/3

2/)12(

2/)12( 121 KKK

⎪⎪⎧

≤0

onde ( )⎩⎨= contrário caso0

,,, 121

nnuuuf K

⎧ <<<<

Método:

Este método pretende testar se uma determinada amostra fo da e uma população

com uma determinada distribuição teórica.

Quando se escolhe este teste é conta que a variável seja pelo m

)(0 XF 0H .

)(XS N

observações. Quando X é qualquer valor possível, NkXS N =)( , onde k é o número de

observações não superiores a X.

ela hipótese Nula, de que a amostra tenha sido extraída de uma população com a

distrib pecífica, espera-se que as diferenças entre e sejam

pequenas e estejam dentro dos limites dos erros aleatórios. O teste de Kolm irnov

focali

P

uição teórica es )(XS N )(0 XF

ogorov-Sm

za a maior dessas diferenças. Ao valor de )()(0 XSXF N− é chamado de desvio

máximo, D:

)()(0 XSXFmáxD N−=

A Distribuição amostral de D, sob 0H , é conhecida. A tabela E dá certos valores

críticos dessa distribuição amostral. Note-se que a significância de um dado valor D depende

de N.

(1.3.3)

14


Exemplo 1.3.1:

Suponha-se que um pesquisador esteja interessado na confirmação experimental da

observação sociológica, de que os negros Americanos aparentam demonstrar uma hierarquia

de preferência em relação à tonalidade de pele. Para comprovar quão sistemáticas são essas

o pesquisador fictício tira uma fotografia de cada um dentro de 10 indivíduos

negros. O fotógrafo revela essas fotografias, obtendo cinco cópias de cada uma, de tal forma

que cada cópia difi ou em s, ser classificadas

em cinco tipos, desde a mais clara até à mais escura. À fotografia mais escura é atribuído o

posto 1, e para a mais clara é atribuída o posto 5. Pede-se então a cada indivíduo que escolha

uma de entre as cinco cópias de sua própria foto. Se os indivíduos forem indiferentes em

relação à tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos

(com ex

tão os diversos

indivíduos deverão consistentemente manifestar preferência por um dos postos extremos. Os

resultados est u

Tabela 1.3.1:

preferências,

ra ligeiramente das tras tonalidade, podendo, poi

cepção, é óbvio, de diferenças aleatórias).

Se, por outro lado, a cor tiver importância, tal como supomos, en

ão na seg inte tabela:

Posto da foto 1 2 3 4 5

N.º de indivíduos 0 1 0 5 4

Resolução:

Formulamos as hipóteses:

ffH 543 fff ==210 : == ão há diferenças no número esperado de escolhas para

cada um dos cinco postos, isto é, a amostra prov de uma população com um distribuição

uniforme.)

é falsa ( não são iguais).

ção de frequências

acumuladas teórica e a da amostra:

(N

ém a

01 : HH 54321 ,,,, fffff

Com a ajuda de uma tabela, calculamos a diferença entre a distribui

15


Tabela

1.3.2: 1f 2f 3f 4f 5f

N.º de indivíduos que 0 1 0 5 4

escolhem a cor

)(0 XF 5

15

15

15

15

1

)(0 XS 0 101

101

106

1010

)()(0 XSXF N− 51

103

105

102 0

De seguida, calculamos o máximo entre estas diferenças:

{ } 5,0105)()(0 ==−= XSXFmáxD N

Consultamos a tabela E que nos dá a probabilidade p associada de ocorrência (bilateral)

de com5,0≥D 10=N :

Utilizando um nível de significância

.01,0≤p

01,0=α , podemos concluir que é falsa, sendo

assim, os indivíduos demonstram preferência na tonalidade.

Como é observado, a tabela dá-nos intervalos de p , não sendo possível obter o seu valor

exacto. Poderíamos escolher um

0H

03,0=α e se, após o cálculo de D, a probabilidade

associada estiver entre 0,01 e 0,05, não era possível dar uma resposta.

o SPSS® p

Output 1.3.1:

odemos obter o valor exacto de p: N

16


1.4. Teste de Iterações de Uma Amostra

Dado uma sequência de dois ou mais tipos de símbolos, uma iteração é definida como

uma sucess u ma s símbolos idênticos em que são seguidos e precedidos por outro

símbolo diferente ou nenhum símb lo.

Pistas para uma sequência não aleatória são dadas através da

ão de um o i

o

existência de algum

padrão. O n

reflectir a existência de algum tipo de padrão.

Quer a situação de um núm

aleatória

grande ou muito pequeno.

ste teste utiliza-se quando os valores estão numa escala nominal ou ordinal, em que a

amostra

Dada uma sequência d m do segundo

tipo, onde

úmero de iterações e o comprimento, em que estão interrelacionados, devem

Uma alternativa para saber se é ou não aleatória é baseada no número total de iterações.

número pequeno quer a situação de um ero grande de iterações,

sugere que a sequência de símbolos estão dispostos de forma ordenada (não ), isto é,

a hipótese nula é rejeitada se o número de iterações é muito

E

é dicotómica.

e n elementos de dois tipos, 1n do pri eiro tipo e 2n

nnn =+ 21 . Se é o número de do tipo 2, então, o

número total de iterações na sequência é

1 2

21

r iterações do tipo 1 e r

rrR += . Para fazer um teste para a aleatoriedade,

precisamos da distribuição de probabilidade de R quando a hipótese nula é verdadeira.

A distribuição de R será encontrada quando conhecerm s a distribuição de r e r ,

bastando somar as duas distribuições. Sabendo que sobre a hipótese nula todos os arranjos de

o

objectos é equiprovável, a probabilidade de

1 2

21 nn + 11 rR = e 22 rR = é o número de arranjos

L

distintos de 21 nn + objectos dividido pelo total de arranjos distintos, que é !!/! 21 nnn . Para a

quantidade do numerador, o lema seguinte pode ser usado.

ema 1.4.1: O número de formas distintas para distribuir n objectos iguais por

r distintas células sem células vazias é nr

≥⎟⎟⎠

⎜⎜⎝ −

se

lulas, em que pode ser feito em ⎜⎜⎝

⎛−11

1

rn

diferentes

.,11n ⎞⎛ −

r

De modo a obter uma quência com r iterações de objectos do tipo 1, os n objectos

iguais deve ser postas dentro de cé ⎞−1

1 1

1r ⎟⎟⎠

17


maneira a-se d os objectos. O

núme s distintos começando com uma iteração do tipo 1 é o produto

⎛ −⎞⎜⎜⎝

⎛−− 12

1

1 nrn

a iteração do tipo 2.

O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poderá

acontecer o seguinte:

s. Aplic o mesmo modo para obter 2r iterações com outr 2n

ro total de arranjo

⎟⎟⎠

⎜⎜⎝ −⎟⎟⎠ 11 2r

. Analogamente, para uma sequência começando com um1 ⎞

121 ±= r ou 21 rr = . Se 121 += rr , a sequênciar deve começar com uma

iteração do tipo 1; Se e ser o tipo 2 a começar. Caso a sequência

pod o do er

duplicado. Assim foi

Teorema 1.4.1: Seja e os respectivos números de iterações de objectos do

2 n ma ostra aleatória de dimensão . A distribuição

a probabilidade conjunta de e é

121 −= rr então dev 21 rr =

e começar com tipo 1 ou 2., portanto, o número de arranjos distintos deve s

provado os seguintes resultados.

1R 2R 1n

tipo 1 e n objectos do tipo u am2 21 nnn +=

d 1R 2R

⎟⎠

⎜⎝ 1n

e 2=c se 21 rr = e 1=c se 121

⎟⎜

⎞⎛ −

⎠

⎞

⎝

⎛ −

21

111

n

nn

(1.4.1)

ond

⎞⎛ +=

21),(, 2121 n

f rrRR ⎟⎟⎠

⎜⎜⎝ −⎟⎟⎜⎜ −

21

1rrc

±= rr .

Corolário 1.4.1: A distribuição da probabilidade marginal de é 1R

11

1

2

1

21

,,2,1

11

nr

nn

nn

K=

⎟⎟⎠

⎞⎜⎜⎝

+

⎟⎟⎞

⎜⎜⎛ +⎟⎟⎞

⎜⎜⎛ −

2R trocando posições de 1n com 2n e vice-versa.

1

1)(

111 n

rrf rR ⎛

⎠⎝⎠⎝ −=

Similar para

Teorem

do tipo 1 e do tipo 2, numa amostra aleatória é

,,2,1

21

22

=,,2,1

11

==

ourr

nr K

nr K

121 ±= rr

(1.4.2)

a 1.4.2: A distribuição de probabilidade de R , número total de iterações e

21 nn += objectos, 1nn 2n

18


⎪⎪⎪⎪⎪

⎩

⎪⎪⎪⎪⎪⎪⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛ +

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝ −

+⎟⎟⎠

⎜⎜⎝ −⎟⎟⎠

⎜⎜⎝ −

⎟⎟⎠

⎞⎜⎜⎝

⎛ +

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

parérse

nnn

rn

rrr

imparérse

nnnrn

rn

1

21

2121

1

21

21

2/)1(1

2/)3(2/)3(2/)1(

12/1

12/1

2

(1.4.3)

nn

⎪⎨

⎛ −⎞⎛ −⎞⎛ −=

nnnrf R

111)(

para ,3,2r 21,= K +

1. Dispo observa sua ordem ncia;

2. C

Método:

r as 1n e 2n ções na de ocorrê

ontar o número r de iter

3. Det robabilida ass valor tã mo quanto o

valor observado de r. Se t abilidade inferior,

ações;

erminar a p de, sob 0H , ociada a um o extre

al prob é igual, ou a α , rejeitar . A

técnica para a determinação do valor de p depende do tama e

3.1. S ambos n eriores a r à tabela abela FI dá o

valor de r que é tão pequeno que a sua probabilidade associada, sob é

tão grande que a sua probabilidade

0H

nho dos grupos 1n 2n :

e 1n e 2n são ão sup 20, recorre F. A t

0H

025,0=p ; a tabela FII dá o valor de r que é

associada é 025,0=p . Para uma prova bilateral consideramos os dois valores, ao

nível 05,0=p . Para uma prova unilateral consideramos a tabela correspondente

mbém a um nível aos valores previstos ta 05,0=p .

3.2. Se 1n ou 2n for superior a 20 então determinar uma aproximação à Normal através

da se guinte fórmula:

( )( ) ( )1

12

212

21

21

21

−++

⎟⎟⎠

⎞⎛+

+

nnnn

nnnn

(1.4.1) 22 212121 −−

==nnnnnn

zrσ

⎜⎜⎝

−−

rr rµ

19


calculado o valor de z, recorrer à tabela A.

Apresentamos uma tabela onde é dado o total de pagamentos feitos pelas equipas da

iga Nacional de baseball dos EUA:

Tabela 1.4.1: Pagamentos em milhões de dólares.

Exemplo 1.4.1:

L

Equipa Pagamento Equipa Pagamento

Atlanta 47.93 Montreal 15.41

Chicago Cubs 31.45 New York Mets 23.46

Cincinnati 40.72 Philadelphia 29.72

Colorado 38.19 Pittsburgh 21.25

Florida 30.08 San Diego 27.25

Houston 26.89 San Francisco 34.79

Los Angeles 34.65 St. Louis 38.92

A mediana deste conjunto de números é de 30,765.

valor maior que a mediana.

ência aleatória. Com um nível de

significância

Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um

valor menor que a mediana e o um corresponde a um

Obtemos a seguinte sequência:

1,1,1,1,0,0,1,0,0,0,0,0,1,1

Queremos saber se os valores estão numa sequ

05,0=α .

Resolução:


0H : os zeros e uns ocorrem em ordem aleatória

01 : HH é falsa.

O número de iterações é 5=r ; 1 e 72 =n =n 7

s para o r com a ajuda da Tabela F que nos dá o seguinte

resultado:

13

Calculamos os extremo

3 5

Região de Rejeição Região de Rejeição Região de Aceitação

20

amendes

Rectangle


odo,

concluímos que, com um nível de significância

Como r pertence ao intervalo de aceitação, podemos aceitar 0H , deste m

05,0=α , os pagamentos ocorrem de forma

aleatória.

Podemos verificar que estas tabelas não nos dão o valor de p, apenas um intervalo de

rejeição. Quer no Mathematica®, quer no SPSS® podemos calcular de uma forma exacta o

valor da probabilidade associada.

Vejamos então no SPSS:

Output 1.4.1:

Como podemos observar a probabilidade associada é de 164,0=p , assim chegamos ao

mesmo resultado, isto é, aceitamos a hipótese nula.

No Mathematica® usamos dois procedimentos, um para converter para zeros e uns

outro para o cálculo da probabilidade:

Guardamos os valores numa variável do tipo lista:

Pagamentos = 47.93, 31.45, 40.72, 38.19, 30.08, 26.89, 34.65, 15.41, 23.46, 29.72, 21.25, 27.25, 34.79, 38.92

convertemos para zeros e uns: ZeroUns = convertToZerosAndOnes pagamentos 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1

21

amendes

Placed Image


e calculamos a probabnpmRunsTest ZeroUns

ilidade associada:

Number of Runs - > 5 Two- Sided PValue - > 0.155012

Concluímos, do mesmo modo, que não há razão para rejeitar a hipótese nula.

omo conclusão para este teste, podem a ajuda do computador, não

é nec a

C os afirmar que, com

essário fazer uma aproximação à normal, visto que, não tem limitação das tabelas.

22

Capítulo 2: Caso de duas amostras relacionadas

CAPÍTULO 2: CASO DE DUAS

tro.

2.1 Teste dos Sinais

É dado uma amostra aleatória de pares ordenados da forma

)y , cada par é substituído por um sinal mais ou menos depende

se o prim aior ou menor.

1.

2. Determ embros de cada par;

. Determinar N = número das diferenças com sinal;

sociada à ocorrência, sob , de um

AMOSTRAS RELACIONADAS

Empregam-se os testes para duas amostras relacionadas quando queremos determinar,

para uma mesma situação, se duas abordagens, tratamentos ou métodos são diferentes ou se

um é melhor que o ou

( ) ( ) ({ }2122211211 ,,...,,,, nn yyyyy

eiro valor é m

Método:

Emparelhar n pares;

inar o sinal da diferença entre os dois m

3

4. O método para determinar a probabilidade as 0

valor tão extremo quanto o valor observado de

H

z depende do tamanho de N:

i. Se , a tabela D teral associada a uma

valor tão pequeno quanto o valor esperado

25≤N dá a probabilidade unila p

x = número de sinais com menor

frequência. Duplica-se o valor da pr

ii. Se N , calcular o valor de

obabilidade quando se trata de um teste

bilateral.

> 25 z mediante o emprego da fórmula:

NNx 1)5,0( −±

z1

2= 2

Utiliza-se 5,0+x quando Nx 21< , caso contrário, 5,0−x .

al duplicar o

valor de

lor da probabilidade obtida no teste não for superior a

A tabela A dá os valores unilaterais de p , para um teste bilater

α , rejeitar

(2.1.1)

0H .

p .

Se o va

23


Exemplo 2.1.1:

essor acredita

que u

Tabela8 76 60 46 86 33 94 122 75 65 80 111 62

Depois 21 85 58 58 91 32 106 145 83 78 80 122 75

Um professor da disciplina de alemão pretende avaliar o impacto de uma viagem, com a

duração de uma semana à Alemanha, sobre o vocabulário dos estudantes. O prof

ma semana na Alemanha resultará num acréscimo significativo das palavras do

vocabulário dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os

seguintes resultados:

2.1.1:

Antes 91

esolução:

ormulamos as hipóteses:

Não há diferenças, i esmo de sinais “-”.

é falsa.

R

F

0H : sto é, o número de sinais “+” é o m

H 01 : H

Iremos usar o teste dos sinais, escolhendo um 05,0=α .

Após a análise dos pares ordenados verificamos a seguinte sequência de sinais:

+ + - + + - + + + + + +i

12=N (ne 2=x ste caso houve um empate) e

25≤NComo , recorremos à tabela D, e verificamos que para uma prova unilateral o

valor de p é de 0,019, mas como a prova é bilateral 038,0=p

Sendo assim, rejeitamos a hipótese nula, dado lugar à hipótese alternativa, concluindo

endável os alunos irem à Alemanha.

Vam ver como seria no computador este exemplo:

Após a introdução dos dados no SPSS®, teríamos os seguintes resultados:

que seria recom

Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptível a

erros e teríamos que utilizar uma aproximação, seria prudente a utilização de um computador.

os

24


.1: Output 2.1

Como pode-se verificar, ermos visualizar o valor da probabilidade de um

modo mais exacto, podemos ver também o número total de sinais que ocorrem.

parâmetr

empates

npmSignTestFrequencies 2, 10

além de pod

Outro modo seria utilizando o Mathematica®, na função a utilizar damos como

os: o número de sinais positivos e o número de sinais negativos, excluindo os

em ambos os casos:

Title: Sign Test Test Statistic: Number of Pluses is 2 Distribution BinomialDistribution 2 - sided p- value - > 0.0385742

os verificar que o valor de p é dado com maior número de casas decimais.

2.2 Teste de McNemar

duas amostras relacionadas, isto é, tem como objectivo avaliar a eficiência de situações

que cada o indivíduo é utilizado como o seu próprio controlo. Utiliza-

se a m escala nominal para avaliar alterações da situação “após” em relação à

situação “antes”.

Podem

O teste desenvolvido por McNemar é usado para analisar frequências (proporções) de

“antes” e “depois”, em

ensuração em

Método:

1. Enquadrar as frequências observadas numa tabela de quatro células na forma

seguinte:

25

amendes

Rectangle


Tabela 2.2.1:

+ A B- C D

DepoisAntes

- +

As células A e D são consideradas células de mudança, enquanto que as células B e C

são células que não muda de estado. O total de indivíduos que acusam mudança é

pois ositivo” e a

probabilidade de “Antes Positivo; Depois Negativo” e , calcular as

A e D:

DAm += ;

2. Considerando 1p a probabilidade de “Antes Negativo; De P 2p

21 pp =

frequências esperadas nas células )(21 DAE += .

as frequênciasSe esperadas são inferiores a 5 , empregar a prova binomial em

substituição á de McNemar, neste caso, DAN += e { }DAx ,min= ;

3. Ca 2X so não se verifique que as frequências são inferiores a 5, calcular o valor de

com o emprego da seguinte fórmula:

( )DA

DAX

+

−−=

22 1

com gl = 1

va

unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela

tabela, não supera

4. Mediante referência à tabela C, determinar o probabilidade, sob 0H , associada a um

valor tão grande quanto o valor observado de 2X . Se se tratar de uma pro

α , rejeitar m

Exem lo 2.2.1: Dada a seguinte tabela de resultados:

Tabela 2.2.1:

Marca ASucesso 19 11

0H e favor da hipótese alternativa.

p

Marca B Sucesso Insucesso

Insucesso 4 16

(2.2.1)

26


ificância

de

Queremos saber qual a melhor marca de medicamentos com um nível de sign

05,0=α .

olução: Res

n diferenças

entre a m células (B e C). Se verificarmos

que B

então a m é melhor. Com base neste raciocínio, formulamos as nossas hipóteses:

McNemar demo strou que A ou D não contribui para a determinação das

arca A e a marca B, Mas sim através das restantes

> C, podemos concluir que a Marca A é melhor que a marca B, caso contrário, se B < C

arca B

0H : Não existe diferenças entre a marca A e a Marca B ( 21

marcaBmarcaA == pp )

01 : HH é falsa.

( )1142857143,0

161911619 2

2 =+

−−=X com

omo 2 XX > então rejeitamos a hipótese nula, dando lugar à hipótese

alternativa, isto é, existe diferenças entre a marca A e a marca B, sendo a marca A melhor que

a marca B.

da probabilidade associada:

1=gl

Através da tabela C, calculamos uma aproximação do valor de )1(21 α−X :

0039,0)1()1( 295.0

21 ==− XX α

)1(295.C 0

Com a ajuda do computador, não é preciso recorrer à tabela, podendo calcular o valor

preciso

Output 2.2.1:

27


No Mathematica®, a função a utilizar será a mesma da binomial dando como

parâm ero total dos valores das células onde há mudança de comportamento entre

as ma as, a probabilidade (neste caso é 0,5) e o menor valor entre as células de mudança:

pmBinomial PValue 0.5, 4

etros: o núm

rc

nOne- Sided PValue - > 0.0592346 Two- Sided PValue - > 0.118469

om o Mathematica® chegamos à mesma conclusão do método pelas tabelas, com a

vanta

ilcoxon é mais poderoso que o teste dos sinais, pois, além de considerar o

sentido da diferença também tem em conta o seu valor e o posto em que se insere.

Para cada par, determinar a diferença ( ), com sinal, entre os dois valores;

2. Atribuir postos a esses ’s independentemente de sinal. No caso de d’s empatados,

atribuir a média dos postos empatados;

3. Atribuir a cada p inal inal – e ele representa;

4. Determinar

C

gem de ser com maior precisão.

2.3 Teste de Wilcoxon

O teste de W

Método:

1. id

id

osto o s + ou o s do d qu

T qu l à m s som ostos d esmo sinal;

5. Determinar N que é igual ao t d’s co l;

6. O processo para determinação nificân o valor o ervado de T vai depender

de N:

Se , a tabela G dá os valores críticos de T pa rsos tamobservado de T não supera o valor indicado na tabela, para um dado nível de significância e um particular N, pode ser rejeitada; Se , calcular o valor de z pela seguinte fórmu

e é igua enor da as de p e m

otal de m sina

da sig cia d bs

25≤N ra dive anhos de N. Se o valor

0H25>N la:

2412N)(1(

(

+

−=

NN

NTz (2.3.1) 4

+

)1+N

28


Determinar a sua pr ade ada, s , mediante referência à Tabela A.

Para uma prova bilateral, duplicar o valor de p dado.

Se o p assim obtido não for superior a

obabilid associ ob 0H

α , rejeitar

Exemplo 2.3.1:

valores que correspondem ao

núme nos em diferentes profissões divididos pelo

sexo:

Tabela 2.3.1:

Femin 55 8556 2972 324 19448 1790 5163 12495 7594 1128 3724 614

0H .

Na tabela seguinte apresentamos uma sequência de

ro de pessoas que trabalham à mais de 25 a

ino 47618 15110 65

Masculino 6523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 23565

Pretendemos determinar se existem grandes diferenças entre os sexos nas diferentes

ocupações.

esolução:

amos as hipóteses:

: Não há diferenças entre o sexo masculino e o feminino nas diferentes ocupações.

Há diferenças entre os sexos.

emos usar o teste de Wilcoxon, escolhendo um

R

Formul

0H

H :1

Ir 05,0=α .

Dispomos os dados numa tabela para calcular as diferenças e os postos:

29


Tabela 2.3.2:

iA iB iii BAd −= Postos

47618 56523 -8 12 905

15110 16708 -1598 5

6555 8883 -2328 8

8556 7825 731 3

2972 1002 1970 7

324 442 -118 1

19448 11161 8287 11

1790 1661 129 2

5163 6346 -1183 4

12495 3153 9342 13

7594 4760 2834 9

1128 10946 -9818 14

3724 10593 -6869 10

614 2356 -1742 6

4591321173 =+++++=+T

6061014418512 =+++++++=−T 45},min{ == −+ TTT

Como N < 25 (N = 14) então estamos perante a um caso de pequenas amostras, neste

caso basta ver qual o valor tabelado de T descrito na tabela G:

Para um N = 14 e 05,0=α (prova bilateral) temos 21=tabeladoT

Como então aceitamos a hipótese, isto é, não existe diferenças entre os

sexos nas diferentes ocupações.

No SPSS®, basta introduzir os dados em duas series de variáveis, ficando com o

seguinte resultado:

tabeladoTT >

30


Output 2.3.1:

teste assimptotico. Não nos dá o valor de T mas

sim

Podemos observar que o SPSS faz um

Podemos observar que o SPSS faz um


31

Output 2.3.1:

teste assimptotico. Não nos dá o valor de T mas

sim o valor da probabilidade associada. Neste caso , então podemos concluir que 638,0=p

não existe diferenças entre os sexos.

31

Capítulo 3: Caso de duas amostras independentes

CAPITULO 3: CASO DE DUAS

ger a

tos, ap

ensões diferentes.

istribuições são contínuas, uma única ordem é sempre possível,

visto

AMOSTRAS INDEPENDENTES

Como os testes do capítulo 2, os testes, de seguida, apresentados, servem, de um modo

al, para determinar se as diferenças nas amostras constituem evidência convincente de um

diferença nos processos, ou tratamen licados a elas. A principal diferença é de que as

amostras são independentes e como tal, podem ter dim

3.1 Teste de Iterações de Wald-Wolfowitz

Seja duas amostras independentes mXXX ,,, 21 K e nYYY ,,, 21 K combinadas numa

única sequência ordenada da menor à maior, não deixando de identificar a sua amostra.

Assumindo que as suas d

que teoricamente não existem empates. Por exemplo, com 4=m e 5=n , a sequência

poder

distribuições são idênticas

para todo o x

esperam X e Y estejam bem misturadas na sequência obtida. Visto que, a dimensão

+ a ostra d ulação comum.

Com a r s idênticas precedida e

seguida por t ero total de iterações de uma amostra

ordenada é

iterações sugere ên o provém de uma única amostra, mas sim de

duas amostr as popula

menores que os i

configuração pa

também podem ticamente menores que os Y’s. Contudo, a ordem

inversa tamb e ta

iterações não po

Em primeiro lugar, o teste de iterações é apropriado quando a hipótese alternativa é

bilateral

ia ser X Y Y X X Y Y em que é indicado que o menor elemento pertence à amostra X, o

segundo menor da amostra Y, etc., e o valor maior pertence à amostra Y. Sobre a hipótese nula

de que as

)()(:0 xFxFH xY =

os que

nm N= constitui um am e dimensão N de uma pop

ite ação, definida em 1.4, como uma sequência de letra

uma letra diferen e ou nenhuma letra, o núm

um indicativo do grau de mistura. Um padrão de arranjos com muito poucas

que os N valores da sequ cia nã

as de du ções diferentes. Por exemplo, se todos os elemento de X são

elementos de Y, na sequência formada dever a ter só duas iterações. Esta

rticular pode indicar que não só as populações não são equivalentes, como

indicar que X’s são estocas

ém só contém duas iterações, , por nto, um teste baseado só no número total de

de distinguir estes casos.

32


)() xFx x≠ para alguns x

uma variável R aleatória como o número total de iterações numa ordem de m

aleatórios.

(:1 FH Y

Definimos

X e n Y valores

Desde que poucas iterações tendem a duvidar da hipótese nula quando a alternativa é

, O teste de iterações de Wald-Wolfowitz (1940) para um nível de significância 1H α

geralmente tem a região de rejeição αcR ≤ onde αc é escolhido para ser o maior inteiro que

satisfaz αα ≤≤ )( cR quando 0H é verdadeira.

sde que as observações X e Y são dois tipos de objectos arranjados numa sequência

mente aleatória, se 0H é verdadeira, a distribuição da probabilidade nula de R é

stribuição 1.4.2 do corolário 1.4.1 para o teste de iterações de um

P

De

completa

igual é di a amostra, bastando

mudar

os Y’s são os objectos do tipo 2.

Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferença.

os aplicar a prova de Wald-Wolfowitz supõe-se que a variável em

estudo tenha distribuição básica contínua, e exige mensuração no mínimo ao nível de escala

ordin

e 2n para m e n respectivamente, assumindo que os X’s são os objecto do tipo 1 e 1n

Para que possam

al.

Método:

Suponhamos que nn =1 e mn =2 , os passos a seguir são:

i. Dispor os 21 nn + valores numa única sequência ordenada;

ii. Determinar r = número de iterações;

iii. O método para determinação da significância do valor observado de r

dep h e

, a e F s o

ende do taman o de 1n 2n :

iv. Se 20,n 21 ≤n tab la I dá o valores crític s de r para um nível de

significância 0,05. Caso o valor observado de r não superar o valor tabelado

para os valores dados de e , então podemo ao nível de

gnificância

1n 2n s rejeitar 0H

si 05,0=α ;

v. Se um dos valores de e superar 20, podemos utilizar a seguinte

ormal:

1n 2n

aproximação à N

33


)1()( 212

21 −++ nnnn

Após a determ

)2(2

5.0122

212121

21

21

−−

−⎟⎟⎠

⎞⎜⎜⎝

⎛+−

=nnnnnn

nnnnr

z (3.1.1)

inação do valor de z, determina-se a probabilidade associada

através da tabela A. Se o valor p não for maior que p α então devemos rejeitar

Teoricamente, não deveria ocorrer empates nos valores de uma prova de iterações,

que as populações, das quais se extraíram as amostras, deveriam ter distribuições

cont é o a p i bilidade das

mens l n o rr e a r e r s. Portanto,

por vezes, pode originar valores diferentes para

a hipótese nula;

Caso ocorram empates.

por

ínuas. Na aplicação do m todo, p r f lta de rec são ou de sensi

urações pode eventua me te co er mp tes nos dife ent s g upo

r . Assim para abranger todos os

epetir o método para todas as ordens diferentes.

Caso i c e o étodo é

inapl

Exemplo 3.1.1:

de discriminação de brilho) de 21 ratos

norm o número de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois

imais diferem nas suas taxas de aprendizagem (reaprendizagem).

A segui a t e r r feitas pelos

ratos do grupo g

Tabela 3.1.1:

Ratos A 20 55 29 24 75 56 31 45

casos, deve-se r

chegue a d ferentes de isõ s s bre a hipótese nula, então, este m

icável.

Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o

número de tentativas de aprendizagem (numa tarefa

ais com

grupos de an

nte tabel dá-nos as tenta ivas de apr ndizagem ( eap endizagem)

A e do rupo B:

Ratos B 23 8 24 15 8 6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14

34


Resolu

s :

difer s

inação de brilho.

Os dois grupos de ratos diferem em relação à taxa de aprendizagem

(reaprendizagem).

A prova a escolher é a prova de Wald-Wolfowitz, pois é uma prova global para a

diferença entre duas amostras. O nível de significância a escolher será

ção:

Formulamos as hipóte es

0H : Não há ença entre os ratos normais e os ratos em período pós-operatório com

lesões corticais, no que diz respeito à aprendizagem (ou reaprendizagem) numa

tarefa de discrim

H :1

01,0=α .

Dispomos por ordem crescente e contamos o número de iterações:

Tabela 3.1.2:

20 Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18

Grupo B B B B B B B B B B B B B B A

Iterações 1 2

Tabel

21 21 22 23 23 24 45 55 56 75 a 3.1.2 (continuação):

Valores 24 24 29 31

Grupo B B B B B B A B A A A A A A

Iterações 3 4 5 6

Neste caso o número de iterações é 61 =r , mas, note-se que há empates entre os dois

grupo

Tabela 3.1.3:

Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20

s, neste caso, teremos que repetir a contagem:

Grupo B B B B B B B B B B B B B B A

Iterações 1 2

35


Tabela 3.1.3 (continuação):

Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75

Grupo B B B B B B B A A A A A A A

Iterações 3 4

Assim, ficamos com 42 =r .

Dado que 81 =n e 20212 >=n , então não podemos recorrer à tabela F. Para que

possamos calcular a probabilidade associada teremos que fazer uma aproximação à Normal

com o auxilio da fórmula (3.2.1):

Para : Para 41 =r 62 =r :

[ ])1218()218(

218)21)(8)(2()21)(8)(2(

5,01218

)21)(8)(2(4

2

1

−++−−

−⎟⎠⎞

⎜⎝⎛ +

+−

=z

864,3=

[ ])1218()218(

218)21)(8)(2()21)(8)(2(

5,01218

)21)(8)(2(6

2

2

−++−−

−⎟⎠⎞

⎜⎝⎛ +

+−

=z

908,2=

Recorrendo à Tabela A, calcula-se o valor da probabilidade associada:

Para um 864,31 ≥z , verificamos que

0=p

Para um 908,22 ≥z , verificamos que a

0014,0

a probabilidade é probabilidade é

1 2 =p

Ambas as probabilidades e , são inferiores a 1p 2p 01,0=α . Deste modo, concluímos

que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem

(reaprendizagem).

e gnificância este

método não teria efeito.

Caso, alguma das probabilidades fossem superior do que o nível d si

Vejamos como o SPSS® apresentava o resultado:

36


Output 3.1.1:

Como pod

iterações, calcul a probabilidade associada. A conclusão a tirar seria a

mesma pelo tradicional

Como van

visto que, no m

cálculo de po

3.

Como no teste de iterações de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947) é

baseado na ideia de que um padrão particular, exibido quando X e Y variáveis aleatórias estão

numa única fila postos em ordem crescente, fornece informação sobre a relação entre as suas

populações. Contudo, em vez de basear-se pelo núm

de Mann-Whitney é baseado na magnitude de Y’s em relação com os X’s, digamos que é a

posição dos Y’s numa sequência ordenada.

O objectivo deste teste é comprovar se dois grupos independentes foram ou não

extraídos duma população com a mesma mediana. Para isso, as amostras devem ser

independentes e aleatórias: uma extraída duma população com mediana não conhecida e

outra extraída de outra população com mediana desconhecida . O nível de mensuração

enos ordinal e as duas popul

A hipótese a comprovar é ver se as populações têm a mesma mediana, sendo a

altern

emos constatar, o SPSS® indica-nos o número mínimo e máximo de

ando para cada um

método .

tagem para o SPSS®, é o modo rápido como se calcula as probabilidades,

étodo tradicional, em caso de empates, temos que repetir a ordenação e o

dendo provocar maior número de erros. p ,

2 Teste U de Mann-Whitney

ero total de iterações, o critério do teste

1M

2M

tem que ser pelo m ações devem ter uma distribuição contínua.

ativa, as medianas serem diferentes ou uma maior do que a outra.

37


Método:

s aos valores, em caso de empate, fazer a média dos postos

correspondentes;

a determinar U basta recorrer à fórmula seguinte:

1. Determinar os valores 1n (=número de casos do menor grupo) e 2n ;

2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente;

3. Atribuir posto

4. Par

);min( 21 UU= U (3.2.1)

Sendo: 111 )1( RnnnnU −211 2+

+= e UnnU 1212 −=

com s postos atribuídos à amostra 1;

ar a significância do valor de depende de :

ma prova bilateral basta duplicar o valor

nstar na tabela, deve ser

inte tado como

1R = soma do

5. O método para determin 2n

i. Se 82 ≤n , a tabela J dá a probabilidade exacta associada a um valor tão

pequeno quanto o valor de U. Para u

obtido na tabela, Caso o valor de U não co

rpre UnnU −= 21' ;

ii. Se 209 ≤≤ n , é utilizada a tabela K, que dá os valores2 críticos de U para

níveis de significância de 0,001, 0,01, 0,025, 0,05 para um teste unilateral,

duplicando estes valores para u ilateral. Caso o valor observado de

aior do que /2, deve ser interpretado como U’ descrito na alínea

r

Se n pr abilidade deve r c ula atr és d pro ação

is i o al, av o r q a e rm :

ma prova b

U é m 21nn

ante ior;

iii. 202 > , a ob se alc da av e uma a xim

à d tribu ção N rm atr és d valo de z ue é nos d do p la fó ula

12)1( 2121 ++ nnnn

221−

=

nnU

z

ostras, expressão utilizada será:

(3.2.2)

Caso ocorram empates, em grandes am

38


⎟⎟⎠

⎞−

− ∑TN2⎜⎜

⎝

⎛−

−=

NNNnn

nnUz

1)1(

23

21

21

onde: 21 nnN += e 12

ttT −= sendo t o número de observaçõe

3

s empatadas para uma dada

posiç

e o valor observado de U tem probabilidade associada não superior a

ão.

αS , rejeitar a

hipótese nula.

Exemplo 3.2.1:

a disciplina de Estatística Aplicada, onde se encontra inscritos alunos do curso de

Matem

Tabela

N

ática (ensino de) e Matemática/Informática, registaram-se as seguintes classificações

numa das frequências:

3.2.1:

Mat. (ensino de) 10.5 16.5 11 9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7

Mat./Informática 11.4 12.9 10.1 7.9 8.8 12.8

O que se pode conclu édias das ordens das classificações.

Resolução:

ulamos as hipóteses:

ática

Há diferenças entre as médias das ordens (teste bilateral).

pós a contagem do número de casos em ambas as amostras temos:

(3.2.3)

ir acerca das m

Form

0

(ensino de) e de Matemática Informática

H : Não há diferenças entre as médias das ordens das notas dos alunos de Matem

H :1

A

39


40

61 =n e 112 =n

Calculemos U: Tabela 3.2.2:

1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1

E I E I E E E I E E E I I I E E E

1 2 3 4 5,5 5,5 7 8 9 10 11 12 13 14 15 16 17

34)141312842(2

)16(61161 =+++++−+×

+×=U

32341162 =−×=U 32)32;34min( ==U

Como 9 202 ≤n recorremos à tabela J: ≤

Para 61 =n , 112 =n e 05.0=α (bilateral),

temos

m

populaçõ

Vej

Após a introdução dos valores, dá-nos o seguinte resultado:

Output 3.2

: 3=tabeladoU . 1

Co o calculadotabelado UU < , podemos concluir que as duas amostras provêem de

es com a mesma média.

amos como podemos resolver este exemplo no SPSS®:

.1:


É claro que existe clara vantagens em utilizar o SPSS®. Pois, dá um quadro resume que

contém o valor exacto da probabilidade, a probabilidade assimptótica e tam ém o valor de U.

Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste.

No Mathematica® coma ajuda da função npmMannWhitneyTest[list1,list2], fica: MatMat 0rpm M

b

Ensino = 10.5, 16.5, 11, 9.8, 17.1, 1.5, 14.8, 9.9, 9.8, 10.3, 8.7 Informatica = 11.4, 12.9, 1 .1, 7.9, 8.8, 12.8 MannWhitneyTest MatEnsino, atInformatica

Title: Mann- Whitney Test Sample Medians: 10.75, 10.3 Test Statistic: 32 .Distribution: Normal Approximation 2 - Sided PValue - > 0.919895

ina-se especificamente a dados de mensuração mínima na escala

ordinal. Esta prova tem como objectivo ver se as populações têm a mesma oscilação, isto é, o

teste de Moses é aplicável quando é previsto que um dos grupos tenha valores altos, e o outro

alores baixos.

deste teste é que não requer que as populações tenha medianas

iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos

médios, por exemplo, o teste de Mann-Whitney, é mais eficiente, devendo, por

conse ialmente útil quando existem

razõe a priori para esperar que determinada condição experimental conduza a escores

extrem ou em outra direcção.

Mé

es são:

eja e o número de casos de controlo e experimentais respectivamente.

ar q eno arbitrário;

Esta função apenas dá um valor aproximado de p.

Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS® seria a

melhor escolha, pois o SPPS® calcula o valor exacto.

3.3 Teste de Moses para reacções extremas

O teste de Moses dest

v

A principal vantagem

U

guinte, ser preferido à prova de Moses. Esta última é espec

s

os em uma

todo:

Os passos a seguir para o teste de Mos

S Cn En

1. Antes de reunir os dados deve-se especific Será um número pe u h .

41


2. Reunidos os dados, dispô-los em postos em uma única série conservando a

ntidade do grupo em cada posto;

D t m â n i d s

eliminar os postos mais extremos dos cada extremidade da respectiva

série, isto é,

ide

3. e er inar o valor de s , mbito ou abra gênc a o postos de controlo, após h

h C ’s em

112 +−= CCsh (3.3.1)

onde, é o posto que corresponde o último grupo de controlo, retirando h valores

corresponde ao primeiro posto do grupo de controlo, retirando h

4. Determinar o valor de

2C

de controlo e 1

valores de controlo;

C

g , excesso do valor observado de sobre ,ou seja,

5. Determinar a probabilidade associada aos dados observados, calculando o valor de

pela fórmula:

hs hnC 2−

)2( hnsg Ch −−= ;

p

( )⎟⎟⎠

⎜⎜⎝ Cn

E

⎞⎛ +

⎟⎟⎠

⎜⎜⎝ −⎟⎟⎠

⎜⎜⎝=+−≤

∑EC

EC

Ch nnini

ghnsp 2

⎞⎛ −++⎞⎛ −−+

=

g

i E

ihnhni

0

1222

m caso de ocorrência de empates entre grupos, considerar esses empates de todos

odos possíveis e determinar para cada um deles. A média desses p’s é então

utilizada para a decisão;

6. Se p não superar

pos m

α , rejeitar

xemplo 3.3.1:

s e o

grupo

inutos e o

grau d . o grau 20 significa que a pessoa tem pavor a

ratos.

(3.3.2)

.0H

E

Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de

indivíduos. O grupo C, constituído por 7 indivíduos, que trabalha diariamente com rato

E, formado por 6 indivíduos, têm dificuldades em controlar o medo, quando estão

próximos de ratos.

Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 m

e medo foi medido numa escala de 0 a 20

Os resultados foram:

42


Tabela 3.3.1:

Grupo C 6 5 10 7 12 3 8

Grupo E 0 4 11 18 9 19

Será que as duas amostras provêem da mesma população?

Resolução:

vidimos em dois casos: o da esquerda com


0H : Não há diferenças entre o grupo C e o grupo E.

:1H Há diferenças entre os dois grupos.

Di 0=h e o da direita com

po:

Tabela 3.3.2: Posto 5 11 12 13

1=h .

Dispomos os valores em postos, conservando o gru

Tabela 3.3.3: Posto 1 2 3 4 5 6 7 8 9 10 11 12 13Grupo E C E C C C C E C E C E E

1 2 3 4 6 7 8 9 10Grupo C C C C E C E C E E E C E

Determinamos

7=Cn :

g

lizandEntão uti

( )∑

=≤h

0=

10 isp

Sendo α

entre os grupo

o valor de g , com 10=hs e

3)027(10 =×−−=

Determinamo

101211 =+−=hs

: 7=Cn

g

o a fórmula 3.3.2:

⎟⎟⎠

⎞⎜⎜⎝

⎛

⎟⎟⎞

⎜⎛ −⎟⎞

⎜⎛ + 753 ii

( )∑

1

=≤ =6 ihsp⎠

⎜⎝ −⎟⎠

⎜⎝=

713

6 i

,

0 i

2168 0=

, concluímos que, para qualquer um d05,0=

s C e E, sendo assim da m, as amostras provêem

s o valor de g , com 6=hs e 6149 =+−=hs

1)127(6 =×−−=

⎟⎟⎠

⎞⎜⎜⎝

⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎞

⎜⎛ + 3i

⎠⎜⎝

713

69

0 ii

i

1795,

os casos, não e isx te diferenças

esma população.

43


No SPSS®, após a introdução dos valores e escolha do teste, temos o seguinte

resultado: Output 3.3.1:

Como podemos ver no SPSS®, ele calcula a probabilidade associada para um 1=h (por

e para um 0=h , assim não o precisamos de escolher um h no início do teste.

ematica®, o proc im

ele escolhido)

No Math ed ento a utilizar foi o npmMosesTest, este procedimento

aceita m h escolhi

PrimAmoAmorpmMosesTest amostra1, amostra2, 1

co o parâmetros as duas amostras, sendo a de controlo a primeira, e o do:

eiramente, criamos as duas listas e de seguida corremos o procedimento: stra1 = 6, 5, 10, 7, 12, 3, 8 stra2 = 0, 4, 11, 18, 9, 19

h = 1; Sh 6 =Nc = 7; Ne = 6; N = 13 Valor Unilateral de p: 0.179487 Valor Bilateral de p: 0.358974

o podemos verificar, o Mathematica® dá-nos os valores de ambas a probabilidades

e as p

escala de medida pode ser em apenas nominal.

Com

rincipais variáveis do teste. As vantagens deste procedimento são a rapidez e a precisão

dos valores dados.

3.4 Teste da Qui-Quadrado ( 2χ ) para duas amostras independentes

O objectivo deste teste é de comprovar que dois grupos diferem em relação a

determinada característica e, consequentemente, com respeito à frequência relativa com que

os componentes dos grupos se enquadram nas diversas categorias. Para a comprovação,

contamos o número de casos de cada grupo que recai nas diversas categorias, e comparamos a

proporção de casos de um grupo nas diversas categorias, com a proporção de casos do outro

grupo.

A

44


Método:

Os passos a seguir para o teste são:

1. Enquadrar as frequências observadas numa tabela de contingência . Utilizando

as k colunas para os grupos e as r linhas para as condições. Assim para este teste,

a ( ) de cada célula fazendo o produto dos totais

3. P rar dois casos:

Se

rk ×

2=k ;

ijE2. Determinar a frequência esperad

marginais referentes a cada uma e dividindo-o por N. (N é o total de casos);

ara determinar o valor de χ há que conside2

a fórmula será: ( )

2>r

∑∑−

=r k

ijij

EEO 2

2χ = =

= número de casos observados na categoria i no grupo j

o grupo j sob

= número de grupos na classificação

i j ij1 1

ijO

ijE = número de casos esperados na categoria i n 0H

k

r = número de categorias na classificação;

Se

2=r então consideramos a seguinte tabela:

Tabela 3.4.1: Grupo 1 Grupo 2 Total

Categoria 1 A B A+BCategoria 2 C D C+D

Total A+C B+D N

Então temos a fórmula:

))()()((2

2

2

DBCADCBA

NBCADN

++++

⎟⎠⎞

⎜⎝⎛ −−

=χ

Esta fórmula é um pouco mais fácil da aplicar do que a fórmula (3.4.1), pois

requer apenas uma divisão. Além disso, tem a principal vantagem de

(3.4.2)

(3.4.1)

45


incorporar uma correcção de continuidade que melhora sensivelmente a

aproximação do 2χ ;

4. Determinar a significância do valor observado de 2χ com )1)(1( −−= krgl , com o

auxílio da tab C. Para um teste unilateral basta dividir por dois o nível de

significância indicado. Se a probabilidade indicada na tabela for inferior a

ela

α ,

rejeitar a hipótese nula.

Exemplo 3.4.1:

Um investigador estudou a relação entre os interesses vocacionais e a escolha do

currículo, e a taxa de desistência do curso universitário por parte de estudantes bem dotados.

Os indivíduos observados era no mínimo de 90 pontos

percentuais nos testes de admissão e que haviam resolvido mudar de carreira após a matrícula.

o pesquisador comparou os e lha curricular se manteve na

linha considerada desejável à vista do resultado obtido no Teste Vocacional de Strong (tais

casos sendo considerad como “positivos”) com os estudantes destacados cuja escolha

curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hipótese do

inves da “positiva” acusam maior

frequência de permanência na faculdade ou no curso universitário inicialmente escolhido. Os

valores são dados na seguinte tabela:

Tabel

m estudantes classificados

studantes destacados cuja a esco

os

tigador é que os estudantes cuja escolha foi considera

a 3.4.2:

Positivo Negativo Total

Afastamento 10 11 21

Permanência 46 13 59

Total 56 24 80

Resolução:


: Não há diferenças entre os dois grupos no que diz respeito à proporção dos

estudantes que permanecem na faculdade.

0H

46


:1H A percentagem de permanência na faculdade é maior que os estudantes cuja a

escolha do currículo foi considerada “positiva”.

Iremos trabalhar com um nível de significância 05,0=α .

Considerando os valores dados pela tabela ficamos com:

)24)(56)(59)(21(2

80)46)(11()13)(10(802

2⎟⎠⎞

⎜⎝⎛ −−

=χ 424,5=

A probabilidade de ocorrência, sob , de com 0H 424,52 ≥χ 1=gl é

01,0)02,0(21

=<p . Como este valor é inferior a 05,0=α , a decisão é rejeitar . Conclui-

se, pois, que os estudantes bem dotados cuja escolha de currículo foi considerando “positiva”

acusam maior frequência de permanência na universidade do que os estudantes bem dotados

cuja escolha foi considerada “negativa”.

No SPSS® temos o seguinte Output:

Output 3.4.1:

0H

O SPSS® dá-nos o valor de , com e sem o factor de correcção de continuidade e

calcula o valor assimptótico da prob ade associada

2χ

abilid 009,0=p .

O procedimento para o Mathematica®, que será descrito a seguir, serve só para as

tabelas de contingência . Este procedimento tem a particularidade de ter uma opção para 22×

47


a escolha dois tipos de co (1934) , já considerado

na fórmula 3.4.2, e o m ima considerado:

No caso de não escolhermos o método de correcção, o procedimento apenas calcula o

valor de

rrecção de continuidade: o método de Yates

étodo de Haber2. Vejamos então para o exemplo ac

p sem utilizar um dos factores de correcção:

rpmChiSquare2x2Test 10, 11, 46, 13 Title: Chi Square Test Distribution: Chi Square Correction: None Two- Sided P- Value: 0.00915693 One- Sided P- Value: 0.00457847 rpmChiSquare2x2Test 10, 11, 46, 13 mthd®yates Title: Chi Square Test Distribution: Chi Square Correction: Yates Two- Sided P- Value: 0.0198649 One- Sided P- Value: 0.00993245 rpmChiSquare2x2Test 10, 11, 46, 13 mthd®haber Title: Chi Square Test Distribution: Chi Square Correction: Haber Two- Sided P- Value: 0.0125872 One- Sided P- Value: 0.00629361 Qualquer um dos três casos chega à decisão de rejeitar a hipótese nula. Assim

os, que a percentagem de permanência na faculdade é maior que os estudantes cuja a

escolha do currículo foi considerada “pos

concluím

itiva”. Note-se que qualquer dos valores é

semelhante.

atica® está em clara vantagem em relação à utilização da tabela

ou me

Sendo assim o Mathem

smo do SPSS®.

siderando { }2,1,2,1:min === jiOO ij

2 Con temos:

Se então OOij 2≤ =D maior múltiplo de 0.5 que é OOij −< ou

se então OOij 2> 5.0−−= OOD ij o teste estatístico fica:

))()()((

232

DBCADCBADN

H ++++=χ

48

Capítulo 4: Caso de k amostras relacionadas

CAPÍTULO 4: CASO DE K AMOSTRAS RELACIONADAS

O objectivo principal dos testes que irão ser apresentados, é comprovar a hipótese de

que a

Há

igual tam

pode(m) N grupos pode ser

mensurado sob todas as k condições. Em tais planos, devem-se usar os testes estatísticos aqui

apres

tabela

de contingência.

odo, o teste de Cochran permite investigar quando um conjunto de k proporções

relacionadas difere significativamente.

Método:

Os passos a seguir para o teste são:

1. Para dados dicotom zados, at ir o valo ” a cada “su esso” e o valor “0” a cada

“insucesso”;

2. Dispor os dados numa tabela

s k amostras tenham sido extraídas da mesma população ou de populações idênticas.

dois planos básicos para comprovar k grupos. No primeiro deles, as k amostras de

anho são postas em correspondência de acordo com determinado(s) critério(s) que

afectar os valores das observações. Ou então cada um dos

entados.

4.1 Teste Q de Cochran

O modelo típico para o teste Q de Cochran (1950) envolve um conjunto de 2≥k

tratamentos que são aplicados independentemente para cada N indivíduos. Os resultados de

cada tratamento são guardados como uma variável dicotómica de sucesso e insucesso. Os uns

e zeros (que correspondem ao sucesso e insucesso respectivamente) são dispostos numa

Deste m

i ribu r “1 c

Nk × , com N linhas. N = número de

casos em cada k .

. Determinar o valor Q utilizando a fórmula:

k colunas e

grupos

3

( )

∑ ∑

∑ ∑

= =

= =

−

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛−−

= N

i

N

iii

k

j

k

jjj

LLk

GGkk

Q

1 1

2

1

2

1

21

(4.1.1)

50


onde é a soma dos valores das j colunas;

s valores das i linhas.

4. a significância do valor observado de Q pode ser determinada mediante referência à

uadrado com

: jG

L é a soma doi

tabela C, pois Q tem distribuição aproximadamente Qui-Q 1−= kgl .

Se a probabilidade associada à ocorrência, sob H , de um valor tão grande quanto 0

um valor observado de Q não supera α , rejeita-se a hipótese nula.

Exemplo 4.1.1:

Cada um dos quatro fãs de futebol criou um s ma para antever os resultados dos

jogos da 1ª liga. Foram escolhidos ao acaso seis jogos, e cada um dos fãs anteviu o resultado

de cada jogo. Os resultados dos prognósticos foram pos num tabela, utilizando “1”

para um prognóstico bem sucedido e “0” para um prognóstico falhado. Os resultados são

apresentados na tabela 4.1.1. Queremos testar a hipótese de que cada fã tem um sistema de

igual efeito para antever os resultados dos jogos com um nível de significância de 5%.

Tabela 4.1.1:

Fãs

iste

dis tos a

Jogos 1 2 3 4 Totais

1 1 1 0 0 2

2 1 1 1 0 3

3 1 1 1 0 3

4 0 1 1 0 2

5 0 1 0 0 1

6 1 1 0 1 3

Totais 4 6 3 1 14

51


Resolução:

As hipóteses são as seguintes:

: Cada fã tem um sistema de igual efeito para antever os resultados dos jogos de

futebol.

Existe diferenças nos efeitos dos sistemas criados pelos fãs.

Primeiro dispomos os resultados de novo numa tabela, que será apenas uma

modificação da tabela 4.1.1:

Tabela 4.1.2:

Fãs

0H

:1H

Jogos 1 2 3 4 iL 2iL

1 1 1 0 0 2 4

2 1 1 1 0 3 9

3 1 1 1 0 3 9

4 0 1 1 0 2 4

5 0 1 0 0 1 1

6 1 1 0 1 3 9

jG 4 6 3 1 14 36 2 1jG 6 36 9 1 62

auxílio da fórmula 4.4.1:

Então, após o cálculo dos somatórios temos, com o

( )[ ] 8,736144146243 2

=−×−××

=Q

Calculamos agora a significância do valor observado, com a ajuda da tabela C:

314 =−=gl

Assim, como 05,002,0 ≤≤ p e 05,0=α , rejeitamos a hipótese, concluindo que existe

diferen feitos dos sistemas criados pelos fãs.ças nos e

52


No SPSS® temos os seguintes resultados:

Output 4.1.1: Output 4.1.2:

De mas teremos maior certeza de rejeitar a hipótese nula

se activás aior precisão como consta no Output 4.1.2.

No a®, ransQTest:

rpm

facto, p está entre 0,01 e 0,05,

semos a opção de fazer um teste com m

Mathematic utilizaremos a função npmCochresultados = 1, 1, 0, 0 , 1, 1, 1, 0 , 1, 1, 1, 0 , 0, 1, 1, 0 , 0, 1, 0, 0 , 1, 1, 0, 1

CochransQTest resultados , mthd®approx Title: Cochran Q Test Test Statistic: 7.8

Totals: 4, , 3, 1 tion: Chi quare

Column 6 SDistribu

PValue:

rpmCoch

0.0503311

ransQTest resultados , mthd®exact Title: Cochran Q Test Test Statistic: 7.8 Column Totals: 4, 6, 3, 1 Distribution: Exact PValue: 0.0481771

a tabela na lista “resultados”. Com a opção para approx, obtemos um

valor aproximado de , baseado na distribuição da Qui-Quadrado com três graus

de lib

Foi introduzida

053311,0=p

erdade, com este valor aceitava-se a hipótese nula o que seria um erro. Porém,

rejeitávamos (com )05,0=α se escolhêssemos o método exacto.

53


Para concluir, o Mathematica® é, de facto, o is indicado para os cálculos, porque dá-

nos os valores com maior precisão, emb re tados originassem respostas

diferentes. Cabe ao investigad

4.2 Teste de Friedman

uando os dados de k amostras correspondentes se apresentam pelo menos em escala

ordinal, o teste de Friedman (1937) é útil para comprovar de que as k amostras tenham sido

extraídas da mesma população.

M

Os p

Dispor os valores numa tabela de dupla entrada com k colunas e N linhas;

3. Determinar a soma dos postos da cada coluna: ;

cular o valor de , pela fórmula:

ma

ora os dois sul

or escolher.

Q

étodo:

assos a seguir para o teste são:

1.

2. Atribuir postos de 1 a k aos valores de cada linha;

jR

2rχ

( )∑=

+−+

=

4. Cal

k2j)1 jr kNR

kNk 1

2 )1((1χ

onde: N é o nú

k número de colunas;

soma das ordens na coluna.

5. O método para determinar a probabilidad

associado a valor observado de depende dos tamanhos de N e k:

bela N dá-nos as probabilidades exactas associadas a valores tão grandes

q m observado para k=3 com N de 2 a 9 e para k=4 com N de 2 a 4.

cedidos os valores

ui-

2 3

mero de linhas;

é o

jR a

e de ocorrência sobre a hipótese nula 2rχ

i. A ta2rχuanto u

Caso os valores tenham ex da tabela N, a probabilidade

associada pode ser determinada mediante referência à distribuição Q

Quadrado (Tabela C) com 1−= kgl ;

6. Se a probabilidade obtida pelo método adequado indicado no item 5 não superar α,

ita-se H0.

(4.2.1)

reje

54


Exemplo 4.2.1:

A fim de avaliar se houve progressão na aprendizagem, um professor reteve as médias

de um grupo de 4 alunos no final de cada trimestre:

Tabela 4.2.1:

Alunos A B C D

1º Trimestre 8 15 11 7



Considerando um 05,0=α , que conclusão poderá tirar?

Hipóteses:

: Não houve progressão na aprendizagem ao longo do ano escolar;

Houve progressão ao longo do ano escolar.

Atribuímos os postos através da seguinte tabela e calculamos as somas:

Tabela 4.2.2:

Alunos 1º Trimestre 2º Trimestre 3º Trimestre

Resolução:

0H

:1H

A 1 2 3

B 1 2.5 2.5

C 1 2 3

D 1 2 3

jR 4 8.5 11.5 2

jR 16 72.25 132.25

Assim, fica:

e então 4=N 3=k [ ] 125,7)13(4325,13225,7216434

122 =+××−++×××

=rχ

55


56

Com o auxílio da Tabela N temos 042,00046,0 ≤≤ p . Assim, com 05,0=α ,

rejeitamos a hipótese zagem ao longo do

no es

nula, concluindo que houve progressão na aprendi

a colar.

No SPSS®, chegamos à mesma conclusão, pois, dá-nos um 022,0=p .

Output 4.2.1:

pmFriedmanTest = medias

No Mathematica®, dá-nos a aproximação à Qui-Quadrado, sendo o valor mais preciso

do que o SPSS®.

medias = 8, 15, 11, 7, 14, 17, 13, 10, 15, 17, 14, 12

rTitle: Friedman Test

2, 13.5, 14.5 Sample Medians: 1Test Statistic: 7.6 Distribution: ChiSquare PValue: 0.0223708

Capítulo 5: Caso para k amostras independentes

CAPÍTULO 5: CASO DE K AMOSTRAS INDEPENDENTES

Na análise de dados de pesquisa, o pesquisador frequentemente precisa decidir se

s valores amostrais quase sempre são um tanto diferentes, e o problema é

deter

populaçõ que podem ser esperadas entre amostras

aleatórias da popu .

O objectivo

da mesma população ou de populações idênticas em relação às médias.

ao nível o

ão os seguintes passos a percorrer:

tos de 1 a N;

terminar o valor de R (soma dos postos) para cada um dos k grupos de postos;

3. Caso não o m c r e u mula:

diversas variáveis independentes devem ser consideradas como proveniente da mesma

população. O

minar se as diferenças amostrais observadas sugerem realmente diferenças entre as

es ou se são apenas variações casuais

mesma lação

5.1 Teste de Kruskal-Wallis

do teste de Kruskal-Wallis (1952) é ver se as diferentes k amostras provêem

O teste supõe que a variável tenha distribuição contínua, e exige mensuração no mínimo

rdinal.

Método:

S

1. Dispor, em postos, as observações de todos os k grupos numa única série,

atribuindo-lhes pos

2. De

corram e pates, alcular o valo de H p la seg inte fór

)1+ (3−j)1 1+ ∑(

=12 k 2

j

=

NnR

NH

onde: = número de amostras;

, número de casos em todas as amostras combinadas;

a das ordens na amostra j (colunas).

a uma delas a média das respectivas ordens. O

valor de pates, sendo assim, é necessário introduzir um

factor de correcção. Deste modo, para o calculo de H deve-se utilizar a fórmula:

(5.1.1) N j

k

jn = número de casos na amostra j

∑= jnN

jR = som

Se houver empates, atribui-se a cad

H é influenciado pelos em

57


NNT

R

H

k

−+ =

2

12

o en n me se s m s um o de valores

em s);

H depende do

tamanho de k e do tamanho dos grupos:

i. Se e

N +(3n jN(N j

j

−3− ∑1=

∑)1 1

)1

nde: T = tt −3 (s do o ú ro de ob rvaçõe e patada n grup

patado

4. O método para determinar a significância do valor observado de

3=k 5,, 321 ≤nnn

e associada, sob

, pode-se utilizar a tabela O para determinar a

probabilidad , de um H tão grande quanto o observado;

ii. Em outros casos, a significância de um valor tão grande quanto o valor

0H

observado de H pode ser determinado mediante referência à tabela C, com

1−= kgl ;

5. Se a probabilidade associada ao valor observado de H não superar o nível de

significância previamente fixado, rejeitar em favor de

lo 5.1.1:

Em 1996 nas semifinais da corrida de obstáculos a cavalo femininos de 400 metros os

tempos foram os seguintes:

Tabela 5.1.1:

Atleta 1 54.88 54.96 55.91 55.99 56.67 57.29

0H 1H .

Exemp

Atleta 2 54.67 54.87 54.95 56.27 58.33 81.99

Atleta 3 55.66 56.46 56.74 57.86 58.90 59.56

Utilize o teste de Kruskal-Wallis, com 05,0=α , para testar se existe diferenças entre as

atletas.

Resolução:

As hipóteses a testar são:

: Não há diferenças entre as atletas;

Há diferenças entre as atletas.

Dispomos os postos consoante os dados:

5 1( . .2)

0H

:1H

58


Tabela 5.1.Atleta 1 Posto 3

2: 54.88 54.96 55.91 55.99 56.67 57.29

471 =R

3 5 7 8 11 1Atleta 2 Posto

54.67 1 2 4 9 15 18

54.87 54.95 56.27 58.33 81.99 492 =R

Atleta 3 Posto

55.66 6

56.46 10

56.74 12

57.86 14

58.90 16

59.56 17

753 =R

Como não há empates, calculamos H pela fórmula 5.1.1:

85, 426

756

496)18(

2

=+−=H

Output 5.1.1:

)118(34712⎢⎡

)118( ⎣+

2

⎥⎤2

+⎦

+

A partir da tabela C, observamos que o valor de p está entre 0,3 e 0,2, concluindo, a um

nível de significância de 0,05, que não há diferenças entre as atletas.

No SPSS temos o mesmo resultado mas com maior rigor e rapidez, pois sabemos agora

que 24,0=p :

No Mathematica® o resultado apresenta-se com maior número de casas decimais:

rpmKruskalWallisTest tabela Title: KruskalSample Medi

Wallis Test ans: 55.9, 55.61, 57.3

Test Statistic: 2.8538 Distribution: Chi Square PVa ue - > 0.240052 l

59

Capítulo 6: Medidas de Correlação

CAPITULO 6: MEDIDAS DE CORRELAÇÃO

6.1 Coeficiente de Correlação por postos de Kendall: τ

Suponhamos que um número de alunos está classificado por postos de acordo com as

suas habilidades em matemática e em música. A seguinte tabela mostra os valores de cada

aluno

B C D E F G H I J

designado por letras:

Tabela 6.1.1:

Aluno: A

Matemática: 7 4 3 10 6 2 9 8 1 5

Música: 5 7 3 1 9 6 2 8 4 10

Queremos saber se há alguma relação entre a habilidade na matemática e na música.

Observando os resultados da tabela anterior, vemos que a concordância entre eles está longe

de ser perfeita, mas alguns alunos ocupam a mesma ou perto da mesma posição entre as duas

disciplinas. Podemos ver a correspondência mais facilmente se na tabela for dada uma ordem

natural aos resultados de matemática:

Aluno: I F C B J E A H G D Tabela 6.1.2:

Matemática: 1 2 3 4 5 6 7 8 9 10

Música: 8 9 3 7 4 1 5 2 6 10

intensidade da correlação dos postos. esta medida (que será um coeficiente que

designamos por

O que queremos saber é uma medida de correspondência entre estas duas variáveis, ou

medir a

τ ) deve ter as seguintes propriedades:

Se a correspondência entre os postos for perfeita, por exemplo, se todos os indivíduos

tiverem o mesmo posto nas duas disciplinas, τ deve ser +1, indicando uma correlação

perf

S

eita positiva;

e houver uma discordância perfeita, por exemplo, se um dos postos for o inverso do

outro, τ deve ser –1, indicando uma correlação perfeita negativa;

Se houver um crescime lo dnto do va r e τ en e , o deve corresponder a um

acré

tre –1 1 entã

scimo na relação entre as duas variáveis.

60


Consideremos qualquer par de a por exemplo, o par AB. Os seus

ostos, 7 e 4, ocorrem em ordem inversa (a ordem natural 1,...,10 é a ordem directa) e

consequentemente atribu em directa,

deveríamos atribuir +1. Na segunda variável (música) no par AB os postos estão em ordem

directa, deste modo, atribuímos +1.

cada par áveis estavam (+1) ou não

(-1) i i

O m

lunos da tabela 6.1.1,

p

ímos o valor a este par –1. Se o par estivesse em ord

Agora, multiplicamos os dois valores do par que dá (-1)(+1)=-1. É evidente que para

os valores seria +1 e –1, que significaria que ambas as vari

gua s em termos de ordem.

esmo procedimento é feito para todos os 45 pares.

O total de resultados positivos são 21=P e os negativos são 24−=−Q . Adicionando

mos o resultado final 3os dois te −=S .

os postos são idênticos emos postos são idênticos emSe cada um, e se os 45 valores forem positivos então o valor

máxi

e cada um, e se os 45 valores forem positivos então o valor

máximo de S é 45. Portanto calculamos o valor mo de S é 45. Portanto calculamos o valor τ como:

07,045possívelmáximoResultado

−=−=

O valor próximo de zero indica que existe uma correlação muito pequena entre as duas

3actualResultado

Consideremos o caso geral. Se tivermos duas variáveis com n valores para comparar. O

número de pares para comparar é

variáveis.

( )122⎠⎝

1=⎟⎟

⎞⎜⎜⎛

nnn

. Este é o número máximo de resultados

possíveis. Se é a soma dos resultados obtidos, então definimos o coeficiente de correlação

como:

−

S

)1( −nn

2=

Sτ

atemática) está na ordem

natur da

4 1 5 2 6 10

Existe um modo prático de determinar o valor de S (número de resultados positivos):

Considerando a tabela 6.1.2. em que a primeira variável (m

al, a segun variável apresenta a seguinte sequência:

8 9 3 7 Considerando o primeiro valor, 8, observamos que a direita existen dois valores

maiores. Então contribui-se para P o valor +2. Tendo em atenção o 9, encontramos, à direita,

a contribuição de +1 para P e assim sucessivamente. Assim temos o valor de P que é

(6.1.1)

61


21122431512 =++++++++=P

(6.1.2)

à vari bém à variável Y postos de 1 a n.

Note-se que na tabela 6.1.1 os postos já foram atribuídos;

m na ordem

natural. No exemplo acima referido será a tabela 6.1.2;

ervar a ocorrência dos postos de Y quando os postos de X se acham na ordem

natural. Determinar o valor de S (soma dos resultados de todos os pares) pelo

processo acima descrito;

4. Se não há empates, aplicar a fórmula 6.1.1.

Em caso de haver observações empatadas, atribuímos às observações empatadas a média

dos postos que lhe caberiam se não houvesse empate.

m

consequentemente,

⎟⎟⎠

⎞⎜⎜⎝

⎛−=

22

nPS

Método:

1. Atribuir postos de 1 a n ável X. Atribuir tam

2. Ordenar os n indivíduos de maneira que os postos de X se apresenta

3. Obs

O efeito dos e pates consiste em modificar o denominador da fórmula 6.1.1. Neste caso temos:

( ) ( ) yx TnnTnn

S

−−−−=

12

12

τ (6.1.3) 11

onde: ∑ −= )1(2

1 ttTx , t sendo o número de observações empatadas em cada grupo

de empates na variável X.

∑ −= )1( 2y

empates na v

1 ttT , t sendo número de observações empatadas em cada grupo de

ariável Y.

n indivíduos constituem uma amostra aleatória de alguma população, pode-se

comp

Se os

rovar se o valor observado de τ indica existência de associação entre as variáveis X e Y

na população. O método depende do tamanho de n:

Para 10. a tabela Q dá a probabilidade associada (unilateral) a um valor tão

grande quanto um S observado;

. Para n>10, pode-se calcular o valor de z associado a

≤n1.

2 pela fórmula: τ

62


( )( )

52 +nz = τ (6.1.4)

19 −nn

A tabela A dá a probabilidade associada a um valor tão grande quanto um z observado.

Se o valor de p não superar α , 0H pode ser rejeitada.

Retomando o exemplo da tabela 6.1.1, vejamos o que acontece no SPSS®:

Output 6.1.1:

O coeficiente (τ ) é dado com maior precisão e, claro, com rapidez. O SPSS® também

existência ou não de associação entre as variáveis. Neste caso,

dá-nos o valor da probabilidade associada, assim podemos comprovar se o coeficiente indica

α>p , sendo ele de 0.05,

podemos concluir que o coeficiente indica existência de associação.

O Mathematica®, com a função KendallRankCorrelation, dá-nos apenas o coeficiente,

mas é neste software que consegue-se m ior precisão

N KendallRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10, 1, 9, 6, 2, 8, 4

a

- 0.0666667

63


6.2 Coeficiente de Correlação por postos de Spearman: Sr

É uma medida de associação que exige que ambas as variáveis se apresentem em escala

ordinal, de modo que os objectos ou indivíduos em estudo possam dispor-se por postos em

duas série

s ordenadas.

Consideremos a tabela 6.1.1, vamos subtrair os postos da música pelos de matemática e

amostrar os resultados na seguinte tabela:

Tabela 6.2.1:

Aluno: A B C D E F G H I J

Matemática: 7 4 3 10 6 2 9 8 1 5

Música: 5 7 3 10 1 9 6 2 8 4

id 2 -3 0 0 5 -7 3 6 -7 1 2

id 4 9 0 0 25 49 9 36 49 1

O somatório das diferenças id deve dar zero (serve como ferramenta de verificação),

Também na tabela mostra o quadrado das diferenças. Denotando o som

porque é a soma das diferenças de duas quantidades que cada uma delas vai de 1 a 10.

atório destas

diferenças por ∑=

iciente de Spearman como n

iid

0 definimos o coef2

nn

dr

n

ii

−=∑

s −=3

Da qual, aplicada ao exemplo, fica

0

261

( )

(6.2.1)

103,01493694925009461 −=10103 −

+++++++++−=rS

Método:

postos a variável X, de 1 a n. O mesmo para a variável Y;

2. Determinar o valor das diferenças de cada indivíduo e elevá-lo ao quadrado (Como

mostrado na tabela 6.2.1);

3. Calcular aplicando a fórmula (6.2.1).

1. Dispor em

Sr

64


Caso haja empates: Quando a proporção de empates na variável X ou na var é

grande, deve-se incorporar um factor de correcção

iável Y

12

observações

3 ttT −= , onde t é o número de

empatadas em determinado posto. Assim, temos a fórmula de para o caso de

empa

sr

tes:

∑ ∑ 222 yx

∑ ∑∑=

−+= 1

222 dyxr

n

ii

S

nde:

(6.2.2)

o ∑ ∑−−= x12

Tnnx 2 e 3

∑ ∑−−= y12

em que ∑ yxT ou é o somatório sobre os vários valores de T para todos os grupos de

observações empatadas.

Se os indivíduos constituem uma amostra aleatório de uma população, pode-se

Y na população. O método dep

Tnny 2

comprovar se o valor observado de indica a existência de associação entre as variáveis X e

ende do tamanho de n:

valores críticos de para níveis de significância

0,05 e 0,01 (teste unilateral).

3

Sr

1. Para n de 4 a 30, a tabela P, dá os Sr

2. Para 10n , pode-se determinar a significância de um valor tão grande quanto um

Sr observado calcula-se o valor de t associado aquele valor, pela fórmula:

≥

)2(2

2−≈

−= n

SS tnrt

Em seguida determina-se a sign1− r

ificância do valor com o auxilio da tabela B.

o valor calculado anteriormente:

Output 6.2.1:

(6.2.2)

Através do SPSS®, constatamos o mesm

65


É também apresentado a significância do coeficiente que, neste caso, com um 05,0=α ,

podemos concluir que o valor indica a existência de associação entre as variáveis.

No Mathematica® apenas é fornecido o coeficiente, mas com maior número de casas

decimais: N SpermanRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10, 1, 9, 6, 2, 8, 4 - 0.10303

6.3 Coeficiente de Concordância de Kendall:

Já conhecemos dois coeficientes (

W

τ e Sr ) para a determinação da concordância entre

dois conjuntos de postos. Suponhamos que temos k conjuntos de postos, poderia parecer

razoá

k

tomar va

lo de

Método:

número de juízes classificadores. Dispor os postos observados numa tabela

vel determinar os coeficientes entre todos os pares possíveis de postos e então calcular a

média entre eles para saber o grau de concordância das k amostras. Adoptando tal método,

teremos que calcular ⎟⎞

⎜⎛k

coeficientes de correlação de postos o que seria impraticável se ⎟⎠

⎜⎝2

lores muito grandes.

O cálcu W é muito mais simples:

1. Se n é o número de objectos ou indivíduos a serem classificados em postos, e k o

nk × ;

2. Para cada indivíduo, ou objecto, determinar , soma dos postos atribuídos àquele

indivíduo pelos k juízes;

pela fórmula seguinte:

jR

3. Determinar S

∑=

=

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

⎝

−=n

j

jj

j nRS

1

1

4. Calcular o valor de W utilizando a fórmula:

∑ ⎟⎞

⎜⎛ n

R2

(6.3.1)

(6.3.2) )(

121 32 nnk

SW−

=

66


Se houver observações empatadas, atribui-se a elas a média dos postos que lhes

caberiam se não ho nt uz um ct o tiv a ula. uvesse empates. I rod -se fa or c rrec o n fórm

( )12

3∑ −=

ttT

onde t é o número de observações empatadas em ç a o e será a soma

e todos os grupos de empates dentro de qualquer um dos k conjuntos de postos.

iente de concordância de Kendall é

rela ão a um d do p sto ∑d

Com a correcção para empates incorporada, o coefic

∑−−=W

1T

Tknnk )(12

onde ∑T

T é o somatório

S32

sobre todos os valores de T para todos os k conjuntos de postos.

odemos comprovar a significância de qualquer valor observado de W determinando a

probabilidade associada à ocorrência, sob , de um valor tão grande quanto o S a que está

associado. A de da probabilidade depende de :

1. Se , a tabela R dá os valores críticos de s o os W’s significativos

aos níveis 0.05 e 0.01;

2. Se , podem s utilizar a fórm

P

H 0

terminação n

7≤n S as ociad com

7>n o ula:

)1(121

+nkn

2 =Sχ com gl = n – 1

Se o valor do é igual ou superior ao valor exibido na tabela C para um dado nível

de significância e com -1 graus de liberdade, então (de que não há relacionamento entre

os k conjuntos de postos) pode ser rejeitada.

Exemplo 6.3.1:

- Produtividade, Q - Qualidade do

serviço e M – Motivação dos colaboradores) para análise das suas performances no mercado

onde estão inseridas. A tabela seguinte apresenta os resultados obtidos:

(6.3.3)

(6.3.4)

(6.3.5)

2χ

n 0H

Sete empresas foram avaliadas em três critérios (P

67


Tabela 6.3.1: Empresa

Critérios A B C D E F G

P 65 52 80 48 92 77 68

Q 58 45 76 58 88 88 55

M 70 56 83 61 75 70 70

Calcular o coeficiente de concordância de Kendall.

Resolução:

Primeiramente atribuímos os postos em cada critério e de seguida calculamos a soma

dos postos por empresa:

Tabela 6.3.2:

EmpresaCritérios A B C D E F

G

P 3 2 6 1 7 5 4

Q 3.5 1 5 3.5 6.5 6.5 2

M 4 1 7 2 6 4 4

jR 10,5 4 18 6,5 19,5 15,5 10

A média das somas dos postos de cada empresa é calculada de seguida:

127

847

105,155,195,61845,107

7

1 ==++++++

=∑=j

jR

Portanto o valor de S é

De seguida calculamos os valores para os empates:

Sendo

+−+−+−+−+−+−= 222222 )125,15()125,19()125,6()1218()124()125,10(S

205)1210( 2 =−+

112

)22()22( 33

=−+−

=QT e 212

)33( 3

=−

=MT então 321 =+=∑T

T

Logo, obtemos o coeficiente pela fórmula 6.3.4:

68


844.0= )3(3)77()3(

12

Concluímos, assim, que existe uma forte correlação entre as diversas empresas.

120532 −−

=W

No SPSS®, era muito mais fácil, pois, não teríamos que efectuar muitos cálculos com a

vantagem de não haver erros desnecessários.

Output 6.3.1:

Através do “Output” podem ir, alé onada correlação, que esta

m te pa corre tras

os conclu

ra medir o grau de

m da já menci

edida é significan lação entre as 7 amos .

69

Conclusão

CONCLUSÃO

Ap ação, dos v odos para a esta o paramétric

de dois softwares de aplicação nos vários métodos, d várias conclusões.

Estas conclusões são ap a e su

conter os diferentes mé métod quer d

(Tabelas), q tiliz ç nas á c

características para ca ar.

Quadro 1: Caso de uma amProcesso de Resolução:

ós esta explan ários mét tística nã a, com abordagem

po emos tirar

m formato de quadro re

os de resolução,

resentadas de seguid

todos nas linhas e os

mo. Cada quadro irá

o método tradicional

uer a u a ão do computador, colunas. O quadro ir onter as principais

da método em particul

ostra

Tabelas SPSS® Mathematica®

Teste da Binomial Fornece dados em relação à amostra.

apr m maior n.º de casas

decimais.

Nem sempre é possível determinar o valor exacto de p;

Apenas para pequenas amostras; Recorre-se à tabela

A.

Valor de p com precisão e rapidez

Pode-se utilizarpara grandes

amostras; O valor de p é

esentado co

Qupara uma amostra

v temo alo; Utiliza-se a tabela C.

infor este (ex.: valor esperado, graus de liberdade).

com exactidão.

i-Quadrado Não calculamos o alor de p, apenas

s um interv

Calcula um valor assimptótico;

Dá-nos algumas mações do t Dá o valor de p

Kolmogorov-Smirnov para uma amostra

Não calculamos o valor de p, apenas

temos um intervalo; Utiliza-se a tabela

E;

Dá-nos a dimensão da amostra, as

diferenças máximas; Calcula o valor de p

assimptótico.

Não foi possível conseguir um

procedimento que fizesse o teste.

Iterações para uma amostra

Não calculamos o valor de p, apenas

temos um intervalo das iterações;

Utiliza-se a tabela F.

Dá-nos o valor de r, e da probabilidade

assimptótica.

Após a conversão para zeros e uns,

calcula a probabilidade e o

número de iterações.

70

Conclusão

Quadro 2: Caso de duas amostras s Processo de Resolução: SPSS® Mathematica®

relacionada

Tabelas

Teste dos sinais

poo valo S

m R

isp

Fornecrelaempa

positivos e negativos.

Udistrpar

O vpre

n.º de casas decimais.

Nem sempre é ssível determinar

r exacto de p; ó para dimensões enores que 25;

ecorre-se à tabela D.

d Utiliza a

tribuição Binomial ara o cálculo da probabilidade

e dados em ção ao teste:

tes, sinais

tiliza também a ibuição binomial a o cálculo de p; alor de p é o mais ciso com maior

Teste de McNemar

É empregue a fdá-

queé c

val Nã

Calcula um valor

distr

O calculo de p é

prpm

[]

órmula 2.2.1 que nos o resultado

, posteriormente, omparado com

ores da tabela C; o temos o cálculo

de p.

assimptótico, utilizando a

ibuição Binomial.

n

feito através de ocedimento

BinomialPValue, o mesmo da Binomial.

Teste de Wilcoxon

cod

os tabela G;

O cas

bn

Não calculamos o valor de p, apenas mparamos o valor

e T calculado com tabelados na

álculo do valor simptótico de p é

aseado nos números egativos.

Não foi possível conseguir um procedimento.

71

Conclusão

Quadro 3: Caso de duas amostras independentes

Processo de Resolução: Tabelas SPSS® Mathematica®

Teste de Wald- Wolfowitz

Recorre-se à tabelaF, caso as dimensõesnão superar 20, nesteaso não se calcula

valor da

c o

a

c

Não foi possível

probabilidade, apenas compara-se onúmero de iterações.

Caso contrário, recorre-se à tabel

A.

Fornece o número mínimo de iterações e

o número máximo, alculando para cada

um deles a probabilidade

associada.

conseguir um procedimento que

fizesse o teste.

Teste U de Mann-Whitney

C or à ,

abela K e J.

e U r

exacto.

probabilidade com maior número de casas decimais.

alculamos o valde U recorrendo fórmula 3.2.1, queposteriormente, é

comparado com os valores apresentados

Calcula o valor d e o valor de p, queassimptótico, quer

Calcula o valor aproximado da

na t

Teste de Moses para reacções extremas

Não é preciso tabelas, Dá-nos a dimensão d , as

diferenças máximas;

a .

l,

ma em de não haver erros;

apenas recorre-se à fórmula 3.3.2 para o

cálculo de p;

a amostra

Calcula o valor de p ssimptótico

O processo é omesmo do manua

s com a vantag

Mais rápido.

Qui-Quadrado duas amostras

o va nas

r aproximado da

1. S2. CYates; 3. CHab

Mas, só para tabela 2x2.

independentes

Não calculamoslor de p, ape

temos um intervalo; Utiliza-se a tabela C.

Calcula o valo

probabilidadeassociada.

Calcula o valor dep de três modos: em correcção; orrecção de

orrecção de er.

72

Conclusão

Quadro 4: Caso de k amostras Processo de Resolução: Tabelas SPSS® Mathematica®

Ttre um teste exacto e teste assimptótico;

Igual ao SPSS®, mas com maior precisão.

este Q de Cochran (Amostras

Recorre-se à tabela C, para o cálculo da

probabilidade de

Podemos escolher enum

relacionadas) ocorrência de Q. Calcula o valor de Q

Teste Friedman (Amostras

relacionadas)

Calculamos um intervalo para a

probabilid

Calcula o valor de p recorrendo à Qui- Do mesmo modo

ade com o Quadrado com k-1 que o SPSS®, mas com maior precisão. auxílio da tabela N. graus de liberdade.

Teste de Kruskal-Wallis

Recorre-se à Tabela O para o

cálculo da probabilidade;

Calcula um valor

(Amostras independentes)

as amostras só podem ser no

máximo dimensão não superior a cinco.

aproximado da probabilidade,

recorrendo à Qui-Quadrado com k-1 graus de liberdade.

Igual ao SPSS, mas com maior rigor.

Quadro 5: Medidas de Correlação Processo de Resolução: Tabelas SPSS® Mathematica®

Coeficiente de correlação por postos

de Kendall: τ

Recorre-se à tabela O, estando limitado a

dimensões não superiores a 10;

Para o cálculo do coeficiente pode

haver erro.

Calcula o coeficiente e também a

probabilidade associada sob a hipótese nula.

Apenas dá o coeficiente;

O coeficiente é apresentado com maior número de casas decimais.

Coeficiente de correlação por postos

de Spearman ( )

Recorre-se à tabela P para os valores críticos de

Calcula o coeficiente, como

também a sua probabilidade

associada.

Apenas dá o coeficiente.

Sr Sr .

Coeficiente de concordância de

Kendall (W)

Fácil cometer erros no calculo do coeficiente,

principalmente em caso de empate.

Calcula o coeficiente e a probabilidade

associada; Apresenta a média dos postos para cada

amostra;

Não foi possível apresentar um

procedimento que calcula-se o coeficiente.

Se observarmos atentamente este resume, compreendemos que as tabelas estão inadequadas

para amostras de grandes dimensões, a melhor solução para este problema será recorrer ao

computador.

73

Conclusão

O SPSS® é mais fácil de trabalha te de fácil utilização, tornando-

uma ferramenta “popular”. O “output” de cada teste tem a vantagem de poder ser

a

ue o SPSS® pode fazer no campo da Estatística.

a

ão Paramétrica, pois poder-se-á desenvolver função para testar hipóteses utilizando os

s procedimentos, aqui utilizados, apresentam resultados com mais precisão do que o

S

r, pois apresenta um ambien

se

form tado ao gosto do utilizador. Este trabalho desenvolvido, é apenas uma ínfima parte do

q

O M thematica® é uma ferramenta preciosa na Matemática e em particular para a Estatística

N

diferentes métodos da Estatística.

O

SPS ®, podendo escolher o número de casas decimais com a função N[]. A programação

destes procedimentos encontra-se em anexo.

74

Bibliografia

BIBLIOGRAFIA

Gibbons, Jean Dickinson e Chakraborti, Subhabrata, (1991) Nonparametric Statistical Inference, Third Edition, Dekker, Estados Unidos da América;

Siegel, Sidney, (1975) Estatística Não-Parametrica para as ciências do comportamento, McGraw-Hill, Brasil;

Daniel, W. W., Applied Nonparametric Statistic, Second Edition, PWS-Kent, Estados Unidos da América;

Wonnacott, Thomas H. e Wonnacott, Ronald J., Introductory Statistic, Fifth Edition;

Kendall, Maurice e Gibbons, Jean Dickinson, (1990) Rank Correlation Methods, Fifth Edition, Oxford University Press, Estados Unidos da América;

Kotz, Samuel e Johnson, Norman L., (1982) Encyclopedia of Statistical Sciences, Volume 2, Wiley-Interscience, Estados Unidos da América;

Mello, F. Galvão de Mello, Probabilidades e Estatística conceitos e métodos fundamentais, volume I e II, Escobar Editora;

Abell, Martha L., Braselton, James P. e Rafter, John A., (1999) Statistic with

Mathematica®, Academic Press, Estados Unidos da América;

Sernadas, A. e Sernadas C., (1996) Programação em Mathematica, Secção de Ciências da Computação, Departamento de Matemática IST, Lisboa;

Carmo, José, (1998) Introdução à Programação em Mathematica, Secção de Ciências

da Computação, Departamento de Matemática IST, Lisboa.

75

Bibliografia

ANEXOS

Estatística Não Paramétrica Testes de Hipóteses e Medidas de Associação

75

Anexo 0

Anexo 0

No SPSS® é preciso pesar os dados para que se possa aplicar alguns dos métodos. Estes

são:

Teste da Qui-Quadrado, quer para uma amostra, quer para duas amostras independentes,

Teste de Kolmogorov-Smirnov;

Teste de McNemar.

Para pesar os dados é preciso realizar os seguintes passos:

76

Anexo I: Caso de uma amostra

Anexo I: Caso de uma amostra I.1 T

SP

este da Binomial: SS®

Mathematica®

OffGeneralspell1; << Statistics DiscreteDistributions upperPSum p0, s :=Modulek bdistBinominalDistribution upboundPDFbdists onetai = CDFbdists twotai=onetai k=n; whileAndPDFbdist k <= upbounds <> s twotai=ltwora+PDFbdist; k=k-1; twotai=Mintwotai; onetai, twotail;

77


lowerPSum, p0, s :=Modulek, bdist=BinomialDistribution, p0;

upbound, tai= i+PDFbdistk; k=k+1;

npmB

If pHat <= p0, pvals lowerPSum p0, s; Print “OneSidedPValue -> “, pvals1;

I.2 Teste da Qui-quadrado ( ) de uma amostra

SPSS®

upboundPDFbdist;

dists; onetai=l1-CDFb twotai=lonetai1; k=0; whilePDFbdistk <=two ltwota Mintwotai, l1; onetai, ltwotail

ino PValue0, s := Modulebdist, pvmial al, spHat, bdist=binomialDistribution p0; Hat=s p n;

If pHat <= p0, pvals upperPSum, p0, s; Print “TwoSidedPValue -> “, pvals2

2χ

78


Mathematica®

<< tatistics S ‘ContinuousDistributions’, QuiQuadrada1Amostra Function Amostra; Modulei, Ei,

i=1; x=0; Ei=NSumAmostraj, j, 1, LengtAmostra LengtAmostra Whilei <= LengtAmostra x=x+Amostrai-Ei^2 Ei; i = i+1 gl = LengtAmostra1; Print “PValue”, 1-CDFChiSquareDistribution gl, x

I.3 Teste de Kolmogorov-Smirnov para uma amostra

SPSS®

79


I.4 Teste de i

terações de uma amostra

SPSS®

Mathematica®

ffGeneral spell1; O<< Statistics NormalDistribution << Statistics DataManipulation ropValxs := If x!=medAppendTo newListx , m0 :=Module,

If y < m0, 0, 1 ndFirstOne dlist := Module,

k=1; while listk != 1, k=k+1

ndFirstZero k:=Module, k=1; While listk !=0, k=k+1;

dfy fi fi

80

Anexo II: Caso de duas amostras relacionadas

Anexo II: Caso duas amostras relacionadas

dos testes deste anexo tem o seguinte passo:

Passo (*):

A seguir à introdução dos dados qualquer um

81


II.1

SPSS®

Teste dos Sinais

Passo (*)

Mathematica® OffGeneralspell1;

<< Statistics DiscreteDistributions Option spmSignTestFrequencies sided -> 2

82


Clean spmSignTestFrequencies npmSignTestFrequencies f1, f2, opts := Modules, n, tail,

s=f1; n=f1+f2; tail=sided opts Option spmSignTestFrequencies If s <= n 2, pval = N CDFBinomialDistribution 1, 2, s, pval = 1-N CDFBinomialDistribution 1, 2, s; Iftail == 2, pval = 2*pval; Print “TitleSignTest”; Print “Distribution “BinominalDistribution, n, “, 1 2 “; Print tail “ – sided p-value -> “, pval;

II.2 Teste dos McNemar

SPSS®

Passo (*)

83


II.3 Teste

S

de Wilcoxon

PSS®

Passo (*)

84

Anexo III: Caso de duas amostras independentes


ir à introdução dos dados qualquer um dos testes (excepto o teste da Qui-

Quadrado) do Anexo III tem o seguinte Passo:

Passo (**):

A segu

85


III.1 Teste de Wald-Wolfowitz

SPSS®

Na página seguinte:

Passo (**)

86


de U de Mann-Whitney

SPSS®

III.2 Teste

Na página seguinte:

Passo (**)

87


III.3 Teste de Moses para reacções extremas

SPSS®

Passo (**)

88


III.4 Teste da Qui-quadrado ( ) para duas amostras independentes

SPSS®

2χ

89


90

Anexo IV: Caso de k amostras relacionadas

Anexos IV: Caso de k amostras relacionadas

Após a introdução dos dados, é feito o seguinte passo, comum a todos:

asso (***):

P

91


IV.1 Teste de Q de Cochran

SPSS®

Passo (***)

IV.2 Teste de Friedman

SPSS®

Passo (***)

92


93

Anexo V: Caso de k amostras independentes

Anexo V: Caso de k amostras independentes V

.1 Teste de Kruskal-Wallis

SPSS®

94

Anexo VI: Medidas de Correlação

Anexo VI: Medidas de Correlação.

As medidas de correlação estão por defeito no Mathematica® portanto neste anexo só apresento os passos para o SPSS®:

VI.1 Coeficiente de correlação por postos de Kendall: τ

95


VI.2 Coeficiente de correlação por postos de Spearman: Sr

96


VI.3 Coeficiente de concordância de Kendall:

W

97

A A

E t c o ra é a tes óte edi Ass

T BEL S

sta ísti a Nã Pa m tric Tes de Hip ses e M das de ociação

75

Tabelas

Tabela A Probabilidades associadas a valores tão ext s observados de z na Distribuição Normal

O corpo da tabela dá as probabilidades unilaterais de z sob H0. A coluna da margem esquerda dá os valores de z com uma décima, e a linha superio emplo, a probabilidade

tera u

remos quanto os valore

r dá os valores com duas décimas. Assim, por ex≥zunila l p de 11,0 o 11,0−≤ é 45,0 62=p

z 0,00 0,01 0,02 0,03 4 0 0,08 0,09 0,0 0,05 0,06 ,07

0,0 0,5000 0, 0, 4 0 81 0,4641 4960 0,4920 0,4880 0,4840 0,4801 4761 0, 721 ,460,1 0,4602 0, 0, 4443 0,4404 0,4364 0,4325 0 86 0,4247 4562 0,4522 4483 0, ,420,2 0,4207 68 9 90 0,3 97 0,3859 0,41 0,412 0,40 0,4052 0,4013 0,3974 936 0,380,3 0,3821 83 5 07 0, 0,35 20 0,3483 0,37 0,374 0,37 0,3669 0,3632 3594 57 0,350,4 0,3446 09 2 36 0, 0,31 56 0,3121 0,34 0,337 0,33 0,3300 0,3264 3228 92 0,31

0,5 0,3085 50 5 81 0, 0,284 10 0,2776 0,30 0,301 0,29 0,2946 0,2912 2877 3 0,280,6 0,2743 09 6 43 0, 0,251 83 0,2451 0,27 0,267 0,26 0,2611 0,2578 2546 4 0,240,7 0,2420 0, 0, 2296 0,2266 0,2236 0,2206 0 77 0,2148 2389 0,2358 2327 0, ,210,8 0,2119 0, ,192 94 0,1867 0,2090 0,2061 0,2033 0,2005 0,1977 1949 0 2 0,180,9 0,1841 14 8 62 0, 0,166 35 0,1611 0,18 0,178 0,17 0,1736 0,1711 1685 0 0,16

1,0 0,1587 62 9 15 0, 0,142 01 0,1379 0,15 0,153 0,15 0,1492 0,1469 1446 3 0,141,1 0,1357 35 4 92 0, 0,121 90 0,1170 0,13 0,131 0,12 0,1271 0,1251 1230 0 0,111,2 0,1151 31 2 93 0, 0,102 03 0,0985 0,11 0,111 0,10 0,1075 0,1056 1038 0 0,101,3 0,0968 51 4 18 0, 0,085 38 0,0823 0,09 0,093 0,09 0,0901 0,0885 0869 3 0,081,4 0,0808 0, 0, 0749 0,0735 0,0721 0,0708 0 94 0,0681 0793 0,0778 0764 0, ,06

1,5 0,0668 55 3 30 0, 0,058 71 0,0559 0,06 0,064 0,06 0,0618 0,0606 0594 2 0,051,6 0,0548 37 6 16 0, 0,047 65 0,0455 0,05 0,052 0,05 0,0505 0,0495 0485 5 0,041,7 0,0446 36 7 18 0, 0,038 75 0,0367 0,04 0,042 0,04 0,0409 0,0401 0392 4 0,031,8 0,0359 51 4 36 0, 0,030 01 0,0294 0,03 0,034 0,03 0,0329 0,0322 0314 7 0,031,9 0,0287 81 4 68 0, 0,024 39 0,0233 0,02 0,027 0,02 0,0262 0,0256 0250 4 0,02

2,0 0,0228 0, 0, 0207 0,0202 0,0197 0,0192 0 88 0,0183 0222 0,0217 0212 0, ,012,1 0,0179 74 0 66 0, 0,015 46 0,0143 0,01 0,017 0,01 0,0162 0,0158 0154 0 0,012,2 0,0139 36 2 29 0, 0,011 13 0,0110 0,01 0,013 0,01 0,0125 0,0122 0119 6 0,012,3 0,0107 04 2 99 0, 0,008 87 0,0084 0,01 0,010 0,00 0,0096 0,0094 0091 9 0,002,4 0,0082 80 8 75 0, 0,006 66 0,0064 0,00 0,007 0,00 0,0073 0,0071 0069 8 0,00

2,5 0,0062 60 9 57 0, 0,005 49 0,0048 0,00 0,005 0,00 0,0055 0,0054 0052 1 0,002,6 0,0047 0, 0, 0038 37 0,0036 0045 0,0044 0,0043 0,0041 0,0040 0039 0, 0,002,7 0,0035 0, 0, 0028 27 0,0026 0034 0,0033 0,0032 0,0031 0,0030 0029 0, 0,002,8 0,0026 25 4 23 0, 0,002 20 0,0019 0,00 0,002 0,00 0,0023 0,0022 0021 1 0,002,9 0,0019 18 8 17 0, 0,001 14 0,0014 0,00 0,001 0,00 0,0016 0,0016 0015 5 0,00

3,0 0,0013 13 3 12 0, 0,001 10 0,0010 0,00 0,001 0,00 0,0012 0,0011 0011 1 0,003,1 0,0010 09 9 09 0, 0,000 07 0,0007 0,00 0,000 0,00 0,0008 0,0008 0008 8 0,003,2 0,0007 3,3 0,0005 3,4 0,0003

3,5 0,00023 3,6 0,00016 3,7 0,00011 3,8 0,00007 3,9 0,00005

4,0 0,00003

76

Tabelas

Tabela B Valores críticos de t.

ân o teNível de signific cia para ste unilateral

0, 01 05 1 0,05 0,025 0, 0,005 0,00Nív icâ est ateel de sig fni ncia para t o e bil ral

gl

1 0,2 0,1 0,05 0,02 0,01 0,00

1 8 3 63,6 53,07 6,314 12,706 1,821 56 636, 78 2 6 9,9 61,88 2,920 4,303 6,965 25 31, 00 3 8 5,81,63 2,353 3,182 4,541 41 12,924 4 1,533 2, 2 2,77 7 4,6 8,6 13 6 3,74 04 105 6 4,01,47 2,015 2,571 3,365 32 6,869

6 0 1,44 1,943 2,447 3,143 3,707 5,959 7 5 1,41 1,895 2,365 2,998 3,499 5,408 8 397 31, 1,860 2,306 2,896 3, 55 5,041 9 3 1,38 1,833 2,262 2,821 3,250 4,781

10 2 1,37 1,812 2,228 2,764 3,169 4,587

11 3 1,36 1,796 2,201 2,718 3,106 4,437 12 6 1,35 1,782 2,179 2,681 3,055 4,318 13 350 01, 1,771 2,160 2,650 3, 12 4,221 14 5 1,34 1,761 2,145 2,624 2,977 4,140 15 11,34 1,753 2,131 2,602 2,947 4,073

16 71,33 1,746 2,120 2,583 2,921 4,015 17 1,333 1, 0 2,11 7 2,8 3,9 74 0 2,56 98 6518 01,33 1,734 2,101 2,552 2,878 3,922 19 81,32 1,729 2,093 2,539 2,861 3,883 20 51,32 1,725 2,086 2,528 2,845 3,850

21 31,32 1,721 2,080 2,518 2,831 3,819 22 11,32 1,717 2,074 2,508 2,819 3,792 23 91,31 1,714 2,069 2,500 2,807 3,768 24 81,31 1,711 2,064 2,492 2,797 3,745 25 61,31 1,708 2,060 2,485 2,787 3,725

26 5 706 2 6 2,4 2,779 ,707 1,31 1, ,05 79 3 27 1,314 1,703 2,052 2,473 2,771 3,689 28 1,313 1,701 2,048 2,467 2,763 3,674 29 1,311 1,699 2,045 2,462 2,756 3,660 30 1,310 1,697 2,042 2,457 2,750 3,646

40 1,303 1,684 2,021 2,423 2,704 3,551 60 1,296 1,671 2,000 2,390 2,660 3,460

120 1,289 1,658 1,980 2,358 2,617 3,373 ∞ 1,282 1,645 1,960 2,326 2,576 3,290

77

Tabelas

Tabela C Valores críticos de Qui-Quadrado

Pro adrado babilidade, sob H , de ≥2χ qui-qu0gl

0, 0, 0,95 0, 80 0,70 50 0, 20 0,10 0,05 0, 01 0,001 99 98 90 0, 0, 30 0, 02 0,

1 016 00 3 3 0, 0 4 15 45 1, 4 1 84 5 3 ,83 0,00 0, 06 0,00 9 016 ,06 0, 0, 07 1,6 2,7 3, ,41 6,6 102 0, 04 10 0,2 0 5 71 1,39 2, 3 2 ,61 5,99 7, ,82 02 0, 0, 1 ,4 0, 41 ,2 4 82 9,21 133 0,1 42 2,37 3,6 4 25 7,81 9, 1 ,34 6,27 0,11 8 0,35 0,58 1,01 1, 6 ,64 6, 84 1 14 0,4 9 36 4,8 5 78 9,49 11 7 13,28 8,47 0,30 3 0,71 1,06 1,65 2,1 3, 8 ,99 7, ,6 15 0,55 0,75 1,15 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,51

6 0,87 1,13 1,64 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,46 7 1,24 1,56 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,32 8 1,65 2,03 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,09 26,12 9 2,09 2,53 3,33 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,67 27,88

10 2,56 3,06 3,94 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,16 23,21 29,59

11 3,05 3,61 4,57 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,62 24,73 31,26 12 3,57 4,18 5,23 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,03 24,05 26,22 32,91 13 4,11 4,77 5,89 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,36 25,47 27,69 34,53 14 4,66 5,37 6,57 7,79 9,47 10,82 13,34 16,22 18,15 21,06 23,68 26,87 29,14 36,12 15 5,23 5,98 7,26 8,55 10,31 11,72 14,34 17,32 19,31 22,31 25,00 28,26 30,58 37,70

16 5,81 6,61 7,96 9,31 11,15 12,62 15,34 18,42 20,47 23,54 26,30 29,63 32,00 39,25 17 6,41 7,25 8,67 10,09 12,00 13,53 16,34 19,51 21,61 24,77 27,59 31,00 33,41 40,79 18 7,01 7,91 9,39 10,86 12,86 14,44 17,34 20,60 22,76 25,99 28,87 32,35 34,81 42,31 19 7,63 8,57 10,12 11,65 13,72 15,35 18,34 21,69 23,90 27,20 30,14 33,69 36,19 43,82 20 8,26 9,24 10,85 12,44 14,58 16,27 19,34 22,77 25,04 28,41 31,41 35,02 37,57 45,31

21 8,90 9,91 11,59 13,24 15,44 17,18 20,34 23,86 26,17 29,62 32,67 36,34 38,93 46,80 22 9,54 10,60 12,34 14,04 16,31 18,10 21,34 24,94 27,30 30,81 33,92 37,66 40,29 48,27 23 10,20 11,29 13,09 14,85 17,19 19,02 22,34 26,02 28,43 32,01 35,17 38,97 41,64 49,73 24 10,86 11,99 13,85 15,66 18,06 19,94 23,34 27,10 29,55 33,20 36,42 40,27 42,98 51,18 25 11,52 12,70 14,61 16,47 18,94 20,87 24,34 28,17 30,68 34,38 37,65 41,57 44,31 52,62

26 12,20 13,41 15,38 17,29 19,82 21,79 25,34 29,25 31,79 35,56 38,89 42,86 45,64 54,05 27 12,88 14,13 16,15 18,11 20,70 22,72 26,34 30,32 32,91 36,74 40,11 44,14 46,96 55,48 28 13,56 14,85 16,93 18,94 21,59 23,65 27,34 31,39 34,03 37,92 41,34 45,42 48,28 56,89 29 14,26 15,57 17,71 19,77 22,48 24,58 28,34 32,46 35,14 39,09 42,56 46,69 49,59 58,30 30 14,95 16,31 18,49 20,60 23,36 25,51 29,34 33,53 36,25 40,26 43,77 47,96 50,89 59,70

78

Tabelas

Tabela D Probabilidades associadas a valores tão pequenas quanto os valores observados de x no Teste Binomial. O corpo da tabela dá as probabilidades unilaterais de z, sob , do teste binomial, quando P = Q = ½.

Omitiram-se as vírgulas decimais nos p’s.

x

0H

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 N

5 031 188 500 812 969 * 6 016 109 344 656 891 984 * 7 008 062 227 500 773 938 992 * 8 004 035 145 363 637 855 965 996 * 9 002 020 090 254 500 746 910 980 998 * 10 001 011 055 172 377 623 828 945 989 999 * 11 006 033 113 274 500 726 887 967 994 * * 12 003 019 073 194 387 613 806 927 981 997 * * 13 002 011 046 133 291 500 709 867 954 989 998 * * 14 001 006 029 090 212 395 605 788 910 971 994 999 * * 15 004 018 059 151 304 500 696 849 941 982 996 * * * 16 002 011 038 105 227 402 598 773 895 962 989 998 * * 17 001 006 025 072 166 315 500 685 834 928 975 994 * 999 18 001 004 015 048 119 240 407 593 760 881 952 985 999996 19 002 010 032 084 180 324 500 676 820 916 968 990 998 20 001 006 021 058 132 252 412 588 748 868 942 979 994 21 001 004 013 039 095 192 332 500 668 808 905 961 987 22 002 008 026 067 143 262 416 584 738 857 933 974 23 001 005 017 047 105 202 339 500 661 798 895 953 24 001 003 011 032 076 154 271 419 581 729 846 924 25 002 007 022 054 115 212 345 500 655 788 885 * 1,0 ou aproximadamente 1,0

79

Tabelas

Probabilidades associadas a valores tão pequenas quanto os valores observados de x no Teste Binomial. O corpo da tabela dá as probabilidades unilaterais de z, sob , do teste binomial, quando P = Q = ½.

Omitiram-se as vírgulas decimais nos p’s.

x

0H

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 N 5 031 188 500 812 969 * 6 016 109 344 656 891 984 * 7 008 062 227 500 773 938 992 * 8 004 035 145 363 637 855 965 996 * 9 002 020 090 254 500 746 910 980 998 * 10 001 011 055 172 377 623 828 945 989 999 * 11 006 033 113 274 500 726 887 967 994 * * 12 003 019 073 194 387 613 806 927 981 997 * * 13 002 011 046 133 291 500 709 867 954 989 998 * * 14 001 006 029 090 212 395 605 788 910 971 994 999 * * 15 004 018 059 151 304 500 696 849 941 982 996 * * * 16 002 011 038 105 227 402 598 773 895 962 989 998 * * 17 001 006 025 072 166 315 500 685 834 928 975 994 999 * 18 001 004 015 048 119 240 407 593 760 881 952 985 996 999 19 002 010 032 084 180 324 500 676 820 916 968 990 998 20 001 006 021 058 132 252 412 588 748 868 942 979 994 21 001 004 013 039 095 192 332 500 668 808 905 961 987 22 002 008 026 067 143 262 416 584 738 857 933 974 23 001 005 017 047 105 202 339 500 661 798 895 953 24 001 003 011 032 076 154 271 419 581 729 846 924 25 002 007 022 054 115 212 345 500 655 788 885 * 1,0 ou aproximadamente 1,0

80

Tabelas

Tabela E Valores críticos de D no Teste de Kolmogorov-Smirnov para uma amostra.

Nível de Significância para )()(máx 0 XSXFD N−=

N

0,20 0,15 0,10 0,05 0,01

1 0,900 0,925 0,950 0,975 0,995 2 0,684 0,726 0,776 0,842 0,929 3 0,565 0,597 0,642 0,708 0,828 4 0,494 0,525 0,564 0,624 0,733 5 0,446 0,474 0,510 0,565 0,669

6 0,410 0,436 0,470 0,521 0,618 7 0,381 0,405 0,438 0,486 0,577 8 0,358 0,381 0,411 0,457 0,543 9 0,339 0,360 0,388 0,432 0,514

10 0,332 0,342 0,368 0,410 0,490

11 0,307 0,326 0,352 0,391 0,468 12 0,295 0,313 0,338 0,375 0,450 13 0,284 0,302 0,325 0,361 0,433 14 0,274 0,292 0,314 0,349 0,418 15 0,266 0,283 0,304 0,338 0,404

16 0,258 0,274 0,295 0,328 0,392 17 0,250 0,266 0,286 0,318 0,381 18 0,244 0,259 0,278 0,309 0,371 19 0,237 0,252 0,272 0,301 0,363 20 0,231 0,246 0,264 0,294 0,356

25 0,21 0,22 0,24 0,27 0,32 30 0,19 0,20 0,22 0,24 0,29 35 0,18 0,19 0,21 0,23 0,27

Mais de 35

N07,1

N14,1

N22,1

N36,1

N63,0

81

Tabelas

82

Tabela F Valores críticos de r no teste de Iterações

O corpo das tabelas FI e FII contém diversos valores críticos de r para vários valores de n1 e n2. Para o teste de iterações de uma amostra, qualquer valor de r não superior ao exibido na tabela FI ou não inferior ao exibido na

tabela FII é significativo ao nível 0,05. Para o teste de iterações de Wald-Wolfowitz qualquer valor de r não superior ao exibido na tábua FI é significativo ao nível 0,05.

Tabela FI

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6 7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6 8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7 9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8 10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9 11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9 12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10 13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10 14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11 15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12 16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12 17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13 18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13 19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13 20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14

Tabelas

83

Tabela FII

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 3 4 9 9 5 9 10 10 11 11 6 9 10 11 12 12 13 13 13 13 7 11 12 13 13 14 14 14 14 15 15 15 8 11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17 9 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18 10 13 14 15 16 16 17 17 18 18 18 19 19 19 20 20 11 13 14 15 16 17 17 18 19 19 19 20 20 20 21 21 12 13 14 16 16 17 18 19 19 20 20 21 21 21 22 22 13 15 16 17 18 19 19 20 20 21 21 22 22 23 23 14 15 16 17 18 19 20 20 21 22 22 23 23 23 24 15 15 16 18 18 19 20 21 22 22 23 23 24 24 25 16 17 18 19 20 21 21 22 23 23 24 25 25 25 17 17 18 19 20 21 22 23 23 24 25 25 26 26 18 17 18 19 20 21 22 23 24 25 25 26 26 27 19 17 18 20 21 22 23 23 24 25 26 26 27 27 20 17 18 20 21 22 23 24 25 25 26 27 27 28

Tabelas

84

Tabela G Valores críticos de T no teste de Wilcoxon

Nível de significância para teste unilateral N 0,025 0,01 0,005 Nível de significância para teste bilateral 0,05 0,02 0,01 6 0 7 2 0 8 4 2 0 9 6 3 2

10 8 5 3

11 11 7 5 12 14 10 7 13 17 13 10 14 21 16 13 15 25 20 16

16 30 24 20 17 35 28 23 18 40 33 28 19 46 38 32 20 52 43 38

21 59 49 43 22 66 56 49 23 73 62 55 24 81 69 61 25 89 77 68

Tabelas

85

Tabela J Probabilidades associadas a valores tão pequenos quanto os valores observados de U no

teste de Mann-Whitney

Tabelas

Probabilidades associadas a valores tão pequenos quanto os valores observados de U no

teste de Mann-Whitney (continuação)

86

Tabelas

Probabilidades associadas a valores tão pequenos quanto os valores observados de U no teste de Mann-Whitney (continuação)

87

Tabelas

88

Tabela K Valores críticos de U no teste de Mann-Whitney

Tabela KI. Valores críticos para um teste unilateral com α=0,001 e um teste bilateral com α=0,002

Tabela KII. Valores críticos para um teste unilateral com α=0,01 e um teste bilateral com α=0,02

Tabela KIII. Valores críticos para um teste unilateral com α=0,025 e um teste bilateral com α=0,05

Tabela KIV. Valores críticos para um teste unilateral com α=0,05 e um teste bilateral com α=0,1

Tabelas

Tabela N Probabilidades associadas a valores tão grandes quanto os valores observados de χr2 no teste de Friedman

89

Tabelas

Probabilidades associadas a valores tão grandes quanto os valores observados de χr2 no teste de Friedman

(continuação) para k = 4

90

Tabelas

Tabela O Probabilidades associadas a valores tão grandes quanto os valores observados de H no

teste de Kruskal-Wallis.

91

Tabelas

Probabilidades associadas a valores tão grandes quanto os valores observados de H no

teste de Kruskal-Wallis.

92

Tabelas

93

Tabela P Valores Críticos de rS, coeficiente de correlação de Spearman

Nível de significânciaN (unilateral) 0,05 0,01 4 1,000 5 0,900 1,000 6 0,829 0,943 7 0,714 0,893 8 0,643 0,833 9 0,600 0,783

10 0,564 0,746 12 0,506 0,712 14 0,456 0,645 16 0,425 0,601 18 0,399 0,564 20 0,377 0,534 22 0,359 0,508 24 0,343 0,485 26 0,329 0,465 28 0,317 0,448 30 0,306 0,432

Tabelas

94

Tabela Q Probabilidades associadas a valores tão grandes quanto os valores observados de S no

coeficiente de correlação de Kendall

S Valores de N S Valores de N 4 5 8 9 6 7 10 0 0,625 0,592 0,548 0,540 1 0,500 0,500 0,500 2 0,375 0,408 0,452 0,460 3 0,360 0,386 0,431 4 0,167 0,242 0,360 0,381 5 0,235 0,281 0,364 6 0,042 0,117 0,274 0,306 7 0,068 0,191 0,300 8 0,042 0,199 0,238 9 0,028 0,119 0,242

10 0,0083 0,138 0,179 11 0,0083 0,068 0,190 12 0,089 0,130 13 0,0014 0,035 0,146 14 0,054 0,090 15 0,015 0,108 16 0,031 0,060 17 0,0054 0,078 18 0,016 0,038 19 0,0014 0,054 20 0,0071 0,022 21 0,00020 0,036 22 0,0028 0,012 23 0,023 24 0,00087 0,0063 25 0,014 26 0,00019 0,0029 27 0,0083 28 0,000025 0,00012 29 0,0046 30 0,00043 31 0,0023 32 0,000012 33 0,0011 34 0,000025 35 0,00047 36 0,0000028 37 0,00018 39 0,000058 41 0,000015 43 0,0000028 45 0,00000028

Tabelas

95

Tabela R Valores críticos de s no coeficiente de concordância de Kendall

Valores adicionais k N para N=3 3* 4 5 6 7 k s Valores ao nível de significância de 0,05 3 64,4 103,9 157,3 9 54,04 49,5 88,4 143,3 217,0 12 71,95 62,6 112,3 182,4 276,2 14 83,86 75,7 136,1 221,4 335,2 16 95,88 48,1 101,7 183,7 299,0 453,1 18 107,7

10 60,0 127,8 231,2 376,7 571,0 15 89,8 192,9 349,8 570,5 864,9 20 119,7 258,0 468,5 764,4 1 158,7 Valores ao nível de significância de 0,01 3 75,6 122,8 185,6 9 75,94 61,4 109,3 176,2 265,0 12 103,55 80,5 142,8 229,4 343,8 16 121,96 99,5 176,1 282,4 422,6 18 140,28 66,8 137,4 242,7 388,3 579,9 158,6

10 85,1 175,3 309,1 494,0 737,0 15 131,0 269,8 475,2 758,2 1 129,5 20 177,0 364,2 641,2 1 022,2 1 521,9

* Observe os valores adicionais para N=3 constantes à direita da tabela

DEPARTAMENTO DE MATEMÁTICA Secção de Estatística e Investigação Operacional Filipe Gago da Câmara ©

Câmara, Filipe Gago (2001) “Estatística Não Paramétrica: Testes de hipóteses e medidas de associação” Monografias da SEIO. Depto. Matemática da Univ. dos Açores: Ponta Delgada, www.uac.pt/~amendes (ID 1.431)

O trabalho apresentado é da exclusiva responsabilidade do aluno que o assina. O Departamento de Matemática e a Universidade dos Açores não se responsabilizam por eventuais erros existentes no mesmo. Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo dos temas a que se referem. No entanto, não podem ser copiados ou incluídos noutros trabalhos académicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referência completa. Para autorização de cópia parcial ou integral, utilize o endereço de correio electrónico: [email protected] UTH