43
Testes de hipóteses IPCB 2005/2006 1 Índice 1. Introdução ............................................................................................................. 2 2. Metodologia do contrate de hipóteses .................................................................. 2 3. Tipos de erros nos testes de hipóteses .................................................................. 4 4. Testes de hipóteses clássicos ................................................................................ 7 4.1 Testes acerca da média de uma amostra ....................................................... 7 4.1.2 Caso 1: A variância da população é conhecida ........................................ 7 Cálculo da probabilidade limite.......................................................................... 14 Cálculo da potência do teste ............................................................................... 15 4.1.2 Caso 2: Variância Desconhecida ou Amostras de Pequenas Amostras.. 19 Determinação do tamanho da amostra.................................................................... 24 4.2 Comparação das médias de duas amostras independentes ............................... 27 4.2.1 Teste de homogeneidade de duas variâncias .......................................... 28 4.2.2 Intervalo de confiança para a diferença de duas médias ............................... 29 4.2.3 Estimativa do tamanho das amostras ............................................................. 30 4.3 Comparação das médias de duas amostras emparelhadas ................................ 34 4.4 Comparação de duas proporções ................................................................ 37 Exercícios propostos ............................................................................................... 40 Bibliografia ............................................................................................................. 43

Testes de Hipoteses

Embed Size (px)

Citation preview

Page 1: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 1

Índice

1. Introdução............................................................................................................. 2 2. Metodologia do contrate de hipóteses .................................................................. 2 3. Tipos de erros nos testes de hipóteses .................................................................. 4 4. Testes de hipóteses clássicos ................................................................................ 7

4.1 Testes acerca da média de uma amostra....................................................... 7 4.1.2 Caso 1: A variância da população é conhecida ........................................ 7

Cálculo da probabilidade limite.......................................................................... 14 Cálculo da potência do teste ............................................................................... 15

4.1.2 Caso 2: Variância Desconhecida ou Amostras de Pequenas Amostras.. 19 Determinação do tamanho da amostra.................................................................... 24 4.2 Comparação das médias de duas amostras independentes ............................... 27 4.2.1 Teste de homogeneidade de duas variâncias .......................................... 28 4.2.2 Intervalo de confiança para a diferença de duas médias ............................... 29 4.2.3 Estimativa do tamanho das amostras............................................................. 30 4.3 Comparação das médias de duas amostras emparelhadas ................................ 34 4.4 Comparação de duas proporções ................................................................ 37 Exercícios propostos............................................................................................... 40 Bibliografia............................................................................................................. 43

Page 2: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 2

TESTES DE HIPÓTESES

1. Introdução Um teste (ou contraste) de hipóteses é um procedimento estatístico cujo objectivo consiste em decidir se se aceitam ou não como certos determinados pressupostos que se estabelecem sobre o comportamento paramétrico (parâmetros estatísticos, distribuição de probabilidades dos parâmetros ou relações entre parâmetros, etc.) de uma população, a partir dos resultados observados numa amostra realizada sobre essa população, quantificando o risco de erro inerente a cada uma das possíveis decisões. Isto é, um teste de hipóteses é uma metodologia estatística cujo objectivo é ajudar o investigador a tomar uma decisão acerca de uma população, através da análise de uma amostra retirada dessa população em estudo. Os testes de hipóteses mais frequentes nas áreas das Engenharias são:

- testar se uma amostra segue uma determinada função de distribuição de probabilidades;

- testar, com base nos valores de uma amostra, se a média populacional tem um determinado valor;

- testar se duas (ou mais) amostras diferentes provêm da mesma população isto é, comparação das médias e variâncias das amostras).

2. Metodologia do contrate de hipóteses A realização de um teste de hipóteses necessita de uma metodologia de trabalho que garanta a minimização dos erros da decisão adoptada, e que portanto a decisão tomada se efectue correctamente. A hipótese que se pretende testar denomina-se hipótese nula, e representa-se por 0H ; qualquer outra hipótese, que não inclua a hipótese nula, denomina-se hipótese alternativa, e representa-se por 1H . A hipótese nula baseia-se no pressuposto que a amostra segue uma determinada lei de probabilidades, que explica a distribuição das frequências na população de onde essa amostra foi retirada. A hipótese alternativa de um teste de hipóteses não é única; por exemplo, num teste de hipóteses clássico de comparação de duas médias, a hipótese nula é 0 1 2:H x x= (que

Page 3: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 3

também se pode expressar por 0 1 2: 0H x x− = ), mas existem diversas hipóteses alternativas, cuja eleição dependerá dos objectivos do próprio teste; assim, pode ter-se a hipótese alternativa de um teste bilateral, 1 1 2:H x x≠ (que também se pode escrever como 1 1 2: 0H x x− ≠ ), ou uma das duas hipóteses alternativas de teste unilateral, concretamente, 1 1 2:H x x< ou 1 1 2:H x x> . Deverão ser os objectivos do ensaio, e o respectivo delineamento experimental, que decidirão qual das três alternativas se deverá usar em cada caso. A definição da hipótese nula não é mero acaso, mas está condicionada aos pressupostos estatísticos inerentes ao teste estatístico que se vai a realizar; isto é, e reportando-nos de novo ao teste de comparação de duas médias, a hipótese nula será 0 1 2:H x x= , e não poderá ser 0 1 2:H x x≠ , pois o teste estatístico que se vai a utilizar na decisão tem como pressuposto que sob a hipótese de se ter 1 2 0x x− = , então as estatísticas que se calculam para auxiliar na decisão seguem uma determinada função de distribuição de probabilidades. Os passos típicos para a realização de um teste de hipóteses são os que de seguida se enumeram. A fim de facilitar a interpretação dos passos a seguir, apresenta-se em paralelo um exemplo simples: Passos num teste de hipóteses Exemplo 1. Definir as hipóteses nula e alternativa 1. 0 1: :A B A BH x x H x x= ≠ 2. Definir o erro máximo admissível para a decisão (isto é, definir qual a probabilidade máxima que estamos dispostos a correr de aceitar 0H como válida, quando na realidade 0H é falsa (erro de tipo I, ou α )

2. Definir 5%α =

3. Definir uma estatística de teste 3. Definir a estatística de teste

2 2A B

A B

A B

x xTs sN N

−=

+

4. Definir a função de distribuição de probabilidades da estatística de teste, sob o pressuposto que 0H é verdadeira

4. Admitindo que 2 2A Bs s= e sob o

pressuposto que 0H é verdadeira, T segue uma distribuição t-Student com ( )2A BN N+ − graus de liberdade:

( ); 2A BN NT t α + −∼

Page 4: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 4

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106

113

120-tc tc

α /2 α /21-α

Região crítica Região críticaRegião de aceitação de Ho

5. Definir uma região de aceitação e uma região de rejeição (ou região crítica) de 0H

5. Estabelecida a função de distribuição de probabilidades de T, a região crítica é definida:

6. Definir o delineamento experimental e recolher as amostras de dados

6. Definir duas amostras de indivíduos, em tudo semelhantes; a cada uma das unidades experimentais, é atribuído de modo completamente aleatório, um dos dois tratamentos cujo efeito pretendemos comparar. Recolha dos resultados.

7. Com base no delineamento experimental e no tipo de teste de hipóteses, calcular a estatística de teste

7. Calcular a estatística de teste:

2 2A B

A B

A B

x xTs sN N

−=

+

8. Aceitar ou rejeitar 0H , com base na estatística de teste e na região crítica

8. Aceitar 0H se:

( ) ( )2 21 ; 2 1 ; 2;A B A BN N N NT t tα α− + − − + −

∈ −

3. Tipos de erros nos testes de hipóteses Os testes de hipóteses são baseados em estatísticas de amostras realizadas na população, pelo que, tal como estas, estão sujeitos a erros. Consideremos um teste de hipóteses referente à comparação das médias de duas amostras independentes:

0 1: :A B A BH x x H x x= ≠ Consideremos que foi definida a região de aceitação, tal que a hipótese nula é aceite se a estatística de teste estiver no intervalo [ ]2.101;2.101T ∈ − , correspondente a um nível de significância de 5% e a duas amostras cada uma com 10 observações. Após recolher as duas amostras, em que dois dos valores da amostra A eram anormalmente elevados quando comparados com os restantes oito valores da amostra A, estes muito parecidos aos 10 elementos da amostra B, pode acontecer ter-se chegado a um valor da estatística de teste 2.25T = (exactamente devido a esses dois valores fora

Page 5: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 5

do comum) que, pela regra de decisão acima indicada, conduz à rejeição da hipótese nula. Isto é, quando a maior parte dos valores das duas amostras parecem indicar que as duas amostras são muito iguais, não havendo razão para as considerar distintas, o facto de numa delas existirem alguns valores anómalos pode levar à rejeição errónea da hipótese nula, não porque as amostras não sejam iguais, mas antes, provavelmente, por uma amostragem deficiente. O inverso também pode acontecer: perante duas populações nitidamente distintas, as amostragens para constituir os dois grupos de comparação podem estar viciadas, no sentido de se terem seleccionado para ambas as amostras indivíduos muito homogéneos, o que pode conduzir a uma estatística de teste anormalmente baixa (em valor absoluto), e consequentemente à aceitação (errónea) da hipótese nula, quando na verdade ela deveria ter sido rejeitada. Isto é, a hipótese nula, embora na realidade não seja verdadeira, não foi rejeitada pelo teste, pois da amostra não resulta suficiente evidência para a rejeição. Isto é, nos testes de hipóteses há a possibilidade de se cometerem dois tipos de erros: Erros do tipo I: consiste em rejeitar a hipótese nula, quando na realidade ele é válida; Erros do tipo II: consiste em não rejeitar a hipótese nula quando na realidade é falsa. De um modo esquemático:

Decisão 0H verdadeira 0H falsa

Aceitar 0H Decisão correcta 1 α−

Erro do tipo II β

Não aceitar 0H Erro do tipo I α

Decisão correcta 1 β−

As probabilidades de, num teste estatístico, cometer algum destes dois tipos de erros, são geralmente designadas por α e β , respectivamente:

( ) ( )0 0Pr Prerrodotipo I rejeitar H H verdadeiraα = =

( ) ( )0 0Pr Prerro dotipo II nao rejeitar H H falsaβ = = O erro do tipo I também se designa frequentemente por nível de significância ou “risco do vendedor”, na acepção de ser a probabilidade de não se vender o produto (rejeitar

0H ) quando este cumpre as condições estabelecidas no contrato ( 0H verdadeira); o erro do tipo II também se designa por “risco do comprador”, no sentido de ser a probabilidade que o comprador tem de adquirir um produto (aceitar 0H ) quando este não cumpre as especificações ( 0H falsa). Como atrás se referiu, num teste de hipóteses geralmente especifica-se à priori um valor para a probabilidade de cometer um erro do tipo I, e de seguida conduz-se o teste de

Page 6: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 6

modo a que se minimize a probabilidade de erro do tipo II, pelo menos para algum valor do parâmetro no qual o teste se baseia. Nota: está muito generalizada a utilização de alguns níveis de significância concretos, nomeadamente 5%α = (o mais usual). Nada obsta a que se utilize este nível de significância num teste de hipótese, mas deve alertar-se o leitor que este uso generalizado resulta do facto de, quando se começaram a desenvolver estas metodologias estatísticas (nos anos 1920), os meios de cálculo eram muito reduzidos, comparativamente aos actuais. A definição da região crítica do teste resulta da função de distribuição de probabilidades que a estatística de teste segue. O cálculo desta função de distribuição de probabilidades é bastante complexo, requerendo meios de cálculo automático, que não estavam disponíveis na época. Para contornar este obstáculo, os estatísticos de então tiveram de tabelar as funções de distribuição de probabilidades, para alguns valores de probabilidade, tendo-se então adoptado a regra de se usarem níveis de significância de 2.5%, 5% ou 10%. Com os actuais meios de cálculo disponíveis, qualquer programa estatístico calcula o nível de significância para o teste em análise (p-value), sendo mais óbvio usar este valor para a decisão do teste. A potência de um teste de hipóteses é a probabilidade:

0 01 Pr( )Power rejeitar H H falsaβ= − = Alguns programas estatísticos calculam os valores de β e a potência do teste 1 β− para valores específicos do parâmetro do teste (por exemplo a média), e apresentam um gráfico denominado curva característica de operação, com o valor do parâmetro do teste em abcissas e β em ordenadas, e um gráfico da potência do teste em que ao eixo das ordenadas representa o valor da potência. De seguida veremos alguns exemplos. Segundo o valor da estatística de teste, T , esteja mais ou menos próximo do calor crítico, ct , que define a região crítica, o grau de aceitação ou de rejeição de 0H será diferente. Entende-se por nível significância limite, probabilidade limite, p-value ou simplesmente p , à probabilidade de rejeitar 0H quando o valor crítico ct coincide com o valor da estatística de teste T . Isto é, p-value é a probabilidade de obter um valor da estatística de teste pelo menos tão extrema quanto a calculada, quando a hipótese nula é verdadeira. É o menor valor do nível de significância que permite a rejeição da hipótese nula. Assim:

Se p α> então aceita-se 0H como verdadeira; Se p α< então não se aceita 0H como verdadeira.

Note-se o paralelismo entre os testes de hipóteses e os intervalos de confiança: se a estatística de teste se situa dentro da região de aceitação, significa que não há evidência estatística, ao nível de significância α , para a rejeição da hipótese nula; isto equivale a que o parâmetro estatístico (por exemplo, a média) se situe dentro do intervalo de confiança 1 α− .

Page 7: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 7

4. Testes de hipóteses clássicos

4.1 Testes acerca da média de uma amostra Num teste de hipóteses de média constante pretende-se confirmar se a média µ (desconhecida) de uma população normal ( );µ σΝ toma um determinado valor constante 0µ , a partir da informação proporcionada pelos dados de uma amostra aleatória extraída dessa população. A estatística de teste é estabelecida entre a diferença do parâmetro a estimar (a média da amostra é um estimador da média populacional, ˆx µ= ) e o valor que se deseja contrastar ( 0µ ), dividida pelo erro padrão da média, isto é:

0

x

x µσ−

4.1.2 Caso 1: A variância da população é conhecida Embora o pressuposto de que seja conhecido o valor da variância da população 2σ seja raramente satisfeito, este caso é contudo um bom ponto de partida para a introdução aos testes de hipóteses sobre a média. A realização deste teste de hipóteses pressupõe a realização de uma amostra de tamanho N, para estimar o valor da média da população; pretende-se testar se esta estimativa é o verdadeiro valor da média da população, 0µ ; este teste de hipóteses terá uma das seguintes formulações: i) Teste bilateral: 0 0 1 0: :H Hµ µ µ µ= ≠ ii) Teste unilateral direito: 0 0 1 0: :H Hµ µ µ µ= > iii) Teste unilateral esquerdo: 0 0 1 0: :H Hµ µ µ µ= < Se a hipótese nula é válida, a estatística de teste segue uma distribuição normal de média zero e variância 1, isto é:

( )0 0 0;1)x

x xZ

N

µ µσσ

− −= = Ν∼

A região crítica é definida pela distribuição normal estandardizada, isto é, para um determinado valor de α , e de acordo com o tipo de teste (unilateral ou bilateral), os limites das zonas crítica e de aceitação são definidas pela curva da distribuição normal

Page 8: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 8

( )0,1Ν de modo a que a zona crítica defina uma probabilidade de α e a zona de aceitação defina uma probabilidade de 1 α− . Assim, para o teste bilateral, tendo fixado um nível de 5%α = , a acontecer erro de tipo I, este pode acontecer ou bem porque se rejeite 0H quando o valor da média amostral é muito superior à média populacional, ou bem porque se rejeite 0H quando o valor da média amostral é muito inferior à média populacional. Isto é, a região crítica é definida em ambas as caudas da curva da distribuição, o que significa que os valores da estatística de teste que levam à rejeição da hipótese nula devem estar mais afastados (em qualquer das extremidades) do valor médio da curva da distribuição normal ( )0,1Ν do que o valor crítico cZ tal que: ( )Pr 0.05cZ α> = =Z

( ) ( )Pr Pr 0.05c cZ Z α< − + > = =Z Z Como a curva da distribuição normal é simétrica, tem-se que:

( ) ( )Pr Pr 0.0252c cZ Z Z α< − = > = =Z

ou seja: ( )Pr 0.975cZ < =Z Nota: convém efectuar esta passagem, pois os programas estatísticos, bem como

algumas das tabelas da distribuição normal, apresentam os valores de função de distribuição cumulativa.

2,5% 2,5%

Page 9: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 9

O valor de cZ pode ser obtido de uma tabela da distribuição normal estandardizada, ou de qualquer programa informático que calcule a distribuição normal, nomeadamente a folha de cálculo Excel, com a função ( ). Pr; ;INV NORM µ σ :

Isto é, o valor crítico que define a região de rejeição e de aceitação da hipótese nula é o valor 1.96c =Z ; assim, se o valor da estatística de teste for superior (em valor absoluto) ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

Se 1.96cZ > =Z , então rejeitar 0H ;

Se 1.96cZ ≤ =Z , então não rejeitar 0H . Note-se que o intervalo de confiança 1 α− para a média, baseado na estimativa amostral da média ˆx µ= , e pressupondo que a variância 2σ é conhecida, é dado por:

97.5%

1,96

Page 10: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 10

[ ].

.

. ; .

xx

xN

x xN N

α

α

α α

µ σ

σµ

σ σµ

∈ ±

∈ ± ∈ − +

Z

Z

Z Z

Para grandes amostras ( 30N > ), mesmo que 2σ não seja conhecida, tendo de estimar-se pela variância amostral, a expressão anterior transforma-se em:

[ ].

.

. ; .

xx s

sxNs sx xN N

α

α

α α

µ

µ

µ

∈ ±

∈ ± ∈ − +

Z

Z

Z Z

Se o teste é unilateral, o erro do tipo I só poderá ocorrer numa das caudas da distribuição, isto é, a região crítica tem apenas uma das zonas da extremidade da distribuição, nomeadamente:

Se o valor da média amostral é muito maior que a média populacional em teste, a zona crítica é constituída pela cauda superior da distribuição; deve utilizar-se quando o investigador suspeita que a média amostral é maior que 0µ .

Se o valor da média amostral é muito menor que a média populacional em teste,

a zona crítica é constituída pela cauda inferior da distribuição; deve utilizar-se quando o investigador suspeita que a média amostral é menor que 0µ .

Assim, e ao contrário do que acontecia no teste bilateral, toda a probabilidade de ocorrer erro do tipo I se situa numa das caudas da distribuição: i) Teste unilateral direito: ( )Pr 0.05cZ α> = =Z Em termos de função cumulativa de probabilidades, esta probabilidade é

equivalente a:

( )Pr 0.95cZ < =Z

Page 11: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 11

Por consulta numa tabela da distribuição normal, ou com recurso a um programa estatístico, o valor crítico correspondente é 1.645c =Z :

Assim, se o valor da estatística de teste for superior ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

Se 1.645cZ > =Z , então rejeitar 0H ; Se 1.645cZ ≤ =Z , então não rejeitar 0H .

ii) Teste unilateral esquerdo: ( )Pr 0.05cZ α< − = =Z Como esta probabilidade se refere à cauda esquerda da distribuição, corresponde

à função cumulativa de probabilidades. Por consulta numa tabela da distribuição normal, ou com recurso a um programa estatístico, o valor crítico correspondente é 1.645c− = −Z :

95%

1.645

Page 12: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 12

Assim, se o valor da estatística de teste for inferior ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

Se 1.645cZ < − = −Z , então rejeitar 0H ; Se 1.645cZ ≥ − = −Z , então não rejeitar 0H .

Exemplo: Foi medida a concentração de monóxido de carbono (mg/m3) em diversos pontos de uma cidade, tendo-se obtido os seguintes valores: 10.25 10.37 10.66 10.47 10.56 10.22 10.44 10.38 10.63 10.40 10.39 10.26 10.32 10.35 10.54 10.33 10.48 10.68 Admitindo que o erro padrão da média é de 30.24 /x mg mσ = (de medições anteriores), pretende-se testar se se pode considerar que a concentração média de monóxido de carbono é de 10 mg/m3 (valor de referência de medições anteriores). O teste de hipóteses é o seguinte:

3 30 1: 10 / : 10 /H x mg m H x mg m= ≠

Como se admite conhecer o erro padrão da média da população ( 30.24 /x mg mσ = ), a estatística de teste é:

( )0 0,1x

xZ µσ−

= Ν∼

que segue uma distribuição normal estandardizada.

Page 13: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 13

Para um teste bilateral, como atrás se explicou, e para um nível de significância 5%α = , a região de aceitação da hipótese nula é 1.96Z ≤ e a região crítica é

1.96Z > .

Com base na amostra, estima-se a média amostral (

18

1 10.42918

iix

x == =∑

) que se pretende

comparar com a média de referência ( 30 10 /mg mµ = ), e de seguida calcula-se a

estatística de teste:

0 10.429 10 1.7880.24x

xZ µσ− −

= = =

Como ( ) ( )1.788 1.96cZ = < =Z , isto é, o valor da estatística de teste está dentro da região de aceitação, conclui-se que não há evidência estatística para rejeitar a hipótese nula, isto é, concluímos que se deve aceitar que a concentração média de monóxido de carbono, medida neste dia, não difere da concentração média de referência. O intervalo de confiança para a média da população, com base na média amostral, é dado por:

[ ][ ][ ]

.

10.429 1.96 .24

9.9586;10.8994

xx αµ σ

µ

µ

∈ ±

∈ ± ×

Z

A interpretação do intervalo de confiança é a seguinte: efectuando múltiplas amostragens desta população (isto é, efectuando múltiplas amostragens do teor de monóxido de carbono nesta cidade), e calculando a respectiva média, existe a probabilidade de 1 α− de as médias se situarem no interior deste intervalo. Como o valor de referência ( 0 10µ = ) fica dentro do intervalo, é estatisticamente verosímil que ocorra este valor como sendo o valor da média. Caso se pretendesse testar se neste dia a concentração média monóxido de carbono é superior à média de referência, efectuava-se o teste unilateral:

3 30 1: 10 / : 10 /H x mg m H x mg m= >

A estatística de teste tem a mesma distribuição de probabilidades e o mesmo valor. A única alteração a fazer, é a definição da região crítica, em que toda a probabilidade de erro ocorre na cauda superior da distribuição, como atrás se referiu. Para um nível de significância 5%α = , a região de aceitação da hipótese nula é 1.645Z ≤ e a região crítica ou de rejeição é 1.645Z > . Como a estatística de teste é Z=1.788, conclui-se que se deverá rejeitar a hipótese nula, ou seja, deve concluir-se que, aparentemente, neste dia a concentração de monóxido de carbono é superior ao valor médio de referência.

Page 14: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 14

Note-se que parece haver uma contradição na decisão tomada, conforme se opte por efectuar um teste bilateral ou um teste unilateral. Assim, é da responsabilidade do investigador decidir previamente os seus objectivos, de modo a evitar esta aparente ambiguidade da Estatística. Recordemo-nos que os testes de hipóteses, tal como todas as metodologias estatísticas, são meras ferramentas de apoio ao investigados, e não um substituto do investigador.

Cálculo da probabilidade limite Esta aparente ambiguidade pode ultrapassar-se se, em vez de fixar taxativamente e a priori, um nível de significância, optarmos por calcular a probabilidade limite, ou p-value, e em face deste valor, fazer a decisão. Aliás, qualquer programa estatístico apresenta este valor. Tal como definido atrás, a probabilidade limite representa a probabilidade de obter um valor da estatística de teste pelo menos tão extrema quanto a calculada, quando a hipótese nula é verdadeira. No fundo, representa a probabilidade de uma “região crítica” definida pelo valor da estatística de teste. Assim, o p-value é calculado com base no valor da estatística de teste e na função de distribuição de probabilidades que esta segue, colocando a região crítica nas zonas exteriores ao valor da estatística de teste.

Teste bilateral: ( )Prp value Z− = >Z

Teste unilateral direito: ( )Prp value Z− = >Z

Teste unilateral esquerdo: ( )Prp value Z− = < −Z em que Z representa o quantil da distribuição e Z é a estatística de teste. No exemplo anterior o valor da estatística de teste é 1.788Z = , e pelos pressupostos do teste, distribui-se segundo a normal estandardizada. A probabilidade limite é:

( ) ( )( ) ( )( ) ( )

[ ]

Pr Pr 1.788

Pr 1.788 Pr 1.788

Pr 1.788 1 Pr 1.788

0.0369 1 0.96310.0738

p value Z− = > = >

= < − + >

= < − + − < = + −

=

Z ZZ ZZ Z

Os valores das probabilidades são obtidos consultando uma tabela da distribuição normal estandardizada, ou usando qualquer programa que a calcule. Por exemplo, na folha de cálculo Excel, a função ( ).DIST NORMP Z dá a distribuição normal

acumulada, isto é ( )Pr Z < Z :

Page 15: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 15

Tratando-se de um teste bilateral, para obter a probabilidade limite deve multiplicar-se este valor por 2, sendo portanto 0.0738p value− = . Assim, pode dizer-se que, para um nível de significância de 5%α = , a hipótese nula não seria rejeitada; porém, seria rejeitada para 7.5%α = ou para 10%α = . No caso do teste unilateral direito, teríamos:

( ) ( )( )

Pr Pr 1.788

1 Pr 1.7881 0.96310.0369

p value Z− = > = >

= − <

= −=

Z ZZ

valor este que leva à rejeição da hipótese nula para qualquer nível de significância superior a 3.7%.

Cálculo da potência do teste A potência do teste é a probabilidade de um teste de hipóteses rejeitar a hipótese nula, quando ela é falsa:

0 01 Pr( )Power rejeitar H H falsaβ= − = sendo:

( ) ( )0 0Pr Prerro dotipo II nao rejeitar H H falsaβ = = O cálculo de 1 β− (potência) faz-se admitindo que a média tem outro valor 1µ , diferente de 0µ ; nesta situação, calcula-se a probabilidade de que a hipótese 0 0:H µ seja rejeitada se na realidade a média fosse 1µ . No exemplo anterior, seja o novo valor da média 1 9µ = .

Page 16: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 16

Com base no valor 0 10µ = , (e sendo 0.24xσ = , 0.05α = ), calculam-se os limites da

região de aceitação; para tal, a partir da expressão x

xZ µσ−

= obtêm-se os limites

críticos: .c xx Zµ σ= ± sendo 1.96Z = para 0.05α = . A região de aceitação da hipótese nula 0 0: 10H µ = é para valores de média no intervalo [ ]9.5296;10.4704µ∈ . De seguida, com base no novo valor presumido para a média, calcula-se a probabilidade de rejeição da hipótese nula se o valor da média fosse 1 9µ = :

( )( )

( ) ( )

0 0 1

1

1 Pr | , 9

Pr 9.5296 10.4704, 9

9.5296 9 10.4704 9Pr Pr0.24 0.24

Pr 2.2067 Pr 6.12670.9864

rejeitar H H Falsa com

ou com

Z Z

Z Z

β µ

µ µ µ

− = =

= < > =

− − = < + >

= < + >

=

D modo igual podemos calcular a potência do teste para outros valores presumidos para a média. Por exemplo, quando 1 9.5µ = :

( )( )

( ) ( )

0 0 1

1

1 Pr | , 9.5

Pr 9.5296 10.4704, 9.5

9.5296 9.5 10.4704 9.5Pr Pr0.24 0.24

Pr 0.1233 Pr 4.04330.5491

nao rejeitar H H Falsa com

ou com

Z Z

Z Z

β µ

µ µ µ

− = =

= < > =

− − = < + >

= < + >

=

Para 1 0 10µ µ= = :

( )( )

( ) ( )

0 0 1

1

1 Pr | , 10

Pr 9.5296 10.4704, 10

9.5296 10 10.4704 10Pr Pr0.24 0.24

Pr 1.96 Pr 1.960.025 0.0250.05

nao rejeitar H H Falsa com

ou com

Z Z

Z Z

β µ

µ µ µ

− = =

= < > =

− − = < + >

= < − + >

= +=

Page 17: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 17

Isto é, para o verdadeiro valor da média, a potência do teste 1 β− coincide com o nível de significância α do teste. Note-se que quanto mais afastado se encontra um valor da verdadeira média, mais potente é o teste, isto é, maior é a probabilidade de o teste rejeitar a hipótese nula, quando a hipótese nula é falsa. Diversos programas estatísticos calculam a potência do teste, para valores de médias afastados do verdadeiro valor. No caso do MINITAB, há que indicar qual o tamanho da amostra, o desvio padrão (σ ), e um ou diversos valores da diferença entre novos valores de média e o verdadeiro valor da média (por exemplo, nos dois exemplos anteriores, estas diferenças são de –1 e –0.5 respectivamente):

Os resultados são os seguintes:

Page 18: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 18

Notas: calcularam-se os valores da potência do teste para os seguintes valores de médias: 9, 9.25, 9.5, 9.75, 10, 10.25, 10.5 10.75, 1, que diferem da verdadeira média 0 10µ = respectivamente em –1, -0.75, -0.5, -0.25, 0, 0.25, 0.5, 0,75, 1. O valor do desvio padrão (sigma 1.01823σ = ) corresponde ao erro padrão da média 0.24xσ = , com N=18.

Alguns programas estatísticos apresentam o gráfico da potência do teste e/ou o gráfico da curva característica de operação. De seguida apresenta-se a curva de potência para um teste de hipóteses semelhante ao anterior, elaborado no programa STATGRAPHICS:

No MINITAB podem calcular-se os valores da potência do teste para diversos valores de diferenças 1 0µ µ− e levar esses valores para uma folha de cálculo, onde se calcula o valor de β e se realizam o gráfico da potência e a curva característica de operação:

Power Curve

True Mean

Pow

er

-0,48 -0,28 -0,08 0,12 0,32 0,520

0,2

0,4

0,6

0,8

1

Potê ncia

0

0,2

0,4

0,6

0,8

1

-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

µ1-µ0

Page 19: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 19

4.1.2 Caso 2: Variância Desconhecida ou Amostras de Pequenas Amostras

Tal como no caso anterior, realização deste teste de hipóteses pressupõe a realização de uma amostra de tamanho N, para estimar o valor da média da população; pretende-se testar se esta estimativa é o verdadeiro valor da média da população, 0µ . Esta é a situação mais realista, em que não se conhece a priori o valor da variância da população, mas em que terá de estimar-se (tal como a média) a partir da amostra. Para pequenas amostras, digamos 30N < , que é a situação mais frequente em testes de hipóteses nas áreas das Ciências Agrárias, normalmente não se conhece a variância da população, de modo que se deverá utilizar esta metodologia. A estimativa da variância é dada por:

2

12 2 2 2

1 1

1 1 .1 1

N

iN Ni

i ii i

xs x x N x

N N N=

= =

= − = − − −

∑∑ ∑

Este teste de hipóteses terá uma das seguintes formulações: i) Teste bilateral: 0 0 1 0: :H Hµ µ µ µ= ≠ ii) Teste unilateral direito: 0 0 1 0: :H Hµ µ µ µ= > iii) Teste unilateral esquerdo: 0 0 1 0: :H Hµ µ µ µ= < Se a hipótese nula é válida, a estatística de teste segue uma distribuição t-Student com

1N − graus de liberdade:

Curva caracte r ís tica de ope ração

0

0,2

0,4

0,6

0,8

1

-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

µ1-µ0

Page 20: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 20

( )0 0

; 1Nx

x xT tssN

αµ µ

− −= = ∼

A região de aceitação e a região crítica do teste são definidas pela distribuição t-Student, para um determinado nível de significância e para 1N − graus de liberdade. Esta distribuição tem uma forma muito aproximada à distribuição normal, tanto mais próxima da normal quanto maior for o tamanho da amostra. De um modo geral, para amostras de grande dimensão ( 30N > ), a curva da distribuição t-Student praticamente coincide com a curva da distribuição normal estandardizada, sendo praticamente iguais as probabilidades definidas pelas duas distribuições. Se a estatística de teste fica na região crítica do teste, deve rejeitar-se a hipótese nula; caso contrário, não há evidência estatística para rejeitar 0H . A decisão também pode ser feita pelo valor da probabilidade limite:

Se p α> então aceita-se 0H como verdadeira; Se p α< então não se aceita 0H como verdadeira.

Assim, para o teste bilateral, tendo fixado um nível de 5%α = : ( ); 1Pr 0.05NT tα α−> = =

( ) ( ); 1 ; 1Pr Pr 0.05N NT t T tα α α− −< − + > = = Como a curva da distribuição normal é simétrica, tem-se que:

( ) ( ); 1 ; 1Pr Pr 0.0252N NT t T tα αα

− −< − = > = =

O valor crítico de ; 1Ntα − pode ser obtido através da consulta de uma tabela da distribuição t-Student, ou usando um programa informático que calcule esta

2,5 2,5

-t t

Page 21: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 21

distribuição. Na folha de cálculo Excel, o valor ; 1Ntα − para uma situação de teste

bilateral é dada pela função ( ); 1INVT Nα − :

Isto é, para uma amostra de tamanho 18N = e para um nível de significância de

5%α = , a região de aceitação para um teste bilateral é [ ]2.11;2.11T ∈ − e a região

crítica é 2.11T > . Para pequenas amostras ( 30N < ), ou quando 2σ não é conhecida e tem de estimar-se pela variância amostral, o intervalo de confiança da média é:

( ) ( ) ( ) ( ); 1 ; 1 ; 1 ; 1. . . ; .xN N N Ns s sx t s x t x t x tN N Nα α α αµ − − − −

∈ ± = ± = − +

Tratando-se de um teste unilateral (por exemplo, esquerdo), temos:

( ); 1Pr 0.05NT tα α−< = =

t=-1.740

α=5%

Page 22: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 22

Para 18N = e 5%α = , ( )0.05;17 1.740t = − , sendo a região crítica 1.740T < − e a região de aceitação 1.740T > − . Nota: a função ( ); 1INVT Nα − dá o quantil da distribuição t-Student bilateral, isto é,

em que metade da probabilidade α se encontra na cauda esquerda (isto é, ( )Pr 2cT t α< − = ) e a outra metade na cauda superior ( ( )Pr 2cT t α> = ). Para

obter o quantil da distribuição unilateral, temos de simular uma situação em que toda a probabilidade que nos interessa está acima desse quantil; assim, para obter o quantil para 5%α = , na situação unilateral esquerda, temos que entrar com uma probabilidade de 10%; além disso, dá o quantil no lado positivo da distribuição; se se trata do teste unilateral direito, é este quantil que nos interessa; para o teste unilateral esquerdo, o interessa-nos o simétrico deste quantil:

Como se trata de um teste unilateral esquerdo, o valor crítico é ( ).05;17 1.740t = − . Exemplo: No exemplo anterior admitiu-se conhecido o erro padrão da média da população,

0.24xσ = , admissão esta que muitas vezes não é possível. A situação mais verosímil é que a variância tenha de ser estimada a partir dos dados da amostra. Com base nas 18 observações efectuadas, pretende-se testar se podemos aceitar a hipótese de que a concentração média de monóxido de carbono é de 3

0 10 /mg mµ = :

0 1: 10 : 10H x H x= ≠ A partir dos dados da amostra calculemos a média e o desvio padrão.

Page 23: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 23

18

1 10.42918

iix

x == =∑

2

212 2

1

1 1 187.731958.251 0.01951 17 18

N

iNi

ii

xs x

N N=

=

= − = − = −

∑∑

A estatística de teste é:

( ) ( )00 10.429 10 1813.034

0.0195x NxT s s

N

µµ − −−= = = =

O valor crítico da distribuição t-Student, para 18N = e para um nível de significância de 5%α = é ( )0.05;17 2.11t = a região de aceitação para um teste bilateral é

[ ]2.11;2.11T ∈ − e a região crítica é 2.11T > . Como o valor 13.034T = é nitidamente superior ao valor crítico, não nos restam dúvidas que se deverá rejeitar a hipótese nula. O intervalo de confiança 1 0.95α− = para a verdadeira média da população, com base na média da amostra é:

( )

( )

[ ]

; 1

; 1

.

.

0.019510.429 2.1118

10.3595;10.4985

xN

N

x t s

sx tN

α

α

µ

µ

µ

µ

∈ ± ∈ ±

∈ ± ×

Para proceder ao teste unilateral, basta comparar 13.034T = com o valor t crítico anteriormente calculado, ( )0.05;17 1.740t = . Não nos restam dúvidas que neste dia a concentração de monóxido de carbono é significativamente superior ao valor de referência 0 10µ = . O cálculo da probabilidade limite, p-value, é impraticável, a não ser com auxílio de um programa que calcule a distribuição t-Student.Os programas estatísticos calculam este valor. Trata-se de calcular:

( ) ( )( ) ( )

Pr Pr 13.034

Pr 13.034 Pr 14.034

p value t T t

t t

− = > = >

= < − + >

Page 24: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 24

A função ( ); 1;DISTT T N caudas− da folha de cálculo Excel calcula esta probabilidade (T é o valor da estatística de teste, para a qual se pretende calcular a probabilidade limite, e caudas representa se é um teste unilateral ou bilateral):

Isto é, a probabilidade de que, sendo verdadeira a hipótese nula, se tenha uma estatística de teste tão elevada quanto a obtida, é praticamente nula ( 2.81 10 0p value E− = − ≈ ).

Determinação do tamanho da amostra Uma questão frequente é “qual deve ser o tamanho da amostra para se obter uma determinada precisão?”. A resposta a esta questão está relacionada com o conceito de intervalo de confiança: um intervalo de confiança expressa a precisão de uma estatística amostral, sendo a precisão maior quando o intervalo de confiança é mais estreito, e isto consegue-se aumentando o tamanho da amostra. Retomemos a expressão do intervalo de confiança

( ) ( ) [ ]; 1 ; 1. .xN Nsx t s x t x dNα αµ − −

∈ ± = ± = ±

em que a parcela ( ); 1 .Nt sd

Nα −= representa a semiamplitude do intervalo de confiança.

Repare-se que d varia na razão inversa da raiz quadrada do tamanho da amostra: quanto maior for a amostra, menor será a amplitude do intervalo, logo maior será a precisão da média. A amplitude do intervalo varia directamente com a variabilidade da amostra, expressa pela sua variância; quanto maior for a variabilidade de uma população, maior deverá ser o tamanho da amostra a fim de que a estimativa da variância seja um estimador centrado (não enviezado).

Page 25: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 25

Para um valor de variância determinado, 2s , e para uma precisão fixada pela semiamplitude d , o tamanho da amostra pode ser estimado por:

( ) ( )2 2

; 1 ; 12

. .N Nt s t sN N

d dα α− −= ⇔ =

A expressão anterior pretende estimar o tamanho da amostra para atingir uma determinada precisão, em termos de amplitude do intervalo de confiança. Contudo, a questão da precisão do teste pode ser colocada em termos de probabilidades de cometer erros de tipo I e de tipo II: qual deverá ser o tamanho da amostra para que seja significativa a diferença 0 1δ µ µ= − entre a verdadeira média 0µ e uma média alternativa 1µ . A solução para esta questão prende-se com o conceito de potência do teste, já anteriormente abordada. O tamanho mínimo do teste para detectar diferença significativa em 0 1δ µ µ= − é:

( ) ( )( )2 2

; 1 ; 12 . N NsN t tα βδ − −= +

Os programas estatísticos, nomeadamente MINITAB, procedem à estimativa do tamanho da amostra por esta segunda expressão. Contudo, a estimação envolve um processo iterativo de cálculo, já que a variável a estimar N se encontra em ambos os lados da igualdade. Geralmente inicia-se o processo com um valor de N atribuído por palpite, ou então admitindo que se trata de uma grande amostra, em que a distribuição t-Student é muito aproximada à distribuição normal, e na primeira iteração usa-se o quantil αZ para a primeira estimação de N ; na segunda iteração (e seguintes), já é possível usar o quantil ( )*; 1N

tα −

, em que *N é o valor

de N da iteração anterior. O processo prossegue até que o valor estimado de N convirja. É este o algoritmo de estimação de N implementado nos programas estatísticos que estimam o tamanho da amostra (por exemplo, MINITAB). Exemplo: No exemplo anterior ( 210.429; 0.0195x s= = ), qual deverá ser o tamanho da amostra para que o intervalo de confiança 1 0.95α− = para a concentração média de monóxido de carbono não tenha uma amplitude superior a 0.1 mg/m3 (isto é, 0.05d = )? Vamos começar a estimação, admitindo a aproximação da distribuição t-Student pela distribuição normal estandardizada. Assim, para 0.05α = , 0.05 1.96=Z , e a primeira iteração vem:

2 2 2* 0.05

2 2

. 1.96 0.0195 300.05

sNd

×= = =Z

Page 26: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 26

Na segunda iteração já podemos usar a distribuição t-Student, sendo ( )0.05;29 2.045t = :

( )*2 2

20.05; 1*2 2

. 2.045 0.0195 320.05

Nt s

Nd

− ×= = =

Na iteração seguinte ( )0.05;31 2.040t = :

2*

2

2.040 0.0195 330.05

N ×= =

Na iteração seguinte ( )0.05;32 2.037t = :

2*

2

2.037 0.0195 330.05

N ×= =

O processo já convergiu para um valor constante, devendo ser o valor do tamanho da amostra pretendido 33N = . Se a questão fosse colocada nos seguintes termos: Qual o tamanho da amostra necessário para que seja significativamente diferente da média de referência

30 10 /mg mµ = uma média amostral de 310.1 /x mg m= (isto é, 0.1δ = ), para um nível

de significância 5%α = e uma potência 1 95%β− = ? Na primeira iteração usaremos os quantis da probabilidade normal estandardizada; assim, para 5%α = e 5%β = , 0.05 1.96=Z :

( ) ( )22 2*2 2

0.0195 1.96 1.96. 30

0.1sN α βδ

× += + = =Z Z

Para a segunda iteração já dispomos de uma estimativa de N que nos permite estimar os graus de liberdade e os quantis da distribuição t-Student ( )0.05;29 2.045t = :

Para a terceira iteração, ( )0.05;32 2.037t = :

O processo iterativo é razoavelmente rápido na convergência; no caso, convergiu após 3 iterações para uma estimativa do tamanho amostral 33N = .

( ) ( )( ) ( )22 2*

; 1 ; 12 2

0.0195 2.045 2.045. 33

0.1N NsN t tα βδ − −

× += + = =

( ) ( )( ) ( )22 2*

; 1 ; 12 2

0.0195 2.037 2.037. 33

0.1N NsN t tα βδ − −

× += + = =

Page 27: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 27

4.2 Comparação das médias de duas amostras independentes Um teste de hipóteses estatístico clássico em Ciências Agrárias consiste em comparar as médias de duas amostras, pressupostamente retiradas da mesma população com distribuição normal1. Seja a amostra A com AN indivíduos, cuja média é Ax e variância 2

As e a amostra B com

BN indivíduos, cuja média é Bx e variância 2Bs . Pretende-se efectuar o seguinte teste de

hipóteses (bilateral): 0 0 1 0: :A B A BH x x H x xδ δ= + ≠ + que é equivalente a: 0 0 1 0: :A B A BH x x H x xδ δ− = − ≠ em que 0δ é a diferença entre as médias das duas amostras. O mais habitual é pretender-se verificar se as duas médias são iguais, situação em que 0 0δ = , sendo então as expressões dos testes de hipóteses: 0 1: :A B A BH x x H x x= ≠ que é equivalente a: 0 1: 0 : 0A B A BH x x H x x− = − ≠ Os testes unilaterais possíveis são:

0 1: :A B A BH x x H x x= > , equivalente a 0 1: 0 : 0A B A BH x x H x x− = − > ou:

0 1: :A B A BH x x H x x= < , equivalente a 0 1: 0 : 0A B A BH x x H x x− = − < A estatística de teste é:

1 Se a população de onde as amostras foram retiradas viola o pressuposto da distribuição normal, a validade do teste pode estar comprometida. Nesta situação, é preferível efectuar um teste não paramétrico, que exige o pressuposto da distribuição normal.

Page 28: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 28

( ) 0

2 2

A B

A B

A B

x xT

s sN N

δ− −=

+

Como geralmente 0 0δ = :

( )2 2

A B

A B

A B

x xT

s sN N

−=

+

Esta estatística de teste segue uma distribuição t-Student, com um nível de significância α e gl graus de liberdade, conforme as variâncias das duas amostras são ou não homogéneas:

variâncias homogéneas: 2A Bgl N N= + −

variâncias não são homogéneas:

22 2

2 22 2

1 1

A B

A B

A B

A B

A B

s sN N

gls sN NN N

+

= +

− −

(fórmula de Welch)

No caso de as variâncias serem homogéneas, pode estimar-se a variância ponderada, comum às duas amostras pela expressão:

( ) ( )2 22 1 . 1 .

2A A B B

A B

N s N ss

N N− + −

=+ −

e nesta situação, a expressão da estatística de teste pode escrever-se:

( ) ( )2

1 11 1 ..

A B A B

A BA B

x x x xT

ss N NN N

− −= =

++

Assim, antes de efectuar o teste de comparação das duas médias, há que decidir previamente se as variâncias das duas amostras são ou não homogéneas.

4.2.1 Teste de homogeneidade de duas variâncias Para verificar se as variâncias de duas amostras são homogéneas, elabora-se o seguinte teste de razão de duas variâncias:

Page 29: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 29

2 2 2 20 1: :A B A BH s s H s s= ≠

que é equivalente a:

2 2

0 12 2: 1 : 1A A

B B

s sH Hs s

= ≠

A estatística de teste 2

2A

B

ss

segue uma distribuição ( ); 1; 1A BN Nα − −F .

O valor crítico da distribuição F para o nível de significância α e 1AN − e 1BN − graus de liberdade, pode ser obtido a partir de uma tabela desta distribuição ou usando um programa que a calcule. Na folha de cálculo Excel a função que dá este valor é a função

( ); 1; 1A AINVF N Nα − − :

Alguns programas estatísticos (MINITAB, SPSS) apresentam o teste de Levene para a homogeneidade das variâncias. O teste de Levene consiste em efectuar uma análise de variância simples aos valores absolutos dos desvios de cada observação para a mediana de cada uma das variáveis. A estatística de teste é um valor F, que segue uma distribuição F de Snedecor, com 1 e

1A BN N+ − graus de liberdade, isto é, ( );1; 1A Bteste N NF α + −∼ F .

4.2.2 Intervalo de confiança para a diferença de duas médias O intervalo de confiança para a diferença entre as médias de duas amostras é dado por:

( ) ( ) ( )

2 2

; . A BA B A B GL

A B

s sx x x x tN Nα

− ∈ − ± +

Page 30: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 30

No caso de as variâncias serem homogéneas, e sendo s a variância ponderada comum às duas amostras, a expressão para este intervalo é:

( ) ( ) ( ); 21 1. .

A BA B A B N NA B

x x x x t sN Nα + −

− ∈ − ± +

A analogia do intervalo de confiança para a diferença entre duas médias e o teste de comparação de duas médias é a seguinte: se o intervalo de confiança inclui o zero, significa que há a possibilidade 1 α− de que a diferença entre as duas médias seja nula, ou seja, que as duas médias sejam iguais.

4.2.3 Estimativa do tamanho das amostras Tal como no caso do teste de hipóteses de comparação de uma média amostral com a média populacional, também no caso do teste de hipóteses de comparação de duas médias amostrais, a estimativa do tamanho das amostras pode ser abordado em termos da precisão do teste traduzida pela semiamplitude do intervalo de confiança para a diferença das duas médias, ou em termos da precisão traduzida pela potência do teste. Se dispomos da semiamplitude do intervalo de confiança onde deverá situar-se a diferença entre as duas médias, o tamanho A BN N N= = de cada uma das duas amostras é dado por:

( )2 2

;2 22

2 Ns tN

dα −=

Pretendendo estimar o tamanho de cada uma das amostras em função da potência 1 β− do teste, a estimativa é dada por:

( ) ( )( )22

;2 2 ;2 2

2

2 N Ns t tN α β

δ− −+

=

em que 2s é a variância ponderada comum às duas amostras e 1 2δ µ µ= − é a diferença entre médias correspondente à potência 1 β− do teste. É preferível delinear os ensaios com tamanhos iguais, isto é, A BN N= , porém esta prática pode ser impraticável em determinadas situações. Se, por qualquer motivo, uma das amostras estiver restringida ao tamanho 1N , então a outra amostra deverá ter o tamanho:

12

1

.2N NNN N

=−

Exemplo

Page 31: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 31

Num ensaio de nutrição em suínos, pretende-se estudar o efeito da suplementação com vitamina B12. Dois lotes de 8 leitões cada, com peso vivo aproximado de 30 kg, e nas mesmas condições de crescimento, com o mesmo tipo de alimentação, etc, foram colocados em teste, um dos lotes com suplementação com B12 e o outro sem vitamina B12. Os aumentos médios de peso diário, durante a duração do ensaio, foram os seguintes (em libras): Com B12 1.60 1.68 1.75 1.64 1.75 1.79 1.78 1.77 Sem B12 1.56 1.52 1.52 1.49 1.59 1.56 1.60 1.56 Pretende-se verificar se a suplementação com vitamina B12 tem ou não algum efeito no aumento médio diário de peso. O teste de hipóteses subjacente é: 0 12 12 0 12 12: :comB semB comB semBH x x H x x= ≠ A média e a variância de cada um dos lotes são: Lote com suplemento de vitamina B12: 1.72Ax = 2 0.0050As = Lote sem suplemento de vitamina B12: 1.55Bx = 2 0.0014As = Antes de se proceder ao teste de comparação das duas médias, deve efectuar-se um teste para verificar se as duas variâncias são ou não homogéneas, isto é:

2 2 2 20 1: :A B A BH s s H s s= ≠

A estatística de teste é:

2

2

0.0050 3.57140.0014

Ateste

B

sFs

= = =

Para um nível de significância de 5%α = , o valor crítico da distribuição F de Snedecor é ( )0.05;7;7 3.787=F ; como ( )0.05;7;73.5714 3.787testeF = < =F , deve concluir-se que as variâncias dos dois lotes são homogéneas. O valor da probabilidade limite para este teste de homogeneidade de variâncias pode obter-se de uma tabela da distribuição F de Snedecor, para ( );7;7 3.5714testeF = ; a função

( ); 1; 2F gl glDISTF permite-nos calcular esta probabilidade limite:

Page 32: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 32

Como 0.057 0.05p value α− = > = , para este nível de significância (5%) devem considerar-se as variâncias homogéneas. O teste de Levene para estas duas amostras dá um valor de estatística de teste

( )0.05;1;151.406 4.54testeF = < =F , com 0.256p value− = , que conduzem à mesma conclusão de considerar as duas variâncias homogéneas. Tendo concluído que as variâncias são homogéneas, passamos de seguida ao teste de comparação das duas médias (objectivo primário do ensaio). A variância ponderada comum aos dois lotes é:

( ) ( )2 22 1 . 1 . 7 0.0050 7 0.0014 0.0032

2 14A A B B

A B

N s N ss

N N− + − × + ×

= = =+ −

A estatística de teste é:

( ) ( ) ( )2

1.72 1.556.01

1 1 1 11 1 . 0.0032. 8 8

A B A B

A BA B

x x x xT

ss N NN N

− − −= = = =

+ × ++

Para um nível de significância de 5%α = , e como as variâncias são homogéneas, para

2 14A BN N+ − = graus de liberdade, o valor crítico da distribuição t-Student é

( )0.05;14 2.145t = , deve rejeitar-se a hipótese nula, e concluir que a suplementação com vitamina B12 provoca um aumento médio diário de peso superior.

Page 33: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 33

A mesma conclusão se obteria se se calculasse o valor da probabilidade limite, para este valor da estatística de teste ( 0.0000p value− = ). O intervalo de confiança para a diferença entre as duas médias é:

( ) ( ) ( )

( ) ( )

( ) [ ]

; 21 1. .

1 11.72 1.55 2.145 0.00328 8

0.1093;0.2307

A BA B A B N NA B

A B

A B

x x x x t sN N

x x

x x

α + −

− ∈ − ± +

− ∈ − ± × × +

− ∈

Qual deveria ser o tamanho de cada uma das duas amostras para que, para um nível de significância 5%α = e uma potência 1 95%β− = dê como significativa a diferença de

0.1A Bx x kgδ = − = ? Tratando-se de um processo iterativo, vamos usar na primeira iteração os quantis da distribuição normal estandardizada, isto é, 0.05 1.96α β= = =Z Z Z :

( ) ( )2 22

*2 2

2 2 0.0032 1.96 1.9610

0.1s

N α β

δ+ × × +

= = =Z Z

Para a segunda iteração já usamos os quantis da distribuição t-Student: ( )0.05;18 2.101t = :

( ) ( )( ) ( )2

2 2;2 2 ;2 2*

2 2

2 2 0.0032 2.101 2.10112

0.1N Ns t t

N α β

δ− −+ × × +

= = =

Na terceira iteração, ( )0.05;22 2.074t = :

Page 34: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 34

( ) ( )( ) ( )2

2 2;2 2 ;2 2*

2 2

2 2 0.0032 2.074 2.07412

0.1N Ns t t

N α β

δ− −+ × × +

= = =

Assim, cada um dos dois lotes deveria ter 12 animais.

Violação dos pressupostos do teste t-Student O teste t-Student para comparar as médias de duas amostras assume que ambas as amostras provêm de uma população normal, com a variância homogénea. Contudo, nem sempre tais pressupostos se cumprem. Porém, diversos trabalhos demostram que o teste t-Student é bastante robusto para resistir às violações destes pressupostos, especialmente se os tamanhos das amostras são iguais, e especialmente se se trata de um teste bilateral. Quanto maiores forem as amostras, mais robusto é o teste. Se a população é nitidamente assimétrica, deve evitar-se efectuar o teste unilateral. Se a não normalidade é acentuada, é preferível efectuar um teste não paramétrico. Se as variâncias não são homogéneas, e com tamanhos amostrais iguais, a probabilidade de cometer um erro do tipo I tende a ser maior que o nível de significância α estabelecido. Nesta situação, se os tamanhos amostrais não são iguais, e se a maior variância está associada à amostra de maior tamanho, a probabilidade de erro do tipo I é inferior a α , mas se a maior variância provém da amostra de menor dimensão, então a probabilidade de erro de tipo I é maior que α . Para ultrapassar esta limitação associada à não homogeneidade das variâncias, já anteriormente se apresentou a correcção da estimativa dos graus de liberdade associados à estatística de teste (fórmula de Welsh).

4.3 Comparação das médias de duas amostras emparelhadas O teste de comparação das médias anteriormente apresentado aplica-se quando as duas amostras são independentes, significando esta independência que cada indivíduo ou unidade experimental de uma das amostras não está de algum modo associado com qualquer outro indivíduo da outra amostra. Existem situações em que cada uma das observações de uma das amostras está associada e correlacionada com uma observação na segunda amostra, de modo que os dados de ambas as amostras aparecem aos pares, uma observação de cada amostra. A situação típica destes pares de observações ocorrem, por exemplo, quando cada um dos indivíduos pertence, em tempo diferente, a ambas as amostras: em cada um dos indivíduos são efectuadas duas amostragens, por exemplo, uma antes de um determinado tratamento, e a outra após esse mesmo indivíduo ter sido sujeito a determinado tratamento. Outra situação de amostras emparelhadas é o caso de medições antropomórficas, em que em cada indivíduo (pessoa) são medidos os comprimentos do braço direito (uma amostra) e do braço esquerdo (outra amostra).

Page 35: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 35

Nota: nas situações frequentes de pares do tipo casal (marido, mulher), sexo (masculino, feminino), as medições das duas amostragens não são efectuadas no mesmo indivíduo ou unidade estatística, de modo que não devem ser consideradas amostras emparelhadas.

As amostras emparelhadas são frequentes em áreas de Ciências da Saúde e de Biologia, em que cada um dos indivíduos é observado duas vezes, antes e após um determinado tratamento. Ensaios deste tipo também são frequentes em determinadas áreas de Zootecnia, num paralelismo evidente com as ciências médicas. Em áreas de Ciências Agrárias também é possível delinear ensaios em amostras emparelhadas, como por exemplo comparar a produção de material forrageiro entre dois cortes sucessivos de uma cultura pretense de cortes múltiplos, em que se mantêm todos os restantes factores de produção constantes entre os cortes. Implícito a este tipo de delineamento experimental está o facto de que ambas as amostras têm o mesmo tamanho (N ), já que ambas as amostras são efectuadas exactamente com as mesmas unidades experimentais. Seja a amostra A cuja média é 1x e variância é 2

1s e a amostra B cuja média é 2x e variância 2

2s . Em cada uma das amostras foram registadasN observações. Pretende-se efectuar o seguinte teste de hipóteses (bilateral): 0 1 2 0 1 1 2 0: :H x x H x xδ δ= + ≠ + Como já anteriormente referido, geralmente pretende-se verificar se as duas médias são estatisticamente iguais, pelo que se tem 0 0δ = . Este teste de hipóteses pressupõe que as diferenças 1 2j j jd x x= − têm uma distribuição normal (em que 1 jx é cada um dos N indivíduos da amostra A e 2 jx é cada um dos N indivíduos da amostra B). Assim, o anterior teste de hipóteses deve especificar-se preferivelmente como:

1 2 1 20 0: 0 : 0x x x xH x H x− −= ≠ em que

1 2x xx − é a média e ds é o desvio padrão das diferenças entre os pares de observações 1 2j j jd x x= − . A estatística de teste é:

( )1 2

; 1x x

Nd

xT ts

N

α−

−= ∼

Page 36: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 36

O valor crítico do teste e as respectivas região de aceitação e região crítica são definidas como habitualmente, tendo em conta que existem 1N − graus de liberdade. O intervalo de confiança 1 α− para a média das diferenças dos pares de observações é:

( ) ( )1 2 1 2 1 21 2; 1 ; 1. .x x

dx x x x x x xa N a N

sx x t s x tN−− − −− −

∈ ± = ±

Exemplo: O processo de cura de presunto inclui a imersão da peça numa solução de ácido sórbico. Numa fábrica de presunto registaram-se os resíduos de ácido sórbico, em partes por milhão, em 8 peças de presunto imediatamente depois de estas serem imersas na solução, e depois de 60 dias de cura:

Resíduos de ácido sórbico Peça Antes da cura Após 60 dias de cura

1 224 116 2 270 96 3 400 239 4 444 329 5 590 437 6 660 597 7 1400 689 8 680 576

A média das diferenças entre as observações das duas amostras é

1 2198.625x xx − = e o

desvio padrão das diferenças é 210.1652ds = , sendo o erro padrão da média das

diferenças 1 2

210.1652 74.30468x x

dx

ssN−

= = = . Assim, a estatística de teste é:

1 2 198.625 2.6731

74.3046x x

d

xT s

N

−= = =

Para um nível crítico de 5%α = e 7 graus de liberdade, a região de crítica é 2.365T > ; a probabilidade limite é 0.032p value− = , donde se deve concluir que a média das diferenças é estatisticamente diferente de zero, ou seja, existem diferenças significativas no teor de ácido ascórbico entre as amostras antes da cura e após a cura. O intervalo de confiança 1 α− para a média das diferenças dos pares de observações é:

Page 37: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 37

( )

[ ]

1 2 1 2

1 2

1 2

; 1 .

210.1652198.625 2.3658

22.8968;374.3532

dx x x x a N

x x

x x

sx x tN

x

x

− − −

∈ ± ∈ ± ×

4.4 Comparação de duas proporções Consideremos que de uma população se retiram duas amostras de dois tipos distintos, de tamanhos AN e BN respectivamente. Em cada uma destas amostras existem respectivamente An e Bn indivíduos com determinada característica de interesse. As proporções amostrais de cada um dos tipos são respectivamente:

;A BA B

N Np pN N

= =

que, sob o pressuposto de as amostras serem de grande dimensão, se distribuem de uma forma aproximadamente normal. Pretende-se testar se as duas proporções são iguais: 0 1: :A B A BH p p H p p= ≠ que é equivalente a: 0 1: 0 : 0A B A BH p p H p p− = − ≠ A estatística de teste é:

( ) ( )

3 3

. .

A B

A B

A A A B B B

A B

n nN NZ

n N n n N nN N

−=

− −+

que, sob o pressuposto de as amostras serem de grande dimensão, segue uma distribuição normal estandardizada ( )0;1Ν . A região crítica e a região de aceitação são definidas do modo habitual. O intervalo de confiança 1 α− para a diferença entre duas proporções é:

Page 38: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 38

( ) ( )3 3

. .. A A A B B BA B A B

A B A B A B

n N n n N nn n n nN N N N N Nα

− − − ∈ − ± +

Z

Exemplo: Uma adega cooperativa dispõe de duas linhas de engarrafamento, de concepção diferente, que enchem garrafas com a capacidade de 1 litro. Num processo de controlo de qualidade, recolheram-se uma amostra de cada uma das linhas, cada uma de 100 garrafas, cuja capacidade foi rigorosamente medida. Na amostra A registaram-se 8 garrafas com capacidade inferior a 95 cl, e na amostra B registaram-se 2 garrafas com capacidade inferior a 95 cl. Pretende-se verificar se as proporções das garrafas com capacidade abaixo da admitida é idêntica em ambas as linhas. 0 1: :A B A BH p p H p p= ≠ As proporções de garrafas deficientemente cheias são 0.08Ap = e 0.02Bp = . A estatística de teste é:

( ) ( ) ( ) ( )3 3 3 3

0.08 0.02 1.965. . 8. 100 8 2. 100 2

100 100

A B

A B

A A A B B B

A B

n nN NZ

n N n n N nN N

−−

= = =− − − −

+ +

Para um nível de significância 5%α = , a região crítica é 1.96Z > , devendo rejeitar-se a hipótese nula. Note-se que a estatística de teste está muito próximo do limite crítico entre a rejeição e não rejeição da hipótese nula, sendo preferível calcular a probabilidade limite:

( ) ( )Pr Pr 1.965 0.0494p value Z− = > = > =Z Z O intervalo de confiança 1 α− para a diferença entre duas proporções é:

Page 39: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 39

( ) ( )

( ) ( ) ( )

[ ]

3 3

3 3

. ..

8. 100 8 2. 100 20.08 0.02 1.96

100 100

0.0002;0.1198

A A A B B BA B A B

A B A B A B

A B

A B

A B

A B

n N n n N nn n n nN N N N N N

n nN N

n nN N

α

− − − ∈ − ± +

− −

− ∈ − ± × +

− ∈

Z

Page 40: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 40

Exercícios propostos 1 – Num estudo realizado numa zona rural de um país em desenvolvimento, estudou-se uma amostra de 500 indivíduos, tendo-se obtido uma média de consumo de calorias de 1985 calorias/dia e com um desvio padrão de 210 calorias/dia. Verifique se se pode concluir que o consumo de calorias não difere de 2000 calorias/dia. 2 – Num laboratório químico pretende-se aferir o grau de precisão de um operador, na determinação do pH. Assim, esse operador fez 10 determinações de pH em amostras de água pura e neutra (ph=7.0). Os resultados foram os seguintes: 7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08 Verifique a precisão do operador. 3 – Um viveiro cultiva rosas da mesma variedade em diversas parcelas. Numa das parcelas usa-se um fertilizante orgânico e em outra usa-se um fertilizante mineral (com os mesmos teores de macro e mico-nutrientes principais). Para estudar o efeito do tipo de fertilizante no comprimento das rosas, foi colhida uma amostra aleatória de 20 rosas em cada uma das parcelas, sendo os resultados os seguintes:

- Amostra com fertilizante orgânico: 1 102x mm= ; desvio padrão: 1 45s mm= ; - Amostra com fertilizante mineral: 1 95x mm= ; desvio padrão: 1 40s mm= ;

Verifique se o lote de rosas proveniente da parcela com fertilizante orgânico tem um comprimento médio de a 10 mm em relação ao lote de rosas da parcela com fertilizante mineral. 4 - Uma amostra aleatória, proveniente de uma população normal, de 1 25n = indivíduos, tem média 1 81x = e desvio padrão 1 5.2s = . A amostra 2, proveniente da mesma população, tem 2 36n = indivíduos, tem média 2 76x = e desvio padrão 2 3.4s = . Verifique se se podem considerar as duas médias iguais. 5 – O Departamento de Zoologia de uma Universidade leva a cabo um estudo para determinar se existe diferença significativa na densidade de organismos vivos entre duas estações de controle de efluentes de um rio.

Estação 1 Estação 2 5030 4980 2800 2810

13700 11910 4670 133010730 8130 6890 1450011400 26850 7720 3320

860 17660 7030 12302200 22800 12540 21304250 1130 7330 2190

15040 1690 9650 8750

Page 41: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 41

Verifique se a densidade de organismos estatisticamente diferente entre as duas estações. 6 – Pretende-se aferir um método químico de detecção de óxidos de ferro em solos agrícolas, por comparação com um método baseado em raios X. Assim, recolheram-se 5 amostras de solos agrícolas, e em cada uma analisou-se o teor em óxido de ferro: Amostra 1 2 3 4 5 Raios X 2.0 2.0 2.3 2.1 2.4 Químico 2.2 1.9 2.5 2.3 2.4 Verifique se o processo químico dá resultados idênticos ao processo radiológico. 7 – Doze pessoas participaram num ensaio clínico para estudar o efeito de uma determinada dieta na redução do teor de colesterol no sangue:

Teor de colesterol no sangue Indivíduo Antes da dieta Após período a dieta 1 201 200 2 231 236 3 221 216 4 260 233 5 228 224 6 237 216 7 326 296 8 235 195 9 240 207 10 267 247 11 284 210 12 201 209

Verifique a eficácia da dieta sobre o teor de colesterol. 8 - Efectuou-se uma ensaio com o objectivo de comparar 5 insecticidas, designados por A, B, C, D, E. Os insecticidas A e B são sistémicos; C, D e E não são sistémicos. Cada um dos insecticidas foi usado em talhões de 10 m² de tomateiros. Os resultados constam da produção (kg de tomate) em cada um dos canteiros. Devido a causas acidentais imprevistas ocorridas no decurso do ensaio, o investigador teve de eliminar um dos canteiros tratados com o insecticida A e com E e dois canteiros tratados com o insecticida D. Elabore a análise de variância, e decida: a) se os insecticidas têm efeitos diferentes na produção; b) se os insecticidas sistémicos conduzem, em média, a melhores produções.

A B C D E 4.7 4.8 4.9 4.9 5.0 4.8 5.2 4.7 4.6 4.6 5.1 4.9 4.8 4.7 4.8 5.0 5.1 4.7 4.5 4.6 5.2 5.0 4.6 4.8 4.6

Page 42: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 42

9 – Num ensaio de alimentação de suínos pretende-se comparar os ganhos médios de peso, em função de três regimes alimentares. Para tal, 3 lotes de 5 porcos foram alimentados com cada um dos regimes alimentares. Os ganhos de peso semanais foram: Regime A 3.04 7.35 6.08 4.90 6.44 B 6.03 6.89 9.16 4.49 8.89 C 3.72 7.39 6.26 7.17 6.53 Elabore a análise de variância e tire conclusões quanto aos ganhos de peso obtidos com cada um dos regimes alimentares 10 – O tratamento de bolbos e tubérculos com uma radiação ionizante é um dos métodos anti-abrolhantes de conservação de bolbos. Num ensaio, uma amostra de 180 bolbos de alho foram submetidos a radiação, tendo-se observado que passados 240 dias não apresentavam sintomas de abrolhamento. Na amostra testemunha, dos 180 bolbos, 119 não apresentavam sintomas de abrolhamento passados 240 dias. Haverá evidência estatística para considerar a radiação como um método eficaz de anti-abrolhamento? 11 – Numa sondagem de segurança rodoviária, observou-se que dos 300 residentes em áreas urbanas, 63 eram a favor do aumento do limite de velocidade urbana de 50 para 60 km/hora; dos 180 inquiridos residentes em áreas rurais, 75 eram a favor do aumento do limite de velocidade. Verifique se estes dados indicam que o sentimento em relação ao aumento do limite de velocidade urbana depende do ambiente em que se vive.

Page 43: Testes de Hipoteses

Testes de hipóteses

IPCB 2005/2006 43

Bibliografia Daniel, Wayne W. (1995) Bioestadística. Base para el análisis de las ciencias de la

salud. Editorial Limusa, México. Devore, Jay L. (2000) Probability and Statistics for engineering and the sciences.

Duxbury, Australia. Guimarães, Rui Campos; Cabral, José A. Sarsfield (1997) Estatística. McGraw-Hill,

Portugal. Hicks, Charles R. e Turner Jr., Kenneth V. (1999) Fundamental concepts in the design

of experiments. Fifth edition. Oxford University Press, USA. Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition.

John Wiley and Sons, USA. Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh

edition. Iowa State University Press, USA. Walpone, Ronald E. (1999) Probabilidad y Estadística para ingenieros. Sexta edición.

Prentice Hall, México. Zar, Jerrold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.