58
ANÁLISE DA VARIÂNCIA

aula_parte10_analise_da_variancia ANOVA

Embed Size (px)

Citation preview

Page 1: aula_parte10_analise_da_variancia ANOVA

ANÁLISE DA VARIÂNCIA

Page 2: aula_parte10_analise_da_variancia ANOVA

Conhecemos os testes de hipóteses referentes à média de uma população, para a diferença entre médias de duas populações e a comparação de variâncias de duas populações.

Agora, o procedimento de teste de hipóteses será utilizado para comparar as médias de mais de duas populações.

Embora o nome não mostre o objetivo real do procedimento, a análise da variância ou ANOVA é um teste de hipóteses de médias de duas ou mais populações procedimento muito útil para comparar.

Page 3: aula_parte10_analise_da_variancia ANOVA

Por exemplo: A eficiência de diversas marcas de remédios para o

tratamento de uma mesma doença, o controle de pressão alta.

O consumo em km/litro de um modelo de carro abastecido com combustíveis do mesmo tipo, porém de marcas diferentes.

A eficiência de uma lavoura tratada com diferentes fertilizantes.

O tempo de reação de uma pessoa em função de estímulo de luz de quatro cores diferentes.

Page 4: aula_parte10_analise_da_variancia ANOVA

Introdução

Na planilha do slide seguinte foram registrados dois grupos com três amostras cada um, A-B-C e D-E-F.

Em cada grupo, as três amostras aleatórias independentes de tamanho n=5 foram retiradas de três populações com distribuição normal e variâncias iguais.

Nas duas últimas linhas da tabela foram registradas as medidas estatísticas das seis amostras (média e desvio padrão.

Com o objetivo de analisar as médias e os desvios padrão dos dois grupos de amostras também foram construídos os histogramas das amostras de cada grupo.

Page 5: aula_parte10_analise_da_variancia ANOVA
Page 6: aula_parte10_analise_da_variancia ANOVA

Primeiro grupo, amostras A, B e C. As três amostras têm o mesmo desvio padrão, a diferença entre

suas médias é igual a dois e ainda: A diferença entre as médias das três amostras A, B e C

corresponde a 0,94 desvios padrão das amostras. Dessa maneira, a média da amostra B está contida no

intervalo de 0,94 desvios padrão ao redor da média da amostra A e da amostra C.

A diferença entre as médias das amostras A e B, e também das amostras B e C, é pequena considerando a dispersão dos valores dessas amostras, como se pode ver no histograma correspondente.

Page 7: aula_parte10_analise_da_variancia ANOVA

Primeiro grupo, amostras A, B e C, continuação Portanto, apesar de ter retirado as amostras de três populações

com a mesma média, não se pode esperar que as médias das três amostras sejam iguais.

Ao mesmo tempo, a diferença entre as três médias é apenas conseqüência da variação amostral?

Como há uma grande variabilidade nos valores de cada amostra, os resultados deste grupo mostram evidências de que as médias das três populações não sejam diferentes.

Page 8: aula_parte10_analise_da_variancia ANOVA

Segundo grupo, amostras D, E e F. As três amostras têm o mesmo desvio padrão, a diferença entre

suas médias é igual a três e ainda: As médias dessas três amostras do segundo grupo são

diferentes das médias das amostras do primeiro grupo, porém a diferença entre elas é constante e os desvios padrão são menores.

A diferença entre as médias das três amostras D, E e F corresponde a 4,22 desvios padrão das amostras.

Dessa maneira, a média da amostra E não está incluída no intervalo de três desvios padrão ao redor da média das outras duas amostras, como se poder ver no histograma correspondente.

A diferença entre as médias das amostras D e E, e também das amostras E e F, é grande considerando a dispersão dos valores dessas amostras.

Page 9: aula_parte10_analise_da_variancia ANOVA

Segundo grupo, amostras D, E e F, continuação Da mesma forma que no grupo anterior, não se pode esperar que

as médias das três amostras sejam iguais, apesar de ter retirado as amostras de três populações com a mesma média.

A diferença entre as três médias é apenas conseqüência da variação amostral?

Como não há grande variabilidade nos valores de cada amostra, os resultados deste grupo mostram evidências de que as médias das três populações sejam diferentes.

Page 10: aula_parte10_analise_da_variancia ANOVA

Conceituação da Anova O objetivo da análise de variância é avaliar se as diferenças

observadas entre as médias das amostras são estatisticamente significantes.

Como já foi mostrado em outras ocasiões, esse objetivo pode ser colocado de outra maneira: uma variação de médias das amostras pode ser conseqüência da variação amostral ou é uma boa evidência da diferença entre as médias das populações?

Page 11: aula_parte10_analise_da_variancia ANOVA

A variabilidade total das amostras pode ser dividida em duas partes, ou fontes de variabilidade. A primeira parte de variabilidade é proveniente de as

populações serem diferentes, denominada variabilidade entre. Quanto maior for a variabilidade entre, mais forte é a

evidência de as médias das populações serem diferentes.

A segunda parte de variabilidade é causada pelas diferenças dentro de cada amostra, denominada variabilidade dentro. Quanto maior for a variabilidade dentro, maior será a

dificuldade para concluir se as médias das populações são diferentes.

Page 12: aula_parte10_analise_da_variancia ANOVA

Premissas da Anova

As populações têm a mesma variância.

As amostras são retiradas de populações com distribuição normal.

As amostras são aleatórias e independentes.

Page 13: aula_parte10_analise_da_variancia ANOVA

TH da Anova A classificação dos testes de análise da variância é de acordo

com o número de fatores de interesse ou que influem na variável dependente. Por exemplo, na verificação da eficiência do crescimento

de uma lavoura tratada com quatro tipos de fertilizantes, cada um dos fertilizantes é um fator.

Da mesma maneira, na comparação do consumo de carros abastecidos com o mesmo tipo de combustível, porém de três marcas diferentes, cada marca de combustível é um fator.

Page 14: aula_parte10_analise_da_variancia ANOVA

Por que é denominada análise da variância o procedimento que compara médias de grupos diferentes?

Por que na preparação das variabilidades entre e dentro são utilizados os quadrados dos desvios dos valores das amostras, que fazem parte da definição da variância.

Page 15: aula_parte10_analise_da_variancia ANOVA

De maneira formal, o teste de hipóteses para k níveis de um fator é estabelecido da seguinte forma.

H0: 1 = 2 = 3 ... = n

H1: Nem todas as populações têm a mesma média

A distribuição F conduzirá a decisão de aceitar o rejeitar a hipótese nula, comparando o F observado Fo calculado com a expressão:

com o F crítico Fc correspondente ao nível de significância adotado. Também podem ser comparados o p-value de Fo e o nível de significância .

2

2

w

bo

S

Sdentro Variânciaentre Variância

F

Page 16: aula_parte10_analise_da_variancia ANOVA

Exemplo De três populações normais com variâncias iguais foram

retiradas três amostras aleatórias independentes, como mostra a planilha seguinte.

Calcular o F observado Fo.

Solução O procedimento de cálculo do F observado Fo é apresentado a

seguir, considerando que k é o número de amostras ou tratamentos, e nk é o tamanho ou número de valores de cada amostra.

Page 17: aula_parte10_analise_da_variancia ANOVA
Page 18: aula_parte10_analise_da_variancia ANOVA
Page 19: aula_parte10_analise_da_variancia ANOVA
Page 20: aula_parte10_analise_da_variancia ANOVA
Page 21: aula_parte10_analise_da_variancia ANOVA
Page 22: aula_parte10_analise_da_variancia ANOVA

O F observado mede a variabilidade entre por unidade de variabilidade dentro, ou quantas vezes a variabilidade das médias das amostras é maior que a variabilidade amostral. O resultado deste exemplo mostra que a variabilidade entre

os grupos é 3,79 vezes maior que a variabilidade das amostras.

O resultado do F observado Fo=3,79 permite afirmar que as populações são diferentes? Dependerá da comparação do F observado Fo com o F

crítico Fc correspondente ao nível de significância adotado.

Ou comparando o p-value com o nível de significância.

Page 23: aula_parte10_analise_da_variancia ANOVA
Page 24: aula_parte10_analise_da_variancia ANOVA

ExemploContinuando com o Exemplo anterior:Verificar se as médias das três populações são iguais considerando

o nível de significância de 5%.

Solução No Exemplo anterior foi obtido o F observado Fo=3,79 com os

graus de liberdade: Do numerador:

Do denominador:

21311 k

12354612 knnkn kT

Page 25: aula_parte10_analise_da_variancia ANOVA

O resultado do teste de hipóteses pode ser realizado de duas formas diferentes, obtendo a mesma conclusão de aceitar a hipótese nula: Comparando o F observado Fo=3,79 já determinado com o F

crítico a ser determinado. Para o nível de significância 5% o Fc=3,8853 foi obtido

com a função estatística INVF registrando a fórmula =INVF(0,05;2;12).

Como o valor observado Fo=3,79 é menor que o valor crítico Fc=3,8853, a hipótese nula deve ser aceita, pois as médias das amostras não são significativamente diferentes entre si.

Page 26: aula_parte10_analise_da_variancia ANOVA

Comparando o p-value a determinar com o nível de significância de 5%. O p-value igual a 0,053 se refere à probabilidade

P(F3,79), cujo resultado foi obtido com a função estatística DISTF registrando a fórmula =DISTF(3,79;2;12).

Como o p-value 5,3% é maior que o nível de significância 5%, a hipótese nula deve ser aceita.

Page 27: aula_parte10_analise_da_variancia ANOVA
Page 28: aula_parte10_analise_da_variancia ANOVA

Tabela ANOVA

Os resultados dos exemplos anteriores podem ser agrupados numa tabela denominada ANOVA, que representa o procedimento natural de cálculo, pois o objetivo da tabela ANOVA é obter o F observado utilizando um procedimento numérico.

Page 29: aula_parte10_analise_da_variancia ANOVA

Tabela ANOVASejam k amostras independentes de tamanhos diferentes:

com médias

},,{1111 nXXX },,{

2212 nXXX },,{ 1 kk nk XXX

kXXX ,,, 21

Page 30: aula_parte10_analise_da_variancia ANOVA
Page 31: aula_parte10_analise_da_variancia ANOVA
Page 32: aula_parte10_analise_da_variancia ANOVA
Page 33: aula_parte10_analise_da_variancia ANOVA
Page 34: aula_parte10_analise_da_variancia ANOVA
Page 35: aula_parte10_analise_da_variancia ANOVA
Page 36: aula_parte10_analise_da_variancia ANOVA

MSEMST

knSSEkSST

F

T

o

1

Page 37: aula_parte10_analise_da_variancia ANOVA

Exemplo

Resolver o Exemplo anterior utilizando a tabela Anova.

Page 38: aula_parte10_analise_da_variancia ANOVA
Page 39: aula_parte10_analise_da_variancia ANOVA

Para realizar o teste de hipóteses há dois procedimentos: Como o F observado 3,789 é menor que o F crítico 3,885

correspondente ao nível de significância adotado de 5%, a hipótese nula deve ser aceita.

Como o p-value 5,3% do F observado 3,79 é maior que o nível de significância adotado 5%, a hipótese nula deve ser aceita.

Page 40: aula_parte10_analise_da_variancia ANOVA

FdeA- Anova: Fator único

Page 41: aula_parte10_analise_da_variancia ANOVA
Page 42: aula_parte10_analise_da_variancia ANOVA

Para concluir este tema, se for realizada uma análise de variância nos dois grupos de amostras apresentadas no início deste capítulo, amostras A, B e C e amostras D, E e F, o leitor verificará que para o nível de significância de 5% se deverá rejeitar a hipótese nula nos dois grupos, havendo evidências de que as médias das populações de cada grupo seriam diferentes.

Reduzindo o nível de significância para 3%, a análise de variância mostraria que haveria evidências de que as populações de onde foram retiradas as amostras A, B e C têm medias iguais, permanecendo inalterada a decisão de rejeitar a hipótese nula do grupo de amostras D, E e F.

Page 43: aula_parte10_analise_da_variancia ANOVA

ANOVA com Dois Fatores Na primeira parte deste capítulo foi apresentada a análise da

variância com um fator, ou Anova com um fator, em que é avaliado apenas um fator de interesse ou que influi na variável dependente.

Nesta parte serão avaliados dois fatores de interesse que influem numa variável dependente, seja de forma isolada ou simultaneamente.

Na análise da variância com dois fatores, por exemplo, os fatores A e B podem influir na variável dependente de forma isolada, denominados efeitos principais, e de forma combinada, efeito de uma combinação específica dos fatores A e B.

Page 44: aula_parte10_analise_da_variancia ANOVA

Cada fator tem um número de níveis, por exemplo, o fator A pode ter dois tipos diferentes de processos, e o fator B, três dosagens diferentes de um determinado aditivo para acelerar a secagem.

Não será realizada uma apresentação detalhada como a da primeira parte. Serão destacadas as premissas e como utilizar e obter conclusões dos resultados da ferramenta Anova: fator duplo com repetição.

Page 45: aula_parte10_analise_da_variancia ANOVA

De maneira formal, o teste de hipóteses para dois fatores A e B tem três hipóteses nulas:

H0 : Não há efeito principal do fator A H0 : Não há efeito principal do fator B. H0 : Não há combinação de efeitos. H1 : Há efeito em cada um dos três casos.

Page 46: aula_parte10_analise_da_variancia ANOVA

Exemplo

A empresa de porte médio que manufatura autopeças para o mercado de reposição está tentando reduzir o tempo de produção de cada peça. O gerente de pesquisas testou dois processos diferentes e três dosagens de um novo aditivo químico para acelerar a secagem.

Os tempos obtidos estão apresentados na tabela seguinte. Realizar uma análise da variância considerando o nível de significância

de 5%.

Page 47: aula_parte10_analise_da_variancia ANOVA
Page 48: aula_parte10_analise_da_variancia ANOVA

Solução Na planilha do slide anterior estão definidos dois fatores de

análise, o fator Aditivo com três níveis de dosagem e o fator Processo com dois tipos.

Esses dois fatores formam seis grupos de resultados com cinco observações cada um e identificados nas duas colunas denominadas Processo 1 e Processo 2, e nos três grupos de cinco linhas cada um denominadas Dosagem 1, Dosagem 2 e Dosagem 3.

Neste tipo de análise da variância os grupos devem ter o mesmo número de observações ou repetições, neste caso cinco.

Page 49: aula_parte10_analise_da_variancia ANOVA

O teste de hipóteses para o fator Aditivo e o fator Processo tem três hipóteses nulas: H0: Não há efeito principal do fator Aditivo. H0 : Não há efeito principal do fator Processo. H0 : Não há combinação dos efeitos Aditivo e Processo. H1 : Há efeito em cada um dos três casos.

Page 50: aula_parte10_analise_da_variancia ANOVA

FdeA- Anova: Fator duplo com repetição

Page 51: aula_parte10_analise_da_variancia ANOVA
Page 52: aula_parte10_analise_da_variancia ANOVA

A seguir mostramos como analisar os resultados da tabela ANOVA para realizar o teste de hipóteses:

Teste da combinação de fatores. O ponto de partida é a análise dos resultados da linha

Interações, que é o resultado da combinação dos dois fatores. Como o p-value 0,3697 (ou 36,97%) registrado na célula K33 é

maior que o nível de significância 5%, a hipótese nula deve ser aceita. A aceitação da hipótese nula indica que a combinação dos fatores Aditivo e Processo não é significativa ou, de outra maneira, não há suficiente evidência de que a combinação de efeitos provocada pelos dois fatores influencie o tempo de produção.

Page 53: aula_parte10_analise_da_variancia ANOVA

Em vez de utilizar o p-value, pode-se comparar o F observado 1,037 registrado na célula J33 com o F crítico 3,403 registrado na célula L33, que também mostra a aceitação da hipótese nula.

Se o resultado do teste for significativo, pois a hipótese nula seria rejeitada, então o procedimento de análise deverá continuar se aprofundando com os efeitos das seis possíveis combinações dos dois fatores.

É importante observar que se o efeito da combinação de fatores é significativa, qualquer efeito principal deve ser tratado com cautela.

Page 54: aula_parte10_analise_da_variancia ANOVA

A seguir passamos para a análise dos efeitos dos fatores de forma isolada.

Teste do fator Aditivo. O título Amostra registrado na tabela ANOVA, linha 31 da

planilha, se refere aos resultados do Fator Aditivo. Como o p-value 0,0628 (ou 6,28%) registrado na célula K31 é maior que o nível de significância 5%, a hipótese nula deve ser aceita.

A aceitação da hipótese nula indica que o fator Aditivo não influencia o tempo de produção das autopeças ou, de outra maneira, não há suficiente evidência de que o fator Aditivo influencia o tempo de produção da autopeça. Em vez de utilizar o p-value, pode-se comparar o F

observado 3,11 registrado na célula J31 com o F crítico 3,40 registrado na célula L31, que também mostra a aceitação da hipótese nula.

Page 55: aula_parte10_analise_da_variancia ANOVA

Teste do fator Processo. O título Colunas registrado na tabela ANOVA, linha 32 da

planilha, se refere aos resultados do Fator Processo. Neste caso, também, a hipótese nula deve ser aceita. Deixamos para o leitor realizar as análises comparativas do p-value com o nível de significância, e do F observado com o F crítico.

Observe que se o nível de significância for maior que 6,3%, o fator Aditivo passa a ter influência no tempo de produção das autopeças, enquanto o fator Processo continua sem ter influência nesse tempo.

Page 56: aula_parte10_analise_da_variancia ANOVA

Outros resultados registrados na tabela ANOVA são:

Dentro Na célula G34 é registrado o resultado da soma dos quadrados

dos desvios dos dados de cada um dos grupos com relação à sua própria média.

Total Na célula G35 é registrado o resultado da soma dos quadrados

dos desvios de todos os dados com relação à grande média. Também é o resultado da soma do intervalo G31:G34 da planilha.

gl Essa coluna registra os graus de liberdade de cada grupo de

resultados da coluna SQ da tabela, para sua linha correspondente.

Page 57: aula_parte10_analise_da_variancia ANOVA

MQ Cada linha dessa coluna registra o resultado de dividir a soma

dos quadrados dos desvios da coluna SQ pelo número de graus de liberdade correspondente da coluna gl. Por exemplo, o resultado 0,111 (registrado na célula I31) é

o resultado de dividir 0,222 (célula G31) por 2 (célula H31). Os resultados desta coluna são utilizados para obter o F

observado da coluna F da tabela ANOVA. Dividindo qualquer um dos três valores do intervalo I31:I33

pelo valor registrado em I34, obtém-se o valor correspondente no intervalo J31:J33.

Page 58: aula_parte10_analise_da_variancia ANOVA

A ferramenta de análise Anova: fator duplo com repetição apresenta também a tabela RESUMO.