24
 Mestrand a em Estatística, Matemática e computação 2010/2011 UNIVERSIDADE ABERTA ANOVA na Educação Helga Carina Baptista Martins Correia nº 1002153 Mestranda em Estatística, Matemática e Computação na Universidade Aberta RESUMO  A análi se de variância (ANOVA) é um teste estatístico muito utilizado em investigações nas di versas áreas do conhecimento. O pesquisador tem necessidade de comparar mais do que dois grupos experimentais com relação a uma variável quantitativa. Esta análise verifica se existe uma diferença  significativa entre as médias dos grupos e se os fatores exerc em influência em alguma variável dependente. Caso os pressupostos para a análise da variância não sejam satisfeitos terão que ser aplicados outros métodos, nomeadamente os de comparação múltipla. Na área da Educação, a  ANOVA também tem sido fundamental nas pesquisas pedagógicas, quer na verificação de hipóteses experimentais, quer na comparação de resultados escolares ou até fidedignidade e validade das notas de testes pedagógicos, métodos pedagógicos, entre outros. Palavras Chave: Anova. Comparação múltipla. Educação.

Trabalho Final - Helga Correia 1002153

Embed Size (px)

Citation preview

Page 1: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 1/24

Mestranda em Estatística, Matemática e computação 2010/2011

UNIVERSIDADE ABERTA

ANOVA na Educação 

Helga Carina Baptista Martins Correia nº 1002153

Mestranda em Estatística, Matemática e Computação na Universidade Aberta

RESUMO

 A análise de variância (ANOVA) é um teste estatístico muito utilizado em investigações nas diversas

áreas do conhecimento. O pesquisador tem necessidade de comparar mais do que dois grupos

experimentais com relação a uma variável quantitativa. Esta análise verifica se existe uma diferença

significativa entre as médias dos grupos e se os fatores exercem influência em alguma variável

dependente. Caso os pressupostos para a análise da variância não sejam satisfeitos terão que ser 

aplicados outros métodos, nomeadamente os de comparação múltipla. Na área da Educação, a

 ANOVA também tem sido fundamental nas pesquisas pedagógicas, quer na verificação de hipóteses

experimentais, quer na comparação de resultados escolares ou até fidedignidade e validade das notasde testes pedagógicos, métodos pedagógicos, entre outros. 

Palavras Chave: Anova. Comparação múltipla. Educação.

Page 2: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 2/24

2

1 INTRODUÇÃO

Foi a 17 de Fevereiro de 2010 que se comemorou o 120º aniversário do nascimento daquele

que foi para muitos, o maior impulsionador para o grande avanço da Estatística Moderna,

Ronald Aylmer Fisher (1890-1962). Ao introduzir o conceito de Análise da Variância noplaneamento de experiências, Fisher veio demonstrar como um número restrito de

experimentos pode ser suficiente para determinar leis genéricas considerando várias variáveis

ao mesmo tempo.

A ANOVA ( AN alysis O f  VAriance) foi inicialmente aplicada nas áreas da medicina e

agricultura no sentido de comparar tratamentos, mas hoje, a técnica da ANOVA é utilizada

nas diversas áreas do conhecimento, como a Psicologia, Educação, Economia entre outras. É

frequentemente utilizada pela maioria dos investigadores e estudiosos por ser uma técnicabastante prática e com resultados bastante fiáveis. Os seus pressupostos são, na maioria dos

casos, fáceis de verificar através da análise dos resíduos ou através de diversos testes

estatísticos, como o teste de Shapiro-wilk ou o teste de Bartlett. Existem ainda muitos

métodos para efectuar comparações múltiplas, caso a ANOVA verifique diferenças

significativas entre os grupos. Entre eles estão o método de Tuckey, o método de Scheffé e o

método de Duncan.

Neste estudo pretende-se realçar a importância da ANOVA e dos seus pressupostos,

considerando apenas uma variável independente. Pretende ainda reconhecer o seu contributo

para o desenvolvimento nas diversas áreas do conhecimento, em particular na área da

Educação, salientando a sua utilidade em fenómenos pedagógicos.

Irão ser apresentadas duas situações concretas da aplicação da técnica ANOVA. Na primeira

situação irão ser analisados o nº de alunos que frequentaram instituições do ensino superior

em Cabo Verde relativamente ao ano lectivo de 2008/2009, e será analisado se existem

diferenças significativas no nº de alunos que frequentam os três primeiros anos que compõem

um curso. Na segunda aplicação, irá ser analisado o nível de formação dos docentes de ensino

superior relativamente ao ano lectivo de 2008/2009. Pretende-se com esta 2ª aplicação

verificar se existem diferenças significativas entre o nº de professores com o nível de

Doutoramento, Mestrado e Licenciatura.

Na primeira aplicação verificou-se que as diferenças existentes entre o nº de alunos nos três

primeiros anos do curso não são estatisticamente significativas, enquanto que na segunda

aplicação, concluiu-se que as diferenças entre o nº de professores relativamente aos três níveis

de formação, são estatisticamente significativas.

Page 3: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 3/24

3

2 ANÁLISE DA VARIÂNCIA A UM FACTOR

A análise da variância a um factor é um procedimento utilizado para testar se determinado

factor independente, quando aplicado de modo diferente a várias populações, tem um efeito

significativo sobre determinada variável dependente.Em seguida será apresentada a terminologia e a notação utilizada no planeamento de

experiências e na análise da variância neste estudo.

Terminologia e Notação

Aos vários grupos de observações a serem analisados também são denominados de

tratamentos e diz-se que a experiência tem tantos níveis ou efeitos quantos tratamentos (ou

grupos) distintos.

Uma experiência diz-se com efeitos fixos, se os grupos são pré-determinados à partida.

Se os grupos forem escolhidos aleatoriamente entre um conjunto alargado de possibilidades

temos uma experiência com efeitos aleatórios.

Um planeamento diz-se completamente aleatorizado se os indivíduos são escolhidos

aleatoriamente e a distribuição pelos grupos também é aleatória.

Se o número de observações em cada grupo for igual, diz-se que temos um planeamento

equilibrado. Neste estudo iremos apenas analisar situações em que o planeamento é

equilibrado.

No presente estudo será utilizada a seguinte notação:

- grupos

- observações para cada grupo

- total de observações

2.1 MODELO ESTATÍSTICO E ANÁLISE DA VARIÂNCIA - EFEITOS FIXOS

Em cada experiência, as observações designam-se por onde e    

identificam o grupo e a posição de cada observação dentro do seu grupo, respectivamente.

Assim, onde representa a média de cada grupo, representa

Page 4: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 4/24

4

a média total dos grupos, representa a diferença entre a média total e a média de cada grupo

( ) e representa um erro aleatório de cada observação sendo estes erros

independentes entre si.

Para este modelo estatístico pressupõe-se os erros aleatórios são independentes, são

normalmente distribuídos, com média 0 (zero) e variância 2, ou seja, . Isto

significa que cada grupo provém de uma população Normal, com certa média mas todos

com a mesma variância 2, ou seja, .

Para verificar se há diferenças significativas na média dos grupos, serão testadas as seguintes

hipóteses: versus para pelo menos um .Caso a hipótese nula seja verdadeira, então todos os grupos terão uma média comum . Para

testar estas hipóteses recorre-se à análise da variância dos diversos grupos e a variância 2 

será estimada mediante duas situações: a primeira dependendo da veracidade de , e a

segunda não.

Independentemente de cada situação, a análise da variância, baseia-se na decomposição davariabilidade total das observações, dada pela soma dos quadrados total, em partes que podem

ser atribuídas aos grupos (variância entre) e ao erro experimental (variância dentro). Essa

variação é medida por meio da soma dos quadrados entre grupos e a soma dos quadrados

dentro de cada grupo, ou seja,   ..2+   =1    =1   .2  onde   .=    =1   é a média amostral do grupo    e

é a média total das observações.

À variabilidade total corresponde graus de liberdade, enquanto que à variabilidade

entre grupos e à variabilidade dentro dos grupos correspondem e graus de

liberdade, respectivamente.

Assim, a média dos quadrados entre os grupos é dada por , e a média dos

quadrados dentro dos grupos é dada por

.

Page 5: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 5/24

5

Considerando a veracidade de , e são ambos estimadores centrados da variância

pois verifica-se que . Como tal, a sua razão deve ser

próxima da unidade.

Caso contrário, se

for verdadeira, embora

continue a ser um estimador centrado para

a variância, já e a razão entre os estimadores será um valor maior

que a unidade.

Assim, e atendendo à veracidade de , temos que e

 têm distribuição Qui-quadrado

com e graus de liberdade, respectivamente, e portanto a razão definida por

terá distribuição F de Fisher com

e

graus de liberdade.

Com base nesta estatística, a hipótese nula será rejeitada ao nível de significância , se

, onde é o valor observado da estatística de teste F . De outro modo,

considerando o , a hipótese será rejeitada se .

Vejamos então a tabela para a análise da variância (Tabela ANOVA) a um factor para efeitos

fixos: 

Fonte de variaçãoSoma de

Quadrados

Graus de

Liberdade

Média de

Quadrados

Fobs   p 

Entre grupos SSG g-1 MSG (.)

Dentro dos grupos SSE g(n-1) MSE

Total SST gn-1

Tabela 1- Tabela ANOVA (Modelo Efeito Fixo)

Estimativas dos parâmetros do modelo e intervalos de confiança

Para o modelo , temos como estimadores e   para , obtidos através do Método dos Mínimos quadrados. Um estimador pontual para poderá ser dado por com  Relativamente ao intervalo de confiança para temos que é dado por:   ,

tendo em conta que os erros são normalmente distribuídos e portanto para cada temos que

Page 6: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 6/24

6

  . No caso da diferença entre qualquer duas médias de grupos, , o

intervalo de confiança é dado por:   .

Diagnóstico do modelo efeito fixo

Através da análise de resíduos pode fazer-se um diagnóstico do modelo para verificar se os

pressupostos básicos do modelo são válidos.

Define-se o resíduo da ij-ésima observação como: onde  são

os valores preditos do modelo.

  Normalidade dos resíduos 

A análise da normalidade dos resíduos poderá ser feita através do gráfico normal de

probabilidade. Caso se verifique a normalidade, os erros deverão estar próximos de uma recta

de 45 graus. Também poderão ser aplicados vários testes de ajustamento à distribuição

normal, como o teste de Lilliefors, o teste kolmogorov-Smirnov ou o teste de Shapiro-Wilk.  

  Independência dos resíduos 

A independência dos resíduos deve verificar-se pela existência de correlação entre entre eles.

Uma tendência de ter resíduos positivos e negativos indica uma correlação positiva. Isto

implica que a suposição de independência dos erros foi violada, no entanto a casualizaçãoadequada pode garantir a independência.

  Homocedasticidade

Para verificar se as variâncias são homogéneas, a distribuição dos pontos num gráfico de

resíduos é analisada. Caso se verifique a presença de outliers significa que estamos perante

variâncias não homogêneas. Nestes casos é conveniente recorrer a testes de igualdade de

variâncias, como o teste de Bartlett, o teste de Levene e o teste de Cochran:

Teste de Barttlett

O teste de Bartlett permite investigar o nível de significância das diferenças entre as

variâncias das g populações, admitindo a sua normalidade e independência, através da

seguinte estatística:   com distribuição Qui-quadrado com (g-1) graus de

liberdade, onde ,

, e representa as variâncias amostrais combinadas.

Page 7: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 7/24

7

A hipótese nula será rejeitada se o valor para   for superior ou igual ao quantil de

probabilidade da distribuição   

Teste de Levene

Este procedimento consiste em fazer uma transformação dos dados originais e aplicar aos

dados transformados o teste da ANOVA. A transformação é dada por: e  , onde representa a transformação dos dados, representa os dados

originais e representa a média do grupo para os dados originais. Uma transformação

(robusta) alternativa considerada para o procedimento de Levene, proposto por Brown (1974),

é substituir a média do nível pela mediana. Diz-se que um teste estatístico é robusto quando a

sua validade não é alterada pela violação dos pressupostos que lhe são subjacentes.Após a transformação dos dados, é aplicado o teste da ANOVA. Se a estatística F  for

significativa, rejeitamos a hipótese de igualdade das variâncias.

O teste de Levene é mais eficiente que o teste de Bartlett quando rejeitamos a hipótese de

normalidade dos dados. 

Teste de Cochran

O teste de Cochran compara a maior variância com as demais. Para aplicarmos o teste de

Cochran, vamos assumir que o experimento é equilibrado . A

estatística de teste é dada por :

onde  

representa a variância amostral. A hipótese de igualdade entre variâncias será rejeitada se

, onde o valor poderá ser consultado na tabela de valores críticos para este teste,

com nível de significância .

2.5 TESTES PÓS-ANOVA - COMPARAÇÕES MÚLTIPLAS

Quando se rejeita a hipótese nula da igualdade das médias, não se tem informação sobre qual

ou quais dos grupos são responsáveis pela diferença, sendo útil fazer diversas comparações

entre os grupos de forma a analisar essas diferenças. Uma das possibilidades para efectuar

comparações múltiplas consiste em comparar todos os pares de médias,  e para .Muitos testes de comparação múltipla já foram desenvolvidos, destacando-se os mais

conhecidos, o teste de Tuckey, o teste de Scheffé e o teste de Duncan. Estes testes diferem no

modo como analisam as diferenças de médias e ainda no método de controlo do nível designificância.

Page 8: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 8/24

8

Existem ainda outros testes, como o teste de Bonferroni ou teste de comparações múltiplas de

Dunn, que segundo Conceição (2008, p. 398) “ […] dispensa a ANOVA e não foi idealizado

para comparações post-hoc (depois disso) e sim comparações a priori.” 

Surge agora um novo conceito, o de contraste. Vejamos o seu significado:

Consideremos um experimento com g grupos, cujas médias populacionais são e

cujas estimativas   foram obtidas de amostras de tamanhos . Um

contraste de médias é qualquer função do tipo , com é a

média estimada do grupo . A soma de quadrados para qualquer contraste é dada por

com um grau de liberdade, caso os grupos tenham a mesma dimensão. Caso

contrário, a soma dos quadrados é dada por . A estatística de teste dos

contrastes é dada pela razão da soma dos seus quadrados e o quadrado médio do erro, obtendo

assim uma estatística F com (1, g(n-1)) graus de liberdade.

Serão apresentados os testes mais usuais na comparação múltipla de médias:

Teste de Tuckey

O método de Tuckey consiste na construção de intervalos de confiança para todos os pares demédias de tal forma que o conjunto de todos os intervalos tenha um determinado grau de

confiança . O método de construção destes intervalos depende do facto dos grupos terem ou

não a mesma dimensão. Assim, os intervalos com grau de confiança , para com

são dados por:   , onde é o valor da tabela

“Studentized Range”, no caso dos grupos terem a mesma dimensão. Caso existam diferenças

entre as dimensões dos grupos, é exigido que a

, caso esta condição não

seja satisfeita é utilizado o método de Scheffé. Os intervalos de confiança são os idênticos aos

anteriores bastando substituir pela média harmómica dos valores , que é dada

por:

.

Uma vantagem para este teste é o facto de, quando os grupos têm a mesma dimensão, os

intervalos de confiança têm menor amplitude e logo é mais preciso.

Page 9: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 9/24

9

Teste de Scheffé

Este teste serve para comparar qualquer contraste entre médias permitindo diferentes números

de observações por grupo. O teste de Scheffé utiliza uma transformação da distribuição F de

Snedecor para medir o nível de significância das comparações múltiplas. A estatística de testeé dada por:

    , sendo o valor tabelado

da distribuição F  com graus de liberdade e nível de significância . As

hipóteses nulas são rejeitadas quando   . 

Este teste é muitas vezes preferido ao teste de Tuckey pela sua maior simplicidade de cálculo,

pelo facto de permitir a utilização de amostras de tamanhos diferentes e ainda por ser um

método robusto relativamente aos pressupostos de normalidade e igualdade de variâncias daspopulações. No entanto, quando os grupos amostrais têm a mesma dimensão, este teste tem

uma maior probabilidade de não rejeitar a hipótese nula quando ela é verdadeira.

Teste de Duncan

A aplicação do teste de Duncan (1955) é bem mais trabalhosa que o teste de Tukey, mas

chega-se a resultados mais detalhados e se discrimina com mais facilidade entre os grupos.

Geralmente, o Teste de Duncan indica resultados significativos em casos em que o Teste de

Tukey não permite obter significância estatística. Para a aplicação do teste é importante

ordenarmos as médias dos grupos em ordem crescente ou decrescente de tamanho. De

seguida, calcula-se o valor da amplitude total mínima significativa (shortest significant range)

para o contraste entre a maior e a menor  das médias dos grupos, do seguinte modo:   , onde ( nº de médias abrangidas pelo intervalo delimitado pelas

médias comparadas), é o nível da amplitude mínima studentizada de Ducan e n-g 

são os graus de liberdade do resíduo.Se a diferença entre médias for superior ao valor tabelado representado por , então

os grupos são significativamente diferentes.

2.2 MODELO ESTATÍSTICO E ANÁLISE DA VARIÂNCIA - EFEITOS

ALEATÓRIOS 

Se um factor tem um grande número (ou mesmo uma infinidade) de possíveis níveis, nãosendo possível estudar todos, pode ter de se estudar apenas uma amostra aleatória de níveis do

Page 10: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 10/24

10

factor, na tentativa de extrair conclusões para o factor na sua totalidade. Esta situação surge

quando os níveis de um factor admitem variabilidade, mas em que não é possível estudar a

totalidade dos possíveis casos (níveis do factor). Neste caso são seleccionados aleatoriamente

os grupos que irão ser descritos por variáveis aleatórias e não por constantes. O modelo

estatístico utilizado admitindo o mesmo número de observações nos grupos, é dado por:

, onde é a v.a. que representa a j-ésima observação do grupo

, com e   , é a média global dos grupos, e são variáveis

aleatórias independentes.

Para o modelo de efeitos aleatórios pressupõe-se que e são variáveis aleatórias

independentes, em que  e , ou seja, são normalmente distribuídas,

independentes, com média zero e variância  e , respectivamente. Assim cada grupoprovém de uma população Normal, com média e com variância , ou

seja,   . Às variâncias   são chamadas de componentes de

variância.

Enquanto no modelo de efeitos fixos as observações são independentes, neste modelo o

mesmo já não acontece pois verifica-se que o coeficiente correlação intra classe é diferente de

zero:

 

onde e são duas observações dadas.

A decomposição da variabilidade total das observações é a mesma que no modelo anterior ou

seja e as hipóteses a testar referem-se à variabilidade e são dadas por:

versus Assim, caso

seja aceite significa que não há variabilidade entre os grupos e,

e

 

são ainda ambos estimadores centrados da variância pois verifica-se que .

Sob a hipótese alternativa , temos que e .

Então, sob a hipótese nula temos que a estatística de teste para estudar a hipótese de não haver

variabilidade entre grupos, é dada por:  A hipótese nula será rejeitada ao nível de significância , se , ou de

outro modo, . Sendo a hipótese nula rejeitada faz sentido em estimar , emque o estimador é dado por .

Page 11: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 11/24

11

A tabela ANOVA resume-se agora do seguinte modo:

Fonte de variaçãoSoma de

Quadrados

Graus de

Liberdade

Média de

QuadradosFobs   p 

Entre Grupos SSG t-1 MSG (.)

Dentro dos

GruposSSE t(n-1) MSE

Total SST tn-1

Tabela 2- Tabela ANOVA (Modelo Efeito Aleatório)

Estimativas dos parâmetros do modelo e intervalos de confiança

Para o modelo de efeito aleatório, , temos como estimador para a média

e sendo que e

 tem distribuição aproximada de

T-de Student com n-1 graus de liberdade.

Relativamente ao componente da variância , temos que , e como tal um

intervalo de confiança com grau de confiança é dado por:

. Para o intervalo de confiança é dado através do procedimento de

Satterthwaite e sai fora do âmbito deste estudo.

Para o coeficiente de correlação intra classe, temos que , e assim

um intervalo de confiança com grau de confiança

é dado por:

onde

e

.

Diagnóstico do modelo efeito aleatório

A validade dos pressupostos do modelo relativos aos erros aleatórios podem ser estudados de

forma análoga ao que foi viso para o modelo de efeitos fixos. Assim, no caso da normalidade

será analisado o diagnóstico dos resíduos marginais, . A

Page 12: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 12/24

12

Independência é adoptada para observações de grupos diferentes e a Homocedasticidade é

analisada para ambas as componentes da variância, entre grupos ( e intra grupo  

através de gráficos de pontos, tal como foi referido anteriormente. Poderá ainda ser analisado

o padrão de correlação intra grupo através da correlação uniforme.

2.3 MÉTODOS NÃO PARAMETRICOS NA ANÁLISE DA VARIÂNCIA 

Quando a variável em estudo não apresenta distribuição normal, ou se verifique a

heterogeneidade de variâncias, significa que as pressuposições básicas da ANOVA não

foram atendidas. No entanto, será de salientar que as violações aos pressupostos da ANOVA

não têm a mesma gravidade. Assim, pode dizer-se que este teste é relativamente robusto a

desvios à hipótese de normalidade e, no caso de planeamentos equilibrados, a violação do

pressuposto da igualdade das variâncias é em geral pouco grave. Podem ser graves no cado de

planeamentos desiquilibrados. Já a violação do pressuposto da independência é considerada a

mais grave.

Nestas condições existem alternativas não paramétricas à análise da variância simples. Neste

estudo será analisado o teste de Kruskal-Wallis.

Teste de Kruskal-WallisEste teste tem como objectivo verificar se k amostras aleatórias independentes podem ou não

ser consideradas como provenientes de populações com a mesma distribuição. Assim, as

hipóteses a serem formuladas são: : as k amostras possuem a mesma distribuição vs

Pelo menos uma das amostras tem distribuição diferente das restantes, dando origem a

valores tendencialmente superiores.

Este teste exige que a variável em estudo seja contínua e que as observações sejam

independentes. A estatística deste teste baseia-se nos postos das observações e a que tiver

menor valor é atribuído o posto 1, e assim sucessivamente, até que todas as observações

tenham atribuído um posto.

Quando ocorrerem empates, atribui-se o valor médio entre as observações, ou seja, atribui-se

a média das ordens que seriam atribuídas a elas se não ocorresse o empate. Para testar a

hipótese nula, é utilizada a estatística de teste: em que N é o

número total de observações, g é o número de grupos, é o número de observações do i-ésimo grupo e Ri é a soma dos postos do i-ésimo grupo.

Page 13: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 13/24

13

A hipótese nula é rejeitada se com g-1 graus de liberdade ao nível de significância.

Se ocorrerem empates, a estatística de teste T deverá ser corrigida com a seguinte expressão

em que é o número de observações empatadas no i-ésimo grupo. Assim, a

estatística corrigida é dada por . A hipótese nula neste caso é testada como se não

houvesse empates.

3 ANOVA NA ÁREA DA EDUCAÇÃO - APLICAÇÕES

Em Cabo Verde, no ano de 2008/2009, foi publicado o anuário estatístico da Educação, com a

finalidade de divulgar os dados e as informações do sector. Nele constam as estatísticas

oficiais do sistema educativo nacional, nomeadamente alunos, professores, escolas, turmas,

acção social escolar, alfabetização e educação de adultos, entre outras.

1ª Aplicação 

Nesta aplicação, foram recolhidos os dados referentes aos 3 primeiros anos dos cursos

leccionados em algumas instituições do ensino superior no ano lectivo de 2008/2009. Foram

apenas consideradas as instituições superiores que já funcionavam nos 3 anos imediatamente

anteriores ao ano a que se referem estes dados. Assim sendo, as instituições a que se refere o

estudo são: Universidade Pública de Cabo Verde (Uni-Cv), Universidade Jean Piaget (Jean

Piaget), Instituto de Estudos Superiores Isidoro da Graça (IESIG), Instituto de Ciências

Económicas e Empresariais (ISCEE), Instituto Superior de Ciências Jurídicas e Sociais

(ISCJS).

Pretende-se verificar se o nº de alunos nas instituições de ensino superior varia

significativamente relativamente ao ano do curso que frequentam.

Observações (institutos)

Grupos(Anos)

Uni-Cv J Piaget IESIG ISCEE ISCJS Totais Médias Desvios

1 1166 1045 259 544 242 3256 651,2 433,84

2 1008 710 229 323 169 2439 487,8 359,08

3 591 374 147 167 126 1405 281 199,83

Fonte: Anuário da Educação 2008/2009Tabela 3 – Nº de alunos por ano nas diversas instituições superiores

Page 14: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 14/24

14

Analisando os dados apresentados através das medidas descritivas e diagrama de extremos

(Figura 1) pode verificar-se que a média do nº de alunos vai diminuindo à medida que o nº de

ano do curso aumenta. A diferença maior verifica-se entre as médias do 1º e do 3º ano do

curso. Também se pode verificar pelas caixas do diagrama de extremos que a variabilidade

dos dados é maior no 1º ano do curso, o que conduzir à heterogeneidade das variâncias.

Será assim importante verificar se os pressupostos da ANOVA são válidos.

Um simples diagrama de dispersão dos resíduos (Figura 2) mostra que estes se encontram

dispersos aleatoriamente, não apresentando algum tipo de relação, de onde se presume serem

independentes.

Através da análise dos gráficos dos resíduos (Figura 3) verifica-se no painel dos resíduos vs

valores ajustados, que o modelo não indicia violação dos pressupostos pois repara-se que as

observações encontram-se empilhadas em 3 colunas apesar de existirem observações que

estão mais dispersas. No entanto, será conveniente aplicar um teste para a igualdade das

variâncias. Neste caso, o teste de Bartlett, indica a não rejeição de  H 0 pois o valor da

estatística de teste (1.9944) é significativo para o p-value 0.3689,

ao nível de significância de 5%, ou seja, o pressuposto de que as variâncias são iguais em

cada nível do factor, é válido.

Verificando o gráfico Normal Q-Q (Figura 3), conclui-se que os pontos, na sua maioria,

tendem a aproximar-se da recta de 45º mas verifica-se que alguns valores positivos dos

resíduos (extremos) deveriam ser menores. Ainda assim, este gráfico não é grosseiramente

não normal. No entanto, através do teste de normalidade de Shapiro-Wilk verifica-se que de

facto a hipótese inicial de que os resíduos têm distribuição normal é aceite pois a estatística deteste (0.9075) com p-value 0.1238 para um nível de significância de 5%, é significativa.

Uma vez válidos os pressupostos da ANOVA, e após efectuado o teste F , verifica-se que a

estatística de teste (1.4458) cujo p-value associado é 0.2738, é significativa para um nível de

significância de 5%, ou seja, a hipótese inicial da igualdade das médias do nº de alunos nos 3

primeiros anos do curso é aceite. Estatisticamente, as diferenças entre os 3 anos do curso não

são significativas.

Page 15: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 15/24

15

2ª Aplicação

Segundo a UNESCO, calcula-se que em 2015 o mundo necessitará de 18 milhões de novos

professores  –  só em África haverá falta de quatro milhões. No entanto, o problema é mais

complicado que uma simples questão de números. A qualidade dos professores e da docênciasão fundamentais para que os resultados da aprendizagem sejam satisfatórios. Em Cabo

Verde, especula-se muito relativamente à qualidade do ensino superior. A falta de docentes

qualificados é uma das razões mais apontadas para esta grave lacuna no ensino superior. No

entanto, o nº de docentes qualificados tem vindo a aumentar de ano para ano apesar de ainda

ser em número inferior ao esperado.

Os dados desta aplicação referem-se ao nº de professores nas instituições superiores em Cabo

verde no ano lectivo de 2008/2009. O nº de docentes encontra-se dividido pelo seu nível deformação, Doutorado, Mestrado e Licenciado nas diversas instituições. Assim, pretende-se

analisar se existem diferenças significativas no nº de docentes do ensino superior

relativamente ao seu nível de formação.

Antes de prosseguirmos com a análise das variâncias será importante conhecermos as

características dos grupos.

Grupos Observações(nº de Docentes por instituição) 

Formação Uni-Cv JPiaget IESIG ISCEE ISCJS Totais Média  desvios 

Doutorado 17 13 5 5 3 43 8,6 6,07

Mestrado 108 67 19 89 20 303 60,6 40,23

Licenciado 146 129 66 37 10 388 77,6 58,47

Fonte: Anuário da Educação de 2008/2009Tabela 4 – Docentes por nível de formação nas diversas instituições

O quadro com algumas medidas descritivas dos grupos (Tabela 4) permite verificar que é ao

nível do Doutoramento que se encontram menos docentes mas este nº aumenta

significativamente quando o nível de formação é a Licenciatura. No diagrama de caixas

(Figura 4) verifica-se que apesar de não existem outliers, a variabilidade dos dados é maior

para o nível do Mestrado e Licenciatura, enquanto que para o nível de Doutorado a

variabilidade é bem menor.

Será também neste caso importante verificar se os pressupostos da ANOVA são válidos.

Page 16: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 16/24

16

O diagrama dos resíduos (Figura 5) mostra que os resíduos estão dispersos aleatoriamente o

que sugere que sejam independentes.

Através da análise dos gráficos dos resíduos (Figura 6) verifica-se que o modelo indicia

violação do pressuposto para a igualdade da variância, pois no 1º gráfico dos resíduos vs

valores esperados, verifica-se que os resíduos tendem a crescer ficando mais dispersos.

Deverá ser realizado o teste de Bartlett para verificar a igualdade das variâncias. Neste caso, o

teste de Bartlett indica a rejeição de  H 0, pois a estatística de teste (11.4046), é significativa

com o p-value 0.003338, ao nível de significância de 5%. Assim, conclui-se que o

pressuposto para a igualdade das variâncias não é válido.

Verificando o gráfico Normal Q-Q (Figura 6), e apesar dos pontos extremos se afastarem

mais da recta, conclui-se que no geral, os pontos tendem a aproximar-se da recta de 45º o que

conduz à normalidade dos erros.

A normalidade dos erros também aqui é provada pelo teste de Shapiro-Wilk pois a estatística

de teste (0.963), cujo p-value associado é de 0.7448, é significativa para o nível de

significância de 5%, ou seja, a hipótese nula de que os erros provêm de uma distribuição

normal é aceite.

Assim sendo, e uma vez que o pressuposto da igualdade das variâncias não é válido, será

usado o teste não paramétrico de Kruskal-Wallis como alternativa à ANOVA. No entanto, e

como já foi mencionado anteriormente, a violação deste pressuposto no caso de planeamentos

equilibrados não é muito grave, pelo que os resultados obtidos pela ANOVA seriam idênticos.

Após aplicado o teste de Kruskal-Wallis, obtém-se como valor para a estatística de teste

7.9542, com p-value 0.01874, o que leva a rejeitar a hipótese nula para um nível de

significância de 5%.

4 CONCLUSÃO

As aplicações realizadas demonstram que a análise da variância na área da Educação permite

estudar vários tipos de fenómenos pedagógicos. Na primeira aplicação, o estudo realizado

poderá ser útil por exemplo, para perceber se os alunos tendem a concentrar-se em

determinado ano do curso e porque motivo este facto acontece. No caso concreto, através daANOVA, concluiu-se que a diferença de alunos nos 3 primeiros anos do curso não é

Page 17: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 17/24

17

estatisticamente significativa. Ainda assim, a maioria dos alunos estão no 1º ano e esse nº

tende a diminuir de um ano para o outro. Este tipo de análise será importante também para

comparar os 5 anos de um curso e verificar se neste caso as diferenças são significativas.

Neste estudo, não foi possível realizar a análise dos 5 anos pelo facto da maioria das

instituições do ensino superior em Cabo Verde serem bastante recentes, facto este que leva ao

nº bastante reduzido de alunos nos dois últimos anos do curso.

Caso se verifiquem diferenças significativas entre os anos, questões poderão ser levantadas

sobre os factores que poderão influenciar essas diferenças. Algumas questões como: “Estará o

programa curricular em cada ano do curso adequado?”, “ A elevada expectativa dos alunos

relativamente ao curso, ou até mesmo à instituição poderá ter levado à desistência dos

alunos?”, “O modelo de avaliação será o mais adequado?”, “ Os métodos de ensino são

ajustados?”, deverão ser analisadas num estudo mais aprofundado e abrangente.

Na segunda aplicação, concluiu-se que as diferenças existentes entre o nº de professores com

nível de Doutoramento, Mestrado e Licenciatura é estatisticamente significativo. Verifica-se

um nº bastante reduzido de docentes com o grau de Doutor comparativamente com os graus

de Mestre e Licenciado. Neste caso particular, seria interessante comparar os resultados mais

recentes sobre o nº de docentes, bem como comparar esse nº nos diversos anos escolares, mas

devido à dificuldade em obter os dados não foi possível efectuar esse estudo. De qualquer

modo, será importante analisar com particular atenção, o nº reduzido de docentes doutorados

e tentar encontrar soluções que deverão ir de encontro às necessidades das instituições,

professores e alunos.

A facilidade na atribuição de bolsas de estudo, a formação contínua de professores, melhoria

das condições de trabalho e salário, poderão ser factores que, entre outros, levarão ao aumento

do nº de docentes doutorados nas instituições de ensino superior.

Existem assim inúmeras investigações realizadas na área da Educação nas quais é utilizada a

técnica da ANOVA. Através desta técnica, o investigador consegue comparar grupossimultaneamente, tendo instrumentos para poder concluir sobre a hipótese inicial de onde

parte a sua investigação. Na Educação, os investigadores procuram a cada dia encontrar

relações entre diversos grupos com determinadas características, avaliar percepções e atitudes

de alunos e professores de forma a encontrar métodos que ajudem a compreender e

ultrapassar as limitações que surgem nesta área.

Neste estudo, foi utilizado o software R que permitiu obter os resultados de uma forma mais

rápida e eficiente. Hoje em dia, com a ampliação da capacidade dos computadores, a ANOVA

Page 18: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 18/24

18

 já está inserida em muitos softwares estatísticos tornando a sua aplicação ainda mais acessível

e mais rápida, não sendo assim necessário ser um expert em estatística para o fazer.

REFERÊNCIAS

REIS, E., Melo, P., Andrade, R., Calapez, T. (2007): Estatística aplicada.  Vol I e II, Edições Sílabo. 1ª Edição.OLIVEIRA, T., (2004): Estatística Aplicada , Universidade Aberta

http://www.somatematica.com.br/biograf/ronald.php 

http://www-history.mcs.st-and.ac.uk/Mathematicians/Fisher.html 

http://www.des.uem.br/uploads/arquivos_professor/1125193027.pdf  

http://www.mat.uc.pt/~cmtm/ECwww/ANOVA.pdf  

http://www.fcav.unesp.br/RME/fasciculos/v19/A10_Artigo.pdf  

http://www.rbccv.org.br/pdfRBCCV/23-03-14.pdf  

http://www.pesquisapsicologica.pro.br/pub7/Klecia_Patricia_Rita_Alexandre.htm 

http://www.portalaction.com.br/content/sobre-o-action 

http://www.stat.auckland.ac.nz/~iase/publications/icots8/ICOTS8_C183_BEDWELL.pdf   

http://www.minedu.gov.cv/index.php?option=com_docman&Itemid=32 

ANEXOS

Comandos e outups usados no software R

  Aplicação 1

> valores=read.table('c:/Users/Helga/Desktop/valores.txt',header=T,sep=';',dec='.')

> valores

  A1 A2 A3

1 1166 1008 591

2 1045 710 374

3 259 229 147 

4 544 323 167 

5 242 169 126 

> attach(valores)

> mean(valores)

Page 19: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 19/24

19

  A1 A2 A3

651.2 487.8 281.0

> sd(valores)

  A1 A2 A3

433.8360 359.0790 199.8287 

>boxplot(valores,xlab="Ano do curso",ylab="Alunos",col=c("yellow","green","red"))

Figura 1- Diagrama de caixas do nº de alunos por ano de curso

> detach(valores)

> amostra=stack(valores)

> amostra

values ind 

1 1166 A1

2 1045 A1

3 259 A1

4 544 A1

5 242 A1

6 1008 A2

7 710 A2

8 229 A2

9 323 A2

10 169 A2

Page 20: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 20/24

20

11 591 A3

12 374 A3

13 147 A3

14 167 A3

15 126 A3

> modelo=lm(values~ind,data=amostra)

> residuos=resid(modelo)

Figura 2- Diagrama de dispersão dos resíduos

> par(mfrow=c(2,2))

> plot(modelo)

Figura 3- Gráficos dos resíduos

> shapiro.test(residuos)

Page 21: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 21/24

21

Shapiro-Wilk normality test 

data: residuos

W = 0.9075, p-value = 0.1238

> bartlett.test(values~ind,data=amostra)

 Bartlett test of homogeneity of variances

data: values by ind 

 Bartlett's K-squared = 1.9944, df = 2, p-value = 0.3689

>Analysis of Variance Table

 Response: values

 Df Sum Sq Mean Sq F value Pr(>F)

ind 2 344190 172095 1.4458 0.2738

 Residuals 12 1428332 119028

  Aplicação 2

> professores=read.table('c:/Users/Helga/Desktop/professores.txt',header=T,sep=';',dec='.')

> professores

  D M L

1 17 108 146 

2 13 67 129

3 5 19 66 

4 5 89 37 

5 3 20 10

> attach(professores)

The following object(s) are masked _by_ '.GlobalEnv':

 D, L

> mean(professores)

  D M L

8.6 60.6 77.6 

> sd(professores)

  D M L

6.06630 40.22810 58.46623

Page 22: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 22/24

22

> boxplot(professores,xlab="Nível de formação",ylab="Professores",col=c("yellow","green","red"))

Figura 4- Diagrama de caixas do nº de professores por nível de formação

> detach(professores)

> amostra=stack(professores)

> amostra

values ind 

1 17 D

2 13 D

3 5 D

4 5 D

5 3 D

6 108 M 

7 67 M 

8 19 M 

9 89 M 

10 20 M 

11 146 L

12 129 L

13 66 L

14 37 L

15 10 L

Page 23: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 23/24

23

> modelo=lm(values~ind,data=amostra)

> residuos=resid(modelo)

> plot(residuos)

Figura 5 – 

Diagrama de dispersão dos resíduos

> par(mfrow=c(2,2))

> plot(modelo)

Figura 6  – Gráficos dos resíduos

> shapiro.test(residuos)

Shapiro-Wilk normality test 

data: residuos

Page 24: Trabalho Final - Helga Correia 1002153

5/10/2018 Trabalho Final - Helga Correia 1002153 - slidepdf.com

http://slidepdf.com/reader/full/trabalho-final-helga-correia-1002153 24/24

24

W = 0.963, p-value = 0.7448

> bartlett.test(values~ind,data=amostra)

 Bartlett test of homogeneity of variances

data: values by ind 

 Bartlett's K-squared = 11.4046, df = 2, p-value = 0.003338

> kruskal.test(values~ind,data=amostra)

Kruskal-Wallis rank sum test 

data: values by ind 

Kruskal-Wallis chi-squared = 7.9542, df = 2, p-value = 0.01874