ESCALAS DE MEDIÇÃO - sunprynus.comsunprynus.com/fadeup/114/FADEUP114ResumoDeEstatistica.pdf · ESCALAS DE MEDIÇÃO Instrumento – Mede, com um certo grau de validade, ... Medidas

1

Resumos de Estatística

1ºAno, 2ºSemestre, 2010/2011 Mário Miguel Fernandes

Aula 1

ESCALAS DE MEDIÇÃO

Instrumento – Mede, com um certo grau de validade, um dado atributo ou característica de um

sujeito. Nele está implícita a fiabilidade, isto é, o erro reduzido da observação (registo).

O processo de medição dá-se por intermédio de valores numéricos, definidos em IR. Neste

sistema de números reais devem-se considerar três aspectos cruciais:

Ordem – Os números são ordenados. Números maiores representam maiores quantidades do

atributo medido.

Distância – As diferenças entre pares de números são ordenadas. Isto é, os números descrevem

a magnitude das diferenças entre unidades de observação.

Origem – As séries de números possuem uma origem única, o valor ZERO. Ao zero associa-se a

ausência total de atributo.

Podemos ter 4 tipos de escalas:

Nominal (Variável qualitativa)

o “Simples” acto de rotular ou representar sujeitos, expressando a ocorrência

da observação.

o Afirmação tipo: Os sujeitos diferem, uns dos outros, relativamente à

característica observada. Isto refere-se, essencialmente, a quantidades de

“classificação sistemática”. Por exemplo: n=100 Portistas (Np = 50)

Sportinguistas (Ns = 25) Benfiquistas (Nb = 25)

o Não se trata, exclusivamente, de atribuir números a sujeitos (objectos

individuais), mas também, e sobretudo, a classes de objectos.

o Os sujeitos devem ser classificados num conjunto de categorias

MUTUAMENTE EXCLUSIVAS e EXAUSTIVAS.

o A diferença na classificação é de natureza e não de grandeza.

2

Ordinal (Variável qualitativa)

o “Arranjo” da expressão do atributo medido numa ORDEM NUMÉRICA

(ORDENAÇÃO) – Atribuição de números a objectos ou pessoas de forma a

reflectir uma ORDEM ou POSIÇÃO no atributo em causa, de baixo a elevado.

As diferenças veiculam aumentos na quantidade das observações da variável.

Por exemplo: A é mais simpático do que B / Escalas do tipo Hickert

Intervalar (Variável quantitativa)

o Se, para além de representar as frequências de ocorrência, ordenar e

categorizar sujeitos e atributos, ainda for capaz de apresentar distâncias

numéricas entre os valores de Xi, a escala é designada de INTERVALAR.

o Os números expressam uma unidade fixa de medida, isto é, precisa, para

além dos intervalos evidenciarem consistência ao longo da escala. Por

exemplo: A diferença existente entre 40ºC e 30ºC é a mesma que a entre

60ºC e 50ºC, mas 60ºC não é o dobro de 30ºC!!! Isto porque não temos um

valor significativo para 0, logo não podemos fazer comparações deste

género.

De razão (Ratio) [Variável quantitativa]

o Escala raramente encontrada em informação proveniente de estudos

psicológicos ou sociológicos, mas muito corrente na pesquisa das ciências

mais “pesadas” do Desporto.

o É expressa pelo conteúdo da escala de intervalo e pela presença de uma

origem ou ZERO definido que nos permite comparar directamente o valor da

escala, ao contrário da Intervalar.

o Sendo assim, permite-nos dizer: Um sujeito com 190cm de estatura possui o

dobro da altura de um outro com 95cm.

RE-ESCALAR….

A expressão RE-ESCALAR uma variável refere-se à sua transformação numa outra escala

(geralmente menos precisa). Por exemplo, podemos tornar uma escala de razão, contínua, numa escala

nominal, discreta ou dicotómica.

RE-EXPRESSAR….

O termo RE-EXPRESSAR uma variável refere-se ao processo de transformação da sua métrica

para facilitar os procedimentos de análise e, em alguns casos, a sua interpretação. Por exemplo:

Simetrizar uma colecção de dados.

A partir da “estatística” podemos inferir, isto é, descobrir o valor dos parâmetros.

3

Na amostra, os dados colhidos das variáveis podem ser:

Contínuos (Altura, peso,…)

Discretos (Sexo, Força partidária,…)

ORGANIZAÇÃO DOS DADOS

Uma forma fácil de ler dada informação será, em primeiro lugar, ORDENÁ-LA (Elaboração de um rol,

lista, série ou distribuição). Este processo constitui uma DISTRIBUIÇÃO SIMPLES.

Séries de frequências

Grau de quantidade de dados, variáveis discretas cuja repetição de valores é uma constante.

Implica a “feitura” de uma lista em que todos os valores de igual grandeza estejam

representados pelo seu valor numérico e respectiva FREQUÊNCIA ou EFECTIVO.

A partir do exemplo anterior, o que há a fazer é agrupar cada valor à respectiva frequência

ABSOLUTA ou SIMPLES.

Frequência ou efectivo de cada valor da variável – Número de vezes que um valor se repete.

∑ƒ=n

Noções importantes:

Frequência absoluta (ƒ) (Vamos ter ∑ƒ=n)

Frequência relativa (ƒr) = ƒ/n e ∑ƒr (ƒrac) = 1.00

Representação gráfica:

Gráfico de barras > Linha poligonal

Histograma > Polígono de frequências

Gráfico de caule-e-folhas

Estatística Descritiva – Conjunto de métodos estatísticos que visam sumariar e descrever os

atributos mais proeminentes aos dados.

Estatística Inferencial – Conjunto de métodos estatísticos que visam caracterizar (ou inferir

sobre) uma população a partir de uma parte dela (a amostra).

4

Estatística - A Estatística é uma ciência que estuda a variabilidade apresentada pelos dados.

Permite-nos, a partir dos dados retirar conclusões, e exprimir o grau de confiança ou o erro

que devemos assumir nessas conclusões.

5

Aula 2

SÉRIES AGRUPADAS EM CLASSES

Quando se trabalha com um número elevada de registos de uma variável (por exemplo: x ≥30)

e quando a variável é contínua, é usual recorrer a séries agrupadas em classes.

O que são?

Nada mais do que dividir as séries simples num determinado número de sub-grupos

(CLASSES) e constar a ocorrência (NÚMERO) em cada uma, isto é, frequência de classe.

Nós devemos sempre considerar entre 5 e 10 classes, ou pelo menos assim o é

recomendado, sendo 7 o número de séries de Sturges, mas depende sempre de n e

forma de distribuição dos valores.

Por questões meramente operacionais (uniformização) iremos considerar a seguinte

processologia de agrupamento:

Localizar o valor mais elevado (limite superior da série) e o mais baixo (limite

inferior da série)

Determinar a amplitude total [At = Ls - Li]

Determinar o número de classes (K)

Dividir a At por K > Pretende obter a “largura” conveniente do intervalo de

cada classe

Considerar classes abertas à direita

Definições:

Centro de Classe (Ci) é o valor obtido pela fórmula seguinte: Ci = (Ls + Li)/2

De seguida deve-se proceder à construção da tabela, leitura dos dados e construção

do histograma.

O histograma é um gráfico de barras que possui barras adjacentes e a sua variável é contínua.

Gráfico de caule-e-folhas:

Representação mais clara dos dados (misto de tabela e gráfico)

Todos os valores da série são representados de uma forma subjectiva que faz lembrar um

histograma.

Utilizado para representar amostras de dois ou mais dígitos.

Consiste no seguinte: Do lado esquerdo de uma linha vertical escreve-se o(s) dígito(s) da classe

de maior grandeza, seguida das restantes.

1ºpasso: Traçar uma linha vertical e colocar do lado esquerdo os dígitos dominantes – Caule

2ºpasso: Depois de ordenar a série, colocar os valores das unidades em cada “caule” – Folhas

6

Quando se representa um conjunto de dados sob a forma de um histograma ou numa

representação de caule-e-folhas, pretende-se que se realce o ASPECTO DO HISTOGRAMA,

pois REFLECTE A FORMA DE DISTRIBUIÇÃO DOS DADOS.

o A distribuição pode ser simétrica relativamente a uma classe média;

o Pode ser enviesada, isto é, assimétrica, apresentando valores substancialmente mais

pequenos num dos lados relativamente ao outro;

o Pode ter “caudas pesadas” ou ter vários “picos”.

DESCRIÇÃO NUMÉRICA DOS DADOS

O que aqui se pretende é obter uma descrição sumária o mais completa e simples possível de

uma série simples ou agrupada em classes.

Os “sumários numéricos” (indicadores) deverão possuir algumas características:

Objectividade

Dependência de todas as observações

Ter um significado concreto

Prestar-se a cálculo algébrico.

Medidas de Tendência Central

Média (X), Mediana (Me), Moda (Mo)

Medidas de Dispersão

Variância (S2), Desvio Padrão (S), Coeficiente de variação (CV), Intervalo de variação ou

amplitude (δ)

Medidas de Assimetria

Coeficiente de assimetria (g1)

Medidas de Achatamento

Coeficiente de achatamento (g2)

Medidas de Ordem

Quartis (Qi), Decis (Di), Centis (Ci) ou Percentis (Pi)

MEDIDAS DE TENDÊNCIA CENTRAL – LOCALIZAÇÃO

7

Para se possuir uma visão ainda mais sintética dos dados exige-se uma redução, sob vários

ângulos, que nos informe das características dos dados.

As Medidas de Tendência Central ou Localização DESCREVEM as características centrais dos

dados. São as seguintes:

Média Aritmética Simples;

Mediana;

Moda.

Média Aritmética Simples

A média aritmética é a medida de tendência central por excelência. No seu cálculo considera-se

não só o número de observações, como também a sua magnitude. Esta baseia-se pois na divisão entre o

somatório de todas as observações e a totalidade de sujeitos.

X = ∑ Xi / n

Se os dados se encontrarem agrupados: X = ∑ ƒ Xi / n ou X = ∑ ƒ Xi / ∑ ƒ

Se os dados se encontrarem agrupados em classes, tiramos também conclusões com o Ci

Numa fórmula rápida e expedita de calcular X é considerar os valores de Ci : X = ∑ Ci / K, parte-se do

princípio que Ci representa a distribuição dos valores de cada classe (isto nem sempre é verdade), para

além do facto de não substituir os diferentes valores de ƒ de cada classe.

Neste caso: X = ∑ ƒr Ci . O mesmo resultado é obtido se: X = ∑ ƒ Ci /n

Importa referir que nestes últimos dois casos se está a “PESAR” os centros de classe (Ci) pela respectiva

frequência. Deste modo o que aqui temos são médias pesadas ou ponderadas.

O que está expresso no caso específico da média aritmética simples é a forte SENSIBILIDADE da média à

presença de valores muito grandes ou muito pequenos numa dada série (a média é uma medida

POUCO ou nada ROBUSTA a valores extremos).

Moda

É o valor mais frequente numa dada série. Pode ocorrer que haja mais que uma moda (bi ou

plurimodal). Pode referir-se a valores ou a classes.

Podemos calcular a moda a partir do histograma, a partir da semelhança de triângulos, por

exemplo.

8

Mediana

É uma medida de localização do centro da distribuição dos dados. Divide a série a meio (preciso

ordenar a série). Enquanto medida de ordem, não considera a magnitude de cada observação.

Para calcular a Me utiliza-se a seguinte regra depois de ordenar a série:

Se n é ímpar, a Me é o elemento “médio”

Se n é par, a mediana é a semi-soma dos dois elementos “médios”

A mediana é uma medida ROBUSTA dado não ser sensível a valores extremos da série.

Medida útil quando os dados são fortemente enviesados à direita ou à esquerda.

Qual das medidas seleccionar: Média, Mediana ou Moda?

Cada uma destas medidas expressa aspectos diferentes da noção da tendência central da

distribuição de valores.

Se se tratar do melhor palpite relativamente a um dado valor, a escolha recairá sobre a

MODA (valor mais frequente) - Trata-se da EXACTIDÃO na escolha.

Se se tratar de cometer o MENOR ERRO ABSOLUTO em função de todos os valores da série, a

MEDIANA é a solução.

Se se tratar da consideração da MAGNITUDE DO ERRO e do SEU SINAL, então a MÉDIA é a

solução.

O cálculo da mediana, séries agrupadas em classes, faz-se pelo princípio da INTERPOLAÇÃO

LINEAR, através de um Polígono de Frequências acumulado.

9

Aula 3


As medidas de tendência central, por si só, são insuficientes! Há que realçar a importância da

VARIABILIDADE. O mundo vivo é caracterizado por esta.

As medidas de tendência central fornecem informação acerca de determinados aspectos da

distribuição, isto é, a sua localização. Porém, são insuficientes para a sua descrição completa.

Apesar dos valores da média e da

mediana poderem ser os mesmos em cada

série, a distribuição individual dos valores

em cada uma é DIFERENTE, isto é, cada uma

possui diferente variabilidade.

1. Intervalo de variação ou Amplitude (A)

Medida de variabilidade que transparece a diferença entre os valores mais elevado e

baixo da série. É algo “grosseira” visto que apenas considera os seus valores extremos.

2. Variância (S2)

Medida de variabilidade que considera todos os valores da série bem como a sua

magnitude. As ideias centrais para o seu cálculo pressupõem o desvio da média (Xi – X ou Xi - µ),

a soma de quadrados *∑(Xi – X)2 ou ∑(Xi - µ)

2] e os graus de liberdade.

Podemos calcular a sua variância amostral a partir das expressões: S2

=

ou S

2

=

Média dos quadrados dos desvios em relação à média

E porque é que se divide a SQ por (n-1) e não por n, dado que se tem n desvios e não n-1?

Na realidade, só aparentemente se possuem n desvios independentes. Se se

calcularem (n-1) desvios, o restante fica automaticamente calculado, uma vez que a sua soma é

igual a zero. Costuma-se referir este facto ao se dizer que se perdeu 1 grau de liberdade.

S2

=

SQ = ∑x2

–

10

Se os dados estiverem agrupados em classes podemos aproximar a variância amostral

pela fórmula: S2 =

–

Dado que o cálculo da variância envolve a soma de quadrados, a unidade em que se

exprime não é a mesma dos dados. Para obter uma medida de variabilidade na mesma unidade

de medida da variável, toma-se a raiz quadrada da variância.

3. Desvio-padrão (S)

É a raiz quadrada média positiva da variância. Este é muito sensível à presença de

valores extremos, denominados outliers, sendo desta forma uma medida de dispersão POUCO

RESISTENTE. Ou seja, um valor grande para o desvio-padrão pode ser devido a uma grande

variabilidade nos dados ou então à existência de 1 ou mais outliers.

Podemos desvendar o intervalo onde determinados valores se encontram, num modo

geral, ao adicionarmos e subtrairmos o valor do desvio padrão à média.

4. Dispersão relativa

Estas medidas servem para comparar conjuntos de dados diferentes e variações em

diferentes segmentos de uma mesma escala. Para elas, utilizamos uma coeficiente de

dispersão ou variação (CV).

CV =

x 100 (%)

5. O desvio-padrão e a distribuição normal

Neste caso, o desvio-padrão pode ser entendido enquanto medida de distância.

Ex: Quem tem 72kg de peso, está 1 desvio-padrão acima de média.

6. Comparar médias de duas distribuições: a relevância da variabilidade

Apreciar a importância do desvio-padrão na comparação de 2 médias.

7. Magnitude do efeito (ME)

Serve para expressar a diferença entre duas médias em unidades do desvio-padrão.

ME =

=

Valores “padronizados” para interpretar a ME:

ME = 0,20 Efeito pequeno ou reduzido

ME = 0,50 Efeito moderado

ME = 0,80 Efeito substancial (grande)

Processo:

I. Calcular a diferença entre médias

11

II. Calcular a SQ para cada grupo

III. Calcular o desvio-padrão comum

IV. Calcular a ME

V. Interpretação

Ex: A média de lançamento da bola do 1ºgrupo situa-se 0,5 desvio-padrão abaixo da média do

2ºgrupo. Este efeito diferenciador das médias dos dois grupos é moderado.

Medidas de Ordem

As medidas de ordem são utilizadas quando se pretende classificar sujeitos, isto é, determinar a

sua posição relativa no conjunto a que pertence.

Úteis:

Provas de classificação

Selecção de candidatos

Construção de perfis

Descrever o desempenho

Divisões:

Tercis – Escala de valores que dividem a série em 3 partes iguais

Quartis – Escala de “notas” ou valores que dividem a série em 4 partes iguais

Quintis – Escala de “notas” que dividem a série em 5 partes iguais

Decis – Escala de 10 pontos que divide a série em consideração

(Per)centis – Dividem a série em 100 partes

Ai - Amplitude da classe (série)

Cálculo simples das divisões

Ta =

Qa =

Qi =

Da =

Ca =

12

Box-Plot (Diagrama de extremos e quartis | Diagrama de caixa-de-bigodes)

Representação gráfica que permite realçar as seguintes características dos dados: CENTRO,

VARIABILIDADE, SIMETRIA, OUTLIERS.

Aplicação directa dos QUARTIS (Percentis): P25/Q1 , P50/Q2/Me , P75/Q3

A1 – Valor adjacente inferior – menor valor da amostra – que é maior que: P25 – 1,5(P75 – P25)

A2 – Valor adjacente superior – maior valor da amostra – que é menor que: P75 + 1,5(P75 – P25)

Amplitude inter-quartil (Aiq) – Medida de variabilidade definida pela diferença entre o 1º e o

3ºquartil Aiq = Q3 – Q1

A Aiq é resistente à presença de valores extremos.

Eu devo juntar à média o valor da média dos valores dos afastamentos à média (desvio-padrão).

Para evitar que esta média fosse igual ou próxima de zero, elevaram-se esses valores ao quadrado para,

deste modo, só termos valores positivos (variância). Ao aproveitarmos este valor, temos de o

apresentar na mesma unidade dos resultados. Aí, aplicamos a raiz quadrada a esse valor para

chegarmos ao novo valor do desvio-padrão (Quanto maior for este valor, maior será a variação

relativamente ao conjunto de valores sobre o qual a maioria dos resultados recai, e vice-versa.)

13

Estatística Descritiva


Média Moda Mediana


Variância Desvio-padrãoCoeficiente de

variaçãoAmplitude

Forma da Distribuição

Medidas de Ordem

Percentis

14

Aula 4

A DISTRIBUIÇÃO NORMAL

Não há uma distribuição normal. Há uma família delas!

Temos sempre dois parâmteros:

Medida de Tendência Central (Localização) – Média

Medida de Variação – Variância

A distribuição normal (curva de Gauss) é utilizada para DESCREVER e AVALIAR o

sentido, isto é, a magnitude de um resultado ou grupo de resultados, relativamente ao desvio-

padrão e para calcular probabilidades.

Como se distingue uma curva normal de uma outra que não o é?

I. Forma

II. Cálculo dos índices de Assimetria (G1) e Achatamento (G2)

G1 = 0 Simétrica

G1 =

G1 Assimétrica Positiva

G1 Assimétrica Negativa

G2 = 0 Simétrica/Mesocúrtica

G2 =

G2 Leptocúrtica – Pico enorme

G2 0 Platicúrtica – Caudas muitos pesadas

Características da Curva Normal:

Forma de sino

Unimodal

Simétrica

15

Assíntota – A curva nunca “toca” a abcissa. A distribuição normal é contínua para

todos os valores da variável (x) de -

É puramente teórica – Não existe no mundo real.

A área sob a curva normal é aquela porção do plano compreendida entre a curva e a

linha de base, que compreende em qualquer distribuição normal 100% dos dados

considerados.

Isto implica que uma proporção constante da área total se situará entre a média e

qualquer distância a partir dela, desde que se considere unidades do desvio-padrão.

Normal Reduzida

Devido à incomensurabilidade das medidas nos diferentes aspectos, ou seja, a termos

unidades de medida completamente distintas, surge a possibilidade de transformar X em Z

(nova variável) que possua uma única unidade de medida.

Ausência de significado de uma única observação numa série de dados. Mas se se

afirmar que se situa 2 desvios-padrão acima da média já possui um significado muito preciso.

X Z

O que se faz não é mais do que determinar a distância de Xi para a média e expressar

tal diferença em unidades do desvio-padrão.

Z=

NORMAL REDUZIDA

Z =

, Z POPULAÇÃO NORMAL

Média Desvio-padrão

Segue uma distribuição normal

Usualmente não as conhecemos – Parâmetros da variável a estudar, ainda

não “transformada”

16

Em avaliações, devemos:

I. Recurso aos perfis ou padrões normativos;

II. Recurso ao somatório.

Curva normal

O seu interior compreende, aproximadamente, 100% das observações realizadas

Tem a forma de sino

Média, Moda e Mediana situam-se no mesmo lugar, situando-se exactamente no centro da

curva, isto é, divide a mesma em duas partes iguais

Vai de - a +

Desvio-padrão como quantificador, unidade de medida

17

Z – Medida padrão ou transformada

18

Aula 5

Correlação Linear simples

Ideias essenciais

1. Descrever o grau de relação ou associação entre duas variáveis

2. Procurar expressar a ideia da relação entre variáveis cuja essência é, de certo modo, a

imprecisão.

No entanto, em média, alguns tendem a ser mais alguma coisa e outros tendem a

qualquer coisa.

É da variação e CO-VARIAÇÃO (isto é, Variação conjunta) em TERMOS MÉDIOS que se

ocupam a CORRELAÇÃO e a REGRESSÃO.

Correlação – Relação estatística que se estabelece entre variáveis.

A análise gráfica é ESSENCIAL para se proceder a uma “investigação” inicial da relação

entre variáveis. A representação de pares de pontos (Xi, Yi) num sistema de eixos cartesianos,

toma o nome de DIAGRAMA DE DISPERSÃO.

Neste, podem existir relações positiva (razão directa) [0,1] ou negativa (razão inversa) [-

1,0].

Coeficiente de correlação linear – Medida DESCRITIVA de associação entre duas variáveis.

Esta também pode ser designada como correlação MOMENTO-PRODUTO.

Conceito físico: Distância de um objecto (Xi) ao eixo de rotação ( ) - Dados centrados ou “padronizados”

A noção de covariância ou variação conjunta (a ideia central da correlação)

COV =

Soma de produtos cruzados

19

A covariância indica-nos se há uma associação entre as variáveis.

r =

Coeficiente de correlação de Pearson

Desvio-padrão Apresenta limites – 0 e 1 – ao contrário da variância.

Porém, uma forma “mais prática” reside no uso da fórmula seguinte:

r =

A interpretação do coeficiente de correlação é efectuada em duas etapas:

1. Conhecer o significado estatístico do rxy

a. Interpretação imediata e subjectiva antes do seu significado estatístico

i. 0.00 - Relação Indiferente

ii. 0.20 - 0.40 Relação fraca

iii. Relação ligeira a substancial

iv. Relação alta (forte)

b. No entanto, há que considerar:

i. Natureza das variáveis

ii. Variabilidade do grupo

iii. Finalidade do uso do rxy

2. Identificar a percentagem de variância comum de duas variáveis

Passos para a correlação:

1. Análise gráfica;

2. Cálculo de r;

3. Cálculo de r2 (coeficiente de determinação)

Pressupostos para o cálculo de rxy

1) Linearidade

a. Só se aplica a dados que evidenciem linearidade de comportamentos

2) Dados Intervalares

20

a. Devem estar, no mínimo, ao nível intervalar. Dados ordinais e nominais reclamam

outros coeficientes

3) Amostras aleatórias

a. Devem ter sido extraídos, de forma aleatória, de uma dada população, pois só assim

terá sentido o texto formal

4) Normalidade bi-variada

a. Espera-se que, na população, X e Y tenham distribuições normais.

Cuidados na interpretação de rxy

I. Uma correlação de r = 0.90 não representa uma correlação duas vezes mais forte que r = 0.45.

Deve-se interpretar os valores de r2.

II. O coeficiente de correlação não suporta qualquer argumento causal.

III. Podemos interpretar o valor de r a partir do coeficiente de determinação (r2).

Coeficiente de determinação (r2) – Proporção de variância comum partilhada pelas duas variáveis.

Quando temos variância comum, por exemplo, onde o coeficiente de determinação é

igual a 0.25, podemos dizer que 25% das ocorrências da variável Y podem ser explicadas

através da ocorrência da variável X.

Quando o valor de r encontrado é muito elevado, a associação entre as duas variáveis

(r2) é também muito elevada.

Quando há uma correlação ligeira e negativa entre os valores dos dois testes, a

proporção de variância comum é fraca.

Coeficiente de não-determinação (1-r2) – Quanto da variância das duas variáveis não é comum

Ex: r2

= 0.25 (25%) r = 0.50

1 – r2 = 1 – 0,25 = 0.75 ou 75%, isto é, 75% da variância não é partilhada pelas variáveis.

Busca de associações entre variáveis

21

Atentar nos efeitos de um “outlier” e da restrição na amplitude dos dados de duas variáveis.

Regressão Linear e Predição

Temos situações em que se é tentado a predizer o valor de uma variável a partir do

conhecimento da outra. Prever acontecimentos em relação a indivíduos é uma tarefa difícil, e

em alguns casos, impossível.

No entanto, conhecida a relação entre duas variáveis, pode ser possível predizer uma a partir

da outra dentro dos limites dos dados em que se baseia a correlação.

No contexto da regressão,

X – Variável independente (Variável preditora – Vai fazer prever uma outra)

Y – Variável dependente (Variável critério, valor predito ou estimado)

A melhor recta é aquela que minimize a diferença entre os pontos.

Declive da recta:

A regressão linear é a expressão da relação linear actual entre duas variáveis. A partir da

equação da recta (Y = a + mx), vem:

O declive da recta é conhecido pelo coeficiente de regressão amostral ( . O seu valor:

I. É independente da origem das variáveis e do número de pares de observações;

II. É expresso em unidades da variável dependente;

a = Ordenada na origem (valor de Y quando x=0)

b = Declive da recta, isto é, a razão da variação de Y pela variação de X

22

III. O seu valor numérico é baseado num único factor. A presença e influência de factores adicionais são

completamente ignoradas no problema da regressão linear simples – Dificuldade de precisão baseada

num único factor.

A recta que melhor se ajusta, para um determinado par de dados, é definida como a única

recta em torno da qual a soma dos quadrados dos dois triângulos dos valores observados à

recta é mínima. Estes erros de predição têm de ser minimizados:

Daí que: y = a + bx + ei Resíduos da Regressão

Os valores preditos ou estimados da recta de regressão são, num certo sentido,

estimativos da média dos valores de Y correspondentes a um dado valor de X.

Média condicional E (Y|Xi)

“Local” da média condicional (na recta) da variável dependente para um valor fixo da variável

independente.

Previsão

1) Relação entre variáveis

a. Positiva

b. Negativa

c. Não existente

2) Calcular o valor da relação (r) – Encontra-se entre -1 e 1

3) Coeficiente de Determinação (r2)

23

Aula 6

Regressão Linear simples e predição

Partindo de

A recta que melhor se ajusta é a recta de regressão. Nesta recta, os valores preditos de Y (

“cairão” nos valores de Xi (dentro dos seus limites).

A recta de regressão passa pela intersecção pelos pontos

A recta pode ser pobremente ajustada caso a relação entre as variáveis seja fraca ou se a

relação não for linear.

Assim, a partir desta soma de quadrados (igual ao mínimo) e da equação da recta de

regressão: , chegamos às fórmulas de

Caso sejam conhecidos os valores de rxy, sx e sy:

b = [

Se não forem conhecidos, então temos que:

a = ( –

O valor de b informa-nos sobre aquilo que é preciso esperar na variável dependente Y

quando o valor de X (variável independente) aumenta um valor.

a – Valor na ordenada quando X=0. Normalmente funciona como factor de correcção

b – Declive ou coeficiente de regressão linear

O coeficiente de correlação pode-nos dizer se a nossa previsão está bem ajustada ou se é

desastrosa.

Coeficiente de correlação elevado – A diferença entre os valores obtidos e da previsão

pela recta de regressão é mínima.

24

Coeficiente de correlação fraco – A diferença entre os valores obtidos e da previsão

pela recta de regressão é grande.

Quando Yi é predito a partir de Xi, a variância (Yi - representa-se por S2y.x

S2y.x =

--------- Sy.x = Sy

Erro padrão de estimativa

Sy.x – Se for 0, a previsão é perfeita. Quanto menor for a distância dos desvios, menor será este valor.

Expressa em valores da variável dependente.

S2

y.x S2

yx

O erro padrão de estimativa mede a extensão destes desvios da recta aos valores observados.

Ou seja, o que se encontra representado é o “quão perto” os pontos se aglomeram em torno

da recta.

Sempre que obtemos um resultado, , temos uma estimativa pontual. Esta trata-se de uma

correlação perfeita, se e só se Sy.x = 0

Quanto maior for a correlação, mais precisa será a previsão.

E(y) =

Passos para o cálculo da precisão

Cálculo do erro-padrão de estimativa

Cálculo da estimativa

Cálculo do intervalo de confiança

Regressão e Soma de Quadrados

Notação de co-variância

Para reflectir cerca de 68% dos resultados, 95% dos resultados

ou 98% dos resultados – Valores da normal reduzida, definidos

na tabela.

25

A interpretação de rxy é feita a partir da interpretação da VARIÂNCIA.

O r não é uma proporção (r = 0.60 não é igual a 2 x .30)

A diferença entre dois valores de r distintos não é igual para a mesma diferença entre outros

dois valores

Na estimação de Yi a partir de Xi, o valor de Yi pode ser entendido como composto por duas partes:

Valor previsto ( . Isto é, a distância do eixo de à recta.

VARIAÇÃO EXPLICADA:

Diferença entre o valor observado de Yi e o valor previsto (

VARIAÇÃO NÃO EXPLICADA:

Estas partes são independentes e aditivas:

+

Variação Total = Variação Explicada + Variação Residual

Pode determinar-se a proporção da variância total que é variância explicada.

= r2

= r Coeficiente de correlação

Correlação «=» Regressão

Com recurso à fórmula anterior, podemos aferir que, por exemplo, 75% da variância total de Y

é previsível – explicada – a partir de X. Sendo assim, os restantes 25% da variância total de Y

não é explicada – residual – a partir da variável X.

Variância total Soma de quadrados total

Variância explicada

Variância residual ou não explicada

26

Pressupostos do Modelo de Regressão

i. Homogeneidade de Variâncias

a. Todas as distribuições de Y possuem a mesma variação.

ii. Linearidade

a. Para cada distribuição, a média situa-se na recta de regressão populacional ou

verdadeira recta de regressão.

i. E (Yi) = µi = α + βXi

ii. Os valores de α e β são parâmetros populacionais estimados a partir da

informação amostral ( .

iii. Independência

iv. Normalidade das Distribuições

v. Intervalar ou de Razão (escala de medida das variáveis)

a. As variáveis utilizadas neste modelo têm que estar medidas numa escala intervalar ou

de razão.

27

Aula 7

Distribuições amostrais

Quando, ao calcularmos a média de uma dada AMOSTRA e repetirmos esse processo algumas vezes,

denotamos que o seu valor vai ser diferente na maioria dos casos. Isto deve-se a erros amostrais, isto é,

à própria variabilidade do desempenho dos sujeitos estudados, dado ser impossível que todos tivessem o

mesmo valor de variável estudada.

Erro amostral (ei) – Diferença entre o valor de um parâmetro (Θ) e o valor da sua estimativa (Ô).

Todo este processo é semelhante ao de distribuição normal, porém enquanto neste tratamos de médias

amostrais, que funcionam com sujeitos colectivos, na DN pensamos em termos individuais.

População – Colecção total de objectos ou pessoas a ser estudada. Os seus membros são designados

por unidades ou elementos. O seu número total é dado por N e cada elemento por Xi.

Dada a impossibilidade de estudar toda a população, pesquisa um sub-conjunto suficientemente

representativo em termos de qualidade e quantidade designado de AMOSTRA, partindo-se desta para

GENERALIZAR a população.

Estatística – Sumaria um aspecto das observações amostrais.

Parâmetro – Caracteriza um aspecto da população.

Estatísticas Parâmetros

(Média amostral) µ (Média populacional)

S2 (Variância amostral) δ2 (Variância populacional)

S (Desvio-padrão amostral) δ (Desvio-padrão populacional)

rxy (Coeficiente de correlação de Pearson amostral) pxy (CC de Pearson populacional)

Estimam

28

Modelo de amostragem aleatória

Importante para inferir acerca de µ com base em

Exige uma amostra aleatória (tipo lotaria)

Seleccionar uma amostra aleatória simples

Há, essencialmente, duas grandes categorias de amostragens:

o Probabilísticas (Aleatórias)

Simples

Sistemática

Estratificada

o Não-probabilísticas (Não-aleatórias)

Por conveniência

Por contraste

Por quotas

A média populacional é a média das médias amostrais.

A Estatística Inferencial:

Estima parâmetros

Ensaia hipóteses

É um processo de tomada de decisão baseado em probabilidades e pode ser de dois tipos:

- Estimação de parâmetros – usando a informação de uma estatística amostral podem tirar-se

conclusões sobre um valor de um parâmetro populacional;

- Testes de hipóteses – usando a informação da amostra é possível decidir se uma hipótese

(pressuposto) sobre um parâmetro populacional, por exemplo, a média ou proporção, deve ou não ser

rejeitada.

Distribuição amostral das médias

A distribuição amostral das médias é uma distribuição probabilística. Ela é cada vez mais

semelhante à distribuição normal populacional à medida que o número de amostras aumenta.

Rege-se por algumas características:

1. A média da distribuição amostral das médias ( ) é igual à média da população (µ).

2. O desvio-padrão da distribuição amostral das médias é conhecido por erro-padrão da média

. Depende do valor de σ (directamente) e de n (inversamente).

29

- Será tanto maior quanto mais elevada for a magnitude de σ, isto é, maior variabilidade na

população [atenção aos outliers]

- Será tanto menor quanto maior for n – Mais precisa o valor da média amostral se torna,

relativamente ao valor da média populacional.

- Tende a aproximar-se de 0 à medida que n aumenta.

3. Forma da distribuição amostral das médias

a. De acordo com o teorema de limite central (TLC) , a distribuição amostral das médias

tende para uma distribuição normal à medida que n aumenta – Qualquer que seja o

formato da distribuição parietal da variável, a distribuição amostral das médias tende

a tornar-se uma distribuição normal à medida que o número de sujeitos aumenta.

De modo a sabermos calcular a probabilidade em obter uma média amostral em relação a dado valor,

devemos:

1) Calcular

2) Calcular o valor de Z

3) Consultar a tabela de referência

O erro-padrão da média é inversamente relacionado com a dimensão amostral. Isto é fundamental na

precisão de enquanto estimador de µ. Atenção que apenas o quadrúpulo de n duplica a precisão de

para estimar µ, já que o denominador trata-se de .

30

Aula 8

Testes de hipóteses estatísticas.

Teste para µ com σ2 conhecido.

É um processo de tomada de decisão baseado em probabilidades e pode ser de dois tipos:

- Estimação de parâmetros – usando a informação de uma estatística amostral podem tirar-se

conclusões sobre um valor de um parâmetro populacional;

- Testes de hipóteses – usando a informação da amostra é possível decidir se uma hipótese

(pressuposto) sobre um parâmetro populacional, por exemplo, a média ou proporção, deve ou não ser

rejeitada.

Este valor vai ser testado, segundo um valor teste. O passo seguinte será o transformar este para um

valor probabilístico, tendo um valor de prova (p), este que nos diz se a probabilidade de H0 é ou não

verdadeira.

Se a probabilidade for superior a 0.05 (5%), então H0 – a nossa hipótese nula – é verdadeira. Se for

inferior a esse valor, então esta é rejeitada, que é o que se pretende.

Hipótese estatística – Afirmação acerca de um parâmetro.

Hipótese nula, H0, é uma afirmação que indica não haver diferença entre a média da população, u, e o

valor hipotético assumido; isto é, nula significa que não há diferença. É assumida como sendo

verdadeira e é testada formalmente. É esta que gera a distribuição amostral a ser empregue. É objecto

de ensaio e cuja decisão final pode ser “REJEITADA” ou “NÃO REJEITADA”.

Hipótese alternativa, H1 ou HA, é uma afirmação que discorda da hipótese nula. Nunca é testada

formalmente. Pode tomar duas formas:

31

Não direccional (bilateral) – Por exemplo: H1: µ ≠ 250

Direccional (unilateral) – Por exemplo: H1: µ > 250 ou H1: µ < 250

Se a hipótese nula é rejeitada em resultado da evidência, a hipótese alternativa é a conclusão.

Se não tivermos evidência(s) suficiente para rejeitar a hipótese nula, ela mantém-se mas não a

aceitamos, dizemos apenas que não a podemos rejeitar.

É importante realçar que H0 e H1 são afirmações acerca de parâmetros e não de estatísticas

amostrais.

Etapas:

i. Ensaiar uma hipótese (Hipótese alternativa)

ii. Formalizar as hipóteses – Especificar as hipóteses nula e alternativa e o nível de

significância

iii. Seleccionar a amostra e calcular as estatísticas necessárias

a. Converter o valor da hipótese alternativa num score Z

iv. Testar a hipótese nula – Determinar a probabilidade de Z na condição da hipótese nula

v. Representação gráfica para apoio

vi. Comparações dos valores obtidos relativamente à média populacional

a. As diferenças são meros erros amostrais

b. A possibilidade de ocorrer um erro amostral já não é tão plausível

vii. Decidir

Quando o teste Z só envolve uma amostra, é designado de teste da média (com σ2 conhecido).

32

A área da probabilidade de ocorrência da hipótese nula corresponde a um espaço

probabilístico de ocorrência da hipótese nula.

O valor de prova é uma probabilidade de ocorrência de H0 se esta for verdadeira. P é uma

medida de “raridade” dos resultados amostrais se H0 for verdadeira.

Valor de prova (p-value) - a probabilidade (p) de obter, por acaso, o resultado observado no teste

estatístico realizado, ou outro ainda mais extremo, admitindo que a hipótese nula é verdadeira.

Será que o nível de significância sugere que a hipótese nula é falsa?

Se a hipótese nula é verdadeira, α especifica a raridade de ocorrência de uma dada

média amostral. O α permite estabelecer regiões críticas, sendo que no gráfico temos

presente:

o Valor crítico

o Região de rejeição de H0

o Região de não rejeição de H0

Usualmente, o nosso nível de significância situa-se nos 5% (0.05), podendo também

corresponder a 1% (0.01) ou a 0,1% (0.001).

Rejeição de H0 Não rejeição de H0

Em termos de p p ≤ α p > α

Em termos de z Se z ≤ - zα ou z ≥ + zα Se z > - zα ou z < + zα

O nível de significância é um risco para rejeitar a hipótese nula quando esta é verdadeira.

33

Dá a probabilidade de rejeitar a hipótese nula quando é, de facto, verdadeira, é conhecido como

erro tipo I.

Se H0 for falsa e não for rejeitada, então temos um erro tipo II.

A rejeição de H0 conduz ao estabelecimento de resultados estatisticamente significativo. Se

não há rejeição, então estes são estatisticamente não significativos. Objectivamente, no

primeiro caso é irrelevante, enquanto no segundo é relevante – Não confundir

estatisticamente significativo com importante, substancial ou relevante.

O estabelecimento de H1 unidireccional, ou não, exige uma noção muito clara da substância do

problema em estudo. As implicações estatísticas são evidentes:

Problema: Colocação substantiva

Formalismo estatístico: Ensaio de hipóteses

Conclusão: Da estatística à substantiva.

34

Aula 9

Ensaio de hipóteses

Teste da média com variância populacional desconhecida

A média amostral é um bom estimador da média populacional, garantindo o

pressuposto da aleatoriedade da amostra e uma dada dimensão amostral – Quanto maior for

o número de amostras, menor será o erro-padrão da média.

Também nos é possível determinar se uma dada média pertence ou não a uma

distribuição amostral de médias.

Se a probabilidade da média amostral “estar perto” da média populacional for

reduzida, então podemos concluir que:

i. A amostra donde foi calculada a média amostral tem uma probabilidade muito

reduzida de pertencer à população parental.

ii. A amostra foi retirada da população-alvo, mas o seu processo foi viezado de tal modo

que já não é representativa da população.

O problema com o qual nos podemos deparar é com o facto de a variância populacional

ser desconhecida. Sendo assim, há que estimar o erro-padrão da média a partir do desvio-

padrão amostral.

Dado que a estatística Z é somente utilizada com a variância populacional conhecida,

quando esta não o é, recorre-se ao teste t.

t =

Incorpora a magnitude de efeito

Está expresso em unidades do desvio-padrão da média

Ele vai transformar o valor de t num valor de prova (p), que representa a probabilidade da

hipótese nula ser verdadeira [apenas consigamos verificar isto no SPSS].

A partir desta equação, somos capazes de chegar ao tamostral. O tcrítico pode ser “descoberto”

através de uma tabela própria com valores relativos a este teste.

Como interpretar o valor do tamostral?

Devemos ter em atenção a distribuição t de student, que pressupõe os conceitos de

graus de liberdade e distribuição amostral de t.

35

Graus de liberdade

Número que indica a quantidade de “peças de informação independente” que uma

dada amostra de observações providencia em termos de inferência estatística.

No estudo do desvio-padrão amostral, há necessidade de sabermos os valores da soma

de quadrados e dos graus de liberdade.

Distribuição amostral de t (Distribuição t de student)

Variância populacional (σ2) é desconhecida. Há, pois, que recorrer à distribuição t.

Pretende solucionar o problema de estimação de parâmetros e ensaiar hipóteses com

o valor acima referido desconhecido.

Tem a forma de sino, é simétrica, unimodal e a sua média é zero (só na normal

reduzida). Possui graus de liberdade (ѵ), parâmetro fundamental. A variância desta

distribuição com џ graus de liberdade é dada por ѵ/(џ-2).

À medida que o número de graus de liberdade aumenta, a distribuição t aproxima-se

de uma distribuição normal.

o Quando n ≥ 30, a ptѵ = pz

Tabela de distribuição t

o Vertical – Graus de liberdade

o Horizontal – Áreas sobre a curva

o Corpo da tabela – Valores críticos de t para um dado número de graus de liberdade e

nível de significância (testes unilaterais e bilaterais)

36

Se o tamostral for maior ao tcrítico , então devemos rejeitar a hipótese nula. Se for menor,

então não a podemos rejeitar.

Construção de um intervalo de confiança para µ com σ2 desconhecido

A fórmula para a construção de um intervalo de confiança é:

o

o dos valores de tcrítico apresentados, podemos concluir qual a área coberta

por esse intervalo de confiança

Inferências sobre médias

Processo inferencial sobre a média da população µ (desconhecida) a partir de uma

amostra (quando a variável na população segue uma distribuição normal):

Baseia-se na distribuição amostral “padronizada” N (0,1), quando o desvio-padrão da

população, σ, é conhecido.

Baseia-se na distribuição t de student, quando o desvio-padrão da população, σ, não é

conhecido, mas apenas é conhecida a sua estimativa, s, calculada a partir de amostra.

37

Se a distribuição das médias amostrais seguir a distribuição normal e se σ for conhecido, o

cálculo de intervalos de confiança e os ensaios de hipóteses para µ são calculados a partir de:

z =

Características da distribuição t de Student

É semelhante à distribuição normal: simétrica em relação à média e em forma de

sino;

É mais achatada que a normal (variabilidade da distribuição t é maior que a da

normal;

À medida que o número de graus de liberdade aumenta, vai-se aproximando da

normal.

38

Aula 10

Ensaio de hipóteses para a diferença entre 2 médias

(medidas independentes)

Nos ensaios de hipóteses com frequência tentam-se DIFERENÇAS entre DUAS médias

pertencentes a DOIS GRUPOS.

Ex: Os programas de treino de força dinâmica são mais eficazes que os da força isométrica.

Medidas Independentes – Os registos obtidos num dos grupos não estão

correlacionados ou não dependem dos obtidos no outro grupo.

H0 : µ1 = µ2 ou H0 : µ1 - µ2 = 0

H1 : µ1 ≠ µ2 ou H1 : µ1 > µ2 ou H1 : µ1 - µ2 > 0

H0 sugere:

As duas amostras foram retiradas da mesma população;

Qualquer diferença observada entre as médias amostrais é considerada

CASUAL, mero resultado de um erro aleatório no processo amostral.

Atenção

I. À luz da hipótese nula, uma diferença entre as médias amostrais (

não representa

uma verdadeira diferença entre as médias populacionais (µ1 e µ2).

II. A haver diferenças entre as médias, a hipótese nula procura explicá-la através da presença

inevitável de um erro amostral.

III. Em contrapartida, a hipótese alternativa salienta a circunstância das amostras terem sido

retiradas de populações com médias diferentes, isto é, o erro amostral não é suficiente

para explicar a magnitude das diferenças encontradas.

39

Média da distribuição amostral da diferença de médias

População 1:

População 2:

Diferença de médias amostrais:

A média da distribuição amostral da diferença de médias quando H0 é verdadeira é

= 0

O desvio-padrão desta distribuição é designado por erro padrão da diferença de

médias, σ em que:

=

Se as variâncias das duas populações forem iguais, =

, sendo que

temos de conhecer as variâncias

Este valor será tanto menor quanto mais elevados forem n efectivos de cada amostra.

Estimar

o Explicar o pressuposto da homogeneidade de variâncias

o =

o Já que nem sempre os grupos possuem o mesmo número de sujeitos, ou há vantagem

em obter uma estimativa conjunta da variância (estimativa da variância comum), vem

Diferença de

médias

amostrais:

+: d > 0

- : d < 0

TLCentral:

Distribuiç

ão

normal;

=

0

40

o

, ou então,

o A estimativa de , representada por , é:

o =

o =

Em que:

e

Se =

Teste formal para duas amostras independentes

Para duas amostras independentes, temos:

t =

Como é 0:

t =

A diferença entre e

representa a Magnitude de Efeito Absoluta.

Construção de um intervalo de confiança para

Interpretação do significado de diferença

1) Conceito de variância explicada (ω2)

2) Magnitude de Efeito (ME)

41

Problemas de interpretação centrada exclusivamente no valor de p

A. Resultado significativo (p < 0.05) e não ter qualquer significado prático

a. Muitos graus de liberdade; Tc irrelevante; H0 vai ser rejeitada;

b. Caso flagrante da dependência dos resultados á dimensão amostral e

variação reduzida em cada grupo.

B. Qual deve ser o tamanho da diferença para lhe ser atribuído relevância prática

(substantiva)?

Soluções

A. Variância explicada

a. No caso do teste t, a fórmula é a seguinte:

i. ω2 =

b. Exemplo de interpretação: Somente 4,5% da diferença de pontuação no teste

é devida à diferença entre sexos. 95,5% da variação verificada está por ser

explicada.

c. Pergunta: Qual deve ser o tamanho mínimo da variância explicada para ser

considerada importante?

d. Resposta: Depende:

i. Conhecimento que o investigador possui do problema;

ii. O que se pretende fazer como valor da variância explicada;

iii. Possibilidade de estabelecer, a priori, um valor mínimo de variância

explicada;

iv. Conjunto de enunciados por detrás do estudo;

v. NOTA: A resposta nunca é do domínio da Estatística!

B. Magnitude do Efeito

a. É um estimador da magnitude do efeito populacional, sendo estimado em função do

problema.

b. Serve para expressar a diferença entre duas médias em unidades do desvio-padrão.

c. A magnitude do efeito pode ser interpretada como um valor z (score z associado à

diferença nas médias)

d. Ex: O género tem um efeito reduzido a médio nas diferenças de flexibilidade medida

pelo teste de sit-and-reach.

ME =

42

Valores “padronizados” para interpretar a ME:

C. ME = 0,20 Efeito pequeno ou reduzido

D. ME = 0,50 Efeito moderado

E. ME = 0,80 Efeito substancial (grande)

Pressupostos essenciais do t teste independente

1. Normalidade

a. Assume-se que a população donde provieram as amostras possui uma

distribuição normal para a variável em causa.

2. Aleatoriedade

a. Parte-se do princípio que as amostras foram seleccionadas de forma aleatória.

3. Escala da Variável

a. A variável tem que ser medida numa escala de intervalos ou de razão.

4. Homogeneidade das variâncias

a. Assume-se que as amostras possuem variâncias aproximadamente iguais (se a

amostragem foi aleatória, as diferenças nas variâncias amostrais devem-se a

erros amostrais). Em regra, a variância de um grupo não deve ser superior à

outra na razão de 2:1 (Sabe-se que o t teste é robusto a violações menores

deste pressuposto).

43

Resposta a teste t de diferença de médias

1) Definir as hipóteses estatísticas (hipótese alternativa e hipótese nula)

2) Escolher o teste estatístico apropriado à hipótese nula

3) Estabelecer o nível de significância

4) Leitura do quadro de resultados

Ex: Foi realizado um teste t de medidas independentes para averiguar as possíveis diferenças de médias

de abdominais das equipas do SLB e FCP. O resultado encontrado no teste foi de -1,2, que foi

necessariamente convertido no valor de prova (p) de 0,24. A probabilidade da hipótese nula ser

verdadeira é de 24%.

Assim sendo, como o valor de prova (0,24) foi superior ao nível de significância previamente

estabelecido (0,05), não há evidência estatística para rejeitar a hipótese nula.

(Assim sendo, como o valor de prova (0,01) foi inferior ao nível de significância (0,05), então a

probabilidade de ocorrência da hipótese nula é bastante reduzida, tendo nós evidência estatísticas para

a rejeitarmos.)

[Se nos tirarem o valor de prova da tabela de resultados, e se os intervalos de confiança não passarem

pelo valor de 0, então podemos rejeitar a hipótese nula.]

[Se nos tirarem o valor de prova e os intervalos de confiança da tabela de resultados, então teremos de

recorrer ao valor do tcrítico e o do tamostral, compará-los e tirarmos as devidas conclusões.]

Passos para o cálculo do t test de medidas independentes

1) Formulação de hipóteses

2) Cálculo do t amostral (ta)

a. Cálculo do erro-padrão da diferença de médias

3) Cálculo do t crítico (tc)

4) Identificar zonas de rejeição da hipótese nula

5) Cálculo do intervalo de confiança para a diferença de médias

6) Cálculo da magnitude da diferença

a. Conceito da variância explicada

b. Conceito da magnitude do efeito

44

Aula 11

Teste de hipóteses para a média de diferenças (medidas

dependentes)

Muitas vezes, estão envolvidas na questão duas amostras, as quais são relacionadas

uma com a outra – dependência amostral (r12 ≠ 0). Podemos, assim, ter dois tipos de situações

de dependência:

Delineamento de MEDIDAS REPETIDAS

o A sua investigação envolve um ANTES e um DEPOIS.

o Ex: Verificar o efeito de um programa de força explosiva na performance do salto em

altura de 15 atletas.

o

Delineamento de EMPARELHAMENTO

o Pretende remover o efeito de diferenças iniciais nos sujeitos para não contaminar o

resultado final.

o Temos dois grupos de sujeitos.

o Ex: Pretendia conhecer-se o efeito de um programa de actividade física na redução da

frequência cardíaca de repouso. Um grupo de sujeitos foi submetido ao programa e

outro grupo serviu de controlo. Passadas 10 semanas foram avaliadas as

consequências do programa.

Problema: Sujeitos diferiam na idade, sexo e hábitos tabágicos.

Solução: Emparelhar sujeitos do mesmo sexo, que não difiram mais de 4 anos

de idade e 7 cigarros por dia.

o Delineamento, só considerando os valores finais.

Matriz de informação

45

Quando as amostras são dependentes, o erro-padrão da diferença deve ser modificado para

considerar a circunstância de haver CORRELAÇÃO entre pares de observações, a modos que:

O aumento ou redução do erro padrão da média das diferenças DEPENDE da magnitude do

r12.

Se este aumenta, então o erro padrão da média das diferenças é pequeno.

Se este diminui, então o erro padrão da média das diferenças é grande.

Quando estudamos as hipóteses estatísticas com medidas dependentes, então a nossa

hipótese nula representar-se-á por: .

Se a médias das diferenças é altamente significativa, então este valor é diferente de zero,

dependendo do pressuposto para o qual estamos a estudar as amostras.

Temos de ter em atenção quanto ao facto de a hipótese alternativa vir a ser maior ou menor

que zero, com o cálculo a ser feito do fim para o início, ou do início para o fim.

A estrutura do teste de amostras dependentes é semelhante à do teste t independente:

Um método mais simples de cálculo – o método das diferenças -, diz-nos que o erro padrão da

média das diferenças:

.

46

Daí que:

~

Nos vários exercícios que iremos ter sobre este tema, é muito vulgar a

heterogeneidade de resultados nas respostas aos programas, ou seja, cada ser humano reage

de maneira diferente aos estudos que lhe são feitos.

Passos na resolução:

1. Tabela com cálculo das diferenças (∑D; ∑D2; )

2. Estabelecimento de hipóteses e valor do tcrítico

a. H0: µD = 0

b. H1: µD < 0

3. Conclusões (Podemos expressar os valores através do módulo)

a. Ex: Dado que ta = |1,98| > tc = |1,895| rejeita-se H0 a um α = 0.05. Os valores

evidenciados pelos sujeitos no final do programa são significativamente inferiores (em

média) ao do início do programa. Por outras palavras, o programa for eficaz.

b. Contudo, se α = 0.01, o tc é igual a 2,998. Nesta condição, o programa JÁ NÃO TINHA

SIDO eficaz!

c. Daqui a necessidade da maior ponderação no estabelecimento do valor de α.

d. Ex: Depois de emparelhar os sujeitos em função da idade, sexo e hábitos tabágicos, o

programa de exercício físico não promoveu uma redução média significativa na

frequência cardíaca de repouso.

A construção de um intervalo de confiança para µD segue a fórmula seguinte:

=

Ex: Com uma confiança de 95%, a verdadeira média das diferenças na alteração da % de gordura

corporal situa-se entre ≈- 4% e +0,4%. Dito de outra maneira: A verdadeira média da redução da gordura

47

corporal situa-se, em 95% dos casos, entre +0,4% e ≈- 4%. (Um incremento de 0,4% e uma redução de

4%).

Dado que o intervalo contém o ZERO, não se verificaram diferenças significativas entre os grupos e,

deste modo, não se espera qualquer alteração substancial na FCrepouso.

Uma forma interessante, e complementar, de interpretar é a partir da PERCENTAGEM de ALTERAÇÃO.

) x 100

Ex: Quando a diferença nas médias é relativizada ao valor médio inicial, a percentagem de alteração

verificou-se em -9,8%.

Muitas vezes, quando recorremos erradamente a um método de fórmulas independentes para

estudar o comportamento das variáveis dependentes, teremos de recorrer a outro

procedimento (ex: como ao procedimento das medidas repetidas), para que tenhamos

resultados concretos e mais próximos daquilo que desejamos.

Passos para o cálculo do t test de medidas repetidas

1) Formulação de hipóteses

2) Cálculo do t amostral

3) Cálculo do t crítico

4) Cálculo do intervalo de confiança para a diferença de médias

5) Cálculo da percentagem de alteração

Relativamente ao procedimento das medidas repetidas:

, onde r surge como factor de correcção, para eliminar a

dependência dos valores finais dos valores iniciais, estando os valores finais muito

correlacionados com os iniciais.

48

Aula 12

Teste de hipóteses para grupos independentes (k≥3). ANOVA I

Quando lidamos com k grupos ≥ 3, porque não efectuar, de forma sistemática, testes t distintos entre os

diferentes grupos?

Motivos:

O número possível de testes seria dado por K (K-1)/2. A partir de K=3, o número de

testes aumentaria substancialmente;

Ao reduzir a comparação a dois grupos de cada vez, haveria uma redução na potência

estatística de cada teste por não considerar a totalidade dos sujeitos;

Verifica-se um aumento do erro do tipo I à medida que aumenta o número de testes

“fraccionados”

1-(1-α)n

n – Número de pares de testes

Solução: Análise da Variância (ANOVA [Analysis of Variance])

- Classe ampla de técnicas

- O número de grupos independentes pode variar (k>2), mas só consideraremos uma

variável dependente.

Hipóteses:

H0 = µ1 = µ2 = … = µk

H1 = µi ≠µj

Lógica ANOVA a 1 factor

I. Grupos de sujeitos são distribuídos aleatoriamente pelos 3 grupos que serão

submetidos a 3 tratamentos distintos ou condições diferente.

II. A hipótese nula estabelece a ausência de diferença entre as 3 médias (a haver

diferença, tudo se deve a problemas de erro amostral)

49

III. Variação intra-grupo

a. Verifica-se VARIAÇÃO “interna”, sendo que esta é inerente a cada grupo. A

variância surge em torno de - os sujeitos não são todos iguais na variável

resposta.

b. Não reflecte diferenças causadas por diferentes tratamentos ou condições

c. (variância “livre” do efeito do tratamento

IV. Variação entre-grupos

a. As médias amostrais variam entre elas.

b. Se a hipótese nula é verdadeira, a variação entre médias dos diferentes

grupos é praticamente zero, isto é, irrelevante.

c. + efeito do tratamento

d. Quanto maior for a variação entre-grupos, maior será a probabilidade de

encontrarmos uma maior variação intra-grupo em cada grupo.

V. Teste F

a. Teste de validade da hipótese nula.

b. Espera-se, para rejeitar a hipótese nula, que o ratio F seja sempre maior que

1.

c. Calcula-se pela fracção:

d. Quando a hipótese nula é verdadeira, as variações intra-grupo e entre-grupos

são estimativas de variação irrelevante e inerente a cada grupo (σ2) e a

estatística F segue uma distribuição F em graus de liberdade associados ao

numerador e denominador.

Fórmulas Fundamentais

SQi =

SQe =

SQt =

S2

=

=

VARIAÇÃO INTRA-GRUPO

VARIAÇÃO ENTRE-GRUPOS

gli = ntotal - kgrupos

50

gle = kgrupos – 1

glt = ntotal - 1

Passos na resolução:

1. Definir hipóteses

2. Realizar testes F e outros cálculos necessários à resolução do exercício

3. Leitura e uso da tabela sumária da ANOVA I

4. Conclusões

Fórmulas de cálculo para a ANOVA I:

Teste de Tukey (HSD – Honest Significant Difference)

O facto do teste F evidenciar rejeição da hipótese nula não é, por si só, indicador da

localização das diferenças significativas no seio dos grupos. Para isso, depois de rejeitarmos a

hipótese nula, teríamos de recorrer a testes de múltipla comparação.

Sendo assim, o número de comparações possíveis dá-se pela expressão: K(K-1)/2

51

Já o valor crítico do HSD de Tukey é: HSD = q

Passos de cálculo:

1) Consultar o valor de q

2) Calcular o valor crítico de HSD

3) Construção de uma matriz de múltiplas comparações

4) Comparar cada diferença de médias com o valor crítico de HSD

a. Ex: Das múltiplas comparações possíveis, só se verificaram diferenças significativas

entre µ1 e µ2; µ1 e µ3. Há, pois, que rejeitar µ1 = µ2 e µ1 = µ3; Há que reter a H0: µ2 = µ3.

5) Quando o número de sujeitos em cada grupo é divergente, usa-se uma média harmónica, ñ, em

vez de n:

a. ñ =

Pressupostos da ANOVA I:

I. As k amostras devem ser independentes;

II. Em cada uma das k populações deve observar-se normalidade na distribuição da variável;

III. Ainda que possuam médias diferentes, assume-se que as populações possuem a mesma

variância – Pressuposto da homogeneidade de variâncias.

A magnitude do efeito, a mais simples é η2:

η2 =

Uma outra estatística é a variância explicada:

ω2 = –

52

Procedimento para as respostas aos testes de hipóteses:

1) Definir as hipóteses estatísticas;

2) Qual o teste estatístico que melhor se ajusta àquele problema;

3) Estabelecer o nível de significância;

a. Valor crítico que nos vai ajudar, no fim, a rejeitar ou não a hipótese nula;

b. Probabilidade de rejeitar erradamente a hipótese nula, porque está é

verdadeira.

4) Fazer os cálculos ou leitura do output.

Acima e abaixo da mediana temos 50%, em cada, dos resultados obtidos.

Para uma média ser igual a tal valor, e se temos quatro “buracos” livres para escolhermos um

número aleatoriamente, o último número só tem um lugar para entrar – graus de liberdade.

ANOVA

Baseia os seus cálculos na análise da variância.

Estatística

Estatística Descritiva


Média

Moda

Mediana Medidas de

Dispersão

Variância

Desvio-

padrão

Amplitude

Valor mínimo

Valor máximo

Medidas de Orde

m

Percentil

Estatística Inferencial

Estimativa de

Parâmetros

Pontual

Intervalar

(Intervalo de

confiança)

Testes de

Hipóteses

Comparar médias

1 Amostr

a

2 Amostra

s Independentes

1 Amostra em 2 Momentos de Avaliação

+2 Amostras Independentes (ANOVA)

53

Poderá existir variação:

Entre-grupos

Intra-grupo

Se o valor de F for igual a 1, os grupos são iguais.

Se o valor de F foi igual a 10 (>1), a variância entre-grupos é 10x a variância intra-

grupos, ou seja, há mais variação entre eles do que dentro deles.

Se o valor de F for menor que 1, então há variação dentro dos grupos que entre eles.

Sig. Ou p – Probabilidade da hipótese nula ser verdadeira.

Valor de prova – Probabilidade de eu obter, por acaso, o valor que encontrei no teste ou outro

ainda mais extremo do que este, assumindo que a hipótese nula é verdadeira.

Hipótese alternativa na ANOVA

Ver sig. Ou p nas tabelas.

Basta mostrar que duas médias são diferentes, não é necessário serem todas

diferentes.

Passos para o cálculo da ANOVA grupos independentes

1) Formulação das hipóteses

2) Cálculo da ANOVA

a. Somatório dos quadrados intragrupo

b. Somatório dos quadrados intergrupo

c. Somatório dos quadrados total

3) Cálculo da variância intragrupo e intergrupo

4) Cálculo de F

54

Se Fa for maior que Fc, então rejeita-se a hipótese nula.

Para sabermos em que grupos existe a tal diferença, recorremos ao Teste de Múltipla

Comparação a posteriori (TUKEY).

Passos para o cálculo de múltiplas comparações

1) Encontrar o valor de q (tabela E)

2) Calcular o valor crítico de HSD

3) Construir a matriz de múltiplas comparações

4) Comparar cada diferença de médias com o valor crítico de HSD

Documents

ESCALAS DE MEDIÇÃO - sunprynus.comsunprynus.com/fadeup/114/FADEUP114ResumoDeEstatistica.pdf · ESCALAS DE MEDIÇÃO Instrumento – Mede, com um certo grau de validade, ... Medidas