38
INTRODUÇÃO À ESTATÍSTICA Prof. Dr. Guanis de Barros Vilela Junior

INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

  • Upload
    lydieu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

INTRODUÇÃO À ESTATÍSTICA

Prof. Dr. Guanis de Barros Vilela Junior

Page 2: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

O que é Estatística?

Não é uma CIÊNCIA EXATA!!! É UMA CIÊNCIA PROBABILÍSTICA !!!!!!! Serve para “apoiar” um pressuposto teórico Associa probabilisticamente variáveis Não estabelece, via de regra, RELAÇÃO

CAUSAL! Pode ser manipulada! (como qualquer

conhecimento)

Page 3: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Objetivos • Descrever as características de uma amostra; •Identificar as operações matemáticas que podem ser empregadas na análise de dados de acordo com a escala de medida das variáveis; •Selecionar procedimentos adequados à análise descritiva de variáveis qualitativas e quantitativas; •Interpretar as estatísticas utilizadas para representar a tendência central e a dispersão

Page 4: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Distribuição de Frequências A tabela abaixo mostra o gasto energético diário (em Kcal) em atividades físicas de 15 sujeitos

1 3200 2 1910 3 2204 4 2435 5 2759 6 3000 7 3004 8 2805 9 1900 10 1999 11 2960 12 3232 13 2759 14 2328 15 2524

Sujeito Gasto energético

9 1900 2 1910 10 1999 3 2204 14 2328 4 2435 15 2524 5 2759 13 2759 8 2805 11 2960 6 3000 7 3004 1 3200 12 3232

Sujeito Gasto energético

Tabela Primitiva

Rol Crescente

Passo 1: ordenar do menor para o maior gasto energético

Passo 2: Calcule a Amplitude (diferença entre o maior e o menor)

A = 3232 – 1900 = 1332

Page 5: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Posição

Medidas de Posição

Medidas de Tendência Central

Medidas Separatrizes ou de Dispersão

Page 6: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Tendência Central

Média Aritmética – é a soma das medidas dividida pelo número de casos, represntando-se a média da população por µ e a da amostra por x. É uma das medidas mais usadas, entretanto, possui como desvantagem o fato de sofrer grande influência de valores extremos.

Na tabela do gasto energético apresentada anteriormente a média é:

Σ Pi X = n = (39019) / 15 = 2601,267 Kcal

Page 7: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Tendência Central Mediana: é o valor que se encontra na posição central da série de dados. É empregada quando há valores extremos que podem afetar, de maneira acentuada, a média.

No rol crescente do gasto energético, qual é a mediana?

9 1900 2 1910 10 1999 3 2204 14 2328 4 2435 15 2524 5 2759 13 2759 8 2805 11 2960 6 3000 7 3004 1 3200 12 3232

2759

Page 8: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Tendência Central

Moda: é o valor mais frequente da série de dados. É empregada em pesquisas cujas informações são de natureza qualitativa (escala nominal ou ordinal).

9 1900 2 1910 10 1999 3 2204 14 2328 4 2435 15 2524 5 2759 13 2759 8 2805 11 2960 6 3000 7 3004 1 3200 12 3232

Qual é a moda? 2759

Page 9: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Tendência Central

Quartis: são representados por Q1, Q2, Q3, sendo chamados de primeiro, segundo e terceiro quartil respectivamente.

Q1: é um valor que representa que abaixo existem 25% dos casos. Q2: é um valor que representa que abaixo existem 50% dos casos. Q3: é um valor que representa que abaixo existem 75% dos casos.

Page 10: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Tendência Central

Decis: São representados por D1, D2, D3, ... , D9, sendo chamados, respectivamente, de primeiro, segundo, terceiro, ... , nono decil.

D1: é o valor que representa que abaixo existem 10% dos casos D2: é o valor que representa que abaixo existem 20% dos casos D3: é o valor que representa que abaixo existem 30% dos casos ..... ...... ..... ...... ....... ....... ....... ....... ........ ........ ...... .. D9: é o valor que representa que abaixo existem 90% dos casos

Page 11: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Tendência Central

Percentis: São representados por P1, P2, P3, ... , P99, sendo chamados, respectivamente, de primeiro, segundo, terceiro, ... , nonagésimo nono percentil.

P1: é o valor que representa que abaixo existem 10% dos casos P2: é o valor que representa que abaixo existem 20% dos casos P3: é o valor que representa que abaixo existem 30% dos casos ..... ...... ..... ...... ....... ....... ....... ....... ........ ........ ...... .. P99: é o valor que representa que abaixo existem 99% dos casos

Tabelas de percentis são muito utilizadas na área da atividade física, especialmente para avaliação do crescimento e desenvolvimento de crianças e adolescentes.

Page 12: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

A população de duas cidades A e B possuem renda média de R$ 5000,00. Sabemos que esta medida de tendência central informa muito pouco sobre a distribuição da renda nas duas cidades, ou seja, não sabemos da proporção de ricos e pobres. Uma das cidades pode apresentar, ao mesmo tempo, uma esmagadora maioria muito pobre e algumas poucas famílias muito ricas, possuindo mesmo assim uma renda média de R$ 5000,00. A outra cidade pode apresentar uma distribuição de renda mais igualitária, tendo uma renda média de R$ 5000,00. Por isto saber da dispersão da renda para estas cidades aponta

Page 13: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Distribuição Normal (ou Gaussiana)

Média

+DP - DP

+2DP -2DP

Page 14: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Distribuição Normal (ou Gaussiana)

68,3%

95,3%

99,7%

Page 15: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Amplitude É a diferença entre o maior e o menor valor do conjunto de dados.

A = 3232 – 1900 = 1332

Na tabela de gasto energético:

Page 16: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Variância (s2):

Desvio: É a diferença entre a média e cada um dos valores no conjunto de dados. Pode ser negativo.

É a média aritmética dos quadrados dos desvios.

S2 = Σ(x - µ)2

N

Ou seja:

Page 17: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Desvio Padrão (SD ou DP):

É a raiza quadrada da variância

Ou seja:

S = Σ(x - µ)2

N

Page 18: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Erro padrão (EP):

Ou seja: EP = S N

É muito importante para a construção de intervalos de confiança

É a razão entre o DP e a raiz quadrada do tamanho da amostra

Page 19: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Erro padrão (EP): EP = S N

Média da população

Média da amostra A Média da amostra B

Diferença entre o real e o esperado

Page 20: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Coeficiente de Variação

Medidas de Dispersão

Expressa o Desvio Padrão como porcentagem do valor da média.

CV = DP média

Ou seja:

Quanto menor o CV mais homogênea será a amostra

Page 21: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Escore Z Mede quanto um valor específico afasta-se da média em unidades de desvio – padrão.

Z = X - X DP

Escore Z

+ 1 - 2 - 1 + 2 + 3 - 3 0

Page 22: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Medidas de Dispersão

Escore Z

Z = X - X DP

É muito útil para comparar valores provenientes de diferentes estudos

É de fácil conversão para percentil

Page 23: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Exemplo: Admitamos que para um valor específico o escore Z = +2, então:

Medidas de Dispersão

+2

50% 48%

50+48= 98%

Percentil 98: este valor é igual ou superior a 98% dos valores presentes no restante da população

Page 24: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Exercício Considerando as estaturas de todos os meninos com 10 anos de idade de um vilarejo, obteve-se uma estatura média de 120 cm e um Desvio Padrão de 20 cm. Como se localiza dentro desta população, uma criança, que aos 10 anos de idade, apresenta estatura de 80 cm?

Z = X - X DP

80 - 120 20

= = - 2

Esta criança está no percentil 2, ou seja, ela tem uma estatura superior ou igual à apresentada por 2% das crianças de sua comunidade. ENTÃO ?!?!?!?!...

Page 25: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

ESTATÍSTICA ANALÍTICA

Prof. Dr. Guanis de Barros Vilela Junior

Page 26: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Introdução

Permite ao pesquisador ir além da descrição dos dados e fazer inferências sobre a população, a partir da amostra.

Estas inferências possuem limitações; não se pode ter certeza absoluta sobre elas.

A estatística inferencial permite ao pesquisador calcular o risco que ele assume ao chegar a determinada conclusão.

Page 27: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Definição das hipóteses A Hipótese Nula (H0) é, em geral, uma afirmação

conservadora sobre uma situação da pesquisa. Por exemplo, se você quer testar se duas variáveis têm

relação, a hipótese nula é a de que esta relação não existe.

A Hipótese Alternativa (H1) é formulada como alternativa para H0 ; caso esta seja rejeitada H1 passa a ser a resposta do problema investigado.

H0: o gasto energético é o mesmo entre homens e mulheres na população.

H1: o gasto energético é diferente entre homens e mulheres na população.

Page 28: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Testes estatísticos e o valor p

Os testes estatísticos servem para identificar e quantificar as evidências que poderão tornar a H0, verdadeira ou não.

De modo geral, quanto maior o valor do teste estatístico, maiores serão as evidências contra a hipótese nula (H0).

O valor encontrado no teste estatístico é comparado com uma distribuição teoricamente conhecida na população.

Page 29: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Testes estatísticos e o valor p

Esta comparação permite identificar o valor p (entre 0 e 1) que representa a probabilidade dos resultados encontrados na amostra serem idênticos à distribuição da população.

Valor de p é a probabilidade de aceitar a hipótese nula como verdadeira.

Usualmente, o valor crítico de p fica situado em 5% (0,05) ou 1% (0,01).

Page 30: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Testes estatísticos e o valor p

Quanto menor o valor de p maior será a evidência contra a hipótese nula (H0).

Na área da saúde um valor de p inferior a 0,05 é suficiente para rejeitar H0.

Estudos que requeiram maior precisão, como por exemplo, testar um protocolo para avaliação de cardiopatas, adotam um p mais rígido (0,1%).

Page 31: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Erros testando hipóteses

H0 Rejeitar Aceitar Verdadeiro Erro Tipo 1 Sem erro

falso Sem erro Erro Tipo 2

Decisão em relação a H0

Admitamos que um técnico de tênis queira pesquisar a influência da cor dos olhos no resultado do saque!

Quais seriam H0 e H1 ?

H0: a cor dos olhos não interfere no resultado do saque H1: a cor dos olhos interfere no resultado do saque

Page 32: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Cuidado com as amostras! Admitamos que as duas

populações ao lado sejam idênticas

Duas amostras de 4 números (A e B) são extraídas aleatoriamente de cada uma delas.

A partir destas amostras poderíamos tirar conclusões equivocadas sobre as populações

A partir das mesmas poderíamos concluir que as duas populações são diferentes (erro tipo 1).

20 20 20 34 32 32 45 34 77 88 33 44 87 65 49 11 21 23 24 55 97 62 88 57 58 78 79 81 82 22 22 20 20 20 21 44 33 22 21 20

20 20 20 34 32 32 45 34 77 88 33 44 87 65 49 11 21 23 24 55 97 62 88 57 58 78 79 81 82 22 22 20 20 20 21 44 33 22 21 20

A = [20, 20, 20, 78]

B = [21, 21, 22, 22]

Page 33: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Estabelecer uma hipótese experimental (H1) Estabelecer uma hipótese nula (H0) Determinar o tamanho da amostra Colher os dados Realizar a análise estatística para

determinar a probabilidade de que a hipótese nula seja verdadeira

Rejeitar ou não a hipótese nula.

Testando Hipóteses

Page 34: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Evitando erros

Para fins práticos pode-se considerar: Amostras grandes: n > 100 Amostras médias: n > 30 Amostras pequenas: n < 30 Amostras muito pequenas: n < 12

É importante tentar evitar amostras pequenas e muito pequenas, pois a arsenal estatístico para estes casos fica muito reduzido.

Page 35: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Teste t (t student) É um poderoso teste utilizado para

comparar duas amostras. Pode ser aplicado em uma única amostra,

onde é realizada a comparação entre as médias desta amostra e da população.

Por exemplo, para comparar a força de preensão isométrica de uma amostra com a força média conhecida de uma população.

Page 36: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Teste t (t student) Verificar se a distribuição é gaussiana Aplicar o teste t entre as amostras Como?!?:

t = Xa - Xb

EP

O EP neste caso, combina os DP do grupos e o número de dados (n) em cada grupo

Page 37: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Estudo Dirigido 1 Objetivo: aplicar o teste t (student) para comparar

a força média de preensão de um grupo de 30 sujeitos, homens, idade entre 20 e 30 anos, pertencentes a uma unidade do Exército Brasileiro.

Procedimentos e informações: 1) fazer o download da planilha clicando aqui.

2) sabe-se que a força média de preensão da população para esta faixa etária é de 37,42 Kgf

3) realizar a estatística descritiva para todos os dados.

Page 38: INTRODUÇÃO À ESTATÍSTICA - Centro de Pesquisas ... · Serve para “apoiar” um pressuposto teórico ... D2: é o valor que representa que abaixo existem 20% dos casos D3:

Estudo Dirigido 2

Objetivo: familiarizar-se com procedimentos estatísticos estudados. Tarefa: Em duplas, procurar na Internet um artigo científico publicado no último ano que utilize em seu tratamento estatístico o test t, preferencialmente, em tema de seu projeto ou área afim. Cada dupla deverá apresentar (resumidamente) os objetivos, metodologia e resultados encontrados.