29
icas descritivas: Como o próprio nome já diz, sã ue são realizadas de modo que possamos descrever no , nossos dados. delas podemos com poucos números (2 ou 3), dar uma são nossos dados, onde se concentram, como estão v os compará-los com outras séries de dados. também quais as estatísticas descritivas mais apro da tipo de variável. os a apresentar seus dados, demonstrá-los a um públ ão apresentarão todos os dados: i estão as 200 medidas de altura que realizei!!!”. rvem as estatísticas descritivas, são medidas que d is características de uma variável, que sumarizam o

Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Embed Size (px)

Citation preview

Page 1: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Estatísticas descritivas: Como o próprio nome já diz, são cálculos,contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos dados.

Através delas podemos com poucos números (2 ou 3), dar uma noçãode como são nossos dados, onde se concentram, como estão variandoe podemos compará-los com outras séries de dados.

Veremos também quais as estatísticas descritivas mais apropriadas para cada tipo de variável.

Se solicitados a apresentar seus dados, demonstrá-los a um público,certamente não apresentarão todos os dados: “- Vejam aqui estão as 200 medidas de altura que realizei!!!”. Para isto servem as estatísticas descritivas, são medidas que descrevem as principais características de uma variável, que sumarizam o dado.

Page 2: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Medidas de tendência central (ou de posição):

São medidas que visam determinar o centro da massa dos dados,representam o valor em torno do qual os dados estão gravitando,o ponto central do conjunto de valores.

Média: É a mais conhecida, utilizada e que melhor se aplica à definição de medida de tendência central. Definição:É a soma de todos os valores da var. dividida pelo número de valores.

Temos 14 valores de Idade: 32 35 36 36 37 38 38 39 39 39 40 40 42 45, logo nossa média será a soma de todos 14 valores, divididos depois por 14.

Page 3: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Símbolo de médiaquando obtida deuma amostraµ = média quandoobtida de toda apopulação

Símbolo de somatório, irá somar todos os Xs, onde cada X é um valor. N = No. total de valores (32 + 35 +...+ 42 +45)/14

Utilização da média conforme o tipo de variável:

- Quantitativas contínuas: É onde é mais utilizada, média de peso, de al-tura, média da taxa de vitamina A no sangue.

- Quantitativas discretas: Também pode ser utilizada, apesar de não existirem 2,3 filhos ou dores de cabeça por semana, a média é bastante utilizada e aceita neste caso, vide IBGE. Em todo caso convém refletir.

Page 4: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

- Qualitativas ordinais: Pode também ser utilizada aqui. Em escalas (ótimo = 5, bom = 4, regula r= 3, fraco = 2 e ruim = 1) ou em situações do tipo da var. escolaridade (Analf. = 1, 1o. Grau = 2, 2o. Grau = 3 ...), ou ainda escalas do tipo Likert (Não concordo veementemente = 1, NãoConcordo = 2, Indiferente = 3, Concordo = 4 e Concordo totalmente = 5);

- Qualitativas nominais: Não é utilizada, não faz sentido, qual a média davar. raça? Neste tipo de variável (e também nas ordinais) para descrever-mos o dados utilizamos o percentual, a porcentagem (%). Exemplo:

Necessário bastante parcimônia, verificar se faz sentido. Contudo para a realização de testes estatísticos é bastante utilizada .

Variável região de origem: Possíveis respostas: Sul, Sudeste, Centro-oeste, Norte e Nordeste. Verificamos o total de resposta, p. exp., 200 e dividimos o total de resposta de cada região pelo total:Sul = 48 respostas 48/200 = 24% das respostas; Norte = 10 10/200 =5%

Page 5: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Mediana: É o valor que divide os dados ao meio, metade dos valo-res estão abaixo do valor da mediana e a outra metade está acima do valor da mediana.

22 22 25 26 26 27 28 28 29 29 29 30 30 35 36

Veja, temos 15 valores (impar) ordenados, somamos 1 e dividimospor 2: (15 + 1)/2 = 8 . Então a mediana será o valor que ocupar a8a. Posição = 28. Repare há 7 valores abaixo de 28 e sete acima.

Para calculá-la é necessário primeiro ordenar os dados, depois ver se:

1- se o total de dados (n) for impar, some + 1 a este total e divida-o por 2.

Page 6: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

2- se o total de dados (n) for par, encontre o valor n/2 e o valor (n+2)/2 ea mediana será a média destes dois valores.

22 22 25 26 26 27 28 28 29 29 29 29 30 30 35 36

Temos 16 valores (par) ordenados, encontramos n/2 = 8 e (n+2)/2= 9Então a mediana será a média entre o 8 e 9 valor. (28+29)/2 = 28.5

Utilização da mediana conforme o tipo de variável

Nas vars. quantitativas pode-se usá-la tranquilamente, mas o mais co-mum é o uso da média. Já nas variáveis qualitativas ordinais seu uso equipara-se ao da média, e nas nominais não faz sentido.

Page 7: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

** Situação na qual o uso da mediana é recomendado e não o da média:

Quando temos valores aberrantes (outliers) na amostra, p. exp., var.Renda com estes valores: 200, 350, 400, 430, 450, 500, 4000.A renda média é de 900, mas este valor descreve bem nossos dados?A mediana é de 430, qual descreve melhor?A mediana é menos influenciada por valores extremos, é “robusta”.

A mediana divide a amostra ao meio, em 50%. Valores que dividema amostra em 4 partes iguais também são utilizadas, são os Quartis.O 1o. Quartil divide a amostra em 25% abaixo dele e 75% acima deleO 2o. Quartil nada mais é que a Mediana.O 3o. Quartil divide a amostra em 75% abaixo dele e 25% acima dele

1.2 , 1.3, 1.4, 1.7, 1.9, 2.1, 2.2, 2.5, 3.3, 3.8, 4.2, 4.2, 4.3, 4.3, 4.4 1 quartil Mediana 3 quartil 1.8 2.5 4.2

Page 8: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Moda ou Norma: Dentro de um conjunto de valores a moda é o valor mais frequente, o valor que aparece mais vezes.2, 3, 9, 10, 11, 12, 13 - Não há moda.3, 4, 5, 6, 7, 8, 8, 9 - A moda é 8 - unimodal3, 3, 4, 5, 6, 7, 9, 9, 10 - As modas são 3 e 9 - bimodal3, 3, 4, 6, 7, 8, 9, 9, 10, 11, 12, 13, 13 - As modas são 3, 9 e 13- multi-modal.

Utilização da moda conforme o tipo de variável

A moda pode ser utilizada nos dois tipos de variáveis quantitativas,mas é mais utilizada nas variáveis categóricas ordinais e nominais (quando categorizadas) onde representará a categoria mais frequente.

São também utilizados percentis (dividir por 100) e os decis (por 10)

Page 9: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Medidas de variabilidade (ou de dispersão):

São medidas que visam determinar o quanto a massa dos dados estavariando em torno da média (centro), dão a noção de qual a abran-gência dos valores da amostra (ou população). Indicam também o quanto os valores assemelham-se entre si. Alta variabilidade indica que os dados não são muito parecidos, próximos; já baixa variabili-dade indica valores próximos, parecidos.

Problema paraa estatística.

Exemplo: Notas de duas classes: Classe A: 1, 3, 3, 5, 7, 7, 10 Classe B: 4, 4, 5, 5, 5, 6, 6 Esta 2 classes são equivalentes ?.

Page 10: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Variância: É a mais utilizada e conhecida medida de dispersão. Vejamos a sua fórmula:

Portanto vemos que para calculá-la subtraímos cada valor (Xi) damédia, elevamos esta diferença ao quadrado, somamos todasestas diferença e dividimos o pelo tamanho da amostra -1.

Exemplo: Xi Xi- Média (Xi- Média)2 A soma é = 10 1 1 - 3 = -2 4 10 dividido por 4 = 2.5 2 2 - 3 = -1 1 Portanto a variância destes 3 3 - 3 = 0 0 dados = 2.5 4 4 - 3 = -1 1 5 5 - 3 = -2 4

Page 11: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Porém a forma mais utilizada da variância é a sua raiz quadrada,conhecida por Desvio padrão = s .

Desvio padrão = Raiz quadrada da variância, no exemplo a raiz qua-drada de 2.5 é 1.58 = desvio padrão.

Erro padrão = É o desvio padrão dividido pela raiz quadrada dotamanho da amostra.

Amplitude = É a diferença entre o menor valor de uma amostrae o maior valor de uma amostra. Maior valor - Menor valor

Amplitude inter-quartil = É a diferença entre o valor do 1o.quartilda amostra e o valor do 3o.quartil. Valor 1o. Q - Valor 3o. Q

Page 12: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Ao iniciarmos o Minitab encontramos a seguinte tela: No topo da tela temos

a barra de ferramentas, que sempre permanece aí e onde se encontramas principais funções. Temos então duas ‘janelas’; a 1a. (de cima) é on-de aparecerão os resultados das aná-lises, a 2a. é a planilha de dados, on-de ao abrirmos um arquivo os dadosaparecerão. Pode-se trabalhar com ambas abertasou maximizar uma e ocultar a outra,clicando nos respectivos pontos de cada tela

A seguir abriremos um arquivochamado “estdes” .

Page 13: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Clicamos em ‘File’ e vamos até ‘Open Wor-ksheet’ para abrirmos um arquivo já exis-tente.

Surgirá o quadro abaixo onde digi-taremos o nome do arquivo ‘estdes’e clicamos em abrir.

Page 14: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Surgirá então o banco de dados( atela já está maximizada) estdes com-posto por 9 variáveis.

Para obtermos nossas estatísticas descritivas vamos até o módulo ‘Stat’e o acionamos.

Na seção ‘Basic Statistics’ vamos pa-ra ‘Display Descritive Statistics’ e clicamos nela, quando aparecerá umnovo quadro.

Page 15: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Temos então uma lista das nossasvariáveis. Para selecionarmos quaisvars. desejamos obter as est. descri-tivas marcamos o nome da mesma com o mouse e clicamos em ‘Selecte ela aparecerá em ‘Variables’. Repete-se o processo com todas asvars. que nos interessam.

Após selecionarmos as vars. de inte-resse clicamos em OK

Page 16: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

A tela minimizada de resultados então aparecerá e lá temos todas as estatís-ticas descritivas de cada uma das vars. selecionadas

Temos para cada var. o tamanho da amostra (N), a média (Mean), o erro padrão da média (SE Mean), o desvio padrão (StDev) o me-nor valor (Minimum), o 1o. Quartil (Q1), a mediana(Median), o 3o.Quartil (Q3) e o maior valor (Maximum) .

Page 17: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Para a variável Sexo nos interessa a frequência e seu percentual.Para isto voltamos no módulo de “Stat”, vamos até a seção ‘Tables’e daí acionamos ‘Tally Individual Variables’.

No quadro novo selecionamosa variável de interesse comojá feito anteriormente ativamosas células ‘Counts’ e ‘Percentsque fornecerão o número de elementos de cada categoria da var. e seu percentual rela-tivo. E damos OK

Page 18: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Na tela de resultados temos aquantidade de cada categoriae o seu percentual.

Para imprimir seus resultados váem ‘File’ e depois em ‘Print Ses-sion Window’.

Page 19: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Na tela da seção de estatísticasdescritivas há um espaço escrito‘By variable’. Se vc selecionar e inserir uma variável, o software irácalcular as estatísticas descritivas da variável quantitativa para cada categoria, nível, da variável inserida. Neste caso teremos as estatísticas de Idade para cada Sexo.

Page 20: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

DISTRIBUIÇÃO NORMAL

3,93548 2,674403,30983 3,107622,48178 3,765074,52549 4,037433,48335 3,621443,16867 2,933773,57961 1,650714,28888 1,460754,39241 2,036894,45589 5,070871,40666 2,433553,70547 5,095153,69522 2,309502,80332 1,941473,04045 4,209443,92837 2,742003,84063 3,267863,32436 4,230014,56957 2,978743,04060 1,53232

Um pesquisador, há muitos e muitos anos atrás, pesou 40 pedras coletadasao acaso em seu quintal e obteve os seguintes valores:

Na sequência ele ordenou os dados da seguinte forma:

1 . 441 . 5692 . 03442 . 678993 . 001123343 . 566778994 . 0222344 . 555 . 00

1 .

441

. 56

92

. 03

442

. 67

899

3 .

0011

2334

3 .

5667

7899

4 .

0222

344

. 55

5 .

00

Sendo que o traço na figura indica o ponto onde está a média

Page 21: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

O pesquisador realizou levantamentos semelhantes com vários outros elementos da natureza e verificou que quase sempre obtinha curvas, figuras, DISTRIBUIÇÕES, semelhantes à anteriormente vista.

O passo seguinte foi ajustar, estimar, um modelo matemático que representa-se a curva em forma de sino obtida. O nome deste pesquisadoré CARL FRIEDRICH GAUSS, daí esta curva também ser conhecida como curva de Gauss ou Gaussiana.

Onde µ = média e б = desvio padrão

Page 22: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

A distribuição Normal, a sua forma, é determinada totalmente pelos parâmetros µ e б.

Observe que para diferentes médias e desvios padrões tenho diferentes curvas.

Características da curva Normal

1- A área sob a curva é igual a 1 ou 100%

2 - A distribuição é simétrica em relação à média

Page 23: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

3- Os valores da média, moda e mediana são equivalentes (teoria)

4- A área entre µ ± б equivale a 68,26% da área

5- A área entre µ ± 2б equivale a 95,44% da área

Page 24: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

6- A área entre µ ± 3б equivale a 99,74% da área

Como já foi dito, a dist. Normal é simétrica em relação à média, uma me-dida que verifica a assimetria de uma distribuição é SKEWNESS (coefi-ciente de assimetria), que na distribuição Normal deve ser igual a 0 Para um valorpositivo doSkewness assimetria à direita da distribuição

Para um valornegativo doSkewness assimetria àesquerda da distribuição

Page 25: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Outra medida verificada em distribuições é a Kurtosis (curtose ou medi-da de achatamento). Nas dist. Normais deseja-se uma curtose próximo a 3.

Leptocúrtica K > 3

Platicúrtica K < 3

Mesocúrtica K = 3

Page 26: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

A Distribuição Normal Padrão (ou Normal Reduzida)

Uma distribuição Normal particularmente importante é a que possui média = 0 (µ = 0) e desvio padrão = 1 (б = 1).

Esta distribuição N(0,1) é conhecida por “z” e é ‘tabelada’, isto é, suas probabilidades são conhecidas, já foram calculadas.

Page 27: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Por exemplo, se desejo aprobabilidade de um valorocorrer entre 0 e 1 vou na tabela e procuro na margemesquerda a linha de z = 1 ea coluna = 0 e encontramos0.3413.Portanto a probabilidade deocorrência de um valor entre 0 e 1 é de 34.13%

A grande utilidade da distribuição “z” é que qualquer distribuição Normal pode ser ‘transformada’ em uma “z” , através da seguinte transformação:

z = x – m ds

Onde: x = ponto que se deseja converter em z; m = média da normal origi- nal; ds = desvio padrão da normal original.

Page 28: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Exemplo: Suponha que a média de um determinado teste seja 100 e o dp seja 5. Qual a probabilidade de uma pessoa se um valor entre 105 e 107 ?

Aplicando a transformação: 105 – 100 = 1 e 107 – 100 = 1.4 5 5

Então temos que calcular a probabilidade entre 1 e 1.4 na tabela da Normal reduzida que é equivalente a calcular a probabilidade do ponto 1.4 (0.419) menos a probabilidade do ponto 1.0 (0.3413), que equivale a 0.0779.

Portanto a prob. de se obter um valor entre 105 e 107 no teste é de 7.79 %

Page 29: Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos

Determinar se uma variável possui ou não distribuição Normal é muito importante, pois se a variável possui normalidade utilizaremos determina- dos testes estatísticos, se a mesma não possuir normalidade, outros teste serão utilizados.

Observe que só faz sentido falar em distribuição Normal para as vars.numéricas. Não há sentido de falar distribuição Normal para variáveiscategóricas nominais.

Para as var. cat. ordinais, conceitualmente, teoricamente, também nãofaz sentido, mas na vida real testa-se a normalidade e caso aceita amesma trabalha-se como se assim fosse.