60
CURSO DE ESTATÍSTICA I Ricardo Bruno N. dos Santos FACECON-PPGE (UFPA)

Estatística Descritiva

Embed Size (px)

Citation preview

Page 1: Estatística Descritiva

CURSO DE ESTATÍSTICA I

Ricardo Bruno N. dos SantosFACECON-PPGE (UFPA)

Page 2: Estatística Descritiva

O Que é a Estatística?•A Estatística originou-se com a coleta e construção de tabelas de

dados para o governo.

• A situação evoluiu e esta coleta de dados representa somente um dos aspectos da Estatística.

• No século XIX, o desenvolvimento do cálculo de probabilidade e outras metodologias matemáticas, tais como a técnica de Mínimos Quadrados, foram fundamentais para o desenvolvimento da Estatística

Page 3: Estatística Descritiva

O Que é a Estatística?•Somente no século XX a Estatística desenvolve-se como uma área

específica do conhecimento a partir do desenvolvimento da Inferência Estatística; uma metodologia baseada em probabilidade que tem ampla aplicação nas ciências experimentais.

•A Estatística hoje consiste num metodologia científica para obtenção, organização e análise de dados, oriundos das mais variadas áreas das ciência experimentais, cujo objetivo principal é auxiliar a tomada de decisões em situações de incerteza.

Page 4: Estatística Descritiva

O Que é a Estatística?Etapa inicial da análise utilizada para descrever, organizar e

resumir os dados coletados.

A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da Estatística.

Page 5: Estatística Descritiva

O Que é a Estatística?

O que fazer com as observações que coletamos?

Page 6: Estatística Descritiva

6

QUALITATIVAQUALITATIVA

QUANTITATIVAQUANTITATIVA

NOMINALNOMINAL

ORDINALORDINAL

CONTÍNUACONTÍNUA

DISCRETADISCRETA

peso, altura, salário, idade

número de filhos, número de carros

sexo, cor dos olhos

classe social, grau de instrução

Variável:

Qualquer característica associada a uma população.

Classificação das variáveis:

O Que é a Estatística?

Page 7: Estatística Descritiva

7

Amplitude, Intervalo-Interquartil, Variância, Desvio Padrão, Coeficiente de Variação.

MEDIDAS DE DISPERSÃO:

Mínimo, Máximo, Moda, Média, Mediana, Percentis

MEDIDAS DE POSIÇÃO:

O Que é a Estatística?

Page 8: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Resumos numéricos são ferramentas importantes para descrever a distribuição de uma variável quantitativa. Agora você vai trabalhar com medidas de posição que, como o próprio nome indica, são medidas que indicam a localização dos dados. O objetivo não é o cálculo das medidas, mas, sim, explorar propriedades e relações entre três das principais medidas de posição.

Média Aritmética Simples: é calculada somando-se os valores de todas as observações e dividindo-se essa soma pelo número de observações. Equivale a dividir o total das n observações em n partes iguais.

Mediana: é o valor que divide o conjunto de dados em duas partes tais que abaixo e acima da mediana encontram-se 50% das observações. O cálculo da mediana requer que os dados estejam ordenados. Se o número de observações for ímpar, a mediana é o valor central; se o número de observações for par, a mediana é a média dos dois valores centrais.

Page 9: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Moda: é o valor mais frequente.

Média Amostral: A média amostral, aritmética, ou simplesmente média, é calculada somando-se os valores das observações da amostra e dividindo-se o resultado pelo número de valores. Assim, a média amostral é dada por:

Média Populacional: A média populacional é calculada somando-se todos os valores da população e dividindo o resultado pelo total de elementos da população. Numa população de elementos, a média populacional é dada por

Page 10: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Mediana: Para calcular a mediana devemos, em primeiro lugar, ordenar os dados do menor para o maior valor. Se o número de observações for ímpar, a mediana será a observação central. Se o número de observações for par, a mediana será a média aritmética das duas observações centrais. Notação:

Exemplo: Salários mensais iniciais para uma amostra de 12 graduados em Administração

Page 11: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Percentis: Em estatística descritiva, o p-ésimo percentil Pk é o valor x (xk) que corresponde à frequência cumulativa de , onde n é o tamanho amostral.

Calculando o p-ésimo percentil1 – Arranje os dados na ordem ascendente (do menor para o

maior)2 – Calcule o índice 3 - (a) Se não for um inteiro, arredonde para cima. O próximo

inteiro maior que i expressará a posição do p-ésimo percentil. - (b) Se i é impar, o p-ésimo percentil é a média dos valores dados

nas posições i e i+1

Page 12: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Exemplo: para os dados de salários o 85º percentil será:

Arredondando para mais teríamos então a 11ª posição.

Page 13: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Quartis: Na estatística descritiva, um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.

Assim, no caso duma amostra ordenada,primeiro quartil (designado por Q1/4) = quartil inferior = é o valor

aos 25% da amostra ordenada = 25º percentilsegundo quartil (designado por Q2/4) = mediana = é o valor até ao

qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil.

terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil à diferença entre os quartis superior e inferior chama-se amplitude inter-quartil.

Page 14: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Exemplo 1:Amostra: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36Amostra ordenada: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49Q1/4 = 15

Q2/4 = 40

Q3/4 = 43

Exemplo 2:Amostra ordenada: 7, 15, 36, 39, 40, 41Q1/4 = 15

Q2/4 = (39+36)/2 = 37.5

Q3/4 = 40

Page 15: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Page 16: Estatística Descritiva

Medidas de posição: Medidas de Tendência CentralBox Plot (Diagrama de Caixa)Em estatística descritiva, diagrama de caixa, ou boxplot, box plot, é um gráfico no qual o:- eixo vertical representa a variável a ser analisada;- eixo horizontal um fator de interesse.O diagrama de caixa é uma ferramenta para localizar e analisar a variação de uma

variável dentre diferentes grupos de dados.O diagrama de caixa procura obter as seguintes informações:- Calcular a mediana e os quartis ( o quartil inferior contém 25% ( 1/4) das menores

medidas e o quartil superior contém 75 ( 3/4) de todas as medidas);- Plotar um símbolo onde se localiza a mediana e uma caixa, daí o nome de diagrama de

caixas, onde a base representa o quartil inferior ( 25% ou 1/4) dos menores valores), e o topo da caixa o quartil superior (75% ou 3/4) dos valores observados. A caixa portanto representa 50% de todos os os valores observados ,concentrados na tendência central dos valores, eliminando os 25% menores valores e 25% maiores valores ( 75% - 25% = 50%);

- Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se Whisker, ou fio de bigode.

Page 17: Estatística Descritiva
Page 18: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Média Geométrica: Este tipo de média é calculada multiplicando-se todos os valores e extraindo-se a raiz de índice n deste produto.

Digamos que tenhamos os números 4, 6 e 9, para obtermos o valor médio aritmético deste conjunto, multiplicamos os elementos e obtemos o produto 216. Pegamos então este produto e extraímos a sua raiz cúbica, chegando ao valor médio 6.

Extraímos a raiz cúbica, pois o conjunto é composto de 3 elementos. Se fossem n elementos, extrairíamos a raiz de índice n.

Neste exemplo teríamos a seguinte solução

Page 19: Estatística Descritiva

Medidas de posição: Medidas de Tendência Central

Média Harmônica: é o número de membros dividido pela soma do inverso dos membros

Pode-se então estabelecer que:

Page 20: Estatística Descritiva

A origem das médiasArquitas de Tarento, um matemático pitagórico que viveu por

volta de 400 a.C., definiu que existiam três tipos de média. Um número é a média aritmética de dois outros quando o excesso do primeiro para o segundo é igual ao excesso do segundo para o terceiro, a média geométrica quando a proporção do segundo para o terceiro é igual à proporção do primeiro para o segundo, e a média harmônica quando a quantidade que o primeiro excede o segundo em relação ao primeiro é igual à quantidade que o segundo excede o terceiro em relação ao terceiro; em notação moderna, sendo o primeiro x, o segundo m e o terceiro y (x > m > y > 0):

Page 21: Estatística Descritiva

A origem das médiasLogo

Page 22: Estatística Descritiva

MEDIDAS DE DISPERSÃO

Page 23: Estatística Descritiva

Medidas de dispersão

As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual, sem ilustrar outros aspectos referentes à forma como os dados estão distribuídos na amostra.

As medidas de dispersão são utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média.

Page 24: Estatística Descritiva

Medidas de dispersão

Qual a importância das medidas de dispersão na prática?Vejamos o exemplo das notas de três turmas (A, B e C)

Essa tabela será o nosso mote para no final avaliar qual foi a melhor turma.

Turma A Turma B Turma C

4 5 2

5 6 3

6 6 8

7 6 8

8 7 9

Page 25: Estatística Descritiva

Medidas de dispersão

Amplitude total: é a diferença entre o menor e o maior valor observado.

Verifica-se que a amplitude como medida de dispersão é limitada. Essa medida só depende dos valores extremos, ou seja, não é afetada pela dispersão dos valores internos.

Quais os resultados para as notas das turmas?

Amplitude interquartil: é a diferença entre o terceiro quartil e o primeiro.

Page 26: Estatística Descritiva

Medidas de dispersão

Variância: A variância de um conjunto de dados (amostra ou população) é uma medida de “VARIABILIDADE ABSOLUTA”. Ela mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética. É uma quantidade sempre NÃO NEGATIVA e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação.

Populacional

Amostral

Page 27: Estatística Descritiva

Medidas de dispersão

Desvio Padrão: É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expressa na mesma unidade de medida do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância. Trata-se da raiz quadrada da variância

Page 28: Estatística Descritiva

Medidas de dispersão

Coeficiente de variação: É uma medida de “VARIABILIDADE RELATIVA”, útil para comparar a variabilidade de observações com diferentes unidades de medida.

Page 29: Estatística Descritiva

Medidas de dispersão

Page 30: Estatística Descritiva

Medidas de dispersão

Vamos avaliar qual a melhor Turma. Na sua opinião qual turma é melhor.

Page 31: Estatística Descritiva

Medidas de dispersão

Vamos usar:

Excel

R

Page 32: Estatística Descritiva

DISTRIBUIÇÃO DE

FREQUÊNCIAS

Page 33: Estatística Descritiva

Distribuição de FrequênciasOrganização dos dados: Os métodos utilizados para organizar

dados compreendem o arranjo desses dados em subconjuntos que apresentem características similares.

mesma idade (ou “faixa etária”), mesma finalidade, mesma escola, mesmo bairro, etcOs DADOS AGRUPADOS podem ser resumidos em tabelas ou

gráficos e, a partir desses, podemos obter as estatísticas descritivas já definidas: média, mediana, desvio, etc.

Dados organizados em grupos ou categorias/classes são usualmente designados “DISTRIBUIÇÃO DE FREQUÊNCIA”.

Page 34: Estatística Descritiva

Distribuição de FrequênciasUma distribuição de frequência é um método de se agrupar dados

em classes de modo a fornecer a quantidade (e/ou a percentagem) de dados em cada classe.

Com isso, podemos RESUMIR e VISUALIZAR um conjunto de dados sem precisar levar em conta os valores individuais. Construindo assim uma SÍNTESE dos DADOS QUANTITATIVOS.

Uma distribuição de frequência (absoluta ou relativa ) pode ser apresentada em TABELAS ou GRÁFICOS.

Page 35: Estatística Descritiva

Distribuição de Frequências

Uma distribuição de frequência agrupa os dados por classes de ocorrência, resumindo a análise de conjunto de dados grandes.

Tipos de Frequência

Simples

Absolutas

Relativas

Acumuladas

Crescente

Absolutas

Relativas

Decrescente

Absolutas

Relativas

Page 36: Estatística Descritiva

Distribuição de FrequênciasEventos Altura

Aluno1 1,60

Aluno2 1,69

Aluno3 1,72

Aluno4 1,73

Aluno5 1,73

Aluno6 1,74

Aluno7 1,75

Aluno8 1,75

Aluno9 1,75

Aluno10 1,75

Aluno11 1,75

Aluno12 1,76

Aluno13 1,78

Aluno14 1,80

Aluno15 1,82

Aluno16 1,82

Aluno17 1,84

Aluno18 1,88

Page 37: Estatística Descritiva

Distribuição de FrequênciasComo construir uma distribuição de frequência a partir dessas

informações?Primeiro reduzir o número de linhas da tabela, para isso temos

que calcular o NÚMERO DE CLASSES.O Número de classes pode ser representado pela letra (k). Para o

cálculo do número de classes pode-se utilizar algumas regras como:1) Regra de Sturges (Regra do Logaritmo)

2) Regra da Raiz Quadrada

3) Bom Senso!Podemos decidir qual o melhor número de classes, muitos afirmam que devemos ter classes entre os tamanhos 5 a 20.

Page 38: Estatística Descritiva

Distribuição de Frequências

Page 39: Estatística Descritiva

Distribuição de FrequênciasExistem várias maneiras de apresentarmos o intervalo de classes: iguais

ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que facilitará os cálculos posteriores. Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma:

0 -- 10: compreende todos os valores entre 0 e 10, exclusive os extremos.

0 |--|10: compreende todos os valores entre 0 e 10, inclusive os extremos.

0 --|10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0.

010: compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10.

Como optaremos por este último tipo (010), pode-se definir como intervalo de classe a diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 – 0 = 10 é o intervalo ou amplitude da classe que será representado pela letra h.

Page 40: Estatística Descritiva

Distribuição de FrequênciasLargura das classes (amplitude das classes (h)): É a segunda etapa

da construção de uma distribuição de frequência para dados quantitativos. Recomenda-se que a largura seja a mesma para cada uma das classes.

Para o exemplo das alturas temos:Que arredondando transforma-se em 0,06

Page 41: Estatística Descritiva

Distribuição de FrequênciasObs. 1: Na amplitude das classes (h), observe que aumentamos

uma unidade, não seguindo, portanto, as regras de arredondamento. Esta é uma regra que deve ser sempre seguida no cálculo da amplitude da classe. Você saberia me dizer por quê?

Obs. 2: Deve-se conservar o número de casas decimais dos dados observados. Por exemplo, se os dados se referem à massa de indivíduos em kg e forem expressos com uma casa após a vírgula (por exemplo, 60,5 kg), então a amplitude deverá ter uma casa após a vírgula.

Obs. 3: Usando o bom-senso e a experiência, poderá ser conveniente , quando possível, a utilização da amplitude de um intervalo de classe igual a 10 ou 5, facilitando as operações posteriores.

Page 42: Estatística Descritiva

Distribuição de FrequênciasPara os dados das alturas teremos:

1,59 --| 1,661,66 --| 1,721,72 --| 1,781,78 --| 1,841,84 --| 1,90

Page 43: Estatística Descritiva

Distribuição de FrequênciasPonto Médio das Classes (): É a média aritmética entre o limite

superior e o limite inferior da classe. Assim, se a classe for 0--|10, teremos , que será o ponto médio da classe.

Limites de Classe: São os números extremos de cada intervalo: sendo assim, temos um limite inferior e um superior. Se a primeira classe tiver um intervalo de notas de 0 até 10, o 0 será o limite inferior enquanto que o 10 será o limite superior desta classe.

Page 44: Estatística Descritiva

Distribuição de FrequênciasFrequência Acumulada (): Corresponde à soma das freqüências de

determinada classe com as anteriores. No exemplo, vejamos como fica a frequência acumulada de cada classe:

Altura Fi1,59 --| 1,66 11,66 --| 1,72 21,72 --| 1,78 101,78 --| 1,84 41,84 --| 1,90 1

Total 18

Page 45: Estatística Descritiva

Distribuição de FrequênciasFrequência relativa ():Corresponde ao quociente entre a

freqüência absoluta da classe e o total de elementos.

Altura Fi fi

1,59 --| 1,66 1 0,06

1,66 --| 1,72 2 0,11

1,72 --| 1,78 10 0,56

1,78 --| 1,84 4 0,22

1,84 --| 1,90 1 0,06

Total 18 1,00

Page 46: Estatística Descritiva

Distribuição de FrequênciasDistribuições cumulativas: São as somas das ocorrências de dados

cumulativamente às classes. Também é importante mostrar os termos em percentuais tanto na relativa quanto na acumulada

Altura Fi fi %fi FA %FA

1,59 --| 1,66 1 0,06 5,56 0,06 5,56

1,66 --| 1,72 2 0,11 11,11 0,17 16,67

1,72 --| 1,78 10 0,56 55,56 0,72 72,22

1,78 --| 1,84 4 0,22 22,22 0,94 94,44

1,84 --| 1,90 1 0,06 5,56 1,00 100,00

Total 18 1,00 100,00

Page 47: Estatística Descritiva

Distribuição de FrequênciasGráficos: Histograma: Também conhecido como Distribuição de

Frequências ou Diagrama das Frequências, é uma representação gráfica na qual um conjunto de dados é agrupado em classes uniformes, representado por um retângulo cuja base horizontal são as classes e seu intervalo e a altura vertical representa a frequência com que os valores desta classe estão presente no conjunto de dados . É uma das Sete Ferramentas da Qualidade. O histograma é um gráfico composto por retângulos justapostos em que a base de cada um deles corresponde ao intervalo de classe e a sua altura à respectiva frequência. Quando o número de dados aumenta indefinidamente e o intervalo de classe tende a zero, a distribuição de frequência passa para uma distribuição de densidade de probabilidades. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma FUNÇÃO NORMAL, como pode indicar mistura de populações quando se apresentam bimodais.

Page 48: Estatística Descritiva

Distribuição de FrequênciasPassos para a construção do histograma:

1) Na abscissas, distribua as classes 2) Na ordenada da esquerda, as frequências absolutas3) Construa um gráfico de barras para as frequências4) Construa um gráfico de linha para a frequência acumulada

(utilize a escala da direita)

Page 49: Estatística Descritiva

Distribuição de Frequências

Page 50: Estatística Descritiva

Distribuição de FrequênciasOgivas

0

5

10

15

20

1,59 --| 1,66 1,66 --| 1,72 1,72 --| 1,78 1,78 --| 1,84 1,84 --| 1,90

Page 51: Estatística Descritiva

Distribuição de FrequênciasGráfico de Pizza

Page 52: Estatística Descritiva

Distribuição de FrequênciasMédia Ponderada de uma Frequência:

Onde: – Ponto Médio da Classe - Frequência acumulada - n

Page 53: Estatística Descritiva

Distribuição de Frequências

Altura Fi fi %fi FA %FAPonto Médio

x*fi

1,59 1,65 1 0.06 5.56 0.06 5.56 1,62 1.621,65 1,71 1 0.06 5.56 0.11 11.11 1,68 1.681,71 1,77 10 0.56 55.56 0.67 66.67 1,74 17.41,77 1,83 4 0.22 22.22 0.89 88.89 1,80 7.21,83 1,89 2 0.11 11.11 1.00 100.00 1,86 3.72

Total 18 1,00 100,00 8,75 31,62

Média 1,7564

Média real

1,7589

Page 54: Estatística Descritiva

Distribuição de Frequências

Podemos além da média, encontrar a mediana e a moda para distribuições de frequência, bem como a variância e o desvio padrão.

Page 55: Estatística Descritiva

Distribuição de FrequênciasPara dados agrupados em intervalos de classes, você pode calcular

a moda por meio do método de Czuber, que se baseia na influência das classes adjacente na moda deslocando-se no sentido da classe de maior frequência. A expressão que você utilizará é:

Li : limite inferior da classe modal; : diferença entre a frequência da classe modal e aimediatamente anterior; : diferença entre a frequência da classe modal e aimediatamente posterior; ec : amplitude da classe modalPara a tabela de alturas temos:

Page 56: Estatística Descritiva

Distribuição de FrequênciasQuando os dados estão agrupados na mediana, devemos

encontrar a classe mediana. Se os dados estão agrupados em intervalos de classe, como no caso do número de casa por rua, utilizaremos a seguinte expressão:

li : limite inferior da classe mediana;n : número total de elementos; : frequência acumulada anterior à classe mediana; : frequência absoluta da classe mediana; ec: amplitude da classe mediana.

Page 57: Estatística Descritiva

Distribuição de FrequênciasPorém é importante definir a classe mediana, para tanto devemos

usar a seguinte fórmula (n/2) para definir a classe medianaUtilizando os dados das alturas teremos:Classe mediana = logo temos que examinar o 9º elemento, onde o mesmo se encontra na classe 1,71--|1,77Aplicando a fórmula da mediana temos:

Page 58: Estatística Descritiva

Distribuição de FrequênciasEm um conjunto de dados, a mediana, a moda e a média não

necessariamente devem apresentar o mesmo valor. Uma informação importante é que a mediana não é influenciada pelos valores extremos. Comparando os resultados encontrados para uma amostra em relação às medidas de posição estudadas e verificando a inter-relação entre elas, você pode concluir que seus valores podem nos dar um indicativo da natureza da distribuição dos dados, em função das regras definidas pela Figura seguinte:

Page 59: Estatística Descritiva

Distribuição de Frequências

Page 60: Estatística Descritiva

Distribuição de FrequênciasCom relação a Variância para dados agrupados em classes,

pode-se utilizar a seguinte expressão a partir dos desvio padrão:

Onden – Nº de Observações - Os desvios em torno da média ao quadrado. Onde são os

pontos médios de cada classe; - Frequências absolutas de cada classe.Para as alturas temos:

s=0,058