61
Introdução à Estatística Departamento de Estatística

Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Introdução à Estatística

Departamento de Estatística

Page 2: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Resumo dos Dados

� Já vimos como resumir conjuntos de dados provenientes de variáveis qualitativas e quantitativas utilizando tabelas e gráficos;

� Para variáveis aleatórias quantitativas pode-se utilizar, além das tabelas e gráficos, medidas que resumem o conjunto de dados;

Page 3: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas Resumo

� Medidas de Tendência Central:� Média;

� Mediana;

� Moda;

� Medidas de Dispersão:� Amplitude;

� Quantis;

� Variância;

� Desvio Padrão;

� Coeficiente de variação.

Page 4: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Tendência Central

� Medidas em torno das quais as observações se distribuem;

� As medidas de tendência central, ou medidas de posição, mais estudadas são:� Média;

� Mediana;

� Moda.

Page 5: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Média

� Média (�̅���):� Considere a amostra (��, ��, �, … , ��), a média

observada é dada por:

� �̅��� � �� ��⋯� �� � ��∑ ������ .

Page 6: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – média

� Suponha que parafusos a serem utilizados em tomadas elétricas são embalados em caixas rotuladas como contendo 100 unidades. Em uma construção, 10 caixas de um lote tiveram o número de parafusos contados, fornecendo os valores 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o número médio de parafusos será dado por:

�̅��� � 98 � 102 � 100 �⋯� 95 � 99 � 10010�̅��� � ���� � 98,6 parafusos

Page 7: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Mediana

� É o valor que ocupa a posição central dos dados ordenados.� Para encontrar a mediana deve-se ordenar os dados do

menor para o maior;

� A mediana relativa a um conjunto de dados pode ser definida como:

� "#��� � $� �%�� , se)forímpar �� � ��%�� , se)forpar

Page 8: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – mediana

� Considere o mesmo conjunto de dados do último exemplo: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, a mediana será dada por:

� Primeiro colocamos os dados em ordem:

) � 10 ⇒ "#��� � � �� � � ����2 � � � � � � � � ��2 �� 2� 2%�� � 2� 3� � ������ � 99 parafusos

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

Page 9: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Moda

� A moda de um conjunto de dados é a observação que aparece com maior frequência no conjunto;

� Um conjunto pode ser unimodal, bimodal ou multimodal;

� Caso todos os valores tenham a mesma frequência, não é possível determinar a moda do conjunto de valores, conjunto amodal.

Page 10: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – moda

� Considere o mesmo conjunto de dados do último exemplo: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, a moda será dada por:

� Utilizando os dados já ordenados, temos:

� O valor 100, é o mais frequente, aparecendo 3 vezes, logo:

� "?��� � 100 parafusos

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

Page 11: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Tendência Central

� Podem ser utilizadas conjuntamente para auxiliar a análise dos dados;

� Ou, em determinadas situações uma delas pode ser mais conveniente do que a outra:� No caso de haver um ou mais dados que se afastam do geral

das observações (valores discrepantes ou outliers) a média passa a ser uma medida de tendência central inadequada, sendo a mediana uma medida mais indicada.

� No caso de conjuntos multimodais ou amodais, a média ou a mediana são mais indicadas para representar a tendência central.

Page 12: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 2 – valor atípico

� Considere o mesmo conjunto de dados do último exemplo, porém considerando que uma das caixas com 1 parafusos na realidade tivesse 45 parafusos: 98, 102, 100, 45, 99, 97, 96, 95, 99, 100. Para essas caixas, a moda será dado por:

� Utilizando os dados já ordenados, temos:

� �̅��� � ���� ��⋯����� � � 93,1 parafusos

� "#��� � 2� 3� � ������ � 98,5 parafusos

� "?���� � 99; "?���� � 100 parafusos

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 45 95 96 97 98 99 99 100 100 102

Page 13: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 2 – valor atípico

� �̅��� � ���� ��⋯����� � � 93,1 parafusos

� "#��� � 2� 3� � ������ � 98,5 parafusos

� "?���� � 95; "?���� � 99; "?���A � 100 parafusos

� Ao inserir um valor atípico no conjunto de dados utilizado, pode perceber que:

� A média foi bastante influenciada, passou de 98,6 para 93,1 parafusos, se tornando inadequada;

� O conjunto passou a ser multimodal, o que também torna a utilização da moda inapropriada;

� A mediana foi a medida que menos sofreu influência do valor atípico, sendo a mais adequada nesse caso.

Page 14: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Tendência Central

� Nem sempre se trabalha, ou se tem interesse, no conjunto de dados originais, obtidos por medidas diretas;

� Comumente, o interesse está em uma função dessas medidas diretas, sendo necessário considerar os valores originais multiplicados ou acrescidos de constantes para obter um novo conjunto de valores (medidas indiretas);

� Veremos, a seguir, como as medidas de tendência central se alteram e como podem ser obtidas a partir do conjunto original (medidas diretas).

Page 15: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 3 – medidas indiretas

� Nas caixas de parafusos do exemplo 1, vamos admitir um custo de B por parafuso e de C pela embalagem da caixa. Desejamos calcular as medidas de posição do BDEF?F?FGHIJK, definido como a soma dos custos dos parafusos e da embalagem. Iniciamos, calculando as novas medidas de tendência central apenas para o BDEF?HíLDM#?N?OBGM�GIPK, isto é, o custo dos parafusos contidos na caixa sem a embalagem. Temos:

� Qé#MG#CP � H�̅�� � ��S�� �S�⋯�� S� � ���S� � 98,6B� "C#MG)G � "#��� P � ��S���S� � 99B� "?#G � "?��� P � 100B

Page 16: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 3 – medidas indiretas

� Vamos incluir agora o custo da embalagem. As caixas custarão:

� 98B � C, 102B � C, 100B � C, … , 99B � C, 100B � C� Qé#MG#CJ � F�̅�� � I��S�TK�I� �S�TK�⋯�I� S�TK� �� 986B � 10C10 � 98,6B � C� "C#MG)G � "#��� J � I��S�TK�I��S�TK� � 99B � C� "?#G � "?��� P � 100B � C

Page 17: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Tendência Central

� Considerando o exemplo 3, pode-se perceber que:� A multiplicação de uma constante B resultou em que as novas

medidas de tendência central são as antigas multiplicadas por B;� O acréscimo por uma quantidade C teve o efeito de somar

essa mesma constante às medidas de tendência central.

Page 18: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 1 – Parte 1

� Foram coletadas 150 observações de uma variável, representando o )ú"CO?#CVCEFMWDHGOCEXYZ[\J (um por ano) que um mesmo estudante prestou, Assim, foi observado que 75 estudantes prestaram vestibular FUVEST, uma única vez, e assim por diante. Os dados estão na tabela abaixo:

� Calcule as medidas de tendência central da variável número de vestibulares.

Nº de vestibulares FUVEST 1 2 3 4

Nº de estudantes 75 47 21 7

Page 19: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 1 – Parte 2

� Pode ser de interesse estudar o gasto dos alunos associado com as despesas do vestibular. Para simplificar um pouco a situação, vamos supor que se atribui, para cada aluno, uma despesa fixa de R$1300, relativa à preparação e mais R$50 para cada vestibular prestado. De pose dessas informações, vamos calcular as medidas de tendência central da variável ]: despesacomvestibular.

Nº de vestibulares FUVEST 1 2 3 4

Nº de estudantes 75 47 21 7

Page 20: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 2

� Um estudante está procurando um estágio para o próximo ano. As companhias g e h têm programas de estágios e oferecem uma remuneração por 20 horas semanais com as seguintes características (em salários mínimos):

� Qual companhia o aluno deverá escolher? Justifique.

Companhia i jMédia 2,5 2,0

Mediana 1,7 1,9

Moda 1,5 1,9

Page 21: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Simetria

� Um conjunto de dados é dito simétrico se os dados se distribuem igualmente ao redor da média;

� Pode-se dizer que um conjunto de dados é simétrico quando a média, mediana e moda são dadas pelo mesmo valor;

� O conhecimento da simetria de um conjunto auxilia a interpretação do mesmo.

Page 22: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Simetria

0%

5%

10%

15%

20%

25%

30%

35%

1

Fre

q. R

el. (

%)

Altura (m)

Altura dos alunos entrevistados �̅��� � 1,67 metros

"#���IlK � 1,67 metros"?���IlK � 1,7 metros

mn��� � 60,2 kg

"#���IoK � 57,9 kg"?���IoK � 55 kg

IlK

IoK

0

5

10

15

20

25

30

35

40

45

50

16

Fre

qu

ên

cia

Rela

tiva (

%)

Peso (kg)

Peso dos alunos entrevistados

60 70 80 90 10040 50

1,45 1,53 1,61 1,69 1,77 1,85

Page 23: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Simetria

pqrst4urstpqrst pqrst

4urst

4urst

Page 24: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Dispersão

Medida de tendência central

Observações

� As medidas de tendência central indicam em torno de qual valor os dados se distribuem;

� Para dados com pequena dispersão, ou variabilidade, as medidas de tendência central fornecem uma descrição apropriada dos dados;

� Porém, para dados com uma grande dispersão as medidas de tendência central podem não ser tão apropriadas na descrição dos mesmos.

Page 25: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Disperção

� Algumas das medidas de dispersão, ou de variabilidade, mais utilizadas são:� Amplitude;

� Quantis;

� Variância;

� Desvio Padrão;

� Coeficiente de variação.

Page 26: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Amplitude

� Fornece uma descrição da variabilidade de um conjunto de dados;

� A amplitude é dada pela diferença entre os valores máximo e mínimo de um conjunto de dados;

� Assim como a média, a amplitude apresenta uma grande sensibilidade à valores atípicos.

Page 27: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – amplitude

� Considere o mesmo conjunto de dados (caixas de parafusos) utilizado anteriormente: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, a amplitude será dada por:

� Primeiro colocamos os dados em ordem:

G"NHMFD#C��� � 102 v 95 � 7 parafusos

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

mínimo máximo

Page 28: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Quantis

� Quantis: comumente indicado por L N , em que N é uma proporção qualquer (0 w N w 100), tal que N% das observações sejam menores ou iguais a L N .

� L 0 � mínimo;

� L 10 � primeiro decil ou 10º percentil;

� L 25 � primeiro quartil y� ou 25º percentil;

� L 50 � mediana ou segundo quartil y� ;

� L 75 � terceiro quartil y ;

� L 80 � oitavo decil;

� L 95 � 95º percentil.

Page 29: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Quantis

� Assim como para a mediana, o primeiro passo para encontrar o quantil desejado é ordenar os dados;

� Existem técnicas distintas para encontrar os quantis desejados;

� Uma das técnicas é:

� Utilizar a regra de três para encontrar a posição do valor representando o quantil desejado z � )N 100⁄ :

� Caso o valor z � )N 100⁄ seja um valor inteiro deve-se

calcular LI|K � I}K� I}%�K� ;

� Caso o valor z � )N 100⁄ não seja um valor inteiro, deve-se utilizar o valor LI|K � �I~��K, em que z é o maior inteiro menor do que )N 100⁄ .

Page 30: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – quartis

� Considere o mesmo conjunto de dados (caixas de parafusos) utilizado anteriormente: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, os quartis serão dados por:

� Para encontrar o primeiro quartil:

� z � � ∗��� � 2,5 ⇒ z � 2 (maior inteiro menor que 2,5)

� LI��K � y� � �I���K � 97 parafusos

� Para encontrar o terceiro quartil:

� z � � ∗��� � 7,5 ⇒ z � 7 (maior inteiro menor que 2,5)

� LI��K � y � �I���K � 100 parafusos

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

Page 31: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Resumo dos 5 números

� Resumo dado por 5 valores que ajuda a entender a variabilidade e simetria dos dados:� Mínimo;

� Primeiro Quartil;

� Mediana;

� Terceiro Quartil;

� Máximo.

Page 32: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – resumo dos 5 números

� Considere o mesmo conjunto de dados (caixas de parafusos) utilizado anteriormente: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o resumo de 5 números será dado por:

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

mínimo máximo

y� � 97

"#��� � 99

y � 100

Page 33: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Distância Interquartil ou Amplitude

Interquartil

� A Distância Interquartil (DIQ) é uma medida semelhante à amplitude já estudada, a diferença é que nesse caso, ao invés de utilizar os valores máximo e mínimo, utiliza-se os valores do Primeiro e Terceiro Quartis da seguinte maneira:

� ]�y � y v y�

Page 34: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 - DIQ

� Já foi obtido o resumo de cinco números, dado por:� Mínimo = 95 parafusos

� y�= 97 parafusos

� "#���= 99 parafusos

� y= 100 parafusos

� Máximo = 102 parafusos

� Logo:

� ]�y � 100 v 97 � 3 parafusos

Page 35: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Valores Atípicos (Outliers)

� Podem ser considerados atípicos aqueles valores que não estão incluídos no intervalo denominado Região de Observações Típicas (ROT), definido por:

� ��J � y� v 1,5]�y; y � 1,5]�y

Page 36: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – Valores Atípicos

� Já foram obtidos os valores:� y� � 97 parafusos;

� y � 100 parafusos; e

� ]�y � 3 parafusos.

� Logo: ��J � 97 v 1,5 � 3; 100 � 1,5 � 3��J � 97 v 4,5; 100 � 4,5��J � 92,5; 104,5

� Como todos os valores estão contidos na ROT, conclui-se que não existem valores atípicos nesse conjunto de dados.

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

Page 37: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Variância

� A variância de um conjunto de dados objetiva quantificar a variabilidade ao redor da média aritmética das observações.

� A variância de um conjunto de dados é dada por:

� VGO��� � ��∑ �� v �̅ ������ A variância possui um incoveniente: se as observações

forem medidas em B" a variância será dada em B"�. A unidade de medida da variância será sempre a unidade de medida das observações elevada ao quadrado.

Page 38: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – variância

� Considere o mesmo conjunto de dados (caixas de parafusos) utilizado anteriormente: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, a variância será dada por:

VGO��� � 98 v 98,6 � � 102 v 98,6 � �⋯� 99 v 98,6 � � 100 v 98,6 �10VGO��� � v0,6 � � 3,4 � �⋯� 0,4 � � 1,4 �10 � 40,410 � 4,04

Page 39: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – variância

� 4� 4� v 4urst 4� v 4urst 61 98 -0,6 0,36

2 102 3,4 11,56

3 100 1,4 1,96

4 100 1,4 1,96

5 99 0,4 0,16

6 97 -1,6 2,56

7 96 -2,6 6,76

8 95 -3,6 12,96

9 99 0,4 0,16

10 100 1,4 1,96

Total 40,40

�̅��� � 98,6VGO��� � 40,4010 � 4,04

Page 40: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 3 – medidas indiretas

� Nas caixas de parafusos do exemplo 1, vamos admitir um custo de B por parafuso e de C pela embalagem da caixa. Desejamos calcular a variância do BDEF?F?FGHIJK, definido como a soma dos custos dos parafusos e da embalagem. Iniciamos, calculando a nova variância apenas para o BDEF?HíLDM#?N?OBGM�GIPK, isto é, o custo dos parafusos contidos na caixa sem a embalagem.

Page 41: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 3 – medidas indiretas

� 4� �� ��1 98 98B 98B � C2 102 102B 102B � C3 100 100B 100B � C4 100 100B 100B � C5 99 99B 99B � C6 97 97B 97B � C7 96 96B 96B � C8 95 95B 95B � C9 99 99B 99B � C10 100 100B 100B � C

média 98,6 98,6B 98,6B � C

Page 42: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 3 – medidas indiretas

� �� �� v �̅rst �� v �̅rst 61 98B -0,6B 0,36B�2 102B 3,4B 11,56B�3 100B 1,4B 1,96B�4 100B 1,4B 1,96B�5 99B 0,4B 0,16B�6 97B -1,6B 2,56B�7 96B -2,6B 6,76B�8 95B -3,6B 12,96B�9 99B 0,4B 0,16B�10 100B 1,4B 1,96B�

Total 40,40B�

H�̅��� � 98,6BVGO��� � 40,40B�10 � 4,04B�

Page 43: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 3 – medidas indiretas

� �� �� v �̅rst �� v �̅rst 61 98B � C -0,6B 0,36B�2 102B � C 3,4B 11,56B�3 100B � C 1,4B 1,96B�4 100B � C 1,4B 1,96B�5 99B � C 0,4B 0,16B�6 97B � C -1,6B 2,56B�7 96B � C -2,6B 6,76B�8 95B � C -3,6B 12,96B�9 99B � C 0,4B 0,16B�10 100B � C 1,4B 1,96B�

Total 40,40B�

F�̅��� � 98,6B � CVGO��� � 40,40B�10 � 4,04B�

Page 44: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Medidas de Dispersão

� Considerando o exemplo 3, pode-se perceber que:� A multiplicação de uma constante B resultou em que a nova

variância é a antiga multiplicada por B�;

� O acréscimo por uma quantidade C não causou alteração no novo cálculo da variância.

Page 45: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 1 – Parte 3

� No Exercício 1 (parte 2), definimos a quantidade ], #CENCEG)?VCEFMWDHGO, obtida a partir de l()ú"CO?#CVCEFMWDHGOCENOCEFG#?E) pela expressão ] � 50l � 1300. Calcule a variância de ]

Nº de vestibulares FUVEST 1 2 3 4

Nº de estudantes 75 47 21 7

Page 46: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Desvio Padrão

� O desvio padrão é dado pela raiz quadrada da variância:

� #N��� � VGO��� � ��∑ �� v �̅ ������ A grande vantagem do desvio padrão é o fato dele ter a

mesma unidade de medida das observações;

� Assim como a variância o desvio padrão fornece uma medida de variabilidade ao redor da média do conjunto observado;

� No entanto o valor dado pelo desvio padrão costuma ser mais direto para a compreensão do quanto os dados se distanciam da sua média aritmética.

Page 47: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – desvio padrão

� Considere o mesmo conjunto de dados (caixas de parafusos) utilizado anteriormente: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o desvio padrão será dado por:

#N��� � VGO��� � 4,04 � 2,01

Page 48: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box-Plot

� Exibe um resumo dos dados de maneira simplificada;

� O Box-Plot possui informação sobre o resumo dos 5 números e sobre os valores atípicos;

� De maneira simplificada informa sobre, entre outras coisas, a variabilidade e a simetria dos dados.

Page 49: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – resumo dos 5 números

� Considere o mesmo conjunto de dados (caixas de parafusos) utilizado anteriormente: 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o resumo de 5 números é dado por:

� OBS: Já verificamos a ausência de valores atípicos para esse conjunto de dados.

"M) � 95y� � 97"#��� � 99y � 100"G� � 102

Page 50: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – Box-Plot

95

96

97

98

99

100

101

Núm

ero

de p

araf

usos

por

cai

xa

"M) � 95y� � 97"#��� � 99y � 100"G� � 102

102

Page 51: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box Plot

� Na presença de valores atípicos o box plot utiliza os valores limite da região de observações típica como os valores máximo e mínimo da amostra, representando os valores atípicos como pontos fora da caixa;

� No próximo slide veremos duas tabelas (Tabelas 1 e 2) contendo informações retiradas de 77 caixas dos cereais mais populares dos EUA;

� Essas informações foram obtidas em 2012 no site (www.statsci.org/datasets.html) e tinham como objetivo auxiliar o consumidor na escolha de um café da manhã mais saudável.

Page 52: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box Plot - Tabelas 1 (esquerda) e 2 (direita)Sódio/porção Freq. Abs. Sódio/porção Freq. Abs.

0 9 170 5

15 2 180 5

45 1 190 3

70 1 200 8

75 1 210 4

80 1 220 5

90 1 230 2

95 1 240 2

125 2 250 2

130 1 260 2

135 2 280 2

140 7 290 3

150 3 320 1

160 1

Kcal/porção Freq. Abs.

50 3

70 2

80 1

90 7

100 17

110 29

120 10

130 2

140 3

150 2

160 1

Page 53: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box Plot - Sódio

� Ao analisar os dados fornecidos pela tabela 1 obtemos as seguintes medidas para a variável quantidade de Sódio por porção:� Mínimo = 0

� y�= 130

� "#���= 180

� y= 210

� Máximo = 320

� ]�y � 210 v 130 � 80� ��J � 130 v 1,5 � 80; 210 � 1,5 � 80 � I10; 330K� Existem 9 valores atípicos, todos iguais à ZERO.

Page 54: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box Plot - Sódio

0

130

210

320

180

Máximo

y"#���y�

Mínimo

10 y� v 1,5 � ]�y

Page 55: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box Plot - Calorias

� Ao analisar os dados fornecidos pela tabela 2 obtemos as seguintes medidas para a variável quantidade de Calorias por porção:� Mínimo = 50

� y�= 100

� "#���= 110

� y= 110

� Máximo = 160

� ]�y � 110 v 100 � 10� ��J � 100 v 1,5 � 10; 110 � 1,5 � 10 � I85; 125K� Existem 14 valores atípicos.

Page 56: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Box Plot

� Exemplo: Calorias

85

100

160

125

110

50

Máximo

Mediana y� ; yy�

Mínimo

y � 1,5 � ]�y

y� v 1,5 � ]�y

Page 57: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 4

� Considere os dados dos pesos dos 50 alunos entrevistados (dados brutos apresentados no arquivo 3_capítulo1.pdf) divididos por sexo:

� Calcule o resumo dos 5 números para os pesos das alunas e dos alunos separadamente;

� Construa dois box-plots (dispostos paralelamente um ao outro) um para o peso das alunas e um para o peso dos alunos;

� O peso dos alunos entrevistados se comporta de maneira igual para ambos os sexos? Justifique.

Page 58: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 4

Id Sexo Peso Ordem

18M 58,2 1

6M 60 2

14M 68,5 3

49M 71 4

3M 72,8 5

32M 73 6

40M 73 7

43M 75 8

4M 80,9 9

38M 84 10

50M 86 11

35M 87 12

37M 95 13

Id Sexo Peso Ordem

42F 44 1

8F 47 2

36F 47 3

16F 47,4 4

24F 48 5

29F 49 6

45F 49 7

23F 49,2 8

46F 50 9

48F 50 10

1F 50,5 11

25F 51,6 12

28F 52 13

31F 52 14

20F 52,5 15

12F 54 16

19F 54,5 17

47F 54,5 18

2F 55 19

Id Sexo Peso Ordem

5F 55 20

41F 55 21

44F 55 22

33F 56 23

26F 57 24

9F 57,8 25

7F 58 26

10F 58 27

13F 58 28

34F 58 29

22F 58,5 30

30F 59 31

21F 60 32

39F 60 33

27F 63 34

15F 63,5 35

17F 66 36

11F 70 37

Page 59: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Coeficiente de Variação

� Em alguns casos é interessante relacionar a média aritmética com o desvio padrão.

� O coeficiente de variação fornece uma medida livre de dimensão e representada como uma percentagem, indicando a importância da variação dos dados:

� �Z � �| ̅ � 100%.

� Como o coeficiente de variação não possui dimensão, ele pode ser utilizado para comparar a variabilidade entre dois conjuntos de dados distintos;

� Quanto menor o CV, maior a homogeneidade entre os dados.

Page 60: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exemplo 1 – Coeficiente de variação

�̅ � 98,6 parafusos �Z � � ̅ � 100%.

E � 2,01 parafusos �Z � 2,0198,6 � 100% � 2,04%

Ordem 45 46 47 48 49 4: 4; 4< 4= 45>Número de Parafusos 95 96 97 98 99 99 100 100 100 102

Page 61: Introdução à Estatística...2019/04/04  · É o valor que ocupa a posição central dos dados ordenados. Para encontrar a mediana deve-se ordenar os dados do menor para o maior;

Exercício 5

� Considere os dados dos pesos e alturas dos 50 alunos entrevistados (dados brutos apresentados no arquivo 3_capítulo1.pdf):

� Calcule o coeficiente de variação para as variáveis peso (X) e altura (Y), sabendo que:� �̅��� � 1,672"; #NIlK��� � 0,0897"� mn��� � 60,188��; #NIoK��� � 11,634��;

� Qual variável é a mais homogênea?

� Como podemos interpretar os resultados obtidos?