32
ESTATÍSTICA aula 1 Prof. Dr. Marco Antonio Leonel Caetano Insper Ibmec São Paulo

Prof. Dr. Marco Antonio Leonel Caetano Insper Ibmec São … · LIMITAÇÕES TODA informação está contida nos dados. A conclusão, no MÁXIMO terá a qualidade dos dados que a

Embed Size (px)

Citation preview

ESTATÍSTICA

aula 1

Prof. Dr. Marco Antonio Leonel Caetano

Insper Ibmec São Paulo

ESTATÍSTICA “COISAS DO ESTADO”

ESTATÍSTICA:- Apresentação e Análise de dados- Tomadas de Decisões baseadas em análises

N l l d i ó i d d- No plural serve para designar os próprios dados

ESTATÍSTICA DESCRITIVA:- Descreve um certo grupo

ESTATÍSTICA INDUTIVA:S S C N U V :- A partir de subconjuntos representativos

(amostras) fazem-se induções (leis gerais) sobre o conjuntoestudado (população)

LIMITAÇÕES

TODA informação está contida nos dados. A conclusão, noMÁXIMO terá a qualidade dos dados que a geraram.

A estatística apenas auxilia o pesquisador, mas NÃO dispensap p q , po espírito crítico científico

FRASE CÉLEBRE:Um homem com a cabeça na geladeira e os pés no fogão,ç g p f g ,NÃO está vivendo em boa temperatura média.

CONCEITOS INTRODUTÓRIOS

POPULAÇÃOconjunto c/ características comuns

AMOSTRAsubconjunto aleatório de uma

FINITA: quando assume PROBABILÍSTICAS:seleção

jpopulação

FINITA: quando assume valores em conjunto finito ou infinito enumerável.

d

çaleatória em que cada elemento tem uma probabilidade conhecida de INFINITA: quando assume

valores em conjunto infinito NÃO enumerável.

probabilidade conhecida de fazer parte da amostra.NÃO PROBABILÍSTICAS i t iPROBABILÍSTICAS:intencionais.

DADOS (120 dados amostrados)

61 125 136 126 101 110 90 87 84 118 79 94 109 84 148 55 132 86 91 94146 99 78 165 113 84 72 77 95 110 159 119 62 103 155 99 87 122 80 115105 127 96 122 111 122 120 136 155 134 98 104 102 105 151 95 100 101 11999 95 134 89 141 88 121 118 95 130 136 116 116 148 104 131 87 125 92 9799 95 134 89 141 88 121 118 95 130 136 116 116 148 104 131 87 125 92 97116 110 110 136 112 172 86 136 116 52 97 140 91 100 119 118 127 108 120124 113 112 56 71 97 122 124 64 100 131 79 131 100 87 74 125 145 114119 86 103 100 105 99 111 141 110 160 156 101 66 107 131 141 114 110 66143 63 124 119 90 98 105 117 130 114 148 149 81 141 134 169 91 150 120109 144 58 135 128 106 53 92 86 87 97 144 146 117 107 101 117 130 55132 109 106 117 104 97 131 157 98 118 90 123 94 124 113 116 82 105 98114 128 148 77 146 107 91 74 127 108 83 67 106 122 105 120 98 82 109114 128 148 77 146 107 91 74 127 108 83 67 106 122 105 120 98 82 109129 137 154 127 171 155 99 109 119 138 139 138 131 99 87 83 96 126 116136 114 137 80 46 102 96 123 114 132 124 100 119 133 100 134 129 119 80104 120 121 109 115 106 190 137 168 112 116 91 114 87 109 74 122 131 148104 120 121 109 115 106 190 137 168 112 116 91 114 87 109 74 122 131 148144 139 96 129 120 59 133 112 56 84 178 133 58 114 143 88 140 103 156105 113 139 110 144 130 87 161 110 133 113 152 94 67 136 145 109 118 120126 133 95 107 101 92 84 96 119 77 106 71 117 165 93 89 101 89 141 8477 116 107 98 80 113 124 146 143 111 108 144 154 128 109 118 143 131 140145 127 117 67 111 116 118 83 141 80 78 136 117 94 130 139 72 139 119122 78 134 98 115 139 135 103 77 104 153 123 140 129 112 51 129 48 10999 146 138 89 118 162 78 145 112 137 88 78 86 115 112 65 96 171 125 11799 146 138 89 118 162 78 145 112 137 88 78 86 115 112 65 96 171 125 117104 66 102 97 106 137 123 82 143 99 151 113 136 135 118 99 105 108 138135 104 46 105 137 122 92 141 115 134 145 121 116 138 108 146 103 79 129127 120

TIPOS DE AMOSTRAGEM PROBABILÍSTICAS

(1) SIMPLES AO ACASO(1) SIMPLES AO ACASO

Todos os elementos da população tem igualprobabilidade de serem escolhidos.

Procedimento:

Enumerar TODOS os elementos da população.

Ef i i ã é lEfetuar sorteios com reposição até completaro tamanho da amostra (n)

Á(2) SISTEMÁTICA

U d d l ã tá d dUsada quando a população está ordenada

Procedimento:

Sendo N - tamanho da populaçãon t h d tn - tamanho da amostra

Calcula-se o intervalo de amostragem N/n ou o inteiro maispróximo “a”próximo a .

Sorteia-se um número “x”entre 1 e “a”.

Forma-se a amostra dos elementos correspondentes à

{ + + 2 + 3 + 1) }{ x, x + a, x + 2a, x + 3a, ....., x + n-1)a }

(3) ESTRATIFICADA

P l ã h t ê d di tiPopulação heterogênea onde se distinguemsub-populações mais ou menos homogêneasdenominadas EXTRATOS.denominadas EXTRATOS.

Procedimento:

Divide-se a população em L sub-populações (EXTRATOS)onde n1 + n2 + n3 + ... + nL = N

Seleciona-se uma amostra aleatória de cada população.

ÁDADOS E VARIÁVEIS

DADOS Característica observada ou medida de algumaOS Característica observada ou medida de algumamaneira.

VARIÁVEIS Representação dos Dados

QUALITATIVASQUANTITATIVAS

ÁVARIÁVEIS QUANTITATIVASContínuas: Descrevem dados contínuos

Exemplo: hi é a altura do indivíduo “i”Di t D d d tDiscretas: Descrevem dados somente comvalores inteiros (contagem).

Exemplo: Número de alunos aprovados de 2000 a 2003: 25; 29; 20; etc..

VARIÁVEIS QUALITATIVAS

Descrevem qualidades, categorias, tipos, etc.

Exemplo: X = { Péssimo, Regular, Bom }Y= {Masculino, Feminino}

DESCRIÇÃO TABULAR E GRÁFICA DOS DADOS

CABEÇALHO

Tabela ou Gráfico devem apresentar

Ç

CORPO

RODAPÉ

O Cabeçalho deve responder O QUE? (refere ao fato)ç p

ONDE? (relativo ao lugar)

QUANDO? (corresponde à época)Q ( p p )

CABEÇALHOCABEÇALHO

TABELA 3.1

Tipo Número dedi d

Indivíduos segundo tipo sanguíneo da Região de S.J. Rio Preto-SP,1975

Sanguíneo IndivíduosO 547A 441B 123

AB 25TOTAL 1136

Fonte: Garcia (1977)CORPOCORPO

RODAPÉRODAPÉRODAPÉRODAPÉ

GRÁFICO DE COLUNAS

Indi íd os seg ndo tipo sang íneoIndivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975

500600

os

300400500

diví

duo

0100200

No.

In

0O A B AB

Tipo SanguíneoTipo SanguíneoFonte: Garcia (1977)

HISTOGRAMA

I di íd d ti íIndivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975

500600

os

300400500

diví

duo

100200

No.

Ind

0O A B AB

Tipo SanguíneoFonte: Garcia (1977)

ÁGRÁFICO DE BARRAS

Indivíduos segundo tipo sanguíneoIndivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975

AB

A

BTipo Sanguíneo

O

0 200 400 600

No. IndivíduosFonte: Garcia (1977)

GRÁFICO DE LINHAS

Indivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975

300400500600

No.

0100200300Indivíduos

O A B AB

Tipo SanguíneoFonte: Garcia (1977

ERRADO !!!

SETORES (vulgarmente conhecido como torta, pizza, etc)

Indivíduos segundo tipo sanguíneoIndivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975

B11%

AB2%

O48%

A39%

Fonte: Garcia (1977)

16

18

20

22

Distribuição Normal

BOX - PLOT

Freq

uênc

ia

10

12

14

16

F

2

4

6

8

0

2

22

26

do h

alo

14

18

Diâ

met

ro

2

6

10

Desvio-Padrão

Erro Padrão

Média

Meio de Cultura

-2

2

SMUTANS LACIDOPH

NO EXCELNO EXCEL......

DISTRIBUIÇÕES DE FREQUÊNCIA

Dados BrutosRolAmplitude Total (Range)Amplitude Total (Range)Freqüência AbsolutaNúmero de ClassesNúmero de ClassesAmplitude das ClassesLimites das ClassesPontos MédiosFreqüência Absoluta Acumulada DiretaFreqüência Absoluta Acumulada InversaFreqüência Absoluta Acumulada InversaFreqüência relativa

(1) DADOS BRUTOS: Dados ainda não organizados(1) DADOS BRUTOS: Dados ainda não organizados(2) ROL: É o arranjo dos DADOS BRUTOS em ordem

crescente ou decrescente(3) AMPLITUDE TOTAL (RANGE-R): É a diferença entre o

maior e o menor valor(4) FREQÜÊNCIA ABSOLUTA: É o número de vezes que o

elemento aparece na amostra, ou o número de elementosppertencentes a uma classe.

(5) NÚMERO DE CLASSES(K):( ) ( )

Para n < 25 : K = 5Para n > 25 :

nK ≅

(6) AMPLITUDE DAS CLASSES: h = R / K

(7) LIMITE DAS CLASSES: 1,35|----------- 1,40

(8) PONTOS MÉDIOS DAS CLASSES: 2)()(

)(ii

iLimInfLimSup

PM+

=

(9) FREQÜÊNCIA ACUMULADA DIRETA: É a soma dasf üê i b l t d l lfreqüências absolutas começando pelo menor valor

(10) FREQÜÊNCIA ACUMULADA INVERSA: É a subtração( )das freqüências absolutas começando pelo valor total.

(11) FREQÜÊNCIA RELATIVA É t d l(11) FREQÜÊNCIA RELATIVA: É a percentagem do valordos dados em relação ao total da amostra.

n

nClasseAbsFreq

f ii

)(..= onde ∑

==

n

iif

11 (100%)

TABELA DE CLASSES

Classes Freq.Abs (Fi)

Freq. Rel.(fi)

PontoMédio(Pmi)

Freq. Acum.Direta (Fac)

Freq.Acum.Inversa(Fac)’

1,35| -----1,45 2 2/56 1,40 2 561,45| -----1,55 11 11/56 1,50 13 541,55| -----1,65 13 13/56 1,60 26 431,65| -----1,75 10 10/56 1,70 36 301,75| -----1,85 11 11/56 1,80 47 20|1,85| -----1,95 7 7/56 1,90 54 91,95| -----2,05 1 1/56 2,00 55 22,05| -----2,15 1 1/56 2,10 56 1, | , ,TOTAL 56 1 (100%)

MEDIDAS DE TENDÊNCIA CENTRALMEDIDAS DE TENDÊNCIA CENTRAL

(1) MÉDIA ARITMÉTICA

xn

∑(i ) Dados não agrupados

n

xx i

i∑== 1

n

Fxn

ii∑n

Fxx i

ii∑== 1(ii) Dados Agrupados

FPMn

ii∑(iii) Dados Agrupados por Classes

nx i

ii∑== 1

( ) g p p

Di id j t d d d 2(2) MEDIANA

Divide o conjunto de dados em 2subconjuntos com igual número de elementos

(i) Para Dados não agrupados

Ex: 5 7 8 10 14 Mediana = 8

M di 9Ex: 5 7 8 10 14 15 Mediana = 9

Fórmula:Q d é í M di ( +1)/2Quando n é ímpar Mediana = (n+1)/2

Quando n é par Mediana = média{n/2;n/2 +1}Q p { ; }

(ii) Para dados Agrupados

Observando-se a Faci procura-se:n/2 n ímparMédia{n/2; n/2+1} n par

Exemplo2 3 2 4 3 4 4 2 1 1

Número Freq. Abs.(Fi)

Freq. Acum. Dir. (Fac)

1 2 21 2 22 3 53 2 74 3 104 3 10

n = 10 (par)n/2 = 5o elementon/2 + 1 = 6o elemento

MEDIANA = (2+3)/2 = 2,5

(iii) Para Tabela de Classes

Primeiro Passo Calcula-se a ordem n/2 não sed

e o ssopreocupando se n é par ou ímpar

S d PA classe da mediana é aquela cuja

Segundo Passo freqüência acumulada direta até elaé MAIOR ou igual a n/2 e a imediatamente

t i MENOR /2anterior MENOR que n/2.

Terceiro Passo Utiliza-se a fórmula

hfn

Lx d ×⎟⎠⎞

⎜⎝⎛ −

+=∑2~

Lmd : limite inferior da classe da mediana.n : tamanho da amostra h

FLx

mdmd ×+=

∑ f

n : tamanho da amostra

freqüência acumulada da classe imediatamente anterior à da mediana.A i ih : Amplitude da classe da medina

Fmd- : freqüência absoluta da classe da mediana.

(III) MODA

P i i P Identifica-se a classe modal

É o valor mais freqüente da distribuição

Primeiro Passo Identifica-se a classe modal (maior freqüência absoluta)

Utiliza-se a fórmula

Segundo Passo ( ) hFFF

FFLMomomomo

momomo ×

−−×−

+=+−

11

12

LMO: limite inferior da classe modal.FMO : freqüência absoluta da classe modalF f üê i b l t d l i di t t t i à l d lFMO-1: freqüência absoluta da classe imediatamente anterior à classe modal.FMO+1: freqüência absoluta da classe imediatamente posterior à classe modal.h : amplitude da classe modal.

(IV) QUARTIL Divide os dados em 4 partes iguais

(V) DECIL Divide os dados em 10 partes iguais

(VI) PERCENTIL Divide os dados em 100 partes iguaisp g

MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO

AMPLITUDE TOTAL (Range) minmax XXR −= minmax

 ( )n 2VARIÂNCIA ( )∑

=

−=σ

n

i

in

xx

1

22

populacional

( )∑ −ni xx 2

2 l( )∑= −

=i

in

xxs1

21

amostral

DESVIO PADRÃO 2sdp ±=s

COEFICIENTE DE VARIAÇÃO xscv =

VARIÂNCIA PARA DADOS AGRUPADOS

( )∑ ×−nii Fxx 2

2 ( )∑= −

×=

i

iin

Fxxs1

2

1

VARIÂNCIA PARA TABELA DE CLASSES

( )∑ ×−nii FxPM 2

2 ( )∑= −

×=

i

iin

FxPMs1

21

RELAÇÃO GRÁFICA

20

22

16

18Distribuição Normal

uênc

ia

12

14

Freq

u

6

8

10

2

4

6

+ desvio padrão- desvio padrão

0média