32
1 Centro Federal de Educação Tecnológica de Química de Centro Federal de Educação Tecnológica de Química de Nilópolis/RJ Nilópolis/RJ ESTATÍSTICA BÁSICA ESTATÍSTICA BÁSICA MÉTODOS QUANTITATIVOS MÉTODOS QUANTITATIVOS TRATAMENTO DE DADOS TRATAMENTO DE DADOS Profa. Daniela Gomes Email: [email protected]

Resumo aulas (daniela gomes)

Embed Size (px)

DESCRIPTION

Aula de Estatística Básica.

Citation preview

Page 1: Resumo aulas (daniela gomes)

1

Centro Federal de Educação Tecnológica de Química de Nilópolis/RJCentro Federal de Educação Tecnológica de Química de Nilópolis/RJ

ESTATÍSTICA BÁSICAESTATÍSTICA BÁSICA

MÉTODOS QUANTITATIVOSMÉTODOS QUANTITATIVOS

TRATAMENTO DE DADOSTRATAMENTO DE DADOS

Profa. Daniela Gomes

Email: [email protected]

Page 2: Resumo aulas (daniela gomes)

2

No nosso cotidiano, precisamos tomar decisões, muitas vezes decisões rápidas.

A Estatística fornece métodos que auxiliam o processo de tomada de decisão.

O QUE É ESTATÍSTICA?O QUE É ESTATÍSTICA?

Page 3: Resumo aulas (daniela gomes)

3

O QUE É ESTATÍSTICA?O QUE É ESTATÍSTICA?

Inicialmente a Estatística tratava da compilação de dados (nº de habitantes, nº de nascimentos, estimativas das riquezas etc).

Quando começa a ter aspecto mais científico esse conjunto de técnicas recebe o nome de estatística por Godofredo Achenwall no século XVIII.

Passa da simples catalogação de dados numéricos para ser um estudo mais completo desses dados.

O método estatístico trata-se de um conjunto de técnicas para coletar, organizar, descrever, analisar e interpretar dados.

Com base nos resultados obtidos, busca-se subsídios para planejar e tomar decisões.

Page 4: Resumo aulas (daniela gomes)

4

A ESTATÍSTICA E A PROBABILIDADEA ESTATÍSTICA E A PROBABILIDADE

A probabilidade tem origem no século XVII, surgindo bem depois da Estatística, e tem como objetivo resolver questões de jogo de azar.

Somente no século XX a probabilidade obteve teoria matemática mais rigorosa fundamentada em axiomas, definições e teoremas.

A junção da probabilidade à Estatística permitiu, com base na análise de dados, extrair conclusões mais válidas sobre o fenômeno observado, auxiliando com maior precisão a tomada de decisão.

Page 5: Resumo aulas (daniela gomes)

5

Estatística DescritivaEstatística Descritiva => parte da Estatística que aborda a coleta, a organização e a descrição dos dados.

Inferência EstatísticaInferência Estatística => trata da análise e interpretação dos dados, baseando-se na evidência amostral para chegar a conclusões sobre uma população.

RAMOS DA ESTATÍSTICARAMOS DA ESTATÍSTICA

Page 6: Resumo aulas (daniela gomes)

6

Como selecionar uma amostra, de tal modo que as informações possam ser expandidas (generalizadas) para a população?

POPULAÇÃO E AMOSTRAPOPULAÇÃO E AMOSTRA

População ou universo – trata-se do conjunto de todos os elementos (objetos, indivíduos, valores, medidas etc) que apresentam pelo menos uma característica em comum, esse conjunto pode ser finito ou infinito.

Amostra – é um subconjunto finito extraído da população, onde, com base nos resultados observados nessa amostra é possível chegar a conclusões sobre a população.

A partir de observações de partes do todo, deseja-se obter informações sobre esse todo. Em outras palavras, é possível chegar a diagnósticos e conclusões sobre a população.

Page 7: Resumo aulas (daniela gomes)

7

AMOSTRAGEMAMOSTRAGEM

Amostragem é o processo de seleção para se obter amostras, pode ser probabilística (aleatória) ou não probabilística.

Amostragem Probabilística – cada elemento da população tem a mesma chance (probabilidade) de participar da amostra. Esse tipo de amostragem é planejada a fim de evitar qualquer tipo de tendenciosidade.

Amostragem Não Probabilística – ocorre quando os elementos da população não têm a mesma chance de serem representados na amostra.

Page 8: Resumo aulas (daniela gomes)

8

AMOSTRAGEMAMOSTRAGEM

Principais tipos de Amostragem Probabilística:

•Aleatória Simples (ou Casual): processo mais elementar e freqüentemente utilizado, equivale a um sorteio lotérico. Numera-se a população de 1 a n e, em seguida, realiza-se um sorteio aleatório de x elementos dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra.

• Estratificada (ou proporcional): classifica a população em pelo menos dois estratos (ou subpopulações) que possuem as mesmas características, para, assim, extrair uma amostra de cada estrato. Ex. sexo (masculino e feminino).

• Sistemática: escolhe-se um ponto de partida e seleciona-se o késimo elemento da população, ou seja, escolhe-se cada elemento de ordem k. Ex. pesquisa em uma rua residencial com k=10, onde a primeira casa sorteada aleatoriamente foi a casa 8, sendo assim, a próxima será a casa 18 etc.

• Por conglomerado: divide-se a área da população em conglomerados (ou seções), depois, seleciona-se aleatoriamente algumas dessas seções e, finalmente, considera-se todos os elementos dos conglomerados selecionados. Ex. pesquisa pré-eleitoral: seleciona-se aleatoriamente 30 zonas eleitorais e, realiza-se a pesquisa com todos os elementos das zona selecionadas.

Page 9: Resumo aulas (daniela gomes)

9

AMOSTRAGEMAMOSTRAGEM

Principais tipos de Amostragem Não Probabilística:

Amostragem de conveniência: utiliza-se os resultados de fácil acesso, isto é, o que se tem disponível. Ex. pesquisas de opinião em praças públicas.

Amostragem por cotas: Ex. pesquisa sobre o "trabalho das mulheres na atualidade", provavelmente se terá interesse em considerar: a divisão cidade e campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias etc.

Amostragem intencional: escolhe-se intencionalmente um grupo de elementos que irão compor a amostra, cujo os quais se deseja saber a opinião. Ex. pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza para entrevistar clientes e funcionários do salão.

Page 10: Resumo aulas (daniela gomes)

10

DADOS BRUTOS: dados originais na forma com que foram coletados, refere-se aqueles dados que não foram numericamente organizados ou ordenados.

ROL ESTATÍSTICO: dados numéricos arranjados em ordem de grandeza crescente ou decrescente.

AMPLITUDE TOTAL: com os dados elaborados pode-se estimar a amplitude total do conjunto de dados (A), a partir da diferença entre o maior e menor valor observados no conjunto.

A = Xn – X1 = MAIOR VALOR – MENOR VALOR

VARIÁVEL: característica dos elementos observados.

CENSO: estudo realizado com todos os elementos de uma população.

PESQUISA: estudo realizado a partir de uma amostra.

CONCEITOS BÁSICOSCONCEITOS BÁSICOS

Page 11: Resumo aulas (daniela gomes)

11

Exemplo de dados brutos: Estatura (cm) de 40 alunos do curso de Estatística.

Exemplo de rol estatístico: Estatura (cm) de 40 alunos do curso de Estatística.

166 160 161 150 162 160 165 167 164 160 162 161 168 163 156 173 160 155 164 168 155 152 163 160 155 155 169 151 170 164 154 161 156 172 153 157 156 158 158 161

150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173

Page 12: Resumo aulas (daniela gomes)

12

DADOS BRUTOS: dados originais na forma com que foram coletados, refere-se aqueles dados que não foram numericamente organizados ou ordenados.

ROL ESTATÍSTICO: dados numéricos arranjados em ordem de grandeza crescente ou decrescente.

AMPLITUDE TOTAL: com os dados elaborados pode-se estimar a amplitude total do conjunto de dados (A), a partir da diferença entre o maior e menor valor observados no conjunto.

A = Xn – X1 = MAIOR VALOR – MENOR VALOR

VARIÁVEL: característica dos elementos observados.

CENSO: estudo realizado com todos os elementos de uma população.

PESQUISA: estudo realizado a partir de uma amostra.

CONCEITOS BÁSICOSCONCEITOS BÁSICOS

Page 13: Resumo aulas (daniela gomes)

13

Variáveis Qualitativas:Expressam atributos, qualidades dos elementos pesquisados.

Exemplos: estado civil, profissão, escolaridade (fundamental, médio, superior), sexo.

VARIÁVEISVARIÁVEIS

Variáveis Quantitativas:Implicam em relações de mensuração, medida, contagem.

Exemplos: salário, idade, preço, produção, escolaridade (nº de anos na escola), nº de filhos.

Page 14: Resumo aulas (daniela gomes)

14

TIPOS DE VARIÁVEISTIPOS DE VARIÁVEIS

Nominal: não é possível fazer nenhuma classificação depois das realizações.

Ordinal: é possível atribuir alguma ordem aos indivíduos depois de atribuída a característica.

Discreta: valores assumem um conjunto finito de valores possíveis.

Contínua: valores pertencem a um intervalo dos número Reais.

Variável

Qualitativa

Quantitativa

Nominal

Ordinal

Contínua

Discreta

=> estado civil, profissão

=> grau de instrução

=> nº de habitantes, nº de filhos

=> peso, estatura de um indivíduo

Page 15: Resumo aulas (daniela gomes)

15

TIPOS DE MENSURAÇÃOTIPOS DE MENSURAÇÃO

Os dados também podem ser classificados quanto ao tipo de mensuração: nominal, ordinal, intervalar e razão.

Nominal – trata-se de dados que consistem em nomes, rótulos e categorias. Não é possível realizar nenhum tipo de ordenação e nenhum cálculo com dados do tipo nominal. Ex. respostas do tipo “sim, não, não sei informar”; “partido político do deputados”.

Ordinal – refere-se aos dados que podem ser ordenados de algum modo, ainda assim, não faz sentido realizar cálculos. Ex. respostas do tipo “ótimo, bom, ruim, péssimo”.

Intervalar – é análogo ao nível ordinal, porém é possível realizar cálculos. Neste caso, não existe um ponto de partida zero, por exemplo, as temperaturas 35,8ºC e 35,3ºC são dados de nível intervalar, porém quando se registra temperatura igual a 0ºC isso não significa ausência de calor (não existe zero absoluto)

Razão – é o nível de intervalo incluindo o ponto de partida zero, pois o zero significa nenhuma quantidade presente. Ex. distância em Km percorrida por dois carros em uma prova.

Page 16: Resumo aulas (daniela gomes)

16

DISTRIBUIÇÃO DE FREQÜÊNCIADISTRIBUIÇÃO DE FREQÜÊNCIA

Trata-se de um modo de organizar um conjunto de realizações observadas a fim de obter uma idéia de seu comportamento, ou seja, de sua distribuição.

Para variáveis discretas: proporção em relação à característica.

Para variáveis contínuas: proporção em relação a intervalos.

Relaciona categorias ou classes de valores, juntamente com contagens ou freqüências do número de valores que se enquadram em cada categoria

Page 17: Resumo aulas (daniela gomes)

17

DISTRIBUIÇÃO DE FREQÜÊNCIADISTRIBUIÇÃO DE FREQÜÊNCIA

Sem intervalos de classe

Número de filhos

Freqüência simples if

0 2 1 6 2 10 3 12 4 4

Total 34

Distribuição das famílias segundo o número de filhos

Fonte: Hipotética.

Page 18: Resumo aulas (daniela gomes)

18

DISTRIBUIÇÃO DE FREQÜÊNCIADISTRIBUIÇÃO DE FREQÜÊNCIA

Com intervalos de classe

Distribuição da estatura (cm) dos alunos do curso de Estatística

Estatura dos alunos (cm)

Freqüência simples if

150 |--154 4 154 |--158 9 158 |--162 11 162 |--166 8 166 |--170 5 170 |--174 3

Total 40

Fonte: Hipotética.

Page 19: Resumo aulas (daniela gomes)

19

ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA

a) Limites inferiores de classe ( ): os menores valores do intervalo de classes;

b) Limites inferiores de classe ( ): os maiores valores do intervalo de classes;

c) Amplitude de classe: é a diferença entre dois limites inferiores de classe consecutivos;

d) Pontos médios de classe ( ):

e) Freqüência absoluta ou simples ( ): número de observações correspondente a determinada classe ou categoria ou valor.

Desse modo, .

f) Freqüência relativa ( ): é a razão entre a freqüência simples e a freqüência total da classe, multiplicada por cem (%):

g) Freqüência acumulada ( ): é a soma das freqüências de uma classe e de todas as classes que a antecedem, partindo da freqüência da primeira classe.

h) Freqüência acumulada relativa ( ): é a freqüência acumulada de uma classe dividida pela freqüência

total da distribuição, multiplicada por cem (%):

if

ix

il

iL

nfn

ii

1

100*

1

n

ii

ii

f

ffr

ifr

2

.classeampli

iF

iFr

100*

1

n

ii

ii

f

FFr

Page 20: Resumo aulas (daniela gomes)

20

PASSOS PARA CONSTRUIR UMA DISTRIBUIÇÃO DE FREQÜÊNCIAPASSOS PARA CONSTRUIR UMA DISTRIBUIÇÃO DE FREQÜÊNCIA

a) Determinar o número de classes: geralmente o número de classes é escolhido por muitos autores em um valor entre 5 e 20, de uma forma empírica. A familiaridade do pesquisador com os dados é que deve indicar quantas classes devem ser construídas.

b) Amplitude de classe: na construção da distribuição de freqüência define-se a amplitude de classe como sendo a diferença entre o maior e o menor valor do rol dividida pelo número de classes.

c) Limite inferior da primeira classe ( ): deve-se iniciar o processo de construção das classes determinando o limite inferior da primeira classe a ser formada. A escolha deste valor é feita por muitos autores, como menor valor amostral, ou seja, o menor valor observado no rol estatístico (ponto de partida).

d) Determinação dos limites inferiores das demais classes: somar ao valor do limite inferior da primeira classe a amplitude de classe para obter o limite inferior da segunda classe, e, assim, sucessivamente.

e) Limite superior ( ): o limite superior da primeira classe será o limite inferior da segunda classe e, assim, sucessivamente, até que o maior valor observado esteja contido na última classe.

f) Determinar a freqüência total de cada classe.

classesdenúmero

valormenorvalormaiorclassedeamplitude

il il

iL

Page 21: Resumo aulas (daniela gomes)

21

Exemplo de distribuição de freqüência com intervalos de classes:

DISTRIBUIÇÃO DE FREQÜÊNCIADISTRIBUIÇÃO DE FREQÜÊNCIA

Fonte: Hipotética.

Estatura dos alunos (cm)

Freqüência simples if

Freqüência relativa ifr (%)

Freqüência acumulada iF

Freqüência acumulada

relativa iFr (%) 150 |--154 4 10,0 4 10,0 154 |--158 9 22,5 13 32,5 158 |--162 11 27,5 24 60,0 162 |--166 8 20,0 32 80,0 166 |--170 5 12,5 37 92,5 170 |--174 3 7,5 40 100,0

Total 40 100,0 --- ---

1. Quantos alunos têm estatura entre 154 e 157 cm?

2. Qual a percentagem de alunos cujas estaturas são inferiores a 154 cm?

3. Quantos alunos têm estatura inferior a 162 cm?

4. Quantos alunos têm estatura superior a 158 cm?

2f

1fr

3F

6

12 271340

ii Ff

Page 22: Resumo aulas (daniela gomes)

22

MEDIDAS DE TENDÊNCIA CENTRALMEDIDAS DE TENDÊNCIA CENTRAL

Corresponde a um valor no centro ou no meio do conjunto de dados, o qual permite traduzir algumas características desse conjunto de dados. Em outra palavras, uma medida de tendência central procura sintetizar as informações da amostra em um único e informativo valor.

As principais medidas de tendência central são: a média aritmética; a mediana e a moda.

Page 23: Resumo aulas (daniela gomes)

23

A MÉDIA ARITMÉTICAA MÉDIA ARITMÉTICA

A média aritmética é a principal medida de tendência central, sendo utilizada principalmente quando os dados apresentam distribuição simétrica ou aproximadamente simétrica. É o centro do conjunto de dados, ou seja, um ponto de equilíbrio dos mesmos, tratando-se da soma de todas as observações dividida pelo total do número de observações.

Observações:

1) A média é um bom estimador quando na série de dados não existem valores atípicos (ou extremos). Quando há valores atípicos no conjunto de dados, a média pode ser bastante afetada tanto por valores extremos mínimos quanto por valores extremos máximos.

2) O que é uma distribuição simétrica ou aproximadamente simétrica?Diz-se que uma distribuição é simétrica quando a metade esquerda de seu histograma é a imagem-espelho da metade direita.

Page 24: Resumo aulas (daniela gomes)

24

A MÉDIA ARITMÉTICAA MÉDIA ARITMÉTICA

Média para dados não agrupados:

1) Média populacional

2) Média amostral

Média para dados agrupados em distribuição de freqüência (média aritmética ponderada):

1) Sem intervalo de classes

2) Com intervalos de classes

N

xxx

N

x NN

i

i

...21

1

n

xxx

n

xx n

n

i

i

...21

1

k

ii

k

iii

f

fxx

1

1

k

ii

k

iii

f

fxx

1

1

é o ponto médio da classe

é a freqüência da classe

ix

if

é cada valor da variável

é a freqüência da classe

ix

if

Observação para média de dados agrupados com intervalos de classe:

A hipótese tabular básica, considera que todos os elementos de uma classe são representados pelo seu ponto médio, fato este, que pode não ser verdadeiro em muitas as situações. Porém, este resultado é apenas uma aproximação e, neste caso, o erro cometido é mínimo, portanto, pode ser desprezado.

Page 25: Resumo aulas (daniela gomes)

25

PROPRIEDADES DA MÉDIA ARITMÉTICAPROPRIEDADES DA MÉDIA ARITMÉTICA

1ª) A soma algébrica dos desvios tomados em relação a média é nula. O desvio em relação a média é a diferença entre cada elemento de um conjunto de valores e a média aritmética desse conjunto: .

Então,

2ª) Somando-se ou subtraindo-se uma constante c a todos os valores de um conjunto de dados, a média do conjunto fica aumentada ou diminuída dessa constante.

Ou seja, , onde, é a média do novo conjunto de dados.

3ª) Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante c, a média do conjunto fica multiplicada ou dividida por essa constante.

Desse modo, , é a média do novo conjunto de dados.

xxd ii

cxy ii cxy

cxy ii * cxy *

cxy ii

0)(11

k

ii

k

ii xxd

cxy i

y

y

Page 26: Resumo aulas (daniela gomes)

26

A MEDIANA (Md)A MEDIANA (Md)

A mediana corresponde ao valor que se encontra no meio (centro) de uma série de dados, quando os dados estão dispostos em uma ordem de grandeza crescente ou decrescente. Isto é, divide o conjunto de dados (a partir das observações ordenadas) em duas partes iguais.

Determinando o valor da mediana para dados não-agrupados a partir do conhecimento da posição central:

• para n for ímpar o valor mediano ocupará a posição . Neste caso, o valor da mediana será exatamente o número correspondente a tal posição na série de dados.

• se n for par, a mediana será a média entre os dois termos que ocupam as posições e .

2

1n

2

n 12

n

Page 27: Resumo aulas (daniela gomes)

27

Mediana para dados agrupados sem intervalos de classe:

É necessário determinar as freqüências acumuladas para verificar a posição em que a mediana se encontra. Pois, a mediana será o valor da variável correspondente a freqüência acumulada imediatamente superior à metade da soma das freqüências.

Ou seja,

Observação:

Se , a mediana será , correspondente ao encontrado.

A MEDIANA (Md)A MEDIANA (Md)

iF

21

k

iif

i

k

ii

Ff

21

21

ii xxMd iF

Page 28: Resumo aulas (daniela gomes)

28

Mediana para dados agrupados com intervalos de classe:

Ao determinar a classe mediana correspondente a freqüência acumulada imediatamente

superior a , utiliza-se a seguinte fórmula:

- limite inferior da classe mediana

- posição (ordem) do valor da mediana

- freqüência acumulada da classe anterior à classe mediana

- freqüência simples da classe mediana

- amplitude do intervalo da classe mediana

Observação: caso exista uma freqüência acumulada exatamente igual a , a mediana será o limite superior da classe correspondente.

A MEDIANA (Md)A MEDIANA (Md)

**

* *]2)[(

hf

FflMd anti

*l

*f

*h

21

k

iif

antF

21

k

iif

21

k

iif

iF

Page 29: Resumo aulas (daniela gomes)

29

PROPRIEDADES DA MEDIANAPROPRIEDADES DA MEDIANA

1ª) Somando-se ou subtraindo-se uma constante c a todos os valores de um conjunto de dados, a mediana do conjunto também ficará aumentada ou diminuída dessa constante.

2ª) Assim como a média a mediana é influenciada quando o conjunto de dados é multiplicado ou dividido por determinada constante c. Nesse caso, a mediana do conjunto fica multiplicada ou dividida por essa constante.

cMdMd '

cMdMd ' cMdMd '

Page 30: Resumo aulas (daniela gomes)

30

A MODA (Mo)A MODA (Mo)

A moda de uma série de dados corresponde a observação que ocorre com maior freqüência.

Um conjunto de dados pode ser classificado como: modal (apenas uma observação ocorre com freqüência máxima); bimodal (duas observações ocorrem com a mesma freqüência máxima); multimodal (mais de duas observações ocorrem com a mesma freqüência máxima); amodal (nenhum valor é repetido, o conjunto não tem moda).

A moda é a única medida de tendência central que pode ser utilizada para variáveis qualitativas.

A moda para dados agrupados sem intervalos de classe será o valor da variável de maior freqüência.

Já para dados agrupados com intervalos de classe, determina-se primeiro a classe modal, a partir da classe que apresenta maior freqüência e, aplica-se a fórmula de Czuber.

- limite inferior da classe modal

- diferença entre a freqüência simples da classe modal e a freqüência simples da classe anterior à classe modal

- diferença entre a freqüência simples da classe modal e a freqüência simples da classe posterior à classe modal

- amplitude da classe modal

*

21

1* *hDD

DlMo

*l

*h

1D

2D

Page 31: Resumo aulas (daniela gomes)

31

PROPRIEDADES DA MODAPROPRIEDADES DA MODA

1ª) Também nesse caso, somando-se ou subtraindo-se uma constante c a todos os valores de um conjunto de dados, a moda do conjunto também ficará aumentada ou diminuída dessa constante.

2ª) A moda é influenciada quando o conjunto de dados é multiplicado ou dividido por determinada constante c. Nesse caso, a nova moda do conjunto fica multiplicada ou dividida por essa constante.

cMoMo '

cMoMo ' cMoMo '

Page 32: Resumo aulas (daniela gomes)

32

BIBLIOGRAFIABIBLIOGRAFIA

BUSSAB, W. O. e MORETTIN, P. A. Estatística básica. 5ª edição (8ª tiragem). Ed. Saraiva: São Paulo, SP, 2007.

CRESPO, Antônio Arnot. Estatística Básica. 1ª Edição. São Paulo, SP: Saraiva, 1984.

MEYER, P.L. Probabilidade, aplicações a estatística. Tradução de Ruy C. B. Lourenço Filho. Rio de Janeiro, RJ, 1984.

SPIEGEL, Murray R, et al. Teoria de Problemas de Probabilidade e Estatística. Trad. Sara Ianda Correa Carmona. 2ª Edição. Porto Alegre, RS: Bookman, 2004. (Coleção Shaum)

TIOLA, Mário F. Introdução a Estatística. Trad. Alfredo Alves de Farias. 7ª Edição. Rio de Janeiro, RJ: LTC, 1998.