Ana M. Abreu - 2006/07
Slide 1Capítulo 1
Estatística Descritiva
I-1 Introdução à organização e ao processamento de dados.
I-2 Amostra e população; cuidados a ter narecolha da amostra.
I-3 Ordenação dos dados. Agrupamento dos dados. Tabela de frequências.
I-4 Medidas de localização e de dispersão.
I-5 Representação gráfica dos dados: gráfico de barras, gráfico de caule-e-folhas, caixa-de-bigodes, histograma.
Ana M. Abreu - 2006/07
Slide 2Introdução
Um objectivo comum dos inquéritos e de outros processos de obtenção de dados é a recolha de informação de uma parte de um grupo, de modo a aprender algo sobre esse mesmo grupo. Por exemplo, podemos perguntar a 10% dos alunos da UMa qual a sua nota de entrada na Universidade e assim ter alguma informação sobre a totalidade dos alunos da UMa.
Ana M. Abreu - 2006/07
Slide 3
v Dados estatísticossão observações (como medidas, respostas de inquéritos,
registos de idade, sexo, naturalidade, ...) que foram recolhidas.
v Estatísticaa informação estatística é constituída por dados, os quais
são organizados, sumariados, apresentados, analizados, interpretados de modo a retirar conclusões baseadas nos dados.
Definições
Ana M. Abreu - 2006/07
Slide 4Definiçõesv Populaçãoa colecção completa de todos os elementos (pessoas, animais, medidas, ...) a serem estudados. A colecção é completa no sentido de incluir todos os indivíduos a serem estudados.
v AmostraUm subconjunto da população escolhido correctamente, de modo a poder ser considerado como representativo da população.
Ana M. Abreu - 2006/07
Slide 5
v Parâmetrouma medida numérica que descreve
alguma característica de uma população.
população
parâmetro
Definições
Ana M. Abreu - 2006/07
Slide 6Definições
v Estatísticauma medida numérica que descreve
alguma característica de uma amostra.
amostra
estatística
Ana M. Abreu - 2006/07
Slide 7Definições
v Dados quantitativos
números que representam contagens ou medidas.
Exemplo: número de palavras por frase.
Ana M. Abreu - 2006/07
Slide 8Definições
v Dados qualitativos
(ou categorizados ou atributos)
podem ser separados em diferentes categorias, que se distinguem por alguma característica não numérica.
Exemplos: sexo dos clientes de um hotel, nacionalidade dos clientes de um hotel.
Ana M. Abreu - 2006/07
Slide 9DefiniçõesOs dados quantitativos podem ser de tipo discreto ou contínuo.
v Dados discretossurgem quando o número de valores possíveis é finito ou contável.
0, 1, 2, 3, . . .
Exemplo: número de palavras por frase.
Ana M. Abreu - 2006/07
Slide 10
v Dados contínuos(ou numéricos) surgem quando o número de valores
possíveis é infinito e corresponde a alguma escala contínua que contempla uma amplitude de valores sem interrupções ou saltos.
Definições
1,5 2,1
Exemplo: As alturas dos alunos da UMa.
Ana M. Abreu - 2006/07
Slide 11
v escala nominalcaracterizada por dados tais como nomes,
etiquetas ou categorias. Os dados não têm
qualquer relação de ordem (do mais pequeno
para o maior).
Exemplo: inquéritos cujas respostas são sim,
não, sem opinião.
DefiniçõesOutra forma de classificar os dados consiste em usar escalas.
Ana M. Abreu - 2006/07
Slide 12
v escala ordinalenvolve dados que podem ser ordenados, mas
as diferenças entre eles ou não podem ser
calculadas ou não fazem sentido.
Exemplo: O nível de escolaridade.
Definições
Ana M. Abreu - 2006/07
Slide 13
v escala intervalarcomo a escala ordinal, mas onde é possível calcular
diferenças. No entanto, não existe um zero natural (que
pudesse corresponder a ausência da característica).
Exemplo: As temperaturas em graus Celsius e em graus
Fahrenheit (ºF=ºC(9/5)+32).
Definições
Ana M. Abreu - 2006/07
Slide 14
v escala absoluta ou de razõeso zero da escala corresponde à anulação da
característica em estudo. São possíveis
comparações quer através de diferenças quer
através de quocientes.
Exemplo: Preço das propinas (0€ representa
ausência de custo).
Definições
Ana M. Abreu - 2006/07
Slide 15Resumo -Escalas para os dados
v Nominal - só categorias.
v Ordinal - categorias com alguma ordem.
v Intervalar - diferenças possíveis mas sem zero natural.
v Absoluta ou de razões - diferenças possíveis e com zero natural.
Ana M. Abreu - 2006/07
Slide 16Recapitulando
Até agora vimos:
v Definições e termos básicos para descrever
os dados
v Parâmetros versus estatísticas
v Tipos de dados (quantitativos e qualitativos)
v Escalas de medidas
Ana M. Abreu - 2006/07
Slide 18Pontos fundamentais
v Se uma amostra não é recolhida de forma apropriada, os dados podem ser tão inúteis, tal que, qualquer que seja a tortura a que sejam submetidos, não confessam seja o que for.
v Tipicamente a aleatoriedade tem um papel importante na recolha de dados.
Ana M. Abreu - 2006/07
Slide 19Pontos fundamentais
v Dimensão da amostrausar uma amostra com dimensão
suficiente para conseguir captar as características dos dados e recolhida de forma apropriada, tal como baseada na aleatoriedade.
Ana M. Abreu - 2006/07
Slide 20
v Amostra Aleatóriaos membros da população são seleccionados de tal forma que cada membro
tem igual possibilidade de ser escolhido.
Definições
v Amostra Aleatória Simples (de
dimensão n)
os indivíduos são seleccionados de tal forma
que cada possível amostra de dimensão n tem a mesma possibilidade de ser escolhida.
Ana M. Abreu - 2006/07
Slide 21Amostra AleatóriaSelecção tal que cada um tem igual possibilidade
de ser escolhido.
Ana M. Abreu - 2006/07
Slide 22Amostragem SistemáticaSeleccionar a partir de um ponto inicial e depois
seleccionar a cada K elemento na população.
Ana M. Abreu - 2006/07
Slide 23
Amostragem por conveniênciaUsar os resultados que são fáceis de obter.
Ana M. Abreu - 2006/07
Slide 24Amostragem Estratificadasubdividir a população em, pelo menos, dois
subgrupos distintos que partilham alguma característica e, em seguida, recolher uma amostra
de cada um dos subgrupos (ou estratos).
Ana M. Abreu - 2006/07
Slide 25Amostragem por Clustersdividir a população em secções
(ou clusters); seleccionar aleatoriamente alguns desses clusters; escolher todos os membros dos
clusters seleccionados.
Ana M. Abreu - 2006/07
Slide 26
v Aleatória
v Sistemática
v Por conveniência
v Estratificada
v Por clusters
Métodos de Amostragem
Ana M. Abreu - 2006/07
Slide 27
v Estatística Descritiva
resume ou descreve as características importantes de um conjunto conhecido de dados populacionais.
v Estatística Inferencial
usa dados amostrais para fazer inferências (ou generalizações) sobre uma população.
Generalidades
Ana M. Abreu - 2006/07
Slide 28Características importantes dos dados
1. Localização: Um valor representativo ou médio indica onde se situa o centro dos dados.
2. Variação: Uma medida do quanto os valores da amostra variam entre si.
3. Distribuição: A natureza ou a forma de distribuição dos dados (tal como em forma de sino, uniforme ou assimétrica).
4. Outliers: Valores amostrais que se situam muito afastados da maioria dos restantes valores amostrais.
5. Tempo: Algumas características podem se alterar ao longo do tempo.
Ana M. Abreu - 2006/07
Slide 29Distribuição de Frequência
v Distribuição de Frequência
lista dos valores das observações (ou
individuais ou por grupos de intervalos), juntamente com as correspondentes
frequências ou contagens.
Ana M. Abreu - 2006/07
Slide 31Ponto Médio de uma Classe
O ponto médio de uma classe determina-se adicionando os limites da classe (inferior e superior) e dividindo por dois.
PontosMédios
49.5
149.5
249.5
349.5
449.5
Ana M. Abreu - 2006/07
Slide 32Amplitude da Classeé a diferença entre dois limites superiores consecutivos ou dois limites inferiores consecutivos.
Amplitude da Classe
100
100
100
100
100
Ana M. Abreu - 2006/07
Slide 33
Razões para construir distribuições de frequência
1. Conjuntos de dados grandes podem ser resumidos.
2. Pode-se ganhar alguma perspectiva sobre a natureza dos dados.
3. Base para a construção de gráficos.
Ana M. Abreu - 2006/07
Slide 34
Como construir uma tabela de frequências
3. Escolher o limite inferior da primeira classe.4. Usar o limite inferior da primeira classe e a amplitude de classe para listar, numa coluna vertical, todos os limites inferiores.5. Em seguida, listar os correspondentes limites superiores.6. Percorrer os dados, assinalando com um traço vertical a classe onde se encontra cada dado.
1. Decidir o número de classes (habitualmente entre 5 e 20).
Regra de Sturges: k=nº de classes ≈≈≈≈ 1+[log2n]2. Calcular (aproximando por excesso) a
amplitude da classe ≈≈≈≈ (maior valor) – (menor valor)
número de classes
Ana M. Abreu - 2006/07
Slide 35Frequência Relativa
Frequência relativa =frequência da classe
soma de todas as frequências
11/40 = 28%
12/40 = 30%
etc.Frequência total = 40
Ana M. Abreu - 2006/07
Slide 37Recapitulando
Acabamos de ver
v Características importantes dos dados.
v Distribuições de frequências.
v Procedimentos para construir as distribuições de frequência.
v Frequências relativas.
v Frequências acumuladas.
Ana M. Abreu - 2006/07
Slide 39Notação
ΣΣΣΣ denota a soma de um conjunto de valores.
x é a variável usada habitualmente para representar os valores individuais.
n representa o número de valores na amostra, ou seja, a dimensão da amostra.
N representa o número de valores na população.
Ana M. Abreu - 2006/07
Slide 40Notação
µ pronuncia-se ‘mu’ e denota a média de todos os valores da população.
x =n
ΣΣΣΣ x
pronuncia-se ‘x-barra’ e denota a média dos valores da amostra.
x
Nµ =
ΣΣΣΣ x
Ana M. Abreu - 2006/07
Slide 41Definiçõesv Mediana
o valor central quando os dados estão ordenados.
❖ Se a dimensão da amostra é ímpar, a mediana corresponde ao valor que está no centro da amostra.
❖ Se a dimensão da amostra é par, a mediana corresponde à média dos dois valores que estão no centro da amostra.
Ana M. Abreu - 2006/07
Slide 42
5.40 1.10 0.42 0.48 1.10 0.66
0.42 0.48 0.66 0.73 1.10 1.10 5.40
(amostra de dimensão ímpar - valor exacto)
MEDIANA é 0.73
5.40 1.10 0.42 0.73 0.48 1.10
0.42 0.48 0.73 1.10 1.10 5.40
0.73 + 1.10
2
(amostra de dimensão par – os dois valores centrais são distintos)
MEDIANA é 0.915
Ana M. Abreu - 2006/07
Slide 43Definiçõesv Moda
o valor que ocorre com maior frequência.
A moda nem sempre é única. Um conjunto de dados pode ser:
BimodalMultimodal
Não ter Moda
v é a única medida de localização que pode ser usada para os dados em escala nominal.
Ana M. Abreu - 2006/07
Slide 44Exemplos
a. 5.40 1.10 0.42 0.73 0.48 1.10
b. 27 27 27 55 55 55 88 88 99
c. 1 2 3 6 7 8 9 10
ï Moda é 1.10
ï Bimodal - 27 e 55
ï Não existe Moda
Ana M. Abreu - 2006/07
Slide 45Média para dados agrupados
Assuma que, em cada classe, todos os valores são iguais ao ponto médio da classe.
x = ponto médio
f = frequência
Σ Σ Σ Σ f = n
x = f
ΣΣΣΣ (f • x)
ΣΣΣΣ
Ana M. Abreu - 2006/07
Slide 46
PontosMédios
49.5
149.5
249.5
349.5
449.5
x =11111111x49.5+12121212x149.5+14141414x249.5 +1111x349.5+2+2+2+2x449.5
40
= 177
Ana M. Abreu - 2006/07
Slide 47Definiçõesv Simetria
As observações distribuem-se de forma simétrica quando a metade esquerda do histograma correspondente ésensivelmente um espelho da metade direita.
v AssimetriaAs observações distribuem-se de
forma assimétrica se se prolongam mais para um dos lados do que para o outro.
Ana M. Abreu - 2006/07
Slide 49Definições
A amplitude de um conjunto de dados é a diferença entre o valor mais elevado e o valor mais pequeno.
valormais
elevado
valormais
pequeno-
Ana M. Abreu - 2006/07
Slide 50Definições
O desvio padrão de uma amostra éuma medida da variação dos valores em torno da média.
ΣΣΣΣ (x - x)2
n - 1S =
Ana M. Abreu - 2006/07
Slide 51
• Uma forma mais simples do desvio padrão amostral, para efeitos de cálculo, é a que se segue:
n (n - 1)s =
n (ΣΣΣΣx2) - (ΣΣΣΣx)2
Ana M. Abreu - 2006/07
Slide 52
Desvio padrão amostral -algumas características
v O desvio padrão é uma medida de variação de todos os valores da amostra em torno da média.
v O valor do desvio padrão, s, é positivo.
v O valor do desvio padrão, s, pode aumentar dramaticamente com a inclusão de um ou mais outliers na amostra.
v As unidades do desvio padrão, s, são as mesmas dos elementos da amostra.
Ana M. Abreu - 2006/07
Slide 53
Desvio padrãopopulacional
2ΣΣΣΣ (x - µ)
Nσσσσ =
Esta fórmula é semelhante à anterior, mas neste caso é usada a média populacional e a dimensão da população.
Ana M. Abreu - 2006/07
Slide 54Definições
v Variância populacional ( ): quadrado do desvio padrão populacional .σ
v A variância é uma medida de variação de um conjunto de valores e é igual ao quadrado do desvio padrão.
v Variância amostral (s2): quadrado do desvio padrão amostral s.
2
Ana M. Abreu - 2006/07
Slide 55Variância - Notação
quadrado do desvio padrão
s
σ σ σ σ
2
2
}Notação
Variância amostral
Variância populacional
Ana M. Abreu - 2006/07
Slide 56Definições
O coeficiente de variação (ou CV) de uma amostra, expresso em percentagem, descreve o desvio padrão relativamente à média. É uma medida sem unidades.
•100%s
xCV =
σµ
•100%CV =
PopulaçãoAmostra
Ana M. Abreu - 2006/07
Slide 57
Desvio padrão para dados agrupados
Usar os pontos médios de cada classe
n (n - 1)S =
n [ΣΣΣΣ(f • x 2)] - [ΣΣΣΣ(f • x)]2
Ana M. Abreu - 2006/07
Slide 58Definições
v Q1 (1º Quartil) separa os primeiros 25% da amostra ordenada dos restantes 75%.
v Q2 (2º Quartil) o mesmo do que a mediana; separa os primeiros 50% da amostra ordenada dos restantes 50%.
v Q3 (3º Quartil) separa os primeiros 75% da amostra ordenada dos restantes 25%.
Ana M. Abreu - 2006/07
Slide 59Quartis
Q1, Q2, Q3dividem os valores ordenados em 4 partes iguais
25% 25% 25% 25%
Q3Q2Q1(mínimo) (máximo)
(mediana)
Ana M. Abreu - 2006/07
Slide 60Percentis
Assim como os quartis dividem os dados em 4 partes iguais, existem 99 percentis denotados P1, P2, . . . P99, os quais particionam os dados em 100 grupos.
Percentil do valor x = • 100nº de valores menores que x
nº total de valores
Ana M. Abreu - 2006/07
Slide 62Histograma
Um gráfico com barras, em que o eixo horizontal representa as classes dos valores da amostra e o eixo vertical a correspondente frequência.
Ana M. Abreu - 2006/07
Slide 63
Histograma com as frequências relativas
Tem a mesma forma e escala horizontal que o anterior, mas no eixo vertical estão indicadas as frequências relativas.
Ana M. Abreu - 2006/07
Slide 64Polígono de frequências
Usa segmentos de recta para ligar os pontos médios das classes.
Ana M. Abreu - 2006/07
Slide 66Gráfico de barrasForma de representação gráfica para dados
qualitativos
Ana M. Abreu - 2006/07
Slide 67Gráfico de dispersão
Representação de pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y
Ana M. Abreu - 2006/07
Slide 68Gráfico de caule-e-folhas
Representa os dados, separando cada valor em duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical)
Ana M. Abreu - 2006/07
Slide 71Definições
❖A caixa-de-bigodes é um gráfico que consiste numa linha desde o mínimo atéao máximo (se não houver outliers), e numa caixa com extremos nos 1º e 3ºquartis e divisão na mediana.
❖Para um conjunto de dados, o resumo de 5 números é formado pelo mínimo, 1ºquartil, mediana, 3º quartil e máximo.