Upload
hoangdan
View
214
Download
0
Embed Size (px)
Citation preview
Gonçalo X. SilvaGonçalo X. SilvaGonçalo X. SilvaGonçalo X. Silva ···· Alda Carvalho Alda Carvalho Alda Carvalho Alda Carvalho
iiiiiiii
ÍNDICE
1. ESTATÍSTICA DESCRITIVA.................................................................................................. 1
1.1. INTRODUÇÃO ............................................................................................................................ 1
1.2. DEFINIÇÕES ............................................................................................................................... 1
1.3. CLASSIFICAÇÃO DOS DADOS ..................................................................................................... 2
1.4 CARACTERIZAÇÃO DOS DADOS ................................................................................................. 3
1.5 ESTATÍSTICAS AMOSTRAIS ........................................................................................................ 10 1.5.1. Medidas de localização ............................................................................................................................... 10 1.5.2. Medidas de dispersão................................................................................................................................... 16
1.6. DADOS BIVARIADOS ................................................................................................................ 22 1.6.1.Regressão linear simples .............................................................................................................................. 23 1.6.2. Correlação. Coeficiente de determinação.................................................................................................. 24 1.6.3. Método dos mínimos quadrados ................................................................................................................ 25
E S T A T Í S T I C A D E S C R I T I V A
1111
1. Estatística Descritiva
1.1. Introdução
A estatística é uma disciplina cujo objecto principal é a recolha, a compilação, a análise e a interpretação de dados. No sentido de clarificar o que se entende por análise e interpretação dos dados vamos desde já estabelecer uma distinção entre estatística descritiva e inferência estatística.
No âmbito da estatística descritiva procura-se sintetizar e representar de uma forma compreensível a informação contida num conjunto de dado. Esta tarefa, que adquire importância quando o volume de dados for significativo, materializa-se na construção de tabelas, de gráficos ou no cálculo de medidas que representem convenientemente a informação contida nos dados.
O objectivo da inferência estatística é mais ambicioso do que o da estatística descritiva e, naturalmente, os métodos e técnicas utilizados são mais sofisticados. Com base na análise de um conjunto limitado de dados (uma amostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a população).
Neste capítulo vamos rever alguns conceitos e técnicas utilizadas na estatística descritiva (nomeadamente o cálculo das medidas mais importantes).
1.2. Definições
População: Conjunto de todos os elementos que contêm uma certa característica que estamos interessados em estudar. Sendo comum a todos os elementos, esta característica varia em quantidade ou qualidade. Uma população pode ter dimensão finita ou infinita.
Amostra: Subconjunto de dados que pertencem à população. As amostras aleatórias são escolhidas através de processos (técnicas de amostragem) que nos garantem que o subconjunto obtido é representativo da população.
Algumas das razões que nos levam a estudar a amostra em vez de estudarmos a população são as seguintes:
Capítulo
1
E S T A T Í S T I C A D E S C R I T I V A
2222
1. População infinita.
2. Custo em termos de tempo ou de dinheiro que um estudo a toda a população implicaria.
3. Recolha de informação através de testes destrutivos.
4. Impossibilidade de aceder a todos os elementos da população.
Fases do Método de Análise Estatística
No âmbito da Estatística, o método de abordagem dos problemas pode ser decomposto nas cinco fases que seguidamente se enunciam:
1. Estabelecimento do objectivo da análise a efectuar (isto é, das questões que se colocam e que se pretendem ver resolvidas) e definição da(s) população(ões) correspondente(s).
2. Concepção de um procedimento adequado para a selecção de uma ou mais amostras (escolha das técnicas de amostragem a utilizar).
3. Recolha de dados.
4. Análise dos dados (Estatística Descritiva).
5. Estabelecimento de inferências acerca da população (Inferência Estatística).
1.3. Classificação dos dados
Os dados que constituem uma amostra podem ser expressos em quatro escalas distintas: nominal, ordinal, de intervalos e absoluta.
Os dados dizem-se expressos numa escala nominal quando cada um deles for identificado pela atribuição de um nome que designa uma classe. As classes devem ser exaustivas (qualquer dado pertence a uma das classes), mutuamente exclusiva (cada dado pertence a uma só classe) e não ordenáveis (não existe nenhum critério relevante que permita estabelecer preferência por qualquer classe em relação às restantes).
Exemplo 1.1: Classificação das pessoas pela cor do cabelo: preto, castanho, branco, loiro, etc.
O que distingue a escala ordinal da escala nominal é a possibilidade de se estabelecer uma ordenação das classes nas quais os dados são classificados, segundo algum critério relevante.
Exemplo 1.2: Classificação de notas em mau, suficiente, bom, ou muito bom.
E S T A T Í S T I C A D E S C R I T I V A
3333
Como se percebe a escala nominal e ordinal dizem respeito a dados qualitativos (representam qualidades).
Relativamente aos dados quantitativos (representam quantidades) temos a escala de intervalo e a escala absoluta.
No caso da escala de intervalo, os dados são diferenciados e ordenados por números expressos numa ordem cuja origem é arbitrária. Neste caso pode-se atribuir um significado à diferença entre esses números, mas não à razão entre eles.
Exemplo 1.3: Temperaturas registadas em oC, às 8 horas de dias sucessivos. Note-se que neste caso, se em três dias consecutivos a temperatura atingir 5oC, 10oC, e 20oC, não faz sentido dizer-se que no terceiro dia esteve duas vezes mais quente do que no segundo. De facto se a temperatura fosse expressa noutra escala, a razão entre as temperaturas registadas naqueles dias seria diferente.
Contrariamente ao que sucede com a escala de intervalo, a escala absoluta tem origem fixa. Nesta escala, zero significa nada (note-se que, anteriormente, dizer que a temperatura era de 0oC não significa que não havia temperatura). Como consequência do facto de a origem ser fixa, a razão entre dados expressos numa escala absoluta passa a ter significado.
Exemplo 1.4: Pesos de pessoas expressos em kg.
Entre os dados quantitativos, sejam eles expressos em escalas de intervalos ou absolutas, é conveniente fazer desde já a distinção entre discretos e contínuos. Os dados são discretos quando são observações de uma variável aleatória discreta e contínuos quando são observações de uma variável aleatória contínua (o conceito de variável aleatória discreta e variável aleatória contínua pode ver-se mais adiante – capítulo 3).
1.4 Caracterização dos dados
Não há uma estratégia única para iniciar o estudo descritivo, embora uma primeira recomendação seja começar por uma exploração visual dos dados. Muitas vezes há registos que não se encaixam no padrão geral, e por isso mesmo deve ser averiguado a veracidade dos mesmos. Muitas vezes tratam-se de erros de observação ou de registo, como também são provenientes de alterações do fenómeno em estudo.
Para se ter uma ideia mais concreta acerca da forma dos nossos dados, recorremos a gráficos como histogramas ou diagrama de caule-e-folhas. Embora estas análises já se encontrem disponíveis em vários programas e calculadoras, para uma melhor interpretação das mesmas é conveniente conhecer as técnicas utilizadas. Para isso, relativamente a um estudo descritivo é importante:
E S T A T Í S T I C A D E S C R I T I V A
4444
• Ordenação dos dados - onde se começa a ter uma ideia de algumas medidas de localização, como a mediana, quartos ou extremos;
• Estatísticas amostrais – com algumas medidas temos um resumo dos nossos dados relativamente à localização, dispersão e forma;
• Agrupamento dos dados e representação gráfica – revela-nos a forma possível para a nossa população em estudo e permite-nos escolher a classe de modelos que devemos explorar em análises mais sofisticadas.
A caracterização de dados que veremos diz respeito a uma amostra univariada , ou seja, quando cada um dos dados que a integram, mede numa escala qualquer, apenas um atributo.
Dados qualitativos
As formas mais comuns de descrever amostra univariadas com dados expressos nas escalas nominal ou ordinal envolvem o recurso a tabelas de frequências, a diagramas de barras ou a diagramas circulares. Em todos os casos o objectivo é o de representar a forma como os dados se distribuem por um conjunto de diferentes categorias. O número de dados contidos numa categoria qualquer
),...,1( kii = designa-se por frequência absoluta da categoria i . Denotando por in tal frequência e admitindo que as categorias especificadas contêm todos os dados, o número total destes vem dado por :
∑==
k
iinn
1
(1)
O número total de dados que pertencem a uma categoria qualquer i , quando expressos como uma proporção do número total de dados, designa-se por frequência relativa da categoria e é dada por,
n
nf i
i = (2)
As frequências relativas são muitas vezes definidas em termos percentuais.
Exemplo 1.5:
Numa amostra constituída por 120 peças, constatou-se que 100 não tinham qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram irrecuperáveis. Na tabela seguinte representam-se as frequências (absolutas e relativas) dos dados que constituem esta amostra:
Categoria de peças Frequência absoluta Frequência relativa
Sem defeito 100 83.3%
Recuperáveis 15 12.5%
Irrecuperáveis 5 4.2%
TOTAL 120 100%
E S T A T Í S T I C A D E S C R I T I V A
5555
Diagrama circular
83%
13%
4%
Sem defeito
Recuperáveis
Irrecuperáveis
A informação contida na tabela de frequências e nos diagramas, que inclui as diferentes categorias nas quais os dados da amostra foram classificados, designa-se por distribuição amostral.
Dados quantitativos
As técnicas utilizadas para descrever amostras univariadas constituídas por dados quantitativos podem ser classificadas em três grupos:
1. formas de representação tabular ou gráfica de dados,
2. estatísticas amostrais, e
3. representação gráfica de estatísticas.
Na representação tabular existem ainda dois tipos de frequências: as frequências absoluta acumuladas e as frequências relativas acumuladas. Como os nomes indicam estas frequências representam para cada categoria i , a frequência absoluta (relativa) de dados que pertencem à classe ou a classes anteriores. Devido à necessidade de as categorias estarem ordenadas só podemos falar de frequências acumuladas quando os dados estão em escalas ordinais, de intervalo ou absoluta.
Valor da variável
(xi)
Frequência absoluta
(ni)
Frequência relativa
(fi)
Frequência absoluta acumulada
(Ni)
Frequência relativa acumulada
(Fi)
1x 1n 11
nf
n= 1 1N n= 1 1F f=
2x 2n 22
nf
n= 2 1 2N n n= + 2 1 2F f f= +
M M M M M
nx nn nn
nf
n= 1 ...n nN n n n= + + = 1 ... 1n nF f f= + + =
TOTAL n 1 - -
E S T A T Í S T I C A D E S C R I T I V A
6666
Exemplo 1.6:
No âmbito de um estudo realizado com o objectivo de caracterizar o comportamento dos clientes de um hipermercado, analisou-se o número de ocupantes por veículo para 1000 veículos que entraram no parque automóvel do referido hipermercado, num Sábado. Os resultados encontram-se resumidos na tabela seguinte:
Número de ocupantes por
veículo
Frequência absoluta
Frequência relativa
Frequência absoluta
acumulada
Frequência relativa
acumulada
1 103 10.3% 103 10.3%
2 147 14.7% 250 25.0%
3 248 24.8% 498 49.8%
4 197 19.7% 695 69.5%
5 152 15.2% 847 84.7%
6 100 10.0% 947 94.7%
7 53 5.3% 1000 100%
TOTAL 1000 100%
DIAGRAMA DE BARRAS
0
50
100
150
200
250
300
1 2 3 4 5 6 7
Nº ocupantes/veículo
n i
As distribuições não agrupadas são a forma mais elementar de apresentação dos dados e consiste numa simples enumeração das observações, que podem ou não estar ordenadas. Quando o número de valores distintos observados é elevado, torna-se muitas vezes necessário condensar muito mais os quadros estatísticos, agrupando as observações em classes. Obtêm-se assim distribuições de frequências agrupadas em classes ou distribuições agrupadas. Este tipo de distribuições é particularmente útil quando dispomos de um grande número de dados relativos a uma variável contínua cujos valores observados são muito próximos uns dos outros. A frequência de cada classe é o número de observações que ela contém. No exemplo 6 os dados dizem respeito a uma variável discreta, quando provêm de uma variável contínua existem algumas diferenças que iremos observar através do exemplo 7.
E S T A T Í S T I C A D E S C R I T I V A
7777
Exemplo 1.7:
Consideremos o conjunto de dados seguinte que representa o peso, expresso em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste saíram de uma linha de enchimento automático:
302.25, 299.20, 300.24, 297.22, 298.35, 303.76, 298.65, 299.38, 300.36, 299.16, 300.86, 299.83, 302.52, 300.12, 301.81,297.99, 299.23, 298.73, 303.07, 299.07, 297.83, ... , 300.80
A primeira característica que podemos observar neste conjunto de dados é que não existe praticamente repetição de valores. Isto leva a que não temos vantagem em utilizar os dados agrupados numa tabela de frequências, dado que iríamos ter uma tabela praticamente com tantas linhas quanto o número de dados. No entanto, podemos construir uma tabela de frequências se agruparmos os dados por classes:
Classes Frequência absoluta
Frequência relativa (%)
Frequência absoluta
acumulada
Frequência relativa
acumulada(%)
[297.00 , 298.00[ 8 8% 8 8%
[298.00 , 299.00[ 21 21% 29 29%
[299.00 , 300.00[ 28 28% 57 57%
[300.00 , 301.00[ 15 15% 72 72%
[301.00 , 302.00[ 11 11% 83 83%
[302.00 , 303.00[ 10 10% 93 93%
[303.00 , 304.00[ 5 5% 98 98%
[304.00 , 305.00[ 1 1% 99 99%
[305.00 , 306.00[ 1 1% 100 100%
TOTAL 100 100%
HISTOGRAMA
0
0.05
0.1
0.15
0.2
0.25
0.3
[297.00 , 298.00[ [298.00 , 299.00[ [299.00 , 300.00[ [300.00 , 301.00[ [301.00 , 302.00[ [302.00 , 303.00[ [303.00 , 304.00[ [304.00 , 305.00[ [305.00 , 306.00[
peso (gr amas)
f i
Diagrama de caule-e-folhas (steam and leaf)
Quando precisamos de organizar uma amostra, de forma a ter uma primeira
ideia do comportamento da variável em estudo, e preparar a mesma para
calcular algumas estatísticas amostrais de forma mais rápida, o diagrama de
caule-e-folhas é extremamente útil.
Este tipo de representação para além de organizar a amostra
contribui para revelar a forma da distribuição subjacente, mas
de uma forma sugestiva, que faz lembrar um histograma.
E S T A T Í S T I C A D E S C R I T I V A
8888
Exemplo 1.8:
Suponhamos que as notas de uma turma de Matemática do 12º ano com 36
alunos foram as seguintes:
84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70 81 76 79 75 76 58 31
Na representação em diagrama de caule e folhas temos os seguintes passos:
1. Escolher o caule:
2. Escrever as folhas:
3. Caule e folhas completo:
3 3 4 4 5 5 6 6 7 7 8
3 3 4 4 5 5 6 6 7 7 8
3 3 4 4 5 5 6 6 7 7 8
4
3 3 4 4 5 5 6 6 7 7 8
9 4
3 3 4 4 5 5 6 6 7 7 8
9 1 4
3 3 4 4 5 5 6 6 7 7 8
9 0 1 4
3 3 4 4 5 5 6 6 7 7 8
1 0 9 5 2 3 8 7 8 1 0 3 1 7 6 9 8 7 7 7 0 2 3 0 0 0 8 6 9 5 6 6 4 3 0 1
Por vezes, utiliza-se o caule horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhança entre um histograma e uma representação em caule-e-folhas.
E S T A T Í S T I C A D E S C R I T I V A
9999
4. Caule e folhas completo e ordenado:
Que característica é que se pretende realçar, quando se representa um conjunto de dados sob a forma de um histograma ou de um caule-e-folhas?
Dada uma amostra, o aspecto do histograma reflecte a forma da distribuição
da População subjacente aos dados observados. Este é um dos aspectos da
redução dos dados, em que se perde alguma informação contida nesses
dados, mas em contrapartida obtemos a estrutura da População, que eles
pretendem representar. Uma das vantagens deste tipo de representação é
poder observar-se o tipo de distribuição subjacente aos dados, dos quais
destacamos alguns exemplos:
• Distribuições simétricas
A distribuição das frequências faz-se de forma aproximadamente
simétrica, relativamente a uma classe média.
• Distribuições enviesadas
A distribuição das frequências faz-se de forma acentuadamente
assimétrica, apresentando valores substancialmente mais pequenos
num dos lados, relativamente ao outro.
3 3 4 4 5 5 6 6 7 7 8
1 0 5 9 2 3 7 8 8 0 1 1 3 6 7 7 7 7 8 9 0 0 0 0 2 3 5 5 6 6 8 9 0 1 3 4
1 1 2 4 6 9 13 (7) 16 10 4
Profundidade Caule Folhas
E S T A T Í S T I C A D E S C R I T I V A
10101010
• Distribuições com caudas longas
A distribuição das frequências faz-se de tal forma que existe um
grande número de classes nos extremos, cujas frequências são
pequenas, relativamente às classes centrais:
• Distribuições com vários picos ou modas
A distribuição das frequências apresenta 2 ou mais "picos" a que
chamamos modas, sugerindo que os dados são constituídos por vários
grupos distintos:
1.5 Estatísticas amostrais
O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um conjunto de dados. As estatísticas amostrais são então medidas calculadas com base nos dados, a partir das quais é possível descrever globalmente o conjunto de valores que os dados tomam.
1.5.1. Medidas de localização
1.5.1.1. Média
A mais utilizada das estatísticas de localização é a média aritmética amostral ou, como habitualmente se designa a média amostral.1 Para um conjunto de n dados
),...,2,1( nixi = a média amostral é definida pela expressão:
1
n
i
i
x
xn
==∑
(dados não agrupados) (3)
Consideremos os dados do exemplo 1.6, mas agora sem o conjunto de dados estar apresentado numa tabela de frequências:
1 Existem outras médias para além da aritmética, por exemplo, média geométrica, média harmónica, média quadrática, etc.
E S T A T Í S T I C A D E S C R I T I V A
11111111
2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 1, 4, 5, 6, 4, 5,...,3, 1, 2, 2, 3 )1000( =n
A média amostral é dada por
2 1 ... 2 33.66
1000x
+ + + += = ocupantes por veículo.
Para dados agrupados numa tabela de frequências a média amostral é dada por
1
k
i i
i
n x
xn
==∑
(dados agrupados) (4)
onde k representa o número de valores diferentes existentes no conjunto de dados.
No exemplo 1.6 e considerando os dados agrupados na tabela de frequências teríamos a média amostral dada por
103 1 147 2 248 3 197 4 152 5 100 6 53 73.66
1000x
× + × + × + × + × + × + ×= =
ocupantes por veículo.
No caso da variável ser contínua, dado que “perdemos” os valores concretos
do conjunto (ficaram afectos a uma determinada classe) não podemos calcular
a média amostral directamente dos valores dos dados. Deste modo a cada
classe vai ser atribuído um representante ( ix ) e a média amostral calculada
através desses representantes:
1
k
i i
i
n x
xn
==∑
(dados agrupados em classes) (5)
onde k é o número de classes do agrupamento, in é a frequência absoluta da
classe i e ix é o ponto médio da classe i , o qual é considerado como elemento
representativo da classe.
No exemplo 1.7 a média amostral é dada por
8 297.5 21 298.5 ... 1 305.5300.11 g
100x
× + × + + ×= =
A média é sempre uma medida representativa dos dados?
Suponhamos que temos a seguinte amostra:
E S T A T Í S T I C A D E S C R I T I V A
12121212
2.13 3.44 2.78 4.35 1.51 2.8 2.47 3.73 172
A média desta amostra é 21.69x = . Embora todos os dados, com a excepção
de um deles (172), estejam no intervalo [ ]1.51: 4.35 , o valor obtido para a
média não pertence a este intervalo. O que acontece é que a média é muito
sensível a valores muito grandes ou muito pequenos. No caso do exemplo, foi
o valor 172 que inflacionou a média. Se pensarmos que, em vez deste valor
podemos ter 1.72, temos razões para pensar que pode ter havido um erro.
E se em vez de 172 o valor correcto fosse 1.72, qual o valor da média?
Refazendo os cálculos com o valor correcto, obtém-se para a média amostral,
2.77x = , significativamente diferente do valor obtido anteriormente.
1.5.1.2. Mediana
Uma outra medida de localização é a mediana amostral ( )eM . Considere-se que os dados que integram a amostra são colocados por ordem crescente, formando um vector ( )**
2
*
1 ,...,, nxxx - amostra ordenada. A mediana amostral é definida nos seguintes termos:
*
n+1
2
* *
n n+1
2 2
n mpar
n par2
e
x
M x x
= +
Í
(6)
No exemplo 1.6, temos um conjunto de 1000 dados ( 1000 parn n= → ). A mediana é então dada por
2
*
501
*
500 xxM e
+=
Temos de saber quais são os dados que ocupam as posições 500 e 501 quando estiverem ordenados por ordem crescente. Através da observação da tabela de frequência (observando as frequência absolutas acumuladas) temos que 4*
500 =x e
4*
501 =x . Logo a mediana é 4 4
42
eM+
= = ocupantes/viatura.
No caso contínuo, utilizando a definição só podemos calcular a classe mediana. Depois de identificada essa classe podemos calcular um valor aproximado para a mediana através da fórmula:
i
i
i
ii
i
i
ie af
Fla
n
Nn
lM *5,0
*2 ,11
−− −
+=−
+=
(7)
E S T A T Í S T I C A D E S C R I T I V A
13131313
onde 1iN − é a frequência absoluta acumulada da classe antes da classe
mediana, n a dimensão da amostra e il , ia e in são, respectivamente, o limite
inferior, amplitude e frequência absoluta da classe mediana.
No exemplo 1.7, visto que 100 parn = → , podemos ver qual a classe que contém
*
50x e *
51x ou 0.5iF = , a classe mediana é [ [00.300,00.299 . Logo, através de (7) temos:
50 29299.00 1.00 299.75 g
28eM
−= + × =
Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais.
Média vs Mediana
Para ilustrar a diferença entre estas duas medidas vejamos o seguinte exemplo. Consideremos as notas obtidas por um aluno no 1º ano do curso:
10 13 11 15 18 16 14 15 14
media:
9
1 149
i
i
x
x == =∑
mediana: * *
9 1 5
2
9 14en M x x+= → = = =
A média e mediana das notas desse aluno foram de 14 valores. Suponhamos
que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores.
Embora a mediana se mantenha, o valor da média sofreu um aumento,
passou para 14.4 valores. Temos então que a média, ao contrário da mediana,
é uma medida muito pouco resistente, isto é, ela é muito influenciada por
valores muito grandes ou muito pequenos, chamados outliers2, mesmo que
estes valores surjam em pequeno número na amostra. Estes valores são os
responsáveis pela má utilização da média em muitas situações em que teria
mais significado utilizar a mediana. Como medida de localização, a mediana é
2 Serão definidos mais adiante.
E S T A T Í S T I C A D E S C R I T I V A
14141414
mais resistente do que a média, pois não é tão sensível aos dados. Então qual
das duas devemos utilizar?
a) Quando a distribuição é simétrica, a média e a mediana coincidem.
b) A mediana não é tão sensível, como a média, às observações que são
muito maiores ou muito menores do que as restantes (outliers). Por
outro lado a média reflecte o valor de todas as observações.
Representando as distribuições dos dados na forma de uma mancha (válido
para o digrama de barras ou histograma), de um modo geral temos:
Assim, não se pode dizer em termos absolutos qual destas medidas de localização é preferível, dependendo do contexto em que estão a ser utilizadas.
1.5.1.3. Moda
A última medida de localização que será estudada é a moda ( oM ). Trata-se da
medida que indica o valor ou a gama de valores nos quais a concentração dos
dados amostrais é máxima. Quando os dados forem realizações de uma
variável discreta, a moda é o valor dos dados que ocorre com maior
frequência; e o intervalo de classe com maior frequência se a variável é
contínua. Assim, da representação gráfica dos dados, obtém-se
imediatamente o valor que representa a moda ou a classe modal.
Esta medida é especialmente útil para reduzir a informação de um conjunto
de dados qualitativos, apresentados sob a forma de nomes ou categorias, para
os quais não se pode calcular a média e por vezes a mediana (se não forem
susceptíveis de ordenação).
E S T A T Í S T I C A D E S C R I T I V A
15151515
No exemplo 1.6, a moda é o valor com maior frequência absoluta, ou seja, viaturaocupantes/3=oM .
Quando os dados provêm de uma variável contínua existem algumas
diferenças no cálculo da moda. Tal como na mediana começamos por calcular
a classe modal. Depois de identificada a classe modal podemos calcular um
valor aproximado para a moda através das fórmulas:
1
1 2
o i iM l a∆
= + ×∆ + ∆
(8)
onde ia é a amplitude da classe modal, il é o limite inferior da classe modal, n é a
dimensão da amostra, 1∆ é a diferença de frequências absolutas entre a classe modal e a classe anterior à modal e 2∆ é a diferença de frequências absolutas entre a classe modal e a classe posterior à classe modal.
No exemplo 1.7, a classe com maior frequência absoluta é [ [00.300,00.299 logo é a classe modal. Através de (8) temos:
7299.00 1.00 299.35 g
7 13oM = + × =
+
1.5.1.4. Extremos e Quartis
Os extremos são os valores mínimo, *
1 min( )ix x= , e máximo, * max( )n ix x= , da
amostra.
Como vimos anteriormente, a mediana é a medida de localização que divide a amostra. Generalizando esta noção, o quantil de ordem p (0 1p< < ), Qp , é tal
que 100p% dos elementos da amostra são menores ou iguais a Qp e os
restantes 100 (1-p)% dos elementos da amostra são maiores ou iguais a Qp. A
designação de quantil encontra-se associada à ideia de que os quantis
dividem a distribuição de frequência em quantidades iguais, isto é, com igual
número de observações. De uma maneira geral, o cálculo de um quantil, no
caso discreto,
[ ]
( )
1
1
*
* *
se np não é inteiro
1se np inteiro
2
np
np np
p
x
Qx x
+
+
= +
(9)
e no caso contínuo, determina-se de forma idêntica à mediana.
Os quantis podem ser:
• Quartis → dividem a distribuição de frequência em 4 partes iguais;
• Decis → dividem a distribuição de frequência em 10 partes iguais;
E S T A T Í S T I C A D E S C R I T I V A
16161616
Percentis → dividem a distribuição de frequência em 100 partes iguais.
A importância dos quartis deve-se ao facto de algumas representações
gráficas utilizarem estas medidas:
• 1Q - 1º quartil: divide as observações tal que 25% são menores ou
iguais e 75% são maiores ou iguais.
• 2Q - 2º quartil ou mediana: divide as observações ao meio, tal que 50%
são são menores ou iguais e 50% são maiores ou iguais.
• 3Q - 3º quartil: divide as observações tal que 75% são menores ou
iguais e 25% são maiores ou iguais.
No exemplo 1.8,
36n =
*
1 31x = e *
36 84x =
1
36 58 609 59
4 4 2
nQ
+= = → = =
2
36 67 6818 67.5
2 2 2
nQ Me
+= = → = = =
3
3 108 75 7527 75
4 4 2
nQ
+= = → = =
1.5.2. Medidas de dispersão
1.5.2.1. Intervalo de variação
Uma medida de dispersão que se utiliza por vezes, é o intervalo de variação ou amplitude amostral, R , definida como sendo a diferença entre a maior e a menor das observações:
* *
1max( ) min( )i i nR x x x x= − = − (10)
onde representamos por *
1x e *
nx , respectivamente o menor e o maior valor da
amostra ),...,,( 21 nxxx , de acordo com a notação introduzida anteriormente, para a amostra ordenada.
No exemplo 1.8,
max( ) min( ) 84 31 53i iR x x= − = − =
E S T A T Í S T I C A D E S C R I T I V A
17171717
1.5.2.2. Variância
A variância amostral é uma medida adequada para descrever a dispersão de uma amostra (ou de uma população, se se dispuser de todos os dados que a compõem). A dispersão de uma amostra pode ser medida pela variância amostral ( 2
s ) dada pelas seguintes expressões:
n
Xx
s
n
ii
2
12
)(∑ −= = (dados não agrupados) (11)
2
2
!1
22
12
)(
n
xnxnn
n
Xxn
s
k
iii
k
iii
k
iii
∑−
∑
=∑ −
= === (dados agrupados) (12)
No entanto, se pretendemos inferir acerca da variabilidade de uma população de grandes dimensões a partir de uma amostra, então, por razões que neste momento não iremos estudar, é preferível recorrer à variância amostral corrigida. Nesta estatística, representada por 2's , a soma dos erros quadráticos é dividida por 1−n e não por n .
1
)('
2
12
−
∑ −= =
n
Xx
s
n
ii
(dados não agrupados) ( 13)
)1(1
)('
2
!1
22
12
−
∑−
∑
=−
∑ −= ===
nn
xnxnn
n
Xxn
s
k
iii
k
iii
k
iii
(dados agrupados) (14)
22
1' s
n
ns
−=
(15)
No exemplo 1.8,
2
22
1 12 1
2
( )
143.73
n nn
i iii ii
n x xx x
sn n
= ==
−− = = ≅
∑ ∑∑
2
22
1 12 1
( )
' 147.841 ( 1)
n nn
i iii ii
n x xx x
sn n n
= ==
−− = = ≅
− × −
∑ ∑∑
1.5.2.3. Desvio padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da
E S T A T Í S T I C A D E S C R I T I V A
18181818
variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
2s s= (16)
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:
• o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados;
• se s=0, então não existe variabilidade, isto é, os dados são todos iguais.
No exemplo 1.8, 2 11.99s s= ≅ e 2' ' 12.16s s= ≅ .
1.5.2.4. Amplitude inter quartil
A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a diferença entre o 3º e 1º quartis,
3 1Q Q Q= − ( 17)
Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra estão contidos num intervalo com aquela amplitude. Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados.
Nota: Ao contrário do que acontece com o desvio padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade.
No exemplo 1.8,
3 1 75 59 16Q Q Q= − = − =
Amplitude inter-quartil vs desvio padrão
Do mesmo modo que a questão foi posta relativamente às duas medidas de localização mais utilizadas (média e mediana), também aqui se pode por o problema de comparar as duas últimas medidas de dispersão. A amplitude inter-quartil é mais robusta, relativamente à presença de outliers, do que o desvio padrão, que é mais sensível aos dados.
E S T A T Í S T I C A D E S C R I T I V A
19191919
1.5.2.5. Boxplot (caixa de bigodes)
O boxplot ou caixa de bigodes é um tipo de representação gráfica onde se realçam algumas características da amostra, nomeadamente a existência de outliers (valores que se distinguem dos restantes, dando a ideia de não pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartil é representado por um rectângulo (caixa) com a mediana indicada por uma barra. Considera-se seguidamente duas linhas que unem os lados dos rectângulos com as barreiras interiores (eventualmente os extremos).
A barreira inferior interior é o menor valor da amostra (eventualmente o
mínimo), que é maior do que 1 1,5Q Q− × . A barreira superior interior é o maior
valor da amostra (eventualmente o máximo), que é maior do que 1 1,5Q Q+ × .
Quando existem valores fora deste intervalo, [ ]1 11,5 ; 1,5Q Q Q Q− × + × , diz-se que existem outliers ou valores discordantes. Para averiguar o grau dos mesmos
devem ser calculadas as barreiras exteriores: [ ]1 13 ; 3Q Q Q Q− × + × . Caso essas observações se encontrem neste último intervalo designam-se por outliers moderados, caso contrário dizem-se outliers severos.
Nota: Quando não existem outliers e nas extremidades da linha se representam os extremos da amostra, mínimo ( *
1x ) e máximo ( *
nx ), esta representação coincide com o diagrama de extremos e quartis. Este tipo de representação realça
E S T A T Í S T I C A D E S C R I T I V A
20202020
características importantes sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se constrói (distância entre a linha indicadora da mediana e os lados do rectângulo; comprimento das linhas que saem dos lados dos rectângulos; comprimento da caixa), se pode retirar imediatamente a seguinte informação:
Aqui podemos ver alguns exemplos, correspondentes a tipos diferentes de distribuição de dados.
Voltado ao exemplo 1.8, na representação boxplot temos os seguintes passos:
1. Cálculo dos quartis:
36n =
1
36 58 609 59
4 4 2
nQ
+= = → = =
2
36 67 6818 67,5
2 2 2
nQ Me
+= = → = = =
3
3 108 75 7527 75
4 4 2
nQ
+= = → = =
2. Cálculo das barreiras interiores:
3 1 75 59 16Q Q Q= − = − =
1 1,5 58 1,5 16 34ib Q Q= − × = − × =
3 1,5 75 1,5 16 99sb Q Q= + × = + × =
3. Será que existem outliers?
E S T A T Í S T I C A D E S C R I T I V A
21212121
As barreiras interiores são [ ]34;99 , logo, como existe um valor fora deste
intervalo estamos na presença de um outlier.
As barreiras exteriores ficam:
1 3 58 3 16 11iB Q Q= − × = − × =
3 3 75 3 16 123sB Q Q= + × = + × =
Como esta observação se encontra dentro das barreiras exteriores, isto é [ ]11: 23x ∈ , é um outlier moderado.
4. Representação gráfica do boxplot:
1.5.2.5. Coeficiente de variação
O coeficiente de variação expressa o desvio padrão como percentagem da média, é portanto uma medida relativa da dispersão da variável,
CV 100s
x= × (18)
Nota: É preciso ter em conta que se a média é perto de zero, o coeficiente de variação terá um valor elevado mesmo se os desvios relativamente à média são pequenos. Por isso, deixa de ser útil quando a média é próxima de zero.
No exemplo 1.8,
11.98100 18.2%
65.86CV = × ≅
E S T A T Í S T I C A D E S C R I T I V A
22222222
1.6. Dados bivariados
Muitas vezes o estudo descritivo não se resume ao estudo de apenas uma variável, por vezes é necessário a observação de duas (ou mais) varáveis para se ter uma visão global do problema em estudo. Nesse caso deixamos de ter uma amostra 1( , ..., ) , 1, ...,nx x i n e passamos a ter dados bivariados ( , ) , 1,...,i ix y i n= (observações de uma variável aleatória bidimensional, que será definida no capítulo 3). Por exemplo, a pressão atmosférica está relacionada com a altitude e/ou com a temperatura; a altura de uma criança está relacionada com a alutura do pai e/ou mãe.
Uma das coisas que se pretende estudar é a relação existente entre as varáveis deste par. Para ter uma ideia de como as duas varáveis se relacionam é comum representar graficamente esta relação através de um gráfico de dispersão. Esta representação consiste na marcação num sistema de eixos cartesianos as observações, ficando com uma nuvem de pontos que correspondem aos pares ordenados ( , )i ix y . Exemplo 9:
Consideremos os dados da temperatura do fuel gás (graus Fahrenheit) e a taxa de calor (Kilowatt-hora) para uma turbina de combustão para ser usada na refrigeração.
x 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500
y 99.1 98.8 98.5 98.5 98.5 98.2 98 97.8 97.8 97.8 97.6 97.5 97.3 97 96.8 96.7
Gráfico de dispersão
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
Calo
r
Este diagrama mostra a relação entra as variáveis em estudo, donde se pode extrair que talvez exista uma correlação linear entre elas. Esta relação pode ser traduzida através de uma recta.
E S T A T Í S T I C A D E S C R I T I V A
23232323
1.6.1.Regressão linear simples
Quando a relação existente entre duas variáveis é linear, pode ser traduzida através de uma recta. Sendo assim, temos o seguinte modelo determinístico:
Y Xα β= + (19)
em que α é a ordenada na origem e β o declive da recta.
No modelo de regressão linear simples pretende-se explicar o efeito que uma variável x , variável independente ou explicativa, sobre uma variável y , variável dependente ou explicada.
Correlação Linear Positiva (forte)
0
0
x
Correlação Linear Negativa (forte)
0
0
x
Correlação Linear Fraca
0
0
x
Esta visualização permite, através da simples observação do diagrama de dispersão, averiguar a possível existência ou não de correlação linear entre duas variáveis.
E S T A T Í S T I C A D E S C R I T I V A
24242424
1.6.2. Correlação. Coeficiente de determinação
O coeficiente de correlação linear, xyr , mede o grau de associação linear entre
dados bivariados, e calcula-se da seguinte forma:
xy
xy
xx yy
sr
s s= (20)
onde
( )( )1 1
n n
xy i i i i
i i
s x x y y x y nx y= =
= − − = −∑ ∑ , (21)
( )2 22
1 1
n n
xx i i
i i
s x x x nx= =
= − = −∑ ∑ (22)
e
( )2 22
1 1
n n
yy i i
i i
s y y y n y= =
= − = −∑ ∑ (23)
Deste modo podemos reescrever o coeficiente de correlação linear como
xy
xy
x y
rs s
γ=
(24)
onde xyγ é a covariância de X e Y e 1 1r− ≤ ≤ .
A variação total da variável dependente (VT) é dada por ( )2
1
n
i
i
y y=
−∑ , que pode
ser decomposta da seguinte forma:
( )2 2 2
^ ^
1 1 1
VT VE VR
n n n
i i i
i i i
y y y y y y= = =
− = − + −
∑ ∑ ∑14243 14243 14243
(25)
E S T A T Í S T I C A D E S C R I T I V A
25252525
em que VE é a variação explicada pela regressão e VR é a variação residual.
Ficamos então com
VE VRVT VE VR 1
VT VT= + ⇔ + = (26)
em que a razão entre a variação explicada pela regressão e a variação total, VE
VT, é
o coeficiente de determinação, 2R , que é a proporção da variabilidade total que é explicada pelo modelo de regressão,
( )
( )
�
2
12
2 22
12 1 1
2 2 22 2
1 1 1
n
i i
i
nn nxy
i ii iii xx i
n n n
yyi i i
i i i
x y nxy
sx y nx yy y x nx
sR
sy y y n y y n y
β
=
== =
= = =
−
−− − = = = =
− − −
∑
∑∑ ∑
∑ ∑ ∑ (27)
O coeficiente de determinação varia entre zero e um, 20 1R≤ ≤ . Quando este coeficiente toma o valor 1 significa que a recta de regressão explica totalmente a variabilidade da variável dependente. O valor nulo de 2R corresponde à situação em que a recta de regressão não explica nada da variabilidade da variável dependente.
O coeficiente de correlação pode ser calculado através do coeficiente de determinação,
2
xyr R= ± (28)
em que o sinal depende do declive da recta de regressão, sendo +(-) se esse declive é positivo (negativo).
1.6.3. Método dos mínimos quadrados
Quando se verifica, quer através do gráfico de dispersão quer do coeficiente de correlação linear, uma correlação forte entre duas variáveis, podemos descrever a relação entre essas variáveis através de uma recta de regressão (a recta que melhor se ajusta aos dados). Essa recta serve de modelo matemático para expressar a relação linear entre duas variáveis. Considera-se, em geral, X a variável independente ou explicativa e Y a variável dependente ou explicada. Um dos métodos mais utilizados para ajustar uma recta a um conjunto de dados é o Método dos Mínimos Quadrados (MMQ), que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios (os
E S T A T Í S T I C A D E S C R I T I V A
26262626
chamados erros ou resíduos) entre os verdadeiros valores, y , e os valores
estimados a partir da recta de regressão que se pretende ajustar,^
y .
O modelo de regressão linear é a recta de regressão
^
i iiy xα β ε= + + (29)
obtida de tal modo que a soma dos quadrados dos desvios ou resíduos
(^
i iy yε = − ) seja mínima,
( )2
^ 22
1 1 1
min min min ( )n n n
i i i i i
i i i
y y y xε α β= = =
= − = − +
∑ ∑ ∑ (30)
Como tal, para estimar os parâmetros do modelo, é necessário que as primeiras derivadas, em ordem a α e a β , sejam nulas e as segundas sejam maiores ou iguais a zero,
2
1
2
1
( ) 0
( ) 0
n
i i
i
n
i i
i
y x
y x
α βα
α ββ
=
=
∂− − =∂
∂ − − =
∂
∑
∑ (31)
As estimativas dos mínimos quadrados para os parâmetros α e a β são
^ ^
y xα β= − (32) e
^1
22
1
n
i ixyi
n
xxi
i
x y nx ys
sx nx
β =
=
−
= =
−
∑
∑ (33)
E S T A T Í S T I C A D E S C R I T I V A
27272727
Voltando ao exemplo 1.9, uma vez que se observa no gráfico de dispersão uma relação linear entre as variáveis, vamos confirmar esta relação através do coeficiente de correlação,
i x y 2x 2y xy
1 100 99,1 10000 9820,81 9910 2 125 98,8 15625 9761,44 12350 3 150 98,5 22500 9702,25 14775 4 175 98,5 30625 9702,25 17237,5 5 200 98,5 40000 9702,25 19700 6 225 98,2 50625 9643,24 22095 7 250 98 62500 9604 24500 8 275 97,8 75625 9564,84 26895 9 300 97,8 90000 9564,84 29340 10 325 97,8 105625 9564,84 31785 11 350 97,6 122500 9525,76 34160 12 375 97,5 140625 9506,25 36562,5 13 400 97,3 160000 9467,29 38920 14 425 97 180625 9409 41225 15 450 96,8 202500 9370,24 43560 16 500 96,7 250000 9350,89 48350 Σ 4625 1565,9 1559375 153260,19 451365
1
2 22 2
1 1
0.99
n
i ixy i
xyn n
xx yy
i i
i i
x y nx ys
rs s
x nx y n y
=
= =
−
= = = −
− −
∑
∑ ∑
O valor da correlação é 0.99r = − e o coeficiente de determinação 2 0.977R = indiciam uma forte correlação linear entre a temperatura de fuel gás e a taxa de calor. Vamos agora estimar, através do MMQ, os parâmetros α e β e traçar a recta de regressão:
^1 1 1
22 2
2
1 1
16 451365-4625 1565,90,0057
16 1559375-(4625)
n n n
i i i ixy i i i
n nx
i i
i i
n x y x ys
sn x x
β = = =
= =
−× ×
= = = = −×
−
∑ ∑ ∑
∑ ∑
^ 1656,9 4625( 0,0057) 99,529
16 16y xα β= − = − − × =
Sendo assim, a recta de regressão calculada pelos métodos dos mínimos quadrados é dada por,
^ ^ ^
99,529 0,0057y x xα β= + = −
E S T A T Í S T I C A D E S C R I T I V A
28282828
cujo gráfico de dispersão com a respectiva recta de regressão é o seguinte:
Gráfico de dispersão
y = -0.0057x + 99.529
R2 = 0.977
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
Calo
r
Através da recta de regressão estimada é possível prever taxas de calor com base na temperatura do fuel gás. Por exemplo, para uma temperatura do fuel gás de 405 graus Fahrenheit prevê-se uma taxa de calor de
^
0.0057 405 99.529 97.2205y = − × + = Kilowatt-hora.