30
Gonçalo X. Silva Gonçalo X. Silva Gonçalo X. Silva Gonçalo X. Silva · Alda Carvalho Alda Carvalho Alda Carvalho Alda Carvalho

Gonçalo X. SilvaGonçalo X. SilvaGonçalo X. Silva ···· Alda ... · pretende-se caracterizar o todo a partir do qual tais dados ... Contrariamente ao que sucede com a escala

Embed Size (px)

Citation preview

Gonçalo X. SilvaGonçalo X. SilvaGonçalo X. SilvaGonçalo X. Silva ···· Alda Carvalho Alda Carvalho Alda Carvalho Alda Carvalho

mutongui
mutongui
Gonçalo X. Silva · Alda Carvalho
mutongui
mutongui
mutongui
mutongui
mutongui
mutongui
mutongui
mutongui
Carvalho
mutongui
mutongui

iiiiiiii

ÍNDICE

1. ESTATÍSTICA DESCRITIVA.................................................................................................. 1

1.1. INTRODUÇÃO ............................................................................................................................ 1

1.2. DEFINIÇÕES ............................................................................................................................... 1

1.3. CLASSIFICAÇÃO DOS DADOS ..................................................................................................... 2

1.4 CARACTERIZAÇÃO DOS DADOS ................................................................................................. 3

1.5 ESTATÍSTICAS AMOSTRAIS ........................................................................................................ 10 1.5.1. Medidas de localização ............................................................................................................................... 10 1.5.2. Medidas de dispersão................................................................................................................................... 16

1.6. DADOS BIVARIADOS ................................................................................................................ 22 1.6.1.Regressão linear simples .............................................................................................................................. 23 1.6.2. Correlação. Coeficiente de determinação.................................................................................................. 24 1.6.3. Método dos mínimos quadrados ................................................................................................................ 25

E S T A T Í S T I C A D E S C R I T I V A

1111

1. Estatística Descritiva

1.1. Introdução

A estatística é uma disciplina cujo objecto principal é a recolha, a compilação, a análise e a interpretação de dados. No sentido de clarificar o que se entende por análise e interpretação dos dados vamos desde já estabelecer uma distinção entre estatística descritiva e inferência estatística.

No âmbito da estatística descritiva procura-se sintetizar e representar de uma forma compreensível a informação contida num conjunto de dado. Esta tarefa, que adquire importância quando o volume de dados for significativo, materializa-se na construção de tabelas, de gráficos ou no cálculo de medidas que representem convenientemente a informação contida nos dados.

O objectivo da inferência estatística é mais ambicioso do que o da estatística descritiva e, naturalmente, os métodos e técnicas utilizados são mais sofisticados. Com base na análise de um conjunto limitado de dados (uma amostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a população).

Neste capítulo vamos rever alguns conceitos e técnicas utilizadas na estatística descritiva (nomeadamente o cálculo das medidas mais importantes).

1.2. Definições

População: Conjunto de todos os elementos que contêm uma certa característica que estamos interessados em estudar. Sendo comum a todos os elementos, esta característica varia em quantidade ou qualidade. Uma população pode ter dimensão finita ou infinita.

Amostra: Subconjunto de dados que pertencem à população. As amostras aleatórias são escolhidas através de processos (técnicas de amostragem) que nos garantem que o subconjunto obtido é representativo da população.

Algumas das razões que nos levam a estudar a amostra em vez de estudarmos a população são as seguintes:

Capítulo

1

E S T A T Í S T I C A D E S C R I T I V A

2222

1. População infinita.

2. Custo em termos de tempo ou de dinheiro que um estudo a toda a população implicaria.

3. Recolha de informação através de testes destrutivos.

4. Impossibilidade de aceder a todos os elementos da população.

Fases do Método de Análise Estatística

No âmbito da Estatística, o método de abordagem dos problemas pode ser decomposto nas cinco fases que seguidamente se enunciam:

1. Estabelecimento do objectivo da análise a efectuar (isto é, das questões que se colocam e que se pretendem ver resolvidas) e definição da(s) população(ões) correspondente(s).

2. Concepção de um procedimento adequado para a selecção de uma ou mais amostras (escolha das técnicas de amostragem a utilizar).

3. Recolha de dados.

4. Análise dos dados (Estatística Descritiva).

5. Estabelecimento de inferências acerca da população (Inferência Estatística).

1.3. Classificação dos dados

Os dados que constituem uma amostra podem ser expressos em quatro escalas distintas: nominal, ordinal, de intervalos e absoluta.

Os dados dizem-se expressos numa escala nominal quando cada um deles for identificado pela atribuição de um nome que designa uma classe. As classes devem ser exaustivas (qualquer dado pertence a uma das classes), mutuamente exclusiva (cada dado pertence a uma só classe) e não ordenáveis (não existe nenhum critério relevante que permita estabelecer preferência por qualquer classe em relação às restantes).

Exemplo 1.1: Classificação das pessoas pela cor do cabelo: preto, castanho, branco, loiro, etc.

O que distingue a escala ordinal da escala nominal é a possibilidade de se estabelecer uma ordenação das classes nas quais os dados são classificados, segundo algum critério relevante.

Exemplo 1.2: Classificação de notas em mau, suficiente, bom, ou muito bom.

E S T A T Í S T I C A D E S C R I T I V A

3333

Como se percebe a escala nominal e ordinal dizem respeito a dados qualitativos (representam qualidades).

Relativamente aos dados quantitativos (representam quantidades) temos a escala de intervalo e a escala absoluta.

No caso da escala de intervalo, os dados são diferenciados e ordenados por números expressos numa ordem cuja origem é arbitrária. Neste caso pode-se atribuir um significado à diferença entre esses números, mas não à razão entre eles.

Exemplo 1.3: Temperaturas registadas em oC, às 8 horas de dias sucessivos. Note-se que neste caso, se em três dias consecutivos a temperatura atingir 5oC, 10oC, e 20oC, não faz sentido dizer-se que no terceiro dia esteve duas vezes mais quente do que no segundo. De facto se a temperatura fosse expressa noutra escala, a razão entre as temperaturas registadas naqueles dias seria diferente.

Contrariamente ao que sucede com a escala de intervalo, a escala absoluta tem origem fixa. Nesta escala, zero significa nada (note-se que, anteriormente, dizer que a temperatura era de 0oC não significa que não havia temperatura). Como consequência do facto de a origem ser fixa, a razão entre dados expressos numa escala absoluta passa a ter significado.

Exemplo 1.4: Pesos de pessoas expressos em kg.

Entre os dados quantitativos, sejam eles expressos em escalas de intervalos ou absolutas, é conveniente fazer desde já a distinção entre discretos e contínuos. Os dados são discretos quando são observações de uma variável aleatória discreta e contínuos quando são observações de uma variável aleatória contínua (o conceito de variável aleatória discreta e variável aleatória contínua pode ver-se mais adiante – capítulo 3).

1.4 Caracterização dos dados

Não há uma estratégia única para iniciar o estudo descritivo, embora uma primeira recomendação seja começar por uma exploração visual dos dados. Muitas vezes há registos que não se encaixam no padrão geral, e por isso mesmo deve ser averiguado a veracidade dos mesmos. Muitas vezes tratam-se de erros de observação ou de registo, como também são provenientes de alterações do fenómeno em estudo.

Para se ter uma ideia mais concreta acerca da forma dos nossos dados, recorremos a gráficos como histogramas ou diagrama de caule-e-folhas. Embora estas análises já se encontrem disponíveis em vários programas e calculadoras, para uma melhor interpretação das mesmas é conveniente conhecer as técnicas utilizadas. Para isso, relativamente a um estudo descritivo é importante:

E S T A T Í S T I C A D E S C R I T I V A

4444

• Ordenação dos dados - onde se começa a ter uma ideia de algumas medidas de localização, como a mediana, quartos ou extremos;

• Estatísticas amostrais – com algumas medidas temos um resumo dos nossos dados relativamente à localização, dispersão e forma;

• Agrupamento dos dados e representação gráfica – revela-nos a forma possível para a nossa população em estudo e permite-nos escolher a classe de modelos que devemos explorar em análises mais sofisticadas.

A caracterização de dados que veremos diz respeito a uma amostra univariada , ou seja, quando cada um dos dados que a integram, mede numa escala qualquer, apenas um atributo.

Dados qualitativos

As formas mais comuns de descrever amostra univariadas com dados expressos nas escalas nominal ou ordinal envolvem o recurso a tabelas de frequências, a diagramas de barras ou a diagramas circulares. Em todos os casos o objectivo é o de representar a forma como os dados se distribuem por um conjunto de diferentes categorias. O número de dados contidos numa categoria qualquer

),...,1( kii = designa-se por frequência absoluta da categoria i . Denotando por in tal frequência e admitindo que as categorias especificadas contêm todos os dados, o número total destes vem dado por :

∑==

k

iinn

1

(1)

O número total de dados que pertencem a uma categoria qualquer i , quando expressos como uma proporção do número total de dados, designa-se por frequência relativa da categoria e é dada por,

n

nf i

i = (2)

As frequências relativas são muitas vezes definidas em termos percentuais.

Exemplo 1.5:

Numa amostra constituída por 120 peças, constatou-se que 100 não tinham qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram irrecuperáveis. Na tabela seguinte representam-se as frequências (absolutas e relativas) dos dados que constituem esta amostra:

Categoria de peças Frequência absoluta Frequência relativa

Sem defeito 100 83.3%

Recuperáveis 15 12.5%

Irrecuperáveis 5 4.2%

TOTAL 120 100%

E S T A T Í S T I C A D E S C R I T I V A

5555

Diagrama circular

83%

13%

4%

Sem defeito

Recuperáveis

Irrecuperáveis

A informação contida na tabela de frequências e nos diagramas, que inclui as diferentes categorias nas quais os dados da amostra foram classificados, designa-se por distribuição amostral.

Dados quantitativos

As técnicas utilizadas para descrever amostras univariadas constituídas por dados quantitativos podem ser classificadas em três grupos:

1. formas de representação tabular ou gráfica de dados,

2. estatísticas amostrais, e

3. representação gráfica de estatísticas.

Na representação tabular existem ainda dois tipos de frequências: as frequências absoluta acumuladas e as frequências relativas acumuladas. Como os nomes indicam estas frequências representam para cada categoria i , a frequência absoluta (relativa) de dados que pertencem à classe ou a classes anteriores. Devido à necessidade de as categorias estarem ordenadas só podemos falar de frequências acumuladas quando os dados estão em escalas ordinais, de intervalo ou absoluta.

Valor da variável

(xi)

Frequência absoluta

(ni)

Frequência relativa

(fi)

Frequência absoluta acumulada

(Ni)

Frequência relativa acumulada

(Fi)

1x 1n 11

nf

n= 1 1N n= 1 1F f=

2x 2n 22

nf

n= 2 1 2N n n= + 2 1 2F f f= +

M M M M M

nx nn nn

nf

n= 1 ...n nN n n n= + + = 1 ... 1n nF f f= + + =

TOTAL n 1 - -

E S T A T Í S T I C A D E S C R I T I V A

6666

Exemplo 1.6:

No âmbito de um estudo realizado com o objectivo de caracterizar o comportamento dos clientes de um hipermercado, analisou-se o número de ocupantes por veículo para 1000 veículos que entraram no parque automóvel do referido hipermercado, num Sábado. Os resultados encontram-se resumidos na tabela seguinte:

Número de ocupantes por

veículo

Frequência absoluta

Frequência relativa

Frequência absoluta

acumulada

Frequência relativa

acumulada

1 103 10.3% 103 10.3%

2 147 14.7% 250 25.0%

3 248 24.8% 498 49.8%

4 197 19.7% 695 69.5%

5 152 15.2% 847 84.7%

6 100 10.0% 947 94.7%

7 53 5.3% 1000 100%

TOTAL 1000 100%

DIAGRAMA DE BARRAS

0

50

100

150

200

250

300

1 2 3 4 5 6 7

Nº ocupantes/veículo

n i

As distribuições não agrupadas são a forma mais elementar de apresentação dos dados e consiste numa simples enumeração das observações, que podem ou não estar ordenadas. Quando o número de valores distintos observados é elevado, torna-se muitas vezes necessário condensar muito mais os quadros estatísticos, agrupando as observações em classes. Obtêm-se assim distribuições de frequências agrupadas em classes ou distribuições agrupadas. Este tipo de distribuições é particularmente útil quando dispomos de um grande número de dados relativos a uma variável contínua cujos valores observados são muito próximos uns dos outros. A frequência de cada classe é o número de observações que ela contém. No exemplo 6 os dados dizem respeito a uma variável discreta, quando provêm de uma variável contínua existem algumas diferenças que iremos observar através do exemplo 7.

E S T A T Í S T I C A D E S C R I T I V A

7777

Exemplo 1.7:

Consideremos o conjunto de dados seguinte que representa o peso, expresso em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste saíram de uma linha de enchimento automático:

302.25, 299.20, 300.24, 297.22, 298.35, 303.76, 298.65, 299.38, 300.36, 299.16, 300.86, 299.83, 302.52, 300.12, 301.81,297.99, 299.23, 298.73, 303.07, 299.07, 297.83, ... , 300.80

A primeira característica que podemos observar neste conjunto de dados é que não existe praticamente repetição de valores. Isto leva a que não temos vantagem em utilizar os dados agrupados numa tabela de frequências, dado que iríamos ter uma tabela praticamente com tantas linhas quanto o número de dados. No entanto, podemos construir uma tabela de frequências se agruparmos os dados por classes:

Classes Frequência absoluta

Frequência relativa (%)

Frequência absoluta

acumulada

Frequência relativa

acumulada(%)

[297.00 , 298.00[ 8 8% 8 8%

[298.00 , 299.00[ 21 21% 29 29%

[299.00 , 300.00[ 28 28% 57 57%

[300.00 , 301.00[ 15 15% 72 72%

[301.00 , 302.00[ 11 11% 83 83%

[302.00 , 303.00[ 10 10% 93 93%

[303.00 , 304.00[ 5 5% 98 98%

[304.00 , 305.00[ 1 1% 99 99%

[305.00 , 306.00[ 1 1% 100 100%

TOTAL 100 100%

HISTOGRAMA

0

0.05

0.1

0.15

0.2

0.25

0.3

[297.00 , 298.00[ [298.00 , 299.00[ [299.00 , 300.00[ [300.00 , 301.00[ [301.00 , 302.00[ [302.00 , 303.00[ [303.00 , 304.00[ [304.00 , 305.00[ [305.00 , 306.00[

peso (gr amas)

f i

Diagrama de caule-e-folhas (steam and leaf)

Quando precisamos de organizar uma amostra, de forma a ter uma primeira

ideia do comportamento da variável em estudo, e preparar a mesma para

calcular algumas estatísticas amostrais de forma mais rápida, o diagrama de

caule-e-folhas é extremamente útil.

Este tipo de representação para além de organizar a amostra

contribui para revelar a forma da distribuição subjacente, mas

de uma forma sugestiva, que faz lembrar um histograma.

E S T A T Í S T I C A D E S C R I T I V A

8888

Exemplo 1.8:

Suponhamos que as notas de uma turma de Matemática do 12º ano com 36

alunos foram as seguintes:

84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70 81 76 79 75 76 58 31

Na representação em diagrama de caule e folhas temos os seguintes passos:

1. Escolher o caule:

2. Escrever as folhas:

3. Caule e folhas completo:

3 3 4 4 5 5 6 6 7 7 8

3 3 4 4 5 5 6 6 7 7 8

3 3 4 4 5 5 6 6 7 7 8

4

3 3 4 4 5 5 6 6 7 7 8

9 4

3 3 4 4 5 5 6 6 7 7 8

9 1 4

3 3 4 4 5 5 6 6 7 7 8

9 0 1 4

3 3 4 4 5 5 6 6 7 7 8

1 0 9 5 2 3 8 7 8 1 0 3 1 7 6 9 8 7 7 7 0 2 3 0 0 0 8 6 9 5 6 6 4 3 0 1

Por vezes, utiliza-se o caule horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhança entre um histograma e uma representação em caule-e-folhas.

E S T A T Í S T I C A D E S C R I T I V A

9999

4. Caule e folhas completo e ordenado:

Que característica é que se pretende realçar, quando se representa um conjunto de dados sob a forma de um histograma ou de um caule-e-folhas?

Dada uma amostra, o aspecto do histograma reflecte a forma da distribuição

da População subjacente aos dados observados. Este é um dos aspectos da

redução dos dados, em que se perde alguma informação contida nesses

dados, mas em contrapartida obtemos a estrutura da População, que eles

pretendem representar. Uma das vantagens deste tipo de representação é

poder observar-se o tipo de distribuição subjacente aos dados, dos quais

destacamos alguns exemplos:

• Distribuições simétricas

A distribuição das frequências faz-se de forma aproximadamente

simétrica, relativamente a uma classe média.

• Distribuições enviesadas

A distribuição das frequências faz-se de forma acentuadamente

assimétrica, apresentando valores substancialmente mais pequenos

num dos lados, relativamente ao outro.

3 3 4 4 5 5 6 6 7 7 8

1 0 5 9 2 3 7 8 8 0 1 1 3 6 7 7 7 7 8 9 0 0 0 0 2 3 5 5 6 6 8 9 0 1 3 4

1 1 2 4 6 9 13 (7) 16 10 4

Profundidade Caule Folhas

E S T A T Í S T I C A D E S C R I T I V A

10101010

• Distribuições com caudas longas

A distribuição das frequências faz-se de tal forma que existe um

grande número de classes nos extremos, cujas frequências são

pequenas, relativamente às classes centrais:

• Distribuições com vários picos ou modas

A distribuição das frequências apresenta 2 ou mais "picos" a que

chamamos modas, sugerindo que os dados são constituídos por vários

grupos distintos:

1.5 Estatísticas amostrais

O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um conjunto de dados. As estatísticas amostrais são então medidas calculadas com base nos dados, a partir das quais é possível descrever globalmente o conjunto de valores que os dados tomam.

1.5.1. Medidas de localização

1.5.1.1. Média

A mais utilizada das estatísticas de localização é a média aritmética amostral ou, como habitualmente se designa a média amostral.1 Para um conjunto de n dados

),...,2,1( nixi = a média amostral é definida pela expressão:

1

n

i

i

x

xn

==∑

(dados não agrupados) (3)

Consideremos os dados do exemplo 1.6, mas agora sem o conjunto de dados estar apresentado numa tabela de frequências:

1 Existem outras médias para além da aritmética, por exemplo, média geométrica, média harmónica, média quadrática, etc.

E S T A T Í S T I C A D E S C R I T I V A

11111111

2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 1, 4, 5, 6, 4, 5,...,3, 1, 2, 2, 3 )1000( =n

A média amostral é dada por

2 1 ... 2 33.66

1000x

+ + + += = ocupantes por veículo.

Para dados agrupados numa tabela de frequências a média amostral é dada por

1

k

i i

i

n x

xn

==∑

(dados agrupados) (4)

onde k representa o número de valores diferentes existentes no conjunto de dados.

No exemplo 1.6 e considerando os dados agrupados na tabela de frequências teríamos a média amostral dada por

103 1 147 2 248 3 197 4 152 5 100 6 53 73.66

1000x

× + × + × + × + × + × + ×= =

ocupantes por veículo.

No caso da variável ser contínua, dado que “perdemos” os valores concretos

do conjunto (ficaram afectos a uma determinada classe) não podemos calcular

a média amostral directamente dos valores dos dados. Deste modo a cada

classe vai ser atribuído um representante ( ix ) e a média amostral calculada

através desses representantes:

1

k

i i

i

n x

xn

==∑

(dados agrupados em classes) (5)

onde k é o número de classes do agrupamento, in é a frequência absoluta da

classe i e ix é o ponto médio da classe i , o qual é considerado como elemento

representativo da classe.

No exemplo 1.7 a média amostral é dada por

8 297.5 21 298.5 ... 1 305.5300.11 g

100x

× + × + + ×= =

A média é sempre uma medida representativa dos dados?

Suponhamos que temos a seguinte amostra:

E S T A T Í S T I C A D E S C R I T I V A

12121212

2.13 3.44 2.78 4.35 1.51 2.8 2.47 3.73 172

A média desta amostra é 21.69x = . Embora todos os dados, com a excepção

de um deles (172), estejam no intervalo [ ]1.51: 4.35 , o valor obtido para a

média não pertence a este intervalo. O que acontece é que a média é muito

sensível a valores muito grandes ou muito pequenos. No caso do exemplo, foi

o valor 172 que inflacionou a média. Se pensarmos que, em vez deste valor

podemos ter 1.72, temos razões para pensar que pode ter havido um erro.

E se em vez de 172 o valor correcto fosse 1.72, qual o valor da média?

Refazendo os cálculos com o valor correcto, obtém-se para a média amostral,

2.77x = , significativamente diferente do valor obtido anteriormente.

1.5.1.2. Mediana

Uma outra medida de localização é a mediana amostral ( )eM . Considere-se que os dados que integram a amostra são colocados por ordem crescente, formando um vector ( )**

2

*

1 ,...,, nxxx - amostra ordenada. A mediana amostral é definida nos seguintes termos:

*

n+1

2

* *

n n+1

2 2

n mpar

n par2

e

x

M x x

= +

Í

(6)

No exemplo 1.6, temos um conjunto de 1000 dados ( 1000 parn n= → ). A mediana é então dada por

2

*

501

*

500 xxM e

+=

Temos de saber quais são os dados que ocupam as posições 500 e 501 quando estiverem ordenados por ordem crescente. Através da observação da tabela de frequência (observando as frequência absolutas acumuladas) temos que 4*

500 =x e

4*

501 =x . Logo a mediana é 4 4

42

eM+

= = ocupantes/viatura.

No caso contínuo, utilizando a definição só podemos calcular a classe mediana. Depois de identificada essa classe podemos calcular um valor aproximado para a mediana através da fórmula:

i

i

i

ii

i

i

ie af

Fla

n

Nn

lM *5,0

*2 ,11

−− −

+=−

+=

(7)

E S T A T Í S T I C A D E S C R I T I V A

13131313

onde 1iN − é a frequência absoluta acumulada da classe antes da classe

mediana, n a dimensão da amostra e il , ia e in são, respectivamente, o limite

inferior, amplitude e frequência absoluta da classe mediana.

No exemplo 1.7, visto que 100 parn = → , podemos ver qual a classe que contém

*

50x e *

51x ou 0.5iF = , a classe mediana é [ [00.300,00.299 . Logo, através de (7) temos:

50 29299.00 1.00 299.75 g

28eM

−= + × =

Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais.

Média vs Mediana

Para ilustrar a diferença entre estas duas medidas vejamos o seguinte exemplo. Consideremos as notas obtidas por um aluno no 1º ano do curso:

10 13 11 15 18 16 14 15 14

media:

9

1 149

i

i

x

x == =∑

mediana: * *

9 1 5

2

9 14en M x x+= → = = =

A média e mediana das notas desse aluno foram de 14 valores. Suponhamos

que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores.

Embora a mediana se mantenha, o valor da média sofreu um aumento,

passou para 14.4 valores. Temos então que a média, ao contrário da mediana,

é uma medida muito pouco resistente, isto é, ela é muito influenciada por

valores muito grandes ou muito pequenos, chamados outliers2, mesmo que

estes valores surjam em pequeno número na amostra. Estes valores são os

responsáveis pela má utilização da média em muitas situações em que teria

mais significado utilizar a mediana. Como medida de localização, a mediana é

2 Serão definidos mais adiante.

E S T A T Í S T I C A D E S C R I T I V A

14141414

mais resistente do que a média, pois não é tão sensível aos dados. Então qual

das duas devemos utilizar?

a) Quando a distribuição é simétrica, a média e a mediana coincidem.

b) A mediana não é tão sensível, como a média, às observações que são

muito maiores ou muito menores do que as restantes (outliers). Por

outro lado a média reflecte o valor de todas as observações.

Representando as distribuições dos dados na forma de uma mancha (válido

para o digrama de barras ou histograma), de um modo geral temos:

Assim, não se pode dizer em termos absolutos qual destas medidas de localização é preferível, dependendo do contexto em que estão a ser utilizadas.

1.5.1.3. Moda

A última medida de localização que será estudada é a moda ( oM ). Trata-se da

medida que indica o valor ou a gama de valores nos quais a concentração dos

dados amostrais é máxima. Quando os dados forem realizações de uma

variável discreta, a moda é o valor dos dados que ocorre com maior

frequência; e o intervalo de classe com maior frequência se a variável é

contínua. Assim, da representação gráfica dos dados, obtém-se

imediatamente o valor que representa a moda ou a classe modal.

Esta medida é especialmente útil para reduzir a informação de um conjunto

de dados qualitativos, apresentados sob a forma de nomes ou categorias, para

os quais não se pode calcular a média e por vezes a mediana (se não forem

susceptíveis de ordenação).

E S T A T Í S T I C A D E S C R I T I V A

15151515

No exemplo 1.6, a moda é o valor com maior frequência absoluta, ou seja, viaturaocupantes/3=oM .

Quando os dados provêm de uma variável contínua existem algumas

diferenças no cálculo da moda. Tal como na mediana começamos por calcular

a classe modal. Depois de identificada a classe modal podemos calcular um

valor aproximado para a moda através das fórmulas:

1

1 2

o i iM l a∆

= + ×∆ + ∆

(8)

onde ia é a amplitude da classe modal, il é o limite inferior da classe modal, n é a

dimensão da amostra, 1∆ é a diferença de frequências absolutas entre a classe modal e a classe anterior à modal e 2∆ é a diferença de frequências absolutas entre a classe modal e a classe posterior à classe modal.

No exemplo 1.7, a classe com maior frequência absoluta é [ [00.300,00.299 logo é a classe modal. Através de (8) temos:

7299.00 1.00 299.35 g

7 13oM = + × =

+

1.5.1.4. Extremos e Quartis

Os extremos são os valores mínimo, *

1 min( )ix x= , e máximo, * max( )n ix x= , da

amostra.

Como vimos anteriormente, a mediana é a medida de localização que divide a amostra. Generalizando esta noção, o quantil de ordem p (0 1p< < ), Qp , é tal

que 100p% dos elementos da amostra são menores ou iguais a Qp e os

restantes 100 (1-p)% dos elementos da amostra são maiores ou iguais a Qp. A

designação de quantil encontra-se associada à ideia de que os quantis

dividem a distribuição de frequência em quantidades iguais, isto é, com igual

número de observações. De uma maneira geral, o cálculo de um quantil, no

caso discreto,

[ ]

( )

1

1

*

* *

se np não é inteiro

1se np inteiro

2

np

np np

p

x

Qx x

+

+

= +

(9)

e no caso contínuo, determina-se de forma idêntica à mediana.

Os quantis podem ser:

• Quartis → dividem a distribuição de frequência em 4 partes iguais;

• Decis → dividem a distribuição de frequência em 10 partes iguais;

E S T A T Í S T I C A D E S C R I T I V A

16161616

Percentis → dividem a distribuição de frequência em 100 partes iguais.

A importância dos quartis deve-se ao facto de algumas representações

gráficas utilizarem estas medidas:

• 1Q - 1º quartil: divide as observações tal que 25% são menores ou

iguais e 75% são maiores ou iguais.

• 2Q - 2º quartil ou mediana: divide as observações ao meio, tal que 50%

são são menores ou iguais e 50% são maiores ou iguais.

• 3Q - 3º quartil: divide as observações tal que 75% são menores ou

iguais e 25% são maiores ou iguais.

No exemplo 1.8,

36n =

*

1 31x = e *

36 84x =

1

36 58 609 59

4 4 2

nQ

+= = → = =

2

36 67 6818 67.5

2 2 2

nQ Me

+= = → = = =

3

3 108 75 7527 75

4 4 2

nQ

+= = → = =

1.5.2. Medidas de dispersão

1.5.2.1. Intervalo de variação

Uma medida de dispersão que se utiliza por vezes, é o intervalo de variação ou amplitude amostral, R , definida como sendo a diferença entre a maior e a menor das observações:

* *

1max( ) min( )i i nR x x x x= − = − (10)

onde representamos por *

1x e *

nx , respectivamente o menor e o maior valor da

amostra ),...,,( 21 nxxx , de acordo com a notação introduzida anteriormente, para a amostra ordenada.

No exemplo 1.8,

max( ) min( ) 84 31 53i iR x x= − = − =

E S T A T Í S T I C A D E S C R I T I V A

17171717

1.5.2.2. Variância

A variância amostral é uma medida adequada para descrever a dispersão de uma amostra (ou de uma população, se se dispuser de todos os dados que a compõem). A dispersão de uma amostra pode ser medida pela variância amostral ( 2

s ) dada pelas seguintes expressões:

n

Xx

s

n

ii

2

12

)(∑ −= = (dados não agrupados) (11)

2

2

!1

22

12

)(

n

xnxnn

n

Xxn

s

k

iii

k

iii

k

iii

∑−

=∑ −

= === (dados agrupados) (12)

No entanto, se pretendemos inferir acerca da variabilidade de uma população de grandes dimensões a partir de uma amostra, então, por razões que neste momento não iremos estudar, é preferível recorrer à variância amostral corrigida. Nesta estatística, representada por 2's , a soma dos erros quadráticos é dividida por 1−n e não por n .

1

)('

2

12

∑ −= =

n

Xx

s

n

ii

(dados não agrupados) ( 13)

)1(1

)('

2

!1

22

12

∑−

=−

∑ −= ===

nn

xnxnn

n

Xxn

s

k

iii

k

iii

k

iii

(dados agrupados) (14)

22

1' s

n

ns

−=

(15)

No exemplo 1.8,

2

22

1 12 1

2

( )

143.73

n nn

i iii ii

n x xx x

sn n

= ==

−− = = ≅

∑ ∑∑

2

22

1 12 1

( )

' 147.841 ( 1)

n nn

i iii ii

n x xx x

sn n n

= ==

−− = = ≅

− × −

∑ ∑∑

1.5.2.3. Desvio padrão

Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da

E S T A T Í S T I C A D E S C R I T I V A

18181818

variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:

2s s= (16)

O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:

• o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados;

• se s=0, então não existe variabilidade, isto é, os dados são todos iguais.

No exemplo 1.8, 2 11.99s s= ≅ e 2' ' 12.16s s= ≅ .

1.5.2.4. Amplitude inter quartil

A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a diferença entre o 3º e 1º quartis,

3 1Q Q Q= − ( 17)

Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra estão contidos num intervalo com aquela amplitude. Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados.

Nota: Ao contrário do que acontece com o desvio padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade.

No exemplo 1.8,

3 1 75 59 16Q Q Q= − = − =

Amplitude inter-quartil vs desvio padrão

Do mesmo modo que a questão foi posta relativamente às duas medidas de localização mais utilizadas (média e mediana), também aqui se pode por o problema de comparar as duas últimas medidas de dispersão. A amplitude inter-quartil é mais robusta, relativamente à presença de outliers, do que o desvio padrão, que é mais sensível aos dados.

E S T A T Í S T I C A D E S C R I T I V A

19191919

1.5.2.5. Boxplot (caixa de bigodes)

O boxplot ou caixa de bigodes é um tipo de representação gráfica onde se realçam algumas características da amostra, nomeadamente a existência de outliers (valores que se distinguem dos restantes, dando a ideia de não pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartil é representado por um rectângulo (caixa) com a mediana indicada por uma barra. Considera-se seguidamente duas linhas que unem os lados dos rectângulos com as barreiras interiores (eventualmente os extremos).

A barreira inferior interior é o menor valor da amostra (eventualmente o

mínimo), que é maior do que 1 1,5Q Q− × . A barreira superior interior é o maior

valor da amostra (eventualmente o máximo), que é maior do que 1 1,5Q Q+ × .

Quando existem valores fora deste intervalo, [ ]1 11,5 ; 1,5Q Q Q Q− × + × , diz-se que existem outliers ou valores discordantes. Para averiguar o grau dos mesmos

devem ser calculadas as barreiras exteriores: [ ]1 13 ; 3Q Q Q Q− × + × . Caso essas observações se encontrem neste último intervalo designam-se por outliers moderados, caso contrário dizem-se outliers severos.

Nota: Quando não existem outliers e nas extremidades da linha se representam os extremos da amostra, mínimo ( *

1x ) e máximo ( *

nx ), esta representação coincide com o diagrama de extremos e quartis. Este tipo de representação realça

E S T A T Í S T I C A D E S C R I T I V A

20202020

características importantes sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se constrói (distância entre a linha indicadora da mediana e os lados do rectângulo; comprimento das linhas que saem dos lados dos rectângulos; comprimento da caixa), se pode retirar imediatamente a seguinte informação:

Aqui podemos ver alguns exemplos, correspondentes a tipos diferentes de distribuição de dados.

Voltado ao exemplo 1.8, na representação boxplot temos os seguintes passos:

1. Cálculo dos quartis:

36n =

1

36 58 609 59

4 4 2

nQ

+= = → = =

2

36 67 6818 67,5

2 2 2

nQ Me

+= = → = = =

3

3 108 75 7527 75

4 4 2

nQ

+= = → = =

2. Cálculo das barreiras interiores:

3 1 75 59 16Q Q Q= − = − =

1 1,5 58 1,5 16 34ib Q Q= − × = − × =

3 1,5 75 1,5 16 99sb Q Q= + × = + × =

3. Será que existem outliers?

E S T A T Í S T I C A D E S C R I T I V A

21212121

As barreiras interiores são [ ]34;99 , logo, como existe um valor fora deste

intervalo estamos na presença de um outlier.

As barreiras exteriores ficam:

1 3 58 3 16 11iB Q Q= − × = − × =

3 3 75 3 16 123sB Q Q= + × = + × =

Como esta observação se encontra dentro das barreiras exteriores, isto é [ ]11: 23x ∈ , é um outlier moderado.

4. Representação gráfica do boxplot:

1.5.2.5. Coeficiente de variação

O coeficiente de variação expressa o desvio padrão como percentagem da média, é portanto uma medida relativa da dispersão da variável,

CV 100s

x= × (18)

Nota: É preciso ter em conta que se a média é perto de zero, o coeficiente de variação terá um valor elevado mesmo se os desvios relativamente à média são pequenos. Por isso, deixa de ser útil quando a média é próxima de zero.

No exemplo 1.8,

11.98100 18.2%

65.86CV = × ≅

E S T A T Í S T I C A D E S C R I T I V A

22222222

1.6. Dados bivariados

Muitas vezes o estudo descritivo não se resume ao estudo de apenas uma variável, por vezes é necessário a observação de duas (ou mais) varáveis para se ter uma visão global do problema em estudo. Nesse caso deixamos de ter uma amostra 1( , ..., ) , 1, ...,nx x i n e passamos a ter dados bivariados ( , ) , 1,...,i ix y i n= (observações de uma variável aleatória bidimensional, que será definida no capítulo 3). Por exemplo, a pressão atmosférica está relacionada com a altitude e/ou com a temperatura; a altura de uma criança está relacionada com a alutura do pai e/ou mãe.

Uma das coisas que se pretende estudar é a relação existente entre as varáveis deste par. Para ter uma ideia de como as duas varáveis se relacionam é comum representar graficamente esta relação através de um gráfico de dispersão. Esta representação consiste na marcação num sistema de eixos cartesianos as observações, ficando com uma nuvem de pontos que correspondem aos pares ordenados ( , )i ix y . Exemplo 9:

Consideremos os dados da temperatura do fuel gás (graus Fahrenheit) e a taxa de calor (Kilowatt-hora) para uma turbina de combustão para ser usada na refrigeração.

x 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500

y 99.1 98.8 98.5 98.5 98.5 98.2 98 97.8 97.8 97.8 97.6 97.5 97.3 97 96.8 96.7

Gráfico de dispersão

96.5

97

97.5

98

98.5

99

99.5

0 200 400 600

Temperatura

Calo

r

Este diagrama mostra a relação entra as variáveis em estudo, donde se pode extrair que talvez exista uma correlação linear entre elas. Esta relação pode ser traduzida através de uma recta.

E S T A T Í S T I C A D E S C R I T I V A

23232323

1.6.1.Regressão linear simples

Quando a relação existente entre duas variáveis é linear, pode ser traduzida através de uma recta. Sendo assim, temos o seguinte modelo determinístico:

Y Xα β= + (19)

em que α é a ordenada na origem e β o declive da recta.

No modelo de regressão linear simples pretende-se explicar o efeito que uma variável x , variável independente ou explicativa, sobre uma variável y , variável dependente ou explicada.

Correlação Linear Positiva (forte)

0

0

x

Correlação Linear Negativa (forte)

0

0

x

Correlação Linear Fraca

0

0

x

Esta visualização permite, através da simples observação do diagrama de dispersão, averiguar a possível existência ou não de correlação linear entre duas variáveis.

E S T A T Í S T I C A D E S C R I T I V A

24242424

1.6.2. Correlação. Coeficiente de determinação

O coeficiente de correlação linear, xyr , mede o grau de associação linear entre

dados bivariados, e calcula-se da seguinte forma:

xy

xy

xx yy

sr

s s= (20)

onde

( )( )1 1

n n

xy i i i i

i i

s x x y y x y nx y= =

= − − = −∑ ∑ , (21)

( )2 22

1 1

n n

xx i i

i i

s x x x nx= =

= − = −∑ ∑ (22)

e

( )2 22

1 1

n n

yy i i

i i

s y y y n y= =

= − = −∑ ∑ (23)

Deste modo podemos reescrever o coeficiente de correlação linear como

xy

xy

x y

rs s

γ=

(24)

onde xyγ é a covariância de X e Y e 1 1r− ≤ ≤ .

A variação total da variável dependente (VT) é dada por ( )2

1

n

i

i

y y=

−∑ , que pode

ser decomposta da seguinte forma:

( )2 2 2

^ ^

1 1 1

VT VE VR

n n n

i i i

i i i

y y y y y y= = =

− = − + −

∑ ∑ ∑14243 14243 14243

(25)

E S T A T Í S T I C A D E S C R I T I V A

25252525

em que VE é a variação explicada pela regressão e VR é a variação residual.

Ficamos então com

VE VRVT VE VR 1

VT VT= + ⇔ + = (26)

em que a razão entre a variação explicada pela regressão e a variação total, VE

VT, é

o coeficiente de determinação, 2R , que é a proporção da variabilidade total que é explicada pelo modelo de regressão,

( )

( )

2

12

2 22

12 1 1

2 2 22 2

1 1 1

n

i i

i

nn nxy

i ii iii xx i

n n n

yyi i i

i i i

x y nxy

sx y nx yy y x nx

sR

sy y y n y y n y

β

=

== =

= = =

−− − = = = =

− − −

∑∑ ∑

∑ ∑ ∑ (27)

O coeficiente de determinação varia entre zero e um, 20 1R≤ ≤ . Quando este coeficiente toma o valor 1 significa que a recta de regressão explica totalmente a variabilidade da variável dependente. O valor nulo de 2R corresponde à situação em que a recta de regressão não explica nada da variabilidade da variável dependente.

O coeficiente de correlação pode ser calculado através do coeficiente de determinação,

2

xyr R= ± (28)

em que o sinal depende do declive da recta de regressão, sendo +(-) se esse declive é positivo (negativo).

1.6.3. Método dos mínimos quadrados

Quando se verifica, quer através do gráfico de dispersão quer do coeficiente de correlação linear, uma correlação forte entre duas variáveis, podemos descrever a relação entre essas variáveis através de uma recta de regressão (a recta que melhor se ajusta aos dados). Essa recta serve de modelo matemático para expressar a relação linear entre duas variáveis. Considera-se, em geral, X a variável independente ou explicativa e Y a variável dependente ou explicada. Um dos métodos mais utilizados para ajustar uma recta a um conjunto de dados é o Método dos Mínimos Quadrados (MMQ), que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios (os

E S T A T Í S T I C A D E S C R I T I V A

26262626

chamados erros ou resíduos) entre os verdadeiros valores, y , e os valores

estimados a partir da recta de regressão que se pretende ajustar,^

y .

O modelo de regressão linear é a recta de regressão

^

i iiy xα β ε= + + (29)

obtida de tal modo que a soma dos quadrados dos desvios ou resíduos

(^

i iy yε = − ) seja mínima,

( )2

^ 22

1 1 1

min min min ( )n n n

i i i i i

i i i

y y y xε α β= = =

= − = − +

∑ ∑ ∑ (30)

Como tal, para estimar os parâmetros do modelo, é necessário que as primeiras derivadas, em ordem a α e a β , sejam nulas e as segundas sejam maiores ou iguais a zero,

2

1

2

1

( ) 0

( ) 0

n

i i

i

n

i i

i

y x

y x

α βα

α ββ

=

=

∂− − =∂

∂ − − =

∑ (31)

As estimativas dos mínimos quadrados para os parâmetros α e a β são

^ ^

y xα β= − (32) e

^1

22

1

n

i ixyi

n

xxi

i

x y nx ys

sx nx

β =

=

= =

∑ (33)

E S T A T Í S T I C A D E S C R I T I V A

27272727

Voltando ao exemplo 1.9, uma vez que se observa no gráfico de dispersão uma relação linear entre as variáveis, vamos confirmar esta relação através do coeficiente de correlação,

i x y 2x 2y xy

1 100 99,1 10000 9820,81 9910 2 125 98,8 15625 9761,44 12350 3 150 98,5 22500 9702,25 14775 4 175 98,5 30625 9702,25 17237,5 5 200 98,5 40000 9702,25 19700 6 225 98,2 50625 9643,24 22095 7 250 98 62500 9604 24500 8 275 97,8 75625 9564,84 26895 9 300 97,8 90000 9564,84 29340 10 325 97,8 105625 9564,84 31785 11 350 97,6 122500 9525,76 34160 12 375 97,5 140625 9506,25 36562,5 13 400 97,3 160000 9467,29 38920 14 425 97 180625 9409 41225 15 450 96,8 202500 9370,24 43560 16 500 96,7 250000 9350,89 48350 Σ 4625 1565,9 1559375 153260,19 451365

1

2 22 2

1 1

0.99

n

i ixy i

xyn n

xx yy

i i

i i

x y nx ys

rs s

x nx y n y

=

= =

= = = −

− −

∑ ∑

O valor da correlação é 0.99r = − e o coeficiente de determinação 2 0.977R = indiciam uma forte correlação linear entre a temperatura de fuel gás e a taxa de calor. Vamos agora estimar, através do MMQ, os parâmetros α e β e traçar a recta de regressão:

^1 1 1

22 2

2

1 1

16 451365-4625 1565,90,0057

16 1559375-(4625)

n n n

i i i ixy i i i

n nx

i i

i i

n x y x ys

sn x x

β = = =

= =

−× ×

= = = = −×

∑ ∑ ∑

∑ ∑

^ 1656,9 4625( 0,0057) 99,529

16 16y xα β= − = − − × =

Sendo assim, a recta de regressão calculada pelos métodos dos mínimos quadrados é dada por,

^ ^ ^

99,529 0,0057y x xα β= + = −

E S T A T Í S T I C A D E S C R I T I V A

28282828

cujo gráfico de dispersão com a respectiva recta de regressão é o seguinte:

Gráfico de dispersão

y = -0.0057x + 99.529

R2 = 0.977

96.5

97

97.5

98

98.5

99

99.5

0 200 400 600

Temperatura

Calo

r

Através da recta de regressão estimada é possível prever taxas de calor com base na temperatura do fuel gás. Por exemplo, para uma temperatura do fuel gás de 405 graus Fahrenheit prevê-se uma taxa de calor de

^

0.0057 405 99.529 97.2205y = − × + = Kilowatt-hora.