2. 2. GráficosGráficos
Estatística DescritivaEstatística Descritiva
As representações gráficas de tabelas de distribuições de frequência As representações gráficas de tabelas de distribuições de frequênciapermitem que se tenha uma rápida e concisa visualização dadistribuição da variável.
A utilização de gráficos para ilustrar os resultados de uma pesquisasempre é recomendável.
A construção de gráficos depende muito da habilidade artística decada um!!!
2
Toda figura (ou gráfico) quando colocada em um trabalho deve ser citado pelo seu número
ANTES de ser apresentada(o) no texto!
Se colocou um gráfico no texto precisa escrever algo sobre ele!
RecomendaçõesRecomendações::
1) Devem ser claros e simples, atraindo a atenção e inspirando confiança;
2) Servem para realçar certos aspectos importantes de uma pesquisa;
3) Devem ser de tamanho adequado à sua publicação em revistas, periódicos, cartazes,
livros, etc.;
4) Devem sempre ter um título completo, o qual deve ser colocado na parte inferior do4) Devem sempre ter um título completo, o qual deve ser colocado na parte inferior do
gráfico;
5) Devem ser construídos numa escala que não desfigure os fatos ou as relações que se
deseja destacar;
6) Devem ser mais largos do que altos;
7) Seus eixos sempre ser especificados (dar nome) e graduados (criar escala);
8) Quando os dados não são próprios, deve-se citar a fonte, a qual deve ser colocada na
parte inferior do gráfico;
9) Pode-se usar notas para esclarecimentos gerais na parte inferior do gráfico.
4
2.1. Gráfico para variáveis 2.1. Gráfico para variáveis qualitativasqualitativas
Existem vários tipos de gráficos para representar variáveis qualitativas, Existem vários tipos de gráficos para representar variáveis qualitativas, contudo, vários são versões diferentes do mesmo princípio. Nos
limitaremos em 4 deles:
a)a) Gráfico de barras Gráfico de barras b)b) Gráfico de Gráfico de ParetoParetoc)c) PictogramaPictogramad)d) Gráfico de setor circularGráfico de setor circular
5
a) Gráfico de barrasGráfico de barras (ou retângulo) OpRU f
R 8
M 1
B 10
N 3
Total 22
Têm por finalidade comparar grandezas, por meio de retângulos deigual largura, dispostos horizontalmente e com alturas proporcionaisàs grandezas. Devemos deixar uma distância entre os retângulos. Para as variáveis qualitativas ordinais, devemos respeitar a ordemdas categorias. Quando os retângulos são colocados na posição vertical, temos osgráficos de colunas. A finalidade desse tipo de gráfico é a mesma dosgráficos de barras.
0
2
4
6
8
10
12
R M B N
OpRU
0 2 4 6 8 10 12
R
M
B
N
OpRU
Vertical Horizontal6
gráficos de barras.
OpRU<- c("R","R","M","R","N","B","R","R","R","N","B","B","B","R","R","B","B","B","N","B","B","B")
tab.opRU<- table(OpRU); tab.opRUbarplot(tab.opRU, horiz=F)barplot(tab.opRU, horiz=T)
# Se deseja as frequências relativastab.freq = prop.table(tab.opRU) barplot(tab.freq)
Gráfico de barrasGráfico de barrasNo software R:
7
b) Gráfico de Gráfico de ParetoPareto
OpRU f
R 8
M 1
B 10
N 3
Total 22
É um gráfico de barras ordenadas, das mais altas para as mais baixas.
Então as categorias da variável ficam ordenadas de acordo com as frequências.
Usado em gestão de qualidade
0
2
4
6
8
10
12
R M B N
OpRU
Antes Depois 8
require(qcc) # instalar esse pacotepareto.chart(tab.opRU)Pareto chart analysis for tab.opRU
Frequency Cum.Freq. Percentage Cum.Percent.B 10 10 45.454545 45.45455R 8 18 36.363636 81.81818N 3 21 13.636364 95.45455M 1 22 4.545455 100.00000
Gráfico de Gráfico de ParetoParetoNo software R:
9
c) PictogramasPictogramas
_ Os símbolos devem ser auto-explicativos;_ As diferentes quantidades devem expressar-se mediante maior ou menornúmero de símbolos;_ Estabelecem comparações gerais.
10
d) Gráfico de setoresGráfico de setores (ou gráfico tipográfico tipo “pizzapizza” ou “tortatorta”)
R36%
N14%
OpRU
Destina-se a representar a composição, usualmente em %, de partes de um todo.
Consiste em dividir a área total de um círculo de raio arbitrário (representandoo todo) em subáreas (setores) proporcionais às frequências.
O número de setores não deve ser muito grande.
OpRU f fr i
R 8 0,364 130,91o
M 1 0,045
R36%
M5%
B45%
N14%
OpRU
36%
M5%
B45%
B 10 0,455
N 3 0,136
Total 22 1
11
pie(tab.opRU)
Gráfico de setorGráfico de setor
B
M
No software R:
12
N
R
Para os curiosos: https://www.tutorialspoint.com/r/r_pie_charts.htm
2.2. Gráfico para variáveis 2.2. Gráfico para variáveis quantitativasquantitativas
Apresenta uma variedade maior de representações gráficas.
a)a) Diagrama de ramos e folhasDiagrama de ramos e folhasb)b) Gráfico Gráfico de pontos (+ de pontos (+ outliersoutliers))c)c) Gráfico de HasteGráfico de Hasted)d) HistogramaHistogramae)e) Polígono de Polígono de frequênciafrequênciaf)f) Ogiva Ogiva (Gráfico de frequência acumulada)(Gráfico de frequência acumulada)
g)g) Gráfico de linhasGráfico de linhas13
a) Ramos e FolhasRamos e Folhas
É uma forma de representar a distribuição de uma variável quantitativa mantendo seus valores originais.
Foi proposta por Tukey (1977).
Pode ser usado para conjuntos grandes de dados;
Dá uma boa idéia da distribuição dos dados;
14
Dá uma boa idéia da distribuição dos dados;
Permite a detecção de valores discrepantes (aberrantes ou outliers)
Considere a variável (Z) peso (kg) dos alunos:
Z = {45, 52, 53, 56, 57, 58, 60, 65, 65, 66, 75, 53, 55, 55, 58, 64, 65, 66, 67, 68, 68, 69, 74, 74, 74, 75, 75, 78, 79, 79, 82, 107}
Não existe uma regra fixa para construir o ramo-e-folha.
Ordene os dados:45, 52, 53, 53, 55, 55, 56, 57, 58, 58, 60, 64, 65, 65, 65, 66, 66, 67, 68,68, 69, 74, 74, 74, 75, 75, 75, 78, 79, 79, 82, 107.
4 5
5 2 3 3 5 5 6 7 8 8
6 0 4 5 5 5 6 6 7 8 8 9
7 4 4 4 5 5 5 8 9 9
8 2
OBS: Um ramo com muitas folhas significa
maior incidência daquele ramo (realização).
8 2
9
10 7
i) A primeira (o ramo) é colocada àesquerda de uma linha vertical, estadivide os valores das observaçõesnuma determinada unidade.
ii) A segunda (a folha) é colocada à direita. Cada número representa uma
observação.15
A idéia básica é dividir cada
observação em duas partes:
1) Definir a unidade de medida que dividirá cada valor em duas partes: ramo e folha. Por exemplo:
45 kg ramo = 4 e folha = 5107 kg ramo = 10 e folha = 7
OBS1: Podemos trucar cada valor omitindo os décimos, por exemplo:69,1 kg = 69 kg ramo = 6 e folha 969,5 kg = 69 kg ramo = 6 e folha 9
Passos para a construção de um diagrama de ramos e folhasPassos para a construção de um diagrama de ramos e folhas
2) Escrever os ramos em ordem crescente verticalmente e passar uma linha vertical à direita deles.
3) Associar cada folha ao respectivo ramo;
4) Ordenar, em cada ramo, as folhas em ordem crescente da direita para esquerda.
OBS2: Podemos trucar cada valor considerando como folha 2 algarismos, por exemplo:
69,1 kg ramo = 6 e folha 91
16
12 0 1 913 0 1 6 714 3 4 4 8 915 1 1 5 5 816 0 1
Os valores são referentes ao preço de um determinado produto em váriosestabelecimentos:
ExercícioExercício
14,8018,2013,6015,5012,0013,7017,00
16,0017,3014,4016,1026,8012,1015,50
16 0 117 0 318 219 320 921
22
23
24
25
26 817
17,0012,9020,9019,3014,4015,1013,10
15,5014,3015,1015,8013,0014,90
18
Interpretação:
• Distribuição assimétrica de preços;
• Grande variabilidade;
• Preço típico entre 13 e 15;
• Presença de um valor discrepante (outlier).
preco<- c(14.80,18.20,13.60,15.50,12.00,13.70,16.00,17.30,14.40,16.10,26.80,12.10,12.90,20.90,19.30,14.40,15.10,13.10,15.50,14.30,15.10,15.80,13.00,14.90,17.00)
stem(preco, scale=3)
The decimal point is at the |
12 | 01913 | 016714 | 3448915 | 11558
Gráfico de ramos e folhasGráfico de ramos e folhasNo software R:
19
15 | 1155816 | 0117 | 0318 | 219 | 320 | 921 | 22 | 23 | 24 | 25 | 26 | 8
OBS:OBS:
Em geral, existem grandes intervalos vazios entre as observações extremas e grupo onde se encontram a maioria dos dados.
A detecção de intervalos vazios e observações extremas é importante
Observações discrepantes Observações discrepantes (aberrantesaberrantes, ou OutliersOutliers)São observações cujos valores estão distintamente abaixo ou acima da
maioria das demais observações.
A detecção de intervalos vazios e observações extremas é importante pois nos leva a refletir sobre a qualidade dos dados.
Algum erro de medição ocorreu?
É razoável prosseguir com as análises dos dados?
20
b) Gráfico de pontos Gráfico de pontos (ou gráfico de dispersão unidimensionalgráfico de dispersão unidimensional)
Para pequenos conjuntos de dadosDá uma boa idéia da dispersão dos dados e da existência de dados discrepantes.
Herbicida A 70 60 80 80 10 50
Herbicida B 70 85 80 70 100 65
Tabela 1. Porcentagens de controle de capimmarmelada (Brachiaria plantaginea).
Fonte: Departamento de Horticultura, ESALQ/USP.
Herb_A <- c(70, 60, 80, 80, 10, 50)Herb_B <- c(70, 85, 80, 70, 100, 65)
plot(Herb_A, pch=19, ylim=c(0,100))plot(Herb_B, pch=19, ylim=c(0,100))
No software R:
21
1 2 3 4 5 6
020
40
60
80
100
Index
Herb
_B
1 2 3 4 5 6
020
40
60
80
100
Index
Herb
_A
Há algum dado aparentementediscrepante? Em caso afirmativo,cite uma possível causa.
Você eliminaria esse(s) dado(s)?
Qual herbicida você adotaria?
Algumas variações do gráfico de pontosAlgumas variações do gráfico de pontos
Os valores são representados por pontos ao longo da reta (provida de uma escala)
Considere a variável Z: n.o de disciplinas em que o aluno foi reprovado.Z = {2, 0, 0, 2, 2, 5, 0, 2, 1, 2, 2, 4, 0, 3, 2, 2, 0, 3, 2, 3, 1, 4}
9
Indicado para pequenos conjuntos de dados
1 3 52 40
5 2 9 3 2 1
1 3 52 40 1 3 52 40
Z
5
9
321
Valores repetidos são acompanhados por um número que indica as
repetições.
Valores repetidos são “empilhados”, um em cima do
outro.
Apresentar o ponto mais alto da pilha
ZZ
22
c) Gráfico de Hastes Gráfico de Hastes (ou Bastões)(ou Bastões)
_ Bastante utilizado para representar dados não-agrupados em classes, o quenormalmente ocorre com dados discretos._Pode ser construído utilizando-se indistintamente as frequências absolutas ou asfrequências relativas.
Considere a variável X = n. de irmãos.
Xi fi
0 1
1 6
68
10
freq
uê
ncia
ab
so
luta
23
1 6
2 12
3 2
6 1
02
4n. irmãos
freq
uê
ncia
ab
so
luta
0 1 2 3 6
irmaos<- c(1, 2, 2, 2, 6, 2, 3, 2, 2, 2, 1, 3, 1, 2, 1, 2, 2, 1, 2, 2, 1, 0)
tab.irmaos<-table(irmaos)plot(tab.irmaos)
No software R:
Podemos aproximar aproximar uma variável contínua por uma variável uma variável contínua por uma variável discretadiscreta.
Isto pode ser feito supondo-se que todas as observações em determinada classe são iguais ao ponto médio desta classe.
Para conjuntos de dados grande
Com a tabela assim construída podemos representá-la por um gráfico de barras, setores ou de dispersão unidimensional.
Inconveniente: se perde muita informação da variável contínua.
Uma alternativa a ser usada nestes casos é o gráfico histograma.
24
d) HistogramaHistograma
• Utilizados para representar as distribuições de freqüência.• Dão uma boa idéia do formato da distribuição dos dados.
Tabela 1. Distribuição de frequência dos pesos dos alunos da UFSCar
Peso (X) pm f fr fra % % ac
48 |– 55 51,5 1 1/22 = 0,0455 0,0455 4,55 4,5548 |– 55 51,5 1 1/22 = 0,0455 0,0455 4,55 4,55
55 |– 62 58,5 7 7/22 = 0,3182 0,3637 31,82 36,37
62 |– 69 65,5 8 8/22 = 0,3636 0,7273 36,36 72,73
69 |– 76 72,5 2 0,0909 0,8182 9,09 81,82
76 |– 83 79,5 4 0,1818 1 18,18 100
Total 22 100
25
f
8
7
Peso (X) pm f
48 |– 55 51,5 1
Tabela 1. Distribuição de frequência dos pesos dos alunos da UFSCar
b.1) Histograma com amplitudes b.1) Histograma com amplitudes iguaisiguais de classesde classes
O histograma é uma sequência de retângulos postos lado a lado onde cada retângulotem como base a amplitude da classe e como altura a frequência (ou a fr).
7
4
2
1
48 55 62 69 76 83
48 |– 55 51,5 1
55 |– 62 58,5 7
62 |– 69 65,5 8
69 |– 76 72,5 2
76 |– 83 79,5 4
Total 22X
26
HistogramaHistograma
pesos<- c(48, 55, 55, 58, 58, 58, 59, 60, 62, 62, 62, 63, 64, 65, 66, 68, 70, 75, 80, 80, 82, 83)
hist(pesos, freq=T, breaks = "Sturges")
Histogram of pesos
6
Vantagem do gráfico de ramos Vantagem do gráfico de ramos e folhas sobre o histogramae folhas sobre o histograma::
não perdemos (ou perde-se
No software R:
27
pesos
Fre
quen
cy
50 60 70 80
01
23
45 não perdemos (ou perde-se
pouca) informação sobre os dados em si.
A escolha do número de linhas do ramo-e-folha é equivalente à escolha do número de classes de
um histograma.
f
8
É um gráfico que se obtém unindo por uma poligonal os pontos correspondentes à frequência das diversas classes, centradas nos respectivos pontos médios.
Para se obter as interseções do polígono com o eixo, cria-se, em cada extremo do histograma, uma classe de frequência nula.
Peso (X) pm f
Tabela 1. Distribuição de frequência dos pesos dos alunos da UFSCar
e) e) Polígono de Polígono de frequênciafrequência
7
4
2
1
48 55 62 69 76 83X
Peso (X) pm f
48 |– 55 51,5 1
55 |– 62 58,5 7
62 |– 69 65,5 8
69 |– 76 72,5 2
76 |– 83 79,5 4
Total 22
28
ff) ) Curva de Curva de frequênciasfrequências
A partir do polígono de frequências pode-se representar contornos mais suaves, utilizando curvas para chegar a uma representação de curva de frequência.
set.seed(14)x <- rchisq(100, df = 4)hist(x, freq=FALSE, ylim=c(0, 0.3), main="Distrib. Qui-quadrado com v=4")curve(dchisq(x, df = 4), col = 2, lty = 2, lwd = 2, add = TRUE)
Distrib. Qui-quadrado com v=4
No software R:
29
x
Den
sity
0 5 10 15
0.0
00.1
00.2
00
.30
Estas curvas serão utilizadas para entender algumas
propriedades presentes no estudo das medidas de posição e
das medidas de dispersão.
g) OgivaOgiva (ou gráfico de frequência acumulada)
É o gráfico representativo de uma distribuição acumulada de frequências. Ou seja, são gráficos construídos a partir das frequências acumuladas.
n. de
alu
nos
12
16
20
24 Frequências acumuladas
decrescente.
Idade
n. de
alu
nos
02
46
812
18 22 26 30 34 38 42
Interpretação:Nota-se que não existem alunos com idade inferior a 18
anos enquanto que abaixo de 34 anos existem 20 alunos.30
Exemplo:Exemplo:
Dados de idade:Dados de idade:X ={20, 26, 18, 25, 35, 20, 29, 23, 20, 20, 20, 30, 18, 37, 25, 20, 21, 25, 24, 19, 21, 22}
Dados ordenados:Dados ordenados:X ={18, 18, 19, 20, 20, 20, 20, 20, 20, 21, 21, 22, 23, 24, 25, 25, 25, 26, 29, 30, 35, 37}
Tabela Distribuição de frequência da idade de 22 alunos da UFSCar
Gráfico de frequência acumuladaGráfico de frequência acumulada
Considere as classes com amplitude 4, iniciando na idade de 18 anos e
terminando na idade de 42 anos.
Valores: 18 19 20 21 22 23 24 25 26 29 30 35 37Freq: 2 1 6 2 1 1 1 3 1 1 1 1 1
X f fa
18 |–| 22 12 12
22 –| 26 6 18
26 –| 30 2 20
30 –| 34 0 20
34 –| 38 2 22
38 –| 42 0 22
Total 22
da idade de 22 alunos da UFSCar
OBS: Sempre considerar fechado o limite superior!
31
X f fa
18 |–| 22 12 12
22 –| 26 6 18
26 –| 30 2 20
30 –| 34 0 20
34 –| 38 2 22
38 –| 42 0 22
Tabela Distribuição de frequência da idade de 22 alunos da UFSCar
16
20
24
Consta de uma poligonal ascendenteformada ligando-se os pontos de coordenadas(LSi; fa(i)), onde LSi é o limite superior da classei e fa(i) é a frequência acumulada até a classe i.
Gráfico de frequência acumuladaGráfico de frequência acumulada
38 –| 42 0 22
Total 22
Idade
n. de
alu
no
s
02
46
812
16
18 22 26 30 34 38 42
O ponto inicial desse gráficoé o limite inferior do primeirointervalo, com frequênciaacumulada zero, pois não existequalquer valor inferior a ele.
32
Gráfico de ogivaGráfico de ogiva
20 25 30 35 40
05
10
15
20
n. d
e a
lunos
X<- c(18,22,26,30,34,38,42)Y<- c( 0,12,18,20,20,22,22)
# Gráfico simplesplot(X,Y, type='l', xlab='Idade', ylab='n. de alunos')points(X,Y)
No software R:
33Idade
n. d
e a
lunos
04
81
216
20
24
18 22 26 30 34 38 42
Idade
# Gráfico elaborado:plot(c(18,42), c(0,24), type='n', axes=F,
xlab='Idade', ylab='n. de alunos')axis(2, at=seq( 0,24,2));axis(1, at=seq(18,42,4))points(X,Y, cex=.8,type='l', lwd=2, col='red')points(X,Y, cex=.8, pch=19)
No software R:
Construindo um gráfico de ogivaConstruindo um gráfico de ogiva
1) Construa uma distribuição de frequência que tenha uma coluna para asfrequências acumuladas (fa);
2) Especifique as escalas horizontal e vertical. A escala horizontal consistedos limites superiores de classe, enquanto a vertical mede as frequênciasacumuladas;
3) Marque os pontos em ordem, da esquerda para a direita;
4) O gráfico deve começar no limite inferior da primeira classe (cujafrequência acumulada é zero) e deve terminar no limite superior da últimaclasse (cuja frequência é igual ao tamanho da amostra).
34
h) Gráfico de linhasGráfico de linhas
Co
mprim
ento
40
60
1
Usados, sobretudo, na representação de séries temporais. É um gráfico, cujos os dados são observados em instantes de tempo diferentes, sendo estes ligados por segmentos.
Tempo
20
50 100 150
OBS: Espera-se que exista relação entre as observações em instantes de tempos diferentes.
35
Esse gráfico também pode receber o nome de gráfico de
perfis, quando se trata da observação de um indivíduo
ao longo do tempo.
f
8
7
4
Onde se concentra a maior ocorrência dos dados?
f
3
4
2
CUIDADO: amplitudes CUIDADO: amplitudes desiguais!!!desiguais!!!
2
1
48 55 62 69 76 83X
37
2
1
48 55 62 76 80X
Nesse caso temos que tomar alguns cuidados quanto à análise
e a construção do histograma.
b.2) Histograma com amplitudes b.2) Histograma com amplitudes desiguaisdesiguais de classesde classes
É comum o uso de classes com amplitudes desiguais no agrupamento de dados em tabelas de distribuição de frequência.
f
4
f/a
0,43
0,50
3
2
1
48 55 62 76 80X
0,29
0,43
0,14
48 55 62 76 80X
38
Em classes em que as amplitudes são maiores, espera-se que mais elementos caiam nessa classe, mesmo que a
concentração seja levemente inferior;
a) Complete a tabela para construir um histograma para a variáveldistribuição das rendas das pessoas com 10 anos de idade ou mais naregião sudeste do Brasil, considerando os dados:
Variável(Renda)
f fr = f /nAmplitude
(a)
Densidade de freq.(f/a)
Densidade de freq. relativa
(fr /a)
0 |– ½ 1,09 0,0329 0,5 2,180 0,0658
½ |– 1 5,62 0,1695 0,5 11,24 0,3390
Tarefa Tarefa 11
½ |– 1 5,62 0,1695 0,5 11,24 0,3390
1 |– 2 7,25 0,2187 1,0 7,250 0,2187
2 |– 3 5,04 0,1520 1,0 5,040 0,1520
3 |– 5 5,55 0,1674 2,0 2,775 0,0837
5 |– 10 5,02 0,1514 5,0 1,004 0,0303
10 |– 20 2,33 0,0703 10,0 0,233 0,00703
20 1,25 0,0377 0 0
Total 33,15
39
Tarefa Tarefa 11
Construa o histograma para o exemplo anterior utilizando:
b) Intervalos de classes desiguais e a frequência relativa (fr)
c) Intervalos de classes desiguais e a densidade de frequência relativa (fr/a)
d) A interpretação mudou do item b) para o item c)?
40
1) Construir a coluna que indica as amplitudes (a) das classes, ou seja, a(i) será aamplitude da i-ésima classe.
2) Construir uma coluna das densidades de frequências em cada classe, que éobtida dividindo as frequências f pelas amplitudes a ou seja, a medida que indicaqual a concentração por unidade da variável. Para compreender a distribuição,estes dados são muito mais informativos do que as f
3) De modo análogo, pode-se construir a densidade da proporção (ou porcentagem
Histograma com intervalos de Histograma com intervalos de classes desiguaisclasses desiguais
3) De modo análogo, pode-se construir a densidade da proporção (ou porcentagempor unidade da variável) que é calculada como: fr/a, sendo fr= f /n. A interpretaçãopara fr /a é muito semelhante àquela dada para f/a
4) Para a construção do histograma, basta lembrar que a área total deve ser igual a1 (ou 100%), o que sugere usar no eixo das ordenadas os valores de fr /a ,representando melhor a distribuição dos dados.
41
Logo, a altura da i-ésima coluna deverá ser igual à densidade de frequência da i-ésima classe.
Construa um histograma e um polígono de frequências para os dados daTabela 2. Utilize a regra: k=n para determinar o número de classes.Classifique a distribuição quanto à simetria e quanto ao número de “picos”.
Tabela 2. Diâmetros médios, em cm, de Pinus elliotti com 14 anos(amostra de 25 árvores)
Tarefa Tarefa 22
17,1 19,4 18,1 18,4 9,9
14,8 14,5 18,3 18,5 17,6
17,5 17,4 19,9 21,1 16,5
15,5 19,2 21,0 14,2 16,4
16,3 17,0 17,8 13,7 18,2
Fonte: Departamento de Ciências Florestais – ESALQ/USP.
42