Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Página | 1
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
FEA - Faculdade de Economia e Administração
Programa de Estudos Pós-Graduados em Administração
PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a habitação, trabalho,
saúde e muito particularmente EDUCAÇÃO
MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA
Professor Dr. Arnoldo Jose de Hoyos
Clarice Santiago
Página | 2
1 – INTRODUÇÃO
O presente trabalho tem por objetivo efetuar diversas análises dos dados da Pesquisa
Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e 2010.
Iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das
variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e
unidades de medida, além da apresentação da tabela de dados.
Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma de
distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com
o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-
plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-
padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling).
Em seguida faremos comparações entre as diversas variáveis analíticas, utilizando
técnicas como relações entre as variáveis, regressões múltiplas, comparações,
amostragem dos dados, análise multivariada, análise de conglomerados, análise
discriminante, regressão logística, análise de correspondência e arvores de classificação.
Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não
existem séries temporais de dados, requisitos para esta técnica.
O software estatístico utilizado é o MINITAB 16. Este trabalho se concentrará nas
diversas variáveis que compõem a pesquisa Firjan/FGV.
2 – OS DADOS
2.1 – OS INDIVÍDUOS
Os indivíduos deste trabalho são compostos pelas médias ponderadas dos indicadores
das dimensões Habitação (H6), Renda (R1), Trabalho (T1_2), Saúde (S1_1) e
Educação (E2_4, E2_5, E2_6), padronizados pela média do Brasil para os diferentes
municípios. Ao todo são 5565 municípios considerados brasileiros, incluindo o Distrito
federal. Os dados analíticos foram extraídos do IBGE, e possibilitam uma comparação
Página | 3
entre os dados colhidos em 2000 com 2010. Neste trabalho concentraremos nossas
análise apenas dos dados referentes à 2010.
O Brasil encontra-se política e geograficamente dividido em cinco regiões distintas, que
possuem traços comuns referentes aos aspectos físicos, humanos, econômicos e
culturais. Os limites de cada região - Norte, Nordeste, Sudeste, Sul e Centro-Oeste -
coincidem sempre com as fronteiras dos Estados que as compõem.
2.2 – AS VARIÁVEIS
As variáveis desta pesquisa incluem os 3 principais índices sintéticos que são ISDM,
IFDM e IFGF, que são médias ponderadas dos dados analíticos globais da pesquisa, e
variáveis analíticas, referente à educação, saúde, renda, emprego e habitação.
Tabela 1. Comparativo entre as Variáveis ISDM e IFDM
Tabela 2. A definição das Variáveis
Variável Significado Tipo Unidade de Medida
REGIÃO Nome da Região do Brasil Texto Na
UF Unidade da Federação Texto Na
MUNICÍPIO Nome do Município Texto Na
Página | 4
ISDM
Índice Social de Desenvolvimento Municipal: Média ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil.
Numérico
Escala convertida para intervalo entre 0 e 1.
EDUCAÇÃO
Média ponderada dos indicadores da dimensão Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela média do Brasil.
Numérico
Escala convertida para intervalo entre 0 e 1.
EMPREGO E RENDA
Geração, estoque e salários médios dos empregos formais (IFDM). Numérico
Escala convertida para intervalo entre 0 e 1.
LIQUIDEZ Índice de liquidez dos municípios. Numérico
Escala convertida para intervalo entre 0 e 1.
H6 Percentual de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2.
Numérico
Escala convertida para intervalo entre 0 e 1.
R1
Numérico
Escala convertida para intervalo entre 0 e 1.
T1_2 Taxa de formalização entre os empregados Numérico
Escala convertida para intervalo entre 0 e 1.
S1_1
Taxa de sobrevivência infantil no primeiro ano de vida, representada pela diferença entre o número de nascidos vivos e o número de óbitos até um ano de idade.
Numérico
Escala convertida para intervalo entre 0 e 1.
E2_4 Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade
Numérico
Escala convertida para intervalo entre 0 e 1.
Página | 5
E2_5
Índice transformado na escala Ideb de proficiência Português e Matemática Agregado para a quarta série do Ensino Fundamental (5º ano EF)
Numérico
Escala convertida para intervalo entre 0 e 1.
E2_6
Índice transformado na escala Ideb de proficiência em Português e Matemática Agregado oitava série do Ensino Fundamental (9º ano EF).
Numérico
Escala convertida para intervalo entre 0 e 1.
3. ANÁLISE DAS VARIÁVEIS
3.1 VARIÁVEIS CATEGÓRICAS
Para este tipo de variável, as pesquisas concentram-se nas análises de gráficos do tipo
pie chart e barras.
3.1.1 Variável: “ESTADO”
Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo
exibe o número de cidades por estado.
A variação no número de cidades por estado é acentuada. Considerando que o Distrito
Federal é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto
o Mato Grosso é o estado que possui o maior número de cidades (852).
3.1.2 Variável: “REGIÃO”
Página | 6
Figura 3. Número de Cidades por Estado e Região do Brasil
Podemos verificar no gráfico acima que a Região Nordeste é a que possui o maior
número de cidades do Brasil (1790) e seguido pela Região Sudeste (1669). A Região
que possui o menor número de cidades é a Norte, com 447 cidades, muito próxima da
Região Centro-Oeste (468). A Região Sul possui 1191 cidades.
Figura 4. Cidades por Região do Brasil
3.2 ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS ANALÍTICAS
Serão analisadas as variáveis separadamente quanto a sua forma de distribuição, os
valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de
gráficos ( histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de
medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de
confiança e teste de normalidade de Anderson-Darling).
Página | 7
3.2.1 VARIÁVEL ISDM
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-
padrão, variância, quantidade de observações, valores mínimos, máximos, informações
dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a
variável ISDM.
0,980,840,700,560,420,280,140,00
Median
Mean
0,730,720,710,700,690,680,67
1st Q uartile 0,53221Median 0,714973rd Q uartile 0,83728Maximum 1,00000
0,67294 0,68297
0,70542 0,72544
0,18725 0,19434
A -Squared 75,76P-V alue < 0,005
Mean 0,67795StDev 0,19073V ariance 0,03638Skewness -0,541209Kurtosis -0,522196N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for ISDMc
As principais observações que podemos fazer são:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem
ganhos, receitas, salários, etc. Esta conclusão está comprovada pelo teste de
normalidade de Anderson-Darling que indica que a distribuição não pode ser
considerada uma Normal. Muitas cidades possuem um baixo nível de desenvolvimento,
muitas cidades possuem um nível médio de desenvolvimento e poucas possuem um
nível alto de desenvolvimento. Existem duas corcovas no gráfico que nos mostra que
existem duas realidades diferentes dentro dos dados analisados, ou seja, existem
tipicamente dois tipos de municípios dentro do Brasil, e cada tipo está em um estágio
diferente de desenvolvimento.
Medidas Numéricas
Histograma e Curva de Densidade
BOXPLOT
Intervalo de confiança
Página | 8
- Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de
0,05767, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ISDM menor do que 0,71497. O ISDM médio é de 0,67795, e o desvio-
padrão (medida de dispersão) é de 0,19073, que implica em uma dispersão grande da
população e uma variação grande entre os diversos municípios do Brasil.
3.2.2 VARIÁVEL EDUCAÇÃO
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,46156Median 0,594673rd Q uartile 0,71782Maximum 1,00000
0,58205 0,59152
0,58906 0,60242
0,17656 0,18325
A -Squared 7,62P-V alue < 0,005
Mean 0,58679StDev 0,17984V ariance 0,03234Skewness -0,179424Kurtosis -0,488684N 5543
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for EDUCc
As principais observações que podemos fazer são:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende
a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que
indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que
temos diversas realidades sobre a questão da variabilidade sobre Educação nos
municípios do Brasil. Os dados se dispersam muito, não existe um padrão na questão e
pode-se concluir que existe muita diversidade entre os dados.
- Valores Atípicos: Há muitos valores atípicos de Educação, que apresentam resultados
abaixo de 0,07636. O desempenho Educação é considerado médio nos municípios do
Brasil.
Página | 9
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem Educação menor do que 0,59467. A Educação média é 0,58679 e o
desvio-padrão (medida de dispersão) é de 0,17984, que implica em uma dispersão
média para a questão.
3.2.3 VARIÁVEL EMPREGO E RENDA
0,980,840,700,560,420,280,140,00
Median
Mean
0,410,400,390,380,37
1st Q uartile 0,30631Median 0,376083rd Q uartile 0,47134Maximum 1,00000
0,40005 0,40823
0,37243 0,38024
0,15259 0,15838
A -Squared 104,05P-V alue < 0,005
Mean 0,40414StDev 0,15543V ariance 0,02416Skewness 0,88240Kurtosis 1,30951N 5543
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for EMP&RENDAc
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição
fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que
indiquem desempenho baixo e menores números dentro de toda a distribuição dos
dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling
que indica que a distribuição não pode ser considerada uma Normal. A maior parte das
cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um
nível médio de EMPREGO E RENDA e poucas possuem um nível alto de EMPREGO
E RENDA. Existe apenas uma corcova no gráfico.
- Valores Atípicos: Há alguns valores atípicos de EMPREGO E RENDA atípicos, que
apresentam resultados abaixo de 0,4742, e muitos valores atípicos acima da curva
(0,72208). Esta informação nos diz que existem municípios no Brasil que apresentam
Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva.
Página | 10
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem EMPREGO E RENDA menor do que 0.37608. O EMPREGO E
RENDA médio é de 0,40414 e o desvio-padrão (medida de dispersão) é de 0,15543, que
implica em uma dispersão alta do índice de EMPREGO E RENDA.
3.2.4 VARIÁVEL LIQUIDEZ
O indicador demonstra se o município possui recursos financeiros suficientes para fazer
frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do
que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados,
quanto mais próximo de 1,00, menos o município está postergando pagamentos para o
exercício seguinte sem a devida cobertura
0,980,840,700,560,420,280,140,00
Median
Mean
0,6750,6500,6250,6000,5750,550
1st Q uartile 0,19358Median 0,655783rd Q uartile 0,90601Maximum 1,00000
0,54165 0,56127
0,63410 0,67418
0,36648 0,38035
A -Squared 257,10P-V alue < 0,005
Mean 0,55146StDev 0,37328V ariance 0,13934Skewness -0,32363Kurtosis -1,46781N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for LIQc
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente
assimétrica tendendo levemente para a direita, o que é comum para variáveis que
indiquem desempenho baixo e menores números dentro de toda a distribuição dos
dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling
que indica que a distribuição não pode ser considerada uma Normal. Os valores de
LIQUIDEZ se espalham por todo o gráfico, não tendo um pico dos dados.
Página | 11
- Valores Atípicos: Não existem valores atípicos de LIQUIDEZ visto que a
variabilidade dos dados é tão alta que se distribui uniformemente por todo o gráfico.
Não existe um padrão nesta variável.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem LIQUIDEZ menor do que 0.65578. O LIQUIDEZ médio é de 0,55146 e
o desvio-padrão (medida de dispersão) é de 0,37328, que implica em uma dispersão
absoluta do índice de LIQUIDEZ.
3.2.5 VARIÁVEL H6 - Pessoas que vivem em domicílio que tem densidade de
moradores por dormitório inferior a 2
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,47636Median 0,597653rd Q uartile 0,70782Maximum 1,00000
0,58189 0,59031
0,59273 0,60358
0,15728 0,16323
A -Squared 15,83P-V alue < 0,005
Mean 0,58610StDev 0,16020V ariance 0,02566Skewness -0,400642Kurtosis -0,053800N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende
a ser levemente assimétrica cujo pico concentra-se à direita, o que é comum para
variáveis que indiquem desempenho médio para alto. A curva apresenta algumas
corcovas, o que indica que temos um comportamento atípico da variabilidade sobre os
dados de H6. Os dados se dispersam bastante, e podemos afirmar que a variável H6 tem
alta dispersão em relação aos municípios do Brasil.
- Valores Atípicos: Há muitos valores atípicos de H6, que apresentam resultados abaixo
de 0,12234.
Página | 12
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem H6 menor do que 0.59765. O H6 médio é de 0.58610 e o desvio-padrão
(medida de dispersão) é de 0.16020, que implica em uma dispersão média para H6.
3.2.6 VARIÁVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de
pobreza (R$ 140,00)
0,980,840,700,560,420,280,140,00
Median
Mean
0,320,300,280,260,24
1st Q uartile 0,10855Median 0,252993rd Q uartile 0,50054Maximum 1,00000
0,30468 0,31649
0,24120 0,26571
0,22070 0,22905
A -Squared 154,22P-V alue < 0,005
Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende
a ser levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para
variáveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo
duas altamente acentuadas, a primeira com maior pico e localizada fortemente à
esquerda do gráfico. Indica que o comportamento atípico da variabilidade sobre os
dados de R1. Os dados se dispersam bastante, e podemos afirmar que a variável R1 tem
alta dispersão em relação aos municípios do Brasil.
- Valores Atípicos: Não existem valores atípicos de R1.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem R1 menor do que 0.25299. O R1 médio é de 0.31059 e o desvio-padrão
(medida de dispersão) é de 0.22480, que implica em uma dispersão alta para R1.
Página | 13
3.2.7 VARIÁVEL T1_2 - Taxa de formalização entre os empregados
0,980,840,700,560,420,280,140,00
Median
Mean
0,5850,5800,5750,5700,5650,560
1st Q uartile 0,39398Median 0,576423rd Q uartile 0,73417Maximum 1,00000
0,55838 0,56921
0,56691 0,58531
0,20224 0,20990
A -Squared 41,12P-V alue < 0,005
Mean 0,56380StDev 0,20600V ariance 0,04244Skewness -0,132478Kurtosis -0,993222N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for T12c
As principais observações que podemos fazer são:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição simétrica,
embora o gráfico apresente várias corcovas na sua distribuiçõ. Indica que trata-se de um
desempenho regular. Esta conclusão está comprovada pelo teste de normalidade de
Anderson-Darling que indica que a distribuição pode ser considerada uma Normal.
Muitas cidades possuem um baixo nível de desenvolvimento, muitas cidades possuem
um nível médio de desenvolvimento e muitas possuem um nível alto de
desenvolvimento. Existem várias corcovas no gráfico que nos mostra que existem N
realidades nos dados analisados, ou seja, existem vários tipos de municípios dentro do
Brasil em relação a formalização dos empregos.
- Valores Atípicos: Não existem valores atípicos de T1_2.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem T1_2 menor do que 0.57642. O T1_2 médio é de 0.56380, e o desvio-
padrão (medida de dispersão) é de 0.20600, que implica em uma dispersão grande da
população de T1_2.
Página | 14
3.2.8 VARIÁVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos
0,980,840,700,560,420,280,140,00
Median
Mean
0,0440,0420,0400,0380,036
1st Q uartile 0,01286Median 0,037743rd Q uartile 0,06020Maximum 1,00000
0,04166 0,04391
0,03688 0,03873
0,04206 0,04366
A -Squared 160,61P-V alue < 0,005
Mean 0,04278StDev 0,04285V ariance 0,00184Skewness 4,2578Kurtosis 59,4287N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição
fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que
indiquem desempenho baixo e menores números dentro de toda a distribuição dos
dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling
que indica que a distribuição não pode ser considerada uma Normal. A maior parte das
cidades possui valores baixos de S1_1. Pouca cidades possuem um nível médio de
S1_1 e quase nenhuma possuem um nível alto de S1_1. Existem duas corcovas visíveis
no gráfico. Como trata-se de nascido vivos, o número baixo é bom porque a maioria dos
nascidos vivos sobrevivem após um ano de vida.
- Valores Atípicos: Há alguns valores atípicos de S1_1, que apresentam resultados
acima de 0,13514. Esta informação nos diz que existem municípios no Brasil que
apresentam Taxas de S1_1 acima da curva , ou seja, que o índice de mortalidade é alto.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem S1_1 menor do que 0.03774. O S1_1 médio é de 0.04278 e o desvio-
padrão (medida de dispersão) é de 0.04285, que implica em uma dispersão baixa do
índice de S1_1.
Página | 15
3.2.9 VARIÁVEL E2_4 – Crianças entre 7 e 14 anos que estudam na série correta
segundo sua idade
0,980,840,700,560,420,280,140,00
Median
Mean
0,780,770,760,750,740,73
1st Q uartile 0,62284Median 0,769893rd Q uartile 0,86235Maximum 1,00000
0,72820 0,73680
0,76353 0,77676
0,16065 0,16673
A -Squared 95,44P-V alue < 0,005
Mean 0,73250StDev 0,16363V ariance 0,02677Skewness -0,835199Kurtosis 0,263592N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for E24c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição
fortemente assimétrica tendendo para a direita, o que é comum para variáveis que
indiquem desempenho alto e taxas elevadas. Esta conclusão está comprovada pelo teste
de normalidade de Anderson-Darling que indica que a distribuição não pode ser
considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos
diversas realidades sobre a questão da série correta dos alunos. Os dados se dispersam
muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade
entre a questão do grau correto de idade e escolaridade nos municípios.
- Valores Atípicos: Há muitos valores atípicos de E2_4 atípicos, que apresentam
resultados abaixo de 0,25933 que são as cidades cujas crianças que estão na série
correta
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem E2_4 menor do que 0.76989. O E2_4 médio é de 0.73250 e o desvio-
padrão (medida de dispersão) é de 0.16363, que implica em uma dispersão grande para
a questão.
Página | 16
3.2.10 VARIÁVEL E2_5 – Índice transformado na escala Ideb de proficiência
Português e Matemática Agregado para a quarta série do Ensino Fundamental (5º
ano EF)
0,980,840,700,560,420,280,140,00
Median
Mean
0,36500,36250,36000,35750,3550
1st Q uartile 0,25308Median 0,358753rd Q uartile 0,45732Maximum 1,00000
0,35694 0,36402
0,35423 0,36342
0,13225 0,13725
A -Squared 14,86P-V alue < 0,005
Mean 0,36048StDev 0,13470V ariance 0,01814Skewness 0,282656Kurtosis -0,197569N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for E25c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição
fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que
indiquem desempenho baixo e taxas pequenas. Esta conclusão está comprovada pelo
teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser
considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos
diversas realidades sobre a questão da variabilidade sobre a Nota dos alunos em
português e matemática para 5ª série do ensino fundamental . Os dados se dispersam
muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade
entre a questão da proficiência em português e matemática dos alunos da 5ª série EF nos
municípios.
- Valores Atípicos: Há muitos valores atípicos de E2_5 atípicos, que apresentam
resultados acima de 0,76773.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem E2_5 menor do que 0.35875. O E2_5 médio é de 0.36048 e o desvio-
padrão (medida de dispersão) é de 0.13470, que implica em uma dispersão média para a
questão.
Página | 17
3.2.10 VARIÁVEL E2_6 – Índice transformado na escala Ideb de proficiência em
Português e Matemática Agregado oitava série do Ensino Fundamental (9º ano
EF).
0,980,840,700,560,420,280,140,00
Median
Mean
0,5040,5020,5000,4980,4960,494
1st Q uartile 0,40173Median 0,498553rd Q uartile 0,58982Maximum 1,00000
0,49644 0,50331
0,49365 0,50340
0,12833 0,13319
A -Squared 4,43P-V alue < 0,005
Mean 0,49988StDev 0,13072V ariance 0,01709Skewness 0,135941Kurtosis -0,190667N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for E26c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende
a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que
indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que
temos diversas realidades sobre a questão da variabilidade sobre a Nota dos alunos em
português e matemática para 9ª série do ensino fundamental . Os dados se dispersam
muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade
entre a questão da proficiência em português e matemática dos alunos da 9ª série EF nos
municípios.
- Valores Atípicos: Há muitos valores atípicos de E2_6 atípicos, sendo poucos que
apresentam resultados abaixo de 0.10652 e muitos acima de 0.87197. O desempenho de
proficiência em português e matemática possui um desempenho médio nos municípios
do Brasil.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem E2_6 menor do que 0.49855. O E2_6 médio é de 0.49988 e o desvio-
padrão (medida de dispersão) é de 0.13072, que implica em uma dispersão média para a
questão.
Página | 18
3.3 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRES-SÃO E TESTE QUI-QUADRADO
Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e
seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela
verificação de sua forma, direção e intensidade.
3.3.1 GRÁFICOS DE DISPERSÃO entre variáveis Educação e Emprego e Renda
GRAFH >> SCATTERPLOT >> SIMPLE
A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa
uma “mancha” no gráfico e dificulta a visualização. Uma forma de contornar esta
situação seria selecionar os dados por amostragem, mas neste caso não é aplicado, pois
não existem critérios específicos que garantiriam a fidelidade da amostra em relação à
população.
1,00,80,60,40,20,0
1,0
0,8
0,6
0,4
0,2
0,0
EMP&RENDAc
EDUC
c
Scatterplot of EDUCc vs EMP&RENDAc
Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e
seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela
verificação de sua forma, direção e intensidade.
Página | 19
Direção: Da análise das correlações acima percebemos que quase todas possuem
associações positivas, ou seja, o crescimento de uma variável é acompanhado do
crescimento da outra. O que nos parece é que não há nenhuma associação negativa, ao
menos de evidência visual.
Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora no
ponto mais alto do gráfico os pontos tendem a decair, e perde a característica de uma
reta.
Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora
prejudicado pelo excesso de dados da população (5565 linhas).
Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos, ou seja,
indivíduos ou municípios que possuem seus indicadores de Educação e Emprego e
Renda fora da curva.
3.3.2 LINHAS DE TENDÊNCIAS entre Educação e Emprego e Renda
GRAFH >> SCATTERPLOT >> WITH REGRESSION
1,00,80,60,40,20,0
1,0
0,8
0,6
0,4
0,2
0,0
EMP&RENDAc
EDUC
c
Scatterplot of EDUCc vs EMP&RENDAc
Página | 20
Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.)
existente entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de
tendência.
O gráfico analisado neste caso contém a variável Educação em relação Emprego e
Renda. Podemos afirmar que os pontos estão muito próximos da linha e são
ascendentes, o que nos aponta que o tipo de relação entre as variáveis é linear, embora
existam valores atípicos distribuídos por toda a extensão da reta.
3.3.3 LINHAS DE TENDÊNCIAS entre Educação e H6 (Proporção de pessoas que
vivem em domicílio que tem densidade de moradores por dormitório inferior a 2)
RR
1,00,80,60,40,20,0
1,0
0,8
0,6
0,4
0,2
0,0
H6c
EDUC
c
Scatterplot of EDUCc vs H6c
O segundo gráfico compara a tendência entre as variáveis Educação com H6. Se
compararmos com o gráfico anterior, podemos constatar que a “nuvem de pontos” está
mais concentrada na parte superior que o gráfico anterior. As duas linhas são crescentes,
e concluí-se que quando aumenta o índice de Educação melhora a questão da habitação.
Página | 21
3.3.4 CORRELAÇÃO LINEAR
A matriz de correlação incluí o teste de significância p-value. Para a correlação foi
utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as
variáveis não requer que exista uma relação de causa-efeito entre ambas.
Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho.
STAT >> BASIC STATISTICS >> CORRELATION
Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...
ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783
0,000
EMP&RENDAc 0,526 0,3760,000 0,000
LIQc 0,276 0,233 0,1970,000 0,000 0,000
H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000
R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000
T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000
S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000
E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000
E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000
E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000
Página | 22
R1c T12c S11c E24c E25cT12c -0,782
0,000
S11c 0,140 -0,1120,000 0,000
E24c -0,768 0,599 -0,1280,000 0,000 0,000
E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000
E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000
Cell Contents: Pearson correlationP-Value
A correlação é sempre um número entre zero e um e mede a intensidade de relações
lineares. A correlação entre as variáveis analisadas é positiva em alguns casos e
negativa em outros, mas de fraca intensidade. Os valores mais representativos estão
marcado com verde quando positivos e vermelhos quando negativos. Indica que a
correlação entre estas variáveis é mais intensa. Portanto, podemos afirmar que estas
variáveis possuem relações lineares.
3.3.5 REGRESSÃO DE MÍNIMOS QUADRADOS A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas
variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é
interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão.
Uma reta de regressão resume a relação entre duas variáveis, mas somente em um
contexto específico: quando uma das variáveis ajuda a explicar ou a predizer a outra, ou
seja, a regressão descreve uma relação entre uma variável explanatória e uma variável
resposta.
A regressão linear assume sempre a forma de uma equação linear:
Y = a + bx, sendo:
Página | 23
Y= Variável dependente;
a = uma constante, o intercepto;
b = a inclinação na reta;
x = variável independente ou explicativa.
O “b”, ou seja, a declividade é dada pela multiplicação do índice de correlação pela
divisão dos desvios-padrão entre as variáveis x e y. E “a” é dado pela média de “Y”
menos a multiplicação de “b” pela média de “x”. Assim, percebe-se muito claramente
que a regressão depende da correlação entre as variáveis, além de medidas de centro de
cada uma das variáveis.
Segue abaixo o resultado da regressão entre as variáveis Educação e H6.
Regression Analysis: EDUCc versus H6c
The regression equation isEDUCc = 0,224 + 0,619 H6c
5543 cases used, 22 cases contain missing values
Predictor Coef SE Coef T PConstant 0,223961 0,007637 29,33 0,000H6c 0,61886 0,01256 49,25 0,000
S = 0,149997 R-Sq = 30,4% R-Sq(adj) = 30,4%
Analysis of Variance
Source DF SS MS F PRegression 1 54,579 54,579 2425,81 0,000Residual Error 5541 124,668 0,022Total 5542 179,247
A tabela acima exibe o resultado da fórmula entre as variáveis Educação e H6. Se
substituísse o valor de Educação se chegaria ao valor de H6 esperado. A é a expressão
numérica da reta de tendência que vimos nos itens acima. Esta equação tem um poder
explicativo de 76,4%, que é o R-Quadrado. O valor da constante 0,224 significa que, se
o H6 fosse zero, o valor do Educação seria 0,224.
Página | 24
3.3.6 DENDROGRAMA
Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou
representação icônica que organiza determinados fatores e variáveis. É um diagrama de
similaridade.
A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na
intuição: duas amostras próximas devem ter também valores semelhantes para as
variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço
multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às
amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade
de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade
de todo o conjunto de amostras utilizado no estudo.
Segue abaixo o Dendrograma das variáveis analisadas:
STAT >> MULTIVARIATE >> CLUSTER VARIABLE
S11cR1
cLIQ
c
EMP&
REND
AcH6c
E26c
E25c
E24c
EDUC
cT1
2c
ISDM
c
47,56
65,04
82,52
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
As variáveis ISDM e T1_2 são as que possuem o maior nível de similaridade, por volta
de 90%. As demais variáv eis (Educação, E2_4, E2_5, E2_6 e H6) também são muito
similares, variando até 85%. Já as variáveis Emprego e Renda, Liquidez, R1 e S1_1
encontram-se com baixo nível de similaridade.
Página | 25
3.3.7 RELAÇÕES ENTRE AS VARIÁVEIS CATEGÓRICAS
Para correlacionarmos duas variáveis categóricas, criamos duas colunas categorizadas
com informações sobre dados de S1_1 por quartil, tendo valores que variam de 1 a 4, e
repetimos o processo para a variável R1, com os mesmos valores categóricos.
Os gráficos acima foram gerados a partir das informações dos quartis utilizando a
função Data >> Code >> Numeric to Numeric e colocando os intervalos para geração
das variáveis categóricas. Em seguida foi gerado um Pie Chart através da função Grafh
>> Pie Chart.
Podemos observar que existe um nível de similaridade entre as variáveis categórica de
quartis das variáveis S1_1 e R1. O que difere são os primeiros quartis, pois a variável
S1_1 possui apenas 0,4% dos dados no primeiro quartil, tornando quase imperceptível
no gráfico. O terceiro e quarto quartis das variáveis são bastante semelhantes.
Para analizar a semelhança entre as variáveis categóricas será executada a tabulação
cruzada entre elas.
STAT >> TABLES >> CROSS TABULATION AND CHI SQUARE
Página | 26
Tabulated statistics: S11 Q; R1 Q
Rows: S11 Q Columns: R1 Q
1 2 3 4 All
1 467 434 313 177 13912 428 303 308 356 13953 276 343 369 400 13884 223 308 402 458 1391All 1394 1388 1392 1391 5565
Cell Contents: Count
Pearson Chi-Square = 295,138; DF = 9; P-Value = 0,000Likelihood Ratio Chi-Square = 311,515; DF = 9; P-Value = 0,000
As linhas são representadas por S1_1 e as colunas por R1. Os dados aparecem
distribuídos uniformemente entre cada quartil de uma variável.
Página | 27
3.4 MODELOS DE REGRESSÃO LINEAR MULTIPLOS
3. 4.1 CORRELAÇÃO LINEAR, ANÁLISE DE REGRAÇÃO E STEPWISE
Para o estudo em questão, queremos entender quais variáveis explicam melhor a
variável específica. Para tanto utilizaremos o grupo das variáveis analíticas e sintética,
comparando com a variável Educação.
Inicialmente serão analisadas as correlações lineares entre a variável EDUCAÇÃO com
as variáveis analíticas e sintéticas, relacionadas a este estudo, para verificar quais
variáveis melhor explicam a EDUCAÇÃO.
Página | 28
As correlações significativas de acordo com o P-Value, para este trabalho, será
considerada significativa quando >= 0,70). Apenas as variáveis R1, E2_4 e E2_5
possuem um coeficiente de correlação satisfatoriamente forte com a variável dependente
Educação.
3.4.2 REGRESSÃO: EDUCAÇÃO COM DEMAIS VARIÁVEIS DO ESTUDO
Regression Analysis: EDUCc versus EMP&RENDAc; LIQc; ...
The regression equation is
EDUCc = 0,106 - 0,0151 EMP&RENDAc - 0,0115 LIQc - 0,0969 H6c - 0,137 R1c+ 0,0642 T12c - 0,0409 S11c + 0,482 E24c + 0,391 E25c + 0,127 E26c
5543 cases used, 22 cases contain missing values
Predictor Coef SE Coef T PConstant 0,10618 0,01844 5,76 0,000EMP&RENDAc -0,01513 0,01043 -1,45 0,147LIQc -0,011503 0,003654 -3,15 0,002H6c -0,09691 0,01229 -7,88 0,000R1c -0,13665 0,01431 -9,55 0,000T12c 0,06421 0,01089 5,90 0,000S11c -0,04094 0,03034 -1,35 0,177E24c 0,48233 0,01249 38,60 0,000E25c 0,39061 0,01598 24,45 0,000E26c 0,12733 0,01556 8,18 0,000
S = 0,0954390 R-Sq = 71,9% R-Sq(adj) = 71,8%
Analysis of Variance
Source DF SS MS F PRegression 9 128,849 14,317 1571,76 0,000Residual Error 5533 50,398 0,009Total 5542 179,247
O R-Square é alto = 71,9% e todos os valores Betas da equação apresentam valores
próximos a zero, indicando baixo poder explicativo da variável EDUCAÇÃO. Por
exemplo, a variação de Liquidez leva a uma variação de apenas -0,011503 na
EDUCAÇÃO. O P-value das variáveis possui valore baixo, sendo confiáveis para a
explicação da variável EDUCAÇÃO.
Página | 29
3.4.3 STEPWISE DA EDUCAÇÃO COM FILTRO DOS RESULTADOS
OBTIDOS
A análise STEPWISE demonstra o percentual de composição das variáveis Predictors
na equação da Response.
Stepwise Regression: EDUCc versus ISDMc; EMP&RENDAc; ...
Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is EDUCc on 10 predictors, with N = 5543N(cases with missing observations) = 22 N(all cases) = 5565
Step 1 2 3 4 5 6Constant 0,08629 -0,04107 -0,04138 -0,02602 -0,04702 -0,14311
ISDMc 0,7382 0,4475 0,2729 0,3146 0,2990 0,3800T-Value 93,81 40,29 22,72 24,96 23,51 17,22P-Value 0,000 0,000 0,000 0,000 0,000 0,000
E24c 0,443 0,415 0,435 0,443 0,452T-Value 34,21 34,26 35,76 36,41 36,69P-Value 0,000 0,000 0,000 0,000 0,000
E25c 0,385 0,408 0,346 0,345T-Value 28,72 30,26 21,84 21,83P-Value 0,000 0,000 0,000 0,000
H6c -0,114 -0,127 -0,118T-Value -10,08 -11,16 -10,31P-Value 0,000 0,000 0,000
E26c 0,113 0,119T-Value 7,46 7,86P-Value 0,000 0,000
R1c 0,084T-Value 4,49P-Value 0,000
S 0,112 0,102 0,0948 0,0939 0,0935 0,0933R-Sq 61,36 68,10 72,24 72,74 73,01 73,11R-Sq(adj) 61,36 68,09 72,22 72,72 72,98 73,08Mallows Cp 2425,5 1038,5 188,3 87,2 33,2 15,0
O Próximo passo é calcular a formula utilizando as vaiáveis demonstradas pela função
Stepwise como sendo as que mais explicam a Educação.
Página | 30
STAT >> REGRESSION >> REGRESSION
A fórmula resultante é:
Nesta equação foram utilizadas as variáveis analíticas e sintéticas. Uma outra forma de
se fazer este estudo oseria isolar um primeiro grupo de cálculo utilizando apenas as
variáveis analíticas e um segundo grupo com as variáveis sintéticas.
3.5 COMPARAÇÕES
A estimação e os testes de hipóteses estão relacionados a inferência estatística. A
estimação refere-se a utilizar os dados da amostra para estimar os parâmetros
populacionais desconhecidos, enquanto os testes de hipóteses são utilizados para
verificar a validade destes parâmetros obtidos da amostra em relação aos parâmetros da
população, dado um certo grau de confiança. O teste de hipótese também nos permite
comparar parâmetros de populações distintas de forma a fazermos inferências
estatísticas sobre estas populações. Essencialmente as comparações realizadas nos testes
de hipóteses se valem de testar uma hipótese nula (H0)e uma hipótese alternativa (H1)
estabelecendo-se um grau de confiança em relação a se aceitar ou rejeitar as hipóteses
estabelecidas.
Para realização dos testes de hipóteses pode-se utilizar dois tipos de abordagem:
A do intervalo de confiança na qual se faz o teste objetivando verificar a pertinência de
um parâmetro em um intervalo de valores com certa probabilidade de acerto.
A do teste de significância leva em consideração a probabilidade de cometer-se um erro
do tipo I (rejeitar a hipótese nula quando ela é verdadeira). Para procurar evitar que este
erro aconteça deve-se arbitrar para o teste uma baixa probabilidade de sua ocorrência e
depois comparar com o p-value determinado pelo teste. Assim quando é dito que um
teste é estatisticamente significativo implica rejeitar a hipótese nula.
O presente trabalho propõe a comparação das médias entre as diversas regiões do Brasil,
de acordo com as variáveis deste estudo.
Página | 31
O objetivo é comparar a média dos indicadores e realizar testes de hipóteses das cidades
com maiores índices de desenvolvimento.
3.5.1 – Variável ISDM por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
ISD
Mc
Boxplot of ISDMc
A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais
desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região
Sudeste, e ocupa o segundo lugar.
A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da
Nordeste. Pelo tamanho da caixa do BloxPlot podemo visualizar a amplitude da
variança. Podemos afirmar que os dados da Região Norte possuem maior variabilidade
que os dados das demais regiões. As Regiões que possuem menor variabilidade dos
dados são Centro-Oest e Sul.
Página | 32
One-way ANOVA: ISDMc versus Região
Source DF SS MS F PRegião 4 127,5568 31,8892 2369,00 0,000Error 5560 74,8433 0,0135Total 5564 202,4002
S = 0,1160 R-Sq = 63,02% R-Sq(adj) = 63,00%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,7239 0,0917 (*)Nordeste 1790 0,4997 0,1245 (*)Norte 447 0,4809 0,1709 (*)Sudeste 1669 0,8225 0,1123 *)Sul 1191 0,7992 0,0875 (*)
---+---------+---------+---------+------
0,50 0,60 0,70 0,80
Pooled StDev = 0,1160
O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a
informação é confiável e não existe chance deste valor ser diferente.
Página | 33
3.5.2 Variável EDUCAÇÃO por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
EDUC
c
Boxplot of EDUCc
One-way ANOVA: EDUCc versus Região
Source DF SS MS F PRegião 4 91,8924 22,9731 1456,43 0,000Error 5538 87,3542 0,0158Total 5542 179,2466
S = 0,1256 R-Sq = 51,27% R-Sq(adj) = 51,23%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ---------+---------+---------+---------+Centro-Oeste 464 0,6063 0,1142 (-*)Nordeste 1783 0,4418 0,1302 (*)Norte 445 0,4200 0,1378 (*)Sudeste 1663 0,7360 0,1293 (*)Sul 1188 0,6504 0,1120 (*)
---------+---------+---------+---------+0,50 0,60 0,70 0,80
Pooled StDev = 0,1256
No indicador de Educação, podemos verificar que a Região Sudeste possui o maior
índice de Educação Médio (0,7360), e seguida da Região Sul, e o menor índice é o da
Região Norte (0,4200). A variação entre a média da Região Norte e da Nordeste
(0,4418) é bem pequena.
Página | 34
3.5.3 Variável EMPREGO E RENDA por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
EMP&
REN
DA
c
Boxplot of EMP&RENDAc
One-way ANOVA: EMP&RENDAc versus Região
Source DF SS MS F PRegião 4 17,8396 4,4599 212,84 0,000Error 5538 116,0456 0,0210Total 5542 133,8852
S = 0,1448 R-Sq = 13,32% R-Sq(adj) = 13,26%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev --------+---------+---------+---------+-Centro-Oeste 464 0,4183 0,1391 (---*--)Nordeste 1783 0,3349 0,1290 (-*)Norte 445 0,3416 0,1422 (--*---)Sudeste 1663 0,4496 0,1682 (*-)Sul 1188 0,4624 0,1344 (-*-)
--------+---------+---------+---------+-0,360 0,400 0,440 0,480
Pooled StDev = 0,1448
No indicador de Emprego e Renda, podemos verificar que a Região Sul possui o maior
índice Médio (0,4624), e seguida da Região Sudeste, e o menor índice é o da Região
Nordeste (0,3349). A variação entre a média da Região Norte e da Norte (0,3416) é bem
pequena.
O grau de variação entre as Regiões é baixo (F = 212,84) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
Página | 35
3.5.4 Variável LIQUIDEZ por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
LIQ
c
Boxplot of LIQc
One-way ANOVA: LIQc versus Região
Source DF SS MS F PRegião 4 99,198 24,799 203,94 0,000Error 5560 676,095 0,122Total 5564 775,293
S = 0,3487 R-Sq = 12,79% R-Sq(adj) = 12,73%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,6541 0,3415 (--*---)Nordeste 1790 0,3825 0,3591 (*-)Norte 447 0,5411 0,3846 (--*--)Sudeste 1669 0,5719 0,3564 (*-)Sul 1191 0,7402 0,3084 (-*-)
---+---------+---------+---------+------0,40 0,50 0,60 0,70
Pooled StDev = 0,3487
No indicador de Liquidez, podemos verificar que a Região Sudeste possui o maior
índice Médio (0,5719), e seguida da Região Sul, e o menor índice é o da Região
Nordeste (0,3825).
O grau de variação entre as Regiões é baixo (F = 203,94) e o P-value nos indica que a
informação é confiável e não existe chance deste valor ser diferente.
Página | 36
3.5.5 Variável H6 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
H6c
Boxplot of H6c
One-way ANOVA: H6c versus Região
Source DF SS MS F PRegião 4 73,4530 18,3633 1472,35 0,000Error 5560 69,3446 0,0125Total 5564 142,7976
S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,6321 0,1147 (*)Nordeste 1790 0,4774 0,1044 (*)Norte 447 0,3725 0,1728 (*)Sudeste 1669 0,6421 0,1065 (*)Sul 1191 0,7330 0,0983 (*)
----+---------+---------+---------+-----0,40 0,50 0,60 0,70
Pooled StDev = 0,1117
No indicador H6, podemos verificar que a Região Sul possui o maior índice Médio
(0,7330), e seguida da Região Sudeste, e o menor índice é o da Região Norte (0,3725).
O grau de variação entre as Regiões é alto (F = 1472,35) e o P-value nos indica que a
informação é confiável e não existe chance deste valor ser diferente.
Página | 37
3.5.6 Variável R1 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
R1c
Boxplot of R1c
One-way ANOVA: R1c versus Região
Source DF SS MS F PRegião 4 185,3416 46,3354 2688,34 0,000Error 5560 95,8304 0,0172Total 5564 281,1720
S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89%
Level N Mean StDevCentro-Oeste 468 0,1925 0,1171Nordeste 1790 0,5388 0,1346Norte 447 0,5026 0,1928Sudeste 1669 0,1777 0,1339Sul 1191 0,1281 0,0940
Individual 95% CIs For Mean Based on Pooled StDevLevel +---------+---------+---------+---------Centro-Oeste (*)Nordeste (*)Norte (*)Sudeste (*)Sul (*)
+---------+---------+---------+---------0,12 0,24 0,36 0,48
Pooled StDev = 0,1313
No indicador de R1, podemos verificar que a Região Sul possui o menor índice Médio
(0,1281), e seguida da Região Sudeste, e o maior índice é o da Região Nordeste
(0,5388). Neste caso a informação diz que a Renda é abaixo da linha da pobreza, então
quanto menor melhor. O grau de variação entre as Regiões é baixo (F = 203,94) e o P-
value nos indica que a informação é confiável e não existe chance deste valor ser
diferente.
Página | 38
3.5.7 Variável T1_2 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
T12c
Boxplot of T12c
One-way ANOVA: T12c versus Região
Source DF SS MS F PRegião 4 102,6832 25,6708 1069,67 0,000Error 5560 133,4330 0,0240Total 5564 236,1162
S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev -+---------+---------+---------+--------Centro-Oeste 468 0,5930 0,1337 (*-)Nordeste 1790 0,3928 0,1510 (*)Norte 447 0,4486 0,1542 (-*)Sudeste 1669 0,6581 0,1782 (*)Sul 1191 0,7203 0,1321 (*)
-+---------+---------+---------+--------0,40 0,50 0,60 0,70
Pooled StDev = 0,1549
No indicador T1_2, podemos verificar que a Região Sul possui o maior índice Médio
(0,7203), e seguida da Região Sudeste, e o menor índice é o da Região Nordeste
(0,3928). O grau de variação entre as Regiões é alto (F = 1069,67) e o P-value nos
indica que a informação é confiável e não existe chance deste valor ser diferente.
Página | 39
3.5.8 Variável S1_1 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
S11c
Boxplot of S11c
One-way ANOVA: S11c versus Região
Source DF SS MS F PRegião 4 0,17432 0,04358 24,14 0,000Error 5560 10,03972 0,00181Total 5564 10,21404
S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,04258 0,05074 (-----*----)Nordeste 1790 0,04741 0,03271 (--*--)Norte 447 0,05346 0,04539 (----*-----)Sudeste 1669 0,04080 0,04173 (--*--)Sul 1191 0,03467 0,05104 (---*--)
----+---------+---------+---------+-----0,0350 0,0420 0,0490 0,0560
Pooled StDev = 0,04249
No indicador de S1_1, podemos verificar que a Região Sul possui o menor índice
Médio (0,03467), e seguida da Região Sudeste, e o maior índice é o da Região Norte
(0,5346). Neste caso a informação diz que a mortalidade infantil, então quanto menor
melhor. O grau de variação entre as Regiões é baixo (F = 24,14) e o P-value nos indica
que a informação é confiável e não existe chance deste valor ser diferente.
Página | 40
3.5.9 Variável E2_4 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
E24c
Boxplot of E24c
One-way ANOVA: E24c versus Região
Source DF SS MS F PRegião 4 76,7930 19,1983 1478,82 0,000Error 5560 72,1806 0,0130Total 5564 148,9736
S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,8011 0,0887 (*-)Nordeste 1790 0,5881 0,1298 (*)Norte 447 0,5969 0,1841 (*-)Sudeste 1669 0,8245 0,1017 (*)Sul 1191 0,8444 0,0711 (*)
-------+---------+---------+---------+--0,630 0,700 0,770 0,840
Pooled StDev = 0,1139
As maiores variações de dados encontram-se na Região Norte, seguida da Nordeste, e a
Região que apresenta o mais alto grau de E2_4 é a Sul, Seguida da Sudeste. A região
Sul possui baixa variabilidade dos dados de E2_4. A região com o menor índice de
E2_4 é a Nordeste (0,5881).
Página | 41
3.5.10 Variável E2_5 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
E25c
Boxplot of E25c
One-way ANOVA: E25c versus Região
Source DF SS MS F PRegião 4 57,9393 14,4848 1872,08 0,000Error 5560 43,0193 0,0077Total 5564 100,9586
S = 0,08796 R-Sq = 57,39% R-Sq(adj) = 57,36%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,36291 0,07557 (*)Nordeste 1790 0,23474 0,07661 (*Norte 447 0,27622 0,07793 (*-)Sudeste 1669 0,47709 0,10320 *)Sul 1191 0,41670 0,08878 (*
-------+---------+---------+---------+--0,280 0,350 0,420 0,490
Pooled StDev = 0,08796
VO Índice Brasil de proficiência Português e Matemática (5º ano EF), por Região,
aparece baixo em todo o território nacional, sendo a Região Sudeste a que apresenta o
maior percentual (0,47709), seguida da Região Sul. Este valor demonstra que a
qualidade do ensino no Brasil é baixa e precisa ser melhorada nos próximos anos. Este
dado é muito importante para a Educação nos municípios. A Região que apresenta a
menor nota é a Nordeste (0,23474), seguida da Norte.
Página | 42
3.5.11 Variável E2_6 por Região
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
E26c
Boxplot of E26c
One-way ANOVA: E26c versus Região
Source DF SS MS F PRegião 4 44,54372 11,13593 1225,39 0,000Error 5560 50,52742 0,00909Total 5564 95,07114
S = 0,09533 R-Sq = 46,85% R-Sq(adj) = 46,81%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ------+---------+---------+---------+---Centro-Oeste 468 0,49470 0,08210 (*-)Nordeste 1790 0,38674 0,08935 (*)Norte 447 0,43068 0,08755 (-*)Sudeste 1669 0,58496 0,10269 (*)Sul 1191 0,57868 0,10079 (*)
------+---------+---------+---------+---0,420 0,480 0,540 0,600
Pooled StDev = 0,09533
O índice Brasil de proficiência Português e Matemática (9º ano EF), por Região aparece
baixo em todo o território nacional, sendo a Região Sudeste a que apresenta o maior
percentual (0,58496), seguida da Região Sul. Este valor demonstra que a qualidade do
ensino no Brasil é baixa e precisa ser melhorada nos próximos anos. Este dado é muito
importante para a Educação nos municípios. As Regiões que apresentam as menores
notas são a Nordeste (0,38674) seguida da Norte.
Página | 43
3.6 AMOSTRAGEM
Em Estatística, amostra é o conjunto de elementos extraídos de um conjunto maior,
chamado População. É um conjunto constituído de indivíduos (famílias ou outras
organizações), acontecimentos ou outros objetos de estudo que o investigador pretende
descrever ou para os quais pretende generalizar as suas conclusões ou resultados.
Principais razões para se trabalhar com uma amostra:
- A população é infinita, ou considerada como tal, não podendo portanto ser analisada
na íntegra;
- Custo excessivo do processo de recolha e tratamento dos dados, como resultado da
grande dimensão da população ou da complexidade do processo de caracterização de
todos os elementos da população;
- Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo à
obtenção de informação desatualizada;
- As populações são dinâmicas, de onde resulta que os elementos ou objetos da
população estão em constante renovação, de onde resulta a impossibilidade de analisar
todos os elementos desta população;
- Inacessibilidade a alguns elementos da população, por diversas causas.
Se a constituição da amostra obedecer a determinadas condições, a análise das
características da amostra pode servir para se fazerem inferências sobre a população.
O objetivo deste estudo é gerar as estatísticas com dois tipos de amostras diferentes,
uma contendo 50 linhas e outra contendo 100 linhas, e realizar comparações de
resultados entre as amostras, e com a população (5565 municípios).
A seguir serão apresentadas duas amostras, uma de 50 indivíduos, ou municípios, e
outra composta por 100 indivíduos. Para cada amostra foram efetuadas uma análises
exploratória de dados, as correlações e os dendogramas. As variáveis utilizadas neste
estudo são H6, R1 e S1_1.
Página | 44
3.6.1 VARIAVEL H6
O comando do Minitab para gerar as amostra é:
Calc >> Random Data >> Sample form columns
0,80,60,40,2
Median
Mean
0,620,600,580,560,540,520,50
1st Q uartile 0,42663Median 0,564803rd Q uartile 0,68513Maximum 0,88087
0,50639 0,60616
0,51863 0,61927
0,14662 0,21873
A -Squared 0,34P-V alue 0,472
Mean 0,55628StDev 0,17553V ariance 0,03081Skewness -0,554421Kurtosis 0,278991N 50
Minimum 0,06240
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 50
0,80,60,40,2
Median
Mean
0,620,600,580,560,540,520,50
1st Q uartile 0,42663Median 0,564803rd Q uartile 0,68513Maximum 0,88087
0,50639 0,60616
0,51863 0,61927
0,14662 0,21873
A -Squared 0,34P-V alue 0,472
Mean 0,55628StDev 0,17553V ariance 0,03081Skewness -0,554421Kurtosis 0,278991N 50
Minimum 0,06240
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 50
0,900,750,600,450,300,15
Median
Mean
0,6500,6250,6000,5750,550
1st Q uartile 0,48897Median 0,577503rd Q uartile 0,72555Maximum 0,93764
0,56014 0,62461
0,54093 0,65180
0,14264 0,18872
A -Squared 0,44P-V alue 0,285
Mean 0,59238StDev 0,16246V ariance 0,02639Skewness -0,279333Kurtosis -0,096683N 100
Minimum 0,11251
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 100
0,900,750,600,450,300,15
Median
Mean
0,6500,6250,6000,5750,550
1st Q uartile 0,48897Median 0,577503rd Q uartile 0,72555Maximum 0,93764
0,56014 0,62461
0,54093 0,65180
0,14264 0,18872
A -Squared 0,44P-V alue 0,285
Mean 0,59238StDev 0,16246V ariance 0,02639Skewness -0,279333Kurtosis -0,096683N 100
Minimum 0,11251
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 100
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,47636Median 0,597653rd Q uartile 0,70782Maximum 1,00000
0,58189 0,59031
0,59273 0,60358
0,15728 0,16323
A -Squared 15,83P-V alue < 0,005
Mean 0,58610StDev 0,16020V ariance 0,02566Skewness -0,400642Kurtosis -0,053800N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6c
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,47636Median 0,597653rd Q uartile 0,70782Maximum 1,00000
0,58189 0,59031
0,59273 0,60358
0,15728 0,16323
A -Squared 15,83P-V alue < 0,005
Mean 0,58610StDev 0,16020V ariance 0,02566Skewness -0,400642Kurtosis -0,053800N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6c
Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem
de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565
municípios. A amostragem com 50 perde um pouco das informações sobre as diversas
corcovas da população, já a de 100 consegue ilustrar este fato. Podemos também
comparar as médias dos 3 gráficos, o primeiro com 0,55628, o segundo com 0,59238 e
o terceiro com 0,58610.
Podemos concluir que o trabalho com amostras é muito útil quando a população é muito
grande e não se tem tempo ou recursos financeiros para investir. Existe variabilidade
entre os gráficos, mas não impede na chegada das mesmas conclusões.
Página | 45
3.6.2 VARIAVEL R1
0,80,60,40,20,0
Median
Mean
0,500,450,400,350,30
1st Q uartile 0,13743Median 0,383653rd Q uartile 0,56979Maximum 0,80558
0,31043 0,43946
0,30093 0,48231
0,18964 0,28289
A -Squared 1,02P-V alue 0,010
Mean 0,37494StDev 0,22702V ariance 0,05154Skewness 0,01457Kurtosis -1,28076N 50
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 50
0,80,60,40,20,0
Median
Mean
0,500,450,400,350,30
1st Q uartile 0,13743Median 0,383653rd Q uartile 0,56979Maximum 0,80558
0,31043 0,43946
0,30093 0,48231
0,18964 0,28289
A -Squared 1,02P-V alue 0,010
Mean 0,37494StDev 0,22702V ariance 0,05154Skewness 0,01457Kurtosis -1,28076N 50
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 50
0,750,600,450,300,150,00
Median
Mean
0,350,300,250,200,15
1st Q uartile 0,09184Median 0,216783rd Q uartile 0,56173Maximum 0,77453
0,26055 0,35651
0,14063 0,32504
0,21231 0,28091
A -Squared 5,08P-V alue < 0,005
Mean 0,30853StDev 0,24181V ariance 0,05847Skewness 0,47414Kurtosis -1,35834N 100
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 100
0,750,600,450,300,150,00
Median
Mean
0,350,300,250,200,15
1st Q uartile 0,09184Median 0,216783rd Q uartile 0,56173Maximum 0,77453
0,26055 0,35651
0,14063 0,32504
0,21231 0,28091
A -Squared 5,08P-V alue < 0,005
Mean 0,30853StDev 0,24181V ariance 0,05847Skewness 0,47414Kurtosis -1,35834N 100
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 100
0,980,840,700,560,420,280,140,00
Median
Mean
0,320,300,280,260,24
1st Q uartile 0,10855Median 0,252993rd Q uartile 0,50054Maximum 1,00000
0,30468 0,31649
0,24120 0,26571
0,22070 0,22905
A -Squared 154,22P-V alue < 0,005
Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1c
0,980,840,700,560,420,280,140,00
Median
Mean
0,320,300,280,260,24
1st Q uartile 0,10855Median 0,252993rd Q uartile 0,50054Maximum 1,00000
0,30468 0,31649
0,24120 0,26571
0,22070 0,22905
A -Squared 154,22P-V alue < 0,005
Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1c
Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem
de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565
municípios. Todos os 3 gráficos demonstram o mesmo comportamento da curva, que
contém N corcovas e indica que existe muitas realidades diferentes nos municípios do
Brasil em relação a renda abaixo da pobreza.
Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,37494, o
segundo com 0,30853 e o terceiro com 0,31059. A variação é muito pequena entre as
médias das diversas amostras, o que confirma a sua utilidade e praticidade.
Página | 46
3.6.3 VARIAVEL S1_1
0,080,060,040,020,00
Median
Mean
0,0550,0500,0450,0400,0350,030
1st Q uartile 0,022773Median 0,0447863rd Q uartile 0,060550Maximum 0,094488
0,033201 0,047505
0,029194 0,052019
0,021021 0,031359
A -Squared 0,54P-V alue 0,160
Mean 0,040353StDev 0,025165V ariance 0,000633Skewness -0,057793Kurtosis -0,768251N 50
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 50
0,080,060,040,020,00
Median
Mean
0,0550,0500,0450,0400,0350,030
1st Q uartile 0,022773Median 0,0447863rd Q uartile 0,060550Maximum 0,094488
0,033201 0,047505
0,029194 0,052019
0,021021 0,031359
A -Squared 0,54P-V alue 0,160
Mean 0,040353StDev 0,025165V ariance 0,000633Skewness -0,057793Kurtosis -0,768251N 50
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 50
0,180,150,120,090,060,030,00
Median
Mean
0,05000,04750,04500,04250,04000,03750,0350
1st Q uartile 0,022526Median 0,0422053rd Q uartile 0,060190Maximum 0,183673
0,037350 0,051141
0,034586 0,047411
0,030512 0,040369
A -Squared 1,62P-V alue < 0,005
Mean 0,044245StDev 0,034751V ariance 0,001208Skewness 1,01241Kurtosis 1,88153N 100
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 100
0,180,150,120,090,060,030,00
Median
Mean
0,05000,04750,04500,04250,04000,03750,0350
1st Q uartile 0,022526Median 0,0422053rd Q uartile 0,060190Maximum 0,183673
0,037350 0,051141
0,034586 0,047411
0,030512 0,040369
A -Squared 1,62P-V alue < 0,005
Mean 0,044245StDev 0,034751V ariance 0,001208Skewness 1,01241Kurtosis 1,88153N 100
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 100
0,980,840,700,560,420,280,140,00
Median
Mean
0,0440,0420,0400,0380,036
1st Q uartile 0,01286Median 0,037743rd Q uartile 0,06020Maximum 1,00000
0,04166 0,04391
0,03688 0,03873
0,04206 0,04366
A -Squared 160,61P-V alue < 0,005
Mean 0,04278StDev 0,04285V ariance 0,00184Skewness 4,2578Kurtosis 59,4287N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11c
0,980,840,700,560,420,280,140,00
Median
Mean
0,0440,0420,0400,0380,036
1st Q uartile 0,01286Median 0,037743rd Q uartile 0,06020Maximum 1,00000
0,04166 0,04391
0,03688 0,03873
0,04206 0,04366
A -Squared 160,61P-V alue < 0,005
Mean 0,04278StDev 0,04285V ariance 0,00184Skewness 4,2578Kurtosis 59,4287N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11c
Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem
de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565
municípios. Dos três casos apresentados neste estudo, este exemplo é o que mais perde
em comparação das amostras com a população. A população tende a se concentrar
totalmente à esquerda, o que não ocorreu com a amostra de 50. Já a amostra de 100
ficou mais próxima da população.
Todos os 3 gráficos demonstram o mesmo comportamento da curva, que contém N
corcovas e indica que existe muitas realidades diferentes nos municípios do Brasil em
relação à motalidade infantil
Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,040353, o
segundo com 0,044245 e o terceiro com 0,04278. A variação é muito pequena entre as
médias das diversas amostras, o que confirma a sua utilidade e praticidade.
Página | 47
3.7 ANÁLISE MULTIVARIADA – COMPONENTES PRINCIPAIS
Este estudo efetuará uma análise das correlações e dos componentes principais (análise
multivariada) de dados quantitativos sobre os dados de desenvolvimento dos
Municípios do Brasil. Para tal, iniciamos com análise da estatística descritiva. Em
seguida passamos para a análise das correlações e dendrogramas. Na terceira parte
utilizamos a análise dos componentes principais.
3.7.1 CORRELAÇÃO LINEAR
Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a
correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação
entre as variáveis não requer que exista uma relação de causa-efeito entre ambas.
Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...
ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783
0,000
EMP&RENDAc 0,526 0,3760,000 0,000
LIQc 0,276 0,233 0,1970,000 0,000 0,000
H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000
R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000
T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000
S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000
E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000
E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000
E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000
Página | 48
Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...
(continuação)R1c T12c S11c E24c E25c
T12c -0,7820,000
S11c 0,140 -0,1120,000 0,000
E24c -0,768 0,599 -0,1280,000 0,000 0,000
E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000
E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000
Cell Contents: Pearson correlationP-Value
As correlações significativas de acordo com o P-Value, para este trabalho, será
considerada significativa quando >= 0,70). Apenas as variáveis R1, E2_4 e E2_5
possuem um coeficiente de correlação satisfatoriamente forte com a variável dependente
Educação.
3.7.2 DENDROGRAMA
A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na
intuição: duas amostras próximas devem ter também valores semelhantes para as
variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço
multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às
amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade
de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade
de todo o conjunto de amostras utilizado no estudo.
Página | 49
S11cR1
cLIQ
c
EMP&
REND
AcH6c
E26c
E25c
E24c
EDUC
cT1
2c
ISDM
c
47,56
65,04
82,52
100,00
Variables
Sim
ilari
tyDendrogram
Single Linkage; Correlation Coefficient Distance
As variáveis ISDM e T1_2 são as que possuem o maior nível de similaridade, por volta
de 90%. As demais variáv eis (Educação, E2_4, E2_5, E2_6 e H6) também são muito
similares, variando até 85%. Já as variáveis Emprego e Renda, Liquidez, R1 e S1_1
encontram-se com baixo nível de similaridade.
S11cR1
cLIQ
c
EMP&
REND
AcH6c
E26c
E25c
E24c
EDUC
cT1
2c
ISDM
c
47,56
65,04
82,52
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Página | 50
O Dendrograma acima demonstra um primeiro grupo de dados composto pelas variáveis
ISDM, T!@, Educação, E2_4, E2_5, E2_6 e H6.
As demais variáveis não apresentam similaridade segundo este método, e são
consideradas em diferentes cluster de dados. As variáveis que apresentam menor nível
de similaridade são R1 e S1_1.
3.8.3. PRINCIPAIS COMPONENTES >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S
Eigenanalysis of the Correlation Matrix5543 cases used, 22 cases contain missing values
Eigenvalue 6,0847 1,0073 0,9778 0,8799 0,6198 0,4627 0,3533 0,2379Proportion 0,553 0,092 0,089 0,080 0,056 0,042 0,032 0,022Cumulative 0,553 0,645 0,734 0,814 0,870 0,912 0,944 0,966
Eigenvalue 0,1843 0,1473 0,0451Proportion 0,017 0,013 0,004Cumulative 0,983 0,996 1,000
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8ISDMc 0,385 -0,050 0,015 -0,109 -0,125 -0,092 -0,193 -0,082EDUCc 0,346 0,125 -0,038 -0,097 -0,080 0,548 0,144 -0,051EMP&RENDAc 0,223 -0,619 0,275 -0,247 0,326 -0,173 0,539 -0,028LIQc 0,151 -0,237 0,172 0,935 0,016 0,108 0,032 -0,037H6c 0,302 0,301 -0,128 0,134 -0,280 -0,696 0,253 -0,103R1c -0,382 0,040 -0,019 0,061 0,148 0,141 0,165 0,028T12c 0,325 -0,350 0,155 -0,112 -0,090 -0,030 -0,656 0,020S11c -0,068 0,361 0,921 -0,065 -0,112 -0,009 0,008 -0,009E24c 0,335 0,047 -0,046 -0,042 -0,465 0,331 0,347 0,331E25c 0,326 0,310 -0,049 -0,002 0,418 0,169 0,027 -0,661E26c 0,305 0,314 -0,017 0,061 0,600 -0,082 -0,084 0,656
Variable PC9 PC10 PC11ISDMc -0,026 -0,445 0,755EDUCc -0,716 0,072 -0,078EMP&RENDAc -0,035 0,036 -0,009LIQc -0,022 -0,048 0,030H6c -0,223 0,311 -0,014R1c -0,072 0,599 0,644T12c 0,019 0,538 -0,074S11c -0,003 -0,010 0,006E24c 0,544 0,169 0,033E25c 0,367 0,138 -0,026E26c 0,001 0,010 0,020
Existe um peso muito grande da primeira variável e as demais estão mais distantes. As
variável 2 possuem peso maior que 1, e as variáveis 2 e 3 próximo de 1, as demais
possuem um peso ABAIXO DE 0.6.
A conclusão é que podemos resumir as 11 variáveis em 3 principais variáveis para
efeito de simplificação do trabalho com dados contendo muitas colunas.
Página | 51
1110987654321
6
5
4
3
2
1
0
Component Number
Eige
nval
ueScree Plot of ISDMc; ...; E26c
O gráfico acima demonstra a representatividade das variáveis para o componente, ou o
grau de equivalência. Existe um peso muito grande da primeira variável e as demais
estão bem distantes. As variáveis 2 e 3 possuem peso próximo de 1, e as demais não dá
para aproveitar pois estão abaixo de 1.
0,40,30,20,10,0-0,1-0,2-0,3-0,4
0,50
0,25
0,00
-0,25
-0,50
-0,75
First Component
Seco
nd C
ompo
nent
E26cE25c
E24c
S11c
T12c
R1c
H6c
LIQc
EMP&RENDAc
EDUCc
ISDMc
Loading Plot of ISDMc; ...; E26c
Podemos observar que as variáveis R1 e S1_1 encontram-se isoladas. As demais
variáveis tem certa proximidade. Um grupo bastante visível é composto pelas variáveis
Página | 52
Educação, E2_4, ISDM. Já T1_1, Liquidez e Emprego e Renda apresentam um a certa
distância. O grupo mais próximo está sobreposto. Por eliminação concluímos que é
composto por E2_5, E2_6 e H6.
5-5
0
00
5
10 -520
PC1
PC2
PC3
Centro-OesteNordesteNorteSudesteSul
Região
3D Scatterplot of PC1 vs PC2 vs PC3
O gráfico acima é uma visão multidimensional das variáveis PC1, PC2 e PC3 agrupadas
por região.
5-5
0
00
5
10 -520
PC1
PC2
PC3
MaranhãoMato GrossoMato Grosso do SulMinas GeraisParáParaíbaParanáPernambucoP iauíRio de Janeiro
A cre
Rio Grande do NorteRio Grande do SulRondôniaRoraimaSanta C atarinaSão PauloSergipe
A lagoasA mapáA mazonasBahiaC earáDistrito F ederalEspírito SantoGoiás
UF
3D Scatterplot of PC1 vs PC2 vs PC3
Página | 53
O gráfico acima repete a visão multidimensional das variáveis PC1, PC2 e PC3, agora
agrupadas por estado. Nos dois gráficos a dificuldade de visualização dos dados ocorre
pelo número elevado de indivíduos que compõem a população (5565 municípios).
Pelo resultado das análises da correlação linear, dendograma e principais componentes,
os dados podem ser reduzidos para três variáveis, o que torna o trabalho com os
números mais fáceis e de prático manuseamento.
3.8 ANÁLISE DE CONGLOMERADOS
3.8.1. DENDROGRAMA DA MÉDIA DE DESENVOLVIMENTO POR ESTADO
(-DF)
O Dendrograma permite uma análise do grau de similaridade dos dados para uma
determinada variável. Em seguida geramos o Dendrograma da média de
desenvolvimento dos municípios, agrupado por Estado.
SPSCPRRSGOMTMGESROMSTOCERJPAPIAMRRRNPEMAAPPBALSEBAAC
82,93
88,62
94,31
100,00
Observations
Sim
ilari
ty
DendrogramSingle Linkage; Euclidean Distance
Podemos observar no gráfico acima que existem 2 grandes grupos por similaridade, e
também alguns estados com baixo grau de similaridade (abaixo de 90%).
Página | 54
É possível gerar o gráfico solicitando um número específico de cluster, no caso abaixo
foi solicitado que se gerasse 5 clusters.
SPSCPRRSGOMTMGESROMSTOCERJPAPIAMRRRNPEMAAPPBALSEBAAC
82,93
88,62
94,31
100,00
Observations
Sim
ilari
ty
DendrogramSingle Linkage; Euclidean Distance
Neste caso, os destaques ficaram para os estados AM, PI, PA e RJ, que possuem baixo
nível de similaridade com os demais estados.Podemos concluir que o nível de
desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo
composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o
terceiro pelos estados com baixa similaridade sobre as médias de desenvolvimento dos
municípios.
Página | 55
Brasil Político – Representação dos 3 Brasis, segundo o índice médio de
desenvolvimento dos municípios.
3.8.2. DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO
POR ESTADO (-DF)
Neste exemplo será demonstrado o índice de desigualdade de desenvolvimento dos
municípios do Brasil agrupados por estados. Utilizaremos para isso o desvio padrão
dos índices de desenvolvimento.
AMRRPISPMABASCPRRJMSGORSESMGRNPBMTTOPECEAPROSEALPAAC
85,88
90,59
95,29
100,00
Observations
Sim
ilari
ty
DendrogramSingle Linkage; Euclidean Distance
Foram considerados 2 cluster neste primeiro agrupamento, sendo o primeiro composto
pelos estados do AC e PA, e o segundo pelos demais estados.
Vamos executar novamente com 5 clusters:
Página | 56
AMRRPISPMABASCPRRJMSGORSESMGRNPBMTTOPECEAPROSEALPAAC
85,88
90,59
95,29
100,00
Observations
Sim
ilari
tyDendrogram
Single Linkage; Euclidean Distance
O grau de similaridade dos índices de desigualdade dos estados é muito variado. De um
lado apresenta um grande grupo composto pelos estados em verde, um segundo grupo
pelos estados em rosa, e os demais com baixo nível de similaridade em relação às
desigualdades.
3.8.3. ANÁLISE DAS VARIANCIAS DOS ÍNDICES DE DESENVOLVIMENTO
POR ESTADO (– DF)
A análise das variâncias permite a verificação e visualização das médias e desvios
padrões da variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu
tamanho varia de acordo com a quantidade de dados de cada grupo, e também é possível
visualizar as ocorrências de outliers dentro de um grupo de dados.
Esta primeira análise é do índice médio de Emprego e Renda do municípios do Brasil.
Página | 57
SulSudesteNorteNordesteCentro-Oeste
0,55
0,50
0,45
0,40
0,35
0,30
Regiao2
ERm
Boxplot of ERm
Este gráfico exibe os resultados das médias dos estados, agrupados por região. Podemos
ver que a região Sul é a que possui maior índice médio de desenvolvimento, quase
empatada com a região Sud este. A região que possui o pior desempenho médio de
desenvolvimento é a Nordeste seguido pela Norte.
One-way ANOVA: ERm versus Regiao2
Source DF SS MS F PRegiao2 4 0,08123 0,02031 10,45 0,000Error 21 0,04080 0,00194Total 25 0,12202
S = 0,04408 R-Sq = 66,56% R-Sq(adj) = 60,20%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev --------+---------+---------+---------+-Centro-Oeste 3 0,42490 0,01794 (--------*--------)Nordeste 9 0,33960 0,04282 (----*----)Norte 7 0,35256 0,04002 (-----*-----)Sudeste 4 0,47440 0,06993 (-------*-------)Sul 3 0,46417 0,02453 (-------*--------)
--------+---------+---------+---------+-0,360 0,420 0,480 0,540
Pooled StDev = 0,04408
No resumo descritivo dos dados podemos visualizar os desvios padrões de cada região,
e as médias.
Página | 58
Este segundo gráfico mostra o resulto do índice médio H6, e mostra que a região mais
adiantada em relação à Habitação é a Sul seguida pela Sudeste, e a pior região é a Norte.
SulSudesteNorteNordesteCentro-Oeste
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
Regiao2
H6m
Boxplot of H6m
Podemos observar que os desvios padrões são altos, existe uma grande variação nos dados de habitação entre os municípios das regiões do Brasil.
One-way ANOVA: H6m versus Regiao2
Source DF SS MS F PRegiao2 4 0,46575 0,11644 11,82 0,000Error 21 0,20682 0,00985Total 25 0,67258
S = 0,09924 R-Sq = 69,25% R-Sq(adj) = 63,39%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 3 0,60435 0,07981 (-------*------)Nordeste 9 0,46529 0,05949 (---*---)Norte 7 0,32987 0,15759 (----*---)Sudeste 4 0,61756 0,06723 (------*-----)Sul 3 0,73407 0,03999 (-------*------)
----+---------+---------+---------+-----0,32 0,48 0,64 0,80
Pooled StDev = 0,09924
Boxplot of H6m
Página | 59
3.9 ANÁLISE DISCRIMINANTE
A análise discriminante é uma técnica da estatística multivariada utilizada para
discriminar e classificar objetos. É uma técnica da estatística multivariada que estuda a
separação de objetos de uma população em duas ou mais classes. A discriminação ou
separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se
procurar características capazes de serem utilizadas para alocar objetos em diferentes
grupos previamente definidos. A classificação ou alocação pode ser definida como um
conjunto de regras que serão usadas para alocar novos objetos.
O presente trabalho tem por objetivo efetuar uma análise comparativa de médias,
intervalos de confiança e regressões de dados de indicadores relacionados ao
desenvolvimento humano dos municípios do Brasil. Utilizamos a análise discriminante
para tentar predizer ou explicar os indicadores relacionados ao desenvolvimento da
educação dos municípios do Brasil.
Contudo, a função que separa objetos pode também servir para alocar, e o inverso,
regras que alocam objetos podem ser usadas para separar. Normalmente, discriminação
e classificação se sobrepõem na análise, e a distinção entre separação e alocação é
confusa. O problema da discriminação entre dois ou mais grupos, visando posterior
classificação consiste em obter funções matemáticas capazes de classificar um indivíduo
X (uma observação X) em uma de várias populações, com base em medidas de um
número p de características, buscando minimizar a probabilidade de má classificação.
3.9.1. ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO
A análise discriminante é uma técnica da estatística multivariada utilizada para
discriminar e classificar objetos, e estuda a separação de objetos de uma população em
duas ou mais classes. Neste caso queremos discriminar os indicadores de
desenvolvimento dos municípios do Brasil, e utilizaremos inicialmente a variável
categórica Região.
O comando Minitab para executar esta função e:
STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS
Página | 60
Discriminant Analysis: Região versus ISDMc; EDUCc; ...
Linear Method for Response: Região
Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c;E26c
Group Centro-Oeste Nordeste Norte Sudeste SulCount 464 1783 445 1663 1188
5543 cases used, 21 cases contain missing values
Summary of classification
True GroupPut into Group Centro-Oeste Nordeste Norte Sudeste SulCentro-Oeste 327 53 86 114 237Nordeste 14 1439 73 74 5Norte 28 256 265 23 7Sudeste 30 33 9 1362 104Sul 65 2 12 90 835Total N 464 1783 445 1663 1188N correct 327 1439 265 1362 835Proportion 0,705 0,807 0,596 0,819 0,703
N = 5543 N Correct = 4228 Proportion Correct = 0,763
A região que acertou mais é Sudeste (0,819) e a que errou mais é o Norte (0,596). O
gráfico exibe o cruzamento de dados entre as regiões. Por exemplo, a região Sudeste
possui 1663 municípios e apenas 1362 correspondem a região, sendo que 114 são
semelhantes aos dados da região Centro-Oeste. O nome desta matriz é confusion matrix
ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa
escolha segundo esta avaliação. O percentual correto = 0,763.
3.9.2. ANÁLISE DISCRIMINANTE LINEAR POR “3 BRASIS”
Neste caso queremos discriminar os indicadores de desenvolvimento dos municípios do
Brasil, e utilizaremos a variável categórica Brasis3m, que representa os agrupamentos
segundo a análise anterior do Dendrograma por similaridade dos dados.
Página | 61
Discriminant Analysis: BRA3 versus ISDMc; EDUCc; ...
Linear Method for Response: BRA3
Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c;E26c
Group B1 B2 B3Count 1571 516 3456
5543 cases used, 21 cases contain missing values
Summary of classification
True GroupPut into Group B1 B2 B3B1 1103 128 311B2 316 347 78B3 152 41 3067Total N 1571 516 3456N correct 1103 347 3067Proportion 0,702 0,672 0,887
N = 5543 N Correct = 4517 Proportion Correct = 0,815
O grupo que acertou mais é B3 (0,887) e a que errou mais é o B2 (0,672). O gráfico
exibe o cruzamento de dados entre as classificações de 3Brasis. Por exemplo, o B3
possui 3456 municípios e apenas 3067 correspondem a região, sendo que 311 são
semelhantes aos dados de B1. O nome desta matriz é confusion matrix ou matriz de
confusão. O percentual correto = 0,815. O percentual de acerto para esta análise foi
maior que para o cruzamento dos dados de Regiões do Brasil.
3.9.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”
Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca
probabilidade de má classificação, e para que isso ocorra a regra de classificação deve
considerar as probabilidades a priori e os custos de má classificação. Outro fator que
uma regra de classificação deve considerar é se as variâncias das populações são iguais
ou não. Quando a regra de classificação assume que as variâncias das populações são
iguais, as funções discriminantes são ditas lineares e quando não são funções
discriminantes quadráticas. Vamos agora verificar a função quadrática para 3 Brasis.
Página | 62
Discriminant Analysis: BRA3 versus ISDMc; EDUCc; ...
Quadratic Method for Response: BRA3
Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c;E26c
Group B1 B2 B3Count 1571 516 3456
5543 cases used, 21 cases contain missing values
Summary of classification
True GroupPut into Group B1 B2 B3B1 1176 136 344B2 253 357 104B3 142 23 3008Total N 1571 516 3456N correct 1176 357 3008Proportion 0,749 0,692 0,870
N = 5543 N Correct = 4541 Proportion Correct = 0,819
No modelo quadrático a proporção foi alterada em menos de 1% (de 0,815 para 0,819).
Seguindo o pensamento da simplicidade, vamos escolher o método linear por ser o mais
simples.
A parcimônia é a preferência pela explicação mais simples para uma observação. Esta
geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também
é um conceito utilizado na sistemática moderna que estabelece que ao construir e
selecionar árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus
princípios. Normalmente é correto o relacionamento mais simples encontrado entre dois
indivíduos, aquele que apresente o menor número de passos intermediários ou
mudanças evolucionárias. Portanto a diferença entre o método linear e o quadrático é
pequena e não justifica a utilização do método quadrático.
3.9.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS
Neste exemplo abaixo vamos através do dendrograma pesquisar o grau de similaridade
das variáveis das médias do desenvolvimento dos municípios do Brasil. Com base na
similaridade poderemos definimos agrupamento de dados e após utilizamos a análise
discriminante para verificar a proporção correta dos agrupamentos.
Página | 63
Discriminant Analysis: BRA3m versus ISDMm; EDUm; ...
Linear Method for Response: BRA3m
Predictors: ISDMm; EDUm; ERm; LIQm; H6m; R1m; T12m; S11m; E24m; E25m; E26m
Group B1 B2 B3Count 10 4 12
Summary of classification
True GroupPut into Group B1 B2 B3B1 10 0 0B2 0 4 0B3 0 0 12Total N 10 4 12N correct 10 4 12Proportion 1,000 1,000 1,000
N = 26 N Correct = 26 Proportion Correct = 1,000
Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados
anteriormente pelo agrupamento em 3 Brasis gerou a mesma proporção do método
linear utilizado na análise discriminante.
Página | 64
3.10 REGRESSÃO LOGÍSTICA
A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir
de um conjunto de observações, um modelo que permita a predição de valores tomados
por uma variável categórica, frequentemente binária, a partir de uma série de variáveis
explicativas contínuas e/ou binárias1 2. A regressão logística é amplamente usada em
ciências médicas e sociais, e tem outras denominações, como modelo logístico e
classificador de máxima entropia.
No domínio dos seguros, permite encontrar frações da clientela que sejam sensíveis a
determinada política securitária em relação a um dado risco particular, em instituições
financeiras, pode detectar os grupos de risco para a subscrição de um crédito e em
econometria, permite explicar uma variável discreta, como por exemplo as intenções de
voto em atos eleitorais.
O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que
permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com
as técnicas conhecidas em regressão, em especial a regressão linear, a regressão
logística distingue-se essencialmente pelo fato de a variável resposta ser categórica.
Enquanto método de predição para variáveis categóricas, a regressão logística é
comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores
de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em
estatística exploratória. É possível de as colocar em concorrência para escolha do
modelo mais adaptado para um certo problema preditivo a resolver.
Trata-se de um modelo de regressão para variáveis dependentes ou de resposta
binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer
como função de outros fatores.
O comando no Minitab para esta função é:
Stat >> Regression >> Ordinal Logistical Regression
Página | 65
3.10.1 REGRESSÃO LOGÍSTICA AGRUPADA POR REGIÃO
Ordinal Logistic Regression: Região versus ISDMc; EDUCc; ...
Link Function: Logit
Response Information
Variable Value CountRegião Centro-Oeste 464
Nordeste 1783Norte 445Sudeste 1663Sul 1188Total 5543
* NOTE * 5543 cases were used* NOTE * 21 cases contained missing values
Logistic Regression Table
95% CIPredictor Coef SE Coef Z P Odds Ratio Lower UpperConst(1) -0,378907 0,470639 -0,81 0,421Const(2) 2,17132 0,471726 4,60 0,000Const(3) 2,80501 0,472278 5,94 0,000Const(4) 5,06855 0,475339 10,66 0,000ISDMc 5,85536 0,515717 11,35 0,000 349,10 127,05 959,24EDUCc 2,31275 0,275877 8,38 0,000 10,10 5,88 17,35EMP&RENDAc 0,492270 0,208897 2,36 0,018 1,64 1,09 2,46LIQc -0,272153 0,0729499 -3,73 0,000 0,76 0,66 0,88H6c -2,92579 0,253763 -11,53 0,000 0,05 0,03 0,09R1c 3,33873 0,392890 8,50 0,000 28,18 13,05 60,87T12c -4,37386 0,239328 -18,28 0,000 0,01 0,01 0,02S11c 1,70399 0,603973 2,82 0,005 5,50 1,68 17,95E24c -3,12337 0,282982 -11,04 0,000 0,04 0,03 0,08E25c -2,44403 0,340237 -7,18 0,000 0,09 0,04 0,17E26c -4,53135 0,319598 -14,18 0,000 0,01 0,01 0,02
Log-Likelihood = -6572,791Test that all slopes are zero: G = 3109,585, DF = 11, P-Value = 0,000
Enquanto método de predição para variáveis categóricas, a regressão logística é
comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores
de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em
estatística exploratória. É possível de colocá-la em concorrência para escolha do modelo
mais adaptado para um certo problema preditivo a resolver.
Página | 66
3.10.2 REGRESSÃO LOGÍSTICA AGRUPADA POR “3 BRASIS”
Ordinal Logistic Regression: BRA3 versus ISDMc; EDUCc; ...
Link Function: Logit
Response Information
Variable Value CountBRA3 B1 1571
B2 516B3 3456Total 5543
* NOTE * 5543 cases were used* NOTE * 21 cases contained missing values
Logistic Regression Table
95% CIPredictor Coef SE Coef Z P Odds Ratio Lower UpperConst(1) 2,65987 0,671971 3,96 0,000Const(2) 3,56939 0,673221 5,30 0,000ISDMc 7,69902 0,770984 9,99 0,000 2206,18 486,83 9997,79EDUCc -1,83812 0,386668 -4,75 0,000 0,16 0,07 0,34EMP&RENDAc 2,21654 0,308013 7,20 0,000 9,18 5,02 16,78LIQc -0,290036 0,101651 -2,85 0,004 0,75 0,61 0,91H6c -1,28809 0,354769 -3,63 0,000 0,28 0,14 0,55R1c 4,37424 0,565189 7,74 0,000 79,38 26,22 240,32T12c -2,85037 0,326533 -8,73 0,000 0,06 0,03 0,11S11c 0,406503 0,922617 0,44 0,660 1,50 0,25 9,16E24c -5,10134 0,378476 -13,48 0,000 0,01 0,00 0,01E25c -8,31625 0,552241 -15,06 0,000 0,00 0,00 0,00E26c -3,64449 0,484517 -7,52 0,000 0,03 0,01 0,07
Log-Likelihood = -2913,010Test that all slopes are zero: G = 3851,041, DF = 11, P-Value = 0,000
Comparando os dois exemplos, no primeiro ele executou 4 interações enquanto que para
os 3Brasis apenas duas interações. O valor de G foi aumentado de 3109 para 3851.
Página | 67
3.11 ANÁLISE DE CORRESPONDÊNCIA
Análise de correspondência é uma técnica de análise exploratória de dados adequada
para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em
conta algumas medidas de correspondência entre linhas e colunas. Consiste na
conversão de uma matriz de dados não negativos em um tipo particular de representação
gráfica em que as linhas e colunas da matriz são simultaneamente representadas em
dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as
relações e semelhanças existentes entre as categorias de linhas e entre as categorias de
colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o
conjunto categorias de colunas.
A análise de correspondência mostra como as variáveis dispostas em linhas e colunas
estão relacionadas e não somente se a relação existe. Embora seja considerada uma
técnica descritiva e exploratória, esta análise simplifica dados complexos e produz
análises exaustivas de informações que suportam conclusões a respeito das mesmas.
Possui diversos aspectos que a distingue de outras técnicas de análise de dados. A sua
natureza multivariada permite revelar relações que não seriam detectadas em
comparações aos pares das variáveis. É altamente flexível quanto a pressuposições
sobre os dados: o único requisito é o de uma matriz retangular com entradas não
negativas. É possível transformar qualquer característica quantitativa em qualitativa,
realizando-se uma partição de seu domínio de variação em classes. A análise de
correspondência é mais efetiva se a matriz de dados é bastante grande, de modo que a
inspeção visual ou análise estatística simples não consegue revelar sua estrutura.
Página | 68
3.11.1. ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES DE
DESENVOLVIMENTO
Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado.
Na análise de correspondência será gerado um mapa contendo quais estados estão mais
próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é:
STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS
0,30,20,10,0-0,1-0,2-0,3-0,4-0,5-0,6
0,3
0,2
0,1
0,0
-0,1
-0,2
-0,3
-0,4
-0,5
-0,6
Component 1
Com
pone
nt 2
54
3
2
1
26 2524 2322
2120191817
16151413 1211
109 8765
43 21
Symmetric Plot
O gráfico acima é o resultado da análise de correspondência das médias de
desenvolvimento dos municípios do Brasil, já agrupadas por estado. Os pontos azuis
representam as variáveis 1 - Habitação (H6), 2 - Renda(R1), 3 - Trabalho (T1_2), 4 -
Saude (S1_1) e 5 -Educação (E2_4). Os pontos em vermelho representam os estados do
Brasil.
A variável que encontra-se mais distante do agrupamento é Renda (2) e a que se
encontra mais próxima do agrupamento é a variável Educação (5).
Página | 69
Vamos eliminar a variavel Renda e verificar o resultado.
0,30,20,10,0-0,1-0,2
0,3
0,2
0,1
0,0
-0,1
-0,2
Component 1
Com
pone
nt 2
43
2
1
2625
24 232221 2019
1817
16151413 1211
109 876 5
43 21
Symmetric Plot
Os pontos azuis agora representam as variáveis 1 - Habitação (H6), 2 - Trabalho (T1_2),
3 -Saude (S1_1) e 4 -Educação (E2_4). Os pontos em vermelho representam os estados
do Brasil. Educação continua bem próxima do agrupamento dos dados enquanto a
variável mais distante é habitação.
A análise de correspondência pode ser considerada como um caso especial da análise de
componentes principais (TRABALHO num. 7), porém dirigida a dados categóricos
organizados em tabelas de contingência e não a dados contínuos. O problema é análogo
a encontrar o maior componente principal de um conjunto de I observações e J
variáveis, com modificações devido à ponderação das observações e à métrica
ponderada.
Trata-se de um modelo de regressão para variáveis dependentes ou de resposta
binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer
como função de outros fatores.
Página | 70
3.12 ÁRVORES DE CLASSIFICAÇÃO
3.12.1 ARVORE AGRUPADA POR REGIÃO COM AS MÉDIAS DE
DESENVOLVIMENTO DOS MUNICÍPIOS
Resumo do modelo
Especifica
ções
Método de
crescimento
CHAID
Variável
dependente
Regiao
Variáveis
independentes
ISDMm, EDUm, ERm, H6m,
T12m, E24m, E25m, E26m
Validação Nenhum
Profundidade de
árvore máxima
3
Casos mínimos
em nó pai
2
Casos mínimos
em nó filho
1
Resultado
s
Variáveis
independentes
incluídas
H6m
Número de nós 5
Número de nós
de terminal
4
Profundidade 1
Neste primeiro estudo a árvore de classificação será constituída pelo agrupamento das
variáveis de desenvolvimento utilizadas neste estudo, por região.
Página | 71
A árvore indica que existem 4 nós a partir de H6. O primeiro nó representa os dados
menores que 0,30061, o segundo entre 0,30081 a 0,49658, o terceiro entre 0m49658 e
0,69620 e por fim o último nó cujos valores são maiores que 0,69620.
Posto
Observado Previsto
Centro-Oeste Nordeste Norte Sudeste Sul Porcentagem
Correta
Centro-Oeste 0 0 0 3 0 0,0%
Nordeste 0 8 0 1 0 88,9%
Norte 0 0 5 2 0 71,4%
Sudeste 0 0 0 5 0 100,0%
Sul 0 0 0 0 2 100,0%
Porcentagem global 0,0% 30,8% 19,2% 42,3% 7,7% 76,9%
Método de crescimento: CHAID
Variável dependente: Regiao
O percentual correto é de 76,9%.
Página | 72
3.12.2 ARVORE AGRUPADA POR “3BRASIS” COM OS ÍNDICES DE
DESIGUALDADE (DESVIO PADRÃO)
Resumo do modelo
Especificações
Método de crescimento CHAID
Variável dependente Bra3m
Variáveis independentes H6sd, R1sd, E24sd, E25sd
Validação Nenhum
Profundidade de árvore
máxima
3
Casos mínimos em nó pai 2
Casos mínimos em nó filho 1
Resultados
Variáveis independentes
incluídas
E24sd
Número de nós 4
Número de nós de terminal 3
Profundidade 1
Esta árvore de classificação é um agrupamento dos 3 Brasis com as variáveis que mais
se assemelham segundo os outros estudos. São elas: H6, R1, E24 e E25.
Página | 73
A árvore indica que existem 3 nós a partir de E24. O primeiro nó representa os dados
menores que 4,17800, o segundo entre 4,17800 a 6,57300, e o último nó cujos valores
são maiores que 6,57300.
Posto
Observado Previsto
B1 B2 B3 Porcentagem
Correta
B1 8 2 0 80,0%
B2 0 3 1 75,0%
B3 5 0 7 58,3%
Porcentagem global 50,0% 19,2% 30,8% 69,2%
Método de crescimento: CHAID
Variável dependente: Bra3m