PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL ... · Numérico . Escala convertida para intervalo entre 0 e 1. E2_4 . Percentual de crianças de 7 a 14 anos que estão na

Página | 1

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

FEA - Faculdade de Economia e Administração

Programa de Estudos Pós-Graduados em Administração

PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a habitação, trabalho,

saúde e muito particularmente EDUCAÇÃO

MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA

Professor Dr. Arnoldo Jose de Hoyos

Clarice Santiago

Página | 2

1 – INTRODUÇÃO

O presente trabalho tem por objetivo efetuar diversas análises dos dados da Pesquisa

Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e 2010.

Iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das

variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e

unidades de medida, além da apresentação da tabela de dados.

Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma de

distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com

o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-

plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-

padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling).

Em seguida faremos comparações entre as diversas variáveis analíticas, utilizando

técnicas como relações entre as variáveis, regressões múltiplas, comparações,

amostragem dos dados, análise multivariada, análise de conglomerados, análise

discriminante, regressão logística, análise de correspondência e arvores de classificação.

Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não

existem séries temporais de dados, requisitos para esta técnica.

O software estatístico utilizado é o MINITAB 16. Este trabalho se concentrará nas

diversas variáveis que compõem a pesquisa Firjan/FGV.

2 – OS DADOS

2.1 – OS INDIVÍDUOS

Os indivíduos deste trabalho são compostos pelas médias ponderadas dos indicadores

das dimensões Habitação (H6), Renda (R1), Trabalho (T1_2), Saúde (S1_1) e

Educação (E2_4, E2_5, E2_6), padronizados pela média do Brasil para os diferentes

municípios. Ao todo são 5565 municípios considerados brasileiros, incluindo o Distrito

federal. Os dados analíticos foram extraídos do IBGE, e possibilitam uma comparação

Página | 3

entre os dados colhidos em 2000 com 2010. Neste trabalho concentraremos nossas

análise apenas dos dados referentes à 2010.

O Brasil encontra-se política e geograficamente dividido em cinco regiões distintas, que

possuem traços comuns referentes aos aspectos físicos, humanos, econômicos e

culturais. Os limites de cada região - Norte, Nordeste, Sudeste, Sul e Centro-Oeste -

coincidem sempre com as fronteiras dos Estados que as compõem.

2.2 – AS VARIÁVEIS

As variáveis desta pesquisa incluem os 3 principais índices sintéticos que são ISDM,

IFDM e IFGF, que são médias ponderadas dos dados analíticos globais da pesquisa, e

variáveis analíticas, referente à educação, saúde, renda, emprego e habitação.

Tabela 1. Comparativo entre as Variáveis ISDM e IFDM

Tabela 2. A definição das Variáveis

Variável Significado Tipo Unidade de Medida

REGIÃO Nome da Região do Brasil Texto Na

UF Unidade da Federação Texto Na

MUNICÍPIO Nome do Município Texto Na

Página | 4

ISDM

Índice Social de Desenvolvimento Municipal: Média ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil.

Numérico

Escala convertida para intervalo entre 0 e 1.

EDUCAÇÃO

Média ponderada dos indicadores da dimensão Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela média do Brasil.

Numérico


EMPREGO E RENDA

Geração, estoque e salários médios dos empregos formais (IFDM). Numérico


LIQUIDEZ Índice de liquidez dos municípios. Numérico


H6 Percentual de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2.

Numérico


R1

Numérico


T1_2 Taxa de formalização entre os empregados Numérico


S1_1

Taxa de sobrevivência infantil no primeiro ano de vida, representada pela diferença entre o número de nascidos vivos e o número de óbitos até um ano de idade.

Numérico


E2_4 Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade

Numérico


Página | 5

E2_5

Índice transformado na escala Ideb de proficiência Português e Matemática Agregado para a quarta série do Ensino Fundamental (5º ano EF)

Numérico


E2_6

Índice transformado na escala Ideb de proficiência em Português e Matemática Agregado oitava série do Ensino Fundamental (9º ano EF).

Numérico


3. ANÁLISE DAS VARIÁVEIS

3.1 VARIÁVEIS CATEGÓRICAS

Para este tipo de variável, as pesquisas concentram-se nas análises de gráficos do tipo

pie chart e barras.

3.1.1 Variável: “ESTADO”

Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo

exibe o número de cidades por estado.

A variação no número de cidades por estado é acentuada. Considerando que o Distrito

Federal é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto

o Mato Grosso é o estado que possui o maior número de cidades (852).

3.1.2 Variável: “REGIÃO”

Página | 6

Figura 3. Número de Cidades por Estado e Região do Brasil

Podemos verificar no gráfico acima que a Região Nordeste é a que possui o maior

número de cidades do Brasil (1790) e seguido pela Região Sudeste (1669). A Região

que possui o menor número de cidades é a Norte, com 447 cidades, muito próxima da

Região Centro-Oeste (468). A Região Sul possui 1191 cidades.

Figura 4. Cidades por Região do Brasil

3.2 ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS ANALÍTICAS

Serão analisadas as variáveis separadamente quanto a sua forma de distribuição, os

valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de

gráficos ( histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de

medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de

confiança e teste de normalidade de Anderson-Darling).

Página | 7

3.2.1 VARIÁVEL ISDM

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-

padrão, variância, quantidade de observações, valores mínimos, máximos, informações

dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a

variável ISDM.

0,980,840,700,560,420,280,140,00

Median

Mean

0,730,720,710,700,690,680,67

1st Q uartile 0,53221Median 0,714973rd Q uartile 0,83728Maximum 1,00000

0,67294 0,68297

0,70542 0,72544

0,18725 0,19434

A -Squared 75,76P-V alue < 0,005

Mean 0,67795StDev 0,19073V ariance 0,03638Skewness -0,541209Kurtosis -0,522196N 5565

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev95% Confidence Intervals

Summary for ISDMc

As principais observações que podemos fazer são:

- Forma: O Histograma nos permite verificar que trata-se de uma distribuição

visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem

ganhos, receitas, salários, etc. Esta conclusão está comprovada pelo teste de

normalidade de Anderson-Darling que indica que a distribuição não pode ser

considerada uma Normal. Muitas cidades possuem um baixo nível de desenvolvimento,

muitas cidades possuem um nível médio de desenvolvimento e poucas possuem um

nível alto de desenvolvimento. Existem duas corcovas no gráfico que nos mostra que

existem duas realidades diferentes dentro dos dados analisados, ou seja, existem

tipicamente dois tipos de municípios dentro do Brasil, e cada tipo está em um estágio

diferente de desenvolvimento.

Medidas Numéricas

Histograma e Curva de Densidade

BOXPLOT

Intervalo de confiança

Página | 8

- Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de

0,05767, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA.

- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ISDM menor do que 0,71497. O ISDM médio é de 0,67795, e o desvio-

padrão (medida de dispersão) é de 0,19073, que implica em uma dispersão grande da

população e uma variação grande entre os diversos municípios do Brasil.

3.2.2 VARIÁVEL EDUCAÇÃO

0,980,840,700,560,420,280,140,00

Median

Mean

0,6050,6000,5950,5900,5850,580


0,58205 0,59152

0,58906 0,60242

0,17656 0,18325



Minimum 0,00000





Summary for EDUCc


- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende

a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que

indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que

temos diversas realidades sobre a questão da variabilidade sobre Educação nos

municípios do Brasil. Os dados se dispersam muito, não existe um padrão na questão e

pode-se concluir que existe muita diversidade entre os dados.

- Valores Atípicos: Há muitos valores atípicos de Educação, que apresentam resultados

abaixo de 0,07636. O desempenho Educação é considerado médio nos municípios do

Brasil.

Página | 9


municípios tem Educação menor do que 0,59467. A Educação média é 0,58679 e o

desvio-padrão (medida de dispersão) é de 0,17984, que implica em uma dispersão

média para a questão.

3.2.3 VARIÁVEL EMPREGO E RENDA

0,980,840,700,560,420,280,140,00

Median

Mean

0,410,400,390,380,37


0,40005 0,40823

0,37243 0,38024

0,15259 0,15838


Mean 0,40414StDev 0,15543V ariance 0,02416Skewness 0,88240Kurtosis 1,30951N 5543

Minimum 0,00000





Summary for EMP&RENDAc


fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que

indiquem desempenho baixo e menores números dentro de toda a distribuição dos

dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling

que indica que a distribuição não pode ser considerada uma Normal. A maior parte das

cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um

nível médio de EMPREGO E RENDA e poucas possuem um nível alto de EMPREGO

E RENDA. Existe apenas uma corcova no gráfico.

- Valores Atípicos: Há alguns valores atípicos de EMPREGO E RENDA atípicos, que

apresentam resultados abaixo de 0,4742, e muitos valores atípicos acima da curva

(0,72208). Esta informação nos diz que existem municípios no Brasil que apresentam

Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva.

Página | 10


municípios tem EMPREGO E RENDA menor do que 0.37608. O EMPREGO E

RENDA médio é de 0,40414 e o desvio-padrão (medida de dispersão) é de 0,15543, que

implica em uma dispersão alta do índice de EMPREGO E RENDA.

3.2.4 VARIÁVEL LIQUIDEZ

O indicador demonstra se o município possui recursos financeiros suficientes para fazer

frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do

que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados,

quanto mais próximo de 1,00, menos o município está postergando pagamentos para o

exercício seguinte sem a devida cobertura

0,980,840,700,560,420,280,140,00

Median

Mean

0,6750,6500,6250,6000,5750,550


0,54165 0,56127

0,63410 0,67418

0,36648 0,38035



Minimum 0,00000





Summary for LIQc

- Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente

assimétrica tendendo levemente para a direita, o que é comum para variáveis que



que indica que a distribuição não pode ser considerada uma Normal. Os valores de

LIQUIDEZ se espalham por todo o gráfico, não tendo um pico dos dados.

Página | 11

- Valores Atípicos: Não existem valores atípicos de LIQUIDEZ visto que a

variabilidade dos dados é tão alta que se distribui uniformemente por todo o gráfico.

Não existe um padrão nesta variável.


municípios tem LIQUIDEZ menor do que 0.65578. O LIQUIDEZ médio é de 0,55146 e

o desvio-padrão (medida de dispersão) é de 0,37328, que implica em uma dispersão

absoluta do índice de LIQUIDEZ.

3.2.5 VARIÁVEL H6 - Pessoas que vivem em domicílio que tem densidade de

moradores por dormitório inferior a 2

0,980,840,700,560,420,280,140,00

Median

Mean

0,6050,6000,5950,5900,5850,580


0,58189 0,59031

0,59273 0,60358

0,15728 0,16323



Minimum 0,00000





Summary for H6c


a ser levemente assimétrica cujo pico concentra-se à direita, o que é comum para

variáveis que indiquem desempenho médio para alto. A curva apresenta algumas

corcovas, o que indica que temos um comportamento atípico da variabilidade sobre os

dados de H6. Os dados se dispersam bastante, e podemos afirmar que a variável H6 tem

alta dispersão em relação aos municípios do Brasil.

- Valores Atípicos: Há muitos valores atípicos de H6, que apresentam resultados abaixo

de 0,12234.

Página | 12


municípios tem H6 menor do que 0.59765. O H6 médio é de 0.58610 e o desvio-padrão

(medida de dispersão) é de 0.16020, que implica em uma dispersão média para H6.

3.2.6 VARIÁVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de

pobreza (R$ 140,00)

0,980,840,700,560,420,280,140,00

Median

Mean

0,320,300,280,260,24


0,30468 0,31649

0,24120 0,26571

0,22070 0,22905


Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565

Minimum 0,00000





Summary for R1c


a ser levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para

variáveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo

duas altamente acentuadas, a primeira com maior pico e localizada fortemente à

esquerda do gráfico. Indica que o comportamento atípico da variabilidade sobre os

dados de R1. Os dados se dispersam bastante, e podemos afirmar que a variável R1 tem

alta dispersão em relação aos municípios do Brasil.

- Valores Atípicos: Não existem valores atípicos de R1.


municípios tem R1 menor do que 0.25299. O R1 médio é de 0.31059 e o desvio-padrão

(medida de dispersão) é de 0.22480, que implica em uma dispersão alta para R1.

Página | 13

3.2.7 VARIÁVEL T1_2 - Taxa de formalização entre os empregados

0,980,840,700,560,420,280,140,00

Median

Mean

0,5850,5800,5750,5700,5650,560


0,55838 0,56921

0,56691 0,58531

0,20224 0,20990



Minimum 0,00000





Summary for T12c


- Forma: O Histograma nos permite verificar que trata-se de uma distribuição simétrica,

embora o gráfico apresente várias corcovas na sua distribuiçõ. Indica que trata-se de um

desempenho regular. Esta conclusão está comprovada pelo teste de normalidade de

Anderson-Darling que indica que a distribuição pode ser considerada uma Normal.

Muitas cidades possuem um baixo nível de desenvolvimento, muitas cidades possuem

um nível médio de desenvolvimento e muitas possuem um nível alto de

desenvolvimento. Existem várias corcovas no gráfico que nos mostra que existem N

realidades nos dados analisados, ou seja, existem vários tipos de municípios dentro do

Brasil em relação a formalização dos empregos.

- Valores Atípicos: Não existem valores atípicos de T1_2.


municípios tem T1_2 menor do que 0.57642. O T1_2 médio é de 0.56380, e o desvio-

padrão (medida de dispersão) é de 0.20600, que implica em uma dispersão grande da

população de T1_2.

Página | 14

3.2.8 VARIÁVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos

0,980,840,700,560,420,280,140,00

Median

Mean

0,0440,0420,0400,0380,036


0,04166 0,04391

0,03688 0,03873

0,04206 0,04366



Minimum 0,00000





Summary for S11c





que indica que a distribuição não pode ser considerada uma Normal. A maior parte das

cidades possui valores baixos de S1_1. Pouca cidades possuem um nível médio de

S1_1 e quase nenhuma possuem um nível alto de S1_1. Existem duas corcovas visíveis

no gráfico. Como trata-se de nascido vivos, o número baixo é bom porque a maioria dos

nascidos vivos sobrevivem após um ano de vida.

- Valores Atípicos: Há alguns valores atípicos de S1_1, que apresentam resultados

acima de 0,13514. Esta informação nos diz que existem municípios no Brasil que

apresentam Taxas de S1_1 acima da curva , ou seja, que o índice de mortalidade é alto.


municípios tem S1_1 menor do que 0.03774. O S1_1 médio é de 0.04278 e o desvio-

padrão (medida de dispersão) é de 0.04285, que implica em uma dispersão baixa do

índice de S1_1.

Página | 15

3.2.9 VARIÁVEL E2_4 – Crianças entre 7 e 14 anos que estudam na série correta

segundo sua idade

0,980,840,700,560,420,280,140,00

Median

Mean

0,780,770,760,750,740,73


0,72820 0,73680

0,76353 0,77676

0,16065 0,16673


Mean 0,73250StDev 0,16363V ariance 0,02677Skewness -0,835199Kurtosis 0,263592N 5565

Minimum 0,00000





Summary for E24c


fortemente assimétrica tendendo para a direita, o que é comum para variáveis que

indiquem desempenho alto e taxas elevadas. Esta conclusão está comprovada pelo teste

de normalidade de Anderson-Darling que indica que a distribuição não pode ser

considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos

diversas realidades sobre a questão da série correta dos alunos. Os dados se dispersam

muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade

entre a questão do grau correto de idade e escolaridade nos municípios.

- Valores Atípicos: Há muitos valores atípicos de E2_4 atípicos, que apresentam

resultados abaixo de 0,25933 que são as cidades cujas crianças que estão na série

correta


municípios tem E2_4 menor do que 0.76989. O E2_4 médio é de 0.73250 e o desvio-

padrão (medida de dispersão) é de 0.16363, que implica em uma dispersão grande para

a questão.

Página | 16

3.2.10 VARIÁVEL E2_5 – Índice transformado na escala Ideb de proficiência

Português e Matemática Agregado para a quarta série do Ensino Fundamental (5º

ano EF)

0,980,840,700,560,420,280,140,00

Median

Mean

0,36500,36250,36000,35750,3550


0,35694 0,36402

0,35423 0,36342

0,13225 0,13725



Minimum 0,00000





Summary for E25c



indiquem desempenho baixo e taxas pequenas. Esta conclusão está comprovada pelo

teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser

considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos

diversas realidades sobre a questão da variabilidade sobre a Nota dos alunos em

português e matemática para 5ª série do ensino fundamental . Os dados se dispersam


entre a questão da proficiência em português e matemática dos alunos da 5ª série EF nos

municípios.

- Valores Atípicos: Há muitos valores atípicos de E2_5 atípicos, que apresentam

resultados acima de 0,76773.



padrão (medida de dispersão) é de 0.13470, que implica em uma dispersão média para a

questão.

Página | 17

3.2.10 VARIÁVEL E2_6 – Índice transformado na escala Ideb de proficiência em

Português e Matemática Agregado oitava série do Ensino Fundamental (9º ano

EF).

0,980,840,700,560,420,280,140,00

Median

Mean

0,5040,5020,5000,4980,4960,494


0,49644 0,50331

0,49365 0,50340

0,12833 0,13319



Minimum 0,00000





Summary for E26c


a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que

indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que

temos diversas realidades sobre a questão da variabilidade sobre a Nota dos alunos em

português e matemática para 9ª série do ensino fundamental . Os dados se dispersam


entre a questão da proficiência em português e matemática dos alunos da 9ª série EF nos

municípios.

- Valores Atípicos: Há muitos valores atípicos de E2_6 atípicos, sendo poucos que

apresentam resultados abaixo de 0.10652 e muitos acima de 0.87197. O desempenho de

proficiência em português e matemática possui um desempenho médio nos municípios

do Brasil.



padrão (medida de dispersão) é de 0.13072, que implica em uma dispersão média para a

questão.

Página | 18

3.3 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRES-SÃO E TESTE QUI-QUADRADO

Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e

seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela

verificação de sua forma, direção e intensidade.

3.3.1 GRÁFICOS DE DISPERSÃO entre variáveis Educação e Emprego e Renda

GRAFH >> SCATTERPLOT >> SIMPLE

A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa

uma “mancha” no gráfico e dificulta a visualização. Uma forma de contornar esta

situação seria selecionar os dados por amostragem, mas neste caso não é aplicado, pois

não existem critérios específicos que garantiriam a fidelidade da amostra em relação à

população.

1,00,80,60,40,20,0

1,0

0,8

0,6

0,4

0,2

0,0

EMP&RENDAc

EDUC

c

Scatterplot of EDUCc vs EMP&RENDAc

Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e

seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela

verificação de sua forma, direção e intensidade.

Página | 19

Direção: Da análise das correlações acima percebemos que quase todas possuem

associações positivas, ou seja, o crescimento de uma variável é acompanhado do

crescimento da outra. O que nos parece é que não há nenhuma associação negativa, ao

menos de evidência visual.

Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora no

ponto mais alto do gráfico os pontos tendem a decair, e perde a característica de uma

reta.

Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora

prejudicado pelo excesso de dados da população (5565 linhas).

Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos, ou seja,

indivíduos ou municípios que possuem seus indicadores de Educação e Emprego e

Renda fora da curva.

3.3.2 LINHAS DE TENDÊNCIAS entre Educação e Emprego e Renda

GRAFH >> SCATTERPLOT >> WITH REGRESSION

1,00,80,60,40,20,0

1,0

0,8

0,6

0,4

0,2

0,0

EMP&RENDAc

EDUC

c

Scatterplot of EDUCc vs EMP&RENDAc

Página | 20

Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.)

existente entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de

tendência.

O gráfico analisado neste caso contém a variável Educação em relação Emprego e

Renda. Podemos afirmar que os pontos estão muito próximos da linha e são

ascendentes, o que nos aponta que o tipo de relação entre as variáveis é linear, embora

existam valores atípicos distribuídos por toda a extensão da reta.

3.3.3 LINHAS DE TENDÊNCIAS entre Educação e H6 (Proporção de pessoas que

vivem em domicílio que tem densidade de moradores por dormitório inferior a 2)

RR

1,00,80,60,40,20,0

1,0

0,8

0,6

0,4

0,2

0,0

H6c

EDUC

c

Scatterplot of EDUCc vs H6c

O segundo gráfico compara a tendência entre as variáveis Educação com H6. Se

compararmos com o gráfico anterior, podemos constatar que a “nuvem de pontos” está

mais concentrada na parte superior que o gráfico anterior. As duas linhas são crescentes,

e concluí-se que quando aumenta o índice de Educação melhora a questão da habitação.

Página | 21

3.3.4 CORRELAÇÃO LINEAR

A matriz de correlação incluí o teste de significância p-value. Para a correlação foi

utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as

variáveis não requer que exista uma relação de causa-efeito entre ambas.

Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho.

STAT >> BASIC STATISTICS >> CORRELATION

Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...

ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783

0,000

EMP&RENDAc 0,526 0,3760,000 0,000

LIQc 0,276 0,233 0,1970,000 0,000 0,000

H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000

R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000

T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000

S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000

E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000

E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000

E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000

Página | 22

R1c T12c S11c E24c E25cT12c -0,782

0,000

S11c 0,140 -0,1120,000 0,000

E24c -0,768 0,599 -0,1280,000 0,000 0,000

E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000

E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000

Cell Contents: Pearson correlationP-Value

A correlação é sempre um número entre zero e um e mede a intensidade de relações

lineares. A correlação entre as variáveis analisadas é positiva em alguns casos e

negativa em outros, mas de fraca intensidade. Os valores mais representativos estão

marcado com verde quando positivos e vermelhos quando negativos. Indica que a

correlação entre estas variáveis é mais intensa. Portanto, podemos afirmar que estas

variáveis possuem relações lineares.

3.3.5 REGRESSÃO DE MÍNIMOS QUADRADOS A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas

variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é

interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão.

Uma reta de regressão resume a relação entre duas variáveis, mas somente em um

contexto específico: quando uma das variáveis ajuda a explicar ou a predizer a outra, ou

seja, a regressão descreve uma relação entre uma variável explanatória e uma variável

resposta.

A regressão linear assume sempre a forma de uma equação linear:

Y = a + bx, sendo:

Página | 23

Y= Variável dependente;

a = uma constante, o intercepto;

b = a inclinação na reta;

x = variável independente ou explicativa.

O “b”, ou seja, a declividade é dada pela multiplicação do índice de correlação pela

divisão dos desvios-padrão entre as variáveis x e y. E “a” é dado pela média de “Y”

menos a multiplicação de “b” pela média de “x”. Assim, percebe-se muito claramente

que a regressão depende da correlação entre as variáveis, além de medidas de centro de

cada uma das variáveis.

Segue abaixo o resultado da regressão entre as variáveis Educação e H6.

Regression Analysis: EDUCc versus H6c

The regression equation isEDUCc = 0,224 + 0,619 H6c

5543 cases used, 22 cases contain missing values

Predictor Coef SE Coef T PConstant 0,223961 0,007637 29,33 0,000H6c 0,61886 0,01256 49,25 0,000

S = 0,149997 R-Sq = 30,4% R-Sq(adj) = 30,4%

Analysis of Variance

Source DF SS MS F PRegression 1 54,579 54,579 2425,81 0,000Residual Error 5541 124,668 0,022Total 5542 179,247

A tabela acima exibe o resultado da fórmula entre as variáveis Educação e H6. Se

substituísse o valor de Educação se chegaria ao valor de H6 esperado. A é a expressão

numérica da reta de tendência que vimos nos itens acima. Esta equação tem um poder

explicativo de 76,4%, que é o R-Quadrado. O valor da constante 0,224 significa que, se

o H6 fosse zero, o valor do Educação seria 0,224.

Página | 24

3.3.6 DENDROGRAMA

Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou

representação icônica que organiza determinados fatores e variáveis. É um diagrama de

similaridade.

A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as

variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço

multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às

amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade

de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade

de todo o conjunto de amostras utilizado no estudo.

Segue abaixo o Dendrograma das variáveis analisadas:

STAT >> MULTIVARIATE >> CLUSTER VARIABLE

S11cR1

cLIQ

c

EMP&

REND

AcH6c

E26c

E25c

E24c

EDUC

cT1

2c

ISDM

c

47,56

65,04

82,52

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

As variáveis ISDM e T1_2 são as que possuem o maior nível de similaridade, por volta

de 90%. As demais variáv eis (Educação, E2_4, E2_5, E2_6 e H6) também são muito

similares, variando até 85%. Já as variáveis Emprego e Renda, Liquidez, R1 e S1_1

encontram-se com baixo nível de similaridade.

Página | 25

3.3.7 RELAÇÕES ENTRE AS VARIÁVEIS CATEGÓRICAS

Para correlacionarmos duas variáveis categóricas, criamos duas colunas categorizadas

com informações sobre dados de S1_1 por quartil, tendo valores que variam de 1 a 4, e

repetimos o processo para a variável R1, com os mesmos valores categóricos.

Os gráficos acima foram gerados a partir das informações dos quartis utilizando a

função Data >> Code >> Numeric to Numeric e colocando os intervalos para geração

das variáveis categóricas. Em seguida foi gerado um Pie Chart através da função Grafh

>> Pie Chart.

Podemos observar que existe um nível de similaridade entre as variáveis categórica de

quartis das variáveis S1_1 e R1. O que difere são os primeiros quartis, pois a variável

S1_1 possui apenas 0,4% dos dados no primeiro quartil, tornando quase imperceptível

no gráfico. O terceiro e quarto quartis das variáveis são bastante semelhantes.

Para analizar a semelhança entre as variáveis categóricas será executada a tabulação

cruzada entre elas.

STAT >> TABLES >> CROSS TABULATION AND CHI SQUARE

Página | 26

Tabulated statistics: S11 Q; R1 Q

Rows: S11 Q Columns: R1 Q

1 2 3 4 All

1 467 434 313 177 13912 428 303 308 356 13953 276 343 369 400 13884 223 308 402 458 1391All 1394 1388 1392 1391 5565

Cell Contents: Count

Pearson Chi-Square = 295,138; DF = 9; P-Value = 0,000Likelihood Ratio Chi-Square = 311,515; DF = 9; P-Value = 0,000

As linhas são representadas por S1_1 e as colunas por R1. Os dados aparecem

distribuídos uniformemente entre cada quartil de uma variável.

Página | 27

3.4 MODELOS DE REGRESSÃO LINEAR MULTIPLOS

3. 4.1 CORRELAÇÃO LINEAR, ANÁLISE DE REGRAÇÃO E STEPWISE

Para o estudo em questão, queremos entender quais variáveis explicam melhor a

variável específica. Para tanto utilizaremos o grupo das variáveis analíticas e sintética,

comparando com a variável Educação.

Inicialmente serão analisadas as correlações lineares entre a variável EDUCAÇÃO com

as variáveis analíticas e sintéticas, relacionadas a este estudo, para verificar quais

variáveis melhor explicam a EDUCAÇÃO.

Página | 28

As correlações significativas de acordo com o P-Value, para este trabalho, será

considerada significativa quando >= 0,70). Apenas as variáveis R1, E2_4 e E2_5

possuem um coeficiente de correlação satisfatoriamente forte com a variável dependente

Educação.

3.4.2 REGRESSÃO: EDUCAÇÃO COM DEMAIS VARIÁVEIS DO ESTUDO

Regression Analysis: EDUCc versus EMP&RENDAc; LIQc; ...

The regression equation is

EDUCc = 0,106 - 0,0151 EMP&RENDAc - 0,0115 LIQc - 0,0969 H6c - 0,137 R1c+ 0,0642 T12c - 0,0409 S11c + 0,482 E24c + 0,391 E25c + 0,127 E26c


Predictor Coef SE Coef T PConstant 0,10618 0,01844 5,76 0,000EMP&RENDAc -0,01513 0,01043 -1,45 0,147LIQc -0,011503 0,003654 -3,15 0,002H6c -0,09691 0,01229 -7,88 0,000R1c -0,13665 0,01431 -9,55 0,000T12c 0,06421 0,01089 5,90 0,000S11c -0,04094 0,03034 -1,35 0,177E24c 0,48233 0,01249 38,60 0,000E25c 0,39061 0,01598 24,45 0,000E26c 0,12733 0,01556 8,18 0,000

S = 0,0954390 R-Sq = 71,9% R-Sq(adj) = 71,8%

Analysis of Variance

Source DF SS MS F PRegression 9 128,849 14,317 1571,76 0,000Residual Error 5533 50,398 0,009Total 5542 179,247

O R-Square é alto = 71,9% e todos os valores Betas da equação apresentam valores

próximos a zero, indicando baixo poder explicativo da variável EDUCAÇÃO. Por

exemplo, a variação de Liquidez leva a uma variação de apenas -0,011503 na

EDUCAÇÃO. O P-value das variáveis possui valore baixo, sendo confiáveis para a

explicação da variável EDUCAÇÃO.

Página | 29

3.4.3 STEPWISE DA EDUCAÇÃO COM FILTRO DOS RESULTADOS

OBTIDOS

A análise STEPWISE demonstra o percentual de composição das variáveis Predictors

na equação da Response.

Stepwise Regression: EDUCc versus ISDMc; EMP&RENDAc; ...

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is EDUCc on 10 predictors, with N = 5543N(cases with missing observations) = 22 N(all cases) = 5565

Step 1 2 3 4 5 6Constant 0,08629 -0,04107 -0,04138 -0,02602 -0,04702 -0,14311

ISDMc 0,7382 0,4475 0,2729 0,3146 0,2990 0,3800T-Value 93,81 40,29 22,72 24,96 23,51 17,22P-Value 0,000 0,000 0,000 0,000 0,000 0,000

E24c 0,443 0,415 0,435 0,443 0,452T-Value 34,21 34,26 35,76 36,41 36,69P-Value 0,000 0,000 0,000 0,000 0,000

E25c 0,385 0,408 0,346 0,345T-Value 28,72 30,26 21,84 21,83P-Value 0,000 0,000 0,000 0,000

H6c -0,114 -0,127 -0,118T-Value -10,08 -11,16 -10,31P-Value 0,000 0,000 0,000

E26c 0,113 0,119T-Value 7,46 7,86P-Value 0,000 0,000

R1c 0,084T-Value 4,49P-Value 0,000

S 0,112 0,102 0,0948 0,0939 0,0935 0,0933R-Sq 61,36 68,10 72,24 72,74 73,01 73,11R-Sq(adj) 61,36 68,09 72,22 72,72 72,98 73,08Mallows Cp 2425,5 1038,5 188,3 87,2 33,2 15,0

O Próximo passo é calcular a formula utilizando as vaiáveis demonstradas pela função

Stepwise como sendo as que mais explicam a Educação.

Página | 30

STAT >> REGRESSION >> REGRESSION

A fórmula resultante é:

Nesta equação foram utilizadas as variáveis analíticas e sintéticas. Uma outra forma de

se fazer este estudo oseria isolar um primeiro grupo de cálculo utilizando apenas as

variáveis analíticas e um segundo grupo com as variáveis sintéticas.

3.5 COMPARAÇÕES

A estimação e os testes de hipóteses estão relacionados a inferência estatística. A

estimação refere-se a utilizar os dados da amostra para estimar os parâmetros

populacionais desconhecidos, enquanto os testes de hipóteses são utilizados para

verificar a validade destes parâmetros obtidos da amostra em relação aos parâmetros da

população, dado um certo grau de confiança. O teste de hipótese também nos permite

comparar parâmetros de populações distintas de forma a fazermos inferências

estatísticas sobre estas populações. Essencialmente as comparações realizadas nos testes

de hipóteses se valem de testar uma hipótese nula (H0)e uma hipótese alternativa (H1)

estabelecendo-se um grau de confiança em relação a se aceitar ou rejeitar as hipóteses

estabelecidas.

Para realização dos testes de hipóteses pode-se utilizar dois tipos de abordagem:

A do intervalo de confiança na qual se faz o teste objetivando verificar a pertinência de

um parâmetro em um intervalo de valores com certa probabilidade de acerto.

A do teste de significância leva em consideração a probabilidade de cometer-se um erro

do tipo I (rejeitar a hipótese nula quando ela é verdadeira). Para procurar evitar que este

erro aconteça deve-se arbitrar para o teste uma baixa probabilidade de sua ocorrência e

depois comparar com o p-value determinado pelo teste. Assim quando é dito que um

teste é estatisticamente significativo implica rejeitar a hipótese nula.

O presente trabalho propõe a comparação das médias entre as diversas regiões do Brasil,

de acordo com as variáveis deste estudo.

Página | 31

O objetivo é comparar a média dos indicadores e realizar testes de hipóteses das cidades

com maiores índices de desenvolvimento.

3.5.1 – Variável ISDM por Região

SulSudesteNorteNordesteCentro-Oeste

1,0

0,8

0,6

0,4

0,2

0,0

Região

ISD

Mc

Boxplot of ISDMc

A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais

desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região

Sudeste, e ocupa o segundo lugar.

A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da

Nordeste. Pelo tamanho da caixa do BloxPlot podemo visualizar a amplitude da

variança. Podemos afirmar que os dados da Região Norte possuem maior variabilidade

que os dados das demais regiões. As Regiões que possuem menor variabilidade dos

dados são Centro-Oest e Sul.

Página | 32

One-way ANOVA: ISDMc versus Região

Source DF SS MS F PRegião 4 127,5568 31,8892 2369,00 0,000Error 5560 74,8433 0,0135Total 5564 202,4002

S = 0,1160 R-Sq = 63,02% R-Sq(adj) = 63,00%

Individual 95% CIs For Mean Based onPooled StDev

Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,7239 0,0917 (*)Nordeste 1790 0,4997 0,1245 (*)Norte 447 0,4809 0,1709 (*)Sudeste 1669 0,8225 0,1123 *)Sul 1191 0,7992 0,0875 (*)

---+---------+---------+---------+------

0,50 0,60 0,70 0,80

Pooled StDev = 0,1160

O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a

informação é confiável e não existe chance deste valor ser diferente.

Página | 33

3.5.2 Variável EDUCAÇÃO por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

EDUC

c

Boxplot of EDUCc

One-way ANOVA: EDUCc versus Região


S = 0,1256 R-Sq = 51,27% R-Sq(adj) = 51,23%


Level N Mean StDev ---------+---------+---------+---------+Centro-Oeste 464 0,6063 0,1142 (-*)Nordeste 1783 0,4418 0,1302 (*)Norte 445 0,4200 0,1378 (*)Sudeste 1663 0,7360 0,1293 (*)Sul 1188 0,6504 0,1120 (*)

---------+---------+---------+---------+0,50 0,60 0,70 0,80


No indicador de Educação, podemos verificar que a Região Sudeste possui o maior

índice de Educação Médio (0,7360), e seguida da Região Sul, e o menor índice é o da

Região Norte (0,4200). A variação entre a média da Região Norte e da Nordeste

(0,4418) é bem pequena.

Página | 34

3.5.3 Variável EMPREGO E RENDA por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

EMP&

REN

DA

c

Boxplot of EMP&RENDAc

One-way ANOVA: EMP&RENDAc versus Região


S = 0,1448 R-Sq = 13,32% R-Sq(adj) = 13,26%


Level N Mean StDev --------+---------+---------+---------+-Centro-Oeste 464 0,4183 0,1391 (---*--)Nordeste 1783 0,3349 0,1290 (-*)Norte 445 0,3416 0,1422 (--*---)Sudeste 1663 0,4496 0,1682 (*-)Sul 1188 0,4624 0,1344 (-*-)

--------+---------+---------+---------+-0,360 0,400 0,440 0,480


No indicador de Emprego e Renda, podemos verificar que a Região Sul possui o maior

índice Médio (0,4624), e seguida da Região Sudeste, e o menor índice é o da Região

Nordeste (0,3349). A variação entre a média da Região Norte e da Norte (0,3416) é bem

pequena.

O grau de variação entre as Regiões é baixo (F = 212,84) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.

Página | 35

3.5.4 Variável LIQUIDEZ por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

LIQ

c

Boxplot of LIQc

One-way ANOVA: LIQc versus Região


S = 0,3487 R-Sq = 12,79% R-Sq(adj) = 12,73%


Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,6541 0,3415 (--*---)Nordeste 1790 0,3825 0,3591 (*-)Norte 447 0,5411 0,3846 (--*--)Sudeste 1669 0,5719 0,3564 (*-)Sul 1191 0,7402 0,3084 (-*-)

---+---------+---------+---------+------0,40 0,50 0,60 0,70


No indicador de Liquidez, podemos verificar que a Região Sudeste possui o maior

índice Médio (0,5719), e seguida da Região Sul, e o menor índice é o da Região

Nordeste (0,3825).

O grau de variação entre as Regiões é baixo (F = 203,94) e o P-value nos indica que a


Página | 36

3.5.5 Variável H6 por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

H6c

Boxplot of H6c

One-way ANOVA: H6c versus Região


S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40%


Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,6321 0,1147 (*)Nordeste 1790 0,4774 0,1044 (*)Norte 447 0,3725 0,1728 (*)Sudeste 1669 0,6421 0,1065 (*)Sul 1191 0,7330 0,0983 (*)

----+---------+---------+---------+-----0,40 0,50 0,60 0,70


No indicador H6, podemos verificar que a Região Sul possui o maior índice Médio

(0,7330), e seguida da Região Sudeste, e o menor índice é o da Região Norte (0,3725).

O grau de variação entre as Regiões é alto (F = 1472,35) e o P-value nos indica que a


Página | 37

3.5.6 Variável R1 por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

R1c

Boxplot of R1c

One-way ANOVA: R1c versus Região


S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89%

Level N Mean StDevCentro-Oeste 468 0,1925 0,1171Nordeste 1790 0,5388 0,1346Norte 447 0,5026 0,1928Sudeste 1669 0,1777 0,1339Sul 1191 0,1281 0,0940

Individual 95% CIs For Mean Based on Pooled StDevLevel +---------+---------+---------+---------Centro-Oeste (*)Nordeste (*)Norte (*)Sudeste (*)Sul (*)

+---------+---------+---------+---------0,12 0,24 0,36 0,48


No indicador de R1, podemos verificar que a Região Sul possui o menor índice Médio

(0,1281), e seguida da Região Sudeste, e o maior índice é o da Região Nordeste

(0,5388). Neste caso a informação diz que a Renda é abaixo da linha da pobreza, então

quanto menor melhor. O grau de variação entre as Regiões é baixo (F = 203,94) e o P-

value nos indica que a informação é confiável e não existe chance deste valor ser

diferente.

Página | 38

3.5.7 Variável T1_2 por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

T12c

Boxplot of T12c

One-way ANOVA: T12c versus Região


S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45%


Level N Mean StDev -+---------+---------+---------+--------Centro-Oeste 468 0,5930 0,1337 (*-)Nordeste 1790 0,3928 0,1510 (*)Norte 447 0,4486 0,1542 (-*)Sudeste 1669 0,6581 0,1782 (*)Sul 1191 0,7203 0,1321 (*)

-+---------+---------+---------+--------0,40 0,50 0,60 0,70


No indicador T1_2, podemos verificar que a Região Sul possui o maior índice Médio

(0,7203), e seguida da Região Sudeste, e o menor índice é o da Região Nordeste

(0,3928). O grau de variação entre as Regiões é alto (F = 1069,67) e o P-value nos

indica que a informação é confiável e não existe chance deste valor ser diferente.

Página | 39

3.5.8 Variável S1_1 por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

S11c

Boxplot of S11c

One-way ANOVA: S11c versus Região


S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64%


Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,04258 0,05074 (-----*----)Nordeste 1790 0,04741 0,03271 (--*--)Norte 447 0,05346 0,04539 (----*-----)Sudeste 1669 0,04080 0,04173 (--*--)Sul 1191 0,03467 0,05104 (---*--)

----+---------+---------+---------+-----0,0350 0,0420 0,0490 0,0560


No indicador de S1_1, podemos verificar que a Região Sul possui o menor índice

Médio (0,03467), e seguida da Região Sudeste, e o maior índice é o da Região Norte

(0,5346). Neste caso a informação diz que a mortalidade infantil, então quanto menor

melhor. O grau de variação entre as Regiões é baixo (F = 24,14) e o P-value nos indica

que a informação é confiável e não existe chance deste valor ser diferente.

Página | 40

3.5.9 Variável E2_4 por Região


1,0

0,8

0,6

0,4

0,2

0,0

Região

E24c

Boxplot of E24c

One-way ANOVA: E24c versus Região


S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51%


Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,8011 0,0887 (*-)Nordeste 1790 0,5881 0,1298 (*)Norte 447 0,5969 0,1841 (*-)Sudeste 1669 0,8245 0,1017 (*)Sul 1191 0,8444 0,0711 (*)

-------+---------+---------+---------+--0,630 0,700 0,770 0,840


As maiores variações de dados encontram-se na Região Norte, seguida da Nordeste, e a

Região que apresenta o mais alto grau de E2_4 é a Sul, Seguida da Sudeste. A região

Sul possui baixa variabilidade dos dados de E2_4. A região com o menor índice de

E2_4 é a Nordeste (0,5881).

Página | 41



1,0

0,8

0,6

0,4

0,2

0,0

Região

E25c

Boxplot of E25c



S = 0,08796 R-Sq = 57,39% R-Sq(adj) = 57,36%


Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,36291 0,07557 (*)Nordeste 1790 0,23474 0,07661 (*Norte 447 0,27622 0,07793 (*-)Sudeste 1669 0,47709 0,10320 *)Sul 1191 0,41670 0,08878 (*

-------+---------+---------+---------+--0,280 0,350 0,420 0,490


VO Índice Brasil de proficiência Português e Matemática (5º ano EF), por Região,

aparece baixo em todo o território nacional, sendo a Região Sudeste a que apresenta o

maior percentual (0,47709), seguida da Região Sul. Este valor demonstra que a

qualidade do ensino no Brasil é baixa e precisa ser melhorada nos próximos anos. Este

dado é muito importante para a Educação nos municípios. A Região que apresenta a

menor nota é a Nordeste (0,23474), seguida da Norte.

Página | 42



1,0

0,8

0,6

0,4

0,2

0,0

Região

E26c

Boxplot of E26c



S = 0,09533 R-Sq = 46,85% R-Sq(adj) = 46,81%


Level N Mean StDev ------+---------+---------+---------+---Centro-Oeste 468 0,49470 0,08210 (*-)Nordeste 1790 0,38674 0,08935 (*)Norte 447 0,43068 0,08755 (-*)Sudeste 1669 0,58496 0,10269 (*)Sul 1191 0,57868 0,10079 (*)

------+---------+---------+---------+---0,420 0,480 0,540 0,600


O índice Brasil de proficiência Português e Matemática (9º ano EF), por Região aparece

baixo em todo o território nacional, sendo a Região Sudeste a que apresenta o maior

percentual (0,58496), seguida da Região Sul. Este valor demonstra que a qualidade do

ensino no Brasil é baixa e precisa ser melhorada nos próximos anos. Este dado é muito

importante para a Educação nos municípios. As Regiões que apresentam as menores

notas são a Nordeste (0,38674) seguida da Norte.

Página | 43

3.6 AMOSTRAGEM

Em Estatística, amostra é o conjunto de elementos extraídos de um conjunto maior,

chamado População. É um conjunto constituído de indivíduos (famílias ou outras

organizações), acontecimentos ou outros objetos de estudo que o investigador pretende

descrever ou para os quais pretende generalizar as suas conclusões ou resultados.

Principais razões para se trabalhar com uma amostra:

- A população é infinita, ou considerada como tal, não podendo portanto ser analisada

na íntegra;

- Custo excessivo do processo de recolha e tratamento dos dados, como resultado da

grande dimensão da população ou da complexidade do processo de caracterização de

todos os elementos da população;

- Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo à

obtenção de informação desatualizada;

- As populações são dinâmicas, de onde resulta que os elementos ou objetos da

população estão em constante renovação, de onde resulta a impossibilidade de analisar

todos os elementos desta população;

- Inacessibilidade a alguns elementos da população, por diversas causas.

Se a constituição da amostra obedecer a determinadas condições, a análise das

características da amostra pode servir para se fazerem inferências sobre a população.

O objetivo deste estudo é gerar as estatísticas com dois tipos de amostras diferentes,

uma contendo 50 linhas e outra contendo 100 linhas, e realizar comparações de

resultados entre as amostras, e com a população (5565 municípios).

A seguir serão apresentadas duas amostras, uma de 50 indivíduos, ou municípios, e

outra composta por 100 indivíduos. Para cada amostra foram efetuadas uma análises

exploratória de dados, as correlações e os dendogramas. As variáveis utilizadas neste

estudo são H6, R1 e S1_1.

Página | 44

3.6.1 VARIAVEL H6

O comando do Minitab para gerar as amostra é:

Calc >> Random Data >> Sample form columns

0,80,60,40,2

Median

Mean

0,620,600,580,560,540,520,50


0,50639 0,60616

0,51863 0,61927

0,14662 0,21873

A -Squared 0,34P-V alue 0,472


Minimum 0,06240





Summary for H6 smp 50

0,80,60,40,2

Median

Mean

0,620,600,580,560,540,520,50


0,50639 0,60616

0,51863 0,61927

0,14662 0,21873



Minimum 0,06240






0,900,750,600,450,300,15

Median

Mean

0,6500,6250,6000,5750,550


0,56014 0,62461

0,54093 0,65180

0,14264 0,18872



Minimum 0,11251






0,900,750,600,450,300,15

Median

Mean

0,6500,6250,6000,5750,550


0,56014 0,62461

0,54093 0,65180

0,14264 0,18872



Minimum 0,11251






0,980,840,700,560,420,280,140,00

Median

Mean

0,6050,6000,5950,5900,5850,580


0,58189 0,59031

0,59273 0,60358

0,15728 0,16323



Minimum 0,00000





Summary for H6c

0,980,840,700,560,420,280,140,00

Median

Mean

0,6050,6000,5950,5900,5850,580


0,58189 0,59031

0,59273 0,60358

0,15728 0,16323



Minimum 0,00000





Summary for H6c

Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem

de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565

municípios. A amostragem com 50 perde um pouco das informações sobre as diversas

corcovas da população, já a de 100 consegue ilustrar este fato. Podemos também

comparar as médias dos 3 gráficos, o primeiro com 0,55628, o segundo com 0,59238 e

o terceiro com 0,58610.

Podemos concluir que o trabalho com amostras é muito útil quando a população é muito

grande e não se tem tempo ou recursos financeiros para investir. Existe variabilidade

entre os gráficos, mas não impede na chegada das mesmas conclusões.

Página | 45

3.6.2 VARIAVEL R1

0,80,60,40,20,0

Median

Mean

0,500,450,400,350,30


0,31043 0,43946

0,30093 0,48231

0,18964 0,28289



Minimum 0,01503





Summary for R1 smp 50

0,80,60,40,20,0

Median

Mean

0,500,450,400,350,30


0,31043 0,43946

0,30093 0,48231

0,18964 0,28289



Minimum 0,01503






0,750,600,450,300,150,00

Median

Mean

0,350,300,250,200,15


0,26055 0,35651

0,14063 0,32504

0,21231 0,28091



Minimum 0,01503






0,750,600,450,300,150,00

Median

Mean

0,350,300,250,200,15


0,26055 0,35651

0,14063 0,32504

0,21231 0,28091



Minimum 0,01503






0,980,840,700,560,420,280,140,00

Median

Mean

0,320,300,280,260,24


0,30468 0,31649

0,24120 0,26571

0,22070 0,22905



Minimum 0,00000





Summary for R1c

0,980,840,700,560,420,280,140,00

Median

Mean

0,320,300,280,260,24


0,30468 0,31649

0,24120 0,26571

0,22070 0,22905



Minimum 0,00000





Summary for R1c



municípios. Todos os 3 gráficos demonstram o mesmo comportamento da curva, que

contém N corcovas e indica que existe muitas realidades diferentes nos municípios do

Brasil em relação a renda abaixo da pobreza.

Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,37494, o

segundo com 0,30853 e o terceiro com 0,31059. A variação é muito pequena entre as

médias das diversas amostras, o que confirma a sua utilidade e praticidade.

Página | 46

3.6.3 VARIAVEL S1_1

0,080,060,040,020,00

Median

Mean

0,0550,0500,0450,0400,0350,030


0,033201 0,047505

0,029194 0,052019

0,021021 0,031359



Minimum 0,000000





Summary for S11 smp 50

0,080,060,040,020,00

Median

Mean

0,0550,0500,0450,0400,0350,030


0,033201 0,047505

0,029194 0,052019

0,021021 0,031359



Minimum 0,000000






0,180,150,120,090,060,030,00

Median

Mean

0,05000,04750,04500,04250,04000,03750,0350


0,037350 0,051141

0,034586 0,047411

0,030512 0,040369



Minimum 0,000000






0,180,150,120,090,060,030,00

Median

Mean

0,05000,04750,04500,04250,04000,03750,0350


0,037350 0,051141

0,034586 0,047411

0,030512 0,040369



Minimum 0,000000






0,980,840,700,560,420,280,140,00

Median

Mean

0,0440,0420,0400,0380,036


0,04166 0,04391

0,03688 0,03873

0,04206 0,04366



Minimum 0,00000





Summary for S11c

0,980,840,700,560,420,280,140,00

Median

Mean

0,0440,0420,0400,0380,036


0,04166 0,04391

0,03688 0,03873

0,04206 0,04366



Minimum 0,00000





Summary for S11c



municípios. Dos três casos apresentados neste estudo, este exemplo é o que mais perde

em comparação das amostras com a população. A população tende a se concentrar

totalmente à esquerda, o que não ocorreu com a amostra de 50. Já a amostra de 100

ficou mais próxima da população.

Todos os 3 gráficos demonstram o mesmo comportamento da curva, que contém N

corcovas e indica que existe muitas realidades diferentes nos municípios do Brasil em

relação à motalidade infantil

Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,040353, o

segundo com 0,044245 e o terceiro com 0,04278. A variação é muito pequena entre as

médias das diversas amostras, o que confirma a sua utilidade e praticidade.

Página | 47

3.7 ANÁLISE MULTIVARIADA – COMPONENTES PRINCIPAIS

Este estudo efetuará uma análise das correlações e dos componentes principais (análise

multivariada) de dados quantitativos sobre os dados de desenvolvimento dos

Municípios do Brasil. Para tal, iniciamos com análise da estatística descritiva. Em

seguida passamos para a análise das correlações e dendrogramas. Na terceira parte

utilizamos a análise dos componentes principais.

3.7.1 CORRELAÇÃO LINEAR

Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a

correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação

entre as variáveis não requer que exista uma relação de causa-efeito entre ambas.


ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783

0,000

EMP&RENDAc 0,526 0,3760,000 0,000

LIQc 0,276 0,233 0,1970,000 0,000 0,000

H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000

R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000

T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000

S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000

E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000

E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000

E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000

Página | 48


(continuação)R1c T12c S11c E24c E25c

T12c -0,7820,000

S11c 0,140 -0,1120,000 0,000

E24c -0,768 0,599 -0,1280,000 0,000 0,000

E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000

E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000

Cell Contents: Pearson correlationP-Value

As correlações significativas de acordo com o P-Value, para este trabalho, será

considerada significativa quando >= 0,70). Apenas as variáveis R1, E2_4 e E2_5

possuem um coeficiente de correlação satisfatoriamente forte com a variável dependente

Educação.

3.7.2 DENDROGRAMA

A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as

variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço

multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às

amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade

de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade

de todo o conjunto de amostras utilizado no estudo.

Página | 49

S11cR1

cLIQ

c

EMP&

REND

AcH6c

E26c

E25c

E24c

EDUC

cT1

2c

ISDM

c

47,56

65,04

82,52

100,00

Variables

Sim

ilari

tyDendrogram

Single Linkage; Correlation Coefficient Distance

As variáveis ISDM e T1_2 são as que possuem o maior nível de similaridade, por volta

de 90%. As demais variáv eis (Educação, E2_4, E2_5, E2_6 e H6) também são muito

similares, variando até 85%. Já as variáveis Emprego e Renda, Liquidez, R1 e S1_1

encontram-se com baixo nível de similaridade.

S11cR1

cLIQ

c

EMP&

REND

AcH6c

E26c

E25c

E24c

EDUC

cT1

2c

ISDM

c

47,56

65,04

82,52

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

Página | 50

O Dendrograma acima demonstra um primeiro grupo de dados composto pelas variáveis

ISDM, T!@, Educação, E2_4, E2_5, E2_6 e H6.

As demais variáveis não apresentam similaridade segundo este método, e são

consideradas em diferentes cluster de dados. As variáveis que apresentam menor nível

de similaridade são R1 e S1_1.

3.8.3. PRINCIPAIS COMPONENTES >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S

Eigenanalysis of the Correlation Matrix5543 cases used, 22 cases contain missing values

Eigenvalue 6,0847 1,0073 0,9778 0,8799 0,6198 0,4627 0,3533 0,2379Proportion 0,553 0,092 0,089 0,080 0,056 0,042 0,032 0,022Cumulative 0,553 0,645 0,734 0,814 0,870 0,912 0,944 0,966

Eigenvalue 0,1843 0,1473 0,0451Proportion 0,017 0,013 0,004Cumulative 0,983 0,996 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8ISDMc 0,385 -0,050 0,015 -0,109 -0,125 -0,092 -0,193 -0,082EDUCc 0,346 0,125 -0,038 -0,097 -0,080 0,548 0,144 -0,051EMP&RENDAc 0,223 -0,619 0,275 -0,247 0,326 -0,173 0,539 -0,028LIQc 0,151 -0,237 0,172 0,935 0,016 0,108 0,032 -0,037H6c 0,302 0,301 -0,128 0,134 -0,280 -0,696 0,253 -0,103R1c -0,382 0,040 -0,019 0,061 0,148 0,141 0,165 0,028T12c 0,325 -0,350 0,155 -0,112 -0,090 -0,030 -0,656 0,020S11c -0,068 0,361 0,921 -0,065 -0,112 -0,009 0,008 -0,009E24c 0,335 0,047 -0,046 -0,042 -0,465 0,331 0,347 0,331E25c 0,326 0,310 -0,049 -0,002 0,418 0,169 0,027 -0,661E26c 0,305 0,314 -0,017 0,061 0,600 -0,082 -0,084 0,656

Variable PC9 PC10 PC11ISDMc -0,026 -0,445 0,755EDUCc -0,716 0,072 -0,078EMP&RENDAc -0,035 0,036 -0,009LIQc -0,022 -0,048 0,030H6c -0,223 0,311 -0,014R1c -0,072 0,599 0,644T12c 0,019 0,538 -0,074S11c -0,003 -0,010 0,006E24c 0,544 0,169 0,033E25c 0,367 0,138 -0,026E26c 0,001 0,010 0,020

Existe um peso muito grande da primeira variável e as demais estão mais distantes. As

variável 2 possuem peso maior que 1, e as variáveis 2 e 3 próximo de 1, as demais

possuem um peso ABAIXO DE 0.6.

A conclusão é que podemos resumir as 11 variáveis em 3 principais variáveis para

efeito de simplificação do trabalho com dados contendo muitas colunas.

Página | 51

1110987654321

6

5

4

3

2

1

0

Component Number

Eige

nval

ueScree Plot of ISDMc; ...; E26c

O gráfico acima demonstra a representatividade das variáveis para o componente, ou o

grau de equivalência. Existe um peso muito grande da primeira variável e as demais

estão bem distantes. As variáveis 2 e 3 possuem peso próximo de 1, e as demais não dá

para aproveitar pois estão abaixo de 1.

0,40,30,20,10,0-0,1-0,2-0,3-0,4

0,50

0,25

0,00

-0,25

-0,50

-0,75

First Component

Seco

nd C

ompo

nent

E26cE25c

E24c

S11c

T12c

R1c

H6c

LIQc

EMP&RENDAc

EDUCc

ISDMc

Loading Plot of ISDMc; ...; E26c

Podemos observar que as variáveis R1 e S1_1 encontram-se isoladas. As demais

variáveis tem certa proximidade. Um grupo bastante visível é composto pelas variáveis

Página | 52

Educação, E2_4, ISDM. Já T1_1, Liquidez e Emprego e Renda apresentam um a certa

distância. O grupo mais próximo está sobreposto. Por eliminação concluímos que é

composto por E2_5, E2_6 e H6.

5-5

0

00

5

10 -520

PC1

PC2

PC3

Centro-OesteNordesteNorteSudesteSul

Região

3D Scatterplot of PC1 vs PC2 vs PC3

O gráfico acima é uma visão multidimensional das variáveis PC1, PC2 e PC3 agrupadas

por região.

5-5

0

00

5

10 -520

PC1

PC2

PC3

MaranhãoMato GrossoMato Grosso do SulMinas GeraisParáParaíbaParanáPernambucoP iauíRio de Janeiro

A cre

Rio Grande do NorteRio Grande do SulRondôniaRoraimaSanta C atarinaSão PauloSergipe

A lagoasA mapáA mazonasBahiaC earáDistrito F ederalEspírito SantoGoiás

UF

3D Scatterplot of PC1 vs PC2 vs PC3

Página | 53

O gráfico acima repete a visão multidimensional das variáveis PC1, PC2 e PC3, agora

agrupadas por estado. Nos dois gráficos a dificuldade de visualização dos dados ocorre

pelo número elevado de indivíduos que compõem a população (5565 municípios).

Pelo resultado das análises da correlação linear, dendograma e principais componentes,

os dados podem ser reduzidos para três variáveis, o que torna o trabalho com os

números mais fáceis e de prático manuseamento.

3.8 ANÁLISE DE CONGLOMERADOS

3.8.1. DENDROGRAMA DA MÉDIA DE DESENVOLVIMENTO POR ESTADO

(-DF)

O Dendrograma permite uma análise do grau de similaridade dos dados para uma

determinada variável. Em seguida geramos o Dendrograma da média de

desenvolvimento dos municípios, agrupado por Estado.

SPSCPRRSGOMTMGESROMSTOCERJPAPIAMRRRNPEMAAPPBALSEBAAC

82,93

88,62

94,31

100,00

Observations

Sim

ilari

ty

DendrogramSingle Linkage; Euclidean Distance

Podemos observar no gráfico acima que existem 2 grandes grupos por similaridade, e

também alguns estados com baixo grau de similaridade (abaixo de 90%).

Página | 54

É possível gerar o gráfico solicitando um número específico de cluster, no caso abaixo

foi solicitado que se gerasse 5 clusters.

SPSCPRRSGOMTMGESROMSTOCERJPAPIAMRRRNPEMAAPPBALSEBAAC

82,93

88,62

94,31

100,00

Observations

Sim

ilari

ty


Neste caso, os destaques ficaram para os estados AM, PI, PA e RJ, que possuem baixo

nível de similaridade com os demais estados.Podemos concluir que o nível de

desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo

composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o

terceiro pelos estados com baixa similaridade sobre as médias de desenvolvimento dos

municípios.

Página | 55

Brasil Político – Representação dos 3 Brasis, segundo o índice médio de

desenvolvimento dos municípios.

3.8.2. DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO

POR ESTADO (-DF)

Neste exemplo será demonstrado o índice de desigualdade de desenvolvimento dos

municípios do Brasil agrupados por estados. Utilizaremos para isso o desvio padrão

dos índices de desenvolvimento.

AMRRPISPMABASCPRRJMSGORSESMGRNPBMTTOPECEAPROSEALPAAC

85,88

90,59

95,29

100,00

Observations

Sim

ilari

ty


Foram considerados 2 cluster neste primeiro agrupamento, sendo o primeiro composto

pelos estados do AC e PA, e o segundo pelos demais estados.

Vamos executar novamente com 5 clusters:

Página | 56

AMRRPISPMABASCPRRJMSGORSESMGRNPBMTTOPECEAPROSEALPAAC

85,88

90,59

95,29

100,00

Observations

Sim

ilari

tyDendrogram

Single Linkage; Euclidean Distance

O grau de similaridade dos índices de desigualdade dos estados é muito variado. De um

lado apresenta um grande grupo composto pelos estados em verde, um segundo grupo

pelos estados em rosa, e os demais com baixo nível de similaridade em relação às

desigualdades.

3.8.3. ANÁLISE DAS VARIANCIAS DOS ÍNDICES DE DESENVOLVIMENTO

POR ESTADO (– DF)

A análise das variâncias permite a verificação e visualização das médias e desvios

padrões da variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu

tamanho varia de acordo com a quantidade de dados de cada grupo, e também é possível

visualizar as ocorrências de outliers dentro de um grupo de dados.

Esta primeira análise é do índice médio de Emprego e Renda do municípios do Brasil.

Página | 57


0,55

0,50

0,45

0,40

0,35

0,30

Regiao2

ERm

Boxplot of ERm

Este gráfico exibe os resultados das médias dos estados, agrupados por região. Podemos

ver que a região Sul é a que possui maior índice médio de desenvolvimento, quase

empatada com a região Sud este. A região que possui o pior desempenho médio de

desenvolvimento é a Nordeste seguido pela Norte.

One-way ANOVA: ERm versus Regiao2

Source DF SS MS F PRegiao2 4 0,08123 0,02031 10,45 0,000Error 21 0,04080 0,00194Total 25 0,12202

S = 0,04408 R-Sq = 66,56% R-Sq(adj) = 60,20%


Level N Mean StDev --------+---------+---------+---------+-Centro-Oeste 3 0,42490 0,01794 (--------*--------)Nordeste 9 0,33960 0,04282 (----*----)Norte 7 0,35256 0,04002 (-----*-----)Sudeste 4 0,47440 0,06993 (-------*-------)Sul 3 0,46417 0,02453 (-------*--------)

--------+---------+---------+---------+-0,360 0,420 0,480 0,540


No resumo descritivo dos dados podemos visualizar os desvios padrões de cada região,

e as médias.

Página | 58

Este segundo gráfico mostra o resulto do índice médio H6, e mostra que a região mais

adiantada em relação à Habitação é a Sul seguida pela Sudeste, e a pior região é a Norte.


0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

Regiao2

H6m

Boxplot of H6m

Podemos observar que os desvios padrões são altos, existe uma grande variação nos dados de habitação entre os municípios das regiões do Brasil.

One-way ANOVA: H6m versus Regiao2

Source DF SS MS F PRegiao2 4 0,46575 0,11644 11,82 0,000Error 21 0,20682 0,00985Total 25 0,67258

S = 0,09924 R-Sq = 69,25% R-Sq(adj) = 63,39%


Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 3 0,60435 0,07981 (-------*------)Nordeste 9 0,46529 0,05949 (---*---)Norte 7 0,32987 0,15759 (----*---)Sudeste 4 0,61756 0,06723 (------*-----)Sul 3 0,73407 0,03999 (-------*------)

----+---------+---------+---------+-----0,32 0,48 0,64 0,80


Boxplot of H6m

Página | 59

3.9 ANÁLISE DISCRIMINANTE

A análise discriminante é uma técnica da estatística multivariada utilizada para

discriminar e classificar objetos. É uma técnica da estatística multivariada que estuda a

separação de objetos de uma população em duas ou mais classes. A discriminação ou

separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se

procurar características capazes de serem utilizadas para alocar objetos em diferentes

grupos previamente definidos. A classificação ou alocação pode ser definida como um

conjunto de regras que serão usadas para alocar novos objetos.

O presente trabalho tem por objetivo efetuar uma análise comparativa de médias,

intervalos de confiança e regressões de dados de indicadores relacionados ao

desenvolvimento humano dos municípios do Brasil. Utilizamos a análise discriminante

para tentar predizer ou explicar os indicadores relacionados ao desenvolvimento da

educação dos municípios do Brasil.

Contudo, a função que separa objetos pode também servir para alocar, e o inverso,

regras que alocam objetos podem ser usadas para separar. Normalmente, discriminação

e classificação se sobrepõem na análise, e a distinção entre separação e alocação é

confusa. O problema da discriminação entre dois ou mais grupos, visando posterior

classificação consiste em obter funções matemáticas capazes de classificar um indivíduo

X (uma observação X) em uma de várias populações, com base em medidas de um

número p de características, buscando minimizar a probabilidade de má classificação.

3.9.1. ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO

A análise discriminante é uma técnica da estatística multivariada utilizada para

discriminar e classificar objetos, e estuda a separação de objetos de uma população em

duas ou mais classes. Neste caso queremos discriminar os indicadores de

desenvolvimento dos municípios do Brasil, e utilizaremos inicialmente a variável

categórica Região.

O comando Minitab para executar esta função e:

STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

Página | 60

Discriminant Analysis: Região versus ISDMc; EDUCc; ...

Linear Method for Response: Região

Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c;E26c

Group Centro-Oeste Nordeste Norte Sudeste SulCount 464 1783 445 1663 1188


Summary of classification

True GroupPut into Group Centro-Oeste Nordeste Norte Sudeste SulCentro-Oeste 327 53 86 114 237Nordeste 14 1439 73 74 5Norte 28 256 265 23 7Sudeste 30 33 9 1362 104Sul 65 2 12 90 835Total N 464 1783 445 1663 1188N correct 327 1439 265 1362 835Proportion 0,705 0,807 0,596 0,819 0,703

N = 5543 N Correct = 4228 Proportion Correct = 0,763

A região que acertou mais é Sudeste (0,819) e a que errou mais é o Norte (0,596). O

gráfico exibe o cruzamento de dados entre as regiões. Por exemplo, a região Sudeste

possui 1663 municípios e apenas 1362 correspondem a região, sendo que 114 são

semelhantes aos dados da região Centro-Oeste. O nome desta matriz é confusion matrix

ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa

escolha segundo esta avaliação. O percentual correto = 0,763.

3.9.2. ANÁLISE DISCRIMINANTE LINEAR POR “3 BRASIS”

Neste caso queremos discriminar os indicadores de desenvolvimento dos municípios do

Brasil, e utilizaremos a variável categórica Brasis3m, que representa os agrupamentos

segundo a análise anterior do Dendrograma por similaridade dos dados.

Página | 61

Discriminant Analysis: BRA3 versus ISDMc; EDUCc; ...

Linear Method for Response: BRA3


Group B1 B2 B3Count 1571 516 3456



True GroupPut into Group B1 B2 B3B1 1103 128 311B2 316 347 78B3 152 41 3067Total N 1571 516 3456N correct 1103 347 3067Proportion 0,702 0,672 0,887


O grupo que acertou mais é B3 (0,887) e a que errou mais é o B2 (0,672). O gráfico

exibe o cruzamento de dados entre as classificações de 3Brasis. Por exemplo, o B3

possui 3456 municípios e apenas 3067 correspondem a região, sendo que 311 são

semelhantes aos dados de B1. O nome desta matriz é confusion matrix ou matriz de

confusão. O percentual correto = 0,815. O percentual de acerto para esta análise foi

maior que para o cruzamento dos dados de Regiões do Brasil.

3.9.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”

Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca

probabilidade de má classificação, e para que isso ocorra a regra de classificação deve

considerar as probabilidades a priori e os custos de má classificação. Outro fator que

uma regra de classificação deve considerar é se as variâncias das populações são iguais

ou não. Quando a regra de classificação assume que as variâncias das populações são

iguais, as funções discriminantes são ditas lineares e quando não são funções

discriminantes quadráticas. Vamos agora verificar a função quadrática para 3 Brasis.

Página | 62

Discriminant Analysis: BRA3 versus ISDMc; EDUCc; ...

Quadratic Method for Response: BRA3


Group B1 B2 B3Count 1571 516 3456





No modelo quadrático a proporção foi alterada em menos de 1% (de 0,815 para 0,819).

Seguindo o pensamento da simplicidade, vamos escolher o método linear por ser o mais

simples.

A parcimônia é a preferência pela explicação mais simples para uma observação. Esta

geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também

é um conceito utilizado na sistemática moderna que estabelece que ao construir e

selecionar árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus

princípios. Normalmente é correto o relacionamento mais simples encontrado entre dois

indivíduos, aquele que apresente o menor número de passos intermediários ou

mudanças evolucionárias. Portanto a diferença entre o método linear e o quadrático é

pequena e não justifica a utilização do método quadrático.

3.9.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS

Neste exemplo abaixo vamos através do dendrograma pesquisar o grau de similaridade

das variáveis das médias do desenvolvimento dos municípios do Brasil. Com base na

similaridade poderemos definimos agrupamento de dados e após utilizamos a análise

discriminante para verificar a proporção correta dos agrupamentos.

Página | 63

Discriminant Analysis: BRA3m versus ISDMm; EDUm; ...

Linear Method for Response: BRA3m

Predictors: ISDMm; EDUm; ERm; LIQm; H6m; R1m; T12m; S11m; E24m; E25m; E26m

Group B1 B2 B3Count 10 4 12




Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados

anteriormente pelo agrupamento em 3 Brasis gerou a mesma proporção do método

linear utilizado na análise discriminante.

Página | 64

3.10 REGRESSÃO LOGÍSTICA

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir

de um conjunto de observações, um modelo que permita a predição de valores tomados

por uma variável categórica, frequentemente binária, a partir de uma série de variáveis

explicativas contínuas e/ou binárias1 2. A regressão logística é amplamente usada em

ciências médicas e sociais, e tem outras denominações, como modelo logístico e

classificador de máxima entropia.

No domínio dos seguros, permite encontrar frações da clientela que sejam sensíveis a

determinada política securitária em relação a um dado risco particular, em instituições

financeiras, pode detectar os grupos de risco para a subscrição de um crédito e em

econometria, permite explicar uma variável discreta, como por exemplo as intenções de

voto em atos eleitorais.

O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que

permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com

as técnicas conhecidas em regressão, em especial a regressão linear, a regressão

logística distingue-se essencialmente pelo fato de a variável resposta ser categórica.

Enquanto método de predição para variáveis categóricas, a regressão logística é

comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores

de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em

estatística exploratória. É possível de as colocar em concorrência para escolha do

modelo mais adaptado para um certo problema preditivo a resolver.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta

binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer

como função de outros fatores.

O comando no Minitab para esta função é:

Stat >> Regression >> Ordinal Logistical Regression

Página | 65

3.10.1 REGRESSÃO LOGÍSTICA AGRUPADA POR REGIÃO

Ordinal Logistic Regression: Região versus ISDMc; EDUCc; ...

Link Function: Logit

Response Information

Variable Value CountRegião Centro-Oeste 464

Nordeste 1783Norte 445Sudeste 1663Sul 1188Total 5543

* NOTE * 5543 cases were used* NOTE * 21 cases contained missing values

Logistic Regression Table

95% CIPredictor Coef SE Coef Z P Odds Ratio Lower UpperConst(1) -0,378907 0,470639 -0,81 0,421Const(2) 2,17132 0,471726 4,60 0,000Const(3) 2,80501 0,472278 5,94 0,000Const(4) 5,06855 0,475339 10,66 0,000ISDMc 5,85536 0,515717 11,35 0,000 349,10 127,05 959,24EDUCc 2,31275 0,275877 8,38 0,000 10,10 5,88 17,35EMP&RENDAc 0,492270 0,208897 2,36 0,018 1,64 1,09 2,46LIQc -0,272153 0,0729499 -3,73 0,000 0,76 0,66 0,88H6c -2,92579 0,253763 -11,53 0,000 0,05 0,03 0,09R1c 3,33873 0,392890 8,50 0,000 28,18 13,05 60,87T12c -4,37386 0,239328 -18,28 0,000 0,01 0,01 0,02S11c 1,70399 0,603973 2,82 0,005 5,50 1,68 17,95E24c -3,12337 0,282982 -11,04 0,000 0,04 0,03 0,08E25c -2,44403 0,340237 -7,18 0,000 0,09 0,04 0,17E26c -4,53135 0,319598 -14,18 0,000 0,01 0,01 0,02

Log-Likelihood = -6572,791Test that all slopes are zero: G = 3109,585, DF = 11, P-Value = 0,000

Enquanto método de predição para variáveis categóricas, a regressão logística é

comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores

de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em

estatística exploratória. É possível de colocá-la em concorrência para escolha do modelo

mais adaptado para um certo problema preditivo a resolver.

Página | 66

3.10.2 REGRESSÃO LOGÍSTICA AGRUPADA POR “3 BRASIS”

Ordinal Logistic Regression: BRA3 versus ISDMc; EDUCc; ...

Link Function: Logit

Response Information

Variable Value CountBRA3 B1 1571

B2 516B3 3456Total 5543

* NOTE * 5543 cases were used* NOTE * 21 cases contained missing values

Logistic Regression Table

95% CIPredictor Coef SE Coef Z P Odds Ratio Lower UpperConst(1) 2,65987 0,671971 3,96 0,000Const(2) 3,56939 0,673221 5,30 0,000ISDMc 7,69902 0,770984 9,99 0,000 2206,18 486,83 9997,79EDUCc -1,83812 0,386668 -4,75 0,000 0,16 0,07 0,34EMP&RENDAc 2,21654 0,308013 7,20 0,000 9,18 5,02 16,78LIQc -0,290036 0,101651 -2,85 0,004 0,75 0,61 0,91H6c -1,28809 0,354769 -3,63 0,000 0,28 0,14 0,55R1c 4,37424 0,565189 7,74 0,000 79,38 26,22 240,32T12c -2,85037 0,326533 -8,73 0,000 0,06 0,03 0,11S11c 0,406503 0,922617 0,44 0,660 1,50 0,25 9,16E24c -5,10134 0,378476 -13,48 0,000 0,01 0,00 0,01E25c -8,31625 0,552241 -15,06 0,000 0,00 0,00 0,00E26c -3,64449 0,484517 -7,52 0,000 0,03 0,01 0,07

Log-Likelihood = -2913,010Test that all slopes are zero: G = 3851,041, DF = 11, P-Value = 0,000

Comparando os dois exemplos, no primeiro ele executou 4 interações enquanto que para

os 3Brasis apenas duas interações. O valor de G foi aumentado de 3109 para 3851.

Página | 67

3.11 ANÁLISE DE CORRESPONDÊNCIA

Análise de correspondência é uma técnica de análise exploratória de dados adequada

para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em

conta algumas medidas de correspondência entre linhas e colunas. Consiste na

conversão de uma matriz de dados não negativos em um tipo particular de representação

gráfica em que as linhas e colunas da matriz são simultaneamente representadas em

dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as

relações e semelhanças existentes entre as categorias de linhas e entre as categorias de

colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o

conjunto categorias de colunas.

A análise de correspondência mostra como as variáveis dispostas em linhas e colunas

estão relacionadas e não somente se a relação existe. Embora seja considerada uma

técnica descritiva e exploratória, esta análise simplifica dados complexos e produz

análises exaustivas de informações que suportam conclusões a respeito das mesmas.

Possui diversos aspectos que a distingue de outras técnicas de análise de dados. A sua

natureza multivariada permite revelar relações que não seriam detectadas em

comparações aos pares das variáveis. É altamente flexível quanto a pressuposições

sobre os dados: o único requisito é o de uma matriz retangular com entradas não

negativas. É possível transformar qualquer característica quantitativa em qualitativa,

realizando-se uma partição de seu domínio de variação em classes. A análise de

correspondência é mais efetiva se a matriz de dados é bastante grande, de modo que a

inspeção visual ou análise estatística simples não consegue revelar sua estrutura.

Página | 68

3.11.1. ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES DE

DESENVOLVIMENTO

Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado.

Na análise de correspondência será gerado um mapa contendo quais estados estão mais

próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é:

STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS

0,30,20,10,0-0,1-0,2-0,3-0,4-0,5-0,6

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

-0,4

-0,5

-0,6

Component 1

Com

pone

nt 2

54

3

2

1

26 2524 2322

2120191817

16151413 1211

109 8765

43 21

Symmetric Plot

O gráfico acima é o resultado da análise de correspondência das médias de

desenvolvimento dos municípios do Brasil, já agrupadas por estado. Os pontos azuis

representam as variáveis 1 - Habitação (H6), 2 - Renda(R1), 3 - Trabalho (T1_2), 4 -

Saude (S1_1) e 5 -Educação (E2_4). Os pontos em vermelho representam os estados do

Brasil.

A variável que encontra-se mais distante do agrupamento é Renda (2) e a que se

encontra mais próxima do agrupamento é a variável Educação (5).

Página | 69

Vamos eliminar a variavel Renda e verificar o resultado.

0,30,20,10,0-0,1-0,2

0,3

0,2

0,1

0,0

-0,1

-0,2

Component 1

Com

pone

nt 2

43

2

1

2625

24 232221 2019

1817

16151413 1211

109 876 5

43 21

Symmetric Plot

Os pontos azuis agora representam as variáveis 1 - Habitação (H6), 2 - Trabalho (T1_2),

3 -Saude (S1_1) e 4 -Educação (E2_4). Os pontos em vermelho representam os estados

do Brasil. Educação continua bem próxima do agrupamento dos dados enquanto a

variável mais distante é habitação.

A análise de correspondência pode ser considerada como um caso especial da análise de

componentes principais (TRABALHO num. 7), porém dirigida a dados categóricos

organizados em tabelas de contingência e não a dados contínuos. O problema é análogo

a encontrar o maior componente principal de um conjunto de I observações e J

variáveis, com modificações devido à ponderação das observações e à métrica

ponderada.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta

binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer

como função de outros fatores.

Página | 70

3.12 ÁRVORES DE CLASSIFICAÇÃO

3.12.1 ARVORE AGRUPADA POR REGIÃO COM AS MÉDIAS DE

DESENVOLVIMENTO DOS MUNICÍPIOS

Resumo do modelo

Especifica

ções

Método de

crescimento

CHAID

Variável

dependente

Regiao

Variáveis

independentes

ISDMm, EDUm, ERm, H6m,

T12m, E24m, E25m, E26m

Validação Nenhum

Profundidade de

árvore máxima

3

Casos mínimos

em nó pai

2

Casos mínimos

em nó filho

1

Resultado

s

Variáveis

independentes

incluídas

H6m

Número de nós 5

Número de nós

de terminal

4

Profundidade 1

Neste primeiro estudo a árvore de classificação será constituída pelo agrupamento das

variáveis de desenvolvimento utilizadas neste estudo, por região.

Página | 71

A árvore indica que existem 4 nós a partir de H6. O primeiro nó representa os dados

menores que 0,30061, o segundo entre 0,30081 a 0,49658, o terceiro entre 0m49658 e

0,69620 e por fim o último nó cujos valores são maiores que 0,69620.

Posto

Observado Previsto

Centro-Oeste Nordeste Norte Sudeste Sul Porcentagem

Correta

Centro-Oeste 0 0 0 3 0 0,0%

Nordeste 0 8 0 1 0 88,9%

Norte 0 0 5 2 0 71,4%

Sudeste 0 0 0 5 0 100,0%

Sul 0 0 0 0 2 100,0%

Porcentagem global 0,0% 30,8% 19,2% 42,3% 7,7% 76,9%

Método de crescimento: CHAID

Variável dependente: Regiao

O percentual correto é de 76,9%.

Página | 72

3.12.2 ARVORE AGRUPADA POR “3BRASIS” COM OS ÍNDICES DE

DESIGUALDADE (DESVIO PADRÃO)

Resumo do modelo

Especificações

Método de crescimento CHAID

Variável dependente Bra3m

Variáveis independentes H6sd, R1sd, E24sd, E25sd

Validação Nenhum

Profundidade de árvore

máxima

3

Casos mínimos em nó pai 2

Casos mínimos em nó filho 1

Resultados

Variáveis independentes

incluídas

E24sd

Número de nós 4

Número de nós de terminal 3

Profundidade 1

Esta árvore de classificação é um agrupamento dos 3 Brasis com as variáveis que mais

se assemelham segundo os outros estudos. São elas: H6, R1, E24 e E25.

Página | 73

A árvore indica que existem 3 nós a partir de E24. O primeiro nó representa os dados

menores que 4,17800, o segundo entre 4,17800 a 6,57300, e o último nó cujos valores

são maiores que 6,57300.

Posto

Observado Previsto

B1 B2 B3 Porcentagem

Correta

B1 8 2 0 80,0%

B2 0 3 1 75,0%

B3 5 0 7 58,3%

Porcentagem global 50,0% 19,2% 30,8% 69,2%

Método de crescimento: CHAID

Variável dependente: Bra3m

Documents

PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL ... · Numérico . Escala convertida para intervalo entre 0 e 1. E2_4 . Percentual de crianças de 7 a 14 anos que estão na