7
Análise de dados de Contagem Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados (CE-225), Universidade Federal do Paraná, submetido ao professor Cesar Augusto Taconeli. Curitiba 2018

Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

Análise de dados de Contagem

Alexandre Morales Diaz Eduardo Pereira Lima

Pedro Henrique Moraes

Trabalho de Modelos Lineares Generalizados (CE-225), Universidade Federal do Paraná,

submetido ao professor Cesar Augusto Taconeli.

Curitiba 2018

Page 2: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

Sumário 1. Resumo ............................................................................................................................. 3 2. Introdução ......................................................................................................................... 3 3. Material e métodos ........................................................................................................... 4 3.1 Definição da Base de Dados ............................................................................................ 4 3.2 Análise descritiva da base ............................................................................................... 4 3.3 Ajuste de Modelos .......................................................................................................... 4 3.3.1 Avaliando o poder preditivo do modelo ...................................................................... 6 4. Conclusão .......................................................................................................................... 6 5. REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................... 7

Page 3: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

1. Resumo

O trabalho consiste em analisar os dados de contagem de diversos municípios em que indivíduos chegaram há óbito devido há acidentes com transportes, com variadas classificações societárias, foram submetidos vários modelos de regressão para estes dados e analisado o de melhor ajuste há eles.

Palavras chave: GLM, modelos lineares generalizados, Normal Inversa, dados de

contagem, Acidentes com Transportes, classificações societárias.

2. Introdução

Neste trabalho será apresentado modelos para análise de dados de contagem, a variável resposta selecionada foi o óbito de indivíduos de variados acidentes com meios de Transportes.

A base de dados utilizada foi retirada do site: http://www2.datasus.gov.br/. Esse site foi indicado em orientações para este trabalho. A base coletada contém informações de acidentes com meios de Transportes referentes ao Estado de São Paulo, com quatro variáveis explicativas, entre outras que serão apresentadas mais adiante.

Os serviços de transporte são essenciais para o deslocamento de pessoas e produtos. Existem meios de transporte por meio terrestre, aéreo e aquático. Após o homem domesticar os animais, tornar-se sedentário, desenvolver as cidades e chegar à revolução industrial, diversos meios de transporte puderam ser desenvolvidos. Porem existe uma preocupação relacionada aos meios de transporte: as mortes relacionadas à eles. Existem transportes e infraestruturas precárias em diversos países que tornam mortais os meios de transportes.

Com isso o objetivo desse trabalho é aproveitar essa base de dados disponível e

fazer uma regressão para dados de contagem, e levar em consideração como variável

resposta se o numero de mortos devido a eles.

Page 4: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

3. Material e métodos

3.1 Definição da Base de Dados

Como já foi dito essa base de dados contém quatro variáveis explicativas com

informações de acidentes de transportes no formato dummy, e a variável de interesse,

que é o numero de mortos devido a eles. Na tabela 1 temos as variáveis contidas na base:

Tabela 1 - Variáveis da base

Sendo:

Município: Município no Estado de São Paulo

Óbito: Número de óbitos causados por acidentes de transportes

Gênero: Contagem de Gênero nos municípios

Raça/Cor: Contagem de raça/Cor nos municípios

Local do acidente: Contagem de óbitos no local em que ocorram os acidentes

Estado Civil: Contagem do Estado Civil nos municípios.

3.2 Análise descritiva da base

A base é composta por 479 Municípios em que houve alguém que sofreu algum acidente que o levou a óbito no ano de 2016 no Estado de São Paulo. Analisando a base contatou-se que houve 5650 óbitos em 2016, dentre eles mais que o dobro de homens morreu do que de mulheres, morreram mais gente da cor branca, solteiros e no hospital, mais especificamente morreram 16946 homens contra 5032 mulheres e o Município de maior destaque na base foi o Município de São Paulo devido a um alto valor de 962 óbitos no ano de 2016, a média e a mediana geral de óbitos no Estado foram de 11,8 e 4, respectivamente.

3.3 Ajuste de Modelos

O modelo escolhido para essa análise foi um modelo linear generalizado pertencente a família Normal Inversa com função de ligação identidade, com interação entre as covariáveis, pois o modelo com interação houve ganho de significativo de predição. Para se chegar a este modelo foi testado diversos outros modelos verificando interações entre covariáveis , entre eles foram testados modelos pertencentes á família Poisson e Gamma, a cada modelo foi analisado os resíduos decorrentes do modelo, suas deviances e medidas de AIC. Independente do modelo proposto todas as covariáveis foram significativas, e para análise de interações foi utilizado o método stepAIC que consiste em verificar o menor valor de AIC com o menor número de interações possíveis, somente foi considerado interações de segunda ordem.

Page 5: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

A base de dados apresentou alguns outliers durante o ajuste do modelo, foram removidos dois municípios da base devido a isto (Dracena e Ipuã), o modelo começou a indicar novos possíveis outliers, porém optamos por não remover mais municípios para não manipular de forma errônea os dados.

Na figura 2 podemos observar os gráficos de diagnóstico do modelo, ou seja, se há observações que sejam outliers ou pontos de alavancagem, ou seja, estão distorcendo a análise.

Figura 1 - Gráficos de diagnóstico

Sobre o efeito dos coeficientes somente as covariáveis “Mulher” e “Viúvo”

apresentaram sinais negativos, ou seja, somente elas possuem efeito inversamente

proporcional ao número de óbitos no Estado.

Para o ajuste do modelo não foi considerado o termo offset, pois as covariáveis são

Socioeconômicas e não há níveis de exposição e os erros dos coeficientes não apresentaram

grandes variações, portanto não foi necessário utilizar métodos de regularização.

Para escolha final do modelo com família Normal Inversa foi comparado o AIC do

modelo com todos os seus predecessores e ainda verificado o quadro da anova com o teste

Qui quadrado para diferenças significativas.

Page 6: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

Figura 2 – Resíduos do modelo ajustado

3.3.1 Avaliando o poder preditivo do modelo Para verificar o poder preditivo do modelo foram verificados os valores propostos pelo

modelo em comparação com o número de óbitos reais fornecidos pela base, calculada a

proporção entre elas verificamos em torno de 60% de acurácia com o modelo.

4. Conclusão Concluímos de que o modelo de melhor ajuste foi o modelo para dados de contagem

pertencente à família Normal Inversa com função de ligação identidade que apresenta

interação, pois há um ganho significativo que justifica suas presenças.

Também entendemos que o modelo ficou bem ajustado, pois os resíduos e a deviance

se comportaram como esperado, sendo a ultima, reduzida a quase metade dos graus de

liberdade restantes.

Page 7: Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique ...taconeli/CE22518/Grupo_9_2.pdf · Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados

5. REFERÊNCIAS BIBLIOGRÁFICAS

http://www2.datasus.gov.br/DATASUS/