101
UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL Modelos lineares generalizados: aplicação a dados de acidentes rodoviários Dissertação Mestrado em Gestão de Informação Especialização em Gestão e Análise de Dados Ana Maria Tavares Alvarenga Dissertação orientada pela Prof.ª Doutora Maria Isabel Calisto Frade Barão Dissertação co-orientada pela Prof.ª Doutora Ana Luísa do Carmo Correia Respício 2015

Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

Embed Size (px)

Citation preview

Page 1: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL

Modelos lineares generalizados: aplicação a dados de

acidentes rodoviários

Dissertação

Mestrado em Gestão de Informação

Especialização em Gestão e Análise de Dados

Ana Maria Tavares Alvarenga

Dissertação orientada pela Prof.ª Doutora Maria Isabel Calisto Frade Barão

Dissertação co-orientada pela Prof.ª Doutora Ana Luísa do Carmo Correia Respício

2015

Page 2: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

ii

Agradecimentos

Gostaria de agradecer e dedicar esse trabalho à minha família. Em especial a minha mãe

sempre muito presente, me apoiando e dando força.

Agradeço a professora Doutora Maria Isabel Calisto Frade Barão, minha orientadora, pela

paciência, incentivo e todo o apoio dado no decorrer deste estudo.

Também agradeço a professora Doutora Ana Luísa do Carmo Correia Respício pelas

sugestões e críticas que foram importantes para a concretização desta dissertação.

A todos que de alguma forma contribuíram para a realização deste trabalho, muito

obrigada!

Page 3: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

iii

Índice

1. Introdução ................................................................................................................ 1

1.1. Objetivo ............................................................................................................. 1 1.2. Estrutura da tese ................................................................................................. 2

2. Revisão da literatura ............................................................................................... 3

3. Modelos lineares generalizados .............................................................................. 7 3.1. Família Exponencial .......................................................................................... 7 3.2. Características do Modelo linear generalizado .................................................. 8 3.3. Estimação dos parâmetros ................................................................................. 9

3.4. Testes de hipóteses ........................................................................................... 11

3.4.1. Teste de Wald ........................................................................................... 11

3.4.2. Teste da razão de verosimilhanças ........................................................... 12 3.5. Seleção de modelos .......................................................................................... 12 3.6. Avaliação do modelo ....................................................................................... 13

3.6.1. Deviance ................................................................................................... 13

3.6.2. Critério de Informação.............................................................................. 14 3.6.3. Análise de resíduos ................................................................................... 14

3.6.4. Observações influentes ............................................................................. 16 3.6.5. Tipos de gráficos ...................................................................................... 16

4. Modelo de regressão Logística ............................................................................. 17

4.1. Formulação ...................................................................................................... 17

4.2. Estimação dos coeficientes de regressão ......................................................... 18

4.3. Qualidade de ajustamento ................................................................................ 19 4.3.1. Hosmer e Lemeshow ................................................................................ 19

4.3.2. Qui-Quadrado de Pearson ......................................................................... 20 4.4. Capacidade preditiva do modelo ...................................................................... 20

4.4.1. Curva ROC ............................................................................................... 20 4.4.2. Tabela de contingência ............................................................................. 21

4.5. Interpretação dos coeficientes de regressão ..................................................... 21 4.5.1. Variável independente dicotómica ........................................................... 22 4.5.2. Variável independente policotómica ........................................................ 23 4.5.3. Variável independente contínua ............................................................... 24

5. Modelo de regressão de Poisson ........................................................................... 25

5.1. Descrição ......................................................................................................... 25

5.2. Estimação dos coeficientes do modelo ............................................................ 26

5.3. Qualidade de ajustamento ................................................................................ 27

6. Modelo de regressão Binomial Negativa ............................................................. 29

6.1. Descrição ......................................................................................................... 29

6.2. Estimação dos coeficientes do modelo ............................................................ 29 6.3. Qualidade de ajustamento ................................................................................ 30

7. Análise e modelação de dados .............................................................................. 31

Page 4: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

iv

7.1. Base de dados ................................................................................................... 31

7.1.1. Dados da severidade de acidentes rodoviários ......................................... 32

7.1.2. Dados de ocorrências de acidentes rodoviários por dia ............................ 39 7.2. Estimação dos modelos .................................................................................... 40

7.2.1. Regressão Logística .................................................................................. 41 7.2.2. Regressão de Poisson ............................................................................... 57 7.2.3. Regressão Binomial Negativa .................................................................. 61

8. Conclusão ............................................................................................................... 65

Bibliografia: .................................................................................................................. 67

Anexos ............................................................................................................................ 69

Page 5: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

v

Lista de Tabelas

Tabela 7.1: As variáveis em estudo e respetivas categorias ........................................................ 33

Tabela 7.2: Frequência de severidade dos acidentes rodoviários segundo os dias da semana .... 37

Tabela 7.3: Frequência de severidade dos acidentes rodoviários segundo os meses .................. 37

Tabela 7.4: Frequência de severidade dos acidentes rodoviários segundo a hora do dia ............ 37

Tabela 7.5: Frequência de severidade dos acidentes rodoviários segundo a condição de

iluminação ........................................................................................................................... 38

Tabela 7.6: Frequência de severidade dos acidentes rodoviários segundo o tipo de veículos .... 38

Tabela 7.7: Frequência de severidade dos acidentes rodoviários segundo o género do condutor

............................................................................................................................................. 38

Tabela 7.8: Frequência de severidade dos acidentes rodoviários segundo a faixa etária do

condutor ............................................................................................................................... 38

Tabela 7.9: Teste de Qui-Quadrado entre as variáveis explicativas e a variável severidade de

acidentes rodoviários ........................................................................................................... 39

Tabela 7.10: Ajuste de regressão logística a cada uma das variáveis explicativas ..................... 42

Tabela 7.11: Comparação entre os modelos (backward, both e forward) e o modelo nulo ........ 44

Tabela 7.12: Resultado para comparação dos modelos de regressão Logística (modelo1 e 2) ... 45

Tabela 7.13: Modelo de regressão Logística (Modelo1) ............................................................. 46

Tabela 7.14: Estimativas dos parâmetros, estatística de Wald e valor p (Modelo3) ................... 48

Tabela 7.15: Tabela de classificação do modelo3 ....................................................................... 50

Tabela 7.16: valores obtidos para a razão da chance (Odds ratio) e intervalo de confiança ...... 51

Tabela 7.17: Regressão Logística ajustado aos dados de acidentes com peões na zona rural .... 53

Tabela 7.18: Regressão logística ajustado aos dados de acidentes com peões na zona urbana .. 54

Tabela 7.19: resultados comparativos da probabilidade de ocorrência de acidentes não ligeiros

entre zona rural e urbana ..................................................................................................... 55

Tabela 7.20: Resultados de ajuste de regressão de Poisson de cada variável explicativa ........... 57

Tabela 7.21: diferença entre a deviance do modelo ajustado com regressão de Poisson e a

deviance do modelo nulo ..................................................................................................... 58

Tabela 7.22: Resultados de AIC e %explicada da deviance para selecionar o modelo de Poisson

............................................................................................................................................. 59

Tabela 7.23: Resultado de ajustamento do modelo de regressão de Poisson (modelo1) ............ 59

Tabela 7.24: Resultados de AIC e % explicada da deviance para selecionar o modelo de

regressão Binomial Negativa .............................................................................................. 61

Tabela 7.25: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo1) 62

Page 6: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

vi

Lista de Figura

Figura 7.1: Boxplot e gráfico de barras para a variável idade do veículo ................................... 34

Figura 7.2: Distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano

............................................................................................................................................. 34

Figura 7.3: Distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os

tipos de veículos .................................................................................................................. 35

Figura 7.4: Distribuição de acidentes rodoviários segundo a hora do dia e as condições de

iluminação ........................................................................................................................... 35

Figura 7.5: Distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor

............................................................................................................................................. 36

Figura 7.6: Distribuição de acidentes rodoviários entre 2005 e 2013 ......................................... 40

Figura 7.7: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados

aos dados de acidentes com peões de 2005 a 2013 ............................................................. 49

Figura 7.8: gráfico da Curva ROC (modelo de regressão Logística) .......................................... 50

Figura 7.9: Gráficos normais de probabilidades referentes ao modelo de regressão de Poisson (a)

e ao modelo de regressão Binomial Negativa (b) ................................................................ 63

Figura 7.10: Gráficos da análise de resíduos referentes ao modelo de regressão Binomial Negativa

............................................................................................................................................. 63

Page 7: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

vii

Resumo

Os acidentes rodoviários são considerados um importante problema de saúde pública a

nível mundial. Segundo o relatório da organização mundial de saúde (OMS, 2013), em

2030 os acidentes rodoviários estarão entre as cinco principais causas de morte no mundo.

A investigação sobre os fatores que influenciam a ocorrência de acidentes rodoviários é

realizada com o intuito de reduzir o número de acidentes rodoviários e a sua severidade,

assim como evitar os custos pessoais, sociais e económicos que lhe estão associados.

Nesta dissertação, a análise de ocorrência de acidentes rodoviários abordou duas

questões. A primeira foi identificar os fatores que influenciam a probabilidade de

ocorrerem acidentes não ligeiros, aplicando a regressão Logística. A segunda questão foi

modelar a ocorrência de acidentes rodoviários por dia, aplicando a metodologia de

regressão de Poisson. No entanto, os modelos desenvolvidos apresentaram o problema de

sobredispersão e a alternativa foi a regressão Binomial Negativa. Os modelos foram

desenvolvidos com aplicação a um conjunto de dados relativos a acidentes ocorridos entre

2005 e 2013 na Grã-Bretanha a nível nacional.

Para a análise da regressão Logística, tomou-se como variável resposta a severidade de

acidentes, em que as vítimas são peões. Foram considerados os dados de acidentes com

peões ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 a 31 de Dezembro de 2013.

Nesta análise os resultados demonstraram que o modelo de regressão Logística é

adequado para explicar a severidade dos acidentes. As variáveis explicativas utilizadas

foram o tipo de veículos, o limite de velocidade nas estradas, as condições de iluminação,

o género e a faixa etária dos condutores, o dia da semana, a hora do dia e a idade do

veículo. Estas variáveis foram estatisticamente significativas, mas as que tiveram o maior

impacto sobre a severidade de acidentes foram o limite de velocidade nas estradas, as

condições de iluminação e o tipo de veículos.

Também foi feita uma comparação da severidade de acidentes com peões entre

ocorrências na zona rural e urbana, usando as mesmas variáveis explicativas da análise

anterior. A diferença encontrada reside no maior impacto que tem o limite de velocidade

na severidade dos acidentes ocorridos na zona rural, em comparação com a zona urbana.

Quanto à análise do número de acidentes ocorridos por dia, os modelos desenvolvidos

com a regressão Binomial Negativa foram mais adequados para ajustar aos dados que os

desenvolvidos com a regressão de Poisson. As variáveis explicativas utilizadas foram o

dia da semana, o facto desse dia ser feriado ou não, os meses ou as estações do ano. Os

resultados da análise demonstraram que o número de acidentes ocorridos por dia é melhor

explicado pelas variáveis dia da semana (com sete categorias), meses do ano e os dias

feriados.

Palavras-Chaves: Modelos de regressão Logística, modelos de regressão, modelos de

regressão Binomial Negativa, severidade de acidentes, acidentes rodoviários.

Page 8: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

viii

Abstract

Road accidents are considered an important public health problem worldwide. According

to the report of the World Health Organization (WHO, 2013), in 2030 road accidents will

be among the five leading causes of death worldwide. Research on the factors influencing

the occurrence of road accidents is performed with the aim of reducing the number of

road accidents and its severity, as well as avoiding the personal, social and economic costs

associated with it.

In this thesis, the analysis of the occurrence of road accidents addresses two issues. The

first is identifying the factors that influence the probability of non-slight accidents,

applying the Logistic regression methodology. The second issue is modelling the

occurrence of daily road accidents applying the Poisson regression methodology.

However, the models developed showed an over-dispersion problem and the alternative

was the Negative Binomial regression. The models were developed with application to a

set of data on accidents that occurred from 2005-2013 in Britain at national level.

For the Logistics regression analysis the response variable is the severity of the accidents

where the victims are pedestrians. Data consists of accident data involving pedestrians

that have occurred in Britain from 1 January 2005 to 31 December 2013. In this analysis

the results showed that the Logistic regression model is adequate to explain the severity

of accidents. The explanatory variables used were the type of the vehicles, the speed limit

on the roads, lighting conditions, gender and age group of drivers, day of the week, time

of the day and the age of the vehicle. These variables were statistically significant, but

the ones that had the greatest impact on the severity of accidents were the speed limit on

the roads, the lighting conditions and the type of the vehicles.

A comparison on the severity of accidents involving pedestrians between rural and urban

areas was also undertaken using the same explanatory variables. The difference was

mainly the greatest impact of speed limit on rural areas.

Regarding the analysis of the number of accidents per day, the models developed with

the Negative Binomial regression were more appropriate to adjust the data than the

models developed with the Poisson regression. The explanatory variables used were the

days of the week, the months of the year, the seasons and holidays. The results of the

regression analysis showed that the number of daily accidents is best explained by the

day of the week (seven categories), the months of the year and the holidays.

Keywords: Logistic regression models, Poisson regression models, Negative Binomial

regression models, severity of accidents, road accidents.

Page 9: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

1

1. Introdução

A nível mundial, cerca de 1.24 milhões de pessoas morrem em acidentes rodoviários

anualmente, e entre 20 a 50 milhões de pessoas sofrem ferimentos ligeiros ou graves

(WHO, 2013). As consequências dos acidentes rodoviários resultam em custos elevados

para a sociedade, para a saúde e para a economia de cada país. A estimativa a nível

económico das consequências dos acidentes rodoviários é de 1% do produto interno bruto

(PIB) nos países de rendimento baixo, 1.5% nos países de rendimento médio, e 2% nos

países de rendimento alto (Peden et al., 2004). Segundo a organização mundial de saúde

(OMS), em 2030 os acidentes rodoviários estarão entre as cinco principais causas de

morte no mundo, portanto os acidentes rodoviários continuam a ser um importante

problema de saúde pública.

Há, em todo o mundo, uma necessidade de se melhorar a segurança rodoviária com o

objetivo de reduzir o número de vítimas nas estradas. Muitos acidentes são causados por

fatores que são conhecidos e podem ser evitados. Estes incluem a condução a alta

velocidade ou sob a influência de álcool, a falta do uso de cintos de segurança, não

respeitar os utilizadores de estrada mais vulneráveis, como peões e ciclistas, e

infraestruturas rodoviárias inseguras. Em muitos países desenvolvidos o número de

vítimas em acidentes rodoviários tende a diminuir, devido à aplicação de medidas

adequadas para melhorar a segurança rodoviária. A Organização para a Cooperação e

Desenvolvimento Económico (OCDE), que inclui a maioria dos países desenvolvidos,

estabeleceu um Sistema de Seguranças com metas desafiadoras para seus membros em

direção à filosofia a longo prazo, denominada visão zero, cujo objetivo é reduzir o número

de mortos e ferimentos graves a zero. Nestes países, a fatalidade foi reduzida em 50%,

desde 1970, apesar do aumento do número de veículos motorizados (OCDE, 2008). Para

tal objetivo são aplicadas medidas sistemáticas e métodos educacionais que permitem

modificar o comportamento dos participantes no tráfego. As medidas sistemáticas são

direcionadas aos veículos, a via, o sistema legal e fiscalização (Raia Jr. e Santos, 2005).

1.1. Objetivo

O objetivo deste trabalho é desenvolver modelos estatísticos que permitam identificar

fatores associados à ocorrência de acidentes rodoviários. Trata-se de uma questão de

elevada importância, no âmbito da segurança rodoviária, pois permite às empresas

responsáveis tomar medidas adequadas para melhor segurança nas estradas.

Os modelos desenvolvidos correspondem a dois tipos de abordagem: modelos onde a

variável resposta é qualitativa e modelos onde a variável resposta é quantitativa. Para a

primeira abordagem, a variável resposta é qualitativa, assume apenas dois valores

possíveis (0 e 1) que identificam as categorias da severidade dos acidentes,

respetivamente, “ligeiros” e “não ligeiros”. Na segunda abordagem, a variável resposta é

quantitativa, os valores correspondem ao número de acidentes ocorridos por dia.

Page 10: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

2

Estas duas abordagens foram aplicadas neste trabalho, com base nos dados de acidentes

ocorridos entre 2005 a 2013 na Grã-Bretanha a nível nacional.

1.2. Estrutura da tese

Para além do presente capítulo, o trabalho foi organizado em sete capítulos.

O capítulo 2 apresenta alguns estudos que abordaram o tema de análise nesta dissertação.

O capítulo 3 apresenta de uma forma geral, a teoria sobre as metodologias utilizadas neste

trabalho.

Os capítulos 4, 5 e 6 seguem com a teoria das metodologias de uma maneira mais

específica, descrevendo os modelos de regressão Logística, de Poisson e de Binomial

Negativa, respetivamente.

O capítulo 7 inicia com a apresentação e descrição das bases de dados, em seguida serão

discutidos os resultados estatísticos dos modelos.

Finalmente, no capítulo 8 são apresentadas as conclusões obtidas do trabalho.

Page 11: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

3

2. Revisão da literatura

Neste capítulo apresentam-se os principais trabalhos realizados no âmbito de estudo da

ocorrência de acidentes rodoviários e das suas consequências. A investigação tem

mostrado que a ocorrência de acidentes rodoviários e suas consequências estão associados

a diversos fatores, dos quais podemos citar fatores individuais e fatores externos ou

ambientais. A nível individual parecem ser mais comuns as variáveis como a faixa etária

e o género dos condutores. Relativamente aos fatores externos, pode referir-se a hora do

dia, condições climáticas, características das estradas e características de veículos.

Primeiramente apresentam-se os trabalhos realizados sobre os fatores que influenciam a

ocorrência de acidentes a nível das suas consequências, sendo a variável resposta ou

dependente de natureza qualitativa 0 e 1. Em seguida apresentam-se os trabalhos

realizados sobre a ocorrência de acidentes a nível das frequências, onde a variável

resposta é quantitativa.

2.1. Modelos de variável resposta qualitativa

As consequências de acidentes rodoviários podem ser a nível económico, físico e

psicológico. Em relação ao nível físico, quando não resulta em morte, as consequências

dos acidentes podem levar a vários níveis de incapacidade, desde baixas limitações até

limitações a longo prazo. Os investigadores analisaram as consequências referentes a

nível físico considerando a severidade dos ferimentos como variável resposta e a sua

representação em duas ou mais categorias. Quando esta variável é categórica (com duas

categorias) a regressão Logística é a mais utilizada, e no caso de mais de duas categorias

é mais comum a aplicação do modelo de resposta ordenada (Eluru et al. 2008).

Por exemplo, Dissanayake & Lu (2002) e Eluru & Bhat (2007) analisaram a severidade

de ferimento dos condutores com aplicação da regressão Logística e modelos de resposta

ordenada, respetivamente. Segundo Dissanayake & Lu (2002) o aumento da velocidade

do veículo e o ponto de impacto frontal aumentam a probabilidade de ferimentos graves,

a utilização de um dispositivo de retenção diminui a probabilidade de ferimentos graves.

Eluru & Bhat (2007) identificaram nas suas análises outros fatores que foram relevantes

nas probabilidades, esses fatores são: tipo de veículo, limite de velocidade nas estradas e

hora do dia.

Zajac & Ivan (2003) e Eluru et al. (2008) realizaram uma análise sobre a severidade de

ferimento dos peões com a utilização, respetivamente, da metodologia modelo probit

ordenado e modelo logit ordenado, concluíram que existe uma associação

estatisticamente significativa entre os condutores sob o efeito de álcool e a severidade de

ferimento dos peões. Os resultados mostraram que os peões ou os ciclistas atingidos por

um condutor alcoolizado têm maior probabilidade de sofrer ferimentos graves. Os

resultados da análise de estudo realizado por Zajac & Ivan também indicaram outros

fatores como o tipo de veículos, o tipo de áreas e a largura da via que foram

Page 12: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

4

estatisticamente significativa. Para Eluru et al. (2008) os acidentes ocorridos nas estradas

com limite de velocidade maior ou igual a 25 milhas/hora aumentam a probabilidade de

ferimentos fatais e se ocorreram em interseção sinalizada diminui a probabilidade de

ferimentos fatais em relação a outros locais. Também identificaram que se o impacto for

frontal aumenta a probabilidade de ferimentos graves.

Valent et al. (2002) aplicaram a regressão Logística para analisar a severidade de

acidentes entre os condutores. Os resultados demonstraram que a chance de acidentes

fatais aumenta com a idade dos condutores e os homens tem maior chance de sofrer

ferimentos fatais em relação às mulheres. Também indicaram que há maior probabilidade

de acidentes fatais no horário das 18:00 horas à meia-noite e principalmente às primeiras

horas de manhã.

Kong & Yang (2010) analisaram o impacto da velocidade do veículo sobre a severidade

de ferimento dos peões com aplicação da regressão Logística e concluíram que os peões

atingidos por um veículo a alta velocidade tem maior probabilidade de ferimentos graves.

Ghamdi (2002) aplicou a regressão Logística para analisar a severidade de acidentes entre

os indivíduos envolvidos nos acidentes. Os resultados demonstraram que a associação

entre a severidade de acidente e as variáveis explicativas (localização e a causa de

acidente) foram estatisticamente significativas.

Milton, Shankar e Mannering, (2008) consideraram o modelo logit misto para estudar a

variação das proporções de severidade de acidentes em segmentos rodoviários de acordo

com as características do tempo, da estrada e do tráfego. A severidade de acidente é

definida como nível de ferimento resultante de um acidente. Para desenvolver o modelo

consideraram três níveis de ferimentos (apenas danos materiais, possíveis ferimentos e

categoria ferimento grave) por segmento da rodovia. Segundo eles, esta abordagem

permite à empresa de segurança rodoviária uma melhor compreensão do efeito das

variáveis explicativas sobre a variação de acidentes e aperfeiçoar a segurança nas

estradas.

2.2. Modelo de variável resposta quantitativa

No caso de estudo onde a variável resposta é quantitativa, os modelos nomeadamente

utilizados para a análise de ocorrência de acidentes rodoviários são o modelo clássico de

regressão ou os modelos lineares generalizados.

Hong et al. (2005) utilizaram o modelo clássico de regressão. Para o desenvolvimento do

modelo classificaram as estradas em grupos de acordo com o número de faixas e

existência de barreira mediana, assim para cada grupo estima-se o número médio de

acidentes. As variáveis explicativas consideradas foram o número de cruzamentos, o

número de vias de ligação, os sinais de trânsito e o volume do tráfego. Os modelos

desenvolvidos foram três: modelo para estradas com duas faixas de rodagem, com quatro

faixas de rodagem e existência de barreira mediana e modelo com quatro faixas de

Page 13: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

5

rodagem sem barreira mediana. Os resultados demonstraram que todas as variáveis

explicativas tiveram correlações positivas com a variável resposta “número de acidentes”,

as mais significativas foram o número de interseções e os sinais de trânsito.

O volume de tráfego é um fator considerado importante na análise de variação de

acidentes, (Cools et al. 2009) estudaram o efeito da variável tempo sobre o volume de

tráfego com aplicação do modelo clássico de regressão, e concluíram que o volume de

tráfego aumenta com a temperatura máxima e diminui com o aumento da queda de neve,

da chuva e da velocidade do vento.

No entanto Miaou & Lum (1993) aplicaram o modelo clássico de regressão para estudar

a relação entre a ocorrência de acidentes rodoviários e a geometria de estrada, e

concluíram que o modelo não é adequado. O modelo clássico de regressão tem o

pressuposto básico que a variável dependente seja contínua e normalmente distribuída

com variância constante. Portanto este modelo não tem a propriedade distributiva

necessária para descrever adequadamente eventos aleatórios discretos e não negativos,

tais como os acidentes rodoviários. Ainda sobre os mesmos dados da análise aplicaram o

modelo linear generalizado, referindo-se ao modelo de Poisson, mas também não foi o

modelo adequado. Geralmente em dados de contagem a variância é maior que a média.

Esta variação é conhecida como sobredispersão e a utilização do modelo de Poisson nesta

circunstância pode causar a subestimação da variância dos parâmetros. A consequência

disso é a estatística de teste sobrestimada enviesando a significância desta.

Para ultrapassar o problema de sobredispersão vários investigadores como Milton &

Mannering (1988), Abdel-Aty & Radwan (2000), e Memon (2012) propuseram a

utilização da regressão Binomial Negativa.

Milton & Mannering (1988) utilizaram a regressão Binomial Negativa para a análise da

frequência anual de acidentes nas principais autoestradas do estado de Washington. As

variáveis explicativas como o comprimento de seção de estrada, a percentagem de

camiões em trânsito, a velocidade fixa, o número de faixas e as curvas horizontais foram

consideradas para explicar a variação de acidentes. Os resultados demonstraram que a

regressão Binomial Negativa é um método adequado para a previsão de acidentes

rodoviários.

Abdel-Aty & Radwan (2000) aplicaram a regressão Binomial Negativa aos dados de

acidentes rodoviários ocorridos nas principais autoestradas de Florida. Os resultados

demonstraram que o aumento de volume de tráfego, o excesso de velocidade, a largura

da via estreita, o maior número de vias e as secções rodoviárias urbanas, aumentam a

probabilidade de acidentes.

Memon (2012) analisou a ocorrência de acidentes rodoviários na Grã-Bretanha a nível

nacional. O objetivo foi desenvolver modelos de previsão de acidentes rodoviários que

podem descrever e estimar com precisão o número de acidentes, das vítimas e dos

veículos envolvidos nos acidentes. Para estimar o número de acidentes desenvolveram-

se três modelos. O primeiro modelo foi para estimar o número de acidentes por dia a nível

Page 14: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

6

nacional, o segundo modelo considerou apenas 51 regiões da Grã-Bretanha, locais onde

existem instalações policiais, e o terceiro modelo foi para estimar o número de acidente

por mês. Em geral, para desenvolver estes modelos, utilizou-se a base de dados Stats19

(2013) com informação de acidentes, dos veículos e das vítimas. As variáveis explicativas

selecionadas a partir desta base de dados foram as seguintes: dia da semana, meses do

ano, hora, feriados e estações do ano. Também se utilizaram outras variáveis explicativas

(selecionadas em outras bases de dados como a Estatística Nacional, o departamento de

transporte e as estações meteorológicas da Grã-Bretanha) como o total da distância

percorrida, o número de veículos por habitante, a densidade populacional e os fatores

meteorológicos. As metodologias utilizadas foram os modelos lineares generalizados,

sendo que a regressão Binomial Negativa se ajustou melhor aos dados que a regressão de

Poisson.

Muitas empresas de transportes utilizam estes modelos estatísticos para estimar o número

de acidentes rodoviários através da relação com diferentes variáveis, e assim utilizar os

conhecimentos obtidos para desenvolver os programas de intervenção da segurança

rodoviária (Mannering et al. 2008, Memon, 2012).

Page 15: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

7

3. Modelos lineares generalizados

Em problemas onde o objetivo é estudar a relação entre as variáveis, os estatísticos

utilizam modelos de regressão. Existem várias metodologias estatísticas que permitem

explicar ou descrever a relação entre uma variável de interesse (variável resposta) e uma

ou mais variáveis (variáveis explicativas).

O modelo linear é talvez o mais utilizado para modelar esta relação. Este modelo assume,

entre outras, que o valor esperado da variável resposta é uma combinação linear das

variáveis explicativas e que a variável resposta segue a distribuição Normal.

Esta teoria da modelação estatística é limitada, pois não pode ser utilizada se a

distribuição da variável resposta é diferente da Normal. Para a resolução deste problema,

o modelo linear generalizado foi introduzido em 1972, por Nelder e Wedderburn. São

vários os modelos lineares generalizados, nesse estudo consideram-se apenas três:

Regressão Logística, Poisson e Binomial Negativa.

O modelo linear generalizado é uma extensão do modelo linear, onde a distribuição da

variável resposta não tem de ser Normal, mas sim uma outra distribuição da família

exponencial e a função que relaciona o valor esperado e o vetor de variáveis explicativas

pode ser qualquer função diferenciável.

3.1. Família Exponencial

No âmbito dos modelos lineares generalizados pressupõe-se que a variável resposta tem

uma distribuição pertencente à família Exponencial, ou seja, que a sua função densidade

de probabilidade (ou função massa de probabilidade) pode ser escrita na forma geral

𝑓(𝑦|𝜃; 𝜙) = 𝑒𝑥𝑝 {

𝑦𝜃 − 𝑏(𝜃)

𝑎(𝜙)+ 𝑐(𝑦, 𝜙)},

(3.1)

Onde 𝜃 é o parâmetro de localização, 𝝓 é o parâmetro de dispersão, a(.), b(.) e c(.) são

funções reais conhecidas.

Pode ser demonstrado com um pouco de cálculo algébrico que o valor médio e a variância

da distribuição desta variável aleatória são dados por b’(𝜃) e a(𝜙) b’’(𝜃) respetivamente.

Exemplo

Se Y, variável aleatória resposta, segue uma distribuição Normal com valor médio µ e

variância 𝜎2, a sua função densidade de probabilidade é dada por

Page 16: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

8

𝑓(𝑦|µ, 𝜎2) =1

𝜎√2𝜋exp (−

(𝑦 − µ)2

2𝜎2)

= 𝑒𝑥𝑝 {1

𝜎2(𝑦µ −

µ2

2) −

1

2(

𝑦2

𝜎2+ 𝑙𝑛(2𝜋𝜎2))}

Tem-se então que esta função é do tipo (3.1) com 𝜃 = µ, b(θ) =µ2

2, a(ϕ) = σ2 e

c(y,𝝓) = −1

2(

y2

σ2 + ln(2πσ2)). Nesta situação, pode-se mostrar que E(Y)= b’(𝜃) = µ e

var(Y)= a(𝝓)b’’(𝜃) = σ2.

3.2. Características do Modelo linear generalizado

Os modelos lineares generalizados são caracterizados pela seguinte forma:

Componente aleatória

Componente sistemática

Função de ligação

Componente aleatória

Dado o vetor de covariáveis xi as variáveis aleatórias Yi são condicionalmente

independentes com distribuição pertencente à família Exponencial, e portanto o seu valor

médio é dado por

E(Yi|𝐱𝑖) = µi = b′(θi), i = 1, … , n

Componente sistemática

Defina-se o preditor linear η𝑖 como combinação linear das variáveis explicativas, dado

por

η𝑖 = 𝐱𝑖𝑇𝛽

Associado a cada valor da variável resposta, Yi, tem-se o vetor p 1 de covariáveis, 𝐱𝑖𝑇 =

(𝑥𝑖1, … , 𝑥𝑖𝑝), 𝑖 = 1, … , 𝑛, onde 𝐱𝑖𝑘, (k=1, …, p) representa a k-ésima covariável para o i-

ésimo indivíduo, e β = (β1, … , β𝑝)𝑇um vetor p 1 de parâmetros desconhecidos.

Page 17: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

9

Função de ligação

A função de ligação para relacionar o valor esperado de Yi com o preditor linear η𝑖 é uma

função g(.) tal que 𝑔(µ𝑖) = η𝑖.

3.3. Estimação dos parâmetros

Num modelo linear generalizado o parâmetro de interesse é β, sendo a sua estimação feita

pelo método da máxima verosimilhança. O parâmetro de dispersão ϕ, quando existe, é

considerado parâmetro perturbador e é estimado pelo método dos momentos. A

verosimilhança também é considerada como base fundamental no processo inferencial,

no caso dos testes de hipóteses sobre os coeficientes estimados e da qualidade do

ajustamento.

A função de verosimilhança do modelo, em função de β é dado por (Turkman e Silva,

2000; Hosmer & Lemeshow, 2013),

𝐿(𝛽) = ∏ 𝑓(𝑦𝑖|𝜃𝑖 , 𝜙)

𝑛

𝑖=1

(3.2)

= ∏ exp {𝑦𝑖𝜃𝑖 − 𝑏(𝜃𝑖)

𝜙+ 𝑐(𝑦𝑖, 𝜙)}

𝑛

𝑖=1

= 𝑒𝑥𝑝 {∑𝑦𝑖𝜃𝑖−𝑏(𝜃𝑖)

𝜙

𝑛𝑖=1 + ∑ 𝑐(𝑦𝑖, 𝜙)𝑛

𝑖=1 }

O logaritmo da verosimilhança é dado por

ln(𝐿(𝛽)) = 𝑙(𝛽)

= ∑ {𝑦𝑖𝜃𝑖 − 𝑏(𝜃𝑖)

𝜙+ 𝑐(𝑦𝑖, 𝜙)}

𝑛

𝑖=1

= ∑ 𝑙𝑖(𝛽)

𝑛

𝑖=1

Onde 𝑙𝑖 é a contribuição de cada observação 𝑦𝑖 para a verosimilhança.

Os estimadores de máxima verosimilhança para β são obtidos como solução do sistema

de equações de verosimilhança.

As equações de verosimilhança são dadas por:

𝜕𝑙(𝛽)

𝜕𝛽𝑗= ∑

𝜕𝑙𝑖(𝛽)

𝜕𝛽𝑗

𝑛

𝑖=1

= 0, 𝑗 = 1, … 𝑝

(3.3)

Page 18: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

10

A equação (3.3) é a derivada do logaritmo da verosimilhança em relação ao parâmetro β

e pode-se chamar de Score.

Para obter estas equações escrevemos (Turkman e Silva, 2000),

𝜕𝑙𝑖(𝛽)

𝜕𝛽𝑗=

𝜕𝑙𝑖(𝜃𝑖)

𝜕𝜃𝑖

𝜕𝜃𝑖(µ𝑖)

𝜕µ𝑖

𝜕µ𝑖(ƞ𝑖)

𝜕ƞ𝑖

𝜕ƞ𝑖(𝛽)

𝜕𝛽𝑗, 𝑗 = 0,1, … , 𝑝

Tendo em atenção a função logaritmo da verosimilhança, e sabendo que 𝑏′(𝜃𝑖) = µ𝑖 e

𝑣𝑎𝑟(𝑦𝑖) = 𝜙𝑏′′(𝜃𝑖), então:

1. 𝜕𝑙𝑖(𝜃𝑖)

𝜕𝜃𝑖=

(𝑦𝑖−µ𝑖)

𝜙

2. 𝜕µ𝑖

𝜕𝜃𝑖= 𝑏′′(𝜃𝑖) =

𝑣𝑎𝑟(𝑦𝑖)

𝜙

3. 𝜕ƞ𝑖

𝜕𝛽𝑖𝑗= 𝑥𝑖𝑗

Pelo que a equação dada em (3.3) passa a ser rescrita da seguinte maneira:

𝜕𝑙𝑖(𝛽)

𝜕𝛽𝑗=

(𝑦𝑖 − µ𝑖)

𝜙

𝜙

𝑣𝑎𝑟(𝑦𝑖)

𝜕µ𝑖

𝜕ƞ𝑖𝑥𝑖𝑗

(3.4)

Assim as equações de verosimilhança para β são dadas por

(𝑦𝑖 − µ𝑖)

𝑣𝑎𝑟(𝑌𝑖)

𝑛

𝑖=1

𝜕µ𝑖

𝜕ƞ𝑖𝑥𝑖𝑗 = 0 𝑗 = 1, … , 𝑝

(3.5)

A função score é obtida por

𝑠(𝛽) =

𝜕𝑙(𝛽)

𝜕𝛽= ∑ 𝑠𝑖(𝛽)

𝑛

𝑖=1

(3.6)

em que 𝑠𝑖(𝛽) é o vetor de componentes 𝜕𝑙𝑖(𝛽)

𝜕𝛽𝑗 obtidas na equação (3.4).

A matriz de covariância da função score é designada por matriz de informação de Fisher

e é dada por:

𝐼(𝛽) = 𝐸 [−

𝜕𝑠(𝛽)

𝜕𝛽]

(3.7)

Page 19: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

11

É obtida considerando o valor esperado das segundas derivadas da função logaritmo da

verosimilhança em relação ao parâmetro β. Tem-se, para famílias regulares, que

−𝐸 (𝜕2𝑙𝑖

𝜕𝛽𝑗𝜕𝛽𝑘) = 𝐸 (

𝜕𝑙𝑖

𝜕𝛽𝑗

𝜕𝑙𝑖

𝜕𝛽𝑘)

= 𝐸 [((𝑌𝑖 − µ𝑖)𝑥𝑖𝑗

𝑣𝑎𝑟(𝑌𝑖)

𝜕µ𝑖

𝜕ƞ𝑖) (

(𝑌𝑖 − µ𝑖)𝑥𝑖𝑘

𝑣𝑎𝑟(𝑌𝑖)

𝜕µ𝑖

𝜕ƞ𝑖)]

= 𝐸 [(𝑌𝑖 − µ𝑖)

2𝑥𝑖𝑗𝑥𝑖𝑘

(𝑣𝑎𝑟(𝑌𝑖))2(

𝜕µ𝑖

𝜕ƞ𝑖)

2

]

=𝑥𝑖𝑗𝑥𝑖𝑘

𝑣𝑎𝑟(𝑌𝑖)(

𝜕µ𝑖

𝜕ƞ𝑖)

2

e, portanto, o elemento (j, k) da matriz de informação de Fisher é dado por:

− ∑ 𝐸

𝑛

𝑖=1

(𝜕2𝑙𝑖

𝜕𝛽𝑗𝜕𝛽𝑘) = ∑

𝑥𝑖𝑗𝑥𝑖𝑘

𝑣𝑎𝑟(𝑌𝑖)(

𝜕µ𝑖

𝜕ƞ𝑖)

2𝑛

𝑖=1

As equações de verosimilhança descrita em (3.5), não têm solução analítica, portanto são

necessários métodos iterativos para a sua resolução.

3.4. Testes de hipóteses

Depois de obter as estimativas para os coeficientes da regressão é necessário avaliar a sua

significância, isto é, determinar se as variáveis independentes introduzidas no modelo

estão significativamente associadas à variável dependente (Hosmer and Lemeshow,

2013). Para esse efeito recorremos à estatística de Wald e à estatística da razão de

verosimilhanças.

3.4.1. Teste de Wald

O teste de Wald é utilizada para testar a hipótese nula de que o parâmetro βj estimado é

igual a zero.

As hipóteses a testar são:

𝐻0: 𝛽𝑗 = 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1: 𝛽𝑗 ≠ 0, 𝑗 = 1, … , 𝑝

A estatística de teste e a respetiva distribuição, sob a validade de H0 são:

𝑊𝑗 =��𝑗

𝑠𝑒(��𝑗)∩ 𝑁(0,1)

Page 20: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

12

3.4.2. Teste da razão de verosimilhanças

O teste da razão de verosimilhanças é utilizado para comparar a qualidade do ajustamento

de dois modelos aninhados, isto é, modelos em que um tem o subconjunto de variáveis

do outro modelo. Também se pode dizer que este teste avalia a significância dos

coeficientes estimados simultaneamente, ou seja verifica se o modelo estimado é

globalmente significativo.

Dados dois modelos aninhados, 𝑀𝑝 e 𝑀𝑞, com um número de variáveis p e q

respetivamente, tal que p < q, para comparar a qualidade de ajustamento de dois modelos

aplica-se o teste da razão de verosimilhanças, sob a hipótese de que as q-p variáveis no

modelo não apresentam acréscimo significativo na qualidade do modelo.

Hipóteses a testar:

𝐻0: 𝐴𝑠 𝑞 − 𝑝 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠 𝑛𝑜 𝑚𝑜𝑑𝑒𝑙𝑜 𝑛ã𝑜 𝑠ã𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜𝑠

𝑣𝑒𝑟𝑠𝑢𝑠

𝐻1: 𝐴𝑠 𝑞 − 𝑝 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠 𝑛𝑜 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ã𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜𝑠

A estatística de teste e a respetiva distribuição, sob a validade de H0:

𝐺 = −2 [ln (𝐿𝑀𝑝

(𝛽))

ln (𝐿𝑀𝑞(𝛽))

] ∩ χ2𝑞−𝑝

(3.8)

onde ln (𝐿𝑀𝑝(𝛽)) é a função logaritmo da verosimilhança do modelo 𝑀𝑝 com p variáveis

e ln (𝐿𝑀𝑞(𝛽)) é a função logaritmo da verosimilhança do modelo 𝑀𝑞 com q variáveis.

3.5. Seleção de modelos

A seleção de modelos é uma parte importante de toda a investigação em modelação

estatística e envolve a procura de um modelo que seja o mais simples possível e que

descreva bem os dados observados. Na prática há geralmente um elevado número de

variáveis que podem ser potencialmente importantes para explicar a variabilidade da

variável resposta. Isto implica a existência de vários modelos com combinações diferentes

das variáveis explicativas para explicar o fenómeno em causa, o que torna o processo da

Page 21: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

13

seleção mais difícil e mais moroso. Para facilitar o processo da seleção vários

investigadores utilizaram o método de seleção stepwise.

Método stepwise

O método stepwise é um procedimento automático de seleção das variáveis em direção

backward, forward e both. A direção forward inicia-se a partir de um modelo nulo e

adiciona uma de cada vez as variáveis que podem ser significativas para explicar a

variabilidade da variável resposta. O modelo nulo é um modelo simples com apenas um

parâmetro que representa o mesmo valor médio µ para todas as observações yi.

O caso da direção backward é ao contrário da direção forward, inicia-se a partir de um

modelo completo e verifica a cada passo se uma variável pode ser ou não eliminada do

modelo. O modelo completo ou saturado é o maior modelo que temos a possibilidade de

considerar. Dada uma amostra com n observações, o número máximo de parâmetros para

esse modelo é igual a n, isto é, um parâmetro para cada observação.

O método both stepwise é uma combinação dos dois métodos (forward e backward).

A fase de incluir ou excluir a variável do modelo é a fase de avaliação da significância

das variáveis ou comparação dos modelos. Para isso utilizam-se medidas estatísticas

adequadas para a sua avaliação.

3.6. Avaliação do modelo

3.6.1. Deviance

A deviance é uma medida estatística que avalia a significância dos coeficientes estimados

e tem por base o teste da razão de verosimilhanças.

Considerem-se dois modelos, o primeiro com a variável presente e o segundo sem essa

variável. O teste da razão de verosimilhanças, descrito em 3.4.2, permite afirmar que, sob

a hipótese do modelo com a variável presente ser o verdadeiro modelo, a deviance é dada

por

𝐷 = −2𝐿𝑛 [

𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑐𝑜𝑚 𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 )

𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑎𝑡𝑢𝑟𝑎𝑑𝑜)] ∩ χ2

𝑛−𝑞

(3.9)

Da mesma forma, se o modelo sem essa variável for o modelo verdadeiro, a deviance é

dado por:

𝐷 = −2𝐿𝑛 [

𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑚 𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 )

𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑎𝑡𝑢𝑟𝑎𝑑𝑜)] ∩ χ2

𝑛−𝑝

(3.10)

Page 22: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

14

O valor D representa o desvio do modelo ajustado em relação ao modelo saturado. Quanto

mais próximo o modelo ajustado, µ, estiver dos dados observados, y, menor será o valor

de D.

Para avaliar a significância de uma variável explicativa no modelo, calcula-se a diferença

entre o valor de deviance do modelo sem a variável e o valor de deviance do modelo com

a variável. O valor desta diferença coincide com a estatística de razão de verosimilhanças,

sendo este valor comparado com o quantil da distribuição Qui-Quadrado e q-p graus de

liberdade. Para um determinado nível de significância, rejeita-se a hipótese de que q-p

variáveis explicativas incluídas no modelo não são significativos se o valor da estatística

de teste da razão de verosimilhança for maior que o quantil de probabilidade (1- α) da

distribuição Qui-Quadrado.

3.6.2. Critério de Informação

A outra medida utilizada para avaliar o modelo é o critério de informação de Akaike

desenvolvido por Hirotugu Akaike e proposto em 1974. Esta medida não é um teste de

hipóteses, é uma estatística que tem por base o logaritmo da verosimilhança e penaliza o

modelo com muitas variáveis. A medida AIC é dada por

𝐴𝐼𝐶 = −2[𝐿𝑜𝑔(𝐿) − 𝑘]

(3.11)

Onde k é o número de parâmetros do modelo, e L é o valor da verosimilhança para o

modelo estimado.

A AIC é uma medida relativa da informação perdida por ajuste de um determinado

modelo, permite comparar modelos aninhados ou não, contrariamente a medida deviance

que compara apenas os modelos aninhados. Quanto menor for este valor menor será a

informação perdida e, portanto, melhor será o ajustamento do modelo.

3.6.3. Análise de resíduos

A análise de resíduos é útil, para avaliar a qualidade de ajustamento de um modelo no que

diz respeito à escolha da distribuição, da função de ligação e de termos do preditor linear,

como também identificar observações mal ajustadas pelo modelo (Turkman e Silva,

2000).

As técnicas usadas para a análise de resíduos nos modelos lineares generalizados são

semelhantes ao do modelo clássico de regressão.

Para a i-ésima observação define-se o resíduo como a diferença entre o valor observado

𝑦𝑖 e o valor µ𝑖 estimado pelo modelo.

Page 23: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

15

Resíduo de Pearson

O resíduo de Pearson é calculado pela seguinte expressão:

𝑟𝑖𝑝 =𝑦𝑖−µ𝑖

√𝑉(µ𝑖) , i = 1, 2, … n

(3.12)

O resíduo 𝑟𝑖𝑝 corresponde à contribuição da i-ésima observação para o cálculo da

estatística de Pearson generalizada, dada pela seguinte expressão:

𝑋2 = ∑

(𝑦𝑖 − µ𝑖)2

𝑉(µ𝑖)

𝑛

𝑖=1

(3.13)

onde 𝑉(µ𝑖) é a função de variância estimada para a distribuição do modelo em estudo.

Resíduo da deviance

O resíduo da deviance correspondente à i-ésima observação é dado por

𝑟𝐷 = 𝑠𝑖𝑛𝑎𝑙(𝑦𝑖 − µ𝑖)√𝑑𝑖

(3.14)

Onde 𝑑𝑖 é a contribuição da i-ésima observação para a medida deviance definida em

3.6.1.

Resíduos standardizados

Para uma análise adequada dos resíduos é necessário que eles sejam standardizados pelo

respetivo desvio padrão.

O resíduo de Pearson standardizado é dado por

𝑟𝑖𝐸 =

𝑦𝑖 − µ𝑖

√𝑉(µ𝑖)(1 − ℎ𝑖𝑖)

(3.15)

Onde ℎ𝑖𝑖 são os valores da diagonal da matriz de projeção 𝐻 = 𝑊1/2𝑋(𝑋′𝑊𝑋)−1𝑋′𝑊1/2.

O resíduo da deviance standardizado é dado por

𝑟𝐷𝐸 =𝑟𝐷

√(1 − ℎ𝑖𝑖)

(3.16)

Page 24: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

16

3.6.4. Observações influentes

A ideia básica sobre os pontos de influência consiste em verificar a dependência do

modelo estatístico em relação às várias observações que foram recolhidas e ajustadas

(Cordeiro e Lima, 2006).

Outlier é uma observação distante das outras em termos das variáveis explicativas, e ela

pode ser, ou não, influente. Uma observação influente é aquela cuja sua eliminação do

conjunto de dados resulta em mudanças substanciais em certos aspetos do modelo. A

identificação de outliers e das observações influentes pode ser feitas através da análise de

resíduos e da medida ℎ𝑖𝑖, onde ℎ𝑖𝑖 é o elemento da diagonal da matriz de projeção. O

valor ℎ𝑖𝑖 representa a influência da i-ésima observação sobre o próprio valor ajustado, se

todas as observações têm a mesma influência sobre os valores ajustados, podemos esperar

que ℎ𝑖𝑖 esteja próximo de 𝑝

𝑛, em que p é o número de parâmetros no modelo e n é o total

das observações. Alguns autores sugerem utilizar ℎ𝑖𝑖 >2𝑝

𝑛 para indicar as possíveis

observações influentes. Para avaliar de uma forma mais geral a influência da i-ésima

observação nas estimativas dos coeficientes da regressão utiliza-se a medida distância de

Cook dada por

𝐷𝐶𝑖 =

ℎ𝑖𝑖𝑟𝑝𝑖2

𝑝(1 − ℎ𝑖𝑖)

(3.17)

Pela expressão podemos observar que o valor de 𝐷𝐶𝑖 será elevado quando o valor de ℎ𝑖𝑖

é diferente de zero e resíduos elevados. Portanto, para valores elevados de 𝐷𝐶𝑖 considera-

se a respetiva observação como influente.

3.6.5. Tipos de gráficos

A representação gráfica é um método informal para verificar a qualidade de ajuste de um

modelo. Segundo (Paula, 2013), os tipos de gráficos mais utilizados para identificar os

problemas relacionados ao ajustamento de um modelo são as seguintes:

1) Gráfico dos resíduos standardizados contra os valores ajustados ou a ordem das

observações. Este gráfico permite identificar observações consideradas outliers,

observações que estão fora do limite considerado para a distribuição dos resíduos.

2) Gráfico normal de probabilidades para resíduos com envelope permite avaliar o

pressuposto da normalidade dos resíduos e da escolha da distribuição para a

variável resposta. No caso da regressão logística é mais útil para avaliar se o

modelo em análise é ou não adequado. Se o modelo ajustado é o correto, existe

grande probabilidade de que todos os pontos estejam dentro do envelope.

3) Gráficos de ℎ𝑖𝑖 e 𝐷𝐶𝑖 contra a ordem das observações para identificar as

observações influentes.

Page 25: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

17

4. Modelo de regressão Logística

O modelo de regressão Logística é um dos casos mais importante do modelo linear

generalizado, quando se pretende modelar uma variável resposta categórica com dois

valores possíveis, dado um conjunto de variáveis explicativas (Agresti, 2002).

A principal diferença entre modelos de regressão logística e regressão linear é a

distribuição da variável resposta (Hosmer & Lemeshow, 2013), a regressão logística

substitui a distribuição Normal da variável resposta pela distribuição de Bernoulli.

Seja Y a variável resposta com distribuição de Bernoulli, e uma amostra 𝑦1, … , 𝑦𝑛 dessa

distribuição que pode tomar apenas dois valores, atribuindo-se yi = 1 ao acontecimento

de interesse e yi = 0 ao acontecimento complementar, denominados “sucesso” e

“insucesso”, respetivamente e cuja função de probabilidade é dado por

𝑓(𝑦𝑖|𝑝𝑖) = 𝑝𝑖𝑦𝑖(1 − 𝑝𝑖)

1−𝑦𝑖 , yi = 0, 1; i=1, …, n

(4.1)

Onde pi é o parâmetro desconhecido, que significa a probabilidade do sucesso P(yi = 1) e

a probabilidade do insucesso P(yi = 0) = 1 - pi.

4.1. Formulação

O objetivo é formular um modelo para a probabilidade de um objeto ou individuo

caracterizado por um vetor de variáveis explicativas (x) tomar o valor 1, isto é, formular

um modelo para o valor médio da variável resposta Yi, que corresponde a P(Yi=1|xi).

No entanto, no modelo de regressão clássico o valor médio é dado por

E (Y|xi =xi) = 𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 … + 𝛽𝑝𝑥𝑖𝑝, i = 1, …, n

A equação do modelo de regressão linear implica que a variável resposta pode assumir

valores entre -∞ e +∞, o que não corresponde ao contradomínio do modelo de regressão

logística.

Para a resolução deste problema, a regressão logística reescreve o modelo linear de modo

a permitir que o valor da variável resposta varie entre 0 e 1. Isto é obtido pela seguinte

equação

𝑃(𝑌𝑖 = 1|𝐱) =

𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝

1 + 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝

(4.2)

As componentes do vetor β são os parâmetros desconhecidos do modelo.

Para descrever uma relação linear entre a variável resposta e as variáveis explicativas faz-

se o uso da função logit que é o logaritmo da razão entre a probabilidade de sucesso e a

probabilidade de insucesso. A equação da função logit é o seguinte

Page 26: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

18

𝑙𝑜𝑔𝑖𝑡[ 𝑝(𝑌𝑖 = 1|𝑋)] = 𝑙𝑛 [

𝑝(𝑌𝑖 = 1|𝑋)

1 − 𝑝(𝑌𝑖 = 1|𝑋)]

(4.3)

= 𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 + ⋯ + 𝛽𝑝𝑥𝑖𝑝

Os coeficientes de regressão βj, j = 1,…,p representam a variação esperada no logaritmo

da chance por unidade de variação na variável xj.

4.2. Estimação dos coeficientes de regressão

Para a estimação dos coeficientes de regressão usa-se o método da máxima

verosimilhança (descrito na secção 3.3), partindo do pressuposto que existe

independência dos valores observados, a função de máxima verosimilhança para dados

binários é obtido como o produto dos termos dado em expressão (4.1) do seguinte modo

𝐿(𝛽) = ∏ 𝑝𝑖𝑦𝑖(1 − 𝑝𝑖)

1−𝑦𝑖

𝑛

𝑖=1

Na prática usa-se o logaritmo da função verosimilhança (ou log-verosimilhança) para

simplificar a tarefa de obtenção dos estimadores, e é dado por

ln(𝐿(𝛽)) = 𝑙(𝛽) = ∑ [𝑦𝑖𝑙𝑛 (𝑝 (𝑌𝑖 = 1|𝑋)

1 − 𝑝 (𝑌𝑖 = 1|𝑋)) + 𝑙𝑛(1 − 𝑝 (𝑌𝑖 = 1|𝑋))]

𝑛

𝑖=1

Substituindo 𝑙𝑛 (𝑝 (𝑌𝑖=1|𝑋)

1− 𝑝 (𝑌𝑖=1|𝑋)) = 𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 + ⋯ + 𝛽𝑝𝑥𝑖𝑝

e 1 − 𝑝(𝑌𝑖 = 1|𝑋) = 1

1+ 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝

, obtém-se

𝑙(𝛽) = ∑[𝑦𝑖(𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 + ⋯ + 𝛽𝑝𝑥𝑖𝑝) − ln(1 + 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝)]

𝑛

𝑖=1

O valor de β que maximiza 𝑙(β) é obtido após derivar 𝑙(β) em relação aos parâmetros

(β1, β2, β3,…, βp). Caso não seja possível uma solução analítica serão necessários

métodos iterativos para a sua resolução.

Page 27: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

19

4.3. Qualidade de ajustamento

Depois de obter as estimativas dos coeficientes da regressão, é necessário avaliar a

qualidade do modelo ajustado. O primeiro passo desta avaliação é verificar se os

coeficientes estimados são significativos, isto é, se existe uma associação estatisticamente

significativa entre as variáveis explicativas e a variável resposta. Para isso utiliza-se o

teste de Wald e o teste da razão de verosimilhança descrita na secção 3.4.

4.3.1. Hosmer e Lemeshow

O teste de Wald e o teste da razão de verosimilhança têm como objetivo avaliar a

significância de cada variável explicativa incluída no modelo. No caso do teste de Hosmer

e Lemeshow, este é utilizado para avaliar de uma forma geral a qualidade do ajuste de um

modelo, ou seja, a hipótese a testar é:

𝐻0: 𝑂 𝑚𝑜𝑑𝑒𝑙𝑜 𝑎𝑗𝑢𝑠𝑡𝑎 − 𝑠𝑒 𝑏𝑒𝑚 𝑎𝑜𝑠 𝑑𝑎𝑑𝑜𝑠

𝑣𝑒𝑟𝑠𝑢𝑠

𝐻1: 𝑂 𝑚𝑜𝑑𝑒𝑙𝑜 𝑛ã𝑜 𝑠𝑒 𝑎𝑗𝑢𝑠𝑡𝑎 𝑏𝑒𝑚 𝑎𝑜𝑠 𝑑𝑎𝑑𝑜𝑠

Estatística de teste e respetiva distribuição:

𝑋𝐻𝐿2 = ∑

(𝑧𝑖 − ��𝑖)2

��𝑖

𝑔

𝑖=1

∩ χ2(𝑔−2)

(4.4)

𝑧𝑖 = ∑ 𝑦𝑗𝑛𝑖𝑗=1 , ni é a dimensão do grupo i = 1, … , g e ��𝑖 = ∑ ��𝑗

𝑛𝑖𝑗=1

A estratégia para o cálculo desta estatística é a divisão da amostra em g grupos. O número

de grupos mais utilizado é g = 10. A distribuição dos grupos é feita com dimensão

aproximadamente igual, sendo o primeiro grupo constituído pelas observações que

possuem os menores valores para as probabilidades estimadas e o último grupo será

constituído pelas observações que possuem os valores mais altos para as probabilidades

estimadas. A forma de organizar a distribuição desses dados é uma tabela de contingência

g x 2. Esta tabela contém as frequências observadas e esperadas. A frequência esperada é

dada pela soma das probabilidades estimadas de todos os indivíduos dentro de cada grupo,

g = 1,..., 10, para o caso da variável resposta, Y = 1. Ao que refere a variável resposta, Y

= 0, a frequência esperada é dada pela soma de 1 – probabilidades estimadas de todos os

indivíduos dentro de cada grupo. Depois disso calcula-se o valor da estatística de teste de

Hosmer e Lemeshow e compara-se com o quantil de probabilidade (1-α) da distribuição

Qui-Quadrado de Pearson e g – 2 graus de liberdade a um dado nível de significância (α).

A hipótese do modelo se ajustar bem aos dados é rejeitada se o valor-p associado a

estatística de teste for menor que o nível de significância α.

Page 28: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

20

4.3.2. Qui-Quadrado de Pearson

O teste de Qui-Quadrado de Pearson é também utilizado na avaliação do modelo.

De acordo com a expressão (3.12) definida na secção 3.6.3, a fórmula para o cálculo do

resíduo é:

𝑟𝑖𝑝 =𝑦𝑖−𝑝𝑖

√𝑝𝑖(1−𝑝𝑖), i = 1,2, … n

Assim, a estatística de teste é dada pelo quadrado da soma dos resíduos:

𝑋2 = ∑(𝑦𝑖 − ��𝑖)

2

��𝑖(1 − ��𝑖)

𝑛

𝑖=1

∩ χ2(𝑛−𝑝−1)

A hipótese nula (H0) é rejeitada se o valor p associado a estatística de teste for menor que

um dado nível de significância.

4.4. Capacidade preditiva do modelo

Quando o objetivo de ajustamento do modelo de regressão Logística é a predição, é

necessário que o modelo tenha ótimo poder de discriminação, pois o erro de classificação

tem as suas consequências.

A análise do poder de discriminação é feita por meio de algumas medidas de desempenho

como a sensibilidade, a especificidade e a percentagem total de acertos. Para melhor

estudar estas medidas, Hosmer e Lemeshow sugerem dois métodos:

Curva ROC

Tabela de contingência

4.4.1. Curva ROC

Seja Y = 1 se um indivíduo selecionado na população em estudo for classificado como

acontecimento de interesse e Y = 0 se classificado como não acontecimento. Para esta

classificação, é necessário estabelecer um ponto de corte que determina a probabilidade

de um dado indivíduo ser classificado em uma determinada classe. O ponto de corte mais

utilizado é C = 0.5, significa que para um valor Y maior ou igual a 0.5 o indivíduo será

classificado na classe 1, caso contrário será classificado na classe 0. Através da curva

ROC é possível escolher um ponto de corte que maximiza simultaneamente a

sensibilidade e a especificidade. Ela é representada por meio de um gráfico que nos

permite estudar a variação da sensibilidade e 1- especificidade para todos os possíveis

pontos de corte entre 0 e 1.

Page 29: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

21

Em geral, o melhor ponto de corte refere-se a uma combinação da sensibilidade e 1 –

especificidade que mais se aproxima do canto superior esquerdo do gráfico.

4.4.2. Tabela de contingência

A tabela de contingência é uma tabela 2 x 2 para o ponto de corte escolhido, como

apresentado na tabela abaixo.

Tabela de classificação para as duas classes

A partir da tabela de classificação, as medidas de desempenho do modelo são definidas

como:

A sensibilidade é a probabilidade da classificação correta do acontecimento de interesse,

isto é, P(Y = 1|Y = 1) =n22

n.2.

A especificidade é a probabilidade da classificação correta do não acontecimento,

P(Y = 0|Y = 0) =n11

n.1.

A percentagem total de acertos é dada por n11 + n22

n x 100.

Além de o gráfico da curva Roc fornecer o melhor ponto de corte, a área abaixo da curva

que varia entre 0 e 1, dá uma medida da capacidade do modelo em discriminar os valores

da variável resposta, Y = 1, dos valores de Y = 0. Hosmer e Lemeshow (2013)

apresentaram uma regra geral para avaliação do resultado da área abaixo da curva ROC:

Se a área for igual a 0.5 não há discriminação

Se 0.7 ≤ área < 0.8 a discriminação é aceitável

Se 0.8 ≤ área < 0.9 a discriminação é excelente

Se a área ≥ 0.9 a discriminação é excecional

4.5. Interpretação dos coeficientes de regressão

Depois de ajuste do modelo, assumindo o pressuposto de que o modelo se ajuste bem aos

dados e de que os coeficientes estimados são significativos, é necessário interpretar os

valores associados aos coeficientes do modelo. A interpretação dos coeficientes do

modelo de regressão depende da natureza das variáveis explicativas que podem ser

Classificação Valores Observados

Classe (0) Classe (1)

Total

Classe (0) 𝑛11 𝑛12 𝑛1.

Classe (1) 𝑛21 𝑛22 𝑛2.

Total 𝑛.1 𝑛.2 𝑛

Page 30: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

22

categóricas ou contínuas. No caso da variável explicativa categórica é necessário criar

variáveis auxiliares para que possam ser introduzidas no modelo. Estas variáveis também

são designadas de variáveis dummy.

4.5.1. Variável independente dicotómica

Quando a variável explicativa, x, é categórica e pode assumir dois valores possíveis. Se

x tomar os valores 0 e 1, podemos construir uma tabela de contingência com as

probabilidades que se pretendem estimar, nomeadamente a probabilidade em que a

variável resposta, Y, pode assumir o valor 1 segundo os dois valores possíveis de x, ou

seja, p1 = P(Y = 1|𝐱 = 1) e p0 = P(Y = 1|𝐱 = 0):

x = 1 x = 0

Y = 1 𝑝1 𝑝0

Y = 0 1 − 𝑝1 1 − 𝑝0

Tendo em consideração a equação (4.2), a expressão do cálculo de 𝑝1 e 𝑝0 é

respetivamente, dada por

𝑝1 =𝑒𝛽1 +𝛽2

1+𝑒𝛽1+ 𝛽2e 𝑝0 =

𝑒𝛽1

𝑒𝛽1

Portanto, pode definir-se a chance (odds) da seguinte forma:

𝑝1

1−𝑝1= 𝑒𝛽1+𝛽2 e

𝑝0

1−𝑝0= 𝑒𝛽1

A razão 𝑝1

1−𝑝1 corresponde à chance da variável resposta assumir o valor 1 em relação ao

valor 0 quando a variável explicativa é igual a 1, x = 1. Da mesma forma a razão 𝑝0

1−𝑝0

significa a chance da variável resposta assumir valor 1 em relação ao valor 0 quando a

variável explicativa é igual a 0, x = 0.

Também se verifica que ao aplicar a função logit

𝑙𝑜𝑔𝑖𝑡[P(Y = 1|𝐱 = 1)] = ln (p1

1 − p1)

= β1 + β2 (4.5)

𝑙𝑜𝑔𝑖𝑡[P(Y = 1|𝐱 = 0)] = ln (p0

1 − p0)

= β1

(4.6)

Observando as expressões (4.5) e (4.6) pode concluir-se que β2 é dado pela diferença dos

logit.

Page 31: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

23

A razão entre as chances é designada por razão da chance ou em termo inglês odds ratio,

a sua expressão é dada por

𝑂𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 =

𝑝1

1−𝑝1𝑝0

1−𝑝0

Substituindo os valores de 𝑝1

1−𝑝1 e

𝑝0

1−𝑝0 pelas expressões apresentadas anteriormente, vem

𝑂𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 =𝑒𝛽1+𝛽2

𝑒𝛽1

= 𝑒𝛽2

O valor da razão de chance representa o risco para a variável resposta Y tomar valor 1

quando a variável explicativa x = 1, em relação a x = 0. O intervalo de 100% (1-α) de

confiança para a estimativa eβ2 é dado por

𝑒(𝛽2±𝑍

1−𝛼2

𝑆��(𝛽2))

Onde 𝑍1−𝛼

2 é o quantil de probabilidade da distribuição Normal de valor médio zero e

variância unitária.

4.5.2. Variável independente policotómica

Quando a variável explicativa, x, é categórica com k categorias (k>2), então é necessário

criar k-1 variáveis dummy. Estas variáveis podem assumir apenas os valores 0 ou 1. Por

conveniência as k categorias são numeradas de 0 a k-1, sendo a categoria 0 a classe

referência.

Os valores possíveis 0 ou 1 das variáveis dummy significam que se a caraterística de um

objeto ou indivíduo pertence à classe i, com i = 1,…, k-1, a todas as variáveis dummy

corresponderá o valor 0, com exceção da i-ésima classe, à qual corresponderá o valor 1.

E no caso da classe referência, se a caraterística de um objeto pertence a esta classe, então

a todas as k-1 variáveis dummy corresponderá o valor 0.

Exemplo: Suponhamos que a variável explicativa, x, foi registada com a seguinte

codificação,

𝑋 = {

0 Categoria 11 Categoria 22 Categoria 3

Para este exemplo é possível criar duas variáveis dummy, sendo a categoria 1 a classe

referência. Neste caso tem-se

Page 32: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

24

Categoria da

variável X

Variáveis dummy

Categoria 2 Categoria 3

Categoria 1 0 0

Categoria 2 1 0

Categoria 3 0 1

Assim, para cada categoria da variável explicativa pode estimar-se a probabilidade da

variável resposta assumir o valor 1 e a chance desta variável assumir o valor 1 em relação

ao valor 0.

O cálculo e interpretação do valor da razão da chance é semelhante ao caso da variável

dicotómica.

4.5.3. Variável independente contínua

Quando um modelo de regressão logística contém uma variável independente contínua, a

interpretação do coeficiente estimado será feita com base no pressuposto da linearidade

entre a variável resposta e a variável independente. Já vimos na secção (3.1) que para

estabelecer a tal relação linear utiliza-se a função logit dada por

𝑙𝑜𝑔𝑖𝑡[ p(Yi = 1|𝐱)] = ln [p(Yi = 1|𝐱)

1 − p(Yi = 1|𝐱)]

= β1 + β2𝑥

Sendo assim a interpretação do coeficiente estimado é semelhante ao do modelo clássico

de regressão. O coeficiente β2 representa a variação no logaritmo da chance por uma

unidade de variação no valor da variável independente, x.

No caso de a variável ser dicotômica vimos que existe uma diferença no logit ou logaritmo

da chance quando a variável independente passa da classe referência para outra classe.

Aqui o processo é semelhante, ao aumentar uma unidade no valor da variável, x, haverá

uma diferença β2 no logaritmo da chance e se aumentarmos k unidades, haverá uma

diferença de kβ2. Para estimar o valor de odds ratio é a exponencial de β2 ou kβ2. O

intervalo de 100% (1-α) de confiança para a estimativa ekβ2 é dado por

e(kβ2±Z

1−α2

KSE(β2))

Page 33: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

25

5. Modelo de regressão de Poisson

O modelo de regressão de Poisson desempenha um papel fundamental na análise de dados

de contagem (Turkman & Silva, 2000). Este tipo de dados assumem valores discretos (0,

1, 2, …), refletindo o número de ocorrências de um acontecimento em um período de

tempo fixo.

Diversos estudos sobre os dados de contagem utilizam a metodologia de regressão de

Poisson como modelo padrão para a análise deste tipo de dados. A razão pela qual o

modelo de regressão de Poisson é considerado a metodologia base na modelação de dados

de contagens é o facto de assumir apenas valores inteiros não negativos para o valor

esperado da variável resposta, e esta é uma característica inerente deste tipo de dados

(Coxe et al., 2009; Lord & Mannering, 2010; Hausman et al., 1984).

No entanto, este modelo apresenta limitação pelo facto de impor que o valor médio

condicional seja igual à variância condicional. Esta restrição faz com que ocorra muitas

vezes na prática o problema de sobredispersão (Turkman & Silva, 2000). A principal

causa deste fenómeno foi dada como a heterogeneidade na população e o erro de medida

das covariáveis. A consequência disso é o mau ajustamento do modelo pela subestimação

da variância dos parâmetros, o que resulta em estatísticas de teste sobrestimadas

enviesando a significância destes. Para resolver este problema, utiliza-se o modelo de

regressão Binomial Negativa.

5.1. Descrição

O objetivo da regressão de Poisson é modelar a relação de uma variável dependente Y

com um vetor de variáveis independentes xi (Winkelman, 2008).

Seja Y a variável aleatória resposta com distribuição de Poisson que pode tomar apenas

valores inteiros não negativos, e cuja função de probabilidade é dada por

𝑓(𝑦𝑖|µ𝑖) =

µ𝑖𝑦𝑖𝑒−µ𝑖

𝑦𝑖!, 𝑦𝑖 = 0,1,2,3, …,

(5.1)

Onde yi é o valor observado da variável resposta Y, e µi é o parâmetro desconhecido,

valor médio da variável Y.

Em modelo de regressão linear o valor médio da variável resposta é dado por uma

combinação linear de variáveis explicativas, isto é

E (y|𝐱) = 𝐱′β, onde β é o vetor dos parâmetros desconhecidos.

Page 34: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

26

No entanto, em modelo de regressão de Poisson não pode ser usado a fórmula acima para

o cálculo do valor médio µi, uma vez que o preditor linear pode assumir qualquer valor

real, enquanto µi, valor esperado em regressão de Poisson só assume valores não

negativos.

Para ultrapassar este problema, a regressão de Poisson permite reescrever o modelo de

regressão linear através da seguinte equação

µ(𝑥i) = e𝐱′β

Assim µi Є |R+ (números positivos).

Uma outra restrição do modelo de Poisson é o valor médio condicional igual a variância

condicional. Isto é,

E(y|𝐱) = µ = e𝐱′β

var(y|𝐱) = µ = e𝐱′β

Para estabelecer uma relação linear entre a variável resposta e as variáveis explicativas

pode usar-se a transformação logarítmica como função de ligação do modelo linear

generalizado e tem-se

ln(µ(𝑥i)) = ln(e𝐱′β)

= 𝐱′β

Os coeficientes de regressão βj, j = 1,…,p representam a variação esperada no logaritmo

do valor médio, por unidade de variação na variável xi.

5.2. Estimação dos coeficientes do modelo

Para a estimação dos coeficientes de regressão usa-se o método da máxima

verosimilhança descrita na secção (3.3), o logaritmo da verosimilhança para o modelo de

Poisson é dado por,

Page 35: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

27

ℓ(𝛽) = ∑(𝑦𝑖

𝑛

𝑖=1

ln(µ(𝑥𝑖)) − µ(𝑥𝑖) − 𝑙𝑛(𝑦𝑖!))

(5.2)

Substituindo 𝑙𝑛(µ(𝑥𝑖))eµ(𝑥𝑖) por (𝐱′β) e (e𝐱′β) respetivamente, obtém-se

𝑙(𝛽) = ∑ [𝑦𝑖𝛽1 + 𝑦𝑖𝛽2𝑥𝑖2 + 𝑦𝑖𝛽3𝑥𝑖3 + ⋯ + 𝑦𝑖𝛽𝑝𝑥𝑖𝑝 − 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝 −𝑛𝑖=1

𝑙𝑛 (𝑦𝑖!)]

Para encontrar a estimativa dos parâmetros é necessário a utilização de métodos iterativos.

5.3. Qualidade de ajustamento

Para avaliar a qualidade de ajuste de um modelo de Poisson com p parâmetros

independentes aos dados 𝑦1, … , 𝑦𝑛, utiliza-se a medida AIC definida na secção (3.6.2), a

razão de verosimilhanças e o Qui-Quadrado de Pearson.

A deviance para o modelo de regressão de Poisson é dada através da equação (3.9)

descrita na secção (3.6.1) e equação (5.3), obtendo-se a seguinte expressão

𝐷 = 2 ∑ (𝑦𝑖𝑙𝑛 (𝑦𝑖

µ𝑖) − (𝑦𝑖 − µ𝑖))

𝑛

𝑖=1

A outra medida importante na avaliação do modelo ajustado em relação aos dados é o

Qui-Quadrado de Pearson. Pela expressão (3.13) definida na secção (3.6.3), substitui-se

a função de variância, V(µ𝑖) = µ𝑖, logo obtêm-se a seguinte expressão

𝑋2 = ∑(𝑦𝑖 − µ𝑖)

2

µ𝑖

𝑛

𝑖=1

Page 36: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

28

Também, para o modelo de regressão de Poisson é possível calcular a percentagem da

deviance reduzida, ou seja, a variabilidade nos dados explicados pelo modelo, através da

seguinte expressão (Coxe et al., 2009).

(1 −D(Modelo ajustado)

D(Modelo nulo)) x 100

Page 37: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

29

6. Modelo de regressão Binomial Negativa

O modelo de regressão Binomial Negativa é utilizado em alternativa ao modelo de

Poisson quando ocorre o problema de sobredispersão por considerar um parâmetro

adicional de dispersão (α) no cálculo da variância condicional. Este parâmetro é não

negativo, portanto a variância condicional é, ou pode ser, maior do que o valor médio.

6.1. Descrição

Seja Y a variável resposta com distribuição Binomial Negativa, parâmetro µ ≥ 0 e α ≥ 0,

cuja função de probabilidade é dada por

𝑓(𝑦𝑖|µ𝑖; 𝛼) = (

𝛤(𝑦𝑖 + 𝛼)

𝛤(𝑦𝑖 + 1)𝛤(𝛼)) (

𝛼

𝛼 + µ𝑖)

𝛼

(µ𝑖

𝛼 + µ𝑖)

𝑦𝑖

com 𝑦𝑖

= 0, 1, 2 …,

(6.1)

Onde 𝚪(.) é a função gama. O valor médio e a variância são dadas, respetivamente por,

𝐸(𝑌𝑖) = µ𝑖

𝑉𝑎𝑟(𝑌𝑖) = µ𝑖 + 𝛼µ𝑖2

A formulação do modelo de regressão Binomial Negativa é semelhante aos outros

modelos lineares generalizados. A parte sistemática é dada por g(µi) = 𝐱i′β, em que 𝐱i =

(𝑥𝑖1, … , 𝑥𝑖𝑝) contém valores de variáveis explicativas e β = (β1, … , β𝑝)𝑇 é um vetor de

parâmetros desconhecidos. A função de ligação g(.) utilizada é a logarítmica assim como

nos modelos de Poisson. Assim sendo, µ𝑖 = 𝑒𝐱i′β, logo o valor médio condicional,

E(Yi|𝐱i) = e𝐱i′β e a variância condicional, Var(Yi|𝐱i) = e𝐱i

′β + 𝛼e𝟐𝐱i′β.

Aplicando a transformação logarítmica, o modelo de regressão Binomial Negativa é dado

por

𝑙𝑛(µi) = 𝐱i′β

6.2. Estimação dos coeficientes do modelo

O método utilizado para estimar os coeficientes de regressão é a máxima verosimilhança.

O logaritmo da verosimilhança para o modelo de regressão Binomial Negativa é dado por

𝑙(𝛽) = ∑ (𝑦𝑖𝑙𝑛 (𝛼µ𝑖

1 + 𝛼µ𝑖) − (

1

𝛼) 𝑙𝑛(1 + 𝛼µ𝑖) + 𝑙𝑛 (

𝛤 (𝑦𝑖 +1

𝛼)

𝛤(𝑦𝑖 + 1)𝛤 (1

𝛼)

))

𝑛

𝑖=1

Page 38: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

30

Para encontrar a estimativa dos parâmetros (α e β) é necessário a utilização de métodos

iterativos.

6.3. Qualidade de ajustamento

Para avaliar a qualidade de ajustamento de um modelo de regressão Binomial Negativa

com p parâmetros independentes aos dados 𝑦1, … , 𝑦𝑛, utilizam-se as mesmas estatísticas

que para o modelo de Poisson.

A expressão de cálculo da deviance para o modelo de regressão Binomial Negativa é dada

por

𝐷 = 2 ∑ (𝑦𝑖𝑙𝑛 (𝑦𝑖

µ𝑖) − (

1

𝛼+ 𝑦𝑖) 𝑙𝑛 (

1 + 𝛼𝑦𝑖

1 + 𝛼µ𝑖))

𝑛

𝑖=1

Pela expressão (3.13) dada na secção (3.6.3), substitui-se a função da variância, V(µ𝑖) =

µ𝑖 + 𝛼µ𝑖2, logo obtêm-se a seguinte expressão da estatística Qui-Quadrado de Pearson

𝑋2 = ∑(𝑦𝑖 − µ𝑖)

2

µ𝑖 + 𝛼µ𝑖2

𝑛

𝑖=1

Page 39: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

31

7. Análise e modelação de dados

Neste capítulo, o objetivo é aplicar a metodologia de modelos lineares generalizados,

considerando duas amostras obtidas a partir do conjunto de dados Stats19 (2013). A

primeira amostra vai ser utilizada para estudar a severidade de acidentes rodoviários. A

segunda amostra será utilizada para estudar a ocorrência de acidentes rodoviários por dia.

Este capítulo está organizado da seguinte maneira. A secção 7.1 apresenta o conjunto de

dados Stats19, o processo de como foram extraídas as duas amostras de dados e a análise

exploratória destes dados. Por fim, na secção 7.2, são apresentados os modelos estimados,

assim como é feita a seleção do modelo que melhor se ajusta aos dados.

7.1. Base de dados

O conjunto de dados Stats19 (2013) utilizado neste trabalho refere-se a acidentes

rodoviários na Grã-Bretanha a nível nacional. Estes dados são preenchidos pelas

autoridades policiais num formulário estatístico de acidente onde descrevem os detalhes

sobre as circunstâncias dos acidentes, as informações dos veículos e das vítimas conforme

se apresentam no Anexo 1. Todos esses dados são transferidos, guardados e mantidos

pelo Departamento de Transporte britânico, em três ficheiros. O primeiro ficheiro

constitui as características dos acidentes. O segundo ficheiro dispõe as características dos

veículos envolvidos nos acidente e o terceiro ficheiro contém as características das

vítimas. O fenómeno em estudo é a ocorrência de acidentes rodoviários, sendo necessária

a utilização destes três ficheiros de dados.

A apresentação e o resumo dos três ficheiros de dados utilizando gráficos de barras

encontram-se disponíveis no Anexo 2.

O primeiro ficheiro acidentes.csv constitui uma base de dados com o total de 1494275

acidentes rodoviários ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 e 31 de

Dezembro de 2013. Do total de 1494275 acidentes rodoviários, a maior percentagem de

acidentes, cerca de 74.8 %, ocorreram em estradas de via simples, seguindo-se as estradas

de via dupla e as rotundas com 14.8% e 6.7%, respetivamente. Finalmente as estradas de

sentido único e as estradas escorregadias apresentaram menores frequências de acidentes.

Quanto ao limite de velocidade verificou-se que a maioria dos acidentes ocorreram nas

estradas com limite ≥ 30 milhas por hora.

A distribuição de acidentes rodoviários segundo as condições de iluminação apresenta-se

no Anexo 2. Verificou-se que a maior percentagem de acidentes ocorreu à luz do dia.

Relativamente às condições da superfície de estradas, a maioria dos acidentes rodoviários

ocorreu com estrada seca.

O segundo ficheiro veículos.csv constitui uma base de dados no total de 2735898 veículos

envolvidos nos acidentes. Do total dos veículos envolvidos nos acidentes, a maioria foram

Page 40: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

32

os veículos ligeiros. A maioria dos condutores foram do género masculino, com faixa

etária entre os 20 a 45 anos.

Por último, o terceiro ficheiro vítimas.csv constitui uma base de dados no total de

2022243 vítimas de acidentes. Das vítimas de acidentes, a maioria foram os condutores,

com 62.9%, seguindo-se os passageiros com 24.6%, e os peões com 12.4%. Também se

verificou que a maioria das vítimas sofreram ferimentos ligeiros, 87.7%, enquanto os

ferimentos graves e fatais foram 11.2% e 1.1 %, respetivamente.

7.1.1. Dados da severidade de acidentes rodoviários

A primeira análise foi estudar os fatores que influenciam a ocorrência de acidentes não

ligeiros. Para tal, aplicou-se o filtro à base de dados correspondente ao ficheiro

acidentes.csv para reduzi-la a uma amostra onde cada observação corresponde a acidente

envolvendo um veículo, e as vítimas podem ser condutores, passageiros e peões. Assim

deu-se origem a uma nova base de dados com a dimensão de 870641 acidentes. As

informações sobre os veículos e as vítimas foram selecionadas das bases de dados

correspondentes aos ficheiros veículos.csv e vítimas.csv, respetivamente.

Para a construção do modelo estatístico, utilizou-se a metodologia regressão Logística e

a variável resposta foi a severidade de acidentes. Esta variável assume dois valores

possíveis (0 e 1), em que 0 representa acidentes ligeiros e 1 corresponde a acidentes não

ligeiros.

No ficheiro vítimas.csv é dado o valor da severidade de cada vítima com a seguinte

escala:

Escala da severidade das vítimas em cada

acidente

1 Ferimentos fatais

2 Ferimentos graves

3 Ferimentos ligeiros

Para a nova base de dados, agruparam-se as categorias “ferimentos fatais” e “ferimentos

graves” numa só categoria “ferimentos não ligeiros”, que passou a tomar o valor 1, e a

categoria “ferimentos ligeiros” tomou o valor 0. Portanto para obter o valor da variável

resposta severidade dos acidentes calculou-se a média da severidade de todas vítimas em

um acidente, que só é considerado ligeiro se todas as vítimas tiverem ferimentos ligeiros.

De acordo com a revisão da literatura nomeadamente Dissanayake (2002), Eluru & Bhat

(2007), Eluru et al. (2008), Ghamdi (2002), Kong & Yang (2010), Valent et al. (2002) e

Zajac & Ivan (2003), identificaram as características humanas, ambientais e dos veículos,

como fatores que influenciam a severidade dos acidentes. A partir da base dados Stats19

foram selecionadas para análise da severidade de acidentes rodoviários as seguintes

variáveis explicativas.

Page 41: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

33

Dia de semana

Hora do dia

Mês do ano

Género do condutor

Faixa etária do condutor

Tipo de veículo

Condições de iluminação

Idade do veículo

Velocidade limite na estrada

A tabela 7.1 apresenta as variáveis em estudo e as respetivas categorias.

Tabela 7.1: As variáveis em estudo e respetivas categorias

Variáveis Categorias

Severidade de acidentes 0-acidentes ligeiros

1-acidentes não ligeiros

Dia da semana 0-dias úteis

1-domingo

2-sábado

Hora do dia 1-1 a 5 horas

2-6 a 11 horas

3-12 a 17 horas

4-18 a 24 horas

Meses do ano 1-Dezembro a Fevereiro

2-Março a Maio

3-Junho a Setembro

4-Outubro a Novembro

Género do condutor 0-Feminino

1-Masculino

Faixa etária dos condutores 1-<36 anos

2-36-55 anos

3->55anos

Tipos de veículos 1-Automóvel (veículos ligeiros)

2-motocicleta

3-camião

4-outro (Táxi, minibus, autocarro e

veículo de agricultura)

Condições de iluminação 0-luz do dia

1-não luz do dia

Idade do veículo Anos

Velocidade limite nas estradas 1-<30 milhas/horas

2-30-50 milhas/horas

3->50 milhas/horas

Para a análise exploratória dos dados, no caso das variáveis explicativas qualitativas (dia

da semana, meses do ano, velocidade limite nas estradas, tipos de veículos, hora do dia e

condições de iluminação) utilizou-se os gráficos de barras. Estes representam a proporção

de elementos da amostra de cada categoria de uma variável. A idade do veículo é uma

variável quantitativa contínua, portanto, vai ser apresentada a medida de tendência central

e a medida de dispersão, assim como o diagrama de caixa e o gráfico de barras.

Page 42: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

34

Idade do veículo

A figura 7.1 apresenta a distribuição de acidentes rodoviários segundo a variável idade

do veículo. Esta figura sugere que a variável idade do veículo tem distribuição enviesada

à direita, ou seja menos concentrada na parte superior do que na parte inferior.

A idade do veículo varia entre 1 a 111 anos, respetivamente, sendo a idade média de 7.3

e o desvio padrão de 4.6.

Figura 7.1: Boxplot e gráfico de barras para a variável idade do veículo

Dias da semana e meses do ano

A figura 7.2 apresenta a distribuição de acidentes rodoviários segundo os dias da semana

e os meses do ano. Podemos observar que em dias úteis há maior frequência de acidentes

rodoviários, enquanto no domingo é menos frequente a ocorrência de acidentes.

Relativamente à variável meses do ano, verifica-se que nos meses de Junho a Setembro

há maior percentagem de acidentes rodoviários e menor percentagem nos meses de

Outubro a Novembro.

Figura 7.2: Distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano

Page 43: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

35

Velocidade limite nas estradas e tipos de veículos

A figura 7.3 apresenta a distribuição de acidentes rodoviários segundo a velocidade limite

nas estradas e os tipos de veículos. Podemos verificar que a maioria de acidentes

rodoviários ocorrem a uma velocidade limite de 30-50 milhas por hora nas estradas, e do

total dos veículos na amostra a maioria são os automóveis.

Figura 7.3: Distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os tipos de

veículos

Hora do dia e condições de iluminação

A figura 7.4 apresenta a distribuição de acidentes rodoviários segundo a hora do dia e as

condições de iluminação. Esta figura mostra que os acidentes rodoviários são mais

frequentes no horário das 12-17 horas, cerca de 37.40% das observações, e menos

frequentes nos horários das 1-5 horas e 18-24 horas. Relativamente à variável condições

de iluminação, verifica-se que é mais frequente a ocorrência de acidentes à luz do dia,

cerca de 73.4% das observações.

Figura 7.4: Distribuição de acidentes rodoviários segundo a hora do dia e as condições de iluminação

Page 44: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

36

Género e faixa etária do condutor

Por último, a figura 7.5 apresenta a distribuição de acidentes rodoviários segundo o

género e a faixa etária do condutor. Através desta figura podemos observar que os

condutores do género masculino são os que mais se envolvem em acidentes, com 66.7%

das observações da amostra. Quanto à variável faixa etária verifica-se que os condutores

com menos de 36 anos sofrem mais acidentes, cerca de 45% dos valores observados, e

são menos frequentes em condutores com mais de 55 anos, 15.20% da mostra da amostra

total.

Figura 7.5: Distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor

Associação entre a variável resposta e as variáveis explicativas

Uma tabela de contingência cruza os possíveis valores de uma variável qualitativa, X,

com os possíveis valores da outra variável, Y, registando quantas ocorrências foram

verificadas em cada combinação das diversas categorias das variáveis. O objetivo inicial

da análise de tabelas de contingência é averiguar se existe ou não alguma relação entre as

variáveis aleatórias que presidiram à classificação cruzada.

Tendo sido observadas n ocorrências, pode efetuar-se um teste de independência, com as

hipóteses:

H0: As variáveis X e Y são independentes versus H1: As variáveis X e Y não são independentes

A estatística de teste compara frequências observadas com frequências esperadas, e sob

a validade de H0:

𝑋2 = ∑ ∑(𝑛𝑖𝑗 − 𝑒𝑖𝑗)

2

𝑒𝑖𝑗

𝑐

𝑗=1

𝑟

𝑖=1

∩ χ2(𝑟 −1)(𝑐 −1)

Page 45: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

37

onde nij representa a frequência observada na célula (i, j), r é o número de categorias

da variável Y, c é o número de categorias da variável X, n=rxc e 𝑒𝑖𝑗 representa a

frequência esperada na célula (i, j), estimada por:

eij = total da linhai ∗ total da colunaj

total da amostra

A hipótese H0 será rejeitada quando a diferença entre frequências observadas e

frequências esperadas for demasiado elevada, ou seja, quando o valor da estatística

de teste for maior que o valor crítico da distribuição Qui-Quadrado de Pearson (χ2).

Ainda sob a hipótese de H0 ser verdadeira, o valor p = P(χ2 > 𝑋02), sendo 𝑋0

2 o valor

observado da estatística de teste.

Nas tabelas 7.2 a 7.8 são apresentadas as frequências de acidentes ligeiros e não ligeiros

em cada uma das categorias das variáveis explicativas utilizadas neste estudo. As

frequências esperadas encontram-se entre os parêntesis.

Tabela 7.2: Frequência de severidade dos acidentes rodoviários segundo os dias da semana

Acidentes Dias Úteis Sábado Domingo Total

Ligeiros (0) 556186

(550947.7)

100439

(102525.3)

79957

(83109.03)

736582

Não ligeiros (1) 95035

(100273.3)

20746

(18659.7)

18278

(15125.9)

134059

Total 651221 121185 98235 870641

Tabela 7.3: Frequência de severidade dos acidentes rodoviários segundo os meses

Acidentes Dezembro

a

Fevereiro

Março

a

Maio

Junho

a

Setembro

Outubro

a

Novembro

Total

Ligeiros (0) 178523

(177013.3)

180094

(180469.01)

245604

(247252.7)

132361

(131856.01)

736582

Não ligeiros

(1)

30707

(32216.7)

33210

(32843.9)

46649

(45000.3)

23493

(23997.9)

134059

Total 209230 213304 292253 155854 870641

Tabela 7.4: Frequência de severidade dos acidentes rodoviários segundo a hora do dia

Acidentes 1-5 horas 6-11 horas 12-17 horas 18-24 horas Total

Ligeiros (0) 123735

(125933)

179407

(175102.9)

278086

(275705.2)

155354

(159840.8)

736582

Não ligeiros

(1)

25118

(22919.9)

27565

(31869)

47798

(50178.8)

33578

(29091.2)

134059

Total 148853 206972 325884 188932 870641

Page 46: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

38

Tabela 7.5: Frequência de severidade dos acidentes rodoviários segundo a condição de iluminação

Acidentes Luz do dia Não luz do dia Total

Ligeiros (0) 548634

(540792.1)

187948

(195789.9)

736582

Não ligeiros (1) 90582

(98424.9)

43476

(35634.1)

134059

Total 639217 231424 870641

Tabela 7.6: Frequência de severidade dos acidentes rodoviários segundo o tipo de veículos

Acidentes Automóvel Motociclista Camião Outro Total

Ligeiros (0) 576340

(563166.8)

69219

(80585.3)

44404

(46550.7)

46619

(46279.1)

736582

Não ligeiros

(1)

89324

(102497.2)

26033

(14666.7)

10619

(8472.3)

8083

(8422.9)

134059

Total 665664 95252 55023 54702 870641

Tabela 7.7: Frequência de severidade dos acidentes rodoviários segundo o género do condutor

Acidentes Feminino Masculino Total

Ligeiros (0) 256472

(245283.9)

480110

(491298.03)

736582

Não ligeiros (1) 33454

(44642.03)

100605

(89416.9)

134059

Total 289926 580715 870641

Tabela 7.8: Frequência de severidade dos acidentes rodoviários segundo a faixa etária do condutor

Acidentes <36 anos 36-55 anos >55 anos Total

Ligeiros (0) 332711

(331261.9)

294381

(293668.8)

109490

(111651.3)

736582

Não ligeiros (1) 58841

(60290.1)

52736

(53448.2)

22482

(20320.7)

134059

Total 391552 347117 131972 870641

A rejeição da hipótese de que as variáveis são independentes é dada quando a diferença

entre a frequência observada e a frequência esperada for demasiado elevada, pois quanto

maior é esta diferença maior será a associação entre as variáveis. Para verificar se esta

diferença é significativa, ou seja, se há evidência suficiente para considerarmos que existe

uma associação entre as variáveis explicativas e a variável resposta, utiliza-se a estatística

designada por Qui-Quadrado de Pearson. A partir do Qui-Quadrado pode-se então

calcular a probabilidade de não rejeitar a hipótese de independência entre a variável

resposta e as variáveis explicativas. No caso da associação entre a severidade de acidentes

rodoviários e as variáveis explicativas consideradas neste estudo, os valores p associados

às estatísticas de teste com distribuição do Qui-Quadrado de Pearson são de uma forma

geral todos iguais a zero, portanto a decisão é rejeitar a hipótese de independência entre

a variável severidade de acidentes rodoviários e as variáveis explicativas para qualquer

nível de significância (1%, 5% e 10%).

Page 47: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

39

Na tabela 7.9 apresentam-se os valores da estatística de teste e os respetivos valores da

probabilidade de não rejeitar a hipótese nula (H0).

Tabela 7.9: Teste de Qui-Quadrado entre as variáveis explicativas e a variável severidade de acidentes

rodoviários

Variáveis Estatística

de

teste (X2)

Valor-p

= p(χ2 > 𝑋2)

Graus

de liberdade

Dia_semana 1375.5 2.015e-299 2

Meses 172.4 3.87e-37 3

Hora_dia 1887.7 0 3

Condições_iluminação 2778.02 0 1

Tipo_veiculo 13072.2 0 3

Limite_Velocidade 3903.44 0 2

Género_condutor 4968.4 0 1

Faixa_etária_condutor 324.09 4.19e-71 2

7.1.2. Dados de ocorrências de acidentes rodoviários por dia

Para o estudo da ocorrência de acidentes rodoviários por dia, utilizou-se a base de dados

correspondente ao ficheiro acidentes.csv no total de 2494275 acidentes ocorridos entre 1

de Janeiro de 2005 a 31 de Dezembro de 2013. A informação sobre os acidentes ocorridos

por dia foi extraída desta base de dados utilizando o software Excel. Assim sendo, uma

nova base de dados foi criada no total de 3287 observações em que cada observação

corresponde ao total de acidentes ocorridos em cada dia no período de 1 de Janeiro de

2005 a 31 de Dezembro de 2013.

O estudo da ocorrência de acidentes rodoviários com modelos de regressão de Poisson é

muito comum na literatura, considerando como variáveis explicativas a geometria de

estrada, as condições climáticas e o volume de tráfego. Nesta dissertação foi estudada a

sua variação em função das variáveis dias da semana, meses, estações do ano e dias

feriados, pois a seleção das variáveis a partir da base de dados utilizada (Stats19) é

limitada devido à forma como elas estão representadas. Os dias da semana que são

feriados estão apresentados no Anexo 3. A variável resposta é quantitativa discreta e

representa o número de acidentes ocorridos por dia. Os modelos lineares generalizados

utilizados para descrever a relação entre a variável resposta e as variáveis explicativas

vão ser a regressão de Poisson e a Binomial Negativa.

Para a análise exploratória dos dados da amostra foi utilizada a representação gráfica

boxplots. Este permite visualizar a distribuição dos acidentes ocorridos segundo as

variáveis consideradas como explicativas.

Boxplot, também designado por caixa de bigodes, é um gráfico utilizado para estudar a

distribuição empírica dos dados. A sua representação permite resumir os valores da

amostra para o 1º quartil e o 3º quartil, além dos limites inferior e superior. A linha

horizontal mais baixa e a linha horizontal mais alta indicam, respetivamente os valores

mínimo e máximo da amostra. A linha no interior do retângulo é o 2º quartil ou mediana.

Page 48: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

40

O limite superior (inferior) da linha tracejada vai até o maior (menor) valor do conjunto

de dados apenas se esse valor não for muito distante do 3º e 1º quartil (no máximo 1.5 x

intervalo entre quartis). Os valores acima do limite superior e abaixo do limite inferior

são considerados outliers.

Figura 7.6: Distribuição de acidentes rodoviários entre 2005 e 2013

Os boxplots correspondentes à distribuição de acidentes rodoviários entre o período de 1

de Janeiro de 2005 e 31 de Dezembro de 2013 sugerem haver uma diferença na

distribuição dos dados entre os dias de semana e os fins-de-semana, sendo o dia de sexta-

feira o que apresenta a maior ocorrência dos acidentes. O mês de Novembro é o que

apresenta maior ocorrência de acidentes por dia e o mês de Janeiro a menor ocorrência

por dia. Em dias feriados ocorrem menos acidentes em relação a dias normais (não

feriados).

7.2. Estimação dos modelos

Nesta secção serão apresentados os resultados da estimação dos modelos de regressão.

Os modelos foram desenvolvidos para estimar a probabilidade de ocorrências dos

acidentes não ligeiros e explicar a variação do número de acidentes rodoviários por dia,

utilizando, respetivamente, o método de regressão Logística e de regressão de Poisson.

Page 49: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

41

Primeiramente vai ser ajustado um modelo de regressão a cada variável explicativa, em

seguida são introduzidos mais variáveis no modelo de acordo com o método de seleção

backward stepwise, both stepwise e forward stepwise.

O R(2013) foi o software utilizado para ajustar os modelos de regressão simples e

múltipla.

7.2.1. Regressão Logística

A estimação do modelo logístico inicia-se com o ajuste de uma regressão simples a cada

uma das variáveis explicativas. O objetivo desta análise é verificar a importância que cada

variável explicativa tem para a variável resposta, severidade de um acidente.

A tabela 7.10 apresenta os valores estimados dos coeficientes de regressão, desvio padrão,

teste de Wald e respetivos valores p. As estimativas dos coeficientes representam o efeito

que cada uma das variáveis explicativas pode causar na variável resposta. O desvio padrão

da estimativa é utilizado para o cálculo da estatística de teste Wald que avalia a

significância dos coeficientes estimados. Assim, para testar a significância dos

coeficientes estimados, compara-se o valor do teste de Wald com o quantil de

probabilidade da normal padrão. Esse quantil depende do nível de significância que se

pretender.

Também foi apresentado na tabela 7.10 o valor estimado da medida razão da chance

(Odds ratio). Para a variável explicativa categórica, esta medida indica o quanto o

logaritmo da razão da chance muda quando se passa da categoria referência da variável

para uma outra sua categoria. No caso da variável explicativa contínua, o aumento de uma

unidade no valor da variável corresponde a um incremento de valor igual no logaritmo da

razão da chance.

Page 50: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

42

Tabela 7.10: Ajuste de regressão logística a cada uma das variáveis explicativas

Variáveis explicativas Estimativas

dos

coeficientes

Odds

ratio

(OR)

Intervalo

de confiança

(95%, OR)

Desvio

padrão

Teste

Wald

Valor-

p(wald)

Meses

Termo Constante -1.76 1.00 0.0062 -284.9 <2e-16

Março-Maio 0.069 1.09 (1.05;1.09) 0.009 8.1 5.5e-16

Junho-Setembro 0.099 1.10 (1.09;1.12) 0.008 12.4 <2e-16

Outubro-Novembro 0.031 1.03 (1.01;1.05) 0.0094 3.3 0.0008

Dia_Semana

Termo Constante -1.77 1.00 0.004 -503.4 <2e-16

Sábado 0.189 1.21 (1.18;1.23) 0.0089 32.64 <2e-16

Domingo 0.291 1.34 (1.32;1.36) 0.0084 22.59 <2e-16

Hora do dia

Termo Constante -1.87 1.00 0.006 -289.5 <2e-16

1-5horas 0.28 1.32 (1.29;1.35) 0.0095 29.4 <2e-16

12-17horas 0.11 1.12 (1.09;1.13) 0.008 13.8 <2e-16

18-24horas 0.34 1.40 (1.38;1.43) 0.009 38.6 <2e-16

Condições_Iluminação

Termo Constante -1.80 1.00 0.004 -502.2 <2e-16

Não luz do dia 0.34 1.40 (1.39;1.42) 0.006 52.6 <2e-16

Tipo_Veículo

Termo Constante -1.86 1.00 0.004 -518.5 <2e-16

Motocicleta 0.89 2.43 (2.39;2.47) 0.008 109.3 <2e-16

Camião 0.43 1.54 (1.50;1.57) 0.011 38.1 <2e-16

Outro tipo_veículo 0.11 1.12 (1.09;1.15) 0.013 8.9 <2e-16

Género_condutor

Termo Constante -2.04 1.00 0.006 -350.4 <2e-16

Masculino 0.5 1.65 (1.63;1.67) 0.007 70.03 <2e-16

Faixa_etária_Condutor

Termo Constante -1.73 1.00 0.0045 -387.4 <2e-16

36-55 anos 0.013 1.013 (0.99;1.027) 0.007 1.97 0.05

>55 anos 0.15 1.16 (1.14;1.18) 0.009 17.4 <2e-16

Idade_Veículo

Termo Constante -1.76 1.00 0.006 -318.2 <2e-16

Idade 0.008 1.008 (1.007;1.009) 0.0006 12.4 <2e-16

Limite_Velocidade

Termo Constante -1.67 1.00 0.0307 -54.5 <2e-16

30-50 m/hora -0.15 0.86 (0.81;0.91) 0.0309 -4.7 2.25e-06

>50 m/horas 0.25 1.28 (1.21;1.36) 0.031 8.06 7.54e-16

A partir dos resultados de ajuste do modelo de regressão Logística a cada variável

explicativa apresentados na tabela 7.10, verifica-se que todas as variáveis explicativas

apresentam uma associação estatisticamente significativa e positiva com a variável

resposta.

A chance da ocorrência de acidentes não ligeiros nos meses de Outubro a Dezembro é

3% superior aos meses de Dezembro a Fevereiro (classe referência), e para os meses de

Junho a Setembro e Outubro a Novembro a chance é de 9% e 10% respetivamente,

superior aos meses de Dezembro a Fevereiro.

Page 51: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

43

Relativamente aos dias da semana verifica-se que nos dias de sábado e domingo a chance

é de 21% e 34% respetivamente, superior em relação aos dias úteis (segunda a sexta).

Para a variável hora do dia, o horário de 18 a 24 horas e das 1 a 5 horas apresentam uma

chance de 40% e 32% respetivamente, superior à classe referência (6 a 11 horas), o

mesmo se verifica para a variável condição de iluminação em que os acidentes que

ocorrem à noite têm uma chance 40% superior de serem não ligeiros em relação à classe

referência (luz do dia).

Também se verifica na tabela 7.10 que a chance dos acidentes envolvendo os condutores

de motocicletas terem vítimas não ligeiras é maior (OR=2.43) em relação aos condutores

de automóveis, os condutores de camião têm uma chance 54% superior aos condutores

de automóveis. O odds ratio da idade do veículo é 1.008, o que significa que a cada

aumento de um ano na idade do veículo aumenta exp(0.008) na chance de acidentes não

ligeiros.

7.2.1.1. Modelo de regressão múltipla

Depois da análise da tabela de contingência e do ajuste do modelo logístico a cada uma

das variáveis explicativas, procede-se à seleção das variáveis para a construção do modelo

de regressão múltipla. Para a seleção das variáveis foi utilizado o procedimento

automático backward stepwise, forward stepwise e both stepwise.

Método backward stepwise

O método backward stepwise inicia-se com a suposição de que todas as variáveis estão

incluídas no modelo. A ideia é verificar, por fase, se cada variável pode ser ou não

eliminada do modelo. A decisão de eliminar a variável é com base na estatística

deviance ou a medida AIC, de modo que este método terminou o processo de seleção

com o seguinte modelo ajustado:

Severidade_acidente ~ meses + dia_semana + hora_do_dia + limite_velocidade +

condições_iluminações + tipo_veículo + género + faixa_etária + idade_veículo.

Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald

e respetivos valores p são apresentados no Anexo4.

Método forward stepwise

Esse procedimento parte da suposição que não há variável no modelo. A ideia do método

é adicionar uma variável a cada passo. A primeira variável selecionada é aquela com

maior correlação com a variável resposta, tendo por base a estatística deviance ou a

medida AIC.

O modelo selecionado com o método forward stepwise foi o seguinte:

Page 52: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

44

Severidade_acidente ~ tipo_veiculo + limite_velocidade + condições_iluminações +

género + dia_semana + faixa_etária + meses + hora_do_dia + idade_veículo

Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald

e respetivos valores p são apresentados em Anexo4.

Método both stepwise

O método both stepwise é uma combinação dos dois métodos anteriores. Este método

utiliza a adição e a remoção de covariáveis com base na estatística deviance ou a medida

AIC. O modelo final selecionado por este método foi o seguinte:

Severidade_acidente ~ meses + dia_semana + hora_do_dia + limite_velocidade +

condições_iluminações + tipo_veículo + género + faixa_etária + idade_veículo.

Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald

e respetivos valores p são apresentados no Anexo4.

A partir dos resultados apresentados em Anexo4 verifica-se que o modelo final é o mesmo

para todos os métodos de seleção das covariáveis. De acordo com o valor da estatística

de teste Wald existe evidência estatística de que os coeficientes estimados são todos

significativos a qualquer nível de significância considerado. Para confirmar que o modelo

selecionado pelos procedimentos automáticos se ajusta melhor com a presença de todas

as covariáveis faz-se a comparação do modelo ajustado com o modelo nulo através dos

cálculos das medidas descritas na secção (3.6). A tabela 7.11 apresenta os resultados para

tal comparação:

Tabela 7.11: Comparação entre os modelos (backward, both e forward) e o modelo nulo

AIC Deviance (D) Diferença entre deviance Valor-p

Modelo nulo (Mn) 747964 747962

Modelo backward (Mb) 724834 724796 (𝐷Mn-𝐷Mb) = 23166 <2.2e-16

Modelo both (Mbh) 724834 724796 (𝐷Mn-𝐷Mbh) = 23166 <2.2e-16

Modelo forward (Mf) 724834 724796 (𝐷Mn-𝐷Mf) = 23166 <2.2e-16

A medida AIC mede o grau de informação que se perde com o ajuste de um determinado

modelo, o seu valor mostra que os modelos backward, both e forward têm uma menor

perda de informação em relação ao modelo nulo (tabela 7.11), portanto o ajustamento é

melhor. A deviance é o desvio do modelo ajustado em relação ao modelo saturado, isto

é, a distância do modelo ajustado, µ, dos dados observados, y, e quanto menor é esta

distância melhor é o ajuste do modelo.

A diferença entre a deviance do modelo nulo em relação aos modelos backward, both e

forward corresponde ao valor da estatística de teste de verosimilhança e é dada como uma

Page 53: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

45

medida de variação dos dados. A comparação desta medida com o quantil da distribuição

Qui-Quadrado permite concluir que as variáveis explicativas incluídas nos modelos

backward, both e forward são significativos, o valor p correspondente é

aproximadamente zero.

Pelo facto de existir uma forte associação entre a variável condições de iluminação e a

variável hora do dia, decidiu-se ajustar estas duas variáveis em modelos diferentes com o

método forward stepwise.

Os dois modelos ajustados são:

Modelo 1:

Log(p

1−p)=β1 + β2*Tipo_Veículo + β3*Limite_Velocidade + β4*Condições_Iluminação +

β5*Género_Condutor + β6*Dia_Semana + β7*FaixaEtária_Condutor + β8*Meses + β9*Idade_Veículo

Modelo 2:

Log(p

1−p)=β1 + β2*Tipo_Veículo + β3*Limite_Velocidade + β4* Género_Condutor + β5* Dia_Semana +

β6* FaixaEtária_Condutor + β7* Meses + β8*Hora_do_dia + β9*Idade_Veículo

Para a escolha do melhor modelo é utilizado a medida AIC, pois os dois modelos não são

aninhados. A tabela 7.12 apresenta os resultados de AIC dos dois modelos:

Tabela 7.12: Resultado para comparação dos modelos de regressão Logística (modelo1 e 2)

AIC Número de parâmetros

Modelo1 725229 16

Modelo2 726295 18

Seguindo o critério de parcimónia, isto é, escolher um modelo que esteja bem ajustado e

com um número reduzido de parâmetros, a escolha do modelo final será o modelo1 com

menor número de parâmetros e menor valor de AIC. A tabela 7.13 apresenta os resultados

da estimativa dos parâmetros do modelo selecionado.

Page 54: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

46

Tabela 7.13: Modelo de regressão Logística (Modelo1)

Avaliação do modelo 1

Depois do ajustamento do modelo 1, procede-se à sua avaliação. A estatística de teste de

Wald, a medida deviance e o teste de Hosmer e Lemeshow são os métodos utilizados para

avaliar a qualidade de ajuste do modelo.

O primeiro passo da avaliação do modelo foi a significância estatística dos coeficientes

estimados utilizando a estatística de Wald e a medida deviance. Analisando os valores

apresentados na tabela 7.13, o teste de Wald, para qualquer nível habitual de significância

(1%, 5% e 10%), considera que os parâmetros estimados são estatisticamente

significativos. Também, pelo resultado da medida deviance comprova-se que o modelo é

globalmente significativo. Para esta conclusão faz-se a análise de comparação entre a

deviance do modelo ajustado (modelo1) com a deviance do modelo nulo (ver o Anexo4).

Ainda sobre a qualidade de ajuste do modelo o resultado de teste de Hosmer e Lemeshow

foi igual a 62.1 e valor p é de 1.83e-10, isso indica que o modelo não se ajusta bem aos

dados.

Com o objetivo de encontrar um modelo que se ajusta bem aos dados foi realizado uma

análise mais específica considerando uma base de dados de acidentes com peões. As

variáveis explicativas utilizadas são as mesmas consideradas no modelo 1.

Variáveis explicativas Estimativas dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -2.36 -72.3 <2e-16

Tipo_Veículo

Motocicleta 0.87 100.8 <2e-16

Camião 0.39 31.91 <2e-16

Outro tipo_veículo 0.12 9.4 <2e-16

Limite_Velocidade

30-50 m/horas -0.19 -6.1 1.3e-09

>50 m/horas 0.21 6.62 3.51e-11

Condições_Iluminação

Não luz do dia 0.39 57.016 <2e-16

Género_Condutor

Masculino 0.25 34.4 <2e-16

Dia_Semana

Sábado 0.17 19.7

Domingo 0.24 25.9 <2e-16

Faixa_etária_Condutor

36-55anos 0.04 5.6 2.07e-08

>55anos 0.28 31.6 <2e-16

Meses

Março-Maio 0.15 16.7 <2e-16

Junho-Setembro 0.18 20.9 <2e-16

Outubro-Novembro 0.043 4.6 4.77e-06

Idade_veículo

Idade 0.009 14.44 <2e-16

Page 55: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

47

Análise de acidentes com peões

Nesta análise, os dados da amostra descrita na secção 7.1.2 foram reduzidos,

considerando apenas as instâncias da base de dados que correspondem a acidentes com

peões.

Os resultados de ajustamento do modelo sobre os dados de acidentes com peões com a

regressão Logística encontram-se no Anexo5.

Analisando a tabela (Anexo5), verifica-se uma diferença estatística significativa na

proporção de acidentes não ligeiros em comparação com os ligeiros, para a variável

tipo_veículo (categoria camião, valor p <2e-16, e outro tipo de veículo, valor p = 0.017),

mas não significativa para as motocicletas. Também se verifica que a diferença de

proporção de acidentes não ligeiros em comparação com os meses de Dezembro a

Fevereiro não foi estatisticamente significativa para os meses de Março a Maio, Junho a

Setembro e Outubro a Novembro, os valores-p são (0.342, 0.18 e 0.79) respetivamente.

Pelos valores estimados da estatística de Wald e respetivos valores p associados à variável

“meses”, conclui-se que esta variável não é significativa, portanto foi retirada do modelo.

O modelo final selecionado para explicar a severidade dos acidentes com peões foi o

seguinte:

Modelo 3:

Log(p

1−p)=β1 + β2*Tipo_Veículo + β3*Limite_Velocidade + β4*Condições_Iluminação +

β5*Género_Condutor + β6*Dia_Semana + β7*FaixaEtária_Condutor + β8*Idade_Veículo

Os resultados da estimativa dos parâmetros, estatística de Wald e valor p são apresentados

na tabela 7.14.

Page 56: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

48

Tabela 7.14: Estimativas dos parâmetros, estatística de Wald e valor p (Modelo3)

Variáveis explicativas Estimativas

dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -1.45 -32,1 <2e-16

Tipo_Veículo

Motocicleta 0.025 0.74 0.46

Camião 0.39 15.46 <2e-16

Outro tipo_veículo 0.05 2.43 0.015

Limite_Velocidade

30-50 m/horas 0.118 2.78 0.0054

>50 m/horas 0.89 16.83 2e-16

Condições_Iluminação

Não luz do dia 0.37 26.76 <2e-16

Género_Condutor

Masculino 0.091 6.3 2.97e-10

Dia_Semana

Sábado 0.079 4.41 1.05e-05

Domingo 0.13 5.93 3.00e-09

Faixa_etária_Condutor

36-55anos -0.092 -6.547 5.86e-11

>55anos -0.078 -4.47 8e-06

Idade_veículo

Idade 0.004 2.43 0.015

Para um nível de significância de 5%, os valores estimados da estatística de teste de Wald

(tabela 7.14) indicam que todos os parâmetros estimados são estatisticamente

significativos, evidenciando que existe associação entre a variável resposta (severidade

de acidentes) e as variáveis explicativas. Para uma avaliação mais global do modelo sobre

a sua eficiência em descrever a variável resposta utiliza-se o teste de Hosmer e Lemeshow.

O valor estimado da estatística de teste foi 8.9 e o valor p é 0.35, logo não se rejeita a

hipótese de que o modelo3 se ajusta bem aos dados.

Page 57: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

49

Análise de resíduos

A análise de resíduos permite verificar a qualidade de ajustamento do modelo e identificar

as observações consideradas outliers ou influentes. A figura 7.7 apresenta o gráfico de

resíduos da deviance versus os valores ajustados, o gráfico de leverage (hii versus os

índices das observações) e o gráfico da distância de Cook para a análise do modelo3.

Figura 7.7: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos

dados de acidentes com peões de 2005 a 2013

Relativamente ao gráfico de resíduos da deviance mostra que todas as observações estão

dentro do intervalo considerado [-2,2], portanto nenhuma observação é considerada

outlier. Quanto ao gráfico de leverage permitiu identificar algumas observações como

sendo influentes, pois seus hii são superiores ao valor crítico 2𝑝

𝑛= 0.00019. Para avaliar

com mais detalhe esta influência, utilizou-se a medida distância de Cook. Pelo gráfico

referente a esta medida nota-se que as observações 21520 e 139216 apresentam maiores

valores de DCi. No Anexo5 apresentam-se os resultados do modelo ajustado sem essas

duas observações. As variações encontradas foram pequenas e não houve mudança

inferencial, isto é, todas as variáveis que foram significativas no modelo3 continuaram

presentes nesse modelo.

Avaliação preditiva do modelo3

A avaliação da capacidade preditiva do modelo é importante quando existe a

possibilidade de o utilizar para fazer a previsão. Para essa avaliação recorreu-se ao estudo

das medidas de desempenho através da tabela de contingência e área da curva ROC. O

melhor ponto de corte (cutoff ) é 0.243, como mostra a figura no Anexo5. Na tabela 7.15

Page 58: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

50

estão os resultados possíveis na classificação dos indivíduos em cada classe da variável

resposta (Y = 0 e Y = 1).

Tabela 7.15: Tabela de classificação do modelo3

Através da tabela 7.15 é possível estimar os valores das medidas de desempenho, verifica-

se que a percentagem total de acertos, ou seja, a proporção de indivíduos corretamente

classificados foi de 60.9%, a sensibilidade e a especificidade foram 44.01% e 66.5%

respetivamente, isso mostra que o modelo tem problemas em avaliar os verdadeiros

positivos.

Área da curva ROC

A área abaixo da curva ROC varia entre 0 e 1 e dá-nos uma medida da capacidade do

modelo em discriminar os valores da variável resposta Y=1, dos valores da variável Y=0.

Figura 7.8: gráfico da Curva ROC (modelo de regressão Logística)

A linha diagonal representada no gráfico indica uma classificação aleatória, quanto mais

distante estiver a curva da diagonal principal melhor é o desempenho do modelo. O valor

da área abaixo da curva foi de 0.567, uma discriminação não aceitável de acordo com os

critérios de avaliação propostos por Hosmer e Lemeshow. O modelo em análise faz

classificação aleatória dos indivíduos. O problema do baixo desempenho do modelo em

Classificação Valores Observados

Classe (0) Classe (1)

Total

Classe (0) 70030 19415 89445

Classe (1) 35269 15267 50536

Total 105299 34682 139981

Page 59: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

51

discriminar os valores da variável resposta está associado à distribuição da mesma. A

proporção da classe negativa que corresponde a acidentes ligeiros é de 75.2% enquanto a

proporção da classe positiva “acidentes não ligeiros” é de apenas 24.8%.

Interpretação do modelo 3

A interpretação será feita em termos da razão da chance a cada variável explicativa

incluída no modelo. A tabela 7.16 apresenta os valores da razão da chance (odds ratio) e

a correspondente estimativa do intervalo de confiança ao nível de 95% de confiança.

Tabela 7.16: valores obtidos para a razão da chance (Odds ratio) e intervalo de confiança

Variáveis explicativas Estimativas dos

coeficientes

Odds

ratio

(OR)

Intervalo de

confiança (95%,

OR)

Tipo_veículo

Motocicleta 0.025 1.03 (0.96;1.096)

Camião 0.39 1.48 (1.41;1.55)

Outro_tipo_veículo 0.05 1.05 (1.009;1.095)

Limite_velocidade

30-50 m/hora 0.12 1.13 (1.04;1.23)

>50 m/hora 0.89 2.44 (2.19;2.70)

Condições_Iluminação

Não luz do dia 0.37 1.40 (1.37;1.44)

Género_condutor

Masculino 0.09 1.09 (1.06;1.13)

Dia_semana

Sábado 0.08 1.08 (1.05;1.12)

Domingo 0.13 1.14 (1.09;1.19)

Faixa_etária_Condutor

36-55 anos -0.09 0.91 (0.89;1.12)

>55 anos -0.08 0.92 (0.89;1.12)

Idade_Veículo

Idade 0.004 1.004 (0.99;1.007)

Variáveis explicativas:

Tipo de veículo:

A ocorrência de acidentes não ligeiros é 48% superior entre os condutores de camiões,

3% superior entre os condutores de motocicletas e 5% superior entre os condutores de

outros tipos de veículos, em relação aos veículos ligeiros. Os motivos podem ser

atribuídos a maior peso e a alta velocidade do veículo (Eluru et al. 2008).

Limite de velocidade

O valor desta variável explicativa está relacionado com o valor do limite de velocidade

na estrada onde ocorreu o acidente. Verifica-se em relação à classe referência (limite de

Page 60: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

52

velocidade <30 milhas/hora), um aumento na ocorrência de acidentes não ligeiros de 13%

para o limite de velocidade entre 30 e 50 milhas/hora. Para limite de velocidade maior

que 50 milhas/hora a chance de acidentes não ligeiros é 2.44 vezes superiores em relação

a limite de velocidade <30 milhas/hora. Parece, então, que a alta velocidade contribui

significativamente para a severidade dos acidentes.

Condições de iluminação

Em relação a esta variável verifica-se que de risco a acidentes não ligeiros é maior a noite

do que à luz do dia (odds ratio = 1.40). A razão para isso é o maior fluxo de tráfego

durante o dia permitindo aos condutores diminuir a velocidade.

Género de condutor

O risco de envolvimento em acidentes não ligeiros é maior entre os condutores

masculinos do que entre os condutores femininos, cerca de 9% superior.

Dia de semana

Quanto a esta variável, a classe de referência definida são os dias úteis (segunda a sexta

feira) e verifica-se que a chance da ocorrência de acidentes não ligeiros é maior aos fins-

de-semana, sendo 8% superior ao sábado e 14% superior ao domingo.

Idade do veículo

Por último a idade do veículo, verifica-se que a chance de acidentes não ligeiros aumenta

com a idade do veículo.

Page 61: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

53

Análise de acidentes com peões na zona rural e urbana

Os dados da amostra utilizada na análise de acidentes com peões foram divididos em duas

bases de dados, uma representa os dados de acidentes com peões na zona rural e a outra

representa os dados de acidentes com peões na zona urbana. A percentagem de acidentes

não ligeiros é maior em zona rural do que em zona urbana (ver Anexo6). O objetivo desta

análise é comparar a probabilidade de ocorrência de acidentes não ligeiros na zona rural

em relação à zona urbana. Para isso, foi ajustada o modelo de regressão Logística aos

dados, considerando as mesmas variáveis explicativas utilizadas no modelo3.

A tabela 7.17 apresenta os resultados do modelo ajustado aos dados da ocorrência de

acidentes com peões na zona rural.

Tabela 7.17: Regressão Logística ajustado aos dados de acidentes com peões na zona rural

Variáveis explicativas Estimativas dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -1.72 -12.5 <2e-16

Tipo_Veículo

Motocicleta 0.17 1.6 0.09

Camião 0.37 6.11 9.73e-10

Outro tipo_veículo -0.06 -0.8 0.43

Limite_Velocidade

30-50 m/horas 0.36 2.7 0.007

>50 m/horas 1.07 7.8 4.77e-15

Condições_Iluminação

Não luz do dia 0.58 15.3 <2e-16

Género_Condutor

Masculino 0.11 2.7 0.007

Dia_Semana

Sábado 0.11 2.31 0.02

Domingo 0.19 3.4 0.0007

Faixa_etária_Condutor

36-55anos 0.034 0.84 0.4

>55anos -0.012 -0.27 0.8

Idade_veículo

idade 0.008 2.13 0.03

Analisando a tabela 7.17, verifica-se que a diferença na proporção de acidentes não

ligeiros em comparação com os acidentes ligeiros foi estatisticamente significativa para

camiões (valor p = 9.73e-10), mas não significativa para as motocicletas e outros tipos de

veículos com valores p (0.09 e 0.43), respetivamente.

Para qualquer nível habitual de significância (1%, 5% e 10%), os valores estimados da

estatística de Wald e respetivos valores p associados a variável “faixa etária dos

condutores”, permitem concluir que esta variável não é significativa. Em relação às outras

variáveis (limite de velocidade nas estradas, condições de iluminação, género dos

Page 62: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

54

condutores, dia da semana e idade do veículo), conclui-se que para um nível de

significância de 5% que existe uma relação estatisticamente significativa com a variável

resposta (severidade de acidentes com peões na zona rural).

Para além da análise individual de cada variável explicativa no modelo logístico ajustado

aos dados da ocorrência de acidentes com peões na zona rural com a estatística Wald,

utilizam-se outras técnicas estatísticas para a análise da qualidade de ajustamento do

modelo. O resultado da estatística de teste de Hosmer e Lemeshow foi 0.73 e o valor p é

0.99, logo não se rejeita a hipótese de que o modelo se ajusta bem aos dados. Os gráficos

da análise de resíduos referentes ao modelo que explica a severidade de acidentes com

peões na zona rural encontram-se no Anexo7.

A tabela 7.18 apresenta os resultados do modelo ajustado aos dados da ocorrência de

acidentes com peões na zona urbana.

Tabela 7.18: Regressão logística ajustado aos dados de acidentes com peões na zona urbana

Variáveis explicativas Estimativas dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -1.42 -29.5 <2e-16

Tipo_Veículo

Motocicleta 0.011 0.32 0.75

Camião 0.39 13.8 <2e-16

Outro tipo_veículo 0.072 3.3 0.0009

Limite_Velocidade

30-50 m/horas 0.092 2.04 0.041

>50 m/horas 0.34 3.71 0.0002

Condições_Iluminação

Não luz do dia 0.34 22.6 <2e-16

Género_Condutor

Masculino 0.092 5.9 3.67e-09

Dia_Semana

Sábado 0.074 3.8 0.00016

Domingo 0.11 4.8 1.37e-06

Faixa_etária_Condutor

36-55anos -0.11 -7.34 1.49e-06

>55anos -0.093 -4.9 9.24e-07

Idade_veículo

Idade 0.003 1.74 0.08

Os resultados apresentados em tabela 7.18, mostram que a diferença de proporção de

acidentes não ligeiros em comparação com os veículos ligeiros foi estatisticamente

significativa para camiões e outros tipos de veículos, valores p (<2.2e-16 e 0.0009),

respetivamente, mas não significativa para as motocicletas (valor p = 0.75). Para um nível

de significância 5%, a estimativa do coeficiente associado a variável “idade do veículo”

Page 63: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

55

não foi significativa, (valor p = 0.08), resultado diferente da análise de acidentes com

peões na zona rural.

Em relação as outras variáveis (limite de velocidade nas estradas, condições de

iluminação, género dos condutores, dia da semana e faixa etária dos condutores), conclui-

se para um nível de significância 5% que existe uma relação estatisticamente significativa

com a variável resposta (severidade de acidentes com peões na zona urbana).

Para a avaliação global do modelo ajustado aos dados de acidentes com peões na zona

urbana, o resultado da estatística de teste de Hosmer e Lemeshow foi 1.75 e o valor p é

0.99, logo não se rejeita a hipótese de que o modelo se ajusta bem aos dados. Os gráficos

da análise de resíduos referentes ao modelo encontram-se no Anexo8.

Comparação dos resultados

A comparação será feita em termos da probabilidade de ocorrência de acidentes não

ligeiros na zona rural e urbana.

Tabela 7.19: resultados comparativos da probabilidade de ocorrência de acidentes não ligeiros entre zona

rural e urbana

Zona Rural

Zona Urbana

Variáveis explicativas Estimativa

dos

coeficientes

Odds

ratio

(OR)

Intervalo de

confiança

(95%, OR)

Estimativa

dos

coeficientes

Odds

ratio

(OR)

Intervalo de

confiança

(95%, OR)

Tipo_veículo Motocicleta 0.17 1.18 (0.97;1.44) 0.011 1.011 (0.92;1.12)

Camião 0.37 1.45 (1.28;1.63) 0.39 1.48 (1.39;1.57)

Outro_tipo_veículo -0.06 0.94 (0.80;1.10) 0.072 1.07 (1.03;1.12)

Limite_velocidade

30-50 m/horas 0.36 1.43 (1.11;1.85) 0.092 1.09 (0.99;1.20)

>50 m/horas 1.07 2.92 (2.22;3.84) 0.34 1.40 (1.18;1.68)

Condições_Iluminação

Não luz do dia 0.58 1.79 (1.65;1.93) 0.34 1.40 (1.38;1.43)

Género_condutor

Masculino 0.11 1.12 (1.03;1.21) 0.092 1.09 (1.05;1.14)

Dia_semana

Sábado 0.11 1.12 (1.01;1.23) 0.074 1.08 (1.04;1.12)

Domingo 0.19 1.21 (1.08;1.36) 0.11 1.12 (1.07;1.16)

Os coeficientes positivos (0.17 e 0.37) apresentados na tabela 7.19 para as motocicletas e

camiões, respetivamente, sugerem que acidentes ocorridos na zona rural envolvendo estes

tipos de veículos tem maior probabilidade de ser acidentes não ligeiros em relação a

acidentes envolvendo os veículos ligeiros. E o coeficiente negativo (-0.06) de outros tipos

de veículos sugere menor probabilidade de ocorrer acidentes não ligeiros em relação aos

veículos ligeiros. A razão da chance de (1.18 e 1.45) indicam que acidentes envolvendo

Page 64: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

56

motocicletas e camiões, respetivamente, tem 18% e 45% mais chance de ser não ligeiros

em relação aos acidentes envolvendo veículos ligeiros.

Os coeficientes positivos (0.36 e 1.07) da variável limite de velocidade nas estradas de

zona rural indicam maior probabilidade de ocorrer acidentes não ligeiros nas estradas com

limite entre 30 a 50 milhas por hora e >50 milhas por hora em relação a limite <30 milhas

por hora. Para as estradas de zona urbana com limite de velocidade entre 30 e 50 milhas

por horas não houve diferenças significativas na ocorrência de acidentes não ligeiros em

relação a limite <30 milhas por hora, pois o intervalo de confiança da razão da chance

contém o valor 1 (tabela 7.19). A razão da chance (1.43) indica que os acidentes ocorridos

nas estradas de zona rural com limite entre 30 e 50 milhas por hora tem 43% mais chance

de ser não ligeiros em relação a limite <30 milhas por hora. Quanto a limite >50 milhas

por hora a chance de ocorrerem acidentes não ligeiros é aproximadamente 3 vezes

superior em relação ao limite < 30 milhas por hora. Para as estradas da zona urbana a

chance de ocorrerem acidentes não ligeiros quando o limite é >50 milhas por horas é

apenas 40% superior em relação a limite < 30 milhas por hora.

Os coeficientes positivos (0.58 e 0.34) da variável “condições de iluminação” em zona

rural e urbana, respetivamente, indicam que a probabilidade de ocorrerem acidentes não

ligeiros é maior à noite em relação à luz do dia. As razões de chance (1.79 e 1.40) sugerem

que a chance de ocorrerem acidentes não ligeiros nas estradas da zona rural é 79%

superior em relação a luz do dia e nas estradas da zona urbana é 40% superior.

Quanto à variável género dos condutores, os coeficientes positivos (0.092 e 0.11), para

zona rural e urbana, respetivamente, indicam maior probabilidade de ocorrerem acidentes

não ligeiros entre os condutores masculinos. A razão da chance (1.12 e 1.09) indicam que

a chance de ocorrer acidentes não ligeiros entre os condutores masculinos é 12% e 9%

superior em relação aos condutores femininos.

Por último, para a variável dia da semana, verifica-se que a probabilidade de ocorrerem

acidentes não ligeiros é maior aos fins-de-semana (sábado e domingo) em relação aos

dias úteis (segunda à sexta feira), tanto em zona rural como urbana. A chance de

ocorrerem acidentes não ligeiros aos sábados na zona rural é 12% superior em relação aos

dias úteis. Aos domingos a chance é 21% superior em relação aos dias úteis. Para a zona

urbana a chance de ocorrerem acidentes não ligeiros aos sábados é 8% superior em

relação aos dias úteis. Aos domingos a chance é 12% superior em relação aos dias úteis.

Page 65: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

57

7.2.2. Regressão de Poisson

Para estimar o modelo utilizaram-se os dados da amostra descrita na secção (7.1.2).

Primeiramente foi ajustado o modelo a cada variável explicativa. As estimativas dos

coeficientes do modelo, do desvio padrão, da estatística de teste de Wald e respetivos

valores p são apresentados na tabela 7.20.

Tabela 7.20: Resultados de ajuste de regressão de Poisson de cada variável explicativa

Variáveis explicativas Estimativas

dos

coeficientes

Desvio

padrão

Teste

Wald

Valor

p(wald)

Dia_Semana

Termo Constante 5.9 0.0024 2421.6 <2e-16

Segunda 0.23 0.0032 70.95 <2e-16

Terça 0.27 0.0032 86.2 <2e-16

Quarta 0.29 0.0032 89.7 <2e-16

Quinta 0.29 0.0032 90.22 <2e-16

Sexta 0.35 0.0031 110.2 <2e-16

Sábado 0.16 0.0033 46.9 <2e-16

Dia_Semana

(com três categorias)

Termo Constante 5.9 0.0024 2421.6 <2e-16

Dias úteis 0.29 0.0026 110.5 <2e-16

Sábado 0.16 0.0033 46.85 <2e-16

Mês

Termo Constante 6.051 0.003 2082.9 <2e-16

Fevereiro 0.025 0.004 5.99 2.07e-09

Março 0.009 0.004 2.35 0.018

Abril 0.004 0.004 0.87 0.39

Maio 0.068 0.004 16.88 <2e-16

Junho 0.098 0.004 24.47 <2e-16

Julho 0.099 0.004 24.71 <2e-16

Agosto 0.031 0.004 7.65 1.99e-14

Setembro 0.120 0.004 29.92 <2e-16

Outubro 0.132 0.004 33.4 <2e-16

Novembro 0.179 0.004 45.17 <2e-16

Dezembro 0.031 0.004 7.57 3.73e-14

Estações_ano

Termo Constante 6.07 0.002 3597.5 <2e-16

Primavera 0.009 0.002 3.92 8.76e-05

Verão 0.07 0.002 31.48 <2e-16

Outono 0.14 0.003 53.82 <2e-16

Dias

Termo Constante 6.13 0.0008 7436.4 <2e-16

Feriados -0.41 0.007 -59.1 <2e-16

Os valores da estatística de teste de Wald e os valores p apresentados na tabela 7.20,

indicam que todos os coeficientes associados a cada variável explicativa são

estatisticamente significativos, com exceção do coeficiente associado a mês de Abril

(valor p = 0.39).

Para uma análise mais completa sobre a significância estatística das variáveis explicativas

foi estimado o valor da estatística de teste da razão de verosimilhanças, em que se

Page 66: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

58

compara o valor da medida deviance de cada modelo ajustado com a do modelo nulo. A

tabela 7.21 apresenta os resultados do teste da razão de verosimilhanças.

Tabela 7.21: diferença entre a deviance do modelo ajustado com regressão de Poisson e a deviance do

modelo nulo

Variável explicativa Estatísticas de teste da razão

de verosimilhança (G)

Valor p

Dia da semana (com 7 categorias) 16153 2.2e-16

Dia da semana (com 3 categorias) 14529 2.2e-16

Mês (com 12 categorias) 4794.4 2.2e-16

Estações do ano 3705.4 2.2e-16

Feriados (dias normais, dias feriados) 4004.2 2.2e-16

Os resultados da tabela 7.21, também demonstraram que as variáveis explicativas

ajustadas ao modelo individualmente são significativos, pois os valores da estatística de

teste (G) correspondentes à quantidade da variabilidade nos dados explicada por cada

uma das variáveis explicativas e respetivos valores p conduzem à rejeição da hipótese

nula de que o modelo ajustado a cada uma das variáveis explicativas é igual ao modelo

nulo.

7.2.2.1. Modelo de regressão múltipla

Após o ajuste dos modelos de regressão a cada variável explicativa, procede-se à seleção

das variáveis explicativas que vão entrar no modelo de regressão múltipla. O método de

seleção utilizado foi o forward stpewise descrita na secção (3.5.1).

As variáveis explicativas dia da semana (dias úteis, sábado e domingo) e estações do ano

(primavera, verão, outono e inverno) foram construídas a partir das variáveis dia da

semana (com 7 categorias) e os meses do ano, respetivamente, portanto é evidente que

existe correlações entre estas variáveis. Para evitar o problema da multicolinearidade,

decidiu-se estimar os quatros modelos seguintes:

Modelo 1:

Log (µ) = β1 + β2*dia_semana + β3*mes + β4*feriados

Modelo 2:

Log (µ) = β1 + β2*dia_semana + β3*estacões_ano + β4*feriados

Modelo 3:

Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*mes + β4*feriados

Modelo 4:

Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*estacões_ano + β4*feriados

Page 67: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

59

Os resultados de ajustamento dos modelos com o método forward stpewise estão em

Anexo9.

Seleção do modelo

A escolha do melhor modelo será feita com base na medida AIC e a percentagem da

variabilidade explicada pelo modelo, resultados apresentados na tabela 7.22.

Tabela 7.22: Resultados de AIC e %explicada da deviance para selecionar o modelo de Poisson

Modelos ajustados AIC % Explicada

Modelo 1 76750 32.7%

Modelo 2 78044 30.9%

Modelo 3 78180 30.7%

Modelo 4 79493 29%

Analisando a tabela 7.22, verifica-se que o modelo1 é o mais adequado, apresenta o

menor valor do AIC e a maior percentagem da variabilidade nos dados explicada. Os

resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald e

respetivos valores p são apresentados na tabela 7.23.

Tabela 7.23: Resultado de ajustamento do modelo de regressão de Poisson (modelo1)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio Padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.83 0.004 1576.41 <2e-16

Dia_semana

Segunda 0.24 0.003 74.5 <2e-16

Terça 0.27 0.003 86.3 <2e-16

Quarta 0.28 0.003 88.8 <2e-16

Quinta 0.28 0.003 89.5 <2e-16

Sexta 0.35 0.003 111.12 <2e-16

Sábado 0.15 0.003 46.2 <2e-16

Mês

Fevereiro 0.007 0.004 1.8 0.07

Março -0.004 0.004 -0.92 0.35

Abril -0.003 0.004 -0.84 0.4

Maio 0.07 0.004 18.14 <2e-16

Junho 0.08 0.004 20.8 <2e-16

Julho 0.08 0.004 20.9 <2e-16

Agosto 0.01 0.004 3.5 0.0005

Setembro 0.1 0.004 25.9 <2e-16

Outubro 0.12 0.004 29.8 <2e-16

Novembro 0.16 0.004 40.7 <2e-16

Dezembro 0.04 0.004 10.3 <2e-16

Dias

Feriados -0.4 0.007 -56.9 <2e-16

Page 68: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

60

Para o nível de significância 5%, os valores da estatística de teste e respetivos valores p

(0.07, 0.35 e 0.4), levam a concluir que os coeficientes estimados associados aos meses

de Fevereiro, Março e Abril não foram significativos. Em relação às outras variáveis

explicativas, para qualquer nível de significância (1%, 5% e 10%), conclui-se que existe

uma relação estatisticamente significativa com a variável resposta (ocorrências de

acidentes rodoviários por dia), resultados apresentados na tabela 7.23. O valor da

estatística de teste da razão de verosimilhanças foi G = 24588 e valor p = 2.2e-16, portanto

o modelo é globalmente significativo em relação ao modelo nulo, isto é, as variáveis

explicativas incluídas no modelo são importantes, podendo ver-se no Anexo9 a

variabilidade explicada pelo modelo com a introdução de cada uma das variáveis

explicativas.

Sobredispersão

A sobredispersão é um problema que ocorre frequentemente na prática quando se aplica

a metodologia regressão de Poisson, pois esse método tem uma condição específica de

que o valor médio condicional seja igual à variância condicional, que geralmente não se

verifica na prática. Para a resolução deste problema, a alternativa será o modelo de

regressão Binomial Negativa.

Para identificar a sobredispersão nos dados, utiliza-se a deviance. O cálculo é baseado na

aproximação 𝑋2 do desvio residual. Se existir a sobredispersão, então 𝐷

𝜙 segue uma

distribuição Qui-Quadrado com n - p graus de liberdade, e isso leva ao seguinte estimador

para 𝜙 (Zuur et al, 2009) citado por (Santos, 2013).

�� =𝐷

𝑛 − 𝑝

Se a estimativa deste parâmetro for menor ou igual a um, então não existe sobredispersão

nos dados, prosseguindo-se com o processo de validação do modelo. Caso seja maior que

um, é uma indicação da existência de sobredispersão.

No modelo 1 ajustado com a regressão de Poisson, verifica-se que ϕ = 15.5, o que

evidencia sobredispersão nos dados. Devido a este problema, vai se ajustar aos dados um

modelo de regressão Binomial Negativa.

Page 69: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

61

7.2.3. Regressão Binomial Negativa

A regressão Binomial Negativa é utilizada com o objetivo de solucionar o problema

identificado no ajuste do modelo de regressão de Poisson, sendo por isso considerados os

mesmos dados da amostra e as mesmas variáveis explicativas. Os modelos de regressão

Binomial Negativa ajustados aos dados foram os seguintes:

Modelo 1:

Log (µ) = β1 + β2*dia_semana + β3*mes + β4*feriados

Modelo 2:

Log (µ) = β1 + β2*dia_semana + β3*estacões_ano + β4*feriados

Modelo 3:

Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*mes + β4*feriados

Modelo 4:

Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*estacões_ano + β4*feriados

Seleção do modelo

A seleção do modelo que se ajustou melhor aos dados será feita com base na medida AIC

e a percentagem da variabilidade explicada pelo modelo, resultados apresentados na

tabela 7.24.

Tabela 7.24: Resultados de AIC e % explicada da deviance para selecionar o modelo de regressão

Binomial Negativa

Modelos ajustados AIC % Explicada

Modelo 1 38502 32.5%

Modelo 2 38565 30.9%

Modelo 3 38577 30.8%

Modelo 4 38639 29.13%

Ao comparar os resultados dos modelos apresentados na tabela 7.24, verificou-se que o

modelo 1 teve o menor valor de AIC e a maior percentagem da variabilidade explicada

em relação aos outros três modelos, portanto é o modelo que explica melhor a variação

nos dados de acidentes rodoviários ocorridos por dia.

Page 70: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

62

Os resultados de ajustamento do modelo1 são apresentados na tabela 7.25 e dos outros

três modelos estão no Anexo9.

Tabela 7.25: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo1)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.83 0.014 418.8 <2e-16

Dia_semana

Segunda 0.24 0.012 19.7 <2e-16

Terça 0.28 0.012 22.5 <2e-16

Quarta 0.29 0.012 23.14 <2e-16

Quinta 0.29 0.012 23.3 <2e-16

Sexta 0.35 0.012 28.7 <2e-16

Sábado 0.15 0.012 12.4 <2e-16

Mês

Fevereiro 0.008 0.016 0.5 0.6

Março -0.0015 0.02 -0.09 0.93

Abril -0.002 0.02 0.11 0.91

Maio 0.08 0.02 5.16 2.45e-07

Junho 0.09 0.02 5.47 4.49e-08

Julho 0.09 0.02 5.62 1.93e-08

Agosto 0.02 0.02 1.26 0.21

Setembro 0.11 0.02 6.61 3.84e-11

Outubro 0.12 0.02 7.68 1.61e-14

Novembro 0.16 0.02 10.008 <2e-16

Dezembro 0.04 0.02 2.3 0.02

Dias

Feriados -0.4 0.02 -17.003 <2e-16

Pelos valores apresentados na tabela 7.25, para qualquer nível habitual de significância,

conclui-se que os coeficientes associados a meses de Fevereiro, Março, Abril e Agosto

não são significativas. Em comparação com o modelo de regressão Poisson (modelo1), o

mês de Agosto deixou de ser significativo, isso sugere que a sua significância era

influenciada pela presença da sobredispersão nos dados.

A seguir são apresentados os gráficos normais de probabilidades para o modelo1 ajustado

com a regressão de Poisson e o modelo1 ajustado com a regressão Binomial Negativa,

respetivamente. Analisando a figura abaixo nota-se que o modelo Binomial Negativa é

mais adequado para explicar a variabilidade nos dados, uma vez que a maioria dos pontos

estão dentro do intervalo.

Page 71: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

63

Figura 7.9: Gráficos normais de probabilidades referentes ao modelo de regressão de Poisson (a) e ao

modelo de regressão Binomial Negativa (b)

Na figura 7.10 apresentam-se os gráficos da análise de resíduos. Estes gráficos permitem

aferir sobre a qualidade de ajuste do modelo1 com a regressão Binomial Negativa.

Figura 7.10: Gráficos da análise de resíduos referentes ao modelo de regressão Binomial Negativa

Os resíduos mostram que ainda há espaço para melhorar o modelo de regressão Binomial

Negativa. No entanto, o modelo não sofre alteração significativa quando se eliminam as

observações candidatas a outliers.

Page 72: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

64

Interpretação dos coeficientes do modelo

A forma como se interpretam os coeficientes estimados é a mesma para os modelos

lineares generalizados com função de ligação logarítmica, nomeadamente, os modelos de

regressão de Poisson e de Binomial Negativa.

Uma interpretação possível para estes parâmetros é que a cada unidade de aumento na

variável explicativa resulta em um aumento igual ao coeficiente estimado no logaritmo

do valor médio da variável resposta, mantendo as outras variáveis explicativas constantes.

A outra interpretação possível é a cada unidade de aumento na variável explicativa resulta

em um aumento igual à exponencial do coeficiente estimado no valor médio da variável

resposta, mantendo as outras variáveis explicativas constantes.

Nesta dissertação a regressão Binomial Negativa foi considerada mais adequada que a

regressão de Poisson, portando será feita a interpretação dos resultados encontrados com

esta metodologia. Os coeficientes positivos estimados no modelo1 e no modelo3

associados à variável explicativa dia da semana indicam que o número esperado de

acidentes é maior nos dias úteis em comparação com os fins-de-semana. Por exemplo, na

sexta-feira o número esperado de acidentes rodoviários é 42% superior em relação ao

domingo. Os coeficientes estimados associados á variável meses no modelo1 e

associados a variável estações do ano no modelo2 indicam que nos meses de outono,

respetivamente, Outubro e Novembro, existe maior probabilidade de acidentes por dia

em comparação com os outros meses do ano. Relativamente a estes dois meses o número

esperado de acidentes por dia aumenta aproximadamente 13% e 17%, respetivamente em

relação ao mês de Janeiro. Nos meses de verão (Junho a Setembro), o mês de Agosto tem

o menor número de acidentes por dia e o mês de Setembro é o que tem maior número de

acidentes por dia. O número esperado de acidentes por dia aumenta 2% e 12% no mês de

Agosto e Setembro, respetivamente, em relação ao mês de Janeiro. Os coeficientes

negativos dos meses Março e Abril indicam que o número esperado de acidentes por dia

diminui cerca de 1% em relação ao mês de Janeiro. Nos dias feriados o número esperado

de acidentes diminui 33% em relação aos dias não feriados.

Page 73: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

65

8. Conclusão

Neste trabalho o objetivo principal foi identificar os fatores que influenciam a ocorrência

de acidentes rodoviários e a sua severidade. A análise inicial foi a análise exploratória

dos dados, pois ela pode sugerir se existe uma relação ou associação entre a variável

resposta e as variáveis explicativas, relação essa que pode posteriormente ser melhor

estudada e compreendida com a análise de regressão. A análise de regressão incide nos

estudos dos modelos lineares generalizados, que neste trabalho abrangeu os modelos de

regressão Logística sobre os dados da severidade de acidentes e os modelos de regressão

de Poisson ou de regressão Binomial Negativa sobre os dados da ocorrência de acidentes

rodoviários por dia na Grã-Bretanha.

Os resultados da análise de regressão Logística sobre os dados da severidade de acidentes

com peões ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 e 31 de Dezembro de

2013 demonstraram que as variáveis explicativas tipo de veículos, limite de velocidade

nas estradas, condições de iluminação, género do condutor, dia da semana, faixa etária

dos condutores e idade do veículo foram estatisticamente significativas. Estas

significâncias podem ser observados em termos da probabilidade ou da razão da chance.

Os coeficientes estimados destas variáveis, com exceção da variável faixa etária dos

condutores, foram positivos, o que significa aumento da probabilidade de acidentes não

ligeiros.

Quanto à razão da chance, as variáveis que tiveram o maior impacto sobre a severidade

de acidentes foram as condições de iluminação, os tipos de veículos e o limite de

velocidade nas estradas. Por exemplo a chance de acidentes ocorridos à noite serem não

ligeiros é 40% superior em relação à luz do dia. Para Keall, Frith & Patterson (2005) as

razões para o maior risco de acidentes à noite incluem o efeito da fadiga dos condutores

e a visibilidade reduzida. A chance de acidentes não ligeiros é 48% superior para os peões

atingidos por um camião em relação aos automóveis. Para as estradas com limite de

velocidade maior do que 50 milhas por hora duplica a chance de acidentes não ligeiros.

Outra análise realizada com aplicação da regressão Logística foi a comparação da

severidade de acidentes com peões ocorridos na zona rural e urbana. Entre as variáveis

explicativas consideradas nesta análise, a maioria foram significativas para explicar a

severidade de acidentes, tanto em zona rural como em zona urbana. A diferença desta

significância está no diferente impacto que estas variáveis têm sobre a severidade de

acidentes na zona rural e urbana.

Por exemplo, nas estradas rurais com limite de velocidade maior do que 50 milhas por

hora a chance de acidentes não ligeiros é aproximadamente três vezes superior em relação

as estradas com limite menor do que 30 milhas por hora. Considerando as mesmas

circunstâncias em estradas urbanas, a chance de acidentes não ligeiros aumenta 40%. Em

estradas urbanas, os acidentes ocorridos à noite têm uma chance de 40% superior de serem

não ligeiros em relação a luz do dia, enquanto nas estradas rurais a chance de acidentes

não ligeiros aumenta 79%.

Page 74: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

66

A idade do veículo foi significativa para explicar a severidade de acidentes na zona rural,

mas não significativa para a zona urbana. A probabilidade de acidentes não ligeiros

aumenta com a idade do veículo. Segundo Zwerling et al. (2005) esta diferença pode estar

associada ao fato dos condutores em zonas rurais utilizarem os veículos mais antigos sem

dispositivos de segurança. Para a zona urbana a variável faixa etária dos condutores foi

significativa, a probabilidade de acidentes não ligeiros diminui com o aumento da idade

dos condutores.

De um modo geral, as variáveis que tiveram a maior influência sobre a severidade de

acidentes com peões foram o limite de velocidade nas estradas, os tipos de veículos e as

condições de iluminação.

Na análise de dados sobre a ocorrência de acidentes por dia conclui-se que os modelos

desenvolvidos com a regressão Binomial Negativa foram adequados para ajustar os

dados. As variáveis explicativas utilizadas foram o dia da semana (com sete categorias),

o dia da semana (com três categorias), os meses do ano, as estações do ano e os dias

feriados. Os resultados da análise de regressão demonstraram que a ocorrência de

acidentes por dia é melhor explicada pelas variáveis explicativas como o dia da semana

(com sete categorias), os meses do ano e os dias feriados. De acordo com os resultados

da análise de regressão Binomial Negativa, o número esperado de acidentes rodoviários

é maior nos dias úteis em relação aos fins-de-semana. Nos meses de Março e Abril, o

número esperado de acidentes por dia diminui em relação ao mês de Janeiro. Enquanto

nos outros meses do ano aumenta o número esperado de acidentes por dia em relação ao

mês de Janeiro, com maior destaque nos meses de Outubro, Novembro e Setembro.

Os conhecimentos obtidos podem ser utilizados para melhorar a segurança rodoviária,

como desenvolver programas de intervenção de segurança adequadas para reduzir o

número de acidentes e da sua severidade. Por exemplo um programa para alertar e

sensibilizar os condutores sobre as consequências e os possíveis riscos de um acidente.

Sugestão para trabalho futuro

O limite de velocidade nas estradas foi considerado como o fator que teve maior

influência sobre a severidade de acidentes rodoviários. As estradas de vias simples

também tiveram um maior número de acidentes rodoviários, cerca de 74.5% do total de

acidentes ocorridos entre 1 de Janeiro de 2005 a 31 de Dezembro de 2013 na Grã-

Bretanha. Uma análise interessante seria estudar os acidentes ocorridos neste tipo de

estrada considerando o limite de velocidade estabelecido e as características da geometria

das estradas. O objetivo seria estabelecer um limite de velocidade adequado a este tipo de

estrada.

Page 75: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

67

Bibliografia:

Abdel-Aty, M.A. and Radwan, A.E. (2000). Modelling traffic accident occurrence and involvement.

Accid. Anal. Prev, 32, 633-642.

Agresti, Alan (2002). Categorical Data Analysis. Wiley.

Ballesteros, M.F., Dischinger, P.C and Langenberg, P. (2004). Pedestrian injuries and vehicle type in

Maryland. Accid. Anal. Prev. 36, 73–81.

Cordeiro, G.M, and Lima, E.A. (2006). Modelos Paraméricos. Recife

Coxe, S., West, S.G. and Aiken, L.S. (2009). The Analysis of Count Data: A Gentle Introduction to

Poisson Regression and Its Alternatives. Journal of Personality Assessment.

Cools, M., Moons, E. and Wets, G. (2009). Assessing the impact of weather on traffic intensity. In

Transportation Research Institute.

Dissanayake, S., and Lu, J.J. (2002). Factors influential in making an injury severity difference to older

drivers involved in fixed object–passenger car crashes. Accid. Anal. Prev. 34, 609–618.

Eluru, N. and Bhat, C.R. (2007). A joint econometric analysis of seat belt use and crash-related injury

severity. Accid. Anal. Prev. 39 (5), 1037–1049.

Eluru, N., Bhat, C.R. and Hensher, D.A. (2008). A mixed generalized ordered response model for

examining pedestrian and bicyclist injury severity level in traffic crashes. Accid. Anal. Prev. 40, 033 –

1054.

Ghamdi, A.S. (2002). Using logistic regression to estimate the influence of accident factors on accident

severity. Accid.Anal.Prev. 34, 729–741.

Hausman, J., Hall, B.H. and Griliches, Z. (1984). Econometric Models for Count Data with an

Application to the Patents-R & D Relationship. Econometrica, 52(4), 909-938.

Hong, D., Kim, J., Kim, W., Lee, Y. and Yang, H. (2005). Development of traffic accident prediction

models by traffic and road characteristics urban areas. Procedings of the Eastern Asia Society for

Transportation Studies, vol 5, 2046-2061.

Hosmer, D. W., and Lemeshow, S. (2013). Applied Logistic Regression. Wiley.

Lord, D. and Mannering, F. (2010). The Statistical Analysis of Crash-Frequency Data: A Review and

Assessment of Methodological Alternatives.

Keall, M. D., Frith, W. J. and Patterson, T. L. (2005). The contribution of alcohol to night time crash risk

and other risks of night driving. Accid. Anal. Prev. 37, 816–824.

Kong, C. and Yang, J. (2010). Logistic regression analysis of pedestrian casualty risk in passenger

vehicle collisions in China. Accid. Anal. Prev. 42, 987–993.

Kononen, D.W., Flannagan, C.A.C. and Wang, S.C. (2011). Identification and validation of a logistic

regression model for predicting serious injuries associated with motor vehicle crashes. Accid. Anal. Prev.

43, 112–122.

Miaou, S.P and Lum, H. (1993). Modeling vehicle accidents and highway geometric design relationships.

Accid. Anal. Prev, 25, 689-709.

Page 76: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

68

Milton, J. and Mannering, F. (1998). The relationship among highway geometrics, traffic-related

elements and motor vehicle accident frequencies. Transportation 25, 395–413.

Milton, J. C., Shankar, V. N. and Mannering, F. L. (2008). Highway accident severities and the mixed

logit model: An exploratory empirical analysis. Accid. Anal. Prev. 40, 260–266.

Memon, A. Q. (2012). Modelling road accidents from national datasets: A case study of Great Britain.

Disponivel em: http://discovery.ucl.ac.uk/1354623/1/Memon%20Thesis.pdf.

Nelder, J.A. and Wedderburn, R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical

Society, A 135, 370-384.

OECD (2008). Towards Zero: Ambitious Road Safety Targets and The Safe System Approach.

Organisation for Economic Co-Operation and Development. International Transport Forum. Paris,

France.

Peden, M., Scurfield, R., Sleet, D., Mohan, D., Hyder, A., Jarawan, E. and Mathers, C. (2004). World

Report on Road Traffic Injury Prevention. Geneva: World Health Organization.

Paula, G.A. (2013). Modelos de Regressão com Apoio Computacional, São Paulo: IME - Universidade de

São Paulo.

Raia Jr., A. A. e Santos, L. (2005). Acidente Zero: utopia ou realidade? Anais do XV Congresso

Brasileiro de Transporte e Trânsito, Goiânia. Anais em CD-ROM.

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for

Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.

Santos, J. H. (2013). Modelos para dados de contagem com excesso de zeros. Disponível em:

http://repositorium.sdum.uminho.pt/handle/1822/29402.

Stats19 (2013). Road Traffic Accident dataset, base de dados disponível em:

https://data.gov.uk/dataset/road-accidents-safety-data.

Turkman, M. A., and Silva, G. L. (2000). Modelos Lineares Generalizados – da teoria à prática. Lisboa:

Edições SPE.

Valent, F., Schiava, F., Savonito, C., Gallo, T., Brusaferro, S. and Barbone, F. (2002). Risk factors for

fatal road traffic accidents in Udine, Italy. Accid. Anal. Prev. 34, 71 – 84.

Winkelmann, R. (2008). Econometric Analysis of Count Data, (Fifth edition). ISBN: 978-3-540-77648-2.

World Health Organization (2013). Global status report on road safety. ISBN: 978 92 4 156456 4.

Zajac, S.S. and Ivan, J.N. (2003). Factors influencing injury severity of motor vehicle–crossing pedestrian

crashes in rural Connecticut. Accid.Anal. Prev. 35, 369 – 379.

Zwerling et al. (2005). Fatal motor vehicle crashes in rural and urban áreas: decomposing rates into

contributing factors. Injury Prevention 11, 24 – 28.

Page 77: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

69

Anexos

Anexo 1:

Page 78: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

70

Page 79: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

71

Page 80: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

72

Page 81: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

73

Anexo 2:

Descrição dos dados (ficheiro 1)

Figura 2.1: Distribuição de acidentes por limite de velocidade (n = dimensão do ficheiro1)

Figura 2.2: Distribuição de acidentes por tipos de estrada (n = dimensão do ficheiro1)

Page 82: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

74

Figura 2.3: Distribuição de acidentes por condições climáticas (n = dimensão do ficheiro1)

Figura 2.4: Distribuição de acidentes por condições da superfície de estrada (n = dimensão do ficheiro1)

Figura 2.5: Distribuição de acidentes por condições de iluminação (n = dimensão do ficheiro1)

Page 83: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

75

Figura 2.6: Distribuição de acidentes em cruzamento (n = dimensão do ficheiro1)

Descrição dos dados (ficheiro 2)

Figura 2.7: Distribuição dos condutores de veículos envolvidos nos acidentes por género dos condutores

(n = dimensão do ficheiro2)

Page 84: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

76

Figura 2.8: Distribuição dos condutores de veículos envolvidos nos acidentes por faixa etária (n =

dimensão do ficheiro2)

Figura 2.9: Distribuição dos veículos envolvidos nos acidentes (n = dimensão do ficheiro2)

Page 85: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

77

Descrição dos dados (ficheiro 3)

Figura 2.10: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 (n = dimensão do

ficheiro3)

Figura 2.11: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 por género (n = dimensão

do ficheiro3)

Page 86: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

78

Figura 2.12: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 por faixa etária (n =

dimensão do ficheiro3)

Figura 2.13: Distribuição da severidade das vítimas de acidentes ocorridos entre 2005 a 2013 (n =

dimensão do ficheiro3)

Page 87: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

79

Anexo 3:

Tabela: Dias feriados codificados em base de dados

Ano (2005) Dia da semana Dias feriados (F) Ano (2006) Dia da semana Dias feriados

(F) 1 de Janeiro Sábado F 1 de Janeiro Domingo F

3 de Janeiro Segunda F 2 de Janeiro Segunda F

25 de Março Sexta F 14 de Abril Sexta F

2 de Maio Segunda F 1 de Maio Segunda F

30 de Maio Segunda F 29 de Maio Segunda F

25 de Dezembro Domingo F 25 de Dezembro Segunda F

26 de Dezembro Segunda F 26 de Dezembro Terça F

27 de Dezembro Terça F

Ano (2007) Dia da semana Dias feriados (F) Ano (2008) Dia da semana Dias feriados

(F) 1 de Janeiro Segunda F 1 de Janeiro Terça F

6 de Abril Sexta F 21 de Março Sexta F

7 de Maio Segunda F 5 de Maio Segunda F

28 de Maio Segunda F 26 de Maio Segunda F

30 de Maio Segunda F 25 de Dezembro Quinta F

25 de Dezembro Terça F 26 de Dezembro Sexta F

26 de Dezembro Quarta F

Ano (2009) Dia da semana Dias feriados (F) Ano (2010) Dia da semana Dias feriados

(F) 1 de Janeiro Quinta F 1 de Janeiro Sexta F

10 de Abril Sexta F 2 de Abril Sexta F

4 de Maio Segunda F 3 de Maio Segunda F

25 de Maio Segunda F 31 de Maio Segunda F

25 de Dezembro Sexta F 25 de Dezembro Sábado F

26 de Dezembro Sábado F 26 de Dezembro Domingo F

28 de Dezembro Segunda F 27 de Dezembro Segunda F

28 de Dezembro Terça F

Ano (2011) Dia da semana Dias feriados (F) Ano (2012) Dia da semana Dias feriados

(F) 1 de Janeiro Sábado F 1 de Janeiro Domingo F

3 de Janeiro Segunda F 2 de Janeiro Segunda F

22 de Abril Sexta F 6 de Abril Sexta F

29 de Abril Sexta F 7 de Maio Segunda F

2 de Maio Segunda F 4 de Junho Segunda F

30 de Maio Segunda F 5 de Junho Terça F

25 de Dezembro Domingo F 25 de Dezembro Terça F

26 de Dezembro Segunda F 26 de Dezembro Quarta F

27 de Dezembro Terça F

Ano (2013) Dia da semana Dias feriados (F) 1 de Janeiro Terça F

29 de Março Sexta F

6 de Maio Segunda F

27 de Maio Segunda F

25 de Dezembro Terça F

26 de Dezembro Quarta F

Page 88: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

80

Anexo 4:

Regressão Logística

Acidentes com condutores, peões e passageiros ocorridos entre 2005 a 2013

Tabela 4.1: Resultado obtido a partir da aplicação do método backward stepwise

Variáveis explicativas Estimativas

dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -2.97 -204.13 <2e-16

Meses <2e-16

Março-Maio 0.13 14.4 <2e-16

Junho-Setembro 0.15 17.91 <2e-16

Outubro-Novembro 0.04 4.05 5.21e-05

Dia_Semana

Sábado 0.16 19 <2e-16

Domingo 0.23 24.9 <2e-16

Hora_do_Dia

1-5horas 0.202 19.7 <2e-16

12-17horas 0.103 12.4 <2e-16

18-24horas 0.16 14.9 <2e-16

Limite_Velocidade

30-50 m/horas -0.19 -6.13 8.6e-10

>50 m/horas 0.21 6.64 3.1e-11

Condições_Iluminação

Não luz do dia 0.33 38 <2e-16

Tipo_Veículo

Motocicleta 0.87 101.6 <2e-16

Camião 0.39 32.4 <2e-16

Outro tipo_veículo 0.13 9.8 <2e-16

Género_Condutor

Masculino 0.25 34.3 <2e-16

Faixa_etária_Condutor

36-55anos 0.04 5.7 1.03e-08

>55anos 0.29 32.4 <2e-16

Idade_veículo

Idade 0.0010 15.3 <2e-16

Page 89: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

81

Tabela 4.2: Resultado obtido a partir da aplicação do método forward stepwise

Variáveis explicativas Estimativas

dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -2.97 -204.13 <2e-16

Tipo_Veículo

Motocicleta 0.87 101.6 <2e-16

Camião 0.39 32.4 <2e-16

Outro tipo_veículo 0.13 9.8 <2e-16

Limite_Velocidade

30-50 m/horas -0.19 -6.13 8.6e-10

>50 m/horas 0.21 6.64 3.1e-11

Condições_Iluminação

Não luz do dia 0.33 38 <2e-16

Género_Condutor

Masculino 0.25 34.3 <2e-16

Dia_Semana

Sábado 0.16 19

Domingo 0.23 24.9 <2e-16

Faixa_etária_Condutor

36-55anos 0.04 5.7 1.03e-08

>55anos 0.29 32.4 <2e-16

Meses

Março-Maio 0.13 14.4 <2e-16

Junho-Setembro 0.15 17.9 <2e-16

Outubro-Novembro 0.04 4.05 5.21e-05

Hora do dia

1-5horas 0.202 19.7 <2e-16

12-17horas 0.103 12.4 <2e-16

18-24horas 0.16 14.9 <2e-16

Idade_veículo

Idade 0.0010 15.3 <2e-16

Page 90: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

82

Tabela 4.3: Resultado obtido a partir da aplicação do método both stepwise

Variáveis explicativas Estimativas

dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -2.97 -204.13 <2e-16

Meses <2e-16

Março-Maio 0.13 14.4 <2e-16

Junho-Setembro 0.15 17.91 <2e-16

Outubro-Novembro 0.04 4.05 5.21e-05

Dia_Semana

Sábado 0.16 19 <2e-16

Domingo 0.23 24.9 <2e-16

Hora_do_Dia

1-5horas 0.202 19.7 <2e-16

12-17horas 0.103 12.4 <2e-16

18-24horas 0.16 14.9 <2e-16

Limite_Velocidade

30-50 m/horas -0.19 -6.13 8.6e-10

>50 m/horas 0.21 6.64 3.1e-11

Condições_Iluminação

Não luz do dia 0.33 38 <2e-16

Tipo_Veículo

Motocicleta 0.87 101.6 <2e-16

Camião 0.39 32.4 <2e-16

Outro tipo_veículo 0.13 9.8 <2e-16

Género_Condutor

Masculino 0.25 34.3 <2e-16

Faixa_etária_Condutor

36-55anos 0.04 5.7 1.03e-08

>55anos 0.29 32.4 <2e-16

Idade_veículo

Idade 0.0010 15.3 <2e-16

Tabela 4.4: Comparação entre a deviance do modelo1 com o modelo nulo

Deviance

(D)

Diferença entre

deviance

Valor-p

Modelo nulo (Mn) 747962

Modelo1 (M1) 725197 22765 <2.2e-16

Page 91: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

83

Anexo 5:

Regressão Logística

Acidentes com peões ocorridos entre 2005 a 2013

Tabela: Regressão logística ajustado aos dados de acidentes com peões de 2005 a 2013

Variáveis explicativas Estimativas dos

coeficientes

Teste de Wald Valor-p (Wald)

Termo Constante -1.46 -31,22 <2e-16

Tipo_Veículo

Motocicleta 0.025 0.74 0.46

Camião 0.39 15.46 <2e-16

Outro tipo_veículo 0.05 2.37 0.017

Limite_Velocidade

30-50 m/horas 0.119 2.79 0.0053

>50 m/horas 0.89 16.81 2e-16

Condições_Iluminação

Não luz do dia 0.38 25.95 <2e-16

Género_Condutor

Masculino 0.091 6.27 3.60e-10

Dia_Semana

Sábado 0.078 4.321 1.55e-05

Domingo 0.13 5.82 5.93e-09

Faixa_etária_Condutor

36-55anos -0.091 -6.487 8.76e-11

>55anos -0.077 -4.39 1.10e-05

Meses

Março-Maio 0.017 0.95 0.342

Junho-Setembro 0.023 1.33 0.18

Outubro-Novembro -0.005 -0.27 0.79

Idade_veículo

Idade 0.004 2.43 0.015

Page 92: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

84

Análise de resíduos (Modelo3)

Resultado de ajustamento do modelo com a presença das observações 21520 e 139216

Resultado de ajustamento do modelo sem as observações 21520 e 139216

Capacidade preditiva do modelo3 (melhor ponto de corte)

Gráfico: sensibilidade versus especificidade

Page 93: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

85

Anexo 6:

acidentes com peões na zona rural e urbana

Figura 6.1: Frequência de acidentes rodoviários ocorridos na zona urbana e rural

Figura 6.2: Percentagem de acidentes ligeiros e não ligeiros na zona rural

Figura 6.3: Percentagem de acidentes ligeiros e não ligeiros na zona urbana

Page 94: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

86

Anexo 7:

Regressão Logística

Dados de acidentes com peões na zona rural

Análise de resíduos

Figura 7.1: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos

dados de acidentes com peões na zona rural

Resultado de ajustamento do modelo com a presença das observações 2170, 12162 e 15495

Page 95: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

87

Resultado de ajustamento do modelo sem a presença das observações 2170, 12162 e 15495

Capacidade preditiva (melhor ponto de corte)

Figura 7.2: gráfico sensibilidade versus especificidade (modelo zona rural)

Figura 7.3: gráfico da curva ROC (Modelo zona rural)

Page 96: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

88

Anexo 8:

Regressão Logística

Dados de acidentes com peões na zona urbana

Análise de resíduos

Figura 8.1: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos

dados de acidentes com peões na zona urbana

Resultado de ajustamento do modelo com a presença das observações 66925 e 103040

Page 97: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

89

Resultado de ajustamento do modelo sem a presença das observações 66925 e 103040

Capacidade preditiva (melhor ponto de corte)

Figura 8.2: gráfico sensibilidade versus especificidade (modelo zona urbana)

Figura 8.3: gráfico da curva ROC (Modelo zona urbana)

Page 98: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

90

Anexo 9:

Regressão de Poisson

Modelos Variabilidade nos dados não

explicados (Deviance)

Variabilidade nos dados

explicados (estatística de teste

da verosimilhança)

Modelo nulo 75231 0 Modelo 1 = β

1 + β

2*dia_semana 59077 16153

Modelo 1 = β1 + β

2*dia_semana +

β3*mes 54304 20926

Modelo 1 = β1 + β

2*dia_semana +

β3*mes + β4*feriados 50642 24588

Ajustamento do modelo com o método stepwise forward

Tabela 9.1: Resultado de ajustamento do modelo de regressão de Poisson (modelo2)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.85 0.003 2053.4 <2e-16

Dia_semana

Segunda 0.24 0.003 74.3 <2e-16

Terça 0.28 0.003 86.3 <2e-16

Quarta 0.29 0.003 88.8 <2e-16

Quinta 0.29 0.003 89.6 <2e-16

Sexta 0.35 0.003 111.13 <2e-16

Sábado 0.15 0.003 46.3 <2e-16

Estações do ano

Primavera 0.006 0.002 2.51 0.01

Verão 0.06 0.002 25.2 <2e-16

Outono 0.12 0.003 48.3 <2e-16

Dias

Feriados -0.4 0.007 -55.2 <2e-16

Page 99: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

91

Tabela 9.2: Resultado de ajustamento do modelo de regressão de Poisson (modelo3)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.83 0.004 1576.4 <2e-16

Dia_semana

Dias úteis 0.29 0.003 111.3 <2e-16

Sábado 0.15 0.003 46.14 <2e-16

Mês

Fevereiro 0.008 0.004 1.9 0.06

Março -0.004 0.004 -0.98 0.3

Abril -0.004 0.004 -0.91 0.4

Maio 0.07 0.004 18.4 <2e-16

Junho 0.08 0.004 20.9 <2e-16

Julho 0.08 0.004 20.9 <2.e-16

Agosto 0.01 0.004 3.5 0.0005

Setembro 0.1 0.004 25.9 <2e-16

Outubro 0.12 0.004 29.8 <2e-16

Novembro 0.16 0.004 40.7 <2e-16

Dezembro 0.04 0.004 10.44 <2e-16

Dias

Feriados -0.4 0.007 -58.2 <2e-16

Tabela 9.3: Resultado de ajustamento do modelo de regressão de Poisson (modelo4)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.85 0.003 2053.5 <2e-16

Dia_semana

Dias úteis 0.29 0.003 111.3 <2e-16

Sábado 0.15 0.003 46.2 <2e-16

Estações do ano

Primavera 0.006 0.002 -56.3 0.01

Verão 0.06 0.002 2.45 <2e-16

Outono 0.12 0.003 25.1 <2e-16

Dias

Feriados -0.4 0.007 -56.3 <2e-16

Page 100: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

92

Regressão Binomial Negativa

Tabela 9.4: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo2)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.85 0.011 549.9 <2e-16

Dia_semana

Segunda 0.24 0.013 19.5 <2e-16

Terça 0.28 0.012 22.2 <2e-16

Quarta 0.29 0.012 22.9 <2e-16

Quinta 0.29 0.012 23.01 <2e-16

Sexta 0.35 0.012 28.3 <2e-16

Sábado 0.15 0.012 12.24 <2e-16

Estações do ano

Primavera 0.013 0.009 1.4 0.2

Verão 0.06 0.008 6.9 4.2e-12

Outono 0.126 0.011 12.01 <2e-16

Dias

Feriados -0.4 0.02 -16.3 <2e-16

Tabela 9.5: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo3)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.83 0.014 413.5 <2e-16

Dia_semana

Dias úteis 0.29 0.0097 29.9 <2e-16

Sábado 0.15 0.012 12.2 <2e-16

Mês

Fevereiro 0.008 0.016 0.5 0.6

Março -0.0006 0.02 -0.04 0.97

Abril -0.003 0.02 0.18 0.9

Maio 0.08 0.02 5.12 3e-07

Junho 0.09 0.02 5.45 4.98e-08

Julho 0.09 0.02 5.6 2.46e-08

Agosto 0.02 0.02 1.29 0.19

Setembro 0.11 0.02 6.6 4.27e-11

Outubro 0.12 0.02 7.64 2.22e-14

Novembro 0.16 0.02 9.91 <2e-16

Dezembro 0.04 0.02 2.3 0.02

Dias

Feriados -0.4 0.02 -17.11 <2e-16

Page 101: Modelos lineares generalizados: aplicação a dados de ...repositorio.ul.pt/bitstream/10451/22827/1/ulfc117306_tm_Ana_Maria... · A investigação sobre os fatores que influenciam

93

Tabela 9.6: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo4)

Variáveis explicativas Estimativas

dos

coeficientes

Desvio padrão Teste de Wald Valor-p (Wald)

Termo Constante 5.85 0.011 543.2 <2e-16

Dia_semana

Dias úteis 0.29 0.0099 29.5 <2e-16

Sábado 0.15 0.012 12.08 <2e-16

Estações do ano

Primavera 0.013 0.009 1.43 0.2

Verão 0.06 0.008 6.9 5.78e-12

Outono 0.127 0.011 11.9 <2e-16

Dias

Feriados -0.4 0.02 -16.5 <2e-16

Análise de resíduos (regressão Binomial Negativa)

Resultado de ajustamento do modelo com a presença da observação 193

Resultado de ajustamento do modelo com observação 193 eliminada do conjunto de dados