35
1 CE225 – Modelos Lineares Generalizados

CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

1

CE225 – Modelos Lineares Generalizados

Page 2: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

2

Objetivo da disciplina

• Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

propostos originalmente em Nelder e Wedderburn (1972), que configuram extensões dos

modelos lineares clássicos (com erros normalmente distribuídos) e que permitem

analisar a relação funcional entre um conjunto de variáveis independentes e uma variável

aleatória dependente com distribuição pertencente à família exponencial de

distribuições.

• A família exponencial contempla, dentre outras, as distribuições normal, exponencial,

gama, normal inversa, Poisson, binomial e binomial negativa.

• Na sequência são descritos alguns dos problemas que serão analisados, ao longo do

semestre, usando elementos de Modelos Lineares Generalizados.

Page 3: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

3

Exemplos de motivação

Page 4: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

4

Exemplo 1 – Análise da resistência de uma nova fibra sintética usada na produção de

camisas. Sabendo-se que a resistência da fibra é afetada pela quantidade de algodão

utilizada, e que a quantidade de algodão no produto final, de acordo com as características

desejadas, deve estar no intervalo de 10 a 40%, um experimento é delineado com cinco

réplicas (amostras de tecidos) para cinco diferentes especificações referentes à quantidade de

algodão.

Variável resposta: Resistência da fibra (em libras/pol2).

Variável explicativa: Porcentagem de algodão no tecido, com cinco níveis: 15, 20, 25, 30 e

35%.

Page 5: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

5

Dados

Quadro 1 – Dados de resistência (em libras/pol2) para o experimento

de fibra sintética.

Amostra de tecido Porcentagem

de algodão 1 2 3 4 5

15 7 7 15 11 9

20 12 17 12 18 18

25 14 18 18 19 19

30 19 25 22 19 23

35 7 10 11 15 11

Objetivos:

• Avaliar o efeito da porcentagem de algodão na resistência da fibra sintética;

• Identificar a porcentagem ideal de algodão de forma a se obter máxima resistência.

Page 6: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

6

15 20 25 30 35

10

15

20

25

Porcentagem de algodão

Res

istê

ncia

da

fibra

Figura 1 – Gráfico de dispersão para as resistências das fibras sob cinco porcentagens distintas de

algodão.

Page 7: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

7

Exemplo 2 – Amostras de 20 insetos (Heliothis virescens - praga do algodão) foram expostas

a doses crescentes do cipermetrina, dois dias depois da emergência da pupa (Collet, 2002).

Após 72h, foram contados os insetos mortos.

Variável resposta: Número de insetos mortos.

Variáveis explicativas

• Dose de cipermetrina, com níveis 1, 2, 4, 8, 16, 32 u.m.:

• Sexo (macho ou fêmea).

Page 8: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

8

Quadro 2 – Números de insetos mortos

em amostras de 20 insetos machos e fêmeas

submetidos a doses crescentes de

cipermetrina.

Nº insetos mortos Dose Log(Dose)

Machos Fêmeas

1,0 0 1 0

2,0 1 4 2

4,0 2 9 6

8,0 3 13 10

16,0 4 18 12

32,0 5 20 16

Page 9: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

9

Objetivos:

• Propor um modelo que descreva o aumento na mortalidade dos insetos segundo a dose de

aplicada de cipermetrina;

• Comparar as curvas de mortalidade para insetos machos e fêmeas;

• Estimar doses letais, ou seja, doses efetivas (mortais) para uma proporção p de insetos.

Page 10: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

10

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

log(dose)

Pro

porç

ão d

e in

seto

s m

orto

s

Machos

Fêmeas

Figura 2 – Gráfico da proporção de insetos mortos segundo o sexo e a dose de inseticida.

Page 11: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

11

Exemplo 3 - Uma população de mulheres indígenas vivendo numa região próxima a Phoenix,

Arizona, foi testada para diabetes de acordo com o critério estabelecido pela Organização Mundial

de Saúde. Os dados foram coletados pelo Instituto Nacional de Diabetes e Doenças Digestivas e

Renais dos EUA. São considerados os dados referentes aos 532 registros completos.

Variáveis explicativas

npreg - número de gestações;

gli - concentração de glicose no plasma no teste de tolerância à glicose oral.

bp - pressão arterial diastólica (mm Hg).

skin - espessura da prega tricipital (mm).

bmi - índice de massa corporal (peso/altura2).

ped - função pedigree diabetes.

age - idade em anos.

Variável resposta

type – diagnóstico de diabetes de acordo com o teste de Glicemia em Jejum.

Page 12: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

12

Notas:

O Teste Oral de Tolerância à Glicose (também conhecido como Curva Glicêmica) é feito da

seguinte maneira: a pessoa com suspeita de diabetes ingere 75g de glicose diluída em água. Após duas

horas de espera, é feita a coleta de sangue para medir a taxa de glicose. Se o resultado for igual ou

superior a 200mg/dl (miligramas por decilitro), o indivíduo é considerado portador de diabetes. Se a

glicemia estiver entre 140mg/dl e 199mg/dl, então o diagnóstico é de pré-diabetes.

Page 13: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

13

Dados - Seis primeiras linhas da base:

npreg glu bp skin bmi ped age type

1 5 86 68 28 30.2 0.364 24 No

2 7 195 70 33 25.1 0.163 55 Yes

3 5 77 82 41 35.8 0.156 35 No

4 0 165 76 43 47.9 0.259 26 No

5 0 107 60 25 26.4 0.133 23 No

6 5 97 76 27 35.6 0.378 52 Yes

Objetivos:

• Identificar fatores associados à incidência de diabetes;

• Estabelecer um modelo preditivo para o diagnóstico de diabetes.

Page 14: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

14

Não Sim

0

2

4

6

8

10

12

14

Diagnóstico

Gra

vide

z

Não Sim

60

80

100

120

140

160

180

200

DiagnósticoG

licos

e

Não Sim

40

50

60

70

80

90

100

110

Diagnóstico

Pre

ssão

art

eria

l (m

mH

g)

Não Sim

20

40

60

80

100

Diagnóstico

Esp

essu

ra p

rega

tri

c.

Não Sim

20

25

30

35

40

45

Diagnóstico

IMC

(kg

/m2)

Não Sim

0.0

0.5

1.0

1.5

2.0

Diagnóstico

Ped

igre

e

Não Sim

20

30

40

50

60

Diagnóstico

Idad

e (a

mos

)

Não Sim

Diagnóstico

Núm

ero

de p

acie

ntes

0

20

40

60

80

100

120

Figura 3 – Distribuição das variáveis explicativas segundo o diagnóstico de diabetes.

Page 15: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

15

Tabela 1 – Médias, desvios padrões e estatística do teste t

(comparação de duas médias), para amostras independentes,

para as variáveis explicativas segundo o diagnóstico

Diagnóstico Variável

Não Sim

Estatística

t

Número de gestações 2,9 (2,8) 4,8 (4,0) -3,56

Glicose (oral) 113 (26) 145 (30) -7,38

Pressão diastólica 69 (11) 74 (11) -2,95

Espessura – prega tricipital 27 (11) 33 (12) -3,39

Pedigree 0,41 (0,27) 0,55 (0,36) -4,51

Idade 29 (10) 37 (11) -2,70

Page 16: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

16

npreg

60 100 140 180 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0

02468101214

6080

100120140160180200

glu

bp405060708090100110

20406080

100

skin

bmi202530354045

0.00.51.01.52.0

ped

0 2 4 6 8 12 40 60 80 100 20 30 40 20 30 40 50 60

20

3040

5060

age

Figura 4 – Matriz de gráficos de dispersão para as variáveis explicativas.

Page 17: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

17

Exemplo 4 – Na sequência, são apresentadas as cinco primeiras linhas de um banco de dados

referente a um estudo prospectivo com 100 indivíduos de pelo menos 65 anos de idade em boas

condições físicas. O objetivo do estudo é tentar relacionar o número de quedas num período de

seis meses com as seguintes variáveis explicativas, descritas na ordem em que aparecem na base:

Variáveis explicativas:

• Intervenção – Fator com níveis ‘Educ’: educação somente; ‘Educ+Exerc’: educação e exercícios

físicos;

• Sexo – Fator com níveis ‘Fem’: feminino; ‘Masc’: masculino;

• Balanço – escore de equilíbrio do indivíduo, numa escala de 0 a 100 (quanto maior o escore,

maior o equilíbrio;

• Força – escore de força do indivíduo, numa escala de 0 a 100 (quanto maior o escore, maior a

força).

Variável resposta:

• Quedas – número de quedas no período;

Page 18: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

18

Objetivos:

• Avaliar o efeito da intervenção na prevenção das quedas;

• Identificar características dos indivíduos associadas a um maior número de quedas.

Page 19: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

19

Dados: 10 primeiras linhas da base:

> head(geriatra,10)

quedas intervenção sexo balanço força

1 1 Educ+Exerc Fem 45 70

2 1 Educ+Exerc Fem 62 66

3 2 Educ+Exerc Masc 43 64

4 0 Educ+Exerc Masc 76 48

5 2 Educ+Exerc Fem 51 72

6 1 Educ+Exerc Masc 73 39

7 0 Educ+Exerc Masc 40 54

8 0 Educ+Exerc Fem 66 37

9 2 Educ+Exerc Masc 80 81

10 2 Educ+Exerc Masc 56 60

Page 20: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

20

• Análise descritiva (univariada)

> summary(geriatra)

quedas intervenção sexo balan ço força

Min. : 0.00 Educ :50 Fem :47 Min. : 13.00 Min. :18.00

1st Qu.: 1.00 Educ+Exerc:50 Masc:53 1st Qu.: 39.00 1st Qu.:52.00

Median : 3.00 Median : 51.50 Median :60.00

Mean : 3.04 Mean : 52.83 Mean :60.78

3rd Qu.: 4.00 3rd Qu.: 66.25 3rd Qu.:70.25

Max. :11.00 Max. : 98.00 Max. :90.00

Page 21: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

21

• Análise descritiva (bivariada):

o Número de quedas vs intervenção;

> with(geriatra,describeBy(quedas, intervenção, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se

11 1 Educ 1 50 4.52 2.40 4 4.25 1.48 1 11 10 0.89 -0.07 0.34

12 2 Educ+Exerc 1 50 1.56 1.33 1 1.43 1.48 0 5 5 0.62 -0.52 0.19

o Número de quedas vs sexo;

> with(geriatra,describeBy(quedas, sexo, mat = TRUE ,digits=2))

item group1 vars n mean sd median trimmed ma d min max range skew kurtosis se

11 1 Fem 1 47 3.47 2.49 3 3.21 1.4 8 0 11 11 0.98 0.70 0.36

12 2 Masc 1 53 2.66 2.34 2 2.35 1.4 8 0 10 10 1.18 1.08 0.32

Page 22: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

22

o Número de quedas vs nível de balanço;

> with(geriatra,describeBy(quedas, cut(balanço,4), mat = TRUE,digits=2))

item group1 vars n mean sd median trimme d mad min max range skew kurtosis se

11 1 (12.9,34.2] 1 19 2.32 1.25 2 2.3 5 1.48 0 4 4 -0.09 -1.34 0.29

12 2 (34.2,55.5] 1 39 2.95 2.70 2 2.5 8 1.48 0 11 11 1.36 1.35 0.43

13 3 (55.5,76.8] 1 31 3.32 2.60 3 3.1 6 2.97 0 9 9 0.43 -0.92 0.47

14 4 (76.8,98.1] 1 11 3.82 2.44 3 3.6 7 1.48 0 9 9 0.68 -0.31 0.74

o Número de quedas vs nível de força;

> with(geriatra,describeBy(quedas, cut(força,4), ma t = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se

11 1 (17.9,36] 1 5 2.80 1.30 3 2.80 1.48 1 4 3 -0.26 -1.96 0.58

12 2 (36,54] 1 25 2.32 2.19 2 2.10 2.97 0 7 7 0.61 -0.74 0.44

13 3 (54,72] 1 50 3.30 2.55 3 2.92 1.48 0 10 10 1.10 0.25 0.36

14 4 (72,90.1] 1 20 3.35 2.60 3 3.06 1.48 0 11 11 1.10 1.45 0.58

Page 23: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

23

0 1 2 3 4 5

-4-2

02

46

Fitted values

Res

idua

ls

Residuals vs Fitted

5293

67

-2 -1 0 1 2

-10

12

3

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q

52

93

67

0 1 2 3 4 5

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location52

93

67

0.00 0.05 0.10 0.15-2

-10

12

3

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance

0.5

Residuals vs Leverage

5293

42

Figura 5 – Gráficos para os resíduos de um modelo de regressão linear múltipla ajustado aos dados de

quedas de idosos.

Page 24: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

24

Exemplo 5 – Dados de 4624 apólices de seguros de automóveis que registraram sinistros no

período de um ano, entre 2004 e 2005.

Variáveis explicativas:

• Valor: Valor do veículo (x10.000 dólares);

• Tipo: tipo de veículo, com níveis: o BUS: ônibus; o CONVT: conversível; o COUPE; o HBACK: hathback; o HDTOP: hardtop; o MCARA: trailer motorizado; o MIBUS: mini-ônibus; o RDSTR: roadster; o SEDAN; o STNWG: station wagon; o TRUCK: caminhão; o UTE: utilitário.

• Idade: idade do veículo, com níveis 1 (veículos mais novos), 2, 3 e 4;

• Sexo: sexo do motorista, com níveis: M (masculino) e F (Feminino);

• Area: área de residência do motorista: A, B, C, D, E e F;

• Idademot: idade do motorista, com níveis: 1 (mais novos), 2, 3, 4, 5 e 6. Variável resposta:

• Quantia: valor (somado) dos sinistros apresentados no período (variável resposta).

Page 25: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

25

Objetivos:

• Identificar fatores associados a sinistros mais caros;

• Estabelecer um modelo preditivo, que sirva de base para estabelecer a tabela de preços para

períodos futuros.

Page 26: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

26

Dados

• Dez primeiras linhas da base:

> head(dados2,10)

Valorcar Quantia Tipo Idade Sexo Area Idadem ot

15 1.66 669.5100 SEDAN 3 M B 6

17 1.51 806.6100 SEDAN 3 F F 4

18 0.76 401.8055 HBACK 3 M C 4

41 1.89 1811.7100 STNWG 3 M F 2

65 4.06 5434.4400 STNWG 2 M F 3

66 1.39 865.7900 HBACK 3 F A 4

96 2.66 1105.7700 STNWG 1 F F 5

99 0.50 200.0000 HBACK 4 F A 5

116 1.16 739.2300 STNWG 4 F B 2

125 3.56 3230.6000 MCARA 3 M F 4

Page 27: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

27

• Análise descritiva (univariada):

> summary(dados2)

Valorcar Quantia Tipo Idade Sexo Area Idademot

Min. : 0.000 Min. : 200.0 SEDAN :1476 1: 825 F:2648 A:1085 1: 496

1st Qu.: 1.100 1st Qu.: 353.8 HBACK :1264 2:1259 M:1976 B: 965 2: 932

Median : 1.570 Median : 761.6 STNWG :1173 3:1362 C:1412 3:1113

Mean : 1.859 Mean : 2014.4 UTE : 260 4:1178 D: 496 4:1104

3rd Qu.: 2.310 3rd Qu.: 2091.4 HDTOP : 130 E: 386 5: 614

Max. :13.900 Max. :55922.1 TRUCK : 120 F: 280 6: 365

(Other): 201

> sum(dados2$Quantia>15000) ### Numero de apólices que geraram mais de

$15.000 em sinistros.

[1] 65

Page 28: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

28

Todas as apólices com sinistros

Valor dos sinistros (x$10.000)

Fre

quên

cia

0 5 10 15 20 25 30 35 40 45 50 55 60

0

200

400

600

800

1000

1200

1400

1600

1800

Apólices com sinistros inferiores a $15.000

Valor dos sinistros (x$10.000)

Fre

quên

cia

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

0

200

400

600

800

1000

1200

1400

1600

1800

Figura 6 – Distribuição dos valores dos sinistros gerados pelos segurados.

Page 29: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

29

• Análise descritiva (bivariada) – Valores dos sinistros vs tipo de veículo:

> with(dados2,describeBy(Quantia, Tipo, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se

11 1 BUS 1 9 1484.79 1483.53 876.48 1484.79 613.99 371.82 4790.84 4419.02 1.13 -0.11 494.51

12 2 CONVT 1 3 2296.27 3319.80 530.00 2296.27 440.33 233.00 6125.81 5892.81 0.38 -2.33 1916.69

13 3 COUPE 1 68 2760.64 4197.29 1171.92 1819.55 1440.97 200.00 19847.74 19647.74 2.66 7.15 509.00

14 4 HBACK 1 1264 2048.37 3291.24 783.58 1313.14 865.22 200.00 47296.61 47096.61 4.52 37.81 92.57

15 5 HDTOP 1 130 2267.78 5015.92 584.16 1064.98 484.53 200.00 32814.80 32614.80 4.26 19.88 439.93

16 6 MCARA 1 14 762.42 812.92 379.97 591.53 38.81 345.00 3230.60 2885.60 2.02 3.21 217.26

17 7 MIBUS 1 43 2700.11 4529.85 1286.59 1471.73 1068.48 200.00 20545.10 20345.10 2.67 6.29 690.80

18 8 PANVN 1 62 2146.99 3552.48 714.79 1333.94 626.92 200.00 22216.09 22016.09 3.41 14.50 451.17

19 9 RDSTR 1 2 684.73 685.51 684.73 684.73 718.66 200.00 1169.46 969.46 0.00 -2.75 484.73

110 10 SEDAN 1 1476 1816.82 2928.87 759.81 1144.24 829.98 200.00 29634.63 29434.63 4.09 24.18 76.24

111 11 STNWG 1 1173 2014.57 4063.93 734.19 1164.22 674.26 200.00 55922.13 55722.13 6.27 55.03 118.66

112 12 TRUCK 1 120 2662.47 4675.85 807.55 1392.42 672.78 200.00 22405.44 22205.44 2.81 7.30 426.84

113 13 UTE 1 260 2296.96 3728.77 782.51 1384.33 755.53 200.00 28012.83 27812.83 3.35 14.33 231.25

Page 30: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

30

• Valores dos sinistros vs idade do motorista:

> with(dados2,describeBy(Quantia, Idademot, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se

11 1 1 1 496 2635.83 4320.54 994.66 1705.46 1178.16 200 46868.18 46668.18 4.37 29.93 194.00

12 2 2 1 932 2129.66 4106.12 760.19 1241.36 830.55 200 55922.13 55722.13 5.64 47.35 134.50

13 3 3 1 1113 1915.64 3065.13 743.77 1201.50 806.19 200 31974.77 31774.77 3.74 19.19 91.88

14 4 4 1 1104 1943.21 3503.93 750.47 1165.36 816.13 200 47296.61 47096.61 5.36 43.88 105.46

15 5 5 1 614 1728.68 2798.37 702.76 1054.16 745.40 200 22216.09 22016.09 3.68 16.95 112.93

16 6 6 1 365 1872.79 3405.27 852.32 1110.64 826.48 200 31243.67 31043.67 4.69 27.66 178.24

Page 31: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

31

BUS

CONVT

COUPE

HBACK

HDTOP

MCARA

MIBUS

PANVN

RDSTR

SEDAN

STNWG

TRUCK

UTE

0

10

20

30

40

50

Valor dos sinistros x $10.000

1

2

3

4

0

10

20

30

40

50

Idade d

o m

oto

rista

Valor dos sinistrosx $10.000

F

M

0

10

20

30

40

50

Sexo

Valor dos sinistrosx $10.000

A

B

C

D

E

F

0

10

20

30

40

50

Áre

a d

e re

sid

ência

Valor dos sinistrosx $10.000

1

2

3

4

5

6

0

10

20

30

40

50

Idade d

o m

oto

rista

Valor dos sinistrosx $10.000

0

2

4

6

8

10

12

14

0

10

20

30

40

50

Valo

r do ve

ículo

Valor dos sinistrosx $10.000

Fig

ur

a 7

– D

istribu

ição

do

s va

lores d

os sin

istros seg

un

do

as co

va

riáv

eis (tod

as a

s ap

ólices co

m sin

istro).

Page 32: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

32

Exemplo 6 – Análise do desempenho de cinco tipos de turbinas de aviões. Foi conduzido um

experimento com 10 turbinas de cada tipo

Variável explicativa – Tipo de turbina, com níveis I, II, III, IV e V.

Variável resposta – Tempo de vida da turbina, em milhões de ciclos até verificada a perda de

velocidade.

Objetivos –

• Estimar parâmetros correspondentes às distribuições dos tempos de vida dos cinco tipos de

turbinas;

• Comparar os tempos médios de vida, identificar quais turbinas são mais resistentes.

Page 33: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

33

Dados:

> turbdata

I II III IV V

1 3.03 3.19 3.46 5.88 6.43

2 5.53 4.26 5.22 6.74 9.97

3 5.60 4.47 5.69 6.90 10.39

4 9.30 4.53 6.54 6.98 13.55

5 9.92 4.67 9.16 7.21 14.45

6 12.51 4.69 9.40 8.14 14.72

7 12.95 5.78 10.19 8.59 16.81

8 15.21 6.79 10.71 9.80 18.39

9 16.04 9.37 12.58 12.28 20.84

10 16.84 12.75 13.41 25.46 21.51

Page 34: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

34

Análise descritiva:

Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

510

1520

25

Tipo de turbina

Tem

po a

té p

erda

de

velo

cida

de (m

ilhõe

s de

cic

los)

Figura – Distribuição dos tempos de vida segundo tipo de turbina.

Page 35: CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

35

> medias=with(turbdata,tapply(Tempo,Turbina,mean)); medias

Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

10.693 6.050 8.636 9.798 14.706

> variancias=with(turbdata,tapply(Tempo,Turbina,var )); variancias

Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

23.225512 8.497489 10.828116 33.711796 23.652316

> cvs=sqrt(variancias)/medias;cvs # Coeficientes de variação.

Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

0.4506954 0.4818257 0.3810341 0.5925889 0.3307061