29
Modelos de Regress˜ ao Exerc´ ıcios - Lista 4 Professorrespons´avel: Gustavo Pereira Mestrandos: ergio Carvalho Marco In´ acio S ˜ AO CARLOS - SP 4 de julho de 2015

Lista de Modelos De regressão

Embed Size (px)

DESCRIPTION

Exercícios de modelos de regressão

Citation preview

Modelos de Regressao

Exerccios - Lista 4

Professor responsavel:Gustavo Pereira

Mestrandos:Sergio CarvalhoMarco Inacio

CARLOS - SPSAO4 de julho de 2015

1

Exerccio 19 - Captulo 2

Apresentamos a seguir um conjunto de dados em que pacientes com leucemiaforam classificados segundo a ausencia ou presenca de uma caracterstica morfologica nas celulas brancas. Pacientes classificados de AG positivo foram aqueles com a presenca da caracterstica e pacientes classificados de AG negativo nao apresentado tambem o tempo de sobrevivenciaapresentaram a caracterstica. Edo paciente (em semanas) apos o diagnostico da doenca e o numero de celulasbrancas (WBC) no momento do diagnostico. Esses dados estao descritos noarquivo sobrev.dat.Supondo que o tempo de sobrevivencia apos o diagnostico segue uma distribuicao gama, proponha um modelo para explicar o tempo medio de sobrevivencia dados log(WBC) e AG(=1 positivo, =0 negativo). Faca uma analisede diagnostico com o modelo ajustado e interprete as estimativas.

Tabela 1: Dados do Problema12345678910111213141516

WBC2300.004400.00750.003000.004300.004000.002600.001500.006000.009000.0010500.005300.0010000.0010000.0017000.0019000.00

Tempo65.0056.00156.0065.00100.0017.00134.007.0016.0016.00108.0022.00121.003.004.004.00

AG1.000.001.000.001.000.001.000.001.000.001.000.001.000.001.000.00

WBC5400.0027000.007000.0028000.009400.0031000.0032000.0026000.0035000.0021000.00100000.0079000.00100000.00100000.0052000.00100000.00

Tempo39.002.00143.003.0056.008.0026.004.0022.003.001.0030.001.004.005.0043.00

AG1.000.001.000.001.000.001.000.001.000.001.000.001.000.001.000.00

Denotaremos por Tij , tal quei = 1, ..., 33 e j = 1, 2, tempo de sobrevivenciado paciente (em semanas) apos o diagnostico da doenca e o numero de celulasbrancas (WBC) no momento do diagnosticoFigura 1: Densidade do Tempo

1

Na figura 1 temos a densidade da variavel respotas Tempo, podemos observar que ha valores menores que zero.Figura 2: Dispersao: Tempo Vs WBC

Na figura 2, temos o diagrama de dispersao entre a variavel resposta Tempovs a variavel explicativa WBC, observamos uma assimetria com cauda `a direita,o que justificaria o uso de uma distribuicao assimetrica com valores positivos.Figura 3: Boxplot: Tempo Vs AG

Na figura 3 temos o grafico de boxplot ilustrando as influencias dos gruposAG = 0 e AG = 1 sobre a variavel resposta tempo, obevervamos que a mediapara o grupo AG = 0 e relativamente menor que a media do grupo AG = 1.Na tabela abaixo sao apresentadas as medias, desvios padrao e coeficientesde variacao amostrais referentes aos grupos AG = 0 e AG = 1.EstatsticaMediaDesvio PadraoC. Variacao (%)

AG=017.9420.30113.2%

AG=162.4754.3587%

Vamos assumir entao que Tij segue uma distribuicao Gama de media i eparametro de dispersao 12

Tij G(i , 1 )em que 1 = 0. Para ajustarmos o modelo no R devemos fazer o seguinte:Como a covariavel A fim de facilitarmos as interpretacoes dos resultados oumesmo fazermos comparacoes com o modelo normal linear, vamos propor ummodelo gama com ligacao identidade, sendo a parte sistematica dada pori = + 1 W BCi + 2 AGi

Com o auxlio do R , podemos realizar o ajuste:ajuste1.sobrev = glm(Tempo ~ WBC + AG, family=Gamma, maxit=1000)summary(ajuste1.sobrev)Deviance Residuals:Min1QMedian-2.0001 -1.2844 -0.4597

3Q0.4593

Max1.7148

Coefficients:\hat{\mu}\hat{\beta}_1}\hat{\beta}_2}--Signif. codes:

Estimate Std. Error4.578e-02 1.551e-024.276e-07 2.546e-07-3.609e-02 1.545e-02

t value Pr(>|t|)2.9520.00608 **1.6790.10346-2.3350.02640 *

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for Gamma family taken to be 1.158189)Null deviance: 58.138Residual deviance: 40.882AIC: 302.03

on 32on 30

degrees of freedomdegrees of freedom

Number of Fisher Scoring iterations: 7# Estimativa para o par^ametro de precis~ao:gamma.shape(ajuste2.turbina)Alpha: 0.9388962SE:0.2023664As estimativas de maxima verossimilhanca acima indica em 2 para o AG =0 que um tempo medio de sobrevivencia significativamente menor em relacaoao AG = 1 ao nvel de 5%. Esses resultados confirmam a analise descritivaapresentada na Tabela 1.A estimativa de maxima verossimilhanca do parametro de precisao e o erropadrao aproximado sao dadas por = 0.9388962 e (0.2023664), indicando queas distribuicoes dos tempos ate a morte do paciente nao devem ser muito assimetricas. O desvio do modelo foi de D (y; ) = D(y;) = 40.882 0.9389 =3

38.384, com 30 graus de liberdade, que leva a P = 0.14 e indica que nao rejeitamos o modelo, ou seja, temos um ajuste adequado.1-pchisq(38.38395,30) = 0.14

1.11.1.1

Diagnostico ModeloPontos de Alavanca e Resduos

Dada a matriz H = W 1/2 X(X T W X)1 X T W 1/2 , o resduo componente dodesvio padronizado assume para os modelos gama a seguinte forma quando haintercepto.q21/2log(/yi )tDi = p ii1hem que yi > 0 e hii e o i-esimo elemento da diagonal principal da matriz Estudos de simulacao indicam que o resduo tDi se aproxima da normalidade,particularmente para grande.Figura 4: Grafico de Resduos

Na figura 4 temos o grafico de resduos tDi , observando os graficos podemosnotar que ha certa heterocedasticidade nos dados.

4

Figura 5: Pontos de Alavanca

Na figura 5 no grafico da esquerda notamos que ha pontos que podem serconsiderados influentes , abarrentes. Porem no grafico a direita que sao oshii vs i nao ha discrepancia.1.1.2

Distancia de Cook

Quando a i-esima observacao e excluda a distancia de Cook aproximada ficadada porLDi =

ii (yi i )2h ii )22(1 h

Figura 6: Distancia de Cook

5

1.1.3

QQ-Plot

Figura 7: QQ-Plots

Na figrua 7 podemos observar que nao houve violacao da suposicao de normalidade dos resduos, o que indica de forma geral que o modelo e adequado paraexeplicar os dados.

2

Exercicio 20 - Captulo 3

No modelo logstico linear, temos que Yi Bin(ni , pi ) cuja f.d.p pertencente `afamlia exponencial linear e dada por:

f (yi ; ni , pi ) = exp yi log

pi1 pi

ni+ ni log(1 pi ) + logyi

em que

= 1, i = log

pi1 pi

ni, b(i ) = ni log(1 pi ), c(, yi ) = logyi

Utilizando a funcao de ligacao canonica, temos

pi= xi T i = i = log1 piIsolando pi , temosT

exi pi =1 + exi T p |x

Em que interpreta-se a razao pi i |xij=l+1= ej como sendo a proporcao esperadaij =lda variavel da variavel resposta quando xij aumenta em uma unidade. Emnossas analises consideraremos a variavel tratamento como sendo a variavelresposta, uma vez que esta variavel e dicotomica.6

2.1

O Problema

Nosso problema consiste em dado um conjunto de covariaveis; idade, mancha,infiltracao, leuce-medula, malignidade e temp-max, utilizando a metodo derazao de verossimilhanca, selecionar dentras esas covariaveis, variaveis que consigam explicar o modelo com base em um nvel de significanica PE = PS = 0.20,e com o auxlio do R, temos:Passo 1: Modelo inicial apenas com o interceptofit1 > GRAFICOS DE DISPERSAO