View
216
Download
0
Category
Preview:
Citation preview
Analise de Sobrevivencia
Valeska Andreozzi
15 de fevereiro de 2008
Referencias 2Referencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
O tempo 4O tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Coorte aberta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Registro do tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Truncamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Processo de contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24No R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Funcoes de sobrevida 27Densidade de probabilidade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31Sobrevida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34Risco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40Risco Acumulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46Relacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Estimacao Nao-Parametrica 49Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56No R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59KM estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64Log-rank (ou Mantel-Haenszel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Teste log-rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66Teste de Peto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67No R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Modelo de Cox 70Riscos Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74Estimacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79No R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1
Selecionando modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82Medida Global de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85Modelo de Cox estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Analise de resıduos 94Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Resıduo de Shoenfeld. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99Correlacao linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100O que fazer? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101Resıduos Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102Resıduos escore. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
2
Referencias slide 2
Referencias
■ Kleinbaum, D., & Klein, M. Survival analysis : a self-learning text. Springer, 1997.
■ Therneau, T. M., & Grambsch, P. M. Modeling survival data: extending the Cox model. Springer,2000.
■ Andersen, P. K., Borgan, O., Gill, R. D., & Keiding, N.. Statistical Models Based on CountingProcesses. Springer, 1993.
■ Carvalho, M. S., Andreozzi, V. L., Codeco, C, T., Barbosa, M. T. S. & Shimakura, S. E. Analise deSobrevida: teoria e aplicacoes em saude. Editora Fiocruz. Rio de Janeiro, 2005http://dengue.procc.fiocruz.br/ sobrevida/index.html
CEAUL Valeska Andreozzi – slide 3
O tempo slide 4
O tempo
Tempo ate...
■ obito
■ transplante
■ doenca
■ cura
CEAUL Valeska Andreozzi – slide 5
Medir o tempo
Tempo de sobrevida (em meses) de 10 pacientes em dialise.
Paciente (i) Tempo (Ti)1 222 63 124 435 236 107 358 189 3610 29
CEAUL Valeska Andreozzi – slide 6
3
Representar o tempo
0 10 20 30 400
24
68
10
Meses
Pac
ient
es1
23
45
67
89
10
X
X
X
X
X
X
X
X
X
X
Cada linha representa a trajetoria de um paciente e o sımbolo X indica a ocorrencia do evento ou falha.
CEAUL Valeska Andreozzi – slide 7
Informacao incompleta
■ obito por outras causas – morte do paciente por causas externas;
■ termino do estudo;
■ perda de contato – mudanca de residencia;
■ recusa em continuar participando;
■ mudanca de procedimento;
■ abandono devido a efeitos adversos de tratamento;
■ desconhecimento da data de inıcio – em pacientes HIV+ com data de infeccao desconhecida;
■ dados truncados – prevalentes.
Censura e truncamento
CEAUL Valeska Andreozzi – slide 8
Mecanismos de censura
■ Censura a direita
■ Censura a esquerda
■ Censura intervalar
CEAUL Valeska Andreozzi – slide 9
4
Censura a direita
O tempo entre o inıcio e o evento e maior do que o tempo observado (T > t+)
Paciente (i) Tempo (Ti) Censura
1 22 12 6 03 12 14 43 05 23 16 10 17 35 18 18 09 36 110 29 1
CEAUL Valeska Andreozzi – slide 10
Graficamente
0 10 20 30 40
02
46
810
Meses
Pac
ient
es1
23
45
67
89
10
X
O
X
O
X
X
X
O
X
X
X indica ocorrencia do evento e O corresponde a presenca de censura.
CEAUL Valeska Andreozzi – slide 11
5
Censura a esquerda
Exemplo: Tempo decorrido entre a infeccao pelo HIV e o diagnostico imunologico de Aids (CD4<200celulas/mm3)
■ Censura a esquerda - Quadro AAcontece quando nao conhecemos o momento da ocorrencia do evento, mas sabemos que eleocorreu antes de um tempo determinado.Somente podemos afirmar que o tempo entre o exame positivo e a diagnostico imunologico e menordo que o tempo entre o exame negativo e o diagnostico clınico de Aids (T < t−)
Quadro B
Exame −
HIV
Exame +
Aids clínica
Quadro A
Exame −
HIV
Exame +
Aids clínica
CEAUL Valeska Andreozzi – slide 12
Censura intervalar
Exemplo: Tempo decorrido entre a infeccao pelo HIV e o diagnostico imunologico de Aids (CD4<200celulas/mm3)
■ Censura intervalar - Quadro BO momento em que ocorreu uma contagem de CD4<200 celulas/mm3 certamente se situa entre oexame positivo e a Aids clinicamente diagnosticada (t− < T < t+)
Quadro B
Exame −
HIV
Exame +
Aids clínica
Quadro A
Exame −
HIV
Exame +
Aids clínica
CEAUL Valeska Andreozzi – slide 13
6
Censura Informativa
■ NAO InformativaQuando nao ha razao para suspeitar que o motivo dessa perda de informacao esteja relacionado aodesfecho
■ InformativaEvitar ao maximo, pois implica vies de selecao interferindo na validade das estimativas.
CEAUL Valeska Andreozzi – slide 14
Coorte aberta
0 10 20 30 40
02
46
810
Meses
Pac
ient
es1
23
45
67
89
10
X
X
X
O
X
X
X
O
X
X
Trajetorias individuais de pacientes com censura e com diferentes tempos de entrada em observacao.
CEAUL Valeska Andreozzi – slide 15
7
Registro do tempo
Tempo de observacao de pacientes de uma coorte aberta.
Tempo∗ Tempo∗ Tempo∗∗ T CensuraPaciente
inicial (I) final (F) (final - inicial) (C)
1 0 22 22 12 15 21 6 13 0 12 12 14 25 47 22 05 10 33 23 16 0 10 10 17 0 35 35 18 12 30 18 09 3 39 36 110 15 34 19 1
∗Tempo calendario em meses∗∗Tempo decorrido (em meses)
CEAUL Valeska Andreozzi – slide 16
Truncamento
■ Truncamento a esquerdaocorre quando a perda da informacao esta relacionada a indivıduos que foram excluıdos do estudoporque ja tinham experimentado o evento antes do inıcio do estudo e nao podiam ser observados.(dados prevalentes)
■ Truncamento a direitaocorre quando o criterio de selecao dos indivıduos inclui somente aqueles que sofreram o evento.
CEAUL Valeska Andreozzi – slide 17
Processo de contagem
O par (Ti, Ci) e substituıdo por (Ni(t), Yi(t)), onde:
■ Ni(t) e o numero de eventos observados em [0, t]
■ Yi(t) = 1, se o indivıduo i esta sob observacao e em risco no instante t
■ Yi(t) = 0, se o indivıduo i nao esta em risco.
CEAUL Valeska Andreozzi – slide 18
8
Processo de contagem
Formalmente:
■ um processo de contagem e um processo estocastico N(t) com t > 0, de tal forma que N(0) = 0 eN(t) < ∞;
■ a trajetoria de N(t) e contınua a direita a partir de uma funcao escada com saltos de tamanhoigual a um;
■ a analise de sobrevida pode ser pensada como um processo de contagem onde N(t) e o numero deeventos observados ate o tempo t e dNi(t) e a diferenca entre a contagem de eventos ate oinstante t e a contagem no momento imediatamente anterior a t.
CEAUL Valeska Andreozzi – slide 19
Graficamente
0 10 20 30 40
Meses0 10 20 30 40
01
01
NA(t)
YA(t)
dN(t)
Paciente A: Diagnosticado nomes zero, acompanhado ateo mes 22. A ocorrencia doevento e assinalada pelo sinal•
CEAUL Valeska Andreozzi – slide 20
Graficamente
0 10 20 30 40
Meses0 10 20 30 40
01
01
N2(t
)Y
2(t)
dN(t)=0
o
0 10 20 30 40
Meses0 10 20 30 40
01
01
N4(t
)Y
4(t)
dN(t)=0
o
Trajetoria de dois pacientes censurados. No primeiro quadro ocorre censura aos 6 meses; no segundo ocorrecensura ao termino do estudo.
CEAUL Valeska Andreozzi – slide 21
9
Graficamente
0 10 20 30 40
Meses0 10 20 30 40
01
01
N2(t
)Y
2(t)
dN(t)
0 10 20 30 40
Meses0 10 20 30 40
01
01
N8(t
)Y
8(t)
dN(t)=0
o
Trajetoria de dois pacientes censurados que entraram na coorte ao longo do estudo.
CEAUL Valeska Andreozzi – slide 22
Qual o ganho?
■ Mudanca no valor de covariavel
■ Evento multiplos
■ Dados prevalentes
CEAUL Valeska Andreozzi – slide 23
Organizacao dos dados
Forma Classica (Ti, Ci)
id tempo (T ) censura (C) sexo idade
1 30 0 F 542 14 1 F 343 23 1 M 654 11 1 F 455 12 0 M 44
CEAUL Valeska Andreozzi – slide 24
10
Organizacao dos dados
Processo de Contagem (Ni(t), Yi(t))
id inicio (I) fim (F ) censura (C) sexo idade
1 0 30 0 F 542 5 19 1 F 343 3 26 1 M 65
. . . 0 11 1 F 45n 4 16 0 M 44
CEAUL Valeska Andreozzi – slide 25
Tempo de Sobrevida no R
■ O R aceita os dois formatos de registro do tempo de sobrevida.
■ O comando Surv() tem como funcao combinar, em uma unica variavel, a informacao referente aotempo de sobrevivencia de cada indivıduo e a informacao a respeito do status do paciente.
◆ Status = 1 (um), se ocorreu o evento
◆ Status = 0 (zero) se o tempo foi censurado
■ require(survival)
◆ Surv(tempo,status)
◆ Surv(inicio,fim,status)
> require (survival)
> Surv(ipec$tempo,ipec$status)
[1] 852 123 1145 2755+ 2117+ 329+ 60 151 1563
CEAUL Valeska Andreozzi – slide 26
11
Funcoes de sobrevida slide 27
Funcoes de sobrevida
■ Densidade de Probabilidade
■ Sobrevida
■ Risco (instantaneo)
■ Risco Acumulado
CEAUL Valeska Andreozzi – slide 28
Funcoes de sobrevida
■ Uma coorte de 50 pacientes com aids e acompanhada por 1460 dias, observando-se 32 obitos.
■ Medida resumo – taxa de mortalidade media do perıodo: 32/50 = 64%
Porem......Tempo de sobrevida de 32 pacientes com aids que morreram durante um estudo de coorte (medidoem dias).
858 123 490 60 151 329 514 84158 555 408 331 998 1125 54 151194 541 801 1450 134 18 371 17329 887 214 1100 3 116 688 780
CEAUL Valeska Andreozzi – slide 29
Perguntas
Mais do que o comportamento medio, a analise de sobrevida permite responder as seguintesperguntas:
■ Qual o risco de um paciente diagnosticado com aids vir a falecer em ate tres anos apos odiagnostico?
■ Qual a probabilidade de um paciente sobreviver por mais de dois anos apos o diagnostico de aids?
■ Qual seria o numero esperado de obitos em uma coorte de pacientes acompanhada por cincoanos?
CEAUL Valeska Andreozzi – slide 30
12
Funcao densidade de probabilidade
■ T – tempo de sobrevida (ate a ocorrencia de um evento);
■ T e uma variavel aleatoria contınua e positiva;
■ f(t) e a sua funcao de densidade de probabilidade;
■ a funcao f(t) pode ser interpretada como a probabilidade de um indivıduo sofrer um evento em umintervalo instantaneo de tempo.
f(t) = lim∆t→0
Pr(t ≤ T ≤ t + ∆t)
∆t
CEAUL Valeska Andreozzi – slide 31
Estimativa de probabilidade sem censura
Se nao houver censura, isto e, se todos os pacientes apresentarem o evento antes do fim do estudo, afuncao f(t) pode ser estimada a partir da tabela de frequencia.
Nesta tabela, os valores observados de T sao distribuıdos em classes e para cada classe x, calcula-sefx(t):
fx(t) =no de ocorrencias na classe x
(no total de ocorrencias) × (amplitude de x)
CEAUL Valeska Andreozzi – slide 32
Estimativa de probabilidade sem censura
Tabela de frequencia do tempo de sobrevida apos o diagnostico de aids de 50 pacientes
Classe (x) Freq f(t)
(0;365] 17 17/(50 × 365) = 0, 000930(365;730] 7 7/(50 × 365) = 0, 000383
(730;1095] 5 5/(50 × 365) = 0, 000274(1095;1460] 3 3/(50 × 365) = 0, 000164
1460+ 18 —
TOTAL 50
CEAUL Valeska Andreozzi – slide 33
13
Funcao de sobrevida
Qual e a probabilidade de um paciente com aids sobreviver 365 dias ou mais? Isto e, qual aprobabilidade de T ser maior do que um determinado valor t = 365? Ou, mais formalmente, qual ePr(T > 365)?
A funcao de sobrevida, S(t), e a probabilidade de um indivıduo sobreviver por mais do que umdeterminado tempo t.
S(t) = Pr(T ≥ t)
CEAUL Valeska Andreozzi – slide 34
Funcao de sobrevida
Relembrando: a funcao de distribuicao acumulada, F (t), de uma variavel aleatoria e definida como aprobabilidade de um evento ocorrer ate o tempo t.
F (t) = Pr(T < t)
Logo, S(t) e o complemento da funcao de distribuicao acumulada F (t):
S(t) = Pr(T ≥ t) = 1 − Pr(T ≤ t) = 1 − F (t)
CEAUL Valeska Andreozzi – slide 35
Estimando a sobrevida sem censura
Sx(tinf ) =no pacientes com T > tinf
no total de pacientes
em que tinf e o limite inferior do intervalo de tempo considerado x.
Fazendo as contas na planilha
CEAUL Valeska Andreozzi – slide 36
14
Estimando a sobrevidadados agrupados
Estimativa da funcao de sobrevida dos pacientes da coorte de aids a partir da tabela de frequencia
Classe (x) Freq f(t) S(t)
(0;365] 17 0,000930 S(0) =
(365;730] 7 0,000383 S(365) =
(730;1095] 5 0,000274 S(730) =
(1095;1460] 3 0,000164 S(1095) =
1460+ 18 — S(1460) =
TOTAL 50
CEAUL Valeska Andreozzi – slide 37
Estimando a sobrevidadados agrupados
Estimativa da funcao de sobrevida dos pacientes da coorte de aids a partir da tabela de frequencia
Classe (x) Freq f(t) S(t)
(0;365] 17 0,000930 S(0) = 1
(365;730] 7 0,000383 S(365) = 3350= 0, 66
(730;1095] 5 0,000274 S(730) = 2650= 0, 56
(1095;1460] 3 0,000164 S(1095) = 2150= 0, 42
1460+ 18 — S(1460) = 1850= 0, 36
TOTAL 50
CEAUL Valeska Andreozzi – slide 38
Perguntas
■ Qual e a probabilidade de um paciente sobreviver por mais de 1 ano?
■ Qual e a probabilidade dele sobreviver por mais de 3 anos?
■ Qual e o tempo mediano de sobrevivencia?
CEAUL Valeska Andreozzi – slide 39
15
Funcao de Risco
■ Qual e o risco de um paciente com aids vir a obito apos sobreviver 365 dias?
■ Esse risco de morrer aumenta ou diminui com o tempo?
λ(t) → probabilidade instantanea de um indivıduo sofrer o evento em um intervalo de tempo t e t + ǫdado que ele sobreviveu ate o tempo t.
Sendo ǫ infinitamente pequeno, λ(t) expressa o risco instantaneo de ocorrencia de um evento, dadoque ate entao o evento nao tenha ocorrido.
CEAUL Valeska Andreozzi – slide 40
Funcao de Risco
λ(t) = limǫ→∞
Pr((t < T < t + ǫ)|T > t)
ǫ
■ λ(t) tambem e denominada:
◆ funcao ou taxa de incidencia,
◆ forca de infeccao,
◆ taxa de falha,
◆ forca de mortalidade,
◆ forca de mortalidade condicional.
■ Apesar do nome risco, λ(t) e uma taxa (tempo−1).
■ Pode assumir qualquer valor positivo (nao e probabilidade).
CEAUL Valeska Andreozzi – slide 41
Funcao de Risco e de Sobrevida
λ(t) =f(t)
S(t)
λ(t) = −d ln(S(t))
dt
Sobrevida e risco sao inversamente proporcionais: quando o risco aumenta, a probabilidade desobrevida diminui e vice-versa.
CEAUL Valeska Andreozzi – slide 42
16
Estimando risco sem censura
λx(t) =no ocorrencias na classe x
Sx(t) × (amplitude de x)
Numero de eventos observados no intervalo de classe x pelo numero de pacientes sobreviventes noinıcio de x, dividido pela amplitude de x.
Uma maneira alternativa de estimar λ(t) e utilizar as relacoes entre S(t), f(t) e λ(t).
Planilha
CEAUL Valeska Andreozzi – slide 43
Comportamento do Risco
0 10 20 30 40
0.2
0.4
0.6
0.8
1.0
B
Tempo
Ris
co
0 10 20 30 40
24
68
10
C
Tempo
Ris
co
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
D
Tempo
Ris
co
0 10 20 30 40
0.01
0.02
0.03
0.04
E
Tempo
Ris
co
Funcao de risco com diversos formatos.
CEAUL Valeska Andreozzi – slide 44
17
Comportamento do Risco
0 10 20 30 40
0.02
00.
025
0.03
00.
035
0.04
00.
045
F
Tempo
Ris
co
Tempo
S(t
)
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0 5 10 15 20 25
Funcao de risco com diversos formatos.
CEAUL Valeska Andreozzi – slide 45
Funcao de risco acumulado
■ Qual o risco de um paciente com aids vir a obito no primeiro ano apos o diagnostico?
■ Qual e o risco dele vir a obito nos primeiros 2 anos?
Λ(t) → funcao de risco acumulado.Mede o risco de ocorrencia do evento ate o tempo t.E a soma (integral) de todos os riscos em todos os tempos ate o tempo t.
Λ(t) =
∫ t
0λ(u)d(u)
Tambem e uma taxa, logo nao esta restrita ao intervalo [0; 1].
CEAUL Valeska Andreozzi – slide 46
Estimando risco acumulado sem censura
Λx(t) =k=x−1∑
k=2
λk(t) × amplitude de k
■ O risco acumulado ate o tempo t e igual a:
◆ o risco acumulado ate o tempo t − 1 mais
◆ o risco instantaneo do perıodo anterior vezes o intervalo de tempo ate t.
Planilha
CEAUL Valeska Andreozzi – slide 47
18
Relacao entre as funcoes basicasde sobrevida
S(t) = 1 − F (t)
λ(t) = −d ln(S(t))
dt
λ(t) =f(t)S(t)
λ(t) =f(t)
1 − F (t)
Λ(t) = − ln(S(t))
CEAUL Valeska Andreozzi – slide 48
Estimacao Nao-Parametrica slide 49
Estimacao Nao-Parametrica
■ estimadores de sobrevida e risco
■ Kaplan-Meier e Nelson Aalen
■ intervalos de confianca
■ Kaplan-Meier estratificado
■ testes de Log-Rank e Peto
Incorporando a censuraSem suposicoes sobre a distribuicao do tempo
CEAUL Valeska Andreozzi – slide 50
19
Kaplan-Meier
■ A probabilidade de sobrevida ate o tempo t e estimada considerando que a sobrevivencia ate cadatempo e independente da sobrevivencia ate outros tempos.
■ A probabilidade de chegar ate o tempo t e o produto da probabilidade de chegar ate cada um dostempos anteriores.
CEAUL Valeska Andreozzi – slide 51
Kaplan-Meier
■ Seja t1 < t2 < · · · < tm os tempos onde ocorreram os eventos;
■ Yi(t) = 1 se a pessoa i esta em risco no tempo t e 0 caso contrario.
■ R(ti) e o total de pessoas a risco no tempo ti.
■ A cada tempo ti em que houver um evento, a probabilidade de sobrevivencia sera o numero dos quesobreviveram ate aquele tempo (R(ti) − N(ti)) sobre os que estavam em risco naquele tempo(R(ti)).
■ O estimador da distribuicao S(t) e o produto das probabilidades de sobrevivencia a cada tempoti ≤ t.
CEAUL Valeska Andreozzi – slide 52
Kaplan-Meier
SKM (t) =
(
R(t1) − N(t1)
R(t1)
)
×
(
R(t2) − N(t2)
R(t2)
)
× · · ·
×
(
R(tm) − N(tm)
R(tm)
)
ou na forma de produtorio:
SKM (t) =∏
ti≤t
R(ti) − N(ti)
R(ti)
planilha
CEAUL Valeska Andreozzi – slide 53
20
Da sobrevida ao risco
ΛKM (t) = − ln SKM (t)
Logo.... pode-se estimar qualquer das funcoes.
CEAUL Valeska Andreozzi – slide 54
Estimador de Nelson-Aalen
ΛNA(t) =∑
ti≤t
N(ti)
R(ti)
Melhor para amostras muito pequenas
planilha
CEAUL Valeska Andreozzi – slide 55
Intervalos de confianca
Variancia do estimador Kaplan-Meier para a sobrevidaEstimador de Greenwood
V ar(SKM (t)) = (SKM (t))2∑
ti≤t
N(ti)
R(ti)(R(ti) − N(ti))
CEAUL Valeska Andreozzi – slide 56
21
Intervalos de confianca
Assumindo erro α, o intervalo fica assim:
[
SKM (t) − zα/2
√
V ar(SKM (t)); SKM (t) + zα/2
√
V ar(SKM (t))
]
Entretanto, este intervalo permite valores negativos e maiores do que 1, o que e incompatıvel com
distribuicao de probabilidade.
CEAUL Valeska Andreozzi – slide 57
Intervalos de confianca
Construindo intervalo simetrico para o risco – lnΛ(t) = ln(− lnS(t)) – pode-se obter um intervaloassimetrico para S(t), porem sempre positivo e menor do que 1.
[li; ls] =[
ln(ΛKM (t)) − zα/2dp; ln(ΛKM (t)) + zα/2dp]
onde dp e o desvio padrao e dado por:
dp =
√
√
√
√
√
∑
ti≤tN(ti)
R(ti)(R(ti)−N(ti)){
∑
ti≤t ln[
R(ti)−N(ti)N(ti)
]}2
CEAUL Valeska Andreozzi – slide 58
No R
■ Criando o objeto sobrevida (tempo, censura):
> Surv(tempo,status)
#variavel status=1 indica evento, 0 censura
16 18 21+ 21 22 25+ 29 35 37 39 40 50+ 52 54 60 80+ 80 81+ 83 84 85+
■ Kaplan-Meier
> KM <- survfit(Surv(tempo,status), data = ipec90)
> summary(KM)
> plot(KM)
■ Nelson-Aalen
> sob.NA <- survfit(coxph(y~1, data = ipec90))
> sob.NA
> summary(sob.NA)
CEAUL Valeska Andreozzi – slide 59
22
Saıdas do R – summary(KM)
time n.risk n.event survival std.err lowerCI upperCI
16 21 1 0.9524 0.0465 0.865 1.00
18 20 1 0.9048 0.0641 0.787 1.00
21 19 1 0.8571 0.0764 0.719 1.00
22 17 1 0.8067 0.0869 0.653 0.99
29 15 1 0.7529 0.0963 0.585 0.96
35 14 1 0.6992 0.1034 0.523 0.93
37 13 1 0.6454 0.1085 0.464 0.89
39 12 1 0.5916 0.1120 0.408 0.85
40 11 1 0.5378 0.1140 0.355 0.81
52 9 1 0.4781 0.1160 0.297 0.76
54 8 1 0.4183 0.1158 0.243 0.72
60 7 1 0.3585 0.1137 0.192 0.66
80 6 1 0.2988 0.1093 0.145 0.61
83 3 1 0.1992 0.1092 0.068 0.58
84 2 1 0.0996 0.0891 0.017 0.57
CEAUL Valeska Andreozzi – slide 60
Saıdas do R – plot(KM)
Funcao de sobrevida dos pacientes com aids, utilizando o estimador produto Kaplan-Meier.Os sımbolos + localizam as censuras.
0 20 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Dias
S(t
)
CEAUL Valeska Andreozzi – slide 61
23
Kaplan-Meier estratificado
■ A sobrevivencia e estimada separadamente para cada estrato, utilizando Kaplan-Meier.
■ no R
> survaids <- survfit(Surv(tempo,status)~ sexo,
data = ipec)
> survaids
Call: survfit(formula = resp ~ sexo, data = ipec)
n events rmean se(rmean) median 0.95LCL 0.95UCL
sexo=F 49 16 2096 229 Inf 1371 Inf
sexo=M 144 74 1581 122 1116 887 1563
CEAUL Valeska Andreozzi – slide 62
Grafico sobrevida estratificada
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
Dias
S(t
)
FemMasc
Curvas de sobrevida de pacientes com aids, estratificado por sexo. Estimacao por Kaplan-Meier, comintervalo de confianca de 95%.
CEAUL Valeska Andreozzi – slide 63
Testes
Hipotese nula: nao ha diferenca entre estratos
H0 : λ1(t) = λ2(t) = · · · = λk(t)
CEAUL Valeska Andreozzi – slide 64
24
Log-rank (ou Mantel-Haenszel)
Distribuicao esperada de eventos igual em todos os estratos:
ek(t) = N(t)Rk(t)
R(t)
Estatıstica de teste log-rank para dois estratos (k = 2):
Log-rank =(N1 − E1)
2
V ar(N1 − E1)
com N1 = total de eventos observados no estrato 1 e E1 = total de eventos esperados no estrato 1.
CEAUL Valeska Andreozzi – slide 65
Teste log-rank
A variancia, que entra no calculo como um fator de padronizacao, tem a formula (para k = 2):
V ar(N1 − E1) = vi
em que
vi =∑
ti
R1(ti)[R(ti) − R1(ti)]N(ti)[R(ti) − N(ti)]
R(ti)2[R(ti) − 1]
.
A estatıstica log-rank, sob a hipotese nula, segue uma distribuicao χ2 , com k − 1 graus de liberdade.
CEAUL Valeska Andreozzi – slide 66
Teste de Peto
Da maior peso as diferencas (ou semelhancas), no inıcio da curva, onde se concentra a maior partedos dados e por isso e mais informativa. Usa um ponderador S(t) no estimador.
Peto =(N1 − E1)
2
V ar(N1 − E1)
sendo que
N1 − E1 =
∑
S(ti)(N1(ti) − E1(ti))∑
S(ti)
V ar(N1 − E1) =(∑
S(ti)(N1(ti) − E1(ti)))2
∑
(S(ti))2vi
Tambem a estatıstica Peto segue aproximadamente uma distribuicao χ2 com k − 1 graus de liberdade.
CEAUL Valeska Andreozzi – slide 67
25
No R
> survdiff(Surv(tempo,status)~sexo, data=ipec,rho=0)
Call:
survdiff(formula = Surv(tempo, status) ~ sexo, data=ipec, rho=0)
N Observed Expected (O-E)^2/E (O-E)^2/V
sexo=F 49 16 24.5 2.93 4.03
sexo=M 144 74 65.5 1.09 4.03
Chisq= 4 on 1 degrees of freedom, p= 0.0447
O argumento rho determina o tipo de teste a ser realizado. Para log-rank, use rho = 0 (default).Para o teste Peto, use rho = 1 .
CEAUL Valeska Andreozzi – slide 68
No R
> survdiff(Surv(tempo,status)~sexo, data=ipec,rho=1)
Call:
survdiff(formula = Surv(tempo, status) ~ sexo,
data = ipec, rho = 1)
N Observed Expected (O-E)^2/E (O-E)^2/V
sexo=F 49 12.1 18.2 2.011 3.54
sexo=M 144 55.1 49.0 0.746 3.54
Chisq= 3.5 on 1 degrees of freedom, p= 0.0598
CEAUL Valeska Andreozzi – slide 69
Modelo de Cox slide 70
Riscos Proporcionais
O modelo de regressao mais amplamente utilizado para dados de sobrevida ajusta a funcao de riscoλ(t), considerando um risco basal λ0(t) e incluindo o vetor de covariaveis x, de forma que:
λ(t|x) = λ0(t) exp(x1β1 + x2β2 + · · · + xpβp) = λ0(t) exp(xβ)
Ou seja, as covariaveis tem um efeito multiplicativo na funcao de risco.
CEAUL Valeska Andreozzi – slide 71
26
Riscos Proporcionais
A razao entre os riscos de ocorrencia do evento de dois indivıduos i e j, com covariaveisxi = (xi1, xi2, · · · , xip) e xj = (xj1, xj2, · · · , xjp) e:
λi(t|xi)
λj(t|xj)=
exp(xiβ)
exp(xjβ)
Observe que esta razao de riscos NAO varia ao longo do tempo – Modelo de Riscos Porporcionais
CEAUL Valeska Andreozzi – slide 72
Riscos Proporcionais
O modelo RP tambem pode ser escrito em termos da funcao de risco acumulado ou da funcao desobrevida:
Λ(t|x) = Λ0(t) exp(xβ)
S(t|x) = [S0(t)]exp(xβ)
O risco acumulado basal e Λ0(t) =∑
i: ti≤tNi(t)
j∈R(ti)exp(xjβ) e a sobrevida basal e dada por
S0(t) = exp[−Λ0(t)]
CEAUL Valeska Andreozzi – slide 73
Modelo de Cox
Partindo desta proporcionalidade, e possıvel estimar os efeitos das covariaveis sem qualquer suposicaoa respeito da distribuicao do tempo de sobrevida, e por isso o modelo de Cox e dito semi-parametrico:nao se assume qualquer distribuicao estatıstica para a funcao de risco basal, λ0(t).Os pressupostos:
■ As covariaveis agem multiplicativamente sobre o risco → parte parametrica do modelo.
■ A razao de riscos e constante ao longo de tempo → riscos proporcionais.
■ Os tempos de ocorrencia do evento sao independentes.
CEAUL Valeska Andreozzi – slide 74
Estimativa dos coeficientes
Para estimar os coeficientes da regressao parametrica, a funcao de verossimilhanca foi construıda apartir da funcao de densidade de probabilidade calculada nos tempos de ocorrencia do evento,multiplicada pela funcao de sobrevida calculada nos tempos de censura.
No Modelo de Cox o vetor de parametros β e estimado a partir de uma verossimilhanca parcial.De forma semelhante ao Kaplan Meier, considera-se apenas, a cada tempo t, a informacao dosindivıduos sob risco, estimando os efeitos das covariaveis no tempo de sobrevida.
CEAUL Valeska Andreozzi – slide 75
27
Verossimilhanca parcial
■ Considere m diferentes tempos ate a ocorrencia de um evento (sem empate), ordenados assim:t1 < t2 < . . . < tm.
■ A verossimilhanca individual, Li, e a razao entre o risco λi(ti) do indivıduo i falhar em ti e a somados riscos de ocorrencia de evento de todos os indivıduos em risco:
Li =λi(ti)
∑
j∈R(ti)
λj(tj)
=exp(xiβ)
∑
j∈R(ti)
exp(xjβ)
CEAUL Valeska Andreozzi – slide 76
Verossimilhanca parcial
■ Sob o processo de contagem a verossimilhanca individual e igual a
Li =exp(xiβ)
∑
j
Yj(t) exp(xjβ)
■ com Yj(t) igual a 1 se o indivıduo j estiver em risco no tempo t e 0, caso contrario.
CEAUL Valeska Andreozzi – slide 77
Verossimilhanca Parcial
■ A verossimilhanca parcial L(β) = produto das Li
L(β) =
n∏
i=1
∏
t≥0
Yi(t) exp(xiβ)∑
j
Yj(t) exp(xjβ)
dNi(t)
■ dNi(t) = diferenca entre a contagem de eventos ate o instante t e a contagem no momentoimediatamente anterior a t.
■ Numerador depende apenas da informacao dos indivıduos que experimentam o evento
■ Denominador utiliza informacoes a respeito de todos os indivıduos que ainda nao experimentaram oevento, incluindo aqueles que serao censurados mais tarde.
CEAUL Valeska Andreozzi – slide 78
28
Exemplo TMO
■ Avaliar os fatores prognosticos associados ao tempo de transplante de medula ossea TMO ate oobito nos pacientes com leucemia mieloide cronica tratados no INCA.
■ covariaveis:
◆ sexo,
◆ idade,
◆ fase da doenca no momento do transplante (fase),
◆ a ocorrencia ou nao de doenca enxerto contra hospedeiro aguda (deag) ou cronica (decr).
CEAUL Valeska Andreozzi – slide 79
Proporcionalidade
Curvas de KM para avaliar o pressuposto de proporcionalidade
0 200 400 600 800 1000
0.0
0.2
0.4
0.6
0.8
1.0
SEXO
Tempo
S(t
)
MascFem
0 200 400 600 800 1000
0.0
0.2
0.4
0.6
0.8
1.0
DECR
Tempo
S(t
)
comsem
0 200 400 600 800 1000
0.0
0.2
0.4
0.6
0.8
1.0
DEAG
Tempo
S(t
)
comsem
0 200 400 600 800 1000
0.0
0.2
0.4
0.6
0.8
1.0
FASE
Tempo
S(t
)
123
CEAUL Valeska Andreozzi – slide 80
29
No R
> tmocens <- read.table("tmoclas.dat", header=T, sep=",")
> mod1 <- coxph(Surv(os,status)~idade+factor(sexo),
data=tmocens, x=TRUE)
> summary(mod1)
Call:
coxph(formula = Surv(os, status) ~ idade + factor(sexo),
data = tmocens, x = TRUE)
n= 96
coef exp(coef) se(coef) z p
idade -0.0186 0.982 0.0141 -1.32 0.19
factor(sexo)2 -0.3299 0.719 0.3219 -1.02 0.31
exp(coef) exp(-coef) lower .95 upper .95
idade 0.982 1.02 0.955 1.01
factor(sexo)2 0.719 1.39 0.383 1.35
Rsquare= 0.022 (max possible= 0.984 )
Likelihood ratio test= 2.16 on 2 df, p=0.34
Wald test = 2.11 on 2 df, p=0.348
Score (logrank) test = 2.11 on 2 df, p=0.348
CEAUL Valeska Andreozzi – slide 81
Selecionando modelos
■ Teste de Wald
■ Analise da funcao desvio
CEAUL Valeska Andreozzi – slide 82
Comparando quatro modelos
> anova(mod1,mod2,mod3,mod4,test="Chisq")
Analysis of Deviance Table
Model 1: Surv(os, status) ~ idade + factor(sexo)
Model 2: Surv(os, status) ~ idade + factor(sexo) + factor(fase)
Model 3: Surv(os, status) ~ idade + factor(sexo) + factor(fase) +
Model 4: Surv(os, status) ~ idade + factor(sexo) + factor(fase) +
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 94 395.93
2 92 380.78 2 15.14 0.0005146
3 91 366.67 1 14.11 0.0001726
4 90 358.20 1 8.47 0.0036015
CEAUL Valeska Andreozzi – slide 83
30
Selecionando Modelos
■ A funcao desvio e assintoticamente semelhante a estatıstica de Wald quando o numero deobservacoes e grande.
■ Para numero de observacoes pequenos, a analise da funcao desvio e mais robusta.
■ Outra ressalva a respeito de valores ausentes. Caso eles existam para algumas variaveis incluıdas emalguns modelos, mesmo que aninhados, os modelos perdem a comparabilidade.
CEAUL Valeska Andreozzi – slide 84
Medida Global de Ajuste
■ R2 – poder explicativo das covariaveis no tempo de ocorrencia do evento em estudo.
R2LR = 1 − {L(0)/L(β)}2/n
= 1 − exp(2{l(0) − l(β)}/n) (1)
■ L(0) e a funcao de verossimilhanca do modelo nulo,
■ L(β) a funcao de verossimilhanca sob o modelo ajustado,
■ l(0) e l(β) sao, respectivamente, os logaritmos neperianos de L(0) e L(β).
■ Valor mınimo possıvel de R2 e zero quando L(0) = L(β)
■ Valor maximo nao e 1 (ou 100%), mas a razao entre as verossimilhancas do modelo saturado e domodelo nulo.
CEAUL Valeska Andreozzi – slide 85
Medida Global de Ajuste
% Var.Modelo ln(Verossimil.) R2
Explicada∗
Nulo -199,0424 0,000 0,0%Saturado -0,2670 0,984 100,0%M1: Idade+Sexo -197,9626 0,022 2,2%M2: Mod1+Fase -190,3905 0,165 16,8%M3: Mod2+deag -183,3364 0,279 28,4%M4: Mod3+decr -179,0992 0,340 34,6%
∗ R2modelo/R2
saturado
CEAUL Valeska Andreozzi – slide 86
31
Medida Global de Ajuste
Grafico de sobrevida estratificado por ındice de prognostico (IP)
■ IP e o preditor linear do modelo de Cox, xβ, calculado para cada indivıduo usando as covariaveisobservadas e as estimativas dos coeficientes de regressao do modelo ajustado.
■ Os indivıduos sao estratificados em grupos de tamanhos aproximadamente iguais (grupos de alto,medio e baixo IP)
■ Os valores medios de cada uma das covariaveis dentro de cada grupo sao utilizados para obtencaode curvas de sobrevida sob o modelo ajustado.
■ Espera-se, se o modelo for razoavel, que o grafico das curvas ajustadas pelo modelo em cadaestrato sejam proximas das estimadas por Kaplan-Meier.
CEAUL Valeska Andreozzi – slide 87
Medida Global de Ajuste
■ Assumindo modelo mod4
■ Indivıduo 1: sexo masculino (sexo = 0) com 56 anos (idade = 56), na fase intermediaria (fase2= 1 e fase3 = 0), com manifestacao de doenca do enxerto aguda (deag=1, decr=0)
βidade ×56= −0, 0044×56 = −0, 2469βsexo ×0 = −0, 2260×0 = 0βfase2 ×1 = 0, 6413 ×1 = 0, 6413βfase3 ×0 = 1, 0279 ×0 = 0βdeag ×1 = 1, 2530 ×1 = 1, 2530βdecr ×0 = −0, 9775×0 =0———————Soma = 1, 6474
CEAUL Valeska Andreozzi – slide 88
Medida Global de Ajuste
■ Assumindo modelo mod4
■ Indivıduo 2: sexo feminino (sexo = 1) com 20 anos (idade = 20), na fase avancada (fase2 = 0
e fase3 = 1) com manifestacao de doenca do enxerto aguda (deag=1, decr=0)
βidade ×20= −0, 0044 ×20 = −0, 0882βsexo ×1 = −0, 2260 ×1 = −0, 2260βfase2 ×0 = 0, 6413 ×0 = 0βfase3 ×1 = 1, 0279 ×1 = 1, 0279βdeag ×1 = 1, 2530 ×1 = 1, 2530βdecr ×0 = −0, 9775 ×0 = 0———————Soma = 1, 9667
CEAUL Valeska Andreozzi – slide 89
32
Medida Global de Ajuste
Grafico de sobrevida estratificado por ındice de prognostico para os quatro modelos. Linha solidarepresenta o modelo ajustado e linha pontilhada a estimativa de Kaplan-Meier.
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
M1
Tempos1
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
M2
Tempo
s1
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
M3
Tempo
s1
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
M4
Tempos1
CEAUL Valeska Andreozzi – slide 90
Modelo de Cox estratificado
■ Assume que o risco basal – λ0(t) varia de acordo com o estrato de uma covariavel
■ Utilizado quando alguma variavel nao atende ao pressuposto de proporcionalidade de riscos oudevido as caracterısticas do proprio estudo
■ Com s estratos, o modelo estratificado para o estrato j e definido por:
λj(t) = λ0j(t) exp(xβ), j = 1, · · · , s.
Neste modelo assume-se que os coeficientes de regressao sao os mesmos em todos os estratos,embora o risco de base varie.No R
> m <- coxph(Surv(tempo,status) ~ covariaveis +
strata(var), data=dados)
CEAUL Valeska Andreozzi – slide 91
33
Exemplo TMO
Modelo sem estratificacao por doenca cronica
Call:
coxph(formula = Surv(os, status) ~ idade + sexo + fase +
deag + decr, data = tmo, x = T)
[...]
exp(coef) exp(-coef) lower .95 upper .95
idade 0.996 1.004 0.967 1.025
sexo2 0.798 1.254 0.415 1.532
fase2 1.899 0.527 0.908 3.972
fase3 2.795 0.358 0.996 7.844
deag1 3.501 0.286 1.831 6.693
decr1 0.376 2.658 0.193 0.733
Observe que a doenca cronica exerce efeito protetor importante.
CEAUL Valeska Andreozzi – slide 92
Exemplo TMO
Modelo com estratificacao por doenca cronica
Call:
coxph(formula = Surv(os, status) ~ idade + sexo + fase + deag +
strata(decr), data = tmo, x = T)
[...]
exp(coef) exp(-coef) lower .95 upper .95
idade 0.992 1.008 0.964 1.02
sexo2 0.800 1.250 0.420 1.52
fase2 2.051 0.487 0.977 4.31
fase3 2.356 0.424 0.845 6.57
deag1 3.327 0.301 1.735 6.38
■ efeitos estimados sao semelhantes nos dois modelos
■ mas os intervalos de confianca do modelo estratificado sao em geral ligeiramente maiores.
CEAUL Valeska Andreozzi – slide 93
Analise de resıduos slide 94
Objetivo
Os aspectos a investigar com a analise de resıduos sao:
■ a proporcionalidade do risco;
■ a linearidade (na verdade log-linearidade) da relacao entre razao de risco e variavel independente,chamada de forma funcional;
■ valores aberrantes (outlier);
■ pontos influentes, tambem chamados pontos de alavanca.
CEAUL Valeska Andreozzi – slide 95
34
Resumo
Para Fazer
Verificar a proporcionali-dade global
teste de proporcionalidadeglobal (cox.zph)
Verificar a proporcionali-dade de cada variavel
Graficos do resıduo de Schoen-feld contra o tempo
Estudar a forma funcionalda variavel
Graficos do resıduo de martin-gale do modelo nulo versus co-variavel
Linearizar a forma fun-cional nao-linear
Alisamento spline(pspline()) da covariavel nomodelo
Avaliar efeito de valoresaberrantes
Graficos de resıduos escore egraficos do resıduo martingalepara cada indivıduo
CEAUL Valeska Andreozzi – slide 96
Resıduo de Shoenfeld
■ O grafico dos resıduos padronizados de Schoenfeld contra o tempo de sobrevida permite verificar seestes estao distribuıdos igualmente ao longo do tempo, ou se aparece uma forma sugestiva de naoproporcionalidade
■ Se a premissa de riscos proporcionais nao e violada, entao espera-se que a reta igual a estimativa docoeficiente esteja dentro dos intervalos de confianca do alisamento lowess dos resıduos.
CEAUL Valeska Andreozzi – slide 97
35
Resıduo de Shoenfeld
Resıduos de Schoenfeld para o modelo m4
Time
Bet
a(t)
for
idad
e
42 71 84 130 210 280 420 480
−0.
2−
0.1
0.0
0.1
0.2
Time
Bet
a(t)
for
sexo
Mas
c
42 71 84 130 210 280 420 480
−4
−2
02
4
Time
Bet
a(t)
for
fase
2
42 71 84 130 210 280 420 480
−4
−2
02
46
8
Time
Bet
a(t)
for
fase
3
42 71 84 130 210 280 420 480
−5
05
1015
CEAUL Valeska Andreozzi – slide 98
Exemplo TMO
Resıduos de Schoenfeld para o modelo m4
Time
Bet
a(t)
for
deag
1
42 71 84 130 210 280 420 480
−2
02
4
Time
Bet
a(t)
for
decr
1
42 71 84 130 210 280 420 480
−4
−2
02
4
No R
> residuo.sch <- cox.zph(modelo)
> par(mfrow=c(3,2))
> plot(residuo.sch)
CEAUL Valeska Andreozzi – slide 99
36
Correlacao linear
Pode-se testar a presenca de correlacao linear entre o tempo de sobrevida e o resıduo. Sob a hipotesenula e de correlacao igual a zero, temos que a distribuicao do teste e uma qui-quadrado.Exemplo TMO
> m4.zph
rho chisq p
idade -0.0674 0.2547 0.6138
sexo2 -0.2260 2.8393 0.0920
fase2 -0.0317 0.0617 0.8039
fase3 0.2063 2.8416 0.0919
deag1 -0.0147 0.0117 0.9137
decr1 0.3341 6.4078 0.0114
GLOBAL NA 13.1118 0.0413
CEAUL Valeska Andreozzi – slide 100
O que fazer?
O que fazer com a nao proporcionalidade dos riscos
■ verificar se a nao proporcionalidade e importante
■ estratificar o modelo pela respectiva covariavel
■ particionar o eixo do tempo, analisando cada trecho em que ha proporcionalidade, separadamente.
■ usar outro tipo de modelo. Exemplo: modelos de tempo de vida acelerado
CEAUL Valeska Andreozzi – slide 101
Resıduos Martingale
Sao uteis na avaliacao da qualidade de ajuste do modelo em duas situacoes importantes:
■ Resıduo de Martingale versus ındice do indivıduo:permite revelar indivıduos mal ajustados pelo modelo;
■ Resıduo de Martingale do modelo nulo (sem covariaveis) versus covariavel com a superposicao deuma curva de alisamento:sugere a forma funcional de uma covariavel contınua.
CEAUL Valeska Andreozzi – slide 102
37
Exemplo TMO
0 20 40 60 80
−2.
0−
1.0
0.0
1.0
(a)
Índice
Res
íduo
Mod
Aju
stad
o
SuaveCom outlier
10 20 30 40 50
−0.
50.
00.
51.
0
(b)
Idade
Res
íduo
Mod
Nul
o
■ As setas no quadro (a) indicam indivıduos cujo tempo e menor que o esperado, dadas as covariaveis. A idade (b)parece ter uma relacao nao-linear com o tempo de sobrevida
■ Em caso de suspeita de nao-linearidade da covariavel x, podemos incluir no modelo de Cox uma funcao de alisamento.
CEAUL Valeska Andreozzi – slide 103
Martingale no R
> res.mart <- resid(modelo,type="martingale")
> res.nulo <- resid(modelo.nulo,type="martingale")
> plot(res.mart,xlab="Indice", ylab="Resıduo")
> abline(h=0,lty=2)
> plot(banco$variavel,res.nulo)
> lines(lowess(banco$variavel,res.nulo,iter=0),lty=2)
> lines(lowess(banco$variavel,res.nulo),lty=3)
> legend(locator(1),lty=c(2,3),
legend=c("Com outlier","Sem outlier"))
CEAUL Valeska Andreozzi – slide 104
Resıduos escore
■ Uteis para verificar a influencia de cada observacao no ajuste do modelo e para estimacao robustada variancia dos coeficientes de regressao.
■ Para cada indivıduo i pode-se calcular a diferenca entre o vetor de covariaveis estimado pelomodelo e o mesmo estimado sem o indivıduo i: ∆β, que e aproximadamente igual a matriz deresıduos escore.
■ O grafico do resıduo escore para cada covariavel ∆βk versus xj revela os pontos de influencia, ouseja, os indivıduos que influenciam fortemente a estimativa do parametro de cada covariavel.
> res.esco <- resid(modelo,type="dfbetas")
CEAUL Valeska Andreozzi – slide 105
38
Exe
mplo
TM
O
Resıd
uos
escorepara
om
odelo
m4
(TM
O)
1020
3040
50
−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3
Idade
Resíduos
Fem
Masc
−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2
Sexo
Resíduos
CEAU
LValeska
Andreozzi
–slid
e106
Exe
mplo
TM
O
12
3
−0.4 −0.2 0.0 0.2 0.4
Fase
Resíduos
01
−0.2 −0.1 0.0 0.1 0.2
Doença A
guda
Resíduos
01
−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3
Doença C
rônica
Resíduos
CEAU
LValeska
Andreozzi
–slid
e107
39
Recommended