28
Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Embed Size (px)

Citation preview

Page 1: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Alunos:

Marcelo Marinho DRE: 103109228

Mariana Belmar DRE: 103118138

Thiego Batalha DRE: 104034751

2

Page 2: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Introdução

A dengue é uma doença infecciosa aguda de curta duração, que possui gravidade variável, podendo inclusive, em alguns casos, levar à morte.

Ela é transmitida pelo mosquito Aedes aegypti infectado, encontrado em áreas tropicais e subtropicais do mundo, inclusive no Brasil, pois as condições do meio ambiente favorecem o seu desenvolvimento e proliferação.

Page 3: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Descrição do problema

• Com base no banco de dados disponível, referente aos anos de 2001 e 2002, verificar a possibilidade de predizer se o indivíduo possui ou não dengue através dos dados clínicos.

Caracterização da categoria

• Para o problema acima descrito, será utilizada uma predição.

Page 4: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Fonte dos dados

Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde.

Page 5: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Dados excluídos

A princípio, foram mantidas as variáveis:

• Dados clínicos (todas);• Antecedentes epidemiológicos (DENGUE, ANO, VACINADO e DT_DOSE);• Dados de perfil (NU_IDADE, CS_SEXO, CS_RACA, CS_ESCOLAR e CS_ZONA); e• Conclusão (ID_DG_NOT).

Page 6: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Dados errados

• Observamos erros significativos baseados em cruzamentos simples de informações entre duas variáveis correlacionadas.

• Em alguns casos, tivemos observações com valores absurdos entre variáveis correlacionadas, que foram corrigidas ou excluídas da amostra, de acordo com o caso.

Page 7: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Transformação das variáveis

• Na maioria das variáveis mantidas no banco de dados, foi observado um imenso número de dados faltantes (missings). Em alguns casos, esse problema pôde ser contornado através de variáveis correlacionadas presentes no banco. Nos demais casos, foram considerados “9” (ignorado) os dados faltantes.

• Nos casos de variáveis de data, foi deixado para a análise do banco apenas o ano referente, por questões de praticidade.

• Foram padronizadas também as datas que apresentavam diferenças entre si e também as informações fornecidas nos três campos referentes à especificação do caso “outros”.

Dados faltantes (missings)

Page 8: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Significância das variáveis

• As variáveis mantiveram um padrão semelhante ao da distribuição da variável utilizada como parâmetro.

Page 9: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Frequências da variável resposta ID_DG_NOT

Amostra do banco de dados de 2001

0

1020

30

4050

60

70

8090

100

1 2 3 4 5

Resposta

Per

cen

tual

de

freq

uên

cia

s

Banco de dados de 2001

0

1020

3040

50

6070

8090

100

1 2 3 4 5

Resposta

Perc

en

tual d

e f

req

uên

cia

s

Banco de dados de 2002

0

1020

3040

50

6070

8090

100

1 2 3 4 5

Resposta

Perc

en

tual d

e f

req

uên

cia

s

Amostra do banco de dados de 2002

010

2030

4050

6070

8090

100

1 2 3 4 5

Resposta

Per

cen

tual

de

freq

uên

cias

Page 10: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Evidências de falta de significância

• Informações presentes em outros campos subseqüentes, o que torna redundante a informação; e

Falta de informação para a análise, pois a maioria das observações disponíveis eram missings.

Page 11: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Banco de Dados

• Após as análises e tratamentos apresentados, nosso banco de dados final ficou com 20 variáveis, além da variável resposta ID_DG_NOT. São elas:

DENGUE ANO VACINADO FEBRE LACO

CEFALEIA EXANTEMA DOR PROSTACAO MIALGIA

NAUSEAS ARTRALGIA EPISTAXE PETEQUIAS GENGIVO

ASCITE PLEURAL ABDOMINAL HEPATO CHOQUE

Page 12: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Seleção do método

• Utilizou-se o procedimento hierárquico chamado árvore de classificação, para melhor visualização e entendimento do modelo; e

• Dentro deste procedimento foi aplicado o método CART (Classification Regression Tree).

Page 13: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Ajuste do modelo

• Tentativas de bondade de ajuste: medida Gini e Qui-quadrado;

• Em ambas as tentativas foi utilizada a poda por erro de classificação e a poda por “deviance”;

• Assumiu-se probabilidades a priori estimadas para os resultados da variável resposta; e

• Utilização de uma amostra de 8985 casos extraídos do banco de dados com os casos de dengue do ano de 2001.

Page 14: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Tree 1 graph f or ID_DG_NOT

Num. of non-terminal nodes : 7, Num. of terminal nodes : 8

ID=1 N=71471

ID=2 N=40761

ID=4 N=14501

ID=6 N=8811

ID=8 N=7271

ID=10 N=85

ID=13 N=65ID=12 N=22

ID=14 N=31 ID=15 N=35

ID=11 N=7191

ID=9 N=1541

ID=7 N=5691

ID=5 N=26261

ID=3 N=30711

E X A NT E MA = 2 = Other(s )

LA CO = 9 = Other(s )

P ROS T A CA O = 2 = Other(s )

V A CINA DO = 9 = Other(s )

A NO = 1997, ... = Other(s )

DOR = 2 = Other(s )

A RT RA LGIA = 2 = Other(s )

12345

Page 15: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Matriz de confusão

Clas s if ic ation matr ix 1Dependent v ar iable: ID_DG_NOT

Options : Categor ic al res pons e, Tree number 1, A naly s is s ample

Page 16: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Gráficos de alavancagem do ajuste obtido com o banco de dados de 2001

Lif t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 1

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

60

65

70

75

80

85

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 2

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,10

0,11

0,12

0,13

0,14

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 3

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

-0,05

0,00

0,05

0,10

0,15

0,20

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 4

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

-0,001

0,000

0,001

0,002

0,003

0,004

0,005

0,006

0,007

0,008

0,009

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 5

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

22

24

26

28

30

32

34

36

38

40

42

44

Response %

Page 17: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Gráficos de alavancagem obtido usando uma amostra do banco de 2002

Lif t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 1

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

60

65

70

75

80

85

90

95

100

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 2

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

-0,001

0,000

0,001

0,002

0,003

0,004

0,005

0,006

0,007

0,008

0,009

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 3

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 4

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

-0,001

0,000

0,001

0,002

0,003

0,004

0,005

0,006

0,007

0,008

0,009

Response %

L if t Chart - Res pons e %

Cumulativ e

Selec ted c ategory of ID_DG_NOT: 5

Model TreeModel

0 10 20 30 40 50 60 70 80 90 100 110

Perc entile

2,0

2,5

3,0

3,5

4,0

4,5

5,0

Response %

Page 18: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Resultados da validação

1 2 3 4 5

1

3

5

0

1000

2000

3000

4000

5000

6000

7000

Valores preditos

Valores observados

Matriz de confusão em valores absolutos

00001005

000004

00001003

000002

00,030099,971

54321Valores

observados

Valores preditos

Percentuais

7227Total

2515

04

413

02

69351

TotalResposta

Banco de dados de 2002

Page 19: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Implementação

• Preparação do modelo para sua utilização;• Modelo ajustado através do método de Árvore de classificação;• Parâmetros da árvore ajustada:

• Teste de bondade de ajuste: qui-quadrado;• Poda: erro de classificação; e• Probabilidades a priori para a variável resposta ID_DG_NOT:

estimada.

Page 20: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Implementação

Utilização da amostra de validação com os casos de dengue do ano de 2002 (7227 casos);

Exclusão de variáveis desnecessárias.

ARTRALGIA

DOR

ANO

VACINADO

PROSTACAO

LACO

ID_DG_NOT

EXANTEMA

Variável de saídaVariáveis de entrada

• Utilizando o modelo de árvore de classificação escolhido, será feita a predição se o indivíduo possui dengue ou não, onde o resultado da predição será apresentado na variável de saída.

Page 21: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Tree 1 graph f or ID_DG_NOT

Num. of non-terminal nodes : 7, Num. of terminal nodes : 8

ID=1 N=71471

ID=2 N=40761

ID=4 N=14501

ID=6 N=8811

ID=8 N=7271

ID=10 N=85

ID=13 N=65ID=12 N=22

ID=14 N=31 ID=15 N=35

ID=11 N=7191

ID=9 N=1541

ID=7 N=5691

ID=5 N=26261

ID=3 N=30711

E X A NT E MA = 2 = Other(s )

LA CO = 9 = Other(s )

P ROS T A CA O = 2 = Other(s )

V A CINA DO = 9 = Other(s )

A NO = 1997, ... = Other(s )

DOR = 2 = Other(s )

A RT RA LGIA = 2 = Other(s )

12345

Árvore de Classificação escolhida

Page 22: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

• Avaliação do impacto financeiro do projeto;• ROI: neste caso, o retorno seria uma redução nos custos da

realização de exame de sangue para confirmação do diagnóstico de dengue;

• Cálculo do ROI será baseado utilizando o custo de fazer exame de sangue para confirmação da doença;

• Custo do exame de sangue: R$ 20,00;• Foram calculados três ROI´s:

• Considerando a amostra de treinamento do banco de dados com os casos de dengue do ano de 2001 (7147 casos);

• Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2001 (1838 casos); e

• Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2002 (7227 casos).

Page 23: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

Amostra de treinamento do banco de dados de 2001:

35

4

3

112

1822110353061

Predito

54321 

Observado 

Amostra de treinamento

0,0420%Redução:

R$ 142.880,00Custo com o modelo:

R$ 142.940,00Custo sem o modelo:

ROI considerando amostra de treinamento do banco de 2001

Page 24: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

Amostra de treinamento do banco de dados de 2001:

Custo sem o modelo:

R$ 20,00 x 7147 = R$ 142.940,00

Custo com o modelo:

R$ 20,00 x 7144 = R$ 142.880,00

ROI: (R$ 142.940,00 – R$ 142.880,00) / R$ 142.940,00 = 0,0420 %

Page 25: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

Amostra de validação do banco de dados de 2001:

     5

 4

 3

 2

487513461

Predito

54321 

Observado 

Amostra de validação banco de 2001

0%Redução:

R$ 36.760,00Custo com o modelo:

R$ 36.760,00Custo sem o modelo:

ROI considerando amostra de validação do banco de 2001

Page 26: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

Amostra de validação do banco de dados de 2001:

• Custo sem o modelo:

R$ 20,00 x 1838 = R$ 36.760,00

• Custo com o modelo:

R$ 20,00 x 1838 = R$ 36.760,00

• ROI: (R$ 36.760,00 – R$ 36.760,00) / R$ 36.760,00 = 0 %

Page 27: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

Amostra de validação do banco de dados de 2002:

     5

 24

 3

 2

2514169331

Predito

54321 

Observado 

Amostra de validação banco de 2002

0%Redução:

R$ 144.540,00Custo com o modelo:

R$ 144.540,00Custo sem o modelo:

ROI considerando amostra de validação do banco de 2002

Page 28: Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2

Retorno do Investimento (ROI)

Amostra de validação do banco de dados de 2002:

• Custo sem o modelo:

R$ 20,00 x 7227 = R$ 144.540,00

• Custo com o modelo:

R$ 20,00 x 7227 = R$ 144.540,00

• ROI: (R$ 144.540,00 – R$ 144.540,00) / R$ 144.540,00 = 0 %