View
407
Download
3
Category
Preview:
Citation preview
Filiação Partidária e Risco de Corrupção
de Servidores Públicos Federais
Ricardo Silva Carvalho – CGU/SE/DIE/CGIEBrasil 100% Digital: 1º Seminário sobre Análise de Dados na
Administração Pública | 11/09/2015 @ TCU
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
2
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
3
Introdução
INTERESSESILEGÍTIMOS
CORRUPÇÃO FILIAÇÃO
PartidoPolítico
4
Introdução
Objetivo
5
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
6
Entendimento do Negócio
DIE
PREVENÇÃO E COMBATE À CORRUPÇÃO
Diretoria de Pesquisas e InformaçõesEstratégicas
Servidores públicos federaisalocados em todos os estados
PRIORIZAÇÃO EFETIVAEM LARGA ESCALA
SERVIDORPÚBLICOFEDERAL
EquipeReduzida
7
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
8
Entendimento dos Dados
SIAPE TSE
BD PRINCIPALSERVIDORES
FILIADOS
TCURFBCGU
CEAFCORRUPTOSFILIADOS
NÃO-CORRUPTOSFILIADOS
CORRUPTONÃO-CORRUPTO
SERVIDOR PÚBLICO
Cadastro de servidores
Dados de filiação partidária
9
Entendimento dos Dados
SIAPE TSE
CORRUPTOSFILIADOS
NÃO-CORRUPTOSFILIADOS
2
1 12
k l
ij ij
i j
ij
O E
E
2
1 158
H0: Variáveis sãoindependentes
H0 não pode ser aceita
10
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
11
Preparação dos DadosCORRUPTOSFILIADOS
NÃO-CORRUPTOSFILIADOS
LIMPEZA DE DADOS Valores inválidos
Total de dias filiado
Número máximo de diasfiliado a um partido
Maior código de motivo de cancelamento
SELEÇÃO DE ATRIBUTOS Correlation-Based 3 atributos selecionados
UNDERSAMPLING Não-Corruptos filiados
AGREGAÇÃO 6 Atributos
ATRIBUTOS FINAIS
12
Preparação dos Dados
DISCRETIZAÇÃO Multi-interval (MI) Equal-Freq. (EQ) Prop. K-int. (PKI)
9
NORMALIZAÇÃOMédia 0Variância 1
1
10 datasets
Total de dias filiado
Número máximo de dias filiado a um partido
Maior código de motivo de cancelamento
ATRIBUTOS FINAIS
13
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
14
Modelagem
TREINAMENTO = 90%
TESTE = 10%
Bayesian Networks (BN)Random Forest (RF)Support Vector Machines (SVM)Artificial Neural Networks (ANN)
MetaCost WRAPPER[0.0 1.0][5.0 0.0]
CUSTO de FALSOS POSITIVOS
15
Modelagem 4 algoritmos x 10 datasets = 40 modelos
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
16
Avaliação
DATASET 4 Atrib. 1 = MI Atrib. 2 = PKI
RESULTADO MÉDIO DOS 4 ALGORITMOS PARA CADA DATASET
17
Avaliação
RANDOM FOREST
RESULTADO FINAL POR ALGORITMO PARA DATASET 4
18
Avaliação
86%15% +13% +12% - 7% +
COMPARAÇÃO FINAL ENTREMODELO DE ESPECIALISTAS
E MODELO GERADO PELO RANDOM FOREST(DADOS DE TESTE)
19
Avaliação
CONFIRMOU+ COD_MAIOR_MOTIV_CANC
+ RISCO DE CORRUPÇÃO
IGNOROUNR_PARTIDOS_FILIADO
GANHO DE CONHECIMENTO+ NR_DIAS_FILIADO
- RISCO DE CORRUPÇÃO
VISUALIZAÇÃO DE UMA DAS ÁRVORES DO MODELO
20
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
21
Conclusão
1) Dados apoiam hipótese (Filiação Partidária Corrupção)
2) Resultados justificam uso de aprendizagem de máquina
3) Análise piloto de risco de corrupção na DIE / CGU
4) Trabalho gerou artigo aceito em conferência internacional BRACIS 2014 – Brazilian Conference on Intelligent Systems Using Political Party Affiliation Data to Measure Civil Servants’ Risk of Corruption
http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6984825
22
Obrigado!
Ricardo Silva Carvalho – CGU/SE/DIE/CGIE
ricardo.carvalho@cgu.gov.br
ricardosc@gmail.com
LinkedIn: br.linkedin.com/in/ricardoscr
23
Recommended