Categorização de achados em auditorias de TI com modelos supervisionados e não
supervisionados
DesafioDescobrir os assuntos mais recorrentes em auditorias
Abordagens:Classificação - supervisionadaModelagem de Tópicos – não supervisionada
Dados: Textos de constatações
Auditorias de TI
R Studio
Entendimento dos dados1) Identificação da origem
dos dados2) Identificação do formato
Pré-Processamento
Remoção de Acentuação
Criação do Corpus
Tratamento do Texto
Tokenização
Definição do Escopo Nova Modelagem
Validação do Modelo FinalPrimeira Modelagem
Validação do Modelo e Ajustes de Parâmetros
Implantação
Metodologia de Modelagem de Tópicos
Abordagem Supervisionda - LDA
Distribuição dentro do Tópico
Primeiros Testes: 50 tópicos Todas as palavras Todos os dados Testes por estados
Resultados: Tópicos com muita proximidade, sobrepostos, palavras desnecessárias.
LDA – Modelagem de Tópicos
• Ajuste de parâmetros em conjunto em conjunto com especialistas: Exclusão das palavras desnecessárias.
Validação das quantidades de tópicos
• Tópicos: 15,10,7,6,5,4
• Melhor resultado: 5 tópicos
Novos Testes
Melhor Resultado LDA: 5 Tópicos
Aprendizagem Supervisionada
• Classificação manual de 300 constatações
• Random Forest
• Acurácia: 73%
Aprendizagem Supervisionada
Classe de Constatação Quantidade de registros na amostra
Planejamento e Gestão de TI 104
Contratos em geral 72
Política de Pessoal 42
Política de Segurança da Informação 41
Desenvolvimento e Manutenção de Software 31
Não especificado 26
Controles Internos 10
Contrato de mão-de-obra 9
Total 335
LDA (não supervisionada) X Classificação (supervisionada)
Conclusões
• Parceria com Especialistas
• Modelo não supervisionado – LDA
• Aplicado em novos contextos:Recursos ExternosSaúdeBolsa Família
Categorização de achados em auditorias de TI com modelos supervisionados e não
supervisionados