32
Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil . {jim; ramices} @das.ufsc.br Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Embed Size (px)

Citation preview

Page 1: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Jim Lau; Ramices dos Santos SilvaDAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .

{jim; ramices} @das.ufsc.br

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Page 2: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Agenda

Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão

Page 3: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Introdução

O spam pode ser definido como o envio abusivo e não solicitado de mensagens de correio eletrônico

causa um grande desperdício de recursos – Custo: consome tempo de processamento e

espaço de armazenamento– Fraude: facilita o uso de fraude– Destituição do e-mail normal

Page 4: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Justificativa

Quando o spam é recebido em pequenas quantidades, pode causar aborrecimento aos destinatários

Para o recebimento de grandes quantidades de e-mail, o spam consome tempo e dificulta a descoberta de mensagens legítimas.

Freqüentemente possui conteúdo de linguagem pornográfica,que ofende a muitos destinatários.

Page 5: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Justificativa

Uma solução é a utilização de filtro de spam– Automáticos– Semi-automáticos

Amplamente utilizados por ISP´s(provedores) O problema em utilizar esses filtros é que não

se consegue obter 100% de precisão na taxa de detecção de spam

Com isso vários métodos têm sido propostos para a implementação de filtros de spam

Page 6: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Justificativa

O maior interesse tem sido no uso de técnicas de aprendizado de máquina.– Naive Bayes – Árvores de Decisão– Redes Neurais– Sistemas Nebulosos (Fuzzy)– Support Vector Machine – SVM– Sistemas Imunológicos Artificiais

Page 7: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Justificativa

Como conceito básico e comum a estes métodos é que os classificadores utilizam treinamento supervisionado de dados, realizado manualmente, que resulta em um melhor desempenho.

Precisava-se comparar técnicas para definir qual tem o melhor desempenho

Page 8: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Objetivo

O objetivo do trabalho estudado foi realizar uma análise comparativa do desempenho de diversas técnicas de Aprendizado de Máquina para uso em filtros de detecção de spam baseados em conteúdo As técnicas escolhidas foram: Neuro-Fuzzy, Redes Neurais utilizando Perceptron e MLP.

Page 9: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Detecção de Spam - Fatores

Fatores que contribuem para envio de spam– Facilidade no envio de e-mail: alguns programas

permitem enviar centenas de mensagens de e-mail e adquirir, milhares de contas válidas

– Endereços são de fácil obtenção: A maior parte das técnicas para filtragem de e-mail indesejado envolve filtros de mensagens baseadas no endereço do remetente

Page 10: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Detecção de Spam - Técnicas

Utilização de Filtros: As soluções automáticas removem o e-mail suspeito, enquanto que soluções semi-automáticas deixam que o usuário detecte

Medidas de contra ataque: Usuários podem responder às mensagens de spam para bombardear

Treinamento de Usuários: Uma das soluções existentes está relacionada ao gerenciamento de spam e treinamento de usuários sobre as opções existentes

Page 11: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Detecção de Spam - Filtros

Definidos pelos usuários: permitem a criação de regras pelos usuários

Cabeçalhos: analisam os cabeçalhos para detectar se são falsificados ou não

Conteúdo: tipo de filtro mais comum, verificam a ocorrência de palavras no corpo do e-mail.

E o problema do image spam?

Page 12: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Técnicas de Inteligência

Redes Neurais– As Redes Neurais além fornecem um caminho mais

fácil para modelar relações complexas, também oferecem adaptabilidade e habilidade de aprendizagem implícita. O fato das Redes Neurais funcionarem bem para Classificação de Textos implica em confiança para a aplicação em filtros de spam.

Page 13: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Técnicas de Inteligência

Redes Neurais– A propriedade mais importante das redes neurais é a

habilidade de aprender de seu ambiente e com isso melhorar seu desempenho. Isso é feito através de um processo iterativo de ajustes aplicado a seus pesos: o treinamento.

– Aprendizado supervisionado, não supervisionado e híbrido

Page 14: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Técnicas de Inteligência

Neuro-Fuzzy– Fuzzy: (sistema de lógica nebulosa) é uma

generalização da teoria dos conjuntos clássica e visa implementar uma forma de pensamento humano na máquina. Porém tem o problema da adaptabilidade.

– Já as Redes Neurais são eficientes para a detecção de padrões, entretanto não são boas para explicar como estes padrões são alcançados.

A limitação destas técnicas impulsionou a criação de sistemas neuro-fuzzy

Page 15: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Resultados

Foram realizadas comparações com diferentes algoritmos:– Neuro-Fuzzy com taxa ótima de aprendizado– Redes Neurais utilizando Perceptron– Redes Neurais utilizando MLP.

A ferramenta utilizada nesta comparação entre esses algoritmos foi o Matlab.

Page 16: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Resultados

Foi utilizado como base de dados um repositório de aprendizado de maquina da Universidade da Califórnia Irvine

Utilizou-se a mesma quantidade de padrões de treinamento (3500 padrões, 76%) e de validação (1101 padrões, 24% do total).

Foram processados utilizando a base de dados completa e

Com a mesma configuração, após a seleção dos atributos de maior relevância

Page 17: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Resultados

Os resultados foram analisados de acordo com:– os valores das taxas de acertos;– falsos positivos; e– falsos negativos.

Page 18: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Resultados

Neuro-Fuzzy– O treinamento Neuro-Fuzzy após a aplicação dos

coeficientes da correlação, os algoritmos foram processados novamente pela variação do número de funções de pertinência.

Page 19: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Neuro-Fuzzy (Sem correlação)

Page 20: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Neuro-Fuzzy (com correlação)

Page 21: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Neuro-Fuzzy (com X sem correlação)

Page 22: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Resultados

Perceptron Simples– Para esta técnica foram feitos dois experimentos– Também se considerou a base completa e a base

reduzida de acordo com a análise de correlação– Observou-se a diminuição do tempo de

treinamento em função da diminuição do número de neurônios de entrada da rede

Page 23: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Perceptron Simples(sem correlação)

Page 24: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Perceptron Simples(com correlação)

Page 25: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Perceptron (com X sem correlação)

Page 26: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Resultados

MPL– A observação dos resultados obtidos pelo

treinamento da rede MLP, mostra que a aplicação dos coeficientes de correlação acarretou em um aumento dos valores dos falsos positivos de uma média de 3,96% para uma média de 4,29%.

Page 27: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

MPL (sem correlação)

Page 28: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

MPL (com correlação)

Page 29: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

MPL (com X sem correlação)

Page 30: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Análise Comparativa

Page 31: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Conclusão

Dificuldade com a implementação dos algoritmos propostos

Descoberta do comportamento destes algoritmos Várias execuções dos algoritmos, para diferentes

definições dos parâmetros Foram executados no mínimo seis vezes O trabalho foi facilitado pelas implementações de

redes neurais do Matlab

Page 32: Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil. {jim; ramices} @das.ufsc.br Análise Comparativa

Jim Lau; Ramices dos Santos SilvaDAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .

{jim; ramices} @das.ufsc.br

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

?