18
CRC ‘98 - 9 e 10 de Novembro de 1998 Um Agente de Filtragem de Correio Electrónico Indesejado José Campos Edmundo Monteiro Dep. de Informática Dep. de Eng. Informática Escola Sup. Tecnologia de ViseuUniversidade de Coimbra E-mail: [email protected]: [email protected]

Um Agente de Filtragem de Correio Electrónico Indesejado

  • Upload
    farrah

  • View
    30

  • Download
    0

Embed Size (px)

DESCRIPTION

Um Agente de Filtragem de Correio Electrónico Indesejado. José Campos Edmundo Monteiro Dep. de InformáticaDep. de Eng. Informática Escola Sup. Tecnologia de ViseuUniversidade de Coimbra E-mail: [email protected]: [email protected]. Sumário. Abordagem tradicional - PowerPoint PPT Presentation

Citation preview

Page 1: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Um Agente de Filtragem de Correio Electrónico Indesejado

José Campos Edmundo MonteiroDep. de Informática Dep. de Eng. InformáticaEscola Sup. Tecnologia de Viseu Universidade de Coimbra

E-mail: [email protected] E-mail: [email protected]

Page 2: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Sumário

• Abordagem tradicional• Abordagem baseada em agentes• Arquitectura do sistema• Concepção do sistema• Implementação• Experiências• Resultados• Conclusões e trabalho futuro

Page 3: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Abordagem tradicional

• Spam: e-mail não solicitado e fraudulento• Programas anti-spam: baseado em regras• Regras: verificação do subject, from, etc.

• Os programas anti-spam:• são eficazes, mas...• requerem demasiado empenho do utilizador

Page 4: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Abordagem baseada em agentes

• O que é um agente? • Entidade autónoma• Entidade semi-inteligente

• O agente:• analisa mensagens e extrai padrões• classifica mensagens e elimina as indesejadas

• Vantagem: Não requer configuração (regras)

Page 5: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Arquitectura do sistema

SMTP

POP3

Mailbox 1

Agente Anti-Spam

Perfil 1

Cliente email

Mailbox N...

... Perfil N

servidor remoto

máquina local

Page 6: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Representação do conhecimento

• Mensagens e perfil mapeados em vectores

proximidade entre mensagem e perfil

perfil

mensagem

Page 7: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Mensagens/Perfil Vectores

TEXTO

TERMOS

TERMOS

VECTORES

VECTOR

PERFIL

EXTRACÇÃO DE PALAVRAS RELEVANTES ATRIBUIÇÃO DE PESOS

HEADERS

Page 8: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Cálculo dos pesos

• Pressuposto: os termos mais frequentes são os mais relevantes

em que t é um termoD é o documento em análise

)D(osNúmeroTerm)t(frequencia)t(peso

Page 9: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Filtragem de mensagens

• Cálculo da semelhança entre mensagem e perfil

• A semelhança entre vectores é dada pelo produto escalar

• Os vectores devem estar normalizados

i

ip

im

i peso).V,V(S)p,m(S

Page 10: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Selecção das mensagens spam

• Pela definição de produto escalar

= arcos(S(mensagem, perfil))

• Mensagens boas: deve tender para 90º• Mensagens spam: deve tender para 0º

• Selecção: utilização de threshold (“do-it”)

Page 11: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Aprendizagem

• Perfil inicial vazio• Perfil é enriquecido ao longo do tempo

em que P é o perfilM é a mensagensf é o feedback (positivo ou negativo) é a sensibilidade da aprendizagem

MP:P f

Page 12: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Implementação

• Agente desenvolvido em PERL

• Campos considerados: • texto com peso 25%• subject com peso 75%

• Threshold “do-it” colocado a 20% (=72º)

Page 13: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Experiências

• Mensagens em quatro categorias

Categoria Tamanho Língua Quantidade Spam

1) PC WORLD’S Windows 95 SharewarePick of the day > 600 palavras Inglês SIM

2) PC WORLD'S Game Picks of the Day > 600 palavras Inglês

91

SIM

3) The GeoCities World Report > 600 palavras Inglês 9 NÃO

4) Emails pessoais < 250 palavras Português 281 NÃO

Page 14: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Treino do agente

• Treino: 29 mensagens indesejadas• O agente

• errou nas 2 primeiras mensagens da GeoCities• nunca classificou mal uma mensagem pessoal

Page 15: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Resultados

• O agente gerou um perfil com 2226 termos• Top 20:

0

0.10.2

0.30.4

0.5

ww

w

http

tipw

orld cgi

arts

htm

l

wor

ld pc

new ne

t

gam

es

new

s

pcw

orld

shar

ewar

e

free id

onlin

e

bin

third in

c

deliv

ered

Page 16: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Resultados

0102030405060708090

100

1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145

mensagens boas

Clas

sific

ação

Classificação das mensagens boas

Page 17: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Resultados

0102030405060708090

100

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

mensagens spam

Clas

sific

ação

Classificação das mensagens indesejadas

Page 18: Um Agente de Filtragem de  Correio Electrónico Indesejado

CRC ‘98 - 9 e 10 de Novembro de 1998

Conclusões e trabalho futuro

• Conclusões:• O threshold “do-it” mostrou ser adequado• O mecanismo de aprendizagem, apesar de simples,

atingiu os objectivos• O cálculo dos pesos demonstrou ser adequado

• Trabalho futuro:• Testar outras alternativas ao cálculo dos pesos• Aumentar o número de experiências• Testar vários perfis diferentes