Upload
farrah
View
30
Download
0
Embed Size (px)
DESCRIPTION
Um Agente de Filtragem de Correio Electrónico Indesejado. José Campos Edmundo Monteiro Dep. de InformáticaDep. de Eng. Informática Escola Sup. Tecnologia de ViseuUniversidade de Coimbra E-mail: [email protected]: [email protected]. Sumário. Abordagem tradicional - PowerPoint PPT Presentation
Citation preview
CRC ‘98 - 9 e 10 de Novembro de 1998
Um Agente de Filtragem de Correio Electrónico Indesejado
José Campos Edmundo MonteiroDep. de Informática Dep. de Eng. InformáticaEscola Sup. Tecnologia de Viseu Universidade de Coimbra
E-mail: [email protected] E-mail: [email protected]
CRC ‘98 - 9 e 10 de Novembro de 1998
Sumário
• Abordagem tradicional• Abordagem baseada em agentes• Arquitectura do sistema• Concepção do sistema• Implementação• Experiências• Resultados• Conclusões e trabalho futuro
CRC ‘98 - 9 e 10 de Novembro de 1998
Abordagem tradicional
• Spam: e-mail não solicitado e fraudulento• Programas anti-spam: baseado em regras• Regras: verificação do subject, from, etc.
• Os programas anti-spam:• são eficazes, mas...• requerem demasiado empenho do utilizador
CRC ‘98 - 9 e 10 de Novembro de 1998
Abordagem baseada em agentes
• O que é um agente? • Entidade autónoma• Entidade semi-inteligente
• O agente:• analisa mensagens e extrai padrões• classifica mensagens e elimina as indesejadas
• Vantagem: Não requer configuração (regras)
CRC ‘98 - 9 e 10 de Novembro de 1998
Arquitectura do sistema
SMTP
POP3
Mailbox 1
Agente Anti-Spam
Perfil 1
Cliente email
Mailbox N...
... Perfil N
servidor remoto
máquina local
CRC ‘98 - 9 e 10 de Novembro de 1998
Representação do conhecimento
• Mensagens e perfil mapeados em vectores
proximidade entre mensagem e perfil
perfil
mensagem
CRC ‘98 - 9 e 10 de Novembro de 1998
Mensagens/Perfil Vectores
TEXTO
TERMOS
TERMOS
VECTORES
VECTOR
PERFIL
EXTRACÇÃO DE PALAVRAS RELEVANTES ATRIBUIÇÃO DE PESOS
HEADERS
CRC ‘98 - 9 e 10 de Novembro de 1998
Cálculo dos pesos
• Pressuposto: os termos mais frequentes são os mais relevantes
em que t é um termoD é o documento em análise
)D(osNúmeroTerm)t(frequencia)t(peso
CRC ‘98 - 9 e 10 de Novembro de 1998
Filtragem de mensagens
• Cálculo da semelhança entre mensagem e perfil
• A semelhança entre vectores é dada pelo produto escalar
• Os vectores devem estar normalizados
i
ip
im
i peso).V,V(S)p,m(S
CRC ‘98 - 9 e 10 de Novembro de 1998
Selecção das mensagens spam
• Pela definição de produto escalar
= arcos(S(mensagem, perfil))
• Mensagens boas: deve tender para 90º• Mensagens spam: deve tender para 0º
• Selecção: utilização de threshold (“do-it”)
CRC ‘98 - 9 e 10 de Novembro de 1998
Aprendizagem
• Perfil inicial vazio• Perfil é enriquecido ao longo do tempo
em que P é o perfilM é a mensagensf é o feedback (positivo ou negativo) é a sensibilidade da aprendizagem
MP:P f
CRC ‘98 - 9 e 10 de Novembro de 1998
Implementação
• Agente desenvolvido em PERL
• Campos considerados: • texto com peso 25%• subject com peso 75%
• Threshold “do-it” colocado a 20% (=72º)
CRC ‘98 - 9 e 10 de Novembro de 1998
Experiências
• Mensagens em quatro categorias
Categoria Tamanho Língua Quantidade Spam
1) PC WORLD’S Windows 95 SharewarePick of the day > 600 palavras Inglês SIM
2) PC WORLD'S Game Picks of the Day > 600 palavras Inglês
91
SIM
3) The GeoCities World Report > 600 palavras Inglês 9 NÃO
4) Emails pessoais < 250 palavras Português 281 NÃO
CRC ‘98 - 9 e 10 de Novembro de 1998
Treino do agente
• Treino: 29 mensagens indesejadas• O agente
• errou nas 2 primeiras mensagens da GeoCities• nunca classificou mal uma mensagem pessoal
CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados
• O agente gerou um perfil com 2226 termos• Top 20:
0
0.10.2
0.30.4
0.5
ww
w
http
tipw
orld cgi
arts
htm
l
wor
ld pc
new ne
t
gam
es
new
s
pcw
orld
shar
ewar
e
free id
onlin
e
bin
third in
c
deliv
ered
CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados
0102030405060708090
100
1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145
mensagens boas
Clas
sific
ação
Classificação das mensagens boas
CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados
0102030405060708090
100
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89
mensagens spam
Clas
sific
ação
Classificação das mensagens indesejadas
CRC ‘98 - 9 e 10 de Novembro de 1998
Conclusões e trabalho futuro
• Conclusões:• O threshold “do-it” mostrou ser adequado• O mecanismo de aprendizagem, apesar de simples,
atingiu os objectivos• O cálculo dos pesos demonstrou ser adequado
• Trabalho futuro:• Testar outras alternativas ao cálculo dos pesos• Aumentar o número de experiências• Testar vários perfis diferentes