Upload
henrique-rocha
View
950
Download
4
Embed Size (px)
DESCRIPTION
Apresentação do projeto de aplicação da disciplina de Mineração de Dados do professor Wagner Meira Júnior. A projeto consiste em verificar a eficácia do método Fuzzy C-Means na seleção de currículos para candidatos. Para ver o video da apresentação visite o link http://www.youtube.com/watch?v=jYg4LSm8aw0
Citation preview
Fuzzy C-Means na Seleção de Currículos
Autor: Henrique Santos C. Rocha
Introdução
Para a maioria das empresas, os currículos de pessoas são o ponto de partida para selecionar os melhores candidatos, priorizando uma avaliação de acordo com a experiência profissional.
Torna-se necessário uma análise de cada currículo recebido
Objetivo
O objetivo deste trabalho é verificar a eficácia do algoritmo de agrupamento Fuzzy C-Means na mineração de currículos para seleção de candidatos
Algoritmo Fuzzy C-Means
FCM é um algoritmo de agrupamento que permite que um mesmo dado pertença a um ou mais grupos com diferentes graus de pertinência
O FCM foi desenvolvido por Dunn em 1973 e aprimorado por Bezdek em 1981.
O FCM é basicamente uma implementação fuzzy do algoritmo K-means, e portanto compartilha muitas de suas vantagens e desvantagens
Algoritmo Fuzzy C-Means
O Algoritmo é composto dos seguintes passos:
• Inicializar a matriz U=[uij], U(0).
• Ao passo k calcular os vetores dos centros C(k)=[cj] com U(k).
• Atualizar U(k) e U(k+1).• Se a condição de
parada não for atingida retornar ao passo 2.
Implementação
Os currículos são os dados do algoritmo enquanto as vagas são os centros dos grupos
Só é necessário definir as distâncias entre as vagas (centros) e os currículos (dados).
Por se tratar de uma técnica de agrupamento, a função de similaridade é extremamente importante.
• É utilizado duas formas de medição de distância: vetorial e euclidiana.
Implementação
Os currículos são representados por dimensões formados por [característica, tempo x peso]
Além do algoritmo de agrupamento é utilizado uma técnica de classificação de resultados de busca
• Formula Classificação: (Tc*Pv) + ( (Cn-1)*10000)
0 1293 6
3
6
9
Analista | T:6 | P:3
Programador | T:6 | P:2
12
15 18
Vaga (Conjunto Ideal)
Dist. Vetorial
Dist. Euclidiana
Currículo 1
Dist.
Euclidiana
Currículo 2
Dist. Vetorial
Dis
t.
Eu
clid
ian
a
Currículo 3
Gráfico das Distâncias
Hipóteses
Principal: O algoritmo FCM usando as características dos currículos para definir similaridade conseguirá associar os currículos para cada vaga, e usando o grau de pertinência poderá ver os melhores currículos.
•Hipótese 1: Distância Vetorial sem tempo
•Hipótese 2: Distância Vetorial e Classificação
•Hipótese 3: Distância Euclidiana e Classificação.
Experimento com 10 Vagas
Vaga Teste 8Característica Tempo Peso
Química 12 6Fisica 8 4
Matematica 8 2
Experimento X
Característica Tempo PesoMÉTODO HIPOTESE 2
Química 0,4042089314880913 0,20210446574404564
Fisica 8,735028886212533x10-17 4,367514443106266x10-17
Matemática 1,07469838364712x10-21 2,6867459591178x10-22
MÉTODO HIPOTESE 3
Química 3,571747371157369x10-17 1,7858736855786844x10-17
Fisica 1,0826156853814001x10-22 5,413078426907001x10-23
Matemática 2,695861849367521x10-24 6,739654623418802x10-25
MÉTODO HIPOTESE 1
Química 0,403136552130834
Fisica 4,992629958040383x10-14
Matemática 3,68472998388942x10-25
Vaga Teste 8 ajustada após a execução do algoritmo
Nome Tempo Química
Tempo Física
Tempo Matemática
Moacir Marra Machado 18 27 36Álisson Bragança Silva 9 9 9Macir Robson Eufrásio 18 0 9Lys Maria Amaral Vilas Boas
9 9 0
Wilson César de Abreu 9 9 0Samira Garcia de Oliveira 9 0 9Rouvenia Dutra Dias 439 0 0Stefano Juliano Tavares 113 0 0Luciana Debortoli de Carvalho
90 0 0
Waldemar Bicalho Campos 81 0 0
Currículos para Vaga Teste 8 – Hipótese 2
Experimento X
Currículos para Vaga Teste 8 – Hipótese 3
Experimento X
Nome Tempo Química Tempo Física
Tempo Matemática
Moacir Marra Machado 18 27 36Álisson Bragança Silva 9 9 9Flavio Heleno Garciano 0 54 81Evânio Azevedo 0 27 27Macir Robson Eufrásio 18 0 9Lys Maria Amaral Vilas Boas
9 9 0
Wilson César de Abreu 9 9 0Samira Garcia de Oliveira 9 0 9Carlos Augustus Rocha 0 9 9Eliseth Costa do Couto 0 9 9
Experimento X
Médias de tempo para execução do algoritmoMétodo Hipótese 1: 3296 ms Método Hipótese 2: 7182 msMétodo Hipótese 3: 7998 ms
Experimentos
Experimento A – 1 vaga Experimento Y - 10 vagas sendo:
• 5 vagas que nenhum currículo da base possui característica em comum
• 5 vagas com currículos que possuem as características
Experimento Z - 10 vagas sendo:• Nenhum currículo da base possui
características das vagas
Considerações Finais
Hipótese 1: Bastante simplista, resultados razoáveis
Hipótese 2: Resultados bastante satisfatórios
Hipótese 3: Melhores resultados nos experimentos.
10 vagas foi a quantidade de grupos que melhor trouxe resultados sem causar Overfitting.
Referências
Viera, A. et al. (2007) Ferramenta de Apoio ao Processo de Seleção de Candidatos para Empresa. Trabalho de Conclusão de Curso publicado em Dezembro de 2007. UNIPAC Campus Bom Despacho.
Duarte, et al. (2009) Indexação e Classificação para Busca Eficiente na Mineração de Currículos. Trabalho de Conclusão de Curso publicado em Dezembro de 2009. UNIPAC Campus Bom Despacho.