Upload
prof-dr-leandro-augusto
View
123
Download
2
Embed Size (px)
DESCRIPTION
Apresentação com breve introdução sobre mineração de dados e seu uso em educação, portanto, Mineração de Dados Educacionais.
Citation preview
Fundamentos de Mineração de Dados Educacionais
Prof. Dr. Leandro Augusto da Silva
I WORKSHOP DE MINERAÇÃO DE DADOS EM AMBIENTES VIRTUAIS DE ENSINO/APRENDIZAGEM
(WMDAVA'2014)
Agenda
• Introdução
• Bases de Dados
• Pré-Processamento
• Mineração de Dados
• Conclusão
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
WMDAVA'2014
Introdução
• Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo, basicamente Banco de Dados, Estatística, Matemática Discreta e Aprendizado de Máquina.
• A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento.
• Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
WMDAVA'2014
Introdução
“Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.”
Romero, C., & Ventura, S. (2010). Educational data mining: a review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 40(6), 601-618.
Romero, C., & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Tipos de Estudos - EDM
• Basicamente classificados pela origem dos dados, como:
– Dados de alunos providos de ambientes de sala de aula como notas, curriculos e etc;
– Dados de alunos deixados em registros de log de sistemas computadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS).
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Descoberta de Conhecimento em Bases de Dados
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Bases de Dados
• Importante ter um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados.
• Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados.
• E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Pré-Processamento
• Casos típicos são valores ausentes, ruidosos, inconsistentes e redundantes.
• Ainda há de considerar também que, em outras situações, com ou sem, integração de bases de dados o aumento no número de exemplares e atributos da base de dados podem interferir na execução dos algoritmos usados nas tarefas de mineração de dados e por essa razão devem ser tratados.
• Para um diagnostico de possíveis problemas é comum fazer inicialmente uma analise descritiva dos dados.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Valores Ausentes / Missing Values
• Atributos que não tem valores preenchidos. As razões são diversas, por exemplo, em uma integração de dados de alunos de uma faculdade envolvendo diferentes cursos, pode haver disciplinas incomuns e, portanto haverá o surgimento deste tipo de valores que precisam ser tratados.
• O tratamento pode ser feito pela simples remoção do atributo (em caso de grande incidência como poderia ser para o caso do exemplo apresentado) ou do exemplar (em caso de poucas ocorrências). Ou ainda o valor pode ser substituído por uma constante calculara pela média, mediana, valor máximo ou mínimo.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Valores fora Padrão / Outliers
• Ocorre quando surge algum exemplar com valor de atributo que foge de um padrão.
• A razão do surgimento pode ser uma fraude (exemplo o grupo de alunos pode ter acesso antecipado às questões da prova) ou pode ser uma mudança de comportamento no padrão da base de dados ou outlier (no exemplo, os alunos são mais dedicado que em anos anteriores).
• O tratamento para este tipo de ocorrência pode ser feito por diferentes abordagens
• Tipicamente ela pode ser resolvida com a separação dos valores em faixas pré-definidas, técnica conhecida como binning. Neste caso cada letra representa uma faixa de valores e assim evitam-se além do outliers efeitos de subjetividade em uma correção da prova.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Inconsistência de Valores
• Situação típica de integração de dados. Ocorre quando há falta de um critério bem definido entre os valores dos atributos ou dos exemplares.
• Exemplo que ilustra o critério para os atributos é quando em uma analise de dados de notas de alunos e situação final, um aluno teve nota 5 e está aprovado e, na mesma base, um outro aluno tem a mesma nota 5, mas está reprovado.
• Isto pode ocorrer por diversas razões, como a mudança de critério de aprovação de um curso.
• A solução poderia ser a remoção dos exemplares ou o ajuste dos valores, desde que se alguma informação adicional sobre os dados fornecida por um especialista.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014 Fu
nd
amen
tos
de
Min
eraç
ão d
e D
ado
s
Transformação de Dados
• A transformação de valores compreende mudanças no tipo dos atributos. Exemplo, considere um atributo categórico ordinal com valores típicos segundo grau, graduação, pós-graduação que seriam transformados para 1, 2 e 3, por exemplo. No caso do gênero, atributo nominal, como são apenas dois valores, eles poderiam ser transformados para binário 0 e 1. No entanto, deve-se ter cuidado para não transformar um atributo nominal em ordinal no processo de transformação, isto é, o valor não pode ideia de ordem.
• A normalização de valores consiste em uma técnica para deixar os valores dos atributos em uma mesma escala. Abordagem de solução comum é calcular o valor máximo de um atributo para dividi-lo aos demais exemplares com mesmo atributo.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014 Fu
nd
amen
tos
de
Min
eraç
ão d
e D
ado
s
Mineração de Dados
• Tarefa dividida em:
– Modelagem Preditiva
• Regressão e
• classificação;
– Analise de Clustering (Grupos)
– Regras de Associação
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Modelagem Preditiva
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Conjunto de Treinamento
CT=<X,c>
Exemplar desconhecido
x=<x,?>
c
C = categórico classificação C = numérico regressão
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Classificação de dados
Constrói-se um modelo com base em um conjunto de dados descritos por atributos e classes para que possa ser aplicado a dados não classificados. Exemplos de aplicação em dados de estudantes: • Sucesso em programas de intercambio; • Potencial evasão; • Futuro promissor; • Potencial reprovação em disciplina; • Necessidade de atividades extra-classe; • Conclusão do curso no prazo; • Outros como verificar se aluno faz parte da instituição para
aprova-lo como membro da rede social.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Previsão de Séries
O mesmo principio da classificação de dados, com a diferença que o atributo especial tem natureza numérica contínua. Exemplos: • Prever o desempenho do aluno em uma
disciplina; • Prever a demanda de alunos em uma
disciplina/curso/etc; • Prever nota do curso em exames de avaliação; • Tempo para colação de grau; • Outros.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Análise de Agrupamento
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Não temos o atributo c
Exemplar do CT
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Análise de Agrupamento
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Quantos grupos temos nesta base?
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Análise de Agrupamento
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
Não temos o atributo c no CT,
mas o resultado do agrupamento pode gerar esse conhecimento
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Análise de Agrupamento
Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos:
• Agrupar estudantes com desempenho semelhante em disciplinas;
• Agrupar alunos com estilo de aprendizado parecido;
• Agrupar ementas de disciplinas com assuntos semelhantes;
• Agrupar alunos com postagens semelhantes em redes sociais/fóruns de discussão em EaD.
• Outros.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Regras de Associação
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
X Y
X ∧ Y
SE X ENTAO Y
X Y
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Regras de Associação
Usada para determinar quais itens tendem a ser adquiridos juntamente em uma mesma transação. Exemplos: • Determinar quais disciplinas o aluno tem
desempenho semelhante; • Determinar disciplinas que tratam assuntos
equivalentes; • Descobrir termos relacionados em postagens de
fóruns/redes sociais/etc; • Outros.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Conclusão
• Tema de pesquisa bastante importante, mas que esbarra na infraestrutura de banco de dados da instituição para coleta de dados;
• Entretanto, o EDM é um assunto fácil de ser usado em aula, pois os alunos são especialistas no negócio.
Prof. Leandro Augusto – [email protected] – FCI/Mackenzie
WMDAVA'2014
Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
Fun
dam
ento
s d
e M
iner
ação
de
Dad
os
Prof. Leandro Augusto da Silva
Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie
São Paulo – SP - Brasil