24
Fundamentos de Mineração de Dados Educacionais Prof. Dr. Leandro Augusto da Silva [email protected] I WORKSHOP DE MINERAÇÃO DE DADOS EM AMBIENTES VIRTUAIS DE ENSINO/APRENDIZAGEM (WMDAVA'2014)

Mineração de Dados Educaionais

Embed Size (px)

DESCRIPTION

Apresentação com breve introdução sobre mineração de dados e seu uso em educação, portanto, Mineração de Dados Educacionais.

Citation preview

Fundamentos de Mineração de Dados Educacionais

Prof. Dr. Leandro Augusto da Silva

[email protected]

I WORKSHOP DE MINERAÇÃO DE DADOS EM AMBIENTES VIRTUAIS DE ENSINO/APRENDIZAGEM

(WMDAVA'2014)

Agenda

• Introdução

• Bases de Dados

• Pré-Processamento

• Mineração de Dados

• Conclusão

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

WMDAVA'2014

Introdução

• Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo, basicamente Banco de Dados, Estatística, Matemática Discreta e Aprendizado de Máquina.

• A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento.

• Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

WMDAVA'2014

Introdução

“Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.”

Romero, C., & Ventura, S. (2010). Educational data mining: a review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 40(6), 601-618.

Romero, C., & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Tipos de Estudos - EDM

• Basicamente classificados pela origem dos dados, como:

– Dados de alunos providos de ambientes de sala de aula como notas, curriculos e etc;

– Dados de alunos deixados em registros de log de sistemas computadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS).

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Descoberta de Conhecimento em Bases de Dados

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Bases de Dados

• Importante ter um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados.

• Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados.

• E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Pré-Processamento

• Casos típicos são valores ausentes, ruidosos, inconsistentes e redundantes.

• Ainda há de considerar também que, em outras situações, com ou sem, integração de bases de dados o aumento no número de exemplares e atributos da base de dados podem interferir na execução dos algoritmos usados nas tarefas de mineração de dados e por essa razão devem ser tratados.

• Para um diagnostico de possíveis problemas é comum fazer inicialmente uma analise descritiva dos dados.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Valores Ausentes / Missing Values

• Atributos que não tem valores preenchidos. As razões são diversas, por exemplo, em uma integração de dados de alunos de uma faculdade envolvendo diferentes cursos, pode haver disciplinas incomuns e, portanto haverá o surgimento deste tipo de valores que precisam ser tratados.

• O tratamento pode ser feito pela simples remoção do atributo (em caso de grande incidência como poderia ser para o caso do exemplo apresentado) ou do exemplar (em caso de poucas ocorrências). Ou ainda o valor pode ser substituído por uma constante calculara pela média, mediana, valor máximo ou mínimo.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Valores fora Padrão / Outliers

• Ocorre quando surge algum exemplar com valor de atributo que foge de um padrão.

• A razão do surgimento pode ser uma fraude (exemplo o grupo de alunos pode ter acesso antecipado às questões da prova) ou pode ser uma mudança de comportamento no padrão da base de dados ou outlier (no exemplo, os alunos são mais dedicado que em anos anteriores).

• O tratamento para este tipo de ocorrência pode ser feito por diferentes abordagens

• Tipicamente ela pode ser resolvida com a separação dos valores em faixas pré-definidas, técnica conhecida como binning. Neste caso cada letra representa uma faixa de valores e assim evitam-se além do outliers efeitos de subjetividade em uma correção da prova.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Inconsistência de Valores

• Situação típica de integração de dados. Ocorre quando há falta de um critério bem definido entre os valores dos atributos ou dos exemplares.

• Exemplo que ilustra o critério para os atributos é quando em uma analise de dados de notas de alunos e situação final, um aluno teve nota 5 e está aprovado e, na mesma base, um outro aluno tem a mesma nota 5, mas está reprovado.

• Isto pode ocorrer por diversas razões, como a mudança de critério de aprovação de um curso.

• A solução poderia ser a remoção dos exemplares ou o ajuste dos valores, desde que se alguma informação adicional sobre os dados fornecida por um especialista.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014 Fu

nd

amen

tos

de

Min

eraç

ão d

e D

ado

s

Transformação de Dados

• A transformação de valores compreende mudanças no tipo dos atributos. Exemplo, considere um atributo categórico ordinal com valores típicos segundo grau, graduação, pós-graduação que seriam transformados para 1, 2 e 3, por exemplo. No caso do gênero, atributo nominal, como são apenas dois valores, eles poderiam ser transformados para binário 0 e 1. No entanto, deve-se ter cuidado para não transformar um atributo nominal em ordinal no processo de transformação, isto é, o valor não pode ideia de ordem.

• A normalização de valores consiste em uma técnica para deixar os valores dos atributos em uma mesma escala. Abordagem de solução comum é calcular o valor máximo de um atributo para dividi-lo aos demais exemplares com mesmo atributo.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014 Fu

nd

amen

tos

de

Min

eraç

ão d

e D

ado

s

Mineração de Dados

• Tarefa dividida em:

– Modelagem Preditiva

• Regressão e

• classificação;

– Analise de Clustering (Grupos)

– Regras de Associação

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Modelagem Preditiva

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Conjunto de Treinamento

CT=<X,c>

Exemplar desconhecido

x=<x,?>

c

C = categórico classificação C = numérico regressão

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Classificação de dados

Constrói-se um modelo com base em um conjunto de dados descritos por atributos e classes para que possa ser aplicado a dados não classificados. Exemplos de aplicação em dados de estudantes: • Sucesso em programas de intercambio; • Potencial evasão; • Futuro promissor; • Potencial reprovação em disciplina; • Necessidade de atividades extra-classe; • Conclusão do curso no prazo; • Outros como verificar se aluno faz parte da instituição para

aprova-lo como membro da rede social.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Previsão de Séries

O mesmo principio da classificação de dados, com a diferença que o atributo especial tem natureza numérica contínua. Exemplos: • Prever o desempenho do aluno em uma

disciplina; • Prever a demanda de alunos em uma

disciplina/curso/etc; • Prever nota do curso em exames de avaliação; • Tempo para colação de grau; • Outros.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Análise de Agrupamento

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Não temos o atributo c

Exemplar do CT

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Análise de Agrupamento

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Quantos grupos temos nesta base?

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Análise de Agrupamento

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

Não temos o atributo c no CT,

mas o resultado do agrupamento pode gerar esse conhecimento

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Análise de Agrupamento

Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos:

• Agrupar estudantes com desempenho semelhante em disciplinas;

• Agrupar alunos com estilo de aprendizado parecido;

• Agrupar ementas de disciplinas com assuntos semelhantes;

• Agrupar alunos com postagens semelhantes em redes sociais/fóruns de discussão em EaD.

• Outros.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Regras de Associação

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

X Y

X ∧ Y

SE X ENTAO Y

X Y

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Regras de Associação

Usada para determinar quais itens tendem a ser adquiridos juntamente em uma mesma transação. Exemplos: • Determinar quais disciplinas o aluno tem

desempenho semelhante; • Determinar disciplinas que tratam assuntos

equivalentes; • Descobrir termos relacionados em postagens de

fóruns/redes sociais/etc; • Outros.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Conclusão

• Tema de pesquisa bastante importante, mas que esbarra na infraestrutura de banco de dados da instituição para coleta de dados;

• Entretanto, o EDM é um assunto fácil de ser usado em aula, pois os alunos são especialistas no negócio.

Prof. Leandro Augusto – [email protected] – FCI/Mackenzie

WMDAVA'2014

Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão

Fun

dam

ento

s d

e M

iner

ação

de

Dad

os

Prof. Leandro Augusto da Silva

[email protected]

Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie

São Paulo – SP - Brasil