Upload
prof-dr-leandro-augusto
View
47
Download
3
Embed Size (px)
Citation preview
Uma introdução à
Mineração de Dados Educacionais
Leandro Augusto da Silva
Laboratório de Big Data e Métodos Analíticos - BigMAAp
Programa de Pós-Graduação em Engenharia Elétrica e Computação - PPGEEC
Faculdade de Computação e Informática – FCI
Universidade Presbiteriana Mackenzie - UPM
Universidade Presbiteriana Mackenzie
Introdução
• Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo basicamente Banco de Dados, Estatística e Aprendizagem de Máquina.
• A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento
• Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados
2
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Introdução
“Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.”
Romero, C., & Ventura, S. (2010). Educational data mining: areview of the state of the art. Systems, Man, andCybernetics, Part C: Applications and Reviews, IEEETransactions on, 40(6), 601-618.
Romero, C., & Ventura, S. (2007). Educational data mining: Asurvey from 1995 to 2005. Expert Systems with Applications,33(1), 135-146.
3
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Tipos de Estudos
• Basicamente classificados pela origem dos dados:
– Histórico educacional do aluno
– Provenientes de ambientes de sala de aula comonotas, curriculos e etc;
– Deixados em registros de log de sistemascomputadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS).
4
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Processo de KDD
5
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Bases de Dados
• Importante envolver neste processo um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados.
• Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados.
• E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados.
6
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Pré-processamento
• Etapas:– Preparação
• ruídos (noise data) ou outliers,
• inconsistências ou • valores faltantes
(missing values).
– Seleção• redundância (de
dados e de atributos)
– Transformação• transformação de
tipos de atributos• normalização de
dados
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Tarefas da Mineração de Dados
• Tarefas da Mineração de dados:
– Análise Preditiva• Numérica: classificação de dados
• Categórica: regressão
– Análise de Agrupamento (Clustering)
– Análise de Regras de Associação
8
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise preditiva
Conjunto de treinamento
valor previsto
(Conjunto) Teste
9
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise preditiva categórica
• Classificação de dados:– Considere as imagens abaixo como sendo uma
amostra de um conjunto de treinamento
Carro Moto Caminhão
10
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise preditiva categórica
• Agora considere que é preciso decidir pela categoria de CNH para dirigir este novo meio de transporte
Tipo B
Tipo A
Tipo C11
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise preditiva categórica
Tipo B
Tipo A
Tipo C
Qual tipo de CNH???
12
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise Preditiva
Processo de inferir um valor para uma situação nunca antes vista. Exemplos:• Classificar potenciais estudantes em um determinados curso;• Estimar o número de egressos, a partir de uma determinada
campanha;• Classificar o sentimento de alunos em fóruns de discussão (Moodle)
ou redes sociais;• Classificar estudantes com dificuldade de aprenndiado;• Classificar estudantes com potencial de evasão;• Estimar o uso de recursos de ferramentas de LMS ( Moodle);• Outros.
13
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise de Agrupamento
Não temos o atributo c
Exemplar do CT
14
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise de Agrupamento
Quantos grupos temos nestabase?
15
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise de Agrupamento
Não temos o atributo c no CT,
mas o resultado do agrupamento podegerar esseconhecimento
16
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Análise de Agrupamento
Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos:
• Agrupar pessoas com habilidades semelhantes;• Agrupar perfil de pessoas com características de consumo
semelhantes;• Agrupar alunos com desempenhos semelhantes em um conjunto
de disciplinas;• Identificar as variáveis relevantes de cada agrupamento;• Agrupar publicações de fóruns de discussão (Moodle) em conteúdo
semelhante;
• Outros.
17
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Regras de Associação
X Y
X ∧ Y
SE X ENTAO Y
X Y
18
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Regras de Associação
Usada para determinar quais itens tendem a ocorrer juntamente com outros itens. Exemplos:• Quem opta por um curso X tem a chance de fazer
uma atividade de extensão Y• O desejo pelo curso X implica no desejo do curso
Y• O interesse pelo conteúdo X implica o desejo pelo
conteúdo Y• Outros exemplos como conhecemos da Amazon,
Submarino e etc.
19
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Discussão Final
• Nesta área há um conflito de interesse pelo tema dividindo a audiência entre:
– Learning Analytics
– Educational Data Mining
• Mas nesse esentido, ainda outros nomes poderiam surgir como:
– Academic Analytics
– Educational Analytics
20
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Conferências e Revistas
• Internacionais:– EDM - International Conference on Educational Data
Mining (9a. edicão em 2016)
– JEDM – Journal of Educational Data Mining
– LAK - Learning Analytics and Knowledge (6a. edição em 2016)
– Journal of Learning Analytics
• Nacional:– WMDE - Workshop de Mineração de Dados
Educacionais (3a. Edição em 2016)
21
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Ambientes (Gratuitos) de Desenvolvimento
• Weka
• Orange
• Rattle
• Ou usando pacotes
– R
– Python
22
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
Por onde começar....
23
Prof. Leandro Augusto – [email protected] – FCI/PPGEEC/Mackenzie
Min
eraç
ão d
e D
ado
s Ed
uca
cio
nai
s
24
Leandro Augusto da Silva
Laboratório de Big Data e
Métodos Analíticos Aplicados - BigMAAp
Programa de Pós-Graduação em Engenharia Elétrica e Computação - PPGEEC
Faculdade de Computação e Informática – FCI
Universidade Presbiteriana Mackenzie – UPM
http://www.bigmaap.mackenzie.br