17
Software Weka Waikato 2004, Witten & Frank 2000

Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Embed Size (px)

Citation preview

Page 1: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Software Weka

Waikato 2004, Witten & Frank 2000

Page 2: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Ferramenta

• algoritmos de – preparação de dados– aprendizagem de máquina (mineração) – validação de resultados

• /public/soft/linux/weka-3-4/– Java –jar weka.jar– Selecione Explorer– copie os arquivos no dir

/public/soft/linux/weka-3-4/data$ para sua area

Page 3: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Interface e Funcionalidades

Page 4: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

• (A) Open File, Open URL, Open DB• (B) No botão filter é possível efetuar

sucessivas filtragens de atributos e instâncias na base de dados previamente carregada – Seleção– Discretização– Normalização– Amostragem

Page 5: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Formato arff (header)% 1. Title: Iris Plants Database%% 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%[email protected])% (c) Date: July, 1988 % @RELATION iris

@ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

Page 6: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Laboratório 1

• Abra o arquivo weather.nominal.arff

Page 7: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Perguntas

• Números de instancias, exemplos, registros??

• Atributos ???• Quais os valores que o atributo

temperatura pode ter ??• Repita o processo para outra base.

Page 8: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Editando bases

• Abra a base weather.nominal.arff• Clique em Editar• Responda

– Qual é o valor da classe para a instância 8?– Algum atributo possui valor não ?

• Abra a base iris e responda– Quantos atributos nominais e numericos a

base possui ??

Page 9: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Aplicar filtros

• Weka possui vários filtros• Remover atributos• Escolha Choose... Remove ...

Save..Name• Abra o arquivo weather.nominal.arff• Remova todos as instâncias com valor de

atributo humidity high• Volte aos dados originais

Page 10: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Painel de Visualização

• Abra a base iris.arff (medidas de flores)• Utilize o menu Visualize para selecionar

algumas instâncias e remover outras.

Page 11: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Classificação• Observe a saida dos diferentes tipos de classificadores.=== Classifier model (full training set) ===J48 pruned tree------------------outlook = sunny| humidity = high: no (3.0)| humidity = normal: yes (2.0)outlook = overcast: yes (4.0)outlook = rainy| windy = TRUE: no (2.0)| windy = FALSE: yes (3.0)Number of Leaves

Page 12: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados
Page 13: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados
Page 14: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Responda

• Utilizando a base weather• Como seria classificada a seguinte

instância ???

• outlook = sunny, temperature = cool, humidity = high, windy = TRUE

Page 15: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Modo de Testar

• Use training set: Usa toda a base para teste

• Cross-validation: Divide a base em folds (disjuntos)

• Percentage split: Divide a base uma percentagem para treinamento e outra para teste.

Page 16: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Criando bases de teste

• Escreva uma base de teste e teste com ela

Como são classificadas as instâncias ?? Como fica a matriz de confusão ??

Page 17: Software Weka Waikato 2004, Witten & Frank 2000. Ferramenta algoritmos de –preparação de dados –aprendizagem de máquina (mineração) –validação de resultados

Visualize as instâncias

• Visualize cada instâncias e responda quais foram classificadas erroneamente ???