39
Mineração de dados com RapidMiner + WEKA Regressão Linear - Teoria e Prática PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima

Mineração de dados na prática com RapidMiner e Weka

Embed Size (px)

Citation preview

Page 1: Mineração de dados na prática com RapidMiner e Weka

Mineração dedadoscomRapidMiner +WEKA

Regressão Linear- Teoria ePrática

PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA

LINKEDIN.COM/IN/JOAOGABRIELL IMA

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 2: Mineração de dados na prática com RapidMiner e Weka

Prof.JoãoGabrielLima

• Engenheiro daComputação,especialista em SoftwareeHardware;

• Doutorando em ComputaçãoAplicada;

• Pesquisador em Mineração dedadoeInteligênciaComputacional;

• ITHacker

Page 3: Mineração de dados na prática com RapidMiner e Weka

Oqueémineração dedados?

Page 4: Mineração de dados na prática com RapidMiner e Weka

Mineração dedadosAtransformação degrandes quantidades dedadosem

padrões eregras:

Direcionada eNão Direcionada

Direcionada:tentamos prever umponto dedadosemparticular◦ Ex.:preço devenda deuma casabaseado em informações sobreoutras casasà venda nobairro

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 5: Mineração de dados na prática com RapidMiner e Weka

Mineração dedados

Não direcionada:

◦ Tentamos criar grupos dedados,ou achar padrões em dadosexistentes

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 6: Mineração de dados na prática com RapidMiner e Weka

Qual oobjetivo?

Page 7: Mineração de dados na prática com RapidMiner e Weka

Mineração deDadosOobjetivo damineração dedadosé criar ummodelo quepossamelhorar omodo pelo qual interpretamos nossos

dados existentes efuturos.

Comohá muitas técnicas demineração dedados,opassoprincipalparacriar umbommodelo é determinar quetipo

detécnica deve ser usada.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 8: Mineração de dados na prática com RapidMiner e Weka

Iniciando ostrabalhos…

Page 9: Mineração de dados na prática com RapidMiner e Weka

Modelos deRegressãoGUIA PRÁTICO EPASSO APASSO

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 10: Mineração de dados na prática com RapidMiner e Weka

Regressão

Omodelo deregressão é então usado paraprever oresultado deuma variável dependente desconhecida,dadosos valores dasvariáveis independentes.Técnica mais fácil deusar,masprovavelmente também é amenospoderosa.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 11: Mineração de dados na prática com RapidMiner e Weka

RegressãoEx.:

Calcular opreço deuma casa:

Opreço dacasa(avariável dependente)é oresultado demuitas variáveis independentes— ametragem quadrada dacasa,otamanho dolote,sehá granito na cozinha,seos banheiros foramreformados,etc

Omodelo é criado combaseem outras casascomparáveis nobairro enopreço pelo qual elasforam vendidas (omodelo),eentão colocando os valores desua própria casaneste modelo para

produzir opreço esperado.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 12: Mineração de dados na prática com RapidMiner e Weka

RegressãoEx.:Estessão números reais decasasqueestão à venda nobairro,evamos tentar achar ovalordacasaquesequer vender:

Valores dacasaparaomodelo deregressão

Tamanho Tamanho dolote Quartos Granito Banheiroreformado

Preço devenda

3529 9191 6 0 0 $205,000

3247 10061 5 1 1 $224,900

4032 10150 5 0 1 $197,900

2397 14156 4 1 0 $189,900

2200 9600 4 0 1 $195,000

3536 19994 6 1 1 $325,000

2983 9365 5 0 1 $230,000

3198 9669 5 1 1 ?????

Page 13: Mineração de dados na prática com RapidMiner e Weka

WaikatoEnvironmentforKnowledgeAnalysis(WEKA)

Page 14: Mineração de dados na prática com RapidMiner e Weka

WaikatoEnvironmentforKnowledgeAnalysis(WEKA)

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 15: Mineração de dados na prática com RapidMiner e Weka

WaikatoEnvironmentforKnowledgeAnalysis(WEKA)

OWEKAé umproduto daUniversidade deWaikato(NovaZelândia)

GNUGeneralPublicLicense(GPL)

Linguagem Java™

APIparaincorporar oWEKAem aplicações próprias

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 16: Mineração de dados na prática com RapidMiner e Weka

Carregando dadosnoWEKAFormato deArquivo deAtributo-Relação (ARFF)

Noarquivo,definimos cada coluna eoquecada coluna contém:

@relation<relation-name>

@attribute<attribute-name><datatype>

*numeric,nominal,string,date[<date-format>]

@data

<data1>, <data2>,<data3>,<data4>,<data5>

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 17: Mineração de dados na prática com RapidMiner e Weka

Carregando dadosnoWEKA@relationLCCvsLCSH

@attributeLCCstring

@attributeLCSHstring

@ attributetimestampDATE"yyyy-MM-dd HH:mm:ss"

@data

AG5,'Encyclopediasanddictionaries.;Twentieth century.', "2001-04-0312:12:12"

AS262,'Science-- SovietUnion-- History.', "2001-04-0312:12:12"

AE5,'Encyclopediasanddictionaries.', "2001-04-0312:12:12"

AS281,'Astronomy,Assyro-Babylonian.;Moon -- Phases.', "2001-04-0312:12:12"

AS281,'Astronomy,Assyro-Babylonian.;Moon -- Tables.’, "2001-04-0312:12:12"

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 18: Mineração de dados na prática com RapidMiner e Weka

Conhecendo oAmbiente deTrabalhoWEKAWORKBENCH

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 19: Mineração de dados na prática com RapidMiner e Weka

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 20: Mineração de dados na prática com RapidMiner e Weka

Abrindo nosso arquivo arff noWEKA

Page 21: Mineração de dados na prática com RapidMiner e Weka

Criando omodelo deregressão comoWEKANaguia Classify:

1- Cliquenobotão Choose,eentão expanda aramificação functions.

2- Selecione afolha LinearRegression.

Obs:Nocaso domodelo deregressão,estamoslimitados auma coluna deNUMERICou deDATE

Nosso arquivo dedados…

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 22: Mineração de dados na prática com RapidMiner e Weka

Criando omodelo deregressão comoWEKA– Opções

Suppliedtestset: onde é possível fornecer umconjunto diferente dedadosparaconstruir omodelo;

Cross-validation: quedeixa oWEKAconstruir ummodelo baseado em subconjuntos dosdadosfornecidos eentão calcular sua média paracriar ummodelo final;

Percentagesplit: onde oWEKAtoma umsubconjunto percentual dosdadosfornecidos paraconstruir ummodelo final.

Usetrainingset:Isto diz ao WEKAqueparaconstruir nosso modelo desejado,podemossimplesmente usar oconjunto dedadosquefornecemos em nosso arquivo ARFF

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 23: Mineração de dados na prática com RapidMiner e Weka

Criando omodelo deregressão comoWEKA– Opções

Oúltimo passo paracriar nosso modelo é escolher avariáveldependente (acoluna queestamos tentando prever).

Sabemos queeste deve ser opreço devenda,pois é isso queestamostentando determinar.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 24: Mineração de dados na prática com RapidMiner e Weka

Criando omodelo deregressãocomoWEKA

Analisando oResultado

Mineração deDados- Prof.Msc.João GabrielLima

Page 25: Mineração de dados na prática com RapidMiner e Weka

Mas…é esseoresultado?

Page 26: Mineração de dados na prática com RapidMiner e Weka
Page 27: Mineração de dados na prática com RapidMiner e Weka

Interpretando omodeloderegressão

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 28: Mineração de dados na prática com RapidMiner e Weka

Resultado daregressão

preco =(-26,6882*tamanhoCasa)+(7,0551*tamanhoLote)+(43.166,0767*quartos)+(42.292,0901*banheiro)-

21.661,1208

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 29: Mineração de dados na prática com RapidMiner e Weka

Calculando oValordacasausando omodelo deregressão

preco =(-26,6882*3198)+(7,0551*9669)+(43.166,0767*5)+(42.292,0901*1)-21.661,1208

preco =$219,328

Tamanho Tamanho dolote Quartos Granito Banheiroreformado

Preço devenda

3198 9669 5 1 1 ?????

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 30: Mineração de dados na prática com RapidMiner e Weka

Ahhhh!

Page 31: Mineração de dados na prática com RapidMiner e Weka

Interpretando os padrões econclusões domodelo

◦Ogranito não temimportância

◦ OWEKAsó usa ascolunas quecontribuem estatisticamente paraaprecisão do

modelo (medido em Rao quadrado).

◦ Ele descarta eignora ascolunas quenão ajudam acriar umbom modelo.

◦ Assim,este modelo deregressão está nos dizendo queogranito dacozinha não afeta

ovalordacasa.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 32: Mineração de dados na prática com RapidMiner e Weka

Interpretando os padrões econclusões domodelo

◦Os banheiros são importantes◦ Comousamos umsimplesvalor0ou 1paraumbanheiro reformado,podemos usar ocoeficiente

domodelo deregressão paradeterminar ovalorqueumbanheiro reformado representa parao

valordacasa.

◦ Omodelo nos diz paraacrescentarmos $42.292ao valordacasa.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 33: Mineração de dados na prática com RapidMiner e Weka

Quemassa!

Page 34: Mineração de dados na prática com RapidMiner e Weka

Interpretando os padrões econclusões domodelo

◦ Casasmaiores reduzem ovalor◦ Não faz sentido?

◦ Omodelo pode estar sendo afetado por uma variável quenão é indepenendente.

◦ “Tamanho”?

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 35: Mineração de dados na prática com RapidMiner e Weka

Vamosexercitar!Agoraaplique seus conhecimentosem umnovodesafio…

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 36: Mineração de dados na prática com RapidMiner e Weka

Exercício 1

◦ NaabaPreprocess doWEKAé possível removercolunas doconjunto de

dados.

◦ Remova acoluna TamanhoCasa ecrie outromodelo.Comoisso afeta o

preço dacasa?

◦ Estenovomodelo faz mais sentido?

◦ Qual onovovalordacasacomesta alteração nos dadosdeentrada?

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Page 37: Mineração de dados na prática com RapidMiner e Weka

Exercício 2Apartir dabasedisponível em:https://goo.gl/GfFX8lAplique os conhecimentos adiquiridos nesta aula,destacando asvariáveis independentes queteminfluência sobre oresultado eafunção queexpressa omodelo deregressão paraabasededados

analisada.

Page 38: Mineração de dados na prática com RapidMiner e Weka

CréditosAbaixoestãolistadasasprincipaisfontesutilizadasparaaconcepçãodestaapresentação:

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/

https://www.ibm.com/developerworks/br/opensource/library/os-weka1/

https://mineracaodedados.wordpress.com/

http://hunch.net/?p=3692542

http://en.wikipedia.org/wiki/Regression_analysis

http://weka.wikispaces.com/ARFF+%28book+version%29

http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5

http://machinelearningmastery.com/regression-machine-learning-tutorial-weka/

Page 39: Mineração de dados na prática com RapidMiner e Weka

Mineração dedadoscomRapidMiner +WEKA

Regressão Linear- Teoria ePrática

PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA

LINKEDIN.COM/IN/JOAOGABRIELL IMA

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima