49
Introdução à Mineração de dados Regressão Linear PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com WEKA - Prof. João Gabriel Lima

Mineração de Dados no Weka - Regressão Linear

Embed Size (px)

Citation preview

Page 1: Mineração de Dados no Weka -  Regressão Linear

Introdução à Mineração dedados

Regressão Linear

PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA

LINKEDIN.COM/IN/JOAOGABRIELL IMA

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 2: Mineração de Dados no Weka -  Regressão Linear

Oqueémineração dedados?

Page 3: Mineração de Dados no Weka -  Regressão Linear

Mineração dedadosAtransformação degrandes quantidades dedadosem

padrões eregras:

Direcionada eNão Direcionada

Direcionada:tentamos prever umponto dedadosemparticular◦ Ex.:preço devenda deuma casabaseado em informações sobreoutras casasà venda nobairro

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 4: Mineração de Dados no Weka -  Regressão Linear

Mineração dedados

Não direcionada:

◦ Tentamos criar grupos dedados,ou achar padrões em dadosexistentes

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 5: Mineração de Dados no Weka -  Regressão Linear

Qual oobjetivo?

Page 6: Mineração de Dados no Weka -  Regressão Linear

Mineração deDadosOobjetivo damineração dedadosé criar ummodelo quepossamelhorar omodo pelo qual interpretamos nossos

dados existentes efuturos.

Comohá muitas técnicas demineração dedados,opassoprincipalparacriar umbommodelo é determinar quetipo

detécnica deve ser usada.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 7: Mineração de Dados no Weka -  Regressão Linear

Modelos deRegressãoGUIA PRÁTICO EPASSO APASSO

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 8: Mineração de Dados no Weka -  Regressão Linear

Regressão Linear

Omodelo deregressão é então usado paraprever oresultado deuma variável dependente desconhecida,dadosos valores das

variáveis independentes.Modelos deregressão linearsão frequentemente ajustados usando a

abordagem dosmínimos quadrados.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 9: Mineração de Dados no Weka -  Regressão Linear

Regressão Linear

- SIMPLES- MÚLTIPLA

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 10: Mineração de Dados no Weka -  Regressão Linear

Método dosmínimos quadradosRegressão LinearSimples

Paraestimar os valores davariável dependente y,considerando osvalores davariável xtemos:

𝛼 - Parâmetrodomodelo chamado deconstante (porque nãodepende dex.𝛽- Parâmetro domodelo chamado decoeficiente davariável x.𝜀- Erro- representaavariaçãodeyquenãoéexplicadapelomodelo

Mineração dedadoscomWEKA- Prof.João GabrielLima

𝑦 = 𝛼 + 𝛽𝑥 + 𝜀

Page 11: Mineração de Dados no Weka -  Regressão Linear

Método dosmínimos quadradosRegressão LinearSimples

Também temos uma basededadoscomnvalores observados deyedexyexsão vetores - representam uma lista devalores,umparacadaobservação dabasededados.Ométodo dosmínimos quadrados ajuda aencontrar asestimativasde𝛼e𝛽Serãosomente estimativas desses parâmetros,porque ovalorrealdosparâmetros são desconhecidos.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 12: Mineração de Dados no Weka -  Regressão Linear

Método dosmínimos quadradosRegressão LinearSimples

Ométodo dosmínimos quadrados minimiza asomadosquadradodosresíduos,ou seja,minimiza

Aideia por trás dessa técnica é que,minimizando asomadoquadrado dosresíduos,encontraremos a eb quetrarão amenordiferença entreaprevisão dey eoy realmente observado

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 13: Mineração de Dados no Weka -  Regressão Linear

Método dosmínimos quadradosRegressãoMúltipla

Aregressão múltipla apresenta umfuncionamento parecido comodaregressãosimples,porém,levaem consideração diversas variáveis explicativas xinfluenciando y ao mesmo tempo

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 14: Mineração de Dados no Weka -  Regressão Linear

Método dosmínimos quadradosObservações

Ao usar ométodo dosmínimos quadrados,assumimos algumas premissas arespeito dasvariáveis:

Os regressores são fixos:Asvariáveis damatriz Xnão são estocásticas.Erro é aleatório commédia 0:Oerro éHomoscedasticidade:Avariância doerro é constante.Sem correlação:Não existe correlação entreos erros dasobservaçõesParâmetros são constantes:𝛼 e𝛽 são valores fixos desconhecidos.Modelo é linear:Os dadosdavariável dependente yforam gerados pelo processo linearErro temdistribuição normal:Oerro é distribuído conforme acurva dedistribuição normal.

Caso alguma dessas premissas não seja verdadeira,ométodo pode gerar resultados sub-ótimosou comviés.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 15: Mineração de Dados no Weka -  Regressão Linear

R²Coeficiente dedeterminaçãoÉ uma medida deajuste deummodelo estatístico linearem relação aos valores observados.

OR²varia entre0e1,indicando,em percentagem,oquanto omodelo consegue explicar osvalores observados.

Quanto maior oR²,mais explicativo é modelo,melhor ele seajusta à amostra

Componentes:- SomaTotaldosQuadrados:asomadosquadrados dasdiferenças entreamédia ecada valorobservado

- SomadosQuadrados Explicada:asomadosquadrados dasdiferenças entreamédia dasobservações eovalorestimado paracada observação

- SomadosQuadrados dosResíduos:calcula apartequenão é explicada pelo modelo

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 16: Mineração de Dados no Weka -  Regressão Linear

R²SomaTotaldosQuadrados

SomadosQuadrados Explicada

SomadosQuadrados dosResíduos

Sabemos que

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 17: Mineração de Dados no Weka -  Regressão Linear

R²Equação :

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 18: Mineração de Dados no Weka -  Regressão Linear

R²AjustadoAinclusão deinúmeras variáveis,mesmo quetenham muito poucopoder explicativo sobre avariável dependente,aumentarão ovalorde R².Isto incentiva ainclusão indiscriminada devariáveis,prejudicando oprincípio daparcimônia.Paracombateresta tendência,podemos usar uma medidaalternativa docoeficiente dedeterminação,quepenaliza ainclusãoderegressores pouco explicativos

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 19: Mineração de Dados no Weka -  Regressão Linear

R²AjustadoTrata-sedo R²ajustado:

Onde (k+1)representa onúmero devariáveis explicativas mais aconstante.Ainclusão demais variáveis compouco poder explicativo prejudica ovalordoR²ajustado,porque aumenta kuma unidade,sem aumentarsubstancialmente oR².

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 20: Mineração de Dados no Weka -  Regressão Linear

Regressão LinearABORDAGEM PRÁTICA

Page 21: Mineração de Dados no Weka -  Regressão Linear

Regressão - ExemploEx.:

Calcular opreço deuma casa:(dados- https://goo.gl/5aZzcs)

Opreço dacasa(avariável dependente)é oresultado demuitas variáveis independentes— ametragem quadrada dacasa,otamanho dolote,sehá granito na cozinha,seos banheiros foramreformados,etc

Omodelo é criado combaseem outras casascomparáveis nobairro enopreço pelo qual elasforam vendidas (omodelo),eentão colocando os valores desua própria casaneste modelo para

produzir opreço esperado.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 22: Mineração de Dados no Weka -  Regressão Linear

RegressãoEx.:Estessão números reais decasasqueestão à venda nobairro,evamos tentar achar ovalordacasaquesequer vender:

Valores dacasaparaomodelo deregressão

Tamanho Tamanho dolote Quartos Granito Banheiroreformado

Preço devenda

3529 9191 6 0 0 $205,000

3247 10061 5 1 1 $224,900

4032 10150 5 0 1 $197,900

2397 14156 4 1 0 $189,900

2200 9600 4 0 1 $195,000

3536 19994 6 1 1 $325,000

2983 9365 5 0 1 $230,000

3198 9669 5 1 1 ?????

Page 23: Mineração de Dados no Weka -  Regressão Linear

WaikatoEnvironmentforKnowledgeAnalysis(WEKA)

Page 24: Mineração de Dados no Weka -  Regressão Linear

WaikatoEnvironmentforKnowledgeAnalysis(WEKA)

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 25: Mineração de Dados no Weka -  Regressão Linear

WaikatoEnvironmentforKnowledgeAnalysis(WEKA)

OWEKAé umproduto daUniversidade deWaikato(NovaZelândia)

GNUGeneralPublicLicense(GPL)

Linguagem Java™

APIparaincorporar oWEKAem aplicações próprias

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 26: Mineração de Dados no Weka -  Regressão Linear

Carregando dadosnoWEKAFormato deArquivo deAtributo-Relação (ARFF)

Noarquivo,definimos cada coluna eoquecada coluna contém:

@relation<relation-name>

@attribute<attribute-name><datatype>

*numeric,nominal,string,date[<date-format>]

@data

<data1>, <data2>,<data3>,<data4>,<data5>

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 27: Mineração de Dados no Weka -  Regressão Linear

Carregando dadosnoWEKA@relationLCCvsLCSH

@attributeLCCstring

@attributeLCSHstring

@ attributetimestampDATE"yyyy-MM-dd HH:mm:ss"

@data

AG5,'Encyclopediasanddictionaries.;Twentieth century.', "2001-04-0312:12:12"

AS262,'Science-- SovietUnion-- History.', "2001-04-0312:12:12"

AE5,'Encyclopediasanddictionaries.', "2001-04-0312:12:12"

AS281,'Astronomy,Assyro-Babylonian.;Moon -- Phases.', "2001-04-0312:12:12"

AS281,'Astronomy,Assyro-Babylonian.;Moon -- Tables.’, "2001-04-0312:12:12"

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 28: Mineração de Dados no Weka -  Regressão Linear

Conhecendo oAmbiente deTrabalhoWEKAWORKBENCH

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 29: Mineração de Dados no Weka -  Regressão Linear

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 30: Mineração de Dados no Weka -  Regressão Linear

Abrindo nosso arquivo arff noWEKA

Page 31: Mineração de Dados no Weka -  Regressão Linear

Criando omodelo deregressão comoWEKANaguia Classify:

1- Cliquenobotão Choose,eentão expanda aramificação functions.

2- Selecione afolha LinearRegression.

Obs:Nocaso domodelo deregressão,estamoslimitados auma coluna deNUMERICou deDATE

Nosso arquivo dedados…

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 32: Mineração de Dados no Weka -  Regressão Linear

Criando omodelo deregressão comoWEKA– Opções

Suppliedtestset: onde é possível fornecer umconjunto diferente dedadosparaconstruir omodelo;

Cross-validation: quedeixa oWEKAconstruir ummodelo baseado em subconjuntos dosdadosfornecidos eentão calcular sua média paracriar ummodelo final;

Percentagesplit: onde oWEKAtoma umsubconjunto percentual dosdadosfornecidos paraconstruir ummodelo final.

Usetrainingset:Isto diz ao WEKAqueparaconstruir nosso modelo desejado,podemossimplesmente usar oconjunto dedadosquefornecemos em nosso arquivo ARFF

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 33: Mineração de Dados no Weka -  Regressão Linear

Criando omodelo deregressão comoWEKA– Opções

Oúltimo passo paracriar nosso modelo é escolher avariáveldependente (acoluna queestamos tentando prever).

Sabemos queeste deve ser opreço devenda,pois é isso queestamostentando determinar.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 34: Mineração de Dados no Weka -  Regressão Linear

Criando omodelo deregressãocomoWEKA

Analisando oResultado

Mineração deDados- Prof.Msc.João GabrielLima

Page 35: Mineração de Dados no Weka -  Regressão Linear

Mas…é esseoresultado?

Page 36: Mineração de Dados no Weka -  Regressão Linear
Page 37: Mineração de Dados no Weka -  Regressão Linear

Interpretando omodeloderegressão

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 38: Mineração de Dados no Weka -  Regressão Linear

Resultado daregressão

preco =(-26,6882*tamanhoCasa)+(7,0551*tamanhoLote)+(43.166,0767*quartos)+(42.292,0901*banheiro)-

21.661,1208

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 39: Mineração de Dados no Weka -  Regressão Linear

Calculando oValordacasausando omodelo deregressão

preco =(-26,6882*3198)+(7,0551*9669)+(43.166,0767*5)+(42.292,0901*1)-21.661,1208

preco =$219,328

Tamanho Tamanho dolote Quartos Granito Banheiroreformado

Preço devenda

3198 9669 5 1 1 ?????

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 40: Mineração de Dados no Weka -  Regressão Linear

Ahhhh!

Page 41: Mineração de Dados no Weka -  Regressão Linear

Interpretando os padrões econclusões domodelo

◦Ogranito não temimportância

◦ OWEKAsó usa ascolunas quecontribuem estatisticamente paraaprecisão do

modelo (medido em Rao quadrado).

◦ Ele descarta eignora ascolunas quenão ajudam acriar umbom modelo.

◦ Assim,este modelo deregressão está nos dizendo queogranito dacozinha não afeta

ovalordacasa.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 42: Mineração de Dados no Weka -  Regressão Linear

Interpretando os padrões econclusões domodelo

◦Os banheiros são importantes

◦ Comousamos umsimplesvalor0ou 1paraumbanheiro reformado,podemos usar ocoeficiente

domodelo deregressão paradeterminar ovalorqueumbanheiro reformado representa parao

valordacasa.

◦ Omodelo nos diz paraacrescentarmos $42.292ao valordacasa.

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 43: Mineração de Dados no Weka -  Regressão Linear

Quemassa!

Page 44: Mineração de Dados no Weka -  Regressão Linear

Interpretando os padrões econclusões domodelo

◦ Casasmaiores reduzem ovalor

◦ Não faz sentido?

◦ Omodelo pode estar sendo afetado por uma variável quenão é indepenendente.

◦ “Tamanho”?

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 45: Mineração de Dados no Weka -  Regressão Linear

Vamosexercitar!Agoraaplique seus conhecimentosem umnovodesafio…

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 46: Mineração de Dados no Weka -  Regressão Linear

Exercício 1

◦ NaabaPreprocess doWEKAé possível removercolunas doconjunto de

dados.

◦ Remova acoluna TamanhoCasa ecrie outromodelo.Comoisso afeta o

preço dacasa?

◦ Estenovomodelo faz mais sentido?

◦ Qual onovovalordacasacomesta alteração nos dadosdeentrada?

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 47: Mineração de Dados no Weka -  Regressão Linear

Exercício 2Apartir dabasedisponível em:https://goo.gl/GfFX8lAplique os conhecimentos adiquiridos nesta aula,destacando asvariáveis independentes queteminfluência sobre oresultado eafunção queexpressa omodelo deregressão paraabasededados

analisada.Apresente explicando aabordagem matemática eautilização da

ferramenta

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 48: Mineração de Dados no Weka -  Regressão Linear

ReferênciasAbaixoestãolistadasasprincipaisfontesutilizadasparaaconcepçãodestaapresentação:

http://www.portalaction.com.br/analise-de-regressao/

http://www.mathsisfun.com/data/correlation.html

https://pt.wikipedia.org/wiki/R%C2%B2

https://pt.wikipedia.org/wiki/M%C3%A9todo_dos_m%C3%ADnimos_quadrados

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/

https://www.ibm.com/developerworks/br/opensource/library/os-weka1/

https://mineracaodedados.wordpress.com/

http://hunch.net/?p=3692542

http://en.wikipedia.org/wiki/Regression_analysis

http://weka.wikispaces.com/ARFF+%28book+version%29

http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5

http://machinelearningmastery.com/regression-machine-learning-tutorial-weka/

Mineração dedadoscomWEKA- Prof.João GabrielLima

Page 49: Mineração de Dados no Weka -  Regressão Linear

Introdução à Mineração dedados

Regressão Linear

PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA

LINKEDIN.COM/IN/JOAOGABRIELL IMA

Mineração dedadoscomWEKA- Prof.João GabrielLima