Mineração dedadoscomRapidMiner +WEKA
Regressão Linear- Teoria ePrática
PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA
LINKEDIN.COM/IN/JOAOGABRIELL IMA
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Prof.JoãoGabrielLima
• Engenheiro daComputação,especialista em SoftwareeHardware;
• Doutorando em ComputaçãoAplicada;
• Pesquisador em Mineração dedadoeInteligênciaComputacional;
• ITHacker
Oqueémineração dedados?
Mineração dedadosAtransformação degrandes quantidades dedadosem
padrões eregras:
Direcionada eNão Direcionada
Direcionada:tentamos prever umponto dedadosemparticular◦ Ex.:preço devenda deuma casabaseado em informações sobreoutras casasà venda nobairro
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Mineração dedados
Não direcionada:
◦ Tentamos criar grupos dedados,ou achar padrões em dadosexistentes
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Qual oobjetivo?
Mineração deDadosOobjetivo damineração dedadosé criar ummodelo quepossamelhorar omodo pelo qual interpretamos nossos
dados existentes efuturos.
Comohá muitas técnicas demineração dedados,opassoprincipalparacriar umbommodelo é determinar quetipo
detécnica deve ser usada.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Iniciando ostrabalhos…
Modelos deRegressãoGUIA PRÁTICO EPASSO APASSO
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Regressão
Omodelo deregressão é então usado paraprever oresultado deuma variável dependente desconhecida,dadosos valores dasvariáveis independentes.Técnica mais fácil deusar,masprovavelmente também é amenospoderosa.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
RegressãoEx.:
Calcular opreço deuma casa:
Opreço dacasa(avariável dependente)é oresultado demuitas variáveis independentes— ametragem quadrada dacasa,otamanho dolote,sehá granito na cozinha,seos banheiros foramreformados,etc
Omodelo é criado combaseem outras casascomparáveis nobairro enopreço pelo qual elasforam vendidas (omodelo),eentão colocando os valores desua própria casaneste modelo para
produzir opreço esperado.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
RegressãoEx.:Estessão números reais decasasqueestão à venda nobairro,evamos tentar achar ovalordacasaquesequer vender:
Valores dacasaparaomodelo deregressão
Tamanho Tamanho dolote Quartos Granito Banheiroreformado
Preço devenda
3529 9191 6 0 0 $205,000
3247 10061 5 1 1 $224,900
4032 10150 5 0 1 $197,900
2397 14156 4 1 0 $189,900
2200 9600 4 0 1 $195,000
3536 19994 6 1 1 $325,000
2983 9365 5 0 1 $230,000
3198 9669 5 1 1 ?????
WaikatoEnvironmentforKnowledgeAnalysis(WEKA)
WaikatoEnvironmentforKnowledgeAnalysis(WEKA)
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
WaikatoEnvironmentforKnowledgeAnalysis(WEKA)
OWEKAé umproduto daUniversidade deWaikato(NovaZelândia)
GNUGeneralPublicLicense(GPL)
Linguagem Java™
APIparaincorporar oWEKAem aplicações próprias
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Carregando dadosnoWEKAFormato deArquivo deAtributo-Relação (ARFF)
Noarquivo,definimos cada coluna eoquecada coluna contém:
@relation<relation-name>
@attribute<attribute-name><datatype>
*numeric,nominal,string,date[<date-format>]
@data
<data1>, <data2>,<data3>,<data4>,<data5>
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Carregando dadosnoWEKA@relationLCCvsLCSH
@attributeLCCstring
@attributeLCSHstring
@ attributetimestampDATE"yyyy-MM-dd HH:mm:ss"
@data
AG5,'Encyclopediasanddictionaries.;Twentieth century.', "2001-04-0312:12:12"
AS262,'Science-- SovietUnion-- History.', "2001-04-0312:12:12"
AE5,'Encyclopediasanddictionaries.', "2001-04-0312:12:12"
AS281,'Astronomy,Assyro-Babylonian.;Moon -- Phases.', "2001-04-0312:12:12"
AS281,'Astronomy,Assyro-Babylonian.;Moon -- Tables.’, "2001-04-0312:12:12"
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Conhecendo oAmbiente deTrabalhoWEKAWORKBENCH
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Abrindo nosso arquivo arff noWEKA
Criando omodelo deregressão comoWEKANaguia Classify:
1- Cliquenobotão Choose,eentão expanda aramificação functions.
2- Selecione afolha LinearRegression.
Obs:Nocaso domodelo deregressão,estamoslimitados auma coluna deNUMERICou deDATE
Nosso arquivo dedados…
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Criando omodelo deregressão comoWEKA– Opções
Suppliedtestset: onde é possível fornecer umconjunto diferente dedadosparaconstruir omodelo;
Cross-validation: quedeixa oWEKAconstruir ummodelo baseado em subconjuntos dosdadosfornecidos eentão calcular sua média paracriar ummodelo final;
Percentagesplit: onde oWEKAtoma umsubconjunto percentual dosdadosfornecidos paraconstruir ummodelo final.
Usetrainingset:Isto diz ao WEKAqueparaconstruir nosso modelo desejado,podemossimplesmente usar oconjunto dedadosquefornecemos em nosso arquivo ARFF
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Criando omodelo deregressão comoWEKA– Opções
Oúltimo passo paracriar nosso modelo é escolher avariáveldependente (acoluna queestamos tentando prever).
Sabemos queeste deve ser opreço devenda,pois é isso queestamostentando determinar.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Criando omodelo deregressãocomoWEKA
Analisando oResultado
Mineração deDados- Prof.Msc.João GabrielLima
Mas…é esseoresultado?
Interpretando omodeloderegressão
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Resultado daregressão
preco =(-26,6882*tamanhoCasa)+(7,0551*tamanhoLote)+(43.166,0767*quartos)+(42.292,0901*banheiro)-
21.661,1208
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Calculando oValordacasausando omodelo deregressão
preco =(-26,6882*3198)+(7,0551*9669)+(43.166,0767*5)+(42.292,0901*1)-21.661,1208
preco =$219,328
Tamanho Tamanho dolote Quartos Granito Banheiroreformado
Preço devenda
3198 9669 5 1 1 ?????
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Ahhhh!
Interpretando os padrões econclusões domodelo
◦Ogranito não temimportância
◦ OWEKAsó usa ascolunas quecontribuem estatisticamente paraaprecisão do
modelo (medido em Rao quadrado).
◦ Ele descarta eignora ascolunas quenão ajudam acriar umbom modelo.
◦ Assim,este modelo deregressão está nos dizendo queogranito dacozinha não afeta
ovalordacasa.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Interpretando os padrões econclusões domodelo
◦Os banheiros são importantes◦ Comousamos umsimplesvalor0ou 1paraumbanheiro reformado,podemos usar ocoeficiente
domodelo deregressão paradeterminar ovalorqueumbanheiro reformado representa parao
valordacasa.
◦ Omodelo nos diz paraacrescentarmos $42.292ao valordacasa.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Quemassa!
Interpretando os padrões econclusões domodelo
◦ Casasmaiores reduzem ovalor◦ Não faz sentido?
◦ Omodelo pode estar sendo afetado por uma variável quenão é indepenendente.
◦ “Tamanho”?
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Vamosexercitar!Agoraaplique seus conhecimentosem umnovodesafio…
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Exercício 1
◦ NaabaPreprocess doWEKAé possível removercolunas doconjunto de
dados.
◦ Remova acoluna TamanhoCasa ecrie outromodelo.Comoisso afeta o
preço dacasa?
◦ Estenovomodelo faz mais sentido?
◦ Qual onovovalordacasacomesta alteração nos dadosdeentrada?
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Exercício 2Apartir dabasedisponível em:https://goo.gl/GfFX8lAplique os conhecimentos adiquiridos nesta aula,destacando asvariáveis independentes queteminfluência sobre oresultado eafunção queexpressa omodelo deregressão paraabasededados
analisada.
CréditosAbaixoestãolistadasasprincipaisfontesutilizadasparaaconcepçãodestaapresentação:
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/
https://www.ibm.com/developerworks/br/opensource/library/os-weka1/
https://mineracaodedados.wordpress.com/
http://hunch.net/?p=3692542
http://en.wikipedia.org/wiki/Regression_analysis
http://weka.wikispaces.com/ARFF+%28book+version%29
http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5
http://machinelearningmastery.com/regression-machine-learning-tutorial-weka/
Mineração dedadoscomRapidMiner +WEKA
Regressão Linear- Teoria ePrática
PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA
LINKEDIN.COM/IN/JOAOGABRIELL IMA
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima