Mineração da Dados

  • View
    12

  • Download
    0

Embed Size (px)

DESCRIPTION

Mineração da Dados. Entradas: Conceitos, instâncias, atributos. Terminologia O que é um conceito ? Classificação, associação, agrupamento, predição numérica O que é um exemplo ? Relações, arquivos flats, recursão O que é um atributo? Nominal, ordinal, intervalo Preparando a entrada - PowerPoint PPT Presentation

Text of Mineração da Dados

Chapter 2

Minerao da Dados2Entradas: Conceitos, instncias, atributosTerminologiaO que um conceito?Classificao, associao, agrupamento, predio numricaO que um exemplo?Relaes, arquivos flats, recurso O que um atributo?Nominal, ordinal, intervaloPreparando a entradaARFF, atributos, valores faltando3TerminologiaComponentes da entrada:Conceitos: tipos Propsito: descrio inteligvel e operacionalInstncias: o exemplo independente do conceitoNote:entradas mas complicadas so possveisAtributos: medindo aspectos de uma instnciaFoco em nominais e numricos4O que um conceito?Estilo do aprendizado:Classificao:predio de uma classe discretaAssociao:deteco de associao entre caractersticasAgrupamento (Clustering):agrupamento de instncias similares em grupos Predio numrica:predio de um valor numricoConceito: aquilo que se aprendeDescrio do conceito:sada do esquema de aprendizado5ClassificaoExemplos de problemas: weather, contact lenses, A tarefa de Classificao supervisionadaOs exemplos so fornecidos com a sada esperadaA sada chamada de classeMede-se o sucesso em dados no vistos anteriormente, porem conhece se a classe Na pratica o sucesso medido de forma subjetiva6AssociaoPode ser aplicada se nenhuma classe especificada e qualquer tipo de estrutura considerada interessanteDiferenas com a classificao:Podem predizer qualquer atributo e mais de um atributoPortanto: existem muito mais regras de associao do que regras de classificaoAssim: restries so necessriasCobertura mnima e mxima acuracia

7Agrupamento (Clustering)Encontrar grupos de itens que so similaresAgrupamento no supervisionadoA classe de um exemplo no conhecidaO sucesso subjetivoIris virginica1.95.12.75.8102101525121Iris virginica2.56.03.36.3Iris versicolor1.54.53.26.4Iris versicolor1.44.73.27.0Iris setosa0.21.43.04.9Iris setosa0.21.43.55.1TypePetal widthPetal lengthSepal widthSepal lengthExemplo de descrio (I)AgrupamentoExemplo:vector quantization;rendadbito++++++++++++++++t++: exemploAnlise de crditoMtodos89Predio NumericaUma variante da classificao na qual a classe numrica (tambm chamada de regresso)O aprendizado supervisionadoOs exemplos so fornecidos com o valor alvoMedida de sucesso nos dados de teste

40FalseNormalMildRainy55FalseHighHot Overcast0TrueHighHotSunny5FalseHighHotSunnyPlay-timeWindyHumidityTemperatureOutlook10O que um exemplo?Instncia: tipo especifico de exemploAlgo a ser classificado, associado ou agrupadoIndividual, exemplo independente do conceito alvoCaracterizado por um conjunto pre-determinado de atributosEntrada do algoritmo de aprendizado: conjunto de instncias/basesRepresentados como uma relao simples/arquivo flat11Uma arvore de familia=StevenMGrahamMPamFGraceFRayM=IanMPippaFBrianM=AnnaFNikkiFPeggyFPeterM12Arvore da familia representado como um arquivoIanPamFemaleNikkiIanPamFemaleAnnaRayGraceMaleBrianRayGraceFemalePippaRayGraceMaleIanPeggyPeterFemalePamPeggyPeterMaleGrahamPeggyPeterMaleSteven??FemalePeggy??MalePeterparent2Parent1GenderName13A relao Irmo de yesAnnaNikkiYesNikkiAnnaYesPippaIanYesPamStevenNoGrahamStevenNoPeterStevenNoStevenPeterNoPeggyPeterSister of?Second personFirst personNoAll the restYesAnnaNikkiYesNikkiAnnaYesPippaBrianYesPippaIanYesPamGrahamYesPamStevenSister of?Second personFirst personAssume-se Closed-world 14Representao completa numa tabelaIanIanRayRayPeggyPeggyParent2FemaleFemaleFemaleFemaleFemaleFemaleGenderPamPamGraceGracePeterPeterParent1NameParent2Parent1GenderNameIanIanRayRayPeggyPeggyPamPamGraceGracePeterPeterFemaleFemaleMaleMaleMaleMaleNoAll the restYesAnnaNikkiYesNikkiAnnaYesPippaBrianYesPippaIanYesPamGrahamYesPamStevenSisterof?Second personFirst personIf second persons gender = femaleand first persons parent = second persons parentthen sister-of = yes15O que um atributo?Cada instncia descrita como um predefinido conjunto de caractersticas, seus atributosPorm: o numero de atributos pode variar na praticaPossvel soluo: valores irrelevantesPossveis tipos de atributos:Nominal, ordinal, intervalos 16Atributos NominaisOs valores so smbolos diferentesExemplo: atributo outlook da base weather Valores: sunny,overcast, e rainyNo existe relao entre os valores nominais (sem ordem ou medida de distncia)Somente testes de igualdade podem ser realizados17Atributos ordinaisImpe uma ordem nos valoresPorm: no existe distancia nos valores predefinidosExemplo:atributo temperature nos dados weatherValores: hot > mild > coolNote: adio e subtrao no tem sentidoExemplo de regra:temperature < hot play = yesA diferena entre atributos nominais e ordinais no sempre clara 18Quantidades IntervalosOs intervalos so ordenados e medidos em unidades fixas e iguaisExemplo 1: atributo temperature expresso em graus FahrenheitExemplo 2: atributo yearA diferena entre 2 valores faz sentidoA soma ou produto no fazem sentido19Atributos A maior parte dos algoritmos diferenciam 2 : nominal e ordinalAtributos Nominais so tambm chamados categorical, enumerated, ou discretePorm: enumerated e discrete implicam em uma ordemCaso especial: dicotomia (boolean )Atributos ordinais so chamados de numeric, ou continuousPorm: continuous implica em continuidade matematica20O formato ARFF %% ARFF file for weather data with some numeric features%@relation weather

@attribute outlook {sunny, overcast, rainy}@attribute temperature numeric@attribute humidity numeric@attribute windy {true, false}@attribute play? {yes, no}

@datasunny, 85, 85, false, nosunny, 80, 90, true, noovercast, 83, 86, false, yes...21Atributos adicionaisARFF suporta atributos string:

Similar a os atributos nominais porm uma lista de valores no pre-especificadaSuporta dados tipo data:

Usa o formato ISO-8601 yyyy-MM-dd-THH:mm:ss@attribute description string@attribute today date