48

Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

  • Upload
    vodieu

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Por que atributos irrelevantes satildeo um problema

Quais tipos de algoritmos de aprendizado satildeo afetados

Abordagens automaacuteticas Wrapper

Filtros

Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeo

Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo projetados para

Escolher o atributo mais promissor para particionar o conjunto de dados

Nunca selecionar atributos irrelevantes

Mais atributos implica em maior poder discriminatoacuterio

Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

Experimento (exemplo) Indutor de aacutervores de decisatildeo (C45)

Base de dados D

Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

Resultado A acuraacutecia da classificaccedilatildeo cai

Em geral de 5 a 10 nos conjuntos de testes

Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido

Isto causa erros aleatoacuterios durante o teste

Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e

menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

A chance disto acontece aumenta com a profundidade da aacutervore

Algoritmos mais afetados

Indutores de aacutervores e regras de decisatildeo

Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

Indutores baseados em instacircncias (eg k-NN)

Sempre trabalha com vizinhanccedilas locais

Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Melhora o desempenho preditivo

Acelera o processo de aprendizado

O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido

O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 2: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeo

Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo projetados para

Escolher o atributo mais promissor para particionar o conjunto de dados

Nunca selecionar atributos irrelevantes

Mais atributos implica em maior poder discriminatoacuterio

Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

Experimento (exemplo) Indutor de aacutervores de decisatildeo (C45)

Base de dados D

Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

Resultado A acuraacutecia da classificaccedilatildeo cai

Em geral de 5 a 10 nos conjuntos de testes

Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido

Isto causa erros aleatoacuterios durante o teste

Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e

menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

A chance disto acontece aumenta com a profundidade da aacutervore

Algoritmos mais afetados

Indutores de aacutervores e regras de decisatildeo

Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

Indutores baseados em instacircncias (eg k-NN)

Sempre trabalha com vizinhanccedilas locais

Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Melhora o desempenho preditivo

Acelera o processo de aprendizado

O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido

O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 3: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

Experimento (exemplo) Indutor de aacutervores de decisatildeo (C45)

Base de dados D

Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

Resultado A acuraacutecia da classificaccedilatildeo cai

Em geral de 5 a 10 nos conjuntos de testes

Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido

Isto causa erros aleatoacuterios durante o teste

Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e

menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

A chance disto acontece aumenta com a profundidade da aacutervore

Algoritmos mais afetados

Indutores de aacutervores e regras de decisatildeo

Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

Indutores baseados em instacircncias (eg k-NN)

Sempre trabalha com vizinhanccedilas locais

Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Melhora o desempenho preditivo

Acelera o processo de aprendizado

O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido

O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 4: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido

Isto causa erros aleatoacuterios durante o teste

Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e

menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

A chance disto acontece aumenta com a profundidade da aacutervore

Algoritmos mais afetados

Indutores de aacutervores e regras de decisatildeo

Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

Indutores baseados em instacircncias (eg k-NN)

Sempre trabalha com vizinhanccedilas locais

Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Melhora o desempenho preditivo

Acelera o processo de aprendizado

O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido

O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 5: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Algoritmos mais afetados

Indutores de aacutervores e regras de decisatildeo

Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

Indutores baseados em instacircncias (eg k-NN)

Sempre trabalha com vizinhanccedilas locais

Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Melhora o desempenho preditivo

Acelera o processo de aprendizado

O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido

O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 6: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Melhora o desempenho preditivo

Acelera o processo de aprendizado

O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido

O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 7: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

Melhora o desempenho dos modelos de aprendizado

Objetivo Eliminar atributos redundantes ou irrelevantes

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 8: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Manual Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

O problema de aprendizado

O significado de cada atributo

Automaacutetico Filtros meacutetodo usado antes do processo de

aprendizado para selecionar o subconjunto de atributos

Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 9: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Implica em uma busca no ldquoespaccedilordquo de atributos

Quantos subconjuntos haacute

2N em que N eacute o nuacutemero total de atributos

Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

Soluccedilatildeo busca heuriacutestica

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 10: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Busca para Frente (Seleccedilatildeo Forward)

A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

O atributo que produz o melhor criteacuterio eacute incorporado

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 11: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward

Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo

Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 12: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Outros meacutetodos de busca

Busca bidirecional

Best-first search

Beam search

Algoritmos geneacuteticos

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 13: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Filtros O processo de escolha do subconjunto acontece

antes do processo de aprendizado

Wrapper O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 14: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Meacutetodos Dependentes do Modelo (Wrapper)

Meacutetodos Independentes do Modelo (Filter)

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 15: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto de treinamento

2) Selecione o subconjunto de atributos que aparece na AD

3) Aplique o k-NN a apenas este subconjunto

A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 16: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Abordagens baseada nas caracteriacutesticas gerais dos dados

Encontrar o menor subconjunto que separe os dados

Utilizar diferentes esquemas de aprendizado

Usar os atributos que aparecem no c45 1R

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 17: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

(1) Inicialize com o conjunto vazio S=

(2) Resultado_S=0

(2) Para cada atributo si que natildeo esteja em S

Avalie o resultado de (S U si ) Resultado_ si

(3) Considere o atributo com maior Resultado_ si

SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 18: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Transforma atributos contiacutenuos em atributos categoacutericos

Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 19: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

1048673 Diversos meacutetodos de discretizaccedilatildeo

1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 20: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regras Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia

x decisatildeo de realizar ou natildeo um certo jogo

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 21: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo Natildeo

Sol 80 90 Sim Natildeo

Nublado 83 86 Natildeo Sim

Chuva 70 96 Natildeo Sim

Chuva 68 80 Natildeo Sim

Chuva 65 70 Sim Natildeo

Nublado 64 65 Sim Sim

Sol 72 95 Natildeo Natildeo

Sol 69 70 Natildeo Sim

Chuva 75 80 Natildeo Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Natildeo Sim

Chuva 71 91 Sim Natildeo

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 22: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel

de saiacuteda (classe) na discretizaccedilatildeo

Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 23: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos

uniformes (equal-interval binning)

Nuacutemero uniforme de amostras por intervalo

(equal-frequency binning)

Agrupamento (clustering) intervalos arbitraacuterios

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 24: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83

85 Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 25: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)

No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

Bins com largura 6 x le 60 na60 lt x le 66 64 65

66 lt x le 72 68 69 70 71 72 72

72 lt x le 78 75 75

78 lt x le 84 80 81 83

84 lt x le 90 85

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 26: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado

arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 27: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

Tambeacutem chamado de equalizaccedilatildeo do histograma

Cada bin tem o mesmo nuacutemero aproximado de amostras

Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 28: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)

No exemplo (temperatura)

64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85

14 amostras 4 Bins x le 695 64 65 68 69

695 lt x le 735 70 71 72 72

735 lt x le 805 75 75 80

x gt 805 81 83 85

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 29: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Agrupamento (Clustering)

Pode-se aplicar um algoritmo de agrupamento

no caso unidimensional

Para cada grupo (cluster) atribuir um valor discreto

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 30: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Anaacutelise de Componentes

Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1

x2 xp) uma transformaccedilatildeo linear para um novo

conjunto de atributos z1 z2 zp pode ser calculada

como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de

combinaccedilotildees lineares que satildeo escolhidas de tal modo

que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 31: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas

(independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia

dos dados originais que elas contecircm (ordem decrescente)

ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados original

ndash A segunda PC define a proacutexima maior parte e assim por diante

ndash Em geral apenas algumas das primeiras PCs satildeo

responsaacuteveis pela maior parte da variabilidade do conjunto de

dados

ndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a

reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 32: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-

valores e auto-vetores da matriz de covariacircncia (ou

correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados

originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo

auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de

acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em

diferentes escalas eacute preferiacutevel usar a matriz de

correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil

Page 33: Por que atributos irrelevantes são um problema Quais tipos ... · O atributo irrelevante é escolhido ... x decisão de realizar ou não um certo jogo ... Sol 85 85 Não Não Sol

Anaacutelise de Componentes

Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador

gerado) em termos dos atributos originais pode ficar

mais difiacutecil