Upload
vodieu
View
224
Download
0
Embed Size (px)
Citation preview
Por que atributos irrelevantes satildeo um problema
Quais tipos de algoritmos de aprendizado satildeo afetados
Abordagens automaacuteticas Wrapper
Filtros
Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeo
Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo projetados para
Escolher o atributo mais promissor para particionar o conjunto de dados
Nunca selecionar atributos irrelevantes
Mais atributos implica em maior poder discriminatoacuterio
Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
Experimento (exemplo) Indutor de aacutervores de decisatildeo (C45)
Base de dados D
Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente
Resultado A acuraacutecia da classificaccedilatildeo cai
Em geral de 5 a 10 nos conjuntos de testes
Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido
Isto causa erros aleatoacuterios durante o teste
Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e
menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo
Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso
A chance disto acontece aumenta com a profundidade da aacutervore
Algoritmos mais afetados
Indutores de aacutervores e regras de decisatildeo
Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
Indutores baseados em instacircncias (eg k-NN)
Sempre trabalha com vizinhanccedilas locais
Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Melhora o desempenho preditivo
Acelera o processo de aprendizado
O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido
O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeo
Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo projetados para
Escolher o atributo mais promissor para particionar o conjunto de dados
Nunca selecionar atributos irrelevantes
Mais atributos implica em maior poder discriminatoacuterio
Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
Experimento (exemplo) Indutor de aacutervores de decisatildeo (C45)
Base de dados D
Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente
Resultado A acuraacutecia da classificaccedilatildeo cai
Em geral de 5 a 10 nos conjuntos de testes
Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido
Isto causa erros aleatoacuterios durante o teste
Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e
menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo
Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso
A chance disto acontece aumenta com a profundidade da aacutervore
Algoritmos mais afetados
Indutores de aacutervores e regras de decisatildeo
Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
Indutores baseados em instacircncias (eg k-NN)
Sempre trabalha com vizinhanccedilas locais
Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Melhora o desempenho preditivo
Acelera o processo de aprendizado
O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido
O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
Experimento (exemplo) Indutor de aacutervores de decisatildeo (C45)
Base de dados D
Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente
Resultado A acuraacutecia da classificaccedilatildeo cai
Em geral de 5 a 10 nos conjuntos de testes
Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido
Isto causa erros aleatoacuterios durante o teste
Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e
menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo
Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso
A chance disto acontece aumenta com a profundidade da aacutervore
Algoritmos mais afetados
Indutores de aacutervores e regras de decisatildeo
Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
Indutores baseados em instacircncias (eg k-NN)
Sempre trabalha com vizinhanccedilas locais
Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Melhora o desempenho preditivo
Acelera o processo de aprendizado
O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido
O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Em algum momento durante a geraccedilatildeo das aacutervores O atributo irrelevante eacute escolhido
Isto causa erros aleatoacuterios durante o teste
Por que o atributo irrelevante eacute escolhido Na medida em que a aacutervore eacute construiacuteda menos e
menos dados estatildeo disponiacuteveis para auxiliar a escolha do atributo
Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso
A chance disto acontece aumenta com a profundidade da aacutervore
Algoritmos mais afetados
Indutores de aacutervores e regras de decisatildeo
Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
Indutores baseados em instacircncias (eg k-NN)
Sempre trabalha com vizinhanccedilas locais
Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Melhora o desempenho preditivo
Acelera o processo de aprendizado
O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido
O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Algoritmos mais afetados
Indutores de aacutervores e regras de decisatildeo
Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
Indutores baseados em instacircncias (eg k-NN)
Sempre trabalha com vizinhanccedilas locais
Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Melhora o desempenho preditivo
Acelera o processo de aprendizado
O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido
O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Melhora o desempenho preditivo
Acelera o processo de aprendizado
O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
Produz uma representaccedilatildeo mais compacta do conceito a ser aprendido
O foco seraacute nos atributos que realmente satildeo importantes para a definiccedilatildeo do conceito
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
Melhora o desempenho dos modelos de aprendizado
Objetivo Eliminar atributos redundantes ou irrelevantes
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Manual Melhor meacutetodo se for baseado em um entendimento
profundo sobre ambos
O problema de aprendizado
O significado de cada atributo
Automaacutetico Filtros meacutetodo usado antes do processo de
aprendizado para selecionar o subconjunto de atributos
Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Implica em uma busca no ldquoespaccedilordquo de atributos
Quantos subconjuntos haacute
2N em que N eacute o nuacutemero total de atributos
Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
Soluccedilatildeo busca heuriacutestica
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Busca para Frente (Seleccedilatildeo Forward)
A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
O atributo que produz o melhor criteacuterio eacute incorporado
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Busca para traacutes (Eliminaccedilao Backward) Similar a Seleccedilatildeo Forward
Comeccedila com todo o conjunto de atributos eliminando um atributo a cada passo
Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenos Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Outros meacutetodos de busca
Busca bidirecional
Best-first search
Beam search
Algoritmos geneacuteticos
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Filtros O processo de escolha do subconjunto acontece
antes do processo de aprendizado
Wrapper O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Meacutetodos Dependentes do Modelo (Wrapper)
Meacutetodos Independentes do Modelo (Filter)
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
1) Aplique um indutor de AD para todo o conjunto de treinamento
2) Selecione o subconjunto de atributos que aparece na AD
3) Aplique o k-NN a apenas este subconjunto
A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Abordagens baseada nas caracteriacutesticas gerais dos dados
Encontrar o menor subconjunto que separe os dados
Utilizar diferentes esquemas de aprendizado
Usar os atributos que aparecem no c45 1R
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
(1) Inicialize com o conjunto vazio S=
(2) Resultado_S=0
(2) Para cada atributo si que natildeo esteja em S
Avalie o resultado de (S U si ) Resultado_ si
(3) Considere o atributo com maior Resultado_ si
SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Transforma atributos contiacutenuos em atributos categoacutericos
Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
1048673 Diversos meacutetodos de discretizaccedilatildeo
1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule) Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regras Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamente Ex Base de dados hipoteacutetica de meteorologia
x decisatildeo de realizar ou natildeo um certo jogo
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Base de Dados Meteoroloacutegicos Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo Natildeo
Sol 80 90 Sim Natildeo
Nublado 83 86 Natildeo Sim
Chuva 70 96 Natildeo Sim
Chuva 68 80 Natildeo Sim
Chuva 65 70 Sim Natildeo
Nublado 64 65 Sim Sim
Sol 72 95 Natildeo Natildeo
Sol 69 70 Natildeo Sim
Chuva 75 80 Natildeo Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Natildeo Sim
Chuva 71 91 Sim Natildeo
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Discretizaccedilatildeo Natildeo-Supervisionada O meacutetodo 1R eacute supervisionado Considera a variaacutevel
de saiacuteda (classe) na discretizaccedilatildeo
Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizado Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Trecircs abordagens baacutesicas Nuacutemero preacute-determinado de intervalos
uniformes (equal-interval binning)
Nuacutemero uniforme de amostras por intervalo
(equal-frequency binning)
Agrupamento (clustering) intervalos arbitraacuterios
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83
85 Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Nuacutemero preacute-determinado de intervalos uniformes (equal-interval binning)
No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
Bins com largura 6 x le 60 na60 lt x le 66 64 65
66 lt x le 72 68 69 70 71 72 72
72 lt x le 78 75 75
78 lt x le 84 80 81 83
84 lt x le 90 85
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Equal-interval binning Problemas Como qualquer meacutetodo natildeo supervisionado
arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
Tambeacutem chamado de equalizaccedilatildeo do histograma
Cada bin tem o mesmo nuacutemero aproximado de amostras
Histograma eacute plano Heuriacutestica para o nuacutemero de bins radicN N = nuacutemero de amostras
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Nuacutemero uniforme de amostras por intervalo (equal-frequency binning)
No exemplo (temperatura)
64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85
14 amostras 4 Bins x le 695 64 65 68 69
695 lt x le 735 70 71 72 72
735 lt x le 805 75 75 80
x gt 805 81 83 85
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Agrupamento (Clustering)
Pode-se aplicar um algoritmo de agrupamento
no caso unidimensional
Para cada grupo (cluster) atribuir um valor discreto
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Anaacutelise de Componentes
Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1
x2 xp) uma transformaccedilatildeo linear para um novo
conjunto de atributos z1 z2 zp pode ser calculada
como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de
combinaccedilotildees lineares que satildeo escolhidas de tal modo
que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas
(independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia
dos dados originais que elas contecircm (ordem decrescente)
ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados original
ndash A segunda PC define a proacutexima maior parte e assim por diante
ndash Em geral apenas algumas das primeiras PCs satildeo
responsaacuteveis pela maior parte da variabilidade do conjunto de
dados
ndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a
reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-
valores e auto-vetores da matriz de covariacircncia (ou
correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados
originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo
auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de
acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em
diferentes escalas eacute preferiacutevel usar a matriz de
correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil
Anaacutelise de Componentes
Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador
gerado) em termos dos atributos originais pode ficar
mais difiacutecil