Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

Aprendizagem Hebbiana e PCA

Prof. Júlio Cesar Nievola

PPGIA

PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 2

Aprendizagem Hebbiana

A comunicação entre dois neurônios é facilitada pela excitação repetida

A Regra de Hebb diz que se a saída do i-ésimo PE é yi e a ativação do j-ésimo PE é xj, então

onde é o tamanho do passo

Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede

A regra de Hebb é local ao peso

ijij yxw


Sistemas biológico e artificial


Efeito da atualização Hebbiana

A aprendizagem Hebbiana atualiza os pesos de acordo com

onde n é o número da iteração e o tamanho do passo

Para um PE linear, y = wx e, portanto,

A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes

nynxnwnw 1

nxnwnw 211

Exemplo 01


PE com várias entradas

Em notação vetorial a saída do PE é

Assumindo entradas e pesos normalizados, y maior significa que ele está mais “próximo” da direção do vetor peso

Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores

Os pesos são a memória de longo termo

cos, xwysejaouy TT wxxw


Aprendizagem Hebbiana com várias entradas

PE linear comD entradas

Saída de um PE linear noespaço vetorial

Exemplo 02


Memória

O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos

A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele “recorda” do treinamento

O PE Hebbiano implementa um tipo de memória chamada memória associativa

Exemplo 03


Regra de Hebb e Aprendizagem por Correlação

Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação

Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada

A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento

Txx Eonde xxRwRw 0ˆ

Exemplo 04


Representação de Dados em Espaços Multidimensionais

Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada

A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância

É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada


Sistema de coordenadas principais


Regra de Oja

Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos

A forma mais simples foi proposta por Oja

Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por

iii

iii

nxnynw

nxnynwnw

21

nynxnynw

nwnynxnynwnw

ii

iiii

21

1


Regra de Oja

A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada

Ela evita o crescimento ilimitado dos pesos aplicando um “termo de esquecimento” proporcional ao quadrado da saída

Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas

Exemplo 05


A Regra de Oja implementa o Máximo Autofiltro

O treinamento de um PE linear com o algoritmo de Oja produz um vetor de pesos que é o autovetor da matriz de

autocorrelação de entrada na saída o maior autovalor

O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção

Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada


Projeção de um agrupamento de dados nos componentes principais


Análise da Componente Principal

Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões)

Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características

Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada

A projeção linear que realiza isto é chamada de PCA (“Principal Component Analysis”)


PCA

PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de

Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial

É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados

T

D

D

Mii Ee yy

,

0

0

,1

1

2


Rede PCA

Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local Calcula-se o maior autovetor usando a regra de Oja Projeta-se os dados sobre um espaço perpendicular ao maior

autovetor Aplica-se novamente o algoritmo para encontrar o segundo maior

componente principal Repete-se o procedimento até obter ordem M D

Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada


Rede PCA


Regra de Sanger

Assume-se que a rede tem D entradas e M saídas (M D), cada uma dada por

Os pesos são atualizados através da fórmula

Isto implementa a deflação após a convergência do sistema.

A atualização não é local

MinxnwnyD

ijiji ,,1,

1

i

kkkjjiij nynwnxnynw

1

Exemplo 06


PCA em aplicações

Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes

Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade

Exemplo 07


Relação entre autodireções e classificação


Aprendizagem Anti-Hebbiana

A regra anti-Hebbiana inclui um sinal de menos:

A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada

Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados

A saída da rede sempre produzirá saída zero

jiij xxw

Exemplo 08


Aprendizagem Anti-Hebbiana

Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero

Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto

O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada


Convergência da RegraAnti-Hebbiana

A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois

será estável se < 2 / , onde é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser

onde max é o maior autovalor da função de autocorrelação de entrada

nwnw 11

max

2

Exemplo 09


Estimando a Correlação Cruzada em Redes Hebbianas

Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x1,...,xD e d1,...,dD e deseja-se estimar a correlação cruzada entre eles

A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação

Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui-se a saída y na regra Hebbiana pelo conjunto de dados d


Rede Hebbiana com várias entradas e várias saídas


Aprendizagem Hebbiana Forçada

Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por

Se wij(0)=0, após N iterações tem-se

Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear

Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador

ijij dxw

N

nijij ndnxNw

1

Exemplo 10


Dissimilaridade

Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d

Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d)

Com a regra wij = - xjdi o sistema adiante realiza esta função: Função de um

PE de decorrelação

Exemplo 11


Inibição Lateral

Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana

É um método para construir redes que encontram o espaço da componente principal com uma regra local

Conexões lateraisde inibição


Modelo APEX para PCA

Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de

Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais

A regra é local As componentes principais são aprendidas em

paralelo e não usando deflação

jiijiji

iiii

cnynynyc

wnynxnyw


Topologia APEX para PCA


Whitening Transform

Ela ortogonaliza os dados de entrada e também normaliza os autovalores

Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal

Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem


Whitening Transform

A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é

A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única

Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos

D

kkjkiijij nwnynynwnw

1

11


Memória Associativa Linear (LAM)

O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional

A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa

Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d

Exemplo 12


Crosstalk em LAMs

Assume-se ter K pares de vetores entrada-saída xk dk. A memória associativa é treinada pela apresentação repetida de cada entrada

Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais:

Quando um vetor de entrada xl é apresentado à rede, sua saída é

Tkkk

K

kk xxWWW

cadaonde,1

K

lkkl

Tkkl

Tlll

,1

xxdxxdWxy

Exemplo 13


Crosstalk em LAMs

O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada xl é em relação a outras entradas xk

Se todas as entradas são ortogonais, o produto interno de xl e xk é zero (crosstalk zero)

Neste caso, o associador linear produz recuperação perfeita


Crosstalk em LAMs

Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação

Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais

Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada

O padrão mais próximo à entrada é recuperado


LMS como uma combinação de regras Hebbianas

A regra LMS é expressa por

Portanto,

A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada

Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada

iiijiij ydondexw ,

jijiij xyxdw


Melhorando o desempenho de Memórias Associativas Lineares

Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero-associação. P.ex. treinar os pesos com LMS como

O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM)

Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios

nnnnnnn TTT xyxdxεW

Exemplo 14


LAM e Regressão Linear

As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica?

Quantidade de padrões x camada de entrada: LAM: mais equações que dados Regressor: mais dados que equações

A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor)

Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna-se no final uma memória associativa e não generaliza bem!!!


Auto-associação

Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS

O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados

Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero)


Reconstrução de sinal


Auto-associador com W2 = W1T

Exemplo 15


Auto-Associador

A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares)

O quadrado dos sinais zi são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução

A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem

Exemplo 16

Exemplo 17

Exemplo 19

Exemplo 18

Documents

Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR