Upload
internet
View
103
Download
0
Embed Size (px)
Citation preview
Aprendizagem Hebbiana e PCA
Prof. Júlio Cesar Nievola
PPGIA
PUCPR
PPGIA - PUCPR Prof. Júlio Cesar Nievola 2
Aprendizagem Hebbiana
A comunicação entre dois neurônios é facilitada pela excitação repetida
A Regra de Hebb diz que se a saída do i-ésimo PE é yi e a ativação do j-ésimo PE é xj, então
onde é o tamanho do passo
Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede
A regra de Hebb é local ao peso
ijij yxw
PPGIA - PUCPR Prof. Júlio Cesar Nievola 3
Sistemas biológico e artificial
PPGIA - PUCPR Prof. Júlio Cesar Nievola 4
Efeito da atualização Hebbiana
A aprendizagem Hebbiana atualiza os pesos de acordo com
onde n é o número da iteração e o tamanho do passo
Para um PE linear, y = wx e, portanto,
A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes
nynxnwnw 1
nxnwnw 211
Exemplo 01
PPGIA - PUCPR Prof. Júlio Cesar Nievola 5
PE com várias entradas
Em notação vetorial a saída do PE é
Assumindo entradas e pesos normalizados, y maior significa que ele está mais “próximo” da direção do vetor peso
Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores
Os pesos são a memória de longo termo
cos, xwysejaouy TT wxxw
PPGIA - PUCPR Prof. Júlio Cesar Nievola 6
Aprendizagem Hebbiana com várias entradas
PE linear comD entradas
Saída de um PE linear noespaço vetorial
Exemplo 02
PPGIA - PUCPR Prof. Júlio Cesar Nievola 7
Memória
O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos
A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele “recorda” do treinamento
O PE Hebbiano implementa um tipo de memória chamada memória associativa
Exemplo 03
PPGIA - PUCPR Prof. Júlio Cesar Nievola 8
Regra de Hebb e Aprendizagem por Correlação
Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação
Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada
A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento
Txx Eonde xxRwRw 0ˆ
Exemplo 04
PPGIA - PUCPR Prof. Júlio Cesar Nievola 9
Representação de Dados em Espaços Multidimensionais
Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada
A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância
É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada
PPGIA - PUCPR Prof. Júlio Cesar Nievola 10
Sistema de coordenadas principais
PPGIA - PUCPR Prof. Júlio Cesar Nievola 11
Regra de Oja
Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos
A forma mais simples foi proposta por Oja
Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por
iii
iii
nxnynw
nxnynwnw
21
nynxnynw
nwnynxnynwnw
ii
iiii
21
1
PPGIA - PUCPR Prof. Júlio Cesar Nievola 12
Regra de Oja
A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada
Ela evita o crescimento ilimitado dos pesos aplicando um “termo de esquecimento” proporcional ao quadrado da saída
Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas
Exemplo 05
PPGIA - PUCPR Prof. Júlio Cesar Nievola 13
A Regra de Oja implementa o Máximo Autofiltro
O treinamento de um PE linear com o algoritmo de Oja produz um vetor de pesos que é o autovetor da matriz de
autocorrelação de entrada na saída o maior autovalor
O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção
Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada
PPGIA - PUCPR Prof. Júlio Cesar Nievola 14
Projeção de um agrupamento de dados nos componentes principais
PPGIA - PUCPR Prof. Júlio Cesar Nievola 15
Análise da Componente Principal
Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões)
Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características
Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada
A projeção linear que realiza isto é chamada de PCA (“Principal Component Analysis”)
PPGIA - PUCPR Prof. Júlio Cesar Nievola 16
PCA
PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de
Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial
É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados
T
D
D
Mii Ee yy
,
0
0
,1
1
2
PPGIA - PUCPR Prof. Júlio Cesar Nievola 17
Rede PCA
Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local Calcula-se o maior autovetor usando a regra de Oja Projeta-se os dados sobre um espaço perpendicular ao maior
autovetor Aplica-se novamente o algoritmo para encontrar o segundo maior
componente principal Repete-se o procedimento até obter ordem M D
Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada
PPGIA - PUCPR Prof. Júlio Cesar Nievola 18
Rede PCA
PPGIA - PUCPR Prof. Júlio Cesar Nievola 19
Regra de Sanger
Assume-se que a rede tem D entradas e M saídas (M D), cada uma dada por
Os pesos são atualizados através da fórmula
Isto implementa a deflação após a convergência do sistema.
A atualização não é local
MinxnwnyD
ijiji ,,1,
1
i
kkkjjiij nynwnxnynw
1
Exemplo 06
PPGIA - PUCPR Prof. Júlio Cesar Nievola 20
PCA em aplicações
Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes
Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade
Exemplo 07
PPGIA - PUCPR Prof. Júlio Cesar Nievola 21
Relação entre autodireções e classificação
PPGIA - PUCPR Prof. Júlio Cesar Nievola 22
Aprendizagem Anti-Hebbiana
A regra anti-Hebbiana inclui um sinal de menos:
A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada
Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados
A saída da rede sempre produzirá saída zero
jiij xxw
Exemplo 08
PPGIA - PUCPR Prof. Júlio Cesar Nievola 23
Aprendizagem Anti-Hebbiana
Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero
Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto
O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada
PPGIA - PUCPR Prof. Júlio Cesar Nievola 24
Convergência da RegraAnti-Hebbiana
A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois
será estável se < 2 / , onde é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser
onde max é o maior autovalor da função de autocorrelação de entrada
nwnw 11
max
2
Exemplo 09
PPGIA - PUCPR Prof. Júlio Cesar Nievola 25
Estimando a Correlação Cruzada em Redes Hebbianas
Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x1,...,xD e d1,...,dD e deseja-se estimar a correlação cruzada entre eles
A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação
Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui-se a saída y na regra Hebbiana pelo conjunto de dados d
PPGIA - PUCPR Prof. Júlio Cesar Nievola 26
Rede Hebbiana com várias entradas e várias saídas
PPGIA - PUCPR Prof. Júlio Cesar Nievola 27
Aprendizagem Hebbiana Forçada
Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por
Se wij(0)=0, após N iterações tem-se
Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear
Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador
ijij dxw
N
nijij ndnxNw
1
Exemplo 10
PPGIA - PUCPR Prof. Júlio Cesar Nievola 28
Dissimilaridade
Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d
Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d)
Com a regra wij = - xjdi o sistema adiante realiza esta função: Função de um
PE de decorrelação
Exemplo 11
PPGIA - PUCPR Prof. Júlio Cesar Nievola 29
Inibição Lateral
Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana
É um método para construir redes que encontram o espaço da componente principal com uma regra local
Conexões lateraisde inibição
PPGIA - PUCPR Prof. Júlio Cesar Nievola 30
Modelo APEX para PCA
Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de
Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais
A regra é local As componentes principais são aprendidas em
paralelo e não usando deflação
jiijiji
iiii
cnynynyc
wnynxnyw
PPGIA - PUCPR Prof. Júlio Cesar Nievola 31
Topologia APEX para PCA
PPGIA - PUCPR Prof. Júlio Cesar Nievola 32
Whitening Transform
Ela ortogonaliza os dados de entrada e também normaliza os autovalores
Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal
Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem
PPGIA - PUCPR Prof. Júlio Cesar Nievola 33
Whitening Transform
A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é
A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única
Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos
D
kkjkiijij nwnynynwnw
1
11
PPGIA - PUCPR Prof. Júlio Cesar Nievola 34
Memória Associativa Linear (LAM)
O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional
A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa
Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d
Exemplo 12
PPGIA - PUCPR Prof. Júlio Cesar Nievola 35
Crosstalk em LAMs
Assume-se ter K pares de vetores entrada-saída xk dk. A memória associativa é treinada pela apresentação repetida de cada entrada
Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais:
Quando um vetor de entrada xl é apresentado à rede, sua saída é
Tkkk
K
kk xxWWW
cadaonde,1
K
lkkl
Tkkl
Tlll
,1
xxdxxdWxy
Exemplo 13
PPGIA - PUCPR Prof. Júlio Cesar Nievola 36
Crosstalk em LAMs
O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada xl é em relação a outras entradas xk
Se todas as entradas são ortogonais, o produto interno de xl e xk é zero (crosstalk zero)
Neste caso, o associador linear produz recuperação perfeita
PPGIA - PUCPR Prof. Júlio Cesar Nievola 37
Crosstalk em LAMs
Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação
Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais
Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada
O padrão mais próximo à entrada é recuperado
PPGIA - PUCPR Prof. Júlio Cesar Nievola 38
LMS como uma combinação de regras Hebbianas
A regra LMS é expressa por
Portanto,
A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada
Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada
iiijiij ydondexw ,
jijiij xyxdw
PPGIA - PUCPR Prof. Júlio Cesar Nievola 39
Melhorando o desempenho de Memórias Associativas Lineares
Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero-associação. P.ex. treinar os pesos com LMS como
O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM)
Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios
nnnnnnn TTT xyxdxεW
Exemplo 14
PPGIA - PUCPR Prof. Júlio Cesar Nievola 40
LAM e Regressão Linear
As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica?
Quantidade de padrões x camada de entrada: LAM: mais equações que dados Regressor: mais dados que equações
A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor)
Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna-se no final uma memória associativa e não generaliza bem!!!
PPGIA - PUCPR Prof. Júlio Cesar Nievola 41
Auto-associação
Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS
O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados
Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero)
PPGIA - PUCPR Prof. Júlio Cesar Nievola 42
Reconstrução de sinal
PPGIA - PUCPR Prof. Júlio Cesar Nievola 43
Auto-associador com W2 = W1T
Exemplo 15
PPGIA - PUCPR Prof. Júlio Cesar Nievola 44
Auto-Associador
A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares)
O quadrado dos sinais zi são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução
A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem
Exemplo 16
Exemplo 17
Exemplo 19
Exemplo 18