32
MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR

MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

Embed Size (px)

Citation preview

Page 1: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

MLP

Prof. Júlio Cesar Nievola

PPGIA - PUCPR

Page 2: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 2

Redes Neurais Artificiais

Redes neurais artificiais são máquinas de aprendizagem

distribuídas adaptativas geralmente não lineares

construídas a partir de muitos elementos de processamento (PE) diferentes

Page 3: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 3

Redes Neurais Artificiais

Page 4: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 4

Redes Neurais Artificiais

RNAs constroem funções discriminantes a partir de seus PEs

A topologia da RNA determina o número e formato das funções discriminantes RNA => classificador semi-paramétrico

Posicionamento das funções discriminantes controlado pelos pesos Pesos ajustados pelos dados sem consideração

sobre a distribuição estatística dos dados

Page 5: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 5

Princípios Gerais de Treinamento de Sistema Adaptativos

Page 6: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 6

PE de McCulloch-Pitts

Equação entrada-saída

Função de ativação f é a função signum

D

iii bxwfnetfy

1

0,1

0,1

netse

netsenetf

Exemplo 01

Page 7: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 7

Não-linearidadesTangente hiperbólica - Saídas em [-1,1]

Logística - Saídas em [0,1]

Ambas são suaves, ou seja, continuamente diferenciáveis

netnetf tanh

netenetf

1

1

Exemplo 02

Exemplo 03

Exemplo 04

Page 8: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 8

Algoritmo de Aprendizagem para uma Máquina Não-Linear

Em relação ao Adaline:

forma funcional igual

não corresponde ao gradiente já que existe uma

não-linearidade descontínua

aprende apenas quando a saída está ERRADA!!!

a atualização se torna mais seletiva

há um grande impacto no desempenho

nxnyndnwnw 1

Exemplo 05

Page 9: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 9

Regra Delta

É uma extensão direta da regra LMS para sistemas não-lineares com não-linearidades suaves

A regra delta é local ao padrão e ao peso

Derivada da função logística e tanh:

nnetfnxnnwnw pipp'1

2

tanh'

logistic'

15.0

1

ii

iii

xnetf

xxnetf

Exemplo 06

Page 10: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 10

Implicações da Não-Linearidade

O relacionamento pesos-desempenho torna-se não-linear (superfície não-convexa)

Não há garantia de um único mínimo

Surgimento de “pontos de sela” (planos)

O “rattling” torna-se vantajoso

A busca do gradiente se torna menos robusta

O novo mínimo global é menor que o mínimo da rede linear: melhor ajuste

Exemplo 07

Page 11: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 11

Perceptron – Rosenblatt, 1950

Page 12: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 12

Perceptron

Criado em 1950 para reconhecimento ótico de caracteres

Mais geral, há M PEs de McCulloch-Pitts, cada um criando a própria função linear discriminante no espaço de dimensão D

Propriedade importante: capacidade de generalização

jijijii bxwfnetfy

Exemplo 08

Page 13: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 13

Superfície de Decisão do Perceptron

O perceptron com M saídas pode dividir o espaço de

padrões em M regiões distintas

Os hiperplanos que contribuem para a definição da

superfície de decisão devem ser contíguos

As regiões de decisão do perceptron sempre são

regiões convexas, pois durante o treinamento exige-

se que uma e somente uma das saídas seja positiva

O perceptron é uma implementação física da

máquina linear de reconhecimento de padrões

Exemplo 09

Page 14: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 14

Perceptron de Margem Larga

Aprendizagem perceptron muito eficiente mas não efetivaA margem do hiperplano ao conjunto de amostras S é definida como

O hiperplano ótimo maximiza a margem entre duas classes, colocando o discriminante entre os limites mais próximos (chamados vetores de suporte)

wxbwxSx edeinternoprodutoorepresentaonde,0,min

Page 15: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 15

Hiperplano com maior margem

Page 16: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 16

Algoritmo AdatronEncontra os parâmetros da função que possui a maior margem

É seqüencial, ótimo e tem taxa de convergência exponencialmente rápida

Page 17: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 17

Algoritmo Adatron

Definir

Escolher multiplicador inicial comum, p.ex. i = 0,1 taxa de aprendizagem pequeno limiar, p.ex. t = 0,01

Enquanto M > t, escolher um padrão xi e calcular a atualização i = [1-g(xi)], e fazer

ii

N

jjijjii xgMebxxddxg min,

1

01,1

01,1

nnsenbnbnn

nnsendnbnbnnn

iiii

iiiiiii

Page 18: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 18

Algoritmo Adatron

É condizente com a implementação local

Localização da fronteira determinada por poucos exemplos próximos à fronteira, chamados vetores suporte (pois a maioria dos tende a zero)

Algoritmo insensível ao formato geral dos clusters de dados, concentra-se na vizinhança dos limites para ajustar a posição dos hiperplanos

Page 19: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 19

Diferenças na distribuição entre o Adatron e a Regra Delta

Exemplo 10

Page 20: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 20

Limitações do Perceptron

Resolve somente problemas lineares

Aprendizagem on-line sofre com dados

ruidosos

Aprendizagem on-line tem maior

possibilidade de evitar mínimos locais

Regiões de decisão convexas, formadas pela

interseção de hiperplanosExemplo 11

Page 21: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 21

MLP com uma camada escondida

Camada escondida: não ligada exteriormente

Os PEs são geralmente sigmóides

Conceitualmente são cascata de perceptrons

Page 22: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 22

Funções Discriminantes da MLP

Mapeamento entrada-saída de uma MLP

O MLP separa o espaço em várias áreas com diferentes saídas. Isto é chamado tesselação

A alteração em um dos pesos altera toda a tesselação, ou seja, MLP não é gulosa (“greedy”)

O forte acoplamento entre os pesos é quem dá poder ao MLP

Diferentes combinações de pesos levam à mesma tesselação

ffy

Exemplo 12

Page 23: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 23

Características do MLPCom uma camada extra no perceptron, altera-se qualitativamente o formato das funções discriminantesO número máximo de regiões distintas no espaço de entrada é controlado pelo número de PEs escondidosOs PEs de saída criam regiões de decisão que não são mais convexasExiste mais de uma combinação de pesos com uma combinação particular de regiões de decisão Exemplo 13

Page 24: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 24

Capacidade de Mapeamento do MLP com 1 camada escondidaCapaz de construir uma saliência no espaço de entradaMLP com uma camada escondida e PEs sigmoidais (com um número adequado de PEs na camada escondida) é um mapeador universal, isto é, pode aproximar arbitrariamente bem qualquer região de decisão contínuaA função de ativação não é muito importante para a capacidade de mapeamento Exemplo 14

Page 25: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 25

Treinamento do MLP com uma camada escondida

É uma aprendizagem com correção do erro, ou seja, aprendizagem supervisionada

Para adaptar os pesos: para calcular o erro no i-ésimo PE usa-se um erro

derivado da camada mais próxima da saída este erro é o erro de saída propagado e escalado a sensibilidade é automaticamente calculada pela

regra da cadeiaExemplo 15

Page 26: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 26

Atualização dos pesos

A atualização dos pesos usando o algoritmo backpropagation é dada por:

nynwnnetfnennetfnwnw jk

kikkiijij

''1

Exemplo 16

Page 27: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 27

Efeito do Número de PEs Escondidos

Com muitos PEs escondidos atinge-se a solução rapidamente, mas o poder de generalização é sacrificadoDurante o treinamento, o sistema posiciona as funções discriminantes que classificam corretamente a maioria dos exemplos, para então lentamente classificar áreas com poucos exemplosO erro estabilizará em um alto valor se os graus de liberdade não forem suficientes

Exemplo 17

Exemplo 18

Page 28: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 28

MLPs com duas camadas escondidas

Funções discriminantes para este caso:

Um MLP com duas camadas escondidas é um aproximador universal, ou seja, realiza qualquer mapeamento entrada-saídaCada PE na primeira camada cria uma saliência. A segunda camada combina estas saliências em regiões disjuntas do espaçoQuantos PEs e quantas camadas???????

fffy

Exemplo 19

Page 29: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 29

Treinamento do MLP 2 camadas escondidas com backpropagation

O uso do backpropagation é sistemáticoUso da matriz de confusão para análiseErros de classificação x MSE: podem variar em sentidos opostos. O MSE é sensível à diferença entre a resposta desejada e a atual, enquanto que o número de classificações erradas é uma quantidade digital que depende somente da maior saídaIniciar com a topologia mais simples

Exemplo 20

Page 30: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 30

Treinamento do MLP 2 camadas escondidas com backpropagation

O algoritmo backpropagation pode ser aplicado a qualquer topologia em avanço

Exemplo 21

Page 31: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 31

Algoritmo backpropagation com a rede dual

Exemplo 22

Page 32: MLP Prof. Júlio Cesar Nievola PPGIA - PUCPR. Prof. Júlio Cesar Nievola2 Redes Neurais Artificiais Redes neurais artificiais são máquinas de aprendizagem

PPGIA - PUCPR Prof. Júlio Cesar Nievola 32

MLP como classificador ótimo

Um classificador ótimo deve criar funções de discriminação arbitrárias que separem os clusters de dados de acordo com a probabilidade a posteriori

MLP pode fazer isto desde que: hajam PEs suficientes para fazer o mapeamento hajam dados em quantidade e qualidade a aprendizagem convirja para o mínimo global as saídas estejam entre 0 e 1 com = 1 (softmax)

Exemplo 23

Exemplo 24