SOLUC˘AO NUM~ ERICA DE EQUAC˘ OES~ DIFERENCIAIS …

UNIVERSIDADE FEDERAL DO PARAINSTITUTO DE CIENCIAS EXATAS E NATURAIS

PROGRAMA DE POS-GRADUACAO EM MATEMATICA E ESTATISTICA

Fernando Augusto Bessa Campos

SOLUCAO NUMERICA DE EQUACOES

DIFERENCIAIS PARCIAIS VIA REDES NEURAIS

ARTIFICIAIS DE LEGENDRE E CHEBYSCHEV

Orientacao: Prof. Dr. Valcir Joao da Cunha Farias

Belem2018


SOLUCAO NUMERICA DE EQUACOES

DIFERENCIAIS PARCIAIS VIA REDES NEURAIS

ARTIFICIAIS DE LEGENDRE E CHEBYSCHEV

Dissertacao apresentada ao Curso

de Mestrado em Matematica e Es-

tatıstica da Universidade Federal do

Para, como pre-requisito para a ob-

tencao do tıtulo de Mestre em Es-

tatıstica.

Orientador: Prof. Dr. Valcir Joao da Cunha Farias

Belem

2018

Dados Internacionais de Catalogacao-na-Publicacao (CIP)

UFPA - Biblioteca Central

C198s Campos, Fernando Augusto Bessa, 1989-

Solucao Numerica de Equacoes Diferenciais Parciais via Redes Neurais Artificiais deLegendre e Chebyschev / Fernando Augusto Bessa Campos - 2018.59 f.: il. color

Dissertacao (Mestrado) – Programa de Pos-Graduacao em Matematica e Estatıstica(PPGME), Instituto de Ciencias Exatas Naturais, Universidade Federal do Para, , Belem, 2018.

Orientador:Valcir Joao da Cunha Farias1. Matematica aplicada. 2. Redes Neurais. 3. Solucao numerica de EDPs. Farias, Valcir

Joao da Cunha, orient. II. Tıtulo.

CDD 518.64


SOLUCAO NUMERICA DE EQUACOES DIFERENCIAIS PARCIAIS VIA

REDES NEURAIS ARTIFICIAIS DE LEGENDRE E CHEBYSCHEV

Esta Dissertacao foi julgada e aprovada para a obtencao do grau de Mestre em Es-tatıstica, no Programa de Pos-Graduacao em Matematica e Estatıstica da UniversidadeFederal do Para.

Belem, 09 de Abril de 2018

Banca Examinadora

Prof. Dr Valcir Joao da Cunha FariasPPGME/UFPAOrientador(a)

Prof. Dr. Marcus Pinto da Costa da RochaPPGME/UFPAExaminador

Prof. Dr. Joao dos Santos Protazio

FACULDADE DE ESTATISTICA/UFPAExaminador Externo

Aos meus pais e padrinhos.

Agradecimentos

A Deus por ter me dado saude para nunca desistir.

Ao meu orientador prof. Dr. Valcir Farias pro todo aprendizado e paciencia

Aos meus pais pelo apoio incondicional

A minha namorada Raiza por me compreender e apoiar durante essa jornada

Aos colegas e amigos do PPGME, em especial os membros do LAM

Finalmente, gostaria de agradecer a UFPA pelo ensino gratuito de qualidade, ao PPGMEe a CAPES, sem os quais essa dissertacao dificilmente poderia ter sido realizada e a todosmais que eu nao tenha citado nesta lista de agradecimentos, mas que de uma forma ou deoutra contribuıram nao apenas para a minha dissertacao, mas tambem para eu ser quemeu sou.

”Existir e sobreviver a escolhas injustas.”

The OΛ

”A experiencia e o nome que damos aos nossos erros.”

Oscar Wilde

Resumo

Neste trabalho e mostrado um metodo de solucao de equacoes diferenciais parciais uti-lizando redes neurais artificiais e polinomios ortogonais de Legendre e Chebyshev, sendoos parametros (pesos e bias) ajustados a fim de minimizar uma funcao erro apropriada.A implementacao da rede foi realizada no software MATLAB. A arquitetura da rede temcomo elementos: dados de entrada, uma expansao dos dados de entrada via polinomiosortogonais de Legendre e Chebyshev, um neuronio e uma saıda. A solucao aproximadae descrita como a soma de dois termos, sendo o primeiro termo construıdo de forma asatisfazer as condicoes iniciais e de fronteira e o segundo termo contendo os parametrosajustaveis da rede. Para o treinamento da rede foi utilizado o metodo da descida maisıngreme que requer o calculo do gradiente.

Palavra chave: Equacoes diferenciais parciais, Redes neurais, Polinomios ortogonais deLegendre e Chesbychev e metodo da descida mais ıngreme.

Abstract

This research work describes a method of solution for partial differential equation usingartificial neural network and Legendre and Chebyshev orthogonal polynomials, whereasthe parameters (weight and bias) adjustable to minimize a suitable error function. Thenetwork implementation was performed in the MATLAB software. The network archi-tecture has the following elements: input data, an expansion of the input data throughLegendre and Chebyshev orthogonal polynomials, the node and output. The approachedsolution is described with the sum of two terms, where the first term is built to satisfythe initial and the boundary conditions, the second term has the adjustable parameters ofthe network. It was used the steepest descent method to train the network which requiresthe gradient calculation.

Keywords: Partial differential equation, Neural network, Legendre and Chebyshev ortho-gonal polynomials and steepest descent method.

Sumario

Agradecimentos vi

Resumo viii

Abstract ix

Lista de Figuras xii

1 Introducao 11.1 Aspectos gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Justificativa e Importancia da Dissertacao . . . . . . . . . . . . . . . . . . . 31.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3.2 Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Sumario da Dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Preliminares 52.1 Polinomios Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Principais equacoes dos Polinomios de Legendre e Chebyschev . . . . . 82.1.1.1Polinomios de Legendre . . . . . . . . . . . . . . . . . . . . . . . . 82.1.1.2Polinomios de Chebyschev . . . . . . . . . . . . . . . . . . . . . . 9

3 Redes Neurais 113.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Os Neuronios Biologicos e Artificiais . . . . . . . . . . . . . . . . . . . . . . 11

3.2.1 Neuronio Biologico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2.2 Neuronio Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.3 Disposicao das Redes Neurais e os Metodos de Treinamento . . . . . . . . . 133.3.1 Feedforward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3.2 Recorrentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3.3 Processos de Treinamento e Aprendizagem . . . . . . . . . . . . . . . 15

3.4 Modelos de Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . 153.4.1 Rede Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4.2 Rede Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4.3 Redes Perceptron Multicamadas . . . . . . . . . . . . . . . . . . . . . 18

3.4.3.1Processo de treinamento do perceptron multicamadas . . . . . . . . 19

xi

3.4.3.2Algoritmo backpropagation . . . . . . . . . . . . . . . . . . . . . . 19

4 Solucao Numerica de Equacoes Diferenciais utilizando Redes Neurais 264.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2 Modelo de Rede Neural Multicamadas para Apresentacao de Solucoes Apro-

ximadas de Equacoes Diferenciais . . . . . . . . . . . . . . . . . . . . . . . . 264.2.0.1Calculo do Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3 Modelo da Rede Neral Legendre (RNLe) e Rede Neural Chebyschev (RNT) 324.3.1 Estrutura do Modelo da Rede Legendre e Chebyschev . . . . . . . . . 324.3.2 Algoritmo de aprendizagem da Rede Neural de Legendre (RNP) e

Chebyschev (RNT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.3 Algoritmos propostos das Redes Neurais Legendre e Chebyschev im-

plementados para EDP . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.3.1Calculo do Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . 35

5 Resultados 395.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.1.1 Problema 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.1.2 Problema 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6 Conclusoes e Consideracoes Gerais 47

Bibliografia 49

Lista de Figuras

3.1 Estrutura de um neuronio biologico. Fonte: Google imagens . . . . . . . . . 12

3.2 Estrutura de um neuronio artificial. . . . . . . . . . . . . . . . . . . . . . . 13

3.3 Estrutura de uma rede feedforward. . . . . . . . . . . . . . . . . . . . . . . 14

3.4 Estrutura de uma rede feedforward. . . . . . . . . . . . . . . . . . . . . . 15

3.5 Ilustracao de uma rede Perceptron. . . . . . . . . . . . . . . . . . . . . . . 16

3.6 Ilustracao da rede Adaline. . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.7 Ilustracao da rede Perceptron multicamadas. . . . . . . . . . . . . . . . . . 18

3.8 Ilustracao da notacao para a derivacao do algoritmo backprobagation. . . . 20

3.9 Configuracao de neuronio utilizado na derivacao do algoritmo backpropa-gation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Perceptron multicamadas com uma unidade de saıda . . . . . . . . . . . . 28

4.2 Ilustracao da rede neural Legendre (RNLe) . . . . . . . . . . . . . . . . . . 33

4.3 Ilustracao da rede neural Legendre (RNLe) para EDP . . . . . . . . . . . . 35

5.1 Problema 1; Solucao Analıtica . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2 Problema 1; Solucao da EDP Utilizando Polinomio Legendre . . . . . . . . 40

5.3 Problema 1; Solucao da EDP Utilizando Polinomio Chebyschev . . . . . . 40

5.4 Problema 1;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Legendre . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.5 Problema 1;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Chebyschev . . . . . . . . . . . . . . . . . . . . . . . 41

5.6 Problema 1;Solucao aproximada via rede neural Legendre por uma malha101x101 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.7 Problema 1;Desvio obtido a partir da solucao exata e da solucao aproxi-mada via rede neural Legendre por uma malha 101x101 . . . . . . . . . . . 42

5.8 Problema 2; Solucao Analıtica . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.9 Problema 2; Solucao da EDP Utilizando Polinomio Chebyschev . . . . . . 43

5.10 Problema 2; Solucao da EDP Utilizando Polinomio Legendre . . . . . . . . 44

5.11 Problema 2;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Chebyschev . . . . . . . . . . . . . . . . . . . . . . . 44

5.12 Problema 2;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Legendre . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.13 Problema 2; Solucao da EDP em uma malha 101x101 utilizando PolinomioLegendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

xiii

5.14 Problema 2; Desvio obitido entre a solucao exata e a solucao via rede neuralLegendre em uma malha 101x101 . . . . . . . . . . . . . . . . . . . . . . . 46

Capıtulo 1

Introducao

1.1 Aspectos gerais

Ao longo dos anos, varios metodos foram desenvolvidos para implementacao de solucoes

de equacoes diferenciais parciais, tais como elementos finitos, diferencas finitas entre ou-

tros. Com o surgimento da neurocomputacao outros metodos foram surgindo utilizando

redes neurais artificias e sendo aprimorados para obtencao de solucoes de equacoes diferen-

cias. Uma vez que se sabe que um perceptron multicamadas com uma camada escondida

pode aproximar qualquer funcao de uma precisao arbitraria, isto e razoavel para consi-

derar este tipo de arquitetura de rede como um modelo candidato para tratar equacoes

diferenciais.

Um dos artigos percussores relacionado ao uso das redes neurais para solucao de

equacoes diferenciais foi Lagaris et al[5], o qual apresentaram um metodo diferente para re-

solver as equacoes diferenciais ordinarias (EDO’s) e equacoes diferenciais parciais (EDP’s).

Este metodo emprega a rede neural feedforward como o elemento de aproximacao basico,

em que os parametros da rede neural artificial (pesos e bias) sao ajustados para minimi-

zar uma apropriada funcao erro. Para treinar a rede empregou-se tecnicas de optimizacao

denomiado Quase-Newton. Em uma aproximacao proposta da funcao modelo e expressa

como a soma de dois termos: o primeiro termo satisfaz as condicoes inicias ou de con-

torno e nao contem os parametros ajustaveis. O segundo termo envolve uma rede neural

feedforward para ser treinada de modo a satisfazer a equacao diferencial.

Lucie P Aarts & Van Der Veer[1] tambem apresentaram um metodo para solucionar

equacoes diferenciais parciais (EDP’s) e suas condicoes iniciais ou de contorno usando

as redes neurais. Neste artigo considera-se o fato de multiplas entradas, uma saıda, uma

camada escondida da rede feedforward com uma camada de saıda linear ser capaz de

aproximar uma determinada funcao e suas derivadas. O conhecimento sobre EDP e suas

condicoes de contorno e incorporado no treinamento da rede neural. Desta maneira, algu-

1.1 Aspectos gerais 2

mas redes sao estruturadas de forma especifica. Foram obtidos bons resultados em relacao

a solucao analıtica com a aplicacao do metodo para um problema com duas dimensoes.

Outros autores que trabalharam com redes neurais para solucionar equacoes dife-

renciais parciais foram Jianyu et al[4]. Neste trabalho, a funcao de ativacao dos neuronios

escondidos sao funcoes de bases radiais (RBF) em que os parametros sao ajustados pelo

metodo de descida mais ingrime, tambem essa estrategia de aprendizagem e capaz de

poupar tempo computacional e espaco da memoria por causa do crescimento seletivo dos

neuronios os quais as funcoes de ativacao consiste de diferentes RBFs.

Shirvany et al[10] tambem apresentaram um metodo para solucionar equacoes dife-

renciais ordinarias e parciais usando rede neural Multicamadas e Funcao de Base Radial

(RBF). Das equacoes diferencias e suas condicoes de fronteira, e preparada a funcao de

energia da rede a qual e usada em um metodo de treinamento nao supervisionado para

atualizar os parametros da rede. O metodo apresentou bons resultados quando compa-

rado com a solucao analıtica, rapida convergencia e pouco uso de memoria, isto quando

comparado com dois metodos numericos classicos.

No mesmo ano Beidokhti & Malek[3] mostraram um sistema geral de equacoes dife-

renciais parciais dependentes do tempo contendo varias condicoes iniciais e de fronteira.

Com intuito de determinar uma solucao aproximada, os autores propuseram um metodo

hibrido baseado em redes neurais artificiais, tecnicas de minimizacao e metodos de co-

locacao. Calculou-se valores para os correspondentes parametros ajustaveis. Obtiveram

uma precisao da solucao aproximada que funciona bem para pontos interiores e exteriores

do domınio original.

Em 2014 Mall & Chakraverty[6] aplicaram um modelo baseado na Rede Neural de

Chebyshev (RNT) para solucionar equacoes de Lane-Emden homogeneas e nao-homogeneas.

Foi proposto uma unica camada de rede neural com aumento da dimensao do padrao de

entrada usando os polinomios de Chebyshev. Usou-se a rede neural feedforward e retro-

propagacao do erro (backpropagation). Processo retropropagacao e sabiamente usado no

algoritmo de aprendizagem supervisionado.

Um novo metodo de interacao restrita (CINT) foi proposto por Rudd e Ferrari[9]

para solucionar problemas de valores de contorno de equacoes diferencias parciais (EDPs).

Este metodo combina o metodo classico de Galerkin com treinamento de retropropagacao

restrita para obter uma representacao da rede neural artificial da solucao de EDP que

satisfaz as condicoes de contorno em cada passo da interacao. A vantagem deste metodo

Campos, F. A. B. PPGME/UFPA

1.2 Justificativa e Importancia da Dissertacao 3

e que ele ja esta preparado para solucionar EDPs em domınios irregulares, e de domınios

com geometria complexa. Os resultados mostraram que, quando comparado aos metodos

de elementos finitos, o metodo CINT alcanca melhorias significativas tanto em termos de

tempo computacional quanto em precisao.

Batista [2] desenvolve em seu trabalho o algoritmo proposto por Lagaris [5] para

solucoes de equacoes diferenciais ordinarias e parciais, utilizando para trinamento da rede

a rede o algoritmo da descida mais ingrima e Levenber-Marquardt. A solucao numerica

de cada problema e comparada a solucao analitica, sendo calculado o desvio para efeito

de comparacao de cada algoritmo de treinamento.

Em 2016 Mall & Chakraverty[7] propos tambem um metodo baseado na Rede Neural

de Legendre para solucionar problemas de valor inicial ou de contorno. As consideracoes

sao muito parecidas com o modelo de [6]. Entao considera-se tambem uma unica camada

de rede neural com aumento da dimensao do padrao de entrada usando os polinomios

de Legendre. E usado tambem um modelo feedforward baseado no princıpio do algoritmo

do erro de retropropagacao. Os pesos iniciais do modelo de rede em unica camada sao

considerados como aleatorios. As vantagens deste metodo sao: o numero de parametros e

menor que o do MLP, simples implementacao e computacao facil, as camadas escondidas

sao removidas e o algoritmo de retropropagacao e sem supervisao.

1.2 Justificativa e Importancia da Dissertacao

Os estudos conduzidos por Mall & Chakraverty[6] e [7] mostram a utilizacao de po-

linomios ortogonais em redes neurais artificiais, onde esses polinomios executam uma

expansao dos dados de entrada, o que substitui a camada oculta apresentada em Laga-

ris et al[5], apresentando bons resultados em solucoes de equacoes diferenciais ordinarias.

Desta forma, torna-se interessante investigar se sera possivel aplicar essa procedimento

em EDP.

1.3 Objetivos

1.3.1 Objetivo Geral

O objetivo principal desta dissertacao e o de apresentar uma metodologia baseada


1.4 Sumario da Dissertacao 4

nas redes neurais de Legendre e Chebyschev em Mall & Chakraverty[6] e [7] para solucao

de equacoes diferenciais parciais.

1.3.2 Objetivos Especıficos

i) Propor um modelo de rede neural para solucao de equacoes diferenciais parciais

utilizando polinomios ortogonais;

ii) Implementar um processo de expansao dos dados de entrada a partis dos polinomios

ortogonais para substituir camadas escondidas na rede neural e aplicar o metodo de descida

mais ıngreme para treinar a rede;

iii) Realizar estudos de simulacao para analisar a eficacia do modelo proposto e da

metodologia utilizada.

1.4 Sumario da Dissertacao

Este trabalho encontra-se dividido em 5 capıtulos, a saber:

• No Capıtulo 1 e feita uma introducao aspectos historicos sobre redes neurais aplicada

a resolucao de equacoes diferenciais, sao abordados os aspectos gerais, justificativa e

importancia do trabalho, os objetivos geral e especıficos, e o sumario da dissertacao.

• No Capıtulo 2 e apresentado algumas definicoes relativas a polinomios ortogonais.

• No Capıtulo 3 e abordado conceitos referente a redes neurais.

• No Capıtulo 4 sao apresentadas as metodologias aplicadas no trabalho.

• No Capıtulo 5 o modelo proposto no Capıtulo 3 e avaliado, atraves de resultados

obtidos com sua implementacao .

• No Capıtulo 6 serao apresentadas as consideracoes finais e recomendacoes para tra-

balhos futuros.


Capıtulo 2

Preliminares

A seguir sera apresentado definicoes de polinomios ortogonais de Legendre e Chebys-

chev segundo Davis & Rabinowitz[13]

2.1 Polinomios Ortogonais

Os conjuntos de polinomios ortogonais tem um papel consideravel na teoria da inte-

gracao numerica. A seguir, sera apresentado caracterısticas e formulas pertinentes a estes

polinomios.

Definicao de Produto Interno

Dado um espaco linear real de funcoes F, um produto interno (f, g) definido em F

e uma funcao de f, g ∈ F, sastifazendo as seguintes condicoes:

(f + g, h) = (f, h) + (g, h);

(αf, g) = α(f, g);

(f, g) = (g, f);

(f, f) > 0 se f 6≡ 0.

(2.1)

Se F e um espaco linear complexo de funcoes, entao tem-se a seguinte propriedade:

(f, g) = (g, f). (2.2)

Definicao 1. Seja F = C[a, b]. Considera-se w(x) ≥ 0, a integral de Riemann sobre

[a, b] e dada como∫ baw(x)dx ≥ 0. Defini-se entao o seguite produto interno para F :

(f, g) =

∫ b

a

w(x)f(x)g(x)dx. (2.3)

Definicao 2. Seja F = Pn. Considera-se que x1, x2, ..., xn sejam pontos distintos e

w0, w1, ..., wn ≥ 0. Defini-se entao o seguite produto interno para F :

2.1 Polinomios Ortogonais 6

(f, g) =n∑i=1

wif(xi)g(xi). (2.4)

Se f0, f1, .. e um conjunto finito ou infinito de elementos de F, de tal modo que

(fi, fj) = 0⇒ i 6= j, (2.5)

entao o conjunto e chamado ortogonal. Caso contrario:

(fi.fi) = 1, i = 1, 2, ..., (2.6)

o conjunto e chamado ortonormal.

O conjunto de polinomios {fi} onde o grau do polinomio e definido fi = i e que

satisfaz (2.5) e chamado conjunto de polinomios ortogonais com relacao ao produto interno

(f, g).

Qualquer sequencia linearmente independente de funcoes de F pode ser ortogona-

lizada com relacao a um dado produto interno em F. Portanto, dado uma funcao peso

w(x) > 0 em um intervalo [a, b], pode-se ortonormalizar as potencias 1, x, x2, ... com

relacao ao produto interno em (2.3) e chegar em um unico conjunto de polinomios p∗n(x),

com o grau do polinomio sendo (p∗n) = n, conduzindo coeficiente positivo, e:

∫ b

a

w(x)p∗n(x)p∗m(x)dx = δmn =

{0,m 6= n1,m = n

(2.7)

Teorema 1: seja w ≥ 0 uma funcao peso definida em [a, b] com correspondentes

polinomios ortonormais P ∗n(x). seja os zeros de P ∗n definidos em:

a < x1 < x2 < ... < xn < b. (2.8)

Entao podemos encontrar constantes positivas w1, w2, ..., wn tais que:∫ b

a

w(x)f(x)dx =n+1∑i=1

wif(xi), (2.9)

sempre que P (x) e um polinomio de classe P2n−1. Teorema 1 retirado de Davis &

Rabinowitz[13].

Polinomios ortogonais com relacao ao produto interno (2.3) satisfaz o segundo tipo

de ortonormalidade a qual pode ser chamada de ”discreta”. Considere que p0(x), p1(x), ...,



pn(x), pn+1(x) seja um polinomio ortogonal correspondente a funcao peso w(x) no intervalo

[a, b]. Suponha-se que x1, x2, ..., xn+1 sao os n + 1 zeros de pn+1(x) e que w1, w2, ..., wn+1

sao os correspondentes pesos Gaussianos(Definicao em Davis & Rabinowitz[13]). Entao

pelo Teorema1, segundo Davis & Rabinowitz[13] tem-se:

∫ b

a

w(x)f(x)dx =n+1∑i=1

wif(xi), (2.10)

para todo f ∈ P2n+1. Agora para j, k ≤ n, pj(x)pk(x) ∈ P2n+1 de modo que:

n+1∑i=1

wipj(xi)pk(xi) =

∫ b

a

w(x)pj(x)pk(x)dx = δjk. (2.11)

Portanto, p0, p1, ..., pn sao ortonormais nos zeros de pn+1 com relacao aos pesos gaus-

sianos, isto e, com relacao ao produto interno:

(f, g) =n+1∑i=1

wif(xi)g(xi). (2.12)

Pode-se que concluir disto que se um comeca com monomios 1, x, x2, ..., xn e orto-

normalizar eles com relacao ao produto interno discreto (2.10), resultara nos polinomios

ortonormais com relacao ao produto interno continuo (2.3).

Teorema 2: Se p0(x)p1(x)... sao polinomios com coeficiente de lideranca 1, ortogonal

com relacao ao produto interno (f, g) entao tem-se a recorrencia:

pn+1(x) = (x− an,n)pn(x)− an,n−1pn−1(x)− ...− an,0p0(x),

n = 0, 1, 2, ...,(2.13)

sendo p0(x) ≡ 1 e

an,s = (xpn, ps)/(ps, ps)

s = 0, 1, ..., n.

Teorema retirado de Davis & Rabinowitz[13].

Teorema 3: Se o produto interno satisfaz a condicao adicional que (xf, g) = (f, xg),

entao a recorrencia (2.13) reduz para uma recorrencia com tres termos:

pn+1(x) = (x− an)pn(x)− bnpn−1(x),

n = 0, 1, ...,(2.14)

sendo p−1 = 0, e:



an =(xpn, pn)

pn, pn,

bn =(xpn, pn−1)

pn−1, pn−1=

(pn, pn)

(pn−1, pn−1),

com n = 1, 2, .... Teorema 3 retirado de Davis & Rabinowitz[13].

Nota-se que o produto interno∫ baw(x)f(x)g(x)dx satisfaz a condicao acima. A

formula da recorrencia com tres termos para pn(x) conduz para uma recorrencia com

”sentido oposto”para a computacao eficiente e relativamente estavel de uma expansao da

seguinte forma:

f(x) =N∑r=0

crpr(x).

Assume-se uma recorrencia para pn(x) na seguinte forma:

p0(x) = γ0

p1(x) = (γ1x− α1)p0(x)

pr(x) = (γrx− αr)pr−1(x)− βrpr−2(x)

r = 2, 3, ....

(2.15)

Considerando a seguinte definicao de Br,

Br =

{0, r > Ncr+(γr+1x−αr+1)Br+1−βr+2Br+2 , 0 ≤ r ≤ N,

(2.16)

entao

f(x) = γ0B0 (2.17)

2.1.1 Principais equacoes dos Polinomios de Legendre e Chebys-chev

2.1.1.1 Polinomios de Legendre

Para valor arbitrario real ou complexo da variavel x. Entao os primeiros polinomios de

Legendre sao:

P0(x) = 1; (2.18)



P1(x) = x (2.19)

e

P2(x) =1

2(3x2 − 1). (2.20)

Defini-se polinomios de Legendre de ordens superiores pela seguinte formula recur-

siva:

Pn+1(x) =(2n+ 1)xPn(x)

(n+ 1)− nPn−1(x)

n+ 1.

A expressao geral para n polinomios de Legendre e obtido usando a expansao binomial

familiar:

(x2 − 1)n =n∑k=0

(−1)kn!

k!(n− k)!x2n−2k, (2.21)

que implica em:

Pn(x) =

[n/2]∑k=0

(−1)k(2n− 2k)!

2nk!(n− k)!(n− 2k)!xn−2k. (2.22)

Os polinomios de Legendre sao ortogonais com peso 1 no intervalo [-1, 1]. Os po-

linomios ortogonais tem um importante papel na aplicacao, particularmente, fısica ma-

tematica.

Defini-se tambem a forma da equacao diferencial como sendo:

(1− x2)y′′ − 2xy′+ n(n+ 1)y = 0,

y = Pn(x).(2.23)

2.1.1.2 Polinomios de Chebyschev

Para valor arbitrario real ou complexo da variavel x. Entao os primeiros polinomios de

Chebyschev sao:

T0(x) = 1 (2.24)

e

T1(x) = x. (2.25)



Defini-se polinomios de Chebyschev de ordens superiores pela seguinte formula re-

cursiva:

Tn+1(x) = 2xTn(x)− Tn−1(x). (2.26)

Defini-se a expressao explicita do polinomio de Chebyschev como sendo:

Tn(x) =n

2

n/2∑m=0

(−1)m(n−m− 1)!

m!(n− 2m)!(2x)n−2m = cos(arcosc(x))

x2m = 21−2mm∑j=0

(2my = g(u)

)T2j(x)− 2−2m(2mm

)

x2m+1 = 2−2mm∑j=0

(2m+ 1m− j )T2j+1(x). (2.27)

Os polinomios de Chebyschev sao ortogonais com peso (1 − x2)−1/2 no intervalo [-

1, 1]. Os polinomios ortogonais tem um importante papel na aplicacao, particularmente,

fısica matematica.

Defini-se tambem a forma da equacao diferencial como sendo:

(1− x2)y′′ − xy′ + n2y = 0,

y = Tn(x).(2.28)


Capıtulo 3

Redes Neurais

3.1 Introducao

Redes Neurais Artificiais (RNAs) sao tecnicas computacionais que simulam a forma,

o comportamento e as funcoes de um cerebro humano (Neuronios). Assim sendo, pesquisa-

dores desenvolveram alternativas para modelagem das caracterısticas dos neuronios, bem

como sua estrutura e desenvolvimento fucional para operacao do sistema biologico.

Haykin[12] defini uma Rede Neural como um processador massivamente paralelo que

tem a tendencia de armazenar conhecimento experimental e modela o cerebro sob dois

aspectos:

• O conhecimento e adquirido pela rede a partir de seu ambiente atraves de um pro-

cesso de aprendizagem.

• Forcas de conexao entre neuronios, conhecidas como pesos sinapticos, sao utilizadas

para armazenar o conhecimento adquirido.

De acordo com Silva[11] e possivel a implementacao de redes neurais em diver-

sos problemas encontrados nas engenharias e ciencias. Sendo esses problemas encaixados

nas seguintes potenciais areas: Aproximador universal de funcoes; controle de processos;

reconhecimento/classificacao de padroes; agrupamento de dados; sistemas de previsao;

otimizacao de sistemas e memorias associativas e,mais recente, em solucao de ED.

3.2 Os Neuronios Biologicos e Artificiais

3.2.1 Neuronio Biologico

Silva[11] define o neuronio biologico como sendo a celula elementar do sistema ner-

voso central, com o papel de conduzir impulsos (estımulos eletricos sucedidos de reacoes

fısico-quımicas) sob determinadas condicoes de operacoes. Seus principais componentes

3.2 Os Neuronios Biologicos e Artificiais 12

sao: os dentritos (recebe os estımulos vindos de diversos outros neuronios), corpo celu-

lar do neuronio (coleta e combina informacoes vindas de outros neuronios) e o axonio

(responsavel por transmitir os estımulos para outra celula), como ilustra a Figura 2.1.

Figura 3.1 Estrutura de um neuronio biologico. Fonte: Google imagens

3.2.2 Neuronio Artificial

O neuronio artificial simula a forma, comportamento e funcoes de um neuronio biologico.

Sendo assim, os elementos sao substituıdos da seguinte forma: dentritos por entradas, as

ligacoes com o corpo celular sao feitas atraves de pesos (simulam sinapses), os estımulos

captados pelos dendritos (entradas), sao processados pela funcao de soma e o axonio e

substituıdo pela funcao de ativacao.

Define-se os sete elementos basicos que constituem o neronio artificial utilizando as

definicoes de Silva [11]:

• Sinais de entrada {x1, x2, x3, ..., xn} : Sao sinais ou medidas provenientes do meio

externo, representando valores assumidos pelas variaveis de uma aplicacao especifica;

• Pesos sinapticos {w1, w2, ..., wn}: Sao valores que ponderam cada uma das variaveis

de entrada;

• Combinador linear {∑}: Possui a funcao de agregar todos os sinais de entrada,

ponderados pelos respectivos pesos sinapticos, com a finalidade de produzir um

valor de potencial de ativacao;

• Limiar de ativacao (bias) {θ}: E uma variavel que especifica o patamar apropriado

para que o resultado determinado pelo combinador linear possa gerar um valor de

disparo em direcao a saıda do neuronio;


3.3 Disposicao das Redes Neurais e os Metodos de Treinamento 13

• Potencial de ativacao: E o resultado produzido pela diferenca entre o valor gerado

pelo combinador linear e o limiar de ativacao;

• Funcao de ativacao {g}: Seu objetivo e limitar a saıda do neuronio dentro de um

intervalo de valores razoaveis, assumidos pela sua propria imagem funcional;

• Sinal de saıda {y}: E o valor final produzido pelo neuronio em relacao a um deter-

minado conjunto de sinais de entrada.

A Figura 2.2 ilustra o neuronio artificial.

Figura 3.2 Estrutura de um neuronio artificial.

Fonte: Adaptado de Silva et al [11]

O resultado gerado pelo neuronio artificial, e proveniente das funcoes abaixo, que foram

propostas por McCullon e Pitts.

{u =

∑ni=1wi.xi − θ

y = g(u)(3.1)

As funcoes de ativacao podem ser definidas como parcialmente diferenciaveis, que

sao: funcao degrau, degrau bipolar ou sinal e rampa simetrica; e possui as funcoes total-

mente diferenciaveis que sao: funcao sigmoidal, tangente hiperbolica, gaussiana e linear.

Sugere-se,contudo,ao leitor para uma leitura mais detalhada, trabalhos como por

exemplo Batista [2].

3.3 Disposicao das Redes Neurais e os Metodos de

Treinamento

A estrutura da rede e dividida por camadas, sendo a primeira de entrada, a segunda

pode ser denominada de escondida, intermediaria, ocultas ou invisıveis e a terceira de


3.3 Disposicao das Redes Neurais e os Metodos de Treinamento 14

saıda. Nao existindo metodo determinıstico para estruturar a rede, sendo assim, feito

de maneira heurıstica Batista [2]. As arquiteturas mais usuais das redes neurais sao:

feedforward e recorrentes.

3.3.1 Feedforward

Esta estrutura se dispoe de uma camada de entrada, associada a uma ou mais camadas

intermediarias (denominadas de camadas escondidas) e camada de saıda, nao havendo in-

teracoes entre neuronios da mesma camada e mantendo sempre o sentido de direcao da

entrada. O emprego dessa estrutura se da em casos como aproximacao de funcoes, iden-

tificacao de sistemas, classificacao de padroes, otimizacao, etc. A Figura (2.3) representa

uma rede feedforward com uma camada escondida com dois neuronios na camada de saıda.

Figura 3.3 Estrutura de uma rede feedforward.

Fonte: Google imagens

3.3.2 Recorrentes

Esta estrutura sao denominadas recorrentes, pois apresenta, pelo menos, um laco re-

correncia, ou seja, um neuronio alimentado por seu sinal de saıda dos outros neuronios.

Esse modelo de estrutura pode ser empregado em previsoes de series temporais, controle

de processos, etc. A Figura 2.4 ilustra uma rede co estrutura recorrente com n sinais de

entradas e m saıdas.


3.4 Modelos de Redes Neurais Artificiais 15

Figura 3.4 Estrutura de uma rede feedforward.


3.3.3 Processos de Treinamento e Aprendizagem

A aprendizagem em redes neurais, se apresenta geralmente como sendo o processo

de ajustes de parametros (pesos) atraves de estimulos (entradas), que adapta e conduz

a uma melhoria desempenho para execucao de uma tarefa especificada. Silva[11] expoe

como processos de treinamento e aprendizagem:

• Treinamento supervisionado: apresenta-se a disposicao, a partir dos dados de en-

trada, as saıdas desejadas;

• Treinamento nao-supervisionado: Nao dispoe das respectivas saıdas desejadas;

• Aprendizagem usando lote de padroes (off-line): Sao efetivados os ajustes nos pesos

e seus limiares apos a apresentacao de todo o conjunto de treinamento;

• Aprendizagem usando padrao-por-padrao(on-line): sao efetivados os ajustes nos pe-

sos e limiares apos a presentacao de cada amostra de treinamento.

3.4 Modelos de Redes Neurais Artificiais

Existe na literatura varios modelos de redes nerais artificiais, citaremos alguns modelos

nesta secao, sedo aprofundada a rede Perceptron de multiplas camadas baseada.



3.4.1 Rede Perceptron

O Percepton introduzido por Rosenblatt [8] era considerada a arquitetura mais simples

de uma RNA, devido sua estrutura apresentar apenas sinais de entrada, representativos

do problema, uma camada neural, contendo somente um neuronio artificial e somente uma

saıda, pertencendo a arquitetura feedforward, ilustrada na Figura 2.5.

Figura 3.5 Ilustracao de uma rede Perceptron.

Fonte: Google imagens

Observa-se que cada entrada xi, sera ponderada pelos pesos sinapticos {wi}, com

a finalidade de quantificar a importancia de cada uma para os objetivos atribuıdos ao

neuronio. Dando sequencia, o valor resultante das entradas, ja ponderadas, adicionado do

limiar de ativacao, e repassado como argumento da funcao de ativacao, cujo o resultado

de retorno sera a saıda produzida pelo Perceptron.

3.4.2 Rede Adaline

A rede Adaline foi desenvolvida em 1960 por Widrow & Hoff[14], sendo descrita de

forma semelhante a rede Perceptron, porem com uma nova regra de aprendizado supervi-

sionado, denominada regra delta. Assim como no Perceptron, a rede Adaline possui uma

camada de entrada com N unidades e uma camada de saıda com apenas um neuronio.

A rede Adaline possui arquitetura feedforward, pois o fluxo de informacao e realizado

partindo-se das entradas em direcao a saıda da rede.

A rede Adaline trouxe varias contribuicoes para o progresso da area de redes neurais



artificiais, com destaque para a regra delta, pois se considera ela como sendo o percursor

da regra Delta generalizada, utilizada para treinamento das redes Perceptron de camadas

multiplas (Silva, 2010[11]).A Figura 2.6 ilustra a rede adaline.

Figura 3.6 Ilustracao da rede Adaline.

Fonte: Silva et al [11]

Verifica-se que cada entrada xi da rede, sera ponderada pelos respectivos pesos

sinapticos {wi} que serao ajustados durante o processo de treinamento. Em seguida, e

computado o potencial de ativacao {u}, executando o produto entre os sinais de entrada

e os pesos, incluindo o valor do limiar de ativacao {θ}. Finalizando a producao da saıda

e aplicado a funcao de ativacao g(u).

{u =

n∑i=1

wi.xi − θ → y = g(u) (3.2)

Observa-se a presenca de um bloco associador na estrutura da rede adaline cuja a

funcao e auxiliar no processo de treinamento da rede. O sinal de erro obtido pelo bloco e

dado por:

erro = d− u. (3.3)

Resumi-se que, o ajuste dos pesos sinapticos, considerando apenas uma amostra, e feito

em funcao da diferenca (erro) entre o potencial de ativacao {u} produzido pela rede e o

respectivo valor desejado {d}.



3.4.3 Redes Perceptron Multicamadas

As redes Perceptron de multiplas (PMC) camadas se caracterizam pela presenca de pelo

menos uma camada intermediaria de neuronios, onde a mesma e situada entre as camadas

de entrada e saıda da rede. conclui-se que as redes PMC possuem no minimo duas camadas

de neuronios, distribuıdos entre as camadas intermediarias e de saıda. Tais redes neurais

caracterizam-se ainda por serem aplicadas nos mais variados problemas, podemos citar:

sistemas de controle, aproximacao de funcoes e reconhecimento de padroes.

A arquitetura do PMC e feedforward de cadas multiplas, realizando seu treinamento

de forma supervisionada. O mecanismo utilizado para a aprendizagem do PMC e conhecido

como algoritmo de retropropagacao de erro ( backpropagation)(Batista, 2010 [2]).

Verifica-se na Figura 2.7 que o fluxo de informacoes da rede se inicia na camada de

entrada, seguindo pelas camadas intermediarias, finalizando na camada neural de saıda.

Figura 3.7 Ilustracao da rede Perceptron multicamadas.

Fonte: Silva et al [11]

Observa-se que cada uma das entradas da rede sera direcionada para a camada

neural seguinte, ou seja, as saıdas dos neuronios da primeira camada serao as entradas

dos neuronios pertencentes a segunda camada neural escondida e as saıdas dos neuronios

da segunda camada serao as entradas dos neuronios da camada neural de saıda.

O perceptron de multiplas camadas diferentemente do perceptron simples, alem de

possuir camadas intermediarias, tem a possibilidade da camada neural de saıda possuir

diversos neuronios, sendo que cada um representaria uma saıda do problema proposto.



Em resumo, no perceptron simples, apenas um neuronio era integralmente responsavel

pelo mapeamento do processo, agora todo o comportamento entrada/saıda do sistema

sera distribuıdo em todos os neuronios do PMC.

Os aspectos topologicos da rede PMC tais como quantidade de camadas e o numero

de neuronio das mesmas, dependera de diversos fatores, podemos citar a classe de pro-

blemas a ser tratada no PMC, valores iniciais atribuıdos tanto aos parametros como as

matrizes de pesos como elementos que auxiliam na definicao de sua topologia.

3.4.3.1 Processo de treinamento do perceptron multicamadas

O processo de treinamento de redes PMC e aplicado um algoritmo conhecido por

retropropagacao de erro ou backpropation que basicamente consiste de dois passos atraves

das diferentes camadas da rede: um passo para frente, denominado propagacao (forward),

e uma passo para tras, denomidado retropropagacao (backward) (Haykin[12]).

O passo a frente, propagacao (forward), os sinais de entrada {x1, x2, x3, ..., xn} sao

inseridos e sao propagados atraves da rede, camada por camada ate a producao de um

conjunto de saıdas como resposta real da rede. Verifica-se que durante a execucao deste

passo, os pesos sinapticos e limiares da rede permaneceram fixos, portanto, visa-se nesta

fase somente obter as respostas da rede. Em seguida, as repostas produzidas palas saıdas

da rede serao comparadas com as respectivas respostas desejadas que estejam disponıveis.

Deve-se ressaltar que para uma rede PMC de n neuronios na camada de saıda, os respec-

tivos erros entre as respostas desejadas e as produzidas sao calculados, onde esses erros

serao utilizados para o ajuste dos pesos e limiares de cada neuronio da rede.

Em funcao dos valores de erros, aplica-se o proxima fase do metodo backpropagation,

a retropropagacao (backward). Os pesos sinapticos e limiares de todos os neuronios sao

ajustados nesta fase.

Aplicacoes sucessivas das fases de propagacao e retropropagacao fazem com que o

os pesos sinapticos e limiares se ajustem automaticamente em cada interacao, implicando

na diminuicao gradativa da soma dos erros produzidos pelas respostas da rede em relacao

as desejadas.

3.4.3.2 Algoritmo backpropagation

Sera definido diversas variaveis e parametros auxiliares para uma melhor compreensao

do principio de funcionamento do algoritmo backpropagation. A partir da topologia de



PMC, apresenta-se na Figura 2.8 um conjunto de variaveis que conduzem a derivacao do

algoritmo.

Figura 3.8 Ilustracao da notacao para a derivacao do algoritmo backprobagation.


Sera considerado cada um dos neuronios {j} pertencentes a uma das camadas {L}como mostra a Figura 2.8 como um perceptron simples, ilustrado na Figura 2.9, onde g(.)

representa a funcao de ativacao, sendo a mesma diferenciavel em todo seu domınio, a

exemplo da tangente hiperbolica.

Figura 3.9 Configuracao de neuronio utilizado na derivacao do algoritmo backpropagation.




Assume-se a partir das Figuras 2.8 e 2.9 a seguinte terminologia para os seus parametros

constituintes:

• W (L)ji Sao matrizes de pesos cujos elementos denotam o valor do peso sinaptico

conectando o j-esimo neuronio da camada (L) ao i-esimo neuronio da camada (L−1).

Para a topologia ilustrada na Figura (2.8), tem-se:

W(3)ij e o peso sinaptico conectando o j-esimo neuronio da camada de saıda ao

i-esimo neuronio da camada 2;

W(2)ji e o peso sinaptico conectando o j-esimo neuronio da camada escondida 2 ao

i-esimo neuronio da camada 1;

W(1)ji e o peso sinaptico conectando o j-esimo neuronio da camada 1 ao i-esimo

sinal da camada de entrada.

• I(1)ji sao vetores cujos elementos denotam a entrada ponderada em relacao ao j-esimo

neuronio da camada L, os quais sao definidos por:

I1j =n∑i=0

W(1)ji .xi ⇔ I

(1)J = W

(1)j,0 .x0 +W

(1)j,1 .x1 + ...+W

(1)j,n .xn; (3.4)

I2j =

n1∑i=0

W(2)ji .Y

(1)i ⇔ I

(2)J = W

(2)j,0 .Y

(1)0 +W

(2)j,1 .Y

(1)1 + ...+W

(2)j,n1

.Y (1)n1

; (3.5)

I3j =

n2∑i=0

W(3)ji .Y

(1)i ⇔ I

(3)J = W

(3)j,0 .Y

(2)0 +W

(3)j,1 .Y

(2)1 + ...+W

(3)j,n2

.Y (2)n2. (3.6)

• Y (L)j sao vetores cujos elementos denotam a saıda do j-esimo neuronio em relacao a

camada L, os quais sao definidos por:

Y(1)j = g(I

(1)j ); (3.7)

Y(2)j = g(I

(2)j ); (3.8)

Y(3)j = g(I

(3)j ). (3.9)



Considerando a k-esima amostra de treinamento, atribui-se a funcao erro quadratico

medio medir o desempenho local associado aos resultados produzidos pelos neronios de

saıda frente a referida amostra, isto e:

E(k) =1

2

n3∑j=1

(dj(k)− y(3)j (k))2. (3.10)

Sendo y(3)j (k) o valor produzido pelo j-esimo neuronio de saıda da rede considerando

a k-esima amostra de treinamento e dj(k) o seu respectivo valor desejado.

Admitindo um conjunto de treinamento formado por p amostras, define-se o erro

quadratico medio como:

EM =1

p

p∑k=1

E(k). (3.11)

Baseado no gradiente da funcao erro quadratico medio dada em (2.10) o metodo

utilizado para o ajuste dos pesos e limiar de ativacao (bias).

Ajustes dos pesos sinapticos da camada de saıda.

O objetivo do processo de treinamento para a camada neural de saıda e determinar

o gradiente ∇E(3), para ser aplicada a correcao ∆w(3)ij na matriz de pesos w

(3)ji com a

finalidade de minimizar o erro entre a saıda produzida pela rede em relacao a sua respectiva

saıda desejada. Aplicando a regra de diferenciacao em cadeia, expressa-se:

∇E(3) =∂E

∂w(3)ji

=∂E

∂Y(3)j

.∂Y

(3)j

∂I(3)j

.∂I

(3)j

∂w(3)ji

. (3.12)

Das deficoes anteriores, tem-se:

∂I(3)j

∂w(3)ji

= Y(2)i , (3.13)

∂Y(3)j

∂I(3)j

= g′(I(3)j ) (3.14)

e∂E

∂Y(3)j

= −(dj − Y (3)j ), (3.15)

sendo g(.) a derivada de primeira ordem da funcao de ativacao considerada. Substi-

tuindo (2.12), (2.13), (2.14) em (2.11), tem-se:



∂E

∂w(3)ji

= −(dj − Y (3)j ).g′(Ij(3)).Y

(2)i . (3.16)

Portanto, o ajuste da matriz de pesos W(3)ji deve ser efetuado em direcao oposta ao

gradiente a fim de minimizar o erro, ou seja:

∇W (3)ji = −η. ∂E

∂W(3)ji

⇔ ∇W (3)ji = η.δ

(3)j .Y

(2)i , (3.17)

sendo δ(3)j = (dj − Y

(3)j ).g′(Ij(3)) o gradiente local em relacao ao j-esimo neuronio da

camada de saıda e η e a taxa de aprendizagem do algoritmo backpropagation.

• Ajustes dos pesos sinapticos de camadas intermediarias.

Diferentemente dos neuronios pertencentes a camada de saıda do PMC, os neuronios

das camadas intermediarias nao possuem acesso direto aos valores desejados para suas

saıdas. Assim, os ajustes sao realizados atraves de estimativas dos erros de saıda produzi-

dos por aqueles neuronios da camada imediatamente posterior, os quais ja foram ajustados

previamente.

• Ajustes dos pesos sinapticos da segunda camada escondida

O processo de treinamento para a segunda camada neural escondida consiste em

ajustar as matrizes de pesos W(2)ji afim de minimizar o erro entre a saıda produzida pela

rede em relacao a retropropagacao do erro gerado dos ajustes dos neuronios da camada

neural de saıda, logo:

∇E2 =∂E

∂W(2)ji

=∂E

∂Y(2)j

.∂Y

(2)j

∂I(2)j

.∂I

(2)j

∂W(2)ji

. (3.18)

Mediante definicoes anteriores, tem-se:

∂I(2)j

∂W(2)ji

= Y(1)i ; (3.19)

∂Y(2)j

∂I(2)j

= g′(I(2)j ); (3.20)

∂E

∂Y(2)j

=

n3∑k=1

∂E

∂I(3)k

.∂I

(3)k

∂Y(2)j

=

n3∑k=1

∂E

∂I(3)k

.∂(∑n3

k=1W(3)kj .Y

(2)j )

∂Y(2)j

. (3.21)



Observa-se que o valor∂(

∑n3k=1W

(3)kj .Y

(2)j )

∂Y(2)j

e o proprio W(3)kj , entao:

∂E

∂Y(2)j

=

n3∑k=1

∂E

∂I(3)k

.W(3)kj . (3.22)

Em relacao a obtencao de valores para ∂E

∂I(3)k

, tem-se:

∂E

∂I(3)k

=∂E

∂Y(3)j

.∂Y (3)

∂I(3)j

⇒ ∂E

∂I(3)k

= −(dj − Y (3)j ).g′(I

(2)j ) = −δ(3)j , (3.23)

e realizando a substituicao de (2.23) em (2.22), tem-se:

∂E

∂Y(2)j

= −n3∑k=1

δ(3)k .W

(3)kj . (3.24)

Substituindo (2.19),(2.20) e (2.24) em (2.18), o gradiente ∂E

∂W(2)ji

e dado da seguinte

forma:

∂E

∂W(2)ji

= −(

n3∑k=1

)δ(3)k .W

(3)kj .g

′(I(2)j ).Y 1

i . (3.25)

Entao, o ajuste da matriz de pesos W(2)ji deve ser efetuado em direcao oposta ao

gradiente a fim de minimizar o erro, ou seja:

∆W(2)ji = −η. ∂E

∂W(2)ji

⇔ ∆W(2)ji = η.δ

(2)j .Y

(1)i (3.26)

Onde δ(2)j =

∑n3

k=1 δ(3)k .W

(3)kj .g

′(I(2)j ) e o gradiente local em relacao ao j-esimo neuronio

da segunda camada intermediaria.

• Ajustes dos pesos sinapticos da primeira camada escondida

O processo de treinamento da primeira camada escondida e analogo ao da segunda

camada escondida, sendo que o erro a ser minimizado sera entre a saıda produzida pela

rede em funcao da retropropagacao do erro advindo dos ajustes dos neuronios da segunda

camada escondida. Logo:

∇E(1) =∂E

∂W(1)ji

=∂E

∂Y(1)j

.∂Y

(1)j

∂I(1)j

.∂I

(1)j

∂W(1)ji

. (3.27)

Mediante definicoes anteriores, tem-se:



∂I(1)j

∂W(1)ji

= xi; (3.28)

∂Yj(1)

∂I(1)j

= g′(I(1)j ); (3.29)

∂E

∂Y(1)j

=

n2∑k=1

∂E

∂I(2)k

.∂I

(2)k

∂Y(1)j

=

n2∑k=1

∂E

∂I(2)k

.∂(∑n2

k=1W(2)kj .Y

(1)j )

∂Y(1)j

. (3.30)

Analogamente a (2.22), o valor da derivada parcial do argumento ∂(∑n2

k=1 .W(2)kj .Y

(1)j )

e o proprio W(2)kj , logo:

∂E

∂Y(1)j

=

n2∑k=1

∂E

∂I(2)k

.W(2)kj . (3.31)

Em relacao a obtencao de valores para ∂E

∂I(2)k

, tem-se:

∂E

∂I(2)k

=∂E

∂Y(2)j

.∂Y (2)

∂I(2)j

⇒ ∂E

∂I(2)k

= −(

n3∑k=1

δ(3)k .W

(3)kj ).g′(I

(2)j ) = −δ(2)j . (3.32)

Realizando a substituicao de (2.32) em 2.31, tem-se:

∂E

∂Y(2)j

= −n3∑k=1

δ(2)k .W

(2)kj . (3.33)

Substituindo (2.28), (2.29) e (2.33) em (2.27), o gradiente ∂E

∂W(1)ij

e dado da seguinte

forma:

∂E

∂W(1)ij

= −(

n2∑k=1

δ(2)k .W

(2)kj ).g′(I

(1)j ).xi. (3.34)

Portanto, o ajuste da matriz de pesos W(1)ji deve ser efetuado em direcao oposta ao

gradiente visando minimizar o erro, ou seja:

∆W(1)ij = −η. ∂E

∂W(1)ji

⇔ ∆W(1)ji = η.δ

(1)j .xi, (3.35)

onde δ(1)j = (

∑n2

k=1 δ(2)k .W

(2)kj ).g′(I

(1)j ) e definido como o gradiente local e, relacao ao

j-esimo neuronio da primeira camada intermediaria.


Capıtulo 4

Solucao Numerica de EquacoesDiferenciais utilizando Redes Neurais

4.1 Introducao

Neste capitulo serao abordados os metodos de aproximacao via redes neurais artificiais

realizados para a conclusao deste trabalho.

4.2 Modelo de Rede Neural Multicamadas para Apre-

sentacao de Solucoes Aproximadas de Equacoes

Diferenciais

Nesta secao, nos descrevemos as equacoes diferenciais usando RNA multicamadas apre-

sentada por Lagaris[5]. Em particular, as formulacoes para problemas de valor inicial ou

de fronteira.

A aprximacao porposta por Lagaris [5] se da pela equacao geral ilustrada a seguir:

G(−→x , ψ(−→x ),∇ψ(−→x ),∇2ψ(−→x )) = 0,−→x ∈ D. (4.1)

A equacao descrita acima esta sujeita a condicoes inicais (CI) e/ou condicoes de

fronteira, como as condicoes de Dirichlet e/ou Neumann, com −→x = (x1, x2, ..., xn) ∈ Rn e

D representa o domınio discretizado sobre conjuntos finitos de pontos no Rn. ψ(−→x ) e a

solucao a ser calculada.

Assume-se uma discretizacao do domınio D num conjunto de pontos D∗ e de sua

fronteira S em um conjunto de pontos S∗ para se obter uma solucao para a equacao (4.1).

O problema se transforma no seguinte sistema de equacoes:

G(−→xi , ψ(−→xi ),∇ψ(−→xi ),∇2ψ(−→xi )) = 0,−→xi ∈ D∗, (4.2)

sujeito a condicoes de fronteira ou condicoes iniais.

4.2 Modelo de Rede Neural Multicamadas para Apresentacao de SolucoesAproximadas de Equacoes Diferenciais 27

Se ψt(−→x ,−→p ) denota uma solucao aproximada com parametros ajustaveis −→p , o problema

e transformado para:

min−→p∑−→x i∈D

(G(−→xi , ψt(−→xi ,−→p ),∇ψt(−→xi ,−→p ),∇2ψt(−→xi ,−→p )))2. (4.3)

A solucao aproximada ψt(−→x ,−→p ) satisfaz as condicoes iniciais ou de fronteira e pode

ser escrita como a soma de dois termos:

ψt(−→x ) = A(−→x ) + F (−→x ,N(−→x ,−→p )). (4.4)

Os termos da equacao acima sao denidos da seginte forma: A(−→x ) satisfaz as condicoes

iniciais ou de fronteira e nao contem parametros ajustaveis, N(−→x ,−→p ) e a saıda unica

da rede neural com parametros −→p e com o vetor de entrada −→x . O segundo termo

F (−→x ,N(−→x ,−→p )) nao faz nenhuma contribuicao as condicoes iniciais ou de fronteira mas

este e usado para uma rede neural a qual os pesos sao ajustaveis para minimizar a funcao

erro.

O algoritmo descrito por Lagaris et el[5] e a base para o metodo utilizado para a

realizacao deste trabalho. O backpropagation e usado para atualizar os parametros (pesos)

da Rede. Assim sendo, o gradiente de uma funcao erro com relacao aos parametros da rede

(pesos) e determinado. A funcao sigmoide (funcao logıstica) e considerada como funcao

de ativacao. O algoritmo da descida mais ingrime e usado para a aprendizagem e os pesos

sao atualizados usando o negativo do gradiente em cada interacao. A rede possui tambem

uma camada escondida.(Figura 3.1)

Sera utilizada a equacao de Poisson descrita em (3.4) com condicoes de contorno

Dirichilet para ilustrar o metodo.

∂2ψ(x, y)

∂x2+∂2ψ(x, y)

∂y2= f(x, y), (4.5)

com ψ(0, y) = f0(y), ψ(1, y) = f1(y), ψ(x, 0) = g0(x)eψ(x, 1) = g1(x).

4.2.0.1 Calculo do Gradiente

O calculo do gradiente da funcao custo envolve valores da saıda da rede e das derivadas

das saıdas em relacao a quaisquer de suas entradas. Portanto, para realizar o calculo do

gradiente em relacao aos pesos da rede, e necessario primeiro calcular o gradiente da saıda

da rede em relacao as suas entradas.



A Figura 3.1 ilustra o o modelo de PMC executado nesta secao

Figura 4.1 Perceptron multicamadas com uma unidade de saıda


Dado um vetor de entrada −→x = (x1, x2, ..., xn), a saıda da rede e descrita por N =∑ni=1 viσ(Zi) com K neuronios na camada escondida, onde Zi =

∑nj=1wixj + bi denota

o peso da unidade de entrada i para a unidade oculta e o σ(Zi) e a funcao de ativacao

sigmoide. Considerando que:

∂kN

∂xkj=

M∑i=1

viwki σ

(k)i , (4.6)

sendo σi = σ(Zi) e o σ(k) denota a derivada de ordem k da sigmoide.

• Solucao da Equacao diferencial Parcial

A solucao da EDP e descrita por:

ψt(x, y) = A(x, y) + x(1− x)y(1− y)N(x, y,−→p ). (4.7)

O termo A(x, y) satisfaz a condicao de fronteira Dirichilet, sendo descrito da seguinte

forma:

A(x, y) =(1− x)f0(y) + xf1(y) + (1− y){g0(x)− [(1− x)g0(0) + xg0(1)]}

+ yg1(x)− [(1− x)g1(0) + xg1(1)].(4.8)



Em casos de condicao de fronteira mista (Dirichilet e Neumann), possuindo a forma

ψ(0, y) = f0(y), ψ(1, y) = f1(y), ψ(x, 0) = g0(x) e ∂ψ(x,1)∂y

= g1(x). Escreve-se a solucao

aproximada da seguinte forma:

ψt(x, y) = B(x, y) + x(1− x)y[N(x, y,−→p )−N(x, 1,−→p )− ∂N(x, y,−→p )

∂y], (4.9)

sendo B(x, y) o elemento que satisfaz as condicoes de fronteira e e descrito da seguinte

forma:

B(x, y) = (1− x)f0(y) + xf1(y) + g0(x)− [(1− x)g0(0) + xg0(1)]...

+ y{g1(x)− [(1− x)g1(0) + xg1(1)]}(4.10)

Defini-se a funcao funcao custo a ser minimizada como sendo:

E[−→p ] =1

2

∑i

{∂2ψt(xi, yi)

∂x2+∂2ψt(xi, yi)

∂y2− f(xi, yi)

}2

. (4.11)

Realizando o calculo das Derivadas parciais da equacao (4.11) em relacao a x e a y,

tem-se:

∂2ψt(xi, yi)

∂x2= {∂

2A(x, y)

∂x2− 2y(1− y)N(x, y,−→p ) + 2(1− 2x)y(1− y)vkσ

′kwki

+x(1− x)y(1− y)vkσ′′kw

2ki}

(4.12)

e

∂2ψt(xi, yi)

∂x2= {∂

2A(x, y)

∂x2− 2x(1− x)N(x, y,−→p ) + 2x(1− x)(1− 2y)vkσ

′kwki

+x(1− x)y(1− y)vkσ′′kw

2ki}.

(4.13)

Definindo os termos :

γ = 2x(1− 2x)(1− y),

µ = x(1− x)y(1− y)

e

% = 2x(1− x)(1− 2y).



e inserindo-os em (4.12) e (4.13), tem-se:

∂2ψt(xi, yi)

∂x2= {∂

2A(x, y)

∂x2− 2y(1− y)N(x, y,−→p ) + γvkσ

′kwki + µvkσ

′′kw

2ki}

e

∂2ψt(xi, yi)

∂x2= {∂

2A(x, y)

∂x2− 2y(1− y)N(x, y,−→p ) + %vkσ

′kwkiµvkσ

′′kw

2ki}.

O gradiente da funcao custo em relacao aos pesos da ultima camada e dado por:

∂E[−→p ]

∂vk= 2e

{∂ ∂

2ψt(xi,yi)∂x2

∂vk+∂ ∂

2ψt(xi,yi)∂y2

∂vk− ∂f(xi, yi)

∂vk

}, (4.14)

sendo e ={∂2ψt(xi,yi)

∂x2+ ∂2ψt(xi,yi)

∂y2− f(xi, yi)

}.

Realizando as derivadas parciais em relacao aos pesos da ultima camada, obtem-se

os seguintes resultados:

∂ ∂2ψt(xi,yi)∂x2

∂vk= (2y2 − 2y)σk + γσ′kwki + µσ′′kw

2ki, (4.15)

∂ ∂2ψt(xi,yi)∂y2

∂vk= (2x2 − 2x)σk + %σ′kwki + µσ′′kw

2ki (4.16)

e

∂f(xi, yi)

∂vk= 0. (4.17)

Os resultados obtidos em (4.15), (4.16) e (4.17), sao inseridos em (4.14), determi-

nando o gradiente da funcao custo em relcao aos pesos da ultima camada da seguinte

forma:

∂E[−→p ]

∂vk= 2e{(2y2− 2y)σk + γσ′kwki +µσ′′kw

2ki + (2x2− 2x)σk + %σ′kwki +µσ′′kw

2ki}. (4.18)

O calculo do gradiente em relacao aos pesos da camada oculta e dado por:

∂E[−→p ]

∂wki= 2e

{∂ ∂

2ψt(xi,yi)∂x2

∂wki+∂ ∂

2ψt(xi,yi)∂y2

∂wki− ∂f(xi, yi)

∂wki

}. (4.19)

Realizando as derivadas parciais em relacao aos pesos da camada oculta, tem-se:




∂wki= {(2y2 − 2y)vkσ

′kH + 2γ[vkσ

′k + vkwkiσ

′′kH]+

µ[2vkwkiσ′′k + vkw

2kiσ′′′k H]},

(4.20)


∂wki= {(2x2 − 2x)vkσ

′kH + 2%[vkσ

′k + vkwkiσ

′′kH]+

µ[2vkwkiσ′′k + vkw

2kiσ′′′k H]}

(4.21)

e

∂f(xi, yi)

∂wki= 0, (4.22)

com H = (xi, yi)


nando o gradiente da funcao custo em relcao aos pesos da camada oculta da seguinte

forma:

∂E[−→p ]

∂wki= 2e{(2y2 − 2y)vkσ

′kH + 2γ[vkσ

′k + vkwkiσ

′′kH] + µ[2vkwkiσ

′′k + vkw

2kiσ′′′k H]

+(2x2 − 2x)vkσ′kH + 2γ[vkσ

′k + vkwkiσ

′′kH] + µ[2vkwkiσ

′′k + vkw

2kiσ′′′k H]}.

(4.23)

Calculo do gradiente em relacao ao bias e dado por:

∂E[−→p ]

∂bk= 2e

{∂ ∂

2ψt(xi,yi)∂x2

∂bk+∂ ∂

2ψt(xi,yi)∂y2

∂bk− ∂f(xi, yi)

∂bk

}(4.24)

Realizando as derivadas parciais em relacao ao bias, tem-se:


∂bi= (2y2 − 2y)vkσ

′k + γvkwkiσ

′′k + µvkw

2kiσ′′′k , (4.25)


∂bi= (2x2 − 2x)vkσ

′k + %vkwkiσ

′′k + µvkw

2kiσ′′′k (4.26)

e

∂f(xi, yi)

∂bi= 0 (4.27)


nando o gradiente da funcao custo em relcao aos bias da seguinte forma:


4.3 Modelo da Rede Neral Legendre (RNLe) e Rede Neural Chebyschev(RNT) 32

∂E[−→p ]

∂bk=2e{(2y2 − 2y)vkσ

′k + γvkwkiσ

′′k + µvkw

2kiσ′′′k + (2x2 − 2x)vkσ

′k

+ %vkwkiσ′′k + µvkw

2kiσ′′′k }

(4.28)

4.3 Modelo da Rede Neral Legendre (RNLe) e Rede

Neural Chebyschev (RNT)

Os modelos de rede neural Legendre e Chebyschev foram desenvolvido por Mall &

Chakraverty [7] e [6], respectivamente, para solucoes de equacoes diferenciais ordinarias

e semelhante ao modelo de rede neural desenvolvido por Lagaris et al [5] sendo que os

modelos de rede de Mall & Chakraverty [7] e [6] nao possuem camada escondida, e sim uma

expansao dos seus dados iniciais por polinomios ortogonais de Legendre e Chebyschev.

4.3.1 Estrutura do Modelo da Rede Legendre e Chebyschev

A estrutura apresentada a seguir foi mostrada po Mall e Chakraverty [6] & [7] para

solucoes de equacoes diferenciais ordinarias, sendo implementada neste trabalho em equacoes

diferenciais parciais.

Abaixo usaremos apenas nomenclaturas da rede de Legendre para ilustrar o metodo,

sendo todos os passos e arquitetura os mesmo para redes que utilizam polinomios de

Chebyschev.

A Figura 4.2 retrata a estrutura da Rede Neural Legendre (RNLe) com apenas uma

unica camada neural, dados de entrada, uma camada de saıda e um bloco funcional de

expansao baseado em polinomios de Legendre. A camada escondida e eliminada transfor-

mando o padrao de entrada em um espaco de maior dimensao usando os polinomios de

Legendre. Os polinomios de Legendre e Chebyschev sao representados por Pn(u) e Tn(u),

aqui n e a ordem e −1 < u < 1 e o argumento do polinomio.



Figura 4.2 Ilustracao da rede neural Legendre (RNLe)


Definido no capıtulo 2, os primeiros polinomios de Legendre sao:

P0(u) = 1, (4.29)

P1(u) = u (4.30)

e

P2(u) =1

2(3u2 − 1), (4.31)

sendo sua formula recursiva definida da seguinte forma:

Ln+1(u) =1

n+ 1[(2n+ 1)uLn(u)− nLn−1(u)]. (4.32)

Considerando como dado de entrada o vetor x = (x1, x2, ..., xh) de dimensao h, os

mesmos sao expandidos pelos polinomios de Legendre de n dimensoes da seginte maneira:

[1, L1(x1), L2(x1), ..., Ln(x1); 1, L1(x2), L2(x2), ..., Ln(x2); ...; 1, L1(xh), L2(xh), ..., Ln(xh)].

(4.33)

A saıda da rede e definida pelos termos a seguir:

N(x,−→p ) = tanh(z) =ez − e−z

ez + e−z(4.34)

e



z =m∑j=1

WjPj−1(x)⇒ j = 1, 2, ...,m (4.35)

4.3.2 Algoritmo de aprendizagem da Rede Neural de Legendre(RNP) e Chebyschev (RNT)

O backpropagation e usado para atualizar os parametros (pesos) da Rede Neural de Le-

gendre (RNLe). Assim sendo, o gradiente de uma funcao erro com relacao aos parametros

da rede (pesos) e determinado. A funcao tangente hiperbolica (tanh(.)) e considerada

como funcao de ativacao. O algoritmo descida mais ingrime e usado para a aprendizagem

e os pesos sao atualizados usando o gradiente negativo em cada interacao. Os pesos sao

inicializados aleatoriamente e sao atualizados como segue:

W k+1j = W k

j + ∆W kj = W k

j + (−η∂E(x, p)

∂W kj

), (4.36)

sendo η a taxa de aprendizagem que esta entre 0 e 1, k e o passo da interacao em que

e usado para atualizar os pesos como e comum em RNA e E(x, p) e o erro da funcao.

4.3.3 Algoritmos propostos das Redes Neurais Legendre e Chebys-chev implementados para EDP

Nesta secao sera apresentado o algoritmo baseado no trabalho de Mall e Chakraverty

[6] e [7] onde o mesmo se da a partir do metodo de Lagaris[5], sendo substituıda a camada

escondida por uma expansao dos dados de entrada por polinomios ortogonais. Assim

sendo, o algoritmo proposto foi implementado para obtencao dos resultados deste trabalho,

.

Como mencionado acima, a solucao aproximada pode ser representada como na

equacao (4.4) onde o primeiro termo A(−→x ,−→y ) satisfaz as condicoes iniciais ou de fronteira.

O segundo termo F (−→x−→y ,N(−→x ,−→y ,−→p )) contem uma unica saıda N(−→x ,−→y ,−→p ) do modelo

de RNP com uma camada de entrada x ( sendo h o numero de dados) e os parametros

ajustaveis p. A Figura 4.3 ilustra a rede neural Legendre para EDP.



Figura 4.3 Ilustracao da rede neural Legendre (RNLe) para EDP


Considera-se:

N(x, y,−→p ) = tanh(z) =ez − e−z

ez + e−z(4.37)

com

z =m∑j=1

m∑i=1

WjPj−1(x)Pi−1(y). (4.38)

Verica-se abaixo como se da a expansao dos dados de entrada por polinomios de

Legendre:

[P0(x)P0(y), P0(x)P1(y), ..., P0(x)Pn(y), P1(x)P0(y), P1(x)P1(y), ..., P1(x)Pn(y), ...

Pn(x)P0(y), Pn(x)P1(y), ..., Pn(x)Pn(y)],(4.39)

sendo x os dados de entrada, Pj−1 e Pi−1 representam os dados de entrada expandidos

e Wj os vetores dos pesos, da Rede Neural Legendre.

Para o Calculo do gradiente, sera utilizada a mesma equacao de Poisson (4.5) que

descreve o metodo de Lagaris et al [5]:

∂2ψ(x, y)

∂x2+∂2ψ(x, y)

∂y2= f(x, y). (4.40)

4.3.3.1 Calculo do Gradiente

Dado um vetor de entrada −→x = (x1, x2, ..., xn), a saıda da rede e descrita N =∑σ(Zi), onde Z =

∑ni=1

∑nj=1 Pj−1(x)Pi−1(y)wi + bi denota o peso da unidade de en-



trada j,Lj−1(x)Lj−1(y) e a expansao via polinomio de Legendre, que substitui o uso de

camadas ocultas, e o σ(Zi) e a funcao de ativacao tangente hiperbolica. conclui-se direta-

mente que:

∂kN

∂xkj=

n∑j=1

n∑i=1

Lki−1(x)Lj−1(y)wiσ(k)i , (4.41)

sendo σi = σ(Zi) e o σ(k) a derivada de ordem k tangente hiperbolica.

• Solucao da Equacao diferencial Parcial

Descreve-se em (4.7) a solucao da EDP como sendo:

ψt(x, y) = A(x, y) + x(1− x)y(1− y)N(x, y,−→p ),

com A(x, y) satisfazendo a condicao de fronteira, descrito da senduinte maneira:

A(x, y) =(1− x)f0(y) + xf1(y) + (1− y){g0(x)− [(1− x)g0(0) + xg0(1)]}

+ yg1(x)− [(1− x)g1(0) + xg1(1)].

A funcao custo a ser minimizada e:

E[−→p ] =1

2

∑i

{∂2ψt(xi, yi)

∂x2+∂2ψt(xi, yi)

∂y2− f(xi, yi)

}2

. (4.42)

Derivando (4.42) em relacao a x e a y, tem-se:

∂2ψt(xi, yi)

∂x2= {∂

2A(x, y)

∂x2− 2y(1− y)N(x, y,−→p ) + 2(1− 2x)y(1− y)σ′L′n(x)Ln(y)wkwk

+x(1− x)y(1− y)[σ′′(L′n(x))2(Ln(y))2(wk)2 + σ′L′′n(x)Ln(y)w]

(4.43)

e

∂2ψt(xi, yi)

∂y2= {∂

2A(x, y)

∂y2− 2x(1− x)N(x, y,−→p ) + 2(1− 2y)x(1− x)σ′L′n(x)Ln(y)wkwk

+x(1− x)y(1− y)[σ′′(Ln(x))2(L′n(y))2(wk)2 + σ′Ln(x)L′′n(y)w].

(4.44)

Definindo os termos:

γ = 2(1− 2x)y(1− y),



µ = x(1− x)y(1− y)

e

% = 2(1− 2y)x(1− x)

e inserido-os em (4.43) e (4.44), tem-se:

∂2ψt(xi, yi)

∂x2={∂

2A(x, y)

∂x2− 2y(1− y)N(x, y,−→p ) + γσ′L′n(x)Ln(y)wkwk + µ[σ′′(L′n(x))2(Ln(y))2(wk)

2

+ σ′L′′n(x)Ln(y)w]

e

∂2ψt(xi, yi)

∂y2={∂

2A(x, y)

∂y2− 2x(1− x)N(x, y,−→p ) + %σ′L′n(y)Ln(x)wkwk + µ[σ′′(Ln(x))2(L′n(y))2(wk)

2

+ σ′Ln(x)L′′n(y)w].

A funcao custo em relacao aos pesos e dado por:

∂E[−→p ]

∂wk= e

{∂ ∂

2ψt(xi,yi)∂x2

∂wk+∂ ∂

2ψt(xi,yi)∂y2

∂wk− ∂f(xi, yi)

∂wk

}, (4.45)

sendo e = E[−→p ].

Realizando as derivadas parciais em relacao aos pesos, tem-se:

∂2ψt(xi,yi)∂x2

∂wk= {−2y(1− y)σ′Ln(x)Ln(y) + γ[σ′′Ln(x)Ln(y)2L′n(x)wk

+σ′L′n(x)Ln(y)] + µ[σ′′′Ln(x)Ln(y)(L′n(x))2(Ln(y))2(wk)2

+σ′′(L′n(x))2(Ln(y))22wk + σ′′Ln(x)(Ln(y))2L′′n(x)wk + σ′L′′n(x)Ln(y)]},

(4.46)

∂2ψt(xi,yi)∂y2

∂wk= {−2y(1− y)σ′Ln(x)Ln(y) + γ[σ′′Ln(y)Ln(x)2L′n(y)wk

+σ′L′n(y)Ln(x)] + µ[σ′′′Ln(y)Ln(x)(L′n(y))2(Ln(x))2(wk)2

+σ′′(L′n(y))2(Ln(x))22wk + σ′′Ln(y)(Ln(x))2L′′n(y)wk + σ′L′′n(y)Ln(x)]

(4.47)

e∂f(xi, yi)

∂wki= 0. (4.48)

Substituindo os resultados obtidos em (4.46), (4.47) e (4.48) em (4.45), tem-se



∂E[−→p ]

∂wki=2e{−2y(1− y)σ′Ln(x)Ln(y) + γ[σ′′Ln(x)Ln(y)2L′n(x)wk + σ′L′n(x)Ln(y)]

+ µ[σ′′′Ln(x)Ln(y)(L′n(x))2(Ln(y))2(wk)2

+ σ′′(L′n(x))2(Ln(y))22wk + σ′′Ln(x)(Ln(y))2L′′n(x)wk

+ σ′L′′n(x)Ln(y)]}+ {−2y(1− y)σ′Ln(x)Ln(y) + γ[σ′′Ln(y)Ln(x)2L′n(y)wk

+ σ′L′n(y)Ln(x)] + µ[σ′′′Ln(y)Ln(x)(L′n(y))2(Ln(x))2(wk)2

+ σ′′(L′n(y))2(Ln(x))22wk + σ′′Ln(y)(Ln(x))2L′′n(y)wk + σ′L′′n(y)Ln(x)].(4.49)

Calculo do gradiente em relacao ao bias e dado por:

∂E[−→p ]

∂bk= e

{∂ ∂

2ψt(xi,yi)∂x2

∂bk+∂ ∂

2ψt(xi,yi)∂y2

∂bk− ∂f(xi, yi)

∂bk

}. (4.50)

Realizando as derivadas parciais em relacao ao bias, tem-se:


∂bi= (2y2−2y)σ′+γσ′′L′n(x)Ln(y)w+µ[σ′′′(L′n(x))2(Ln(y))2w2 +σ′′L′′n(x)Ln(y)],

(4.51)


∂bi= (2x2− 2x)σ′+ %σ′′L′n(y)Ln(x)w+µ[σ′′′(L′n(y))2(Ln(x))2w2 + σ′′L′′n(y)Ln(x)]

(4.52)

e∂f(xi, yi)

∂bi= 0. (4.53)

Substituindo os resultados obtidos em (4.51), (4.52) e (4.53) em (4.50), tem-se:

∂E[−→p ]

∂bk= 2e{(2y2 − 2y)σ′ + γσ′′L′n(x)Ln(y)w + µ[σ′′′(L′n(x))2(Ln(y))2w2 + σ′′L′′n(x)Ln(y)]

+(2x2 − 2x)σ′ + %σ′′L′n(y)Ln(x)w + µ[σ′′′(L′n(y))2(Ln(x))2w2 + σ′′L′′n(y)Ln(x)]}.(4.54)


Capıtulo 5

Resultados

5.1 Introducao

Apresenta-se neste capitulo exemplos de estudo de caso que ilustra a solucao de equacoes

diferenciais parciais apresentado no capitulo anterior, apresentando em todos os exemplos

um PMC, tendo uma expansao dos dados de entrada por polinomio ortogonal, polinomio

de Legendre e polinomio de Chebyschev, que substituıram a camada escondida, e uma uni-

dade de saıda utilizando a funcao tangente hiperbolica. Os problemas a seguir apresentam

condicoes de contorno Dirichlet, definido no domınio de [0, 1]X[0, 1].

Foi utilizado polinomios de Legendre e Chebyschev de quarta ordem em x e y, com

uma taxa de aprendizagem 10−6.

A rede neural foi implementada no software MATLAB em um computador domestico

que possui 4 gb de memoria, 500 de HD, processador intel core i5.

As caracterısticas das solucoes geradas pelo metodo serao ilustradas para uma melhor

visualizacao das aproximacoes de cada equacao e do desvio em relacao a solucao analıtica.

5.1.1 Problema 1

∂2u

∂x2+∂2u

∂y2= 0 (5.1)

com xey ∈ [0, 1] e definindo a condicao de contorno Dirichlet: u(x, 0) = 0, u(x, 1) =

x, u(0, y) = 0eu(1, y) = y. A solucao analıtica e dada por ua = xy. A solucao aproximada

descrita em (4.7): ut(x, y) = A(x, y) +x(1−x)y(1− y)N(x, y,−→p ), e realizando as devidas

substituicoes dos valores da condicao de contorno, obtemos A(x, y) descrita em (4.8):

A(x, y) = xy (5.2)

As Figuras 5.1, 5.2 e 5.3 representam respectivamente a solucao analıtica da EDP,

5.1 Introducao 40

a solucao gerada pela rede utilizando polinomio de Legendre e a solucao gerada pela rede

utilizando polinomio de Chebyschev.

Figura 5.1 Problema 1; Solucao Analıtica

Figura 5.2 Problema 1; Solucao da EDP Utilizando Polinomio Legendre

Figura 5.3 Problema 1; Solucao da EDP Utilizando Polinomio Chebyschev


5.1 Introducao 41

Observa-se que a partir das Figuras 5.2 e 5.3, nao e possıvel realizar uma analise

de melhor aproximacao, devido a grande semelhanca dos graficos mostrado nas figuras,

devido esse fato, foi realizado uma analise a partir do desvio entre a solucao analıtica e a

solucao da rede utilizando polinomio de Legendre e do desvio entre a solucao analıtica e

a solucao da rede utilizando polinomio de Chebyschev, respectivamente, como mostra as

Figuras 5.4 e 5.5:

Figura 5.4 Problema 1;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Legendre

Figura 5.5 Problema 1;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Chebyschev

Observa-se nas Figuras 5.4 e 5.5 que as RNA’s do problema 1 com polinomios diferentes

possuem a mesma precisao, portanto, a partir deste problema nao se pode definir um

polinomio para uma melhor precisao para solucoes de EDP’s. Ambas as redes possuem o

mesmo esforco computacional, pois possuem convergencia em 3 epocas.


5.1 Introducao 42

A figura 5.6 representa uma malha de 101x101, mostrando a solucao aproximada do

problema 1 via rede neural Legendre.

Figura 5.6 Problema 1;Solucao aproximada via rede neural Legendre por uma malha101x101

A Figura 5.6 mostra a generalizacao da rede, pois, a rede foi treinada com uma

malha de 11x11 e utilizou-se os pesos ja devidamente treinados para obtencao da malha

101x101 sem perda de precisao, como mostra a Figura 5.7.

Figura 5.7 Problema 1;Desvio obtido a partir da solucao exata e da solucao aproximadavia rede neural Legendre por uma malha 101x101

5.1.2 Problema 2

∂2u

∂x2+∂2u

∂y2= e−x(x− 2 + y3 + 6y) (5.3)

com x e y ∈ [0, 1] e definindo a condicao de contorno Dirichlet: u(x, 0) = xe−x, u(x, 1) =

e−x(x+1), u(0, y) = y3 e u(1, y) = (1+y3)e−x. A solucao analıtica e ua(x, y) = (x+y3)e−x.

Sera usado a mesma forma de solucao aproximada descrita no exemplo anterior: ut(x, y) =


5.1 Introducao 43

A(x, y) +x(1−x)y(1− y)N(x, y,−→p ), com A(x, y) determinado da substituicao direta dos

valores da condicao de contorno na equacao geral (4.8).

A(x, y) = (1−x)y3 +x(1+y3)e(−1)+(1−y)x(e−x−e−1)+y[(1+x)e−x− (1−x+2xe−1)]

As Figuras 5.8, 5.9 e 5.10 mostram respectivamente a solucao analıtica do problema,

a solucao gerada pela rede que utiliza o polinomio Chebyschev e a solucao gerada pela

rede utilizando polinomio de Legendre.

Figura 5.8 Problema 2; Solucao Analıtica

Figura 5.9 Problema 2; Solucao da EDP Utilizando Polinomio Chebyschev


5.1 Introducao 44

Figura 5.10 Problema 2; Solucao da EDP Utilizando Polinomio Legendre

Observa-se uma similaridade muito grande entre as figuras, que torna muito difıcil

uma analise para descrever o melhor metodo. As Figuras 5.11 e 5.12 mostram os desvios

obtidos a partir da solucao exata e das redes utilizando os polinomios de Chebyschev e

Legendre, respectivamente.

Figura 5.11 Problema 2;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Chebyschev


5.1 Introducao 45

Figura 5.12 Problema 2;Desvio obtido a partir da solucao exata com a solucao da redeutilizando Polinomio Legendre

Observa-se a partir das Figuras 4.9 e 4.10 que a RNA utilizando polinomio de Legen-

dre obteve uma ligeira melhora em relacao ao desvio utilizando polinomio de Chebyschev

para o problema em questao.

A Figura 5.11 mostra uma malha de 101x101, que representa a solucao aproximada

do problema 2 via rede neural Legendre.

Figura 5.13 Problema 2; Solucao da EDP em uma malha 101x101 utilizando PolinomioLegendre

Utilizamos uma malha de 101x101 para mostrar que a implementacao da rede neural

Legendre Chebyschev possui o poder de generalizacao, pois as redes foram trainadas com


5.1 Introducao 46

uma malha de 11x11 e foi utilizado os pesos ja treinados para a construcao da malaha

101x101 sem perda de precisao como mostra a Figura 5.12, que mostra o desvio entre a

solucao exata e a solucao aproximada via rede neural Legendre.

Figura 5.14 Problema 2; Desvio obitido entre a solucao exata e a solucao via rede neuralLegendre em uma malha 101x101

Este mesmo problema consta no trabalho de Batista [2], onde e utilizada a estrutura

definida por Lagaris[5] e os metodos da descida mais ingrime e o metodo de Levemberg-

Marquardt para treinar a rede. Este problema apresentou 4620 epocas para o metodo

de descida mais ingrime e 323 epocas para o metodo de Levemberg-Marquardt. Para o

metodo realizado neste trabalho houve convergencia em ambas as redes neurais, Legendre

e Chebyschev, com 5 epocas, o que mostra um esforco computacional pequeno em relacao

ao metodo mostrado por Batista[2].


Capıtulo 6

Conclusoes e Consideracoes Gerais

Neste trabalho foi apresentado um metodo de solucao para equacoes diferencias par-

ciais via rede neural que e um excelente aproximador de funcao, utilizando polinomios

ortogonais de Legendre e Chebyschev na estrutura da rede para expansao dos dados de

entrada no lugar da camada neural escondida e o metodo da descida mais ingrime para

otimizacao da rede.

As redes neurais de Legendre e Chebyschev apresentam bom desempenho na apro-

ximacao da solucao e no esforco computacional nos problemas apresentados neste traba-

lho. Observa-se um fator que contribui para o bom desempenho da rede e que sua solucao

satisfaz por construcao as condicoes de fronteira.

Foi observado no problema 2 uma melhora consideravel em numeros de epocas em

relacao ao trabalho realizado por Batista[2], que utilizou a arquitetura desenvolvida por

Lagaris et al [5], que utiliza uma camada neural escondida, principalmente quando observa-

se somente o metodo para otimizacao da descida mais ıngrime que tambem foi utilizado

neste trabalho, mostrando uma diminuicao muito consideravel no esforco computacional.

Neste trabalho, mostra-se que redes neurais Legendre e Chebyschev alem de uma boa

aproximacao, possui uma generalizacao excelente mantendo a precisao obtida no treino da

rede, pois em todos os casos, a rede foi treinada por uma malha de 11x11 e posteriormente

testa em uma malha 101x101.

Para o treinamento da rede foi aplicado o metodo da descida mais ingrime, de facil

implementacao. Sugere-se que outros metodos de otimizacao sejam implementados em

trabalhos futuros, que possam melhorar ainda mais a aproximacao e o esforco computa-

cional.

Outra sugestao seria uma analise relacionada a taxa de aprendizagem e a densidade

da malha. Neste trabalho usamos uma taxa de aprendizagem fixa e considerou-se uma

48

malha de pontos equidistantes. Variar a taxa de aprendizagem bem como a densidade da

malha durante o treinamento da rede, pode acarretar em melhores resultados.


Bibliografia

Lucie P Aarts and Peter Van Der Veer. Neural network method for solving partial diffe-rential equations. Neural Processing Letters, 14(3):261–271, 2001.

Brigida Cristina Fernandes Batista. Solucoes de Equacoes Diferenciais Usando RedesNeurais de Multiplas camadas com os metodos da Descida mais ıngreme e Levenberg-Marquardt. PhD thesis, Dissertacao de mestrado, PPGME-ICEN-UFPA, 2012.

R Shekari Beidokhti and A Malek. Solving initial-boundary value problems for systemsof partial differential equations using neural networks and optimization techniques.Journal of the Franklin Institute, 346(9):898–913, 2009.

Li Jianyu, Luo Siwei, Qi Yingjian, and Huang Yaping. Numerical solution of elliptic partialdifferential equation using radial basis function neural networks. Neural Networks, 16(5-6):729–734, 2003.

Isaac E Lagaris, Aristidis Likas, and Dimitrios I Fotiadis. Artificial neural networks for sol-ving ordinary and partial differential equations. IEEE Transactions on Neural Networks,9(5):987–1000, 1998.

Susmita Mall and Snehashish Chakraverty. Chebyshev neural network based model forsolving lane–emden type equations. Applied Mathematics and Computation, 247:100–114, 2014.

Susmita Mall and Snehashish Chakraverty. Application of legendre neural network forsolving ordinary differential equations. Applied Soft Computing, 43:347–356, 2016.

Frank Rosenblatt. The perceptron: a probabilistic model for information storage andorganization in the brain. Psychological review, 65(6):386, 1958.

Keith Rudd and Silvia Ferrari. A constrained integration (cint) approach to solving partialdifferential equations using artificial neural networks. Neurocomputing, 155:277–285,2015.

Yazdan Shirvany, Mohsen Hayati, and Rostam Moradian. Multilayer perceptron neuralnetworks with novel unsupervised training method for numerical solution of the partialdifferential equations. Applied Soft Computing, 9(1):20–29, 2009.

IN da Silva, Danilo Hernane Spatti, and Rogerio Andrade Flauzino. Redes neurais artifi-ciais para engenharia e ciencias aplicadas. Sao Paulo: Artliber, pages 33–111, 2010.

Haykin Simon. Redes neurais–princıpios e pratica, 2001.AH Stroud. Methods of numerical integration (philip j. davis and philip rabinowitz).

SIAM Review, 18(3):528, 1976.Bernard Widrow and Marcian E Hoff. Adaptive switching circuits. Technical report,

STANFORD UNIV CA STANFORD ELECTRONICS LABS, 1960.

Documents

SOLUC˘AO NUM~ ERICA DE EQUAC˘ OES~ DIFERENCIAIS …