Aplicação de Técnicas de Inteligência Artificial em ...livros01.livrosgratis.com.br/cp092865.pdf · Aplicação de técnicas de inteligência artificial em problemas de interpretação

UFMG/ICEx.DQ. 662a D. 406a

Geison Voga Pereira

Aplicação de Técnicas de Inteligência Artificial em Problemas de Interpretação de Dados Instrumentais

e Elucidação de Estruturas Protéicas

Dissertação apresentada ao

Departamento de Química do Instituto

de Ciências Exatas como requisito

parcial à obtenção do título de Mestre

em Química – Físico-Química

UNIVERSIDADE FEDERAL DE MINAS GERAIS Belo Horizonte

2007

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

.

Voga, Geison Pereira.

Aplicação de técnicas de inteligência artificial em problemas de interpretação de dados instrumentais e elucidação de estruturas protéicas / Geison Pereira Voga. 2007.

Xvii, 114 f. : il. Orientador: Jadson Cláudio Belchior. Dissertação (mestrado) – Universidade Federal de Minas Gerais. Departamento de Química.

Inclui bibliografia.

1.Físico-química - Teses 2.Inteligência artificial – Teses 3.Proteínas – Teses I. Belchior, Jadson Cláudio, Orientador II. Título.

CDU 043

V877a 2007 D

iii

A sabedoria construiu sua casa; ergueu suas setes colunas.

Matou animais para a refeição, preparou seu vinho e arrumou sua mesa.

Enviou suas servas para fazerem convites

deste o ponto mais alto da cidade, clamando:

“Venham todos os inexperientes!” Aos que não têm bom senso ela diz:

“Venham comer a minha comida e beber o vinho que preparei.

Deixem a insensatez, e vocês terão vida; andem pelo caminho do

entendimento”. Instrua o homem sábio,

e ele será ainda mais sábio; ensine o homem justo,

ele aumentará o seu saber. “O temor do Senhor

é o princípio da sabedoria, e o conhecimento do Santo

é entendimento”

Provérbios 9:1-6 e 9,10

Bíblia. Bíblia Sagrada: Nova Versão Internacional/ [Traduzida pela Comissão de Tradução da Sociedade Bíblica Internacional]. - São Paulo, 2000.

iv

Esta dissertação foi realizada sob a orientação do professor

Dr. Jadson Cláudio Belchior

v

A Elis; minha amada esposa.

A minha filha querida; Milena.

Aos meus pais e irmãos.

vi

AGRADECIMENTOS

Em primeiro lugar eu agradeço a Deus que tornou possível a realização de

mais um grande sonho e por ter me dado força nos momentos mais difíceis destes

últimos dois anos.

Agradeço a minha amada e maravilhosa esposa Elis que me apoiou em

todos os momentos e também teve uma grande paciência e cuidado comigo,

Destaco também a sua intensa colaboração para conclusão deste trabalho.

A minha filha Milena, que com apenas um ano e quatro meses, me ajudou

na digitação, por diversas vezes enquanto eu digitava ou programava ela aparecia

com aquela mão pequenininha e apagava ou apertava um monte de teclas, me

fazendo reformular e rescrever algumas partes dos programas e também desta

dissertação.

Aos meus pais e irmãos pelo apoio e incentivo em todos os momentos.

Ao professor Jadson pela sua orientação e credibilidade.

Agradeço também aos colegas do LDAM e aos amigos do laboratório Júlio,

Fernando e Elcio por estarem sempre dispostos a ajudar.

Aos professores, secretárias da Pós-graduação e funcionários do

Departamento de Química.

À banca examinadora, pela atenção e sugestões.

Ao CNPq, pela bolsa concedida.

vii

SUMÁRIO LISTA DE FIGURAS .................................................................................... x

LISTA DE TABELAS .................................................................................... xiv

RESUMO...................................................................................................... xvi

ABSTRACT .................................................................................................. xvii

I Introdução ............................................................................................ I - 1

1. Técnicas de Inteligência Artificial ..................................................... I - 2

2. Motivação ........................................................................................ I - 2

3. Objetivos .......................................................................................... I - 3

4. Organização da Dissertação ........................................................... I – 4

I Parte – Fundamentos teóricos II Base Biológica ......................................................................................... II - 6

1. Introdução ........................................................................................ II - 7

2. Estruturas dos Aminoácidos ............................................................ II - 7

3. Ligações Peptídicas ......................................................................... II - 10

4. Estruturas Protéicas Tridimensionais .............................................. II - 11

5. Funções Biológicas das Proteínas ................................................... II - 13

6. Síntese de Proteínas ....................................................................... II - 15

a. Transcrição de Genes ............................................................. II - 15

b. Tradução do mRNA................................................................. II - 17

c. O código Genético .................................................................. II – 19

III Algoritmos Evolutivos ............................................................................... III - 21

1. Introdução ........................................................................................ III - 22

2. Estrutura dos Algoritmos Genéticos ................................................ III - 23

3. Operadores Genéticos ..................................................................... III - 25

4. Seleção Genética ............................................................................ III - 28

5. Parâmetros Genéticos ..................................................................... III - 29

6. Passos de implementação de um Algoritmo Genético .................... III - 30

7. Aplicação dos Algoritmos Genéticos ............................................... III - 31

viii

IV Lógica Fuzzy ........................................................................................... IV-32

1. Introdução ........................................................................................ IV-33

2. Lógica Fuzzy ................................................................................... IV-34

3. Operações em Conjuntos Nebulosos .............................................. IV-38

a. t-normas e s-normas ............................................................... IV-38

b. Operador Implicação ............................................................... IV-40

4. Controladores Fuzzy ........................................................................ IV-41

II Parte - Implementação e Desenvolvimento V Algoritmo Genético Implementado ........................................................... V-45

1. Estrutura do Algoritmo Genético Implementado .............................. V-46

a. População Inicial ..................................................................... V-47

b. Função Fitness ........................................................................ V-47

c. Seleção – Operador Predador ................................................ V-48

d. Seleção – Operador Habitat .................................................... V-49

e. Operador Imigração ................................................................ V-50

f. Operador Crossover ................................................................ V-50

g. Operador Mutação .................................................................. V-52

h. Convergência do Algoritmo Genético ...................................... V-52

2. Sistema de Classificação ................................................................. V-53

III Parte – Resultados e discussões VI - Parametrização de Funções .................................................................. VI-54

1. Introdução aos Sistemas de Liberação Controlada de Drogas ........ VI-55

2. O Modelo Matemático ...................................................................... VI-57

3. Configuração do Algoritmo Genético ............................................... VI-61

4. Resultados do Algoritmo Genético .................................................. VI-68

VII- Interpretação de Análise Termogravimétrica ......................................... VII-70

1. Introdução à Análise Termogravimétrica ......................................... VII-71

2. Modificações no Algoritmo Genético e nos Controladores Fuzzy .... VII-73

a. População inicial ..................................................................... VII-73

ix

b. Função Fitness ........................................................................ VII-73

c. Operador Predador ................................................................. VII-74

d. Operador Mutação .................................................................. VII-80

e. Critério de convergência ......................................................... VII-81

3. Interpretação de Curvas Termogravimétricas .................................. VII-81

VIII Elucidação de Estruturas de Proteínas ................................................. VIII-87

1. Introdução ........................................................................................ VIII-88

2. Proteínas Homólogas ...................................................................... VIII-89

3. Estrutura Secundária de Proteínas .................................................. VIII-90

4. Modelagem de Proteínas por Homologia ........................................ VIII-92

5. Alinhamento de Seqüências de Aminoácidos .................................. VIII-93

a Matriz de Pontuação ............................................................... VIII-94

6. Modificações no Algoritmo Genético ............................................... VIII-95

a Função Fitness ....................................................................... VIII-97

b Operadores Genéticos ............................................................ VIII-99

7. Determinação da Estrutura Secundária. .......................................... VIII-100

a. Estrutura do Citocromo C ....................................................... VIII-100

b Estruturas das Cadeias α e β da Hemoglobina Humana ........ VIII-103

IX Conclusão ........................................................................................... IX-107

1. Considerações Finais e Perspectivas Futuras ................................. IX-108

Referencias Bibliográficas ......................................................................... 109

x

LISTA DE FIGURAS Figura II-1 Estrutura geral de um aminoácido. ..................................................... II-8

Figura II-2 Estrutura dos 20 aminoácidos comumente encontrados nas

proteínas. Os grupos amino e carboxila, que participam da

formação de peptídeos durante a síntese de proteínas, são

mostrados nas áreas em destaque. Os grupos laterais, que

são diferentes para cada aminoácido, são mostrados abaixo

das áreas em destaque. As abreviações padrões de três

letras são mostradas entre parênteses. ............................................ II-9

Figura II-3 Formação de uma ligação peptídica entre dois aminoácidos

pela remoção de água. .................................................................... II-11

Figura II-4 Tipos de interações moleculares que determinam as

estruturas de um peptídeo............................................................... II-12

Figura II-5. Esquema geral do processo de transcrição em eucariontes. ........... II-17

Figura II-6. Esquema geral do processo de transcrição em eucariontes. ........... II-18

Figura III–1 Representação clássica de um cromossomo. ................................ III-24

Figura III–2 Esquema geral de um algoritmo genético. ..................................... III-25

Figura III–3 Operador crossover simples. ......................................................... III-26

Figura III–4 Operador crossover para permutar substrings dos

cromossomos. ................................................................................ III-26

Figura III–5 Operador mutação baseado em troca simples. .............................. III-27

Figura III–6 Mecanismo de inversão para o operador mutação. ....................... III-28

Figura IV-1 A) Função característica do conjunto “crisp” adolescente. B)

Função trapezoidal característica do conjunto nebuloso

adolescente. ................................................................................... IV-35

Figura IV-2 Principais funções de pertinência. .................................................. IV-36

Figura IV-3 Cardinalidade, altura, suporte, núcleo e o corte de nível 0.5

do conjunto nebuloso A. ................................................................. IV-37

Figura IV-4 Esboço das principais t-normas ...................................................... IV-40

xi

Figura IV-5 Esboço das principais s-normas ..................................................... IV-40

Figura IV-6 Termos lingüísticos que mapeiam a variável características .......... IV-42

Figura IV-7 Estrutura de um controlador nebuloso. .......................................... IV-43

Figura V–1 Estrutura geral do algoritmo genético implementado. ..................... V–46

Figura V–2 - Função de pertinência para o operador predador......................... V–48

Figura V–3 Função de pertinência para o operador habitat. ............................. V–49

Figura V–4 - Função de pertinência t-norma para o operador crossover. ......... V–51

Figura V–5 Gráfico representativo da distribuição da aptidão e a região

de seleção das melhores soluções. ................................................ V-53

Figura VI–1. Curvas de fração de droga liberada por um período de 100

dias. Curva de referência (quadrado preto) (D=1.35×10-5

cm2dia-1, Cs=16.2mg.cm-3 . A= 70mg.cm-3, h=0.167cm),

Curva com os parâmetros de inicio (circulo aberto)

(D=0.042×10-5 cm2dia-1, Cs=2.7mg.cm-3 . A=33.3mg.cm-3,

h=0.164cm) e curva com os parâmetros de final (triângulo

aberto) (D=4.82×10-5 cm2dia-1, Cs=40mg.cm-3 . A=

133.3mg.cm-3, h=0.170cm). ........................................................... VI-59

Figura VI–2 Mapas de contorno para a superfície de erro definida pela

eq 1, (a) mapa de contorno para o Coeficiente de difusão

(D) pela solubilidade de saturação (Cs) com os valores

constantes A=70.0 mg.cm-3 e h =0.167cm, (b) mapa de

contorno para o Coeficiente de difusão (D) pela

concentração inicial de hidrocortisona (Cs) com valores

constantes Cs=16.2 mg.cm-3 e h =0.167cm, (c) mapa de

contorno para o Coeficiente de difusão (D) pelo tamanho do

comprimido (h) com valores constantes Cs=16.2 mg.cm-3 e

A=70.1 mg.cm-3 valores constantes D=1.35x10-5 cm2dia-1 e

h =0.167cm, (d) mapa de contorno para a solubilidade de

saturação (Cs) pela concentração inicial de hidrocortisona

xii

(A) com valores constantes D=1.35x10-5 cm2dia-1 e

h=0.167cm (e) mapa de contorno para a solubilidade de

saturação (Cs) pelo tamanho do comprimido (h) com valores

constantes D=1.35x10-5 cm2dia-1 e Cs=16.2 mg.cm-3 (f)

mapa de contorno para a concentração inicial de

hidrocortisona (A) pelo tamanho do comprimido (h) com

valores constantes D=1.35x10-5 cm2dia-1 e Cs=16.2 mg.cm-

3. ..................................................................................................... VI-60

Figura VI–3. Número médio de gerações em função do tamanho da

população. ...................................................................................... VI-62

Figura VI–4 Determinação do raio de ação do operador habitat. ...................... VI-63

Figura VI–5 Determinação do fator de ativação da imigração (Ai). ................... VI-64

Figura VI–6 Determinação da probabilidade máxima de mutação. ................... VI-65

Figura VI–7 Evolução do logaritmo decimal do erro (função de aptidão)

em função do número de gerações. ............................................... VI-66

Figura VI–8 Quantidade de soluções em cada geração do GA......................... VI-67

Figura VII-1 Árvore de busca para a validação de fragmentos

moleculares com NOX = 0 definindo os bancos de dados

(banco 1 e banco 2) das regras heurísticas que definem

funções químicas e alguns sais e finalizando a árvore o

cálculo do NOX. ............................................................................ VII-76

Figura VII-2: Fórmula do ligante norfloxacina. .................................................. VII-85

Figura VII-3 (A): Análise termogravimétrica do complexo 4 da Tabela

VII-2 e (B) estrutura química do complexo 4. ............................... VII–85

Figura VII-4 (A): Análise termogravimétrica do complexo 5 Tabela VII -2

e (B) estrutura química do complexo 5. ........................................ VII–86

Figura VIII–1 Representação cilíndrica para as hélice (a) 310helice , (b)

α-helice e (c) π-helice .................................................................. .VIII-91

Figura VIII–2 Estrutura de uma alça entre os aminoácido i e i+2. ................... VIII-92

xiii

Figura VIII–3 Matriz de alinhamento BLOSUM50 [79]. .................................... VIII-95

Figura VIII–4- Representação dos indivíduos para inferir a estrutura

secundária de um fragmento de citocromo C humano. ................ VIII-97

Figura VIII–5 Exemplificação de alinhamentos com penalidade

consecutivas e alternadas. ........................................................... VIII-98

xiv

LISTA DE TABELAS

Tabela II-1 Código genético .............................................................................. II-19

Tabela IV-1. Principais operadores t-norma e s-norma ..................................... IV-39

Tabela IV-2 Principais operadores de implicação ............................................. IV-41

Tabela VI-1 Definição dos Intervalos de formação para cada parâmetro

da Eq. 1 e definição dos parâmetros da curva de referência ..................... VI–58

Tabela VI-2 Conjuntos de parâmetros encontrados pelo algoritmo

genético ...................................................................................................... VI–68

Tabela VII-1 Interpretação de curvas TG de acordo com o algoritmo 1,

fornecendo a interpretação das respectivas perdas de massa

juntamente com o valor calculado, o erro cometido em cada

atribuição, o valor do intervalo de confiança (IC) e o tempo

computacional para cada molécula analisada são apresentados .............. VII-82

Tabela VII-2 Interpretação de curvas TG para sistemas químicos

complexos, que apresentam estruturas químicas extensas. ...................... VII-83

Tabela VIII-1 Alguns tipos de estruturas estruturas secundaras ..................... VIII-91

Tabela VIII-2 Codificação dos nomes de cada aminoácido ............................. VIII-94

Tabela VIII-3 Similaridades mais expressivas encontradas pelo

algoritmo genético para a determinação da estrutura do citocromo C

humano ................................................................................................... VIII-101

Tabela VIII-4 Padrões de estruturas secundária encontrados no

citocromo C humano utilizando o algoritmo genético .............................. VIII-102

Tabela VIII-5 – Similaridade entre cadeias α e β da hemoglobina

humana em relação as seqüências selecionadas pelo GA ..................... VIII-103

Tabela VIII-6 Padrões de estruturas secundária encontrados para

cadeia α da hemoglobina humana utilizando o algoritmo genético ......... VIII-105

xv

Tabela VIII-7 Padrões de estruturas secundária encontrados para a

cadeia β-da hemoglobina humana utilizando o algoritmo genético ......... VIII-106

xvi

RESUMO

As técnicas de inteligência artificial (IA) podem ser utilizadas para resolver

diversos sistemas que apresentam elevada complexidade, como por exemplo,

parametrização de funções matemáticas, interpretação de dados de análises

instrumentais e elucidação de estruturas químicas. Estes problemas podem

apresentar múltiplas soluções, sendo necessário a utilização de técnicas

inteligentes que possam contemplar esta possibilidade. Dentre as diversas

técnicas de IA destacam-se os algoritmos genéticos, baseados na teoria da

evolução, e a lógica nebulosa ou fuzzy, que apresenta uma metodologia de

controle e representação de incertezas presentes nas informações relevantes aos

problemas complexos. Esta dissertação apresenta o desenvolvimento de um

algoritmo genético acoplado a diversos controladores fuzzy, formando um sistema

híbrido. O sistema apresenta a capacidade se encontrar múltiplas soluções para

problemas de parametrização de funções matemáticas, interpretação de dados de

curvas termogravimétricas, controle adequado na liberação de fármacos e

elucidação de estruturas protéicas.

xvii

ABSTRACT Artificial intelligence (AI) techniques can be applied for solving complex problems

such as mathematical function parametrizations, instrumental data interpretation

and to elucidate chemical structures. Such problems can have multiple solutions

and may be necessary the use of efficient methods to achieve possible solutions.

One can point out that methods such as genetic algorithms based on evolutionary

methods and fuzzy logic are adequate to solving complex problems where control

and uncertainty are present. This work will present the development of genetic

algorithms coupled with several control fuzzy methods that can be call as hybrid

system. As will be shown, the system has the ability of finding multiple solutions of,

e.g., parametrization functions, thermogravimetric data analysis and interpretation,

as well as efficient applications for determining drug controlled delivery systems.

Finally, the AI approach will be applied for elucidating protein structures.

Capítulo I- Introdução

I-2

1. Técnicas de Inteligência Artificial

A utilização de técnicas de inteligência artificial (IA) tem-se mostrado

promissora no desenvolvimento de sistemas computacionais capazes de

solucionar problemas complexos, tais como elucidação de estruturas químicas,

análise e extração de regras de bancos de dados, interpretação de dados de

análises instrumentais, como, por exemplo: espectrometria de massa,

termogravimetria, espectroscopia de infravermelho, ultravioleta e ressonância

magnética nuclear [1-3].

Em geral os problemas envolvendo áreas da biológica são caraterizados

pela grande quantidade de dados a serem analisados ou pela complexidade do

sistema biológico a ser estudado [4]. Outro problema de relevância refere-se à

interpretação de dados instrumentais por parte de peritos especialistas. Estes

tipos de problemas envolvem a formulação de diversas regras heuristicas e

métodos de controle para realizar o processo de decisão e consequentemente a

interpretação da análise instrumental.

O avanço das técnicas computacionais eficientes pode auxiliar de forma

expressiva o atual estágio de desenvolvimento da biologia molecular, através do

reconhecimento de padrões, utilizando técnicas como, por exemplo, a

programação dinâmica para encontrar alinhamentos ótimos entre seqüências

lineares de bioméloculas, tais como ácidos nucléicos (RNA, DNA) e proteínas [5].

Diversos problemas químicos, biológicos, físicos e econômicos, podem

apresentar mais de uma solução compatível. Neste caso, torna-se necessário a

realização de modificações na estrutura computacional dos algoritmos envolvidos

para possibilitar a determinação de múltiplas soluções compatíveis.

2. Motivação

A inteligência artificial possibilita o desenvolvimento de sistemas

computacionais eficientes na resolução de problemas complexos tais como, a

elucidação da estrutura química de sistemas biológicos (como por exemplo:

biomoléculas, simulação de processos metabólicos) e a interpretação de dados de

análises instrumentais.

I-3

Relacionado especificamente à biologia molecular, a inteligência artificial

pode ser utilizada para problemas que envolvam [4-7]:

• Alinhamento e busca de seqüências;

• Predição de genes;

• Alinhamentos múltiplos de seqüências;

• Análise filogenética;

• Análise de seqüência de proteínas;

• Predição da estrutura protéica;

• Alinhamento e comparação de estruturas protéicas

• Simulação bioquímica;

• Análise de genomas completos;

Focalizando-se no uso das técnicas de inteligência artificial na interpretação

de dados de análises instrumentais, esta pode ser aplicada no controle de

instrumentos e na interpretação analítica ou numérica [3, 8]:

A obtenção de soluções para os problemas citados acima é viável com a

utilização de técnicas de inteligência artificial que sejam de fácil implementação e

que tenham potencialidade para inferir soluções em problemas complexos; como

por exemplo, algoritmos genéticos e lógica nebulosa; esta última mais comumente

conhecida como lógica fuzzy. Os algoritmos genéticos constituem uma técnica de

busca e otimização baseada no modelamento computacional da teoria de

evolução de Darwin. A lógica nebulosa, por sua vez, apresenta uma descrição

computacional para modelar a incerteza presente em informações e em sistemas

de controle [1, 9].

A interpretação de dados instrumentais e a elucidação de estruturas devem

ser realizadas por sistemas que tenham a propriedade de contemplar múltiplas

soluções equivalentes ou similares.

3. Objetivos

Implementar um sistema de otimização para parametrização de funções

matemáticas, interpretação de dados termogravimétricos e determinação de

I-4

estruturas secundárias de proteínas, utilizando as técnicas de inteligência artificial,

como algoritmo genético acoplado à lógica fuzzy.

4. Organização da Dissertação

Esta dissertação de mestrado está organizada em três partes: fundamentos

teóricos, implementação e desenvolvimento computacional e apresentação de

resultados. A primeira parte é composta pelos Capítulos II, III e IV que contêm os

fundamentos teóricos relacionados aos conceitos biológicos das proteínas e as

técnicas de inteligência artificial utilizadas para o desenvolvimento de algoritmos

de otimização. A segunda parte da desta dissertação, implementação e

desenvolvimento computacional, é composta exclusivamente pelo Capítulo V. Os

Capítulos seguintes, VI, VII e VIII, formam a terceira parte desta dissertação, onde

serão apresentados os resultados obtidos pela aplicação do algoritmo genético

desenvolvido em três problemas diferentes, relacionados respectivamente a

liberação controlada de fármacos, interpretação de dados termogravimétricos e

determinação de estruturas secundárias de proteínas.

O conteúdo de cada capítulo encontra-se organizados da seguinte forma:

O Capítulo II apresenta alguns conceitos básicos relacionados à Biologia

molecular, destacando a estrutura e constituição química das proteínas seguida de

uma breve explicação do processo de transcrição do DNA para mRNA e posterior

tradução da informação genética para síntese de proteínas. O capítulo é finalizado

com a descrição do código genético e a sua importância para a biologia molecular.

No Capítulo III são destacados os principais conceitos relacionados à

técnica de inteligência artificial, denominada algoritmos genéticos. O Capítulo

inicia-se com uma descrição histórica e conceitos da computação evolutiva. Em

seguida é apresentada a estrutura geral dos algoritmos genéticos explorando cada

elemento separadamente.

No Capítulo IV são descritos os conceitos relacionados à lógica nebulosa e

a estrutura dos operadores nebulosos, t-normas, s-normas e implicação,

semelhantemente ao Capítulo anterior. Em seguida é apresentada a estrutura

geral de um controlador nebuloso.

I-5

O Capítulo V apresenta o desenvolvimento e implementação do sistema

híbrido, que associa as características de otimização dos algoritmos genéticos

associado ao controle nebuloso dos operadores genéticos. O capítulo apresenta

também a implementação do operador habitat que concede ao algoritmo genético

a capacidade de encontrar múltiplas soluções.

Os capítulos VI e VII compreendem a validação do algoritmo genético

proposto no Capítulo V. O algoritmo genético é utilizado na parametrização de um

modelo matemático utilizado para determinar a fração de hidrocortizona liberada

por um sistema de liberação controlada. No Capítulo VII o algoritmo genético é

adaptado para obter interpretações de curvas termogravimétricas, curva TG.

No Capítulo VIII é apresentado a teoria para modelagem de proteínas por

homologia, e as receptivas adaptações no algoritmo genético para a determinação

de alinhamentos múltiplos com a finalidade de inferir e elucidar estruturas

secundária e terciária das proteínas.

No ultimo Capítulo (IX) são apresentadas as considerações finais

relacionadas à construção do algoritmo e sua versatilidade para resolver diversos

problemas complexos.

Capítulo II - Base Biológica

II-7

1. Introdução

Coletivamente as moléculas de água correspondem a aproximadamente

70% da massa total de células vivas, enquanto as proteínas constituem cerca de

15% em massa. Esta percentagem de massa das proteínas corresponde a 50%

da massa orgânica de células vivas. Esta elevada contribuição em massa orgânica

reflete a importância das proteínas para os seres vivos, assumindo papel vital para

todas as células, sejam estas microbianas ou pertencentes a seres multicelulares

[10].

As proteínas podem ser encontradas em todas as partes das células e

ocorrem em grande diversidade, sendo que centenas de diferentes tipos podem

ser encontradas em uma única célula. As proteínas têm diferentes funções nos

organismos vivos. Elas podem constituir material de sustentação mecânica, como

por exemplo, queratina, ou apresentar funções catalisadoras de reações, como

ocorre com a ATPsintetase que tem a propriedade catalítica de adicionar um

grupo fosfato à molécula de adenosina difosfato (ADP) formando adenosina

trifosfato que corresponde a principal molécula transportadora de energia nos

processos metabólicos [11].

A constituição de milhares de proteínas diferentes ocorre a partir de um

pequeno grupo de moléculas de unidades fundamentais relativamente simples em

comparação com as proteínas. Todas as proteínas, mesmo aquelas que estão

presentes em linhagens de bactérias extremamente antigas [11], podem ser

constituídas com o mesmo conjunto de 20 (vinte) aminoácidos, unidos

covalentemente em seqüências características. Cada um dos aminoácidos

apresenta uma cadeia lateral específica, que confere a estes uma individualidade

química específica [10-11].

2. Estruturas dos Aminoácidos

Normalmente em uma proteína é possível encontrar todos os vinte

aminoácidos. Ocasionalmente um ou mais dos aminoácidos presentes em uma

proteína podem ser modificados após a síntese da proteína final, formando assim

um novo tipo de aminoácido. Os aminoácidos livres são moléculas relativamente

II-8

pequenas com todas as suas estruturas conhecidas, sendo que o primeiro

aminoácido descoberto corresponde a aspargina, em 1806, enquanto o último foi

descoberto em 1938, correspondendo a treonina. Todos os aminoácidos livres,

exceto a prolina, contêm um grupo amino livre e um grupo carboxila livre. A

estrutura geral dos aminoácidos é mostrada na Figura II-1. Os aminoácidos

diferem um do outro pelos grupos laterais (designado R), os quais variam em

estrutura, tamanho, carga elétrica e solubilidade em água. Esta diversificação dos

aminoácidos contribui de forma estrutural e funcional para as proteínas. As

cadeias laterais podem ser de 4 (quatro) tipos diferentes: (1) grupos hidrofóbico ou

não polares, (2) grupos hidrofílicos ou polares, (3) grupos ácidos ou de carga

negativa (4) grupos básicos ou carregados positivamente [12].

Figura II-1 Estrutura geral de um aminoácido.

Na Figura II-2 estão apresentados os 20 aminoácidos comumente

encontrados nas proteínas. Nota-se que em todos os aminoácidos, exceto na

glicina, existe um carbono assimétrico, o carbono α, ao qual estão ligados quatro

grupos diferentes: uma carbonila, um grupo amino, um hidrogênio e um grupo R,

formando assim um centro quiral [11].

Os aminoácidos podem ser classificados de acordo com a composição e

propriedades. Utilizando principalmente a polaridade como critério de classificação

os aminoácidos podem ser classificados em 4 grupos diferentes, também

demonstrado na Figura II-2 [10].

II-9

Figura II-2 Estrutura dos 20 aminoácidos comumente encontrados nas proteínas. Os grupos amino e carboxila, que participam da formação de peptídeos durante a síntese de proteínas, são mostrados nas áreas em destaque. Os grupos laterais, que são diferentes para cada aminoácido, são mostrados abaixo das áreas em destaque. As abreviações padrões de três letras são mostradas entre parênteses.

II-10

Os aminoácidos que apresentam grupos R formados por cadeia de

hidrocarbonetos são hidrofóbicos. Nesta classe cinco aminoácidos têm grupos

alifáticos (Alanina, Valina, Leucina, Isoleucina, e Prolina) e dois contêm um anel

aromático (fenilalanina e triptofano) e um contêm enxofre (metionina) apolares.

Outra classe de aminoácidos apresenta grupos R que conferem maior

solubilidade em água. Nesta classe incluem glicina, serina, treonina, cisteina,

tirosina, asparginina e glutamina. O grupo hidroxila presente nos aminoácidos

serina, treonina, e tirosina conferem maior solubilidade, enquanto a asparginina e

glutamina têm grupos amina. A cisteina é identificada pelo grupo sulfidrila ou tiol

[11,12].

O próximo grupo é caracterizado pela presença de grupos que têm carga

líquida negativa em pH 7.0; estão nesta classe o ácido aspártico, e o ácido

glutâmico, cada um deles apresentando mais um grupo carboxila [11,12].

O último grupo é caracterizado pela presença de grupos R com carga

líquida positiva em pH 7.0, constitui-se da lisina que possui um segundo grupo

amina na sua cadeia alifática, arginina que tem um grupo guanidino carregado

positivamente, e a histidina que apresenta um grupo imidazol fracamente ionizado

[11,12].

3. Ligações Peptídicas

Os polipeptídeos são cadeias longas de aminoácidos, que podem, por

exemplo, para a proteína da seda pode existir entre 51 e pouco mais de 1000

aminoácidos. Considerando a combinação de 20 aminoácidos para gerar qualquer

seqüência polipeptídica, é possível obter um número de moléculas diferentes

extremamente elevado. Para um peptídeo com 6 aminoácidos existem 206, ou

seja 6.4x107 tipos de peptídeos diferentes. Para um polipeptídeo com 100

aminoácidos, a quantidade de seqüências diferentes é aproximadamente

1.26x10130. Os aminoácidos nos polipeptídios são ligados por ligações

denominadas peptídicas (Figura II-3). Cada ligação peptídica é formada por uma

reação entre o grupo amino de um aminoácido e o grupo carboxila de outro com a

eliminação de uma molécula de água [10].

II-11

Figura II-3 Formação de uma ligação peptídica entre dois aminoácidos pela remoção de água.

4. Estruturas Protéicas Tridimensionais

Nas estruturas tridimensionais complexas das proteínas, podemos distinguir

quatro níveis diferentes de organização [10-13]:

1) Estrutura primária – a estrutura primária de um polipeptídeo é a sua

seqüência de aminoácidos que é especificada pela seqüência de

nucleotídeos de um gene;

2) Estrutura secundária – refere-se às inter-relações espaciais dos

resíduos de aminoácidos nos polipeptídeos;

3) Estrutura terciária – refere-se ao dobramento da proteína no espaço

tridimensional;

4) Estrutura quaternária – refere-se à associação de dois ou mais

polipeptídeos em uma proteína multimérica, como por exemplo, a

hemoglobina que possui os quatro níveis de organização estrutural.

Os polipeptídeos dobram-se espontaneamente em conformações

específicas que é função da estrutura primária da seqüência. Em alguns casos, o

dobramento da proteína sofre influência de outras proteínas, denominadas

chaperonas que ajudam os polipeptídeos nascentes a formar sua própria estrutura

tridimensional [13].

A estrutura secundária nas proteínas é encontrada com maior freqüência

nas formas hélices α e folhas β. Ambas as estruturas são mantidas por ligações

de hidrogênio entre as ligações peptídicas situadas bem próxima uma da outra. A

hélice α apresenta uma estrutura em formato de cilindro rígido o e mantido estável

II-12

principalmente por ligações de hidrogênio com outra ligação peptídica próxima.

Uma folha β ocorre com o dobramento paralelo da seqüência de peptídeos;

novamente a estrutura é mantida por ligações de hidrogênio entre os aminoácidos

que se encontram próximo [13].

Enquanto a organização espacial dos aminoácidos e segmentos adjacentes

de um polipeptídeo determina sua estrutura secundária, o dobramento geral do

polipeptídeo completo define sua estrutura terciária. Em geral, os aminoácidos

com cadeias laterais hibrofílicas estão situados nas superfícies das proteínas (em

contato com o citoplasma aquoso), enquanto os aminoácidos de cadeias

hidrofóbicas interagem uns com os outros nos espaços internos da estrutura

protéica. A estrutura terciária é mantida por um grande número de ligações não-

covalentes e relativamente fracas. Na estrutura protéica, além das ligações

peptídicas, existem, também com caráter covalente, as ligações dissulfidricas (S-

S) que, contribuem com a estabilização da conformação protéica. Quatro outros

tipos de interações não-covalentes estão envolvidos na estabilização da estrutura

terciária: ligações iônicas, ligações de hidrogênio, efeito hidrofóbico e interações

de van der Waals. Na Figura II-2 são demonstrados exemplos para as interações

e para a ligação dissulfídrica que contribuem para a formação da estrutura

terciária de uma proteína [13].

Figura II-4 Tipos de interações moleculares que determinam as estruturas de um peptídeo.

II-13

As ligações iônicas ocorrem entre as cadeias laterais dos aminoácidos que

têm cargas opostas. As ligações iônicas são relativamente fracas no interior

celular, devido ao meio aquoso que solvata os íons formados. As ligações de

hidrogênio são interações fracas entre átomos eletronegativos (carga parcial

negativa) e átomos de hidrogênio (carga parcial positiva) ligados covalentemente a

outros átomos também eletronegativos. O efeito hidrofóbico (forças de London)

ocorrem entre grupos que não são solvatados pelo meio aquoso, as interações de

van der Waals são interações fracas que ocorrem em átomos próximos, auxiliando

na manutenção de sítios específicos [11].

A estrutura quaternária existe apenas em proteínas que são formadas por

mais de uma seqüência de polipeptídeo. Um exemplo dessa estrutura pode ser

observado na molécula da hemoglobina que é constituída por duas cadeias de

globulina α e duas cadeias de globulina β associadas a quatro grupos heme [11].

5. Funções Biológicas das Proteínas

As proteínas podem ser classificadas de acordo com a sua estrutura,

composição ou função biológica. Utilizando a atividade biológica para classificar as

proteínas têm-se as seguintes classes [10-14]:

• Enzimas

As enzimas possuem atividade catalítica altamente específica.

Praticamente todas as reações metabólicas envolvem alguma atividade catalítica

produzida por enzimas.

• Proteínas Transportadoras

Estas proteínas são responsáveis pelo ligamento e transporte de moléculas

ou íons de um órgão para outro no plasma sangüíneo. Ao passar pelos pulmões a

hemoglobina das hemácias liga-se ao oxigênio, transportando-o para os tecidos

periféricos onde o oxigênio é liberado para participar das oxidações de nutrientes

produtores de energia. O plasma sangüíneo contém também lipoproteínas que

transportam lipídios do fígado para outros órgãos. Outros tipos de proteínas

transportadoras estão presentes nas membranas celulares para ligar e transportar

glicose, aminoácidos, e outros nutrientes para dentro das células através da

membrana.

II-14

• Proteínas Nutrientes e de Reserva

Outro tipo de proteína comum, por exemplo, em sementes de plantas, tem a

capacidade de armazenar energia suficiente para fazer germinar o embrião da

planta. Alguns exemplos são as proteínas das sementes do trigo, arroz e milho.

Ovoalbumina, a principal proteína do ovo, e a caseína, a principal proteína do leite

são também exemplos de proteínas nutrientes. Em tecidos animais destaca-se a

ferritina que armazena ferro.

• Proteínas Contráteis ou de Movimento

Algumas proteínas possibilitam as células ou organismo à capacidade de

contrair-se, mudar de forma ou mover-se. Actina e Miosina são proteínas

filamentosas ou tubulares que agem no sistema contrátil de músculos esqueléticos

e também em muitas células não musculares. Um outro exemplo é a tubulina,

proteína com a qual os microtúbulos são construídos durante o processo de

divisão celular. Estes são componentes importantes de flagelos e cílios capazes

de movimentar células.

• Proteínas Estruturais

As proteínas estruturais servem como filamentos, cabos ou lâminas para

conferir firmeza ou proteção às estruturas biológicas. O Colágeno é uma proteína

fibrosa que concede resistência a tensões, pele e cartilagem. O Couro, por

exemplo, apresenta ligamentos ricos em elastina, uma proteína estrutural capaz

de distender-se em duas dimensões. Os cabelos, unhas e penas são constituídos

de uma proteína insolúvel chamada queratina.

• Proteínas de Defesa

Muitas proteínas têm a função de defender os organismos da invasão de

outras espécies ou contra lesões. As imunoglobulinas ou anticorpos de

vertebrados são proteínas responsáveis por precipitar ou neutralizar bactérias,

vírus invasores ou proteínas estranhas de outras espécies. Fibrinogênio e

trombina são proteínas coaguladoras que impedem a perda de tecido sangüíneo

por meio de lesões. O veneno de serpentes, as toxinas bacterianas e aricina

proteína tóxica de plantas, também parecem ter funções de defesa.

• Proteínas regulares

II-15

As proteínas reguladoras podem regular a atividade celular ou fisiológica.

Entre elas estão muitos hormônios como a insulina, que regula o metabolismo dos

açúcares, o hormônio do crescimento da pituitária, e o hormônio paratireóideo o

qual regula o transporte de Ca+2 e de fosfato. Outras proteínas reguladoras,

chamadas repressoras, regulam a biossíntese de enzimas por células bacterianas.

• Outras Proteínas

Existem outras numerosas proteínas cujas funções são as mais diversas

possíveis e de difícil classificação.

6. Síntese de Proteínas

A síntese de proteínas ocorre em um processo envolvendo duas grandes

etapas. Inicialmente a informação contida no genoma é transcrita para uma

seqüência de nucleotídeos mRNA. A próxima etapa consiste em transcrever o

gene codificado no mRNA para a seqüência de aminoácidos. No processo de

síntese de proteínas incluem diversas macromoléculas que atuam como

componentes estruturais dos ribossomos (organela onde ocorre a transcrição para

seqüências de proteínas) e catalisadores. O processo todo inclui em media 50

polipeptídeos e 3 a 5 moléculas de RNA presentes no ribossomo, pelo menos 20

enzimas ativadoras de aminoácidos, 30 a 60 moléculas diferentes de tRNA e

diversas proteínas solúveis que estão envolvidas no processo de inicio da

transcrição, alongamento e término da seqüência de aminoácidos [15].

a. Transcrição de Genes

O termo genoma designa toda a informação genética de um organismo

armazenada na forma de seqüência de ácido nucleico. Para os organismos

procariontes e eucariontes, toda a informação genética é armazenada no DNA

(ácido desoxiribonucleico) que é constituído por uma seqüência dupla de

nucleotídeos. Cada nucleotídeo é composto por um grupo fosfato, um açúcar de

cinco carbonos (pentose), e uma base nitrogenada. Para a molécula de DNA o

açúcar corresponde a 2-desoxiribose, enquanto para o RNA corresponde a ribose.

No DNA são comumente encontradas quatro bases nitrogenadas, sendo: Adenina

(A), guanina(G), Timina (T) e Citosina (C). Para o RNA a timina é substituída por

II-16

Uracila (U). A adenina e guanina apresentam um anel duplo e são classificadas

como purinas. A citosina, timina e uracila têm apenas um anel e são classificadas

como pirimidinas [10, 14].

No processo de transcrição uma fita de RNA complementar é produzida a

partir de uma das fitas de DNA. A transcrição deve ser realizada fielmente para

que as células tenham proteínas com as suas seqüências de aminoácidos

geneticamente determinadas. O processo de transcrição pode gerar quatro tipos

diferentes de RNA. O primeiro e mais comum corresponde ao RNA mensageiro

(mRNA); este é enviado aos ribossomos para codificar seqüências de

aminoácidos. O segundo tipo, RNA transportador, são pequenas moléculas de

RNA que funcionam como adaptadores entre os aminoácidos e as suas

respectivas codificações no processo de transcrição. O terceiro tipo corresponde

aos RNA ribossômicos, que são os componentes estruturais dos ribossomos,

onde ocorre o processo de tradução da seqüência de mRNA da seqüência de

aminoácido. Os RNA nucleares (snRNA) têm a função de selecionar as regiões de

íntrons (seqüências intercalares) nos genes as quais não fazem parte da

informação gênica transcrita. A função das regiões de íntrons ainda não foi

totalmente elucidada, entretanto pressupõe-se que tenham a importante função de

conservação e controle da informação genética [14].

O conceito mais amplo de gene pode ser definido como uma seqüência de

um cromossomo (DNA) que codifica uma cadeia polipeptídica única com uma

molécula de RNA. Para os organismos procariontes normalmente as seqüências

de mRNA transcrita do DNA são completamente complementares. Entretanto para

organismos eucariontes ocorre um procedimento pos-transcrisional, sendo que

apenas algumas partes do gene codificarão a seqüência de aminoácidos. A

Figura II-5 ilustra os processo de transcrição gênica. Inicialmente ocorre a

transcrição de toda a seqüência onde está contido o gene, formando um mRNA

que ainda não tem a capacidade de codificar uma seqüência protéica de interesse

para o organismo. Em seguida as regiões que não codificam a seqüência de

mRNA desejada (introns) são eliminadas, restando apenas as regiões de exon

II-17

(seqüências expressas), onde está a codificação da seqüência de aminoácidos

desejada [14].

Figura II-5 Esquema geral do processo de transcrição em eucariontes.

b. Tradução do mRNA

Após a transcrição o mRNA é transportado para os sítios de síntese de

polipeptídeos no retículo endoplasmático rugoso. Na etapa da tradução a

informação genética contida nas seqüências de mRNA é transferida para as

seqüências de aminoácidos. O processo de tradução ocorre nos ribossomos, onde

estão envolvidos três tipos de RNA, o RNA mensageiro que contem a informação

a ser traduzida, RNA ribossômico que constitui uma parte estrutural do ribossomo

e os tRNA (RNA transportador) que codificam os aminoácidos corretos para a

formação da seqüências polipeptídicas. O processo completo de síntese de

proteína é ilustrado na Figura II-6. Este processo ocorre no citoplasma e apresenta

cinco etapas, cada uma catalisada por enzimas ou complexos enzimáticos

específicos:

• Etapa 1: Ativação dos aminoácidos:

Cada um dos aminoácidos é ligado a um tRNA específico com o consumo

de energia (ATP). Estas reações são catalisadas por enzimas dependentes

de Mg+2 [11,14].

• Etapa 2: Iniciação da cadeia polipeptídica:

II-18

No ribossomo o RNA mensageiro combina-se com o primeiro tRNA ligado

ao seu respectivo aminoácido. O tRNA inicial forma um par de bases com

uma trinca de nucleotídeos específica, codon, que assinala o inicio da

cadeias polipeptídica [11,15].

• Etapa 3: Alongamento da cadeia:

A cadeia polipeptídica é alongada por ligações covalentes de unidades

sucessivas de aminoácidos [11].

• Etapa 4: Término e liberação:

O termino da cadeia é sinalizada pelo codon de finalização no mRNA e

liberação da seqüência de aminoácido [15].

• Etapa 5: Enovelamento e Processamento:

O processo de enovelamento e as modificações realizadas por enzimas

específicas ocorrem simultaneamente com as etapas anteriores, fazendo

com que o polipeptídeo assuma a sua conformação tridimensional.

Figura II-6 Esquema geral do processo de tradução em eucariontes.

II-19

c. O código Genético

Durante a tradução, a seqüência de nucleotídeos no RNA transcrito é

convertida na seqüência de aminoácidos no produto polipeptídico do gene. Esta

conversão é governada pelo código genético que corresponde a especificação dos

aminoácidos pelas trincas de nucleotídeos denominadas de códons. O conjunto de

códons e os respectivos aminoácidos codificados estão listados na Tabela II-1.

[10]

Tabela II-1 Código genético

Segunda letra dos códons

U C A G

Prim

eira

letra

dos

cód

ons

U

UUU Phe

UUC Phe

UUA Leu

UUG Leu

UCU Ser

UCC Ser

UGA Ser

UCG Ser

UAU Tyr

UAC Tyr

UAA Fim

UAG Fim

UGU Cys

UGC Cys

UGA Fim

UGG Trp

U

C

A

G

Terceira letra do codon

C

CUU Leu

CUC Leu

CUA Leu

CUG Leu

CCU Pro

CCC Pro

CCA Pro

CCG Pro

CAU His

CAC His

CAA Gln

CAG Gln

CGU Arg

CGC Arg

CGA Arg

CGG Arg

U

C

A

G

A

AUU Ile

AUC Ile

AUA Ile

AUG Met

ACU Thr

ACC Thr

ACA Thr

ACG Thr

AAU Asn

AAC Asn

AAA Lys

AAG Lys

AGU Ser

AGC Ser

AGA Arg

AGG Arg

U

C

A

G

G

GUU Val

GUC Val

GUA Val

GUG Val

GCU Ala

GCC Ala

GCA Ala

GCG Ala

GAU Asp

GAC Asp

GAA Glu

GAG Glu

GGU Gly

GGC Gly

GGA Gly

GGG Gly

U

C

A

G

Na Tabela II-1 existem dois códigos selecionados, a trinca AUG em

organismos procariontes e eucariontes geralmente especifica o início do processo

II-20

de tradução. Os códons UAG, UAA E UGA especificam o termino do processo de

formação da cadeia polipeptídica.

A conclusão de todo o código genético ocorreu até a primeira metade da

década de 1960 e algumas propriedades importantes são [10,15]:

1) O código genético é composto de trincas de nucleotídeos. Três

nucleotídeos no mRNA especificam um aminoácido no produto

polipeptídico.

2) O código genético não tem superposição. Cada nucleotídeo no mRNA

pertence a apenas um códon.

3) O código genético não tem pontuação. Durante a tradução não existem

intervalos, a seqüência é traduzida consecutivamente.

4) O código genético é redundante. Apenas dois aminoácidos são

especificados por apenas um codon.

5) O código genético é ordenado. Vários códons diferem-se apenas de um

nucleotídeo em uma posição diferente.

6) O código genético contém códons de início (AUG) e final (UAG, UAA E

UGA).

7) O código genético é quase universal. Existem poucas exceções em

alguns aminoácidos para algumas espécies de microrganismos.

Através do código genético é possível avaliar quais são as possíveis

cadeias de polipeptídeos que podem ser formadas a partir de um gene ou

seqüência de mRNA.

Capítulo III - Algoritmos Genéticos

III-22

1. Introdução

Os Algoritmos Genéticos (GA - sigla do nome em inglês genetic algoritm)

são técnicas de otimização multidimensionais, inspiradas em mecanismos de

seleção e genética natural. Os algoritmos genéticos foram criados com o intuito

de simular alguns processos observados nas populações de espécies

envolvendo evolução natural. Os mecanismos que realizam esta evolução

ainda não estão completamente elucidados, entretanto algumas características

são bem compreendidas e aceitas [16].

O processo de evolução envolve modificações nas informações

genéticas dos seres vivos. A evolução ocorre, portanto nos genes, que são os

elementos orgânicos responsáveis pelas codificações genéticas dos seres

vivos [17].

As principais características da teoria evolucionária são [17]:

a) A seleção natural é um processo que atua sobre a os indivíduos de

acordo com a aptidão que estes apresentam no ambiente;

b) A seleção natural é o elo entre os genes e o desempenho das suas

estruturas decodificadas. O processo de seleção natural faz com que

os genes que codificam características que tornam os indivíduos

melhor adaptados sejam reproduzidas mais vezes e com maior

probabilidade que as estruturas mal sucedidas;

c) O processo de reprodução é o ponto onde a evolução acontece.

Mutações podem provocar mudanças nos cromossomos dos filhos,

fazendo com que eles sejam diferentes dos padrões genéticos dos

seus pais;

d) A evolução biológica não tem memória. Toda a informação sobre

como produzir indivíduos bem adaptados ao meio ambiente está

contida no seu genoma, conjunto de genes carregados pelos

indivíduos da população atual.

No começo da década de 70, John Holland, pesquisava as

características da evolução natural, considerando que estas características

poderiam ser adequadamente incorporadas a algoritmos computacionais

III-23

dedicados a solucionar problemas complexos de forma semelhante à natureza,

ou seja, utilizando a evolução natural [17].

Baseado em premissas que descrevem a teoria da evolução natural,

foram criados conceitos computacionais análogos aos existentes no processo

de evolução natural. Os cromossomos podem ser representados por conjuntos

binários de números ou símbolos (strings ou cadeias) contendo 0 e 1.

Realizando uma simulação do processo natural, os primeiros algoritmos

genéticos resolviam problemas através da manipulação de strings binários,

encontrando os cromossomos que melhor representavam a solução do

problema através de um mecanismo de transcrição da informação genética

[17].

Outro ponto interessante na técnica desenvolvida por Holland, refere-se

à natureza dos cromossomos artificiais que não têm conhecimento algum

referente ao tipo de problema que estão resolvendo. A única informação

disponível é uma avaliação de cada cromossomo produzido. O objetivo desta

avaliação é verificar quais são os cromossomos (conjunto de genes) que

produzem soluções mais adaptados. Esta definição do grau de adaptação

reflete-se no aumento das suas chances de seleção dos cromossomos para

reprodução e formação da geração posterior [17].

2. Estrutura dos Algoritmos Genéticos

A técnica usada para codificar as soluções varia de acordo com o

problema a ser estudado. A codificação clássica proposta por Holland é a mais

utilizada. A codificação clássica (Figura III–1), utilizada em problemas que

possuem variáveis contínuas e cujas soluções requeridas necessitam boa

precisão numérica, torna os cromossomos longos. Para cada ponto decimal

acrescentado na precisão, é necessário adicionar 3,3 bits no string [18]. A

conseqüência imediata do aumento do string, que representa o cromossomo, é

o aumento do tempo computacional necessário para calcular transformar a

representação binária em decimal.

III-24

Figura III–1 Representação clássica de um cromossomo.

Outros tipos de codificação de cromossomos foram desenvolvidos,

gerando codificações adequadas para problemas específicos, sendo que a

forma não clássica mais utilizada é a codificação real. Esta forma de

codificação consiste em representar, um gene ou cromossomo relacionado a

uma variável numérica contínua através de seu próprio valor real. A escolha da

forma de codificação deve ser feita criteriosamente, pois uma codificação

errada pode não levar ao resultado correto, ou aumentar demasiadamente o

tempo de processamento [19].

O elemento de ligação entre o GA e o problema a ser resolvido é a

função de avaliação ou aptidão. A função de avaliação, também chamada de

função de aptidão, toma como entrada um cromossomo e retorna um número,

ou lista de números, que representam a medida de desempenho do

cromossomo com relação ao problema a ser resolvido. Esta função

desempenha no GA o mesmo papel que o meio ambiente na teoria da evolução

natural das espécies.

De maneira geral, um GA pode ser descrito através do fluxograma

apresentado na Figura III–2, que apresenta as seguintes características gerais

[18-20]:

a) Operam em um conjunto de pontos, denominado como população, e

não a partir de pontos isolados;

b) Trabalham com um conjunto de parâmetros codificados e não com os

próprios parâmetros;

III-25

c) Utilizam informação da função objetivo, denominada função de

adaptabilidade ou fitness;

d) Usam transições probabilísticas.

Figura III–2 Esquema geral de um algoritmo genético.

3. Operadores Genéticos

A estrutura de um algoritmo genético apresenta elementos que realizam

modificações nos cromossomos para produzir novos cromossomos ou

indivíduos, estes elementos chamados de operadores genéticos podem ser

basicamente crossover, mutação e inversão [17].

O operador crossover corresponde a troca de informações genéticas

entre dois indivíduos (pais) para formar dois novos indivíduos diferentes

(filhos), que guardam influências dos pais. Existem várias formas de realizar

este cruzamento. O operador crossover, mais simples, corresponde à troca de

um ponto escolhido aleatoriamente sobre o comprimento do cromossomo, em

III-26

seguida os bits correspondentes são trocados, como é mostrado na

Figura III–3. [17, 21]

Figura III–3 Operador crossover simples. Outra forma de operador crossover consiste em permutar substrings dos

cromossomos pais, gerando também dois indivíduos filhos, como demostrado

na figura III-4 [17,21].

Figura III–4 Operador crossover para permutar substrings dos cromossomos.

Comparando os dois tipos de operadores crossover o primeiro, apesar da

simplicidade, apresenta a possibilidade de realizar permutações não efetivas,

caso a posição selecionada tenha o mesmo valor binário. A segunda forma de

operador crossover é mais eficiente, pois a probabilidade de existir substrings

iguais é menor.

O operador mutação consiste em criar perturbações na cadeia dos

cromossomos dando origem a um novo string, este pode guardar pouca ou

nenhuma informação da cadeia mãe. A mutação é a denominação dada a

III-27

vários mecanismos de alterações genéticas, que criam novos cromossomos.

Esta alteração ocorre de forma que cada gene em cada cromossomo é um

candidato à mutação. A probabilidade de execução da mutação é mantida,

usualmente, em um valor baixo, para evitar a perda de um número grande de

cromossomos bem adaptados.

O objetivo do operador mutação nos GAs consiste em possibilitar o

processo de busca em regiões não exploradas pela população e prevenir a

convergência prematura para soluções locais. Os principais mecanismos de

execução do operador mutação são: adição, remoção, inversão e troca simples,

Na adição ocorre a inserção de mais um bit na cadeia, o processo inverso

corresponde a remoção. Estes dois mecanismos são empregados somente em

situações onde torna-se necessário alterar o comprimento da cadeia do

cromossomo para remover informações irrelevantes ou adicionar a capacidade

de representar mais informações [17, 22].

A troca simples consiste em selecionar uma posição ou conjunto de

posições e permutar todos os valores da região selecionada (Figura III–5). Para

a representação binária, se em uma posição estiver o valor lógico 1, este será

trocado para 0 e o inverso também é válido. A Figura III–5 demonstra o

mecanismo de troca simples para um operador mutação.

Figura III–5 Operador mutação baseado em troca simples.

III-28

O mecanismo de inversão consiste na retirada de um pedaço da cadeia e

a inserção desta cadeia invertida [17]. Os efeitos deste mecanismo podem ser

visualizados na Figura III–6.

Figura III–6 Mecanismo de inversão para o operador mutação.

Comparando os mecanismos para realizar uma mutação o operador

baseado na troca simples é mais eficiente, pois este sempre retornará um

individuo diferente. Entretanto o mecanismo de inversão pode selecionar uma

região de simetria no cromossomo, como por exemplo, o string 1001, que ao

ser invertida não provoca modificações no individuo, podendo gerar um sistema

com vícios, impedindo a convergência do algoritmo genético.

4. Seleção Genética

A finalidade do processo de seleção em um algoritmo genético é

escolher os elementos da população que serão utilizados pelos operadores

genéticos para produzir novos indivíduos. Em problemas de maximização, esta

escolha deve ser realizada de maneira que os indivíduos mais aptos da

população tenham maior chance de reprodução. Esta operação corresponde a

versão artificial da seleção das espécies do Darwinismo, sendo que os seres

mais aptos têm maior probabilidade de sobreviver, ou seja, os mais fortes e

menos vulneráveis aos predadores e doenças. O objetivo principal da seleção é

III-29

preservar as melhores soluções, eliminando as soluções de baixa aptidão. A

Seleção pode ser realizada da seguinte forma [23]:

a) Identificação das melhores soluções;

b) Realização de múltiplas cópias das melhores soluções através dos

operadores genéticos;

c) Eliminação das soluções de baixa aptidão na população.

A quantidade de indivíduos selecionados depende da implementação do

algoritmo genético, podendo ser um número fixo ou uma quantidade

proporcional ao tamanho da população, com, por exemplo, 30% dos indivíduos

serão selecionados, e o restante eliminado. Existe um grande número de

estratégias de seleção. As mais comuns são seleção por torneio e seleção por

ranking. Na seleção por torneio, são realizadas várias competições entre duas

soluções, e as melhores soluções são selecionadas. Este método é

caracterizado por apresentar uma pequena complexidade computacional. A

estratégia de seleção pelo ranking ordena os cromossomos de acordo como o

seu valor de aptidão, desde o melhor (ranking 1) até o pior (ranking N). Depois,

o número de cópias das soluções é proporcional ao valor de ranking [17, 23].

5. Parâmetros Genéticos

A implementação de um algoritmo genético exige a definição de alguns

parâmetros intrínsecos. A determinação correta destes parâmetros possibilita

ao algoritmo genético a sua convergência para soluções ideais associado a

uma boa administração dos recursos computacionais [17, 23].

a) Tamanho da População:

O tamanho da população determina o número de cromossomos na

população, afetando o desempenho global e a eficiência dos algoritmos

genéticos. Com uma população pequena o desempenho pode tornar-se

ineficiente, pois a população fornecerá uma pequena cobertura do

espaço de busca do problema. Uma grande população geralmente

fornece uma cobertura representativa do domínio do problema, além de

prevenir convergências prematuras para soluções locais ao invés de

globais. No entanto, para se trabalhar com grandes populações, são

III-30

necessários recursos computacionais além de possivelmente aumentar o

tempo de processamento do algoritmo genético;

b) Taxa de Cruzamento (crossover):

Este parâmetro determina a probabilidade de ocorrência do operador

cruzamento. Quanto maior for esta taxa, mais rapidamente novas

estruturas serão introduzidas na população. Entretanto se este

parâmetro for muito alto uma grande parte da população será substituída

podendo ocorrer perdas de estruturas com alta aptidão. Se a taxa for

muito baixa o algoritmo ficará estagnado em algumas regiões do espaço

de busca.

c) Taxa de Mutação:

Determina a probabilidade de ocorrência de uma mutação. Uma baixa

taxa de mutação previne a convergência prematura para um ótimo local,

possibilitando ao algoritmo explorar melhor todo o espaço de busca. Uma

taxa de mutação muito alta faz com que o processo de busca torne-se

essencialmente aleatório;

d) Intervalo de Geração:

Controla a porcentagem da população que será substituída durante a

próxima geração. Com um valor alto, a maior parte da população será

substituída, podendo ocorrer perda de estruturas de alta aptidão. Com

um valor baixo, o algoritmo pode tornar-se muito lento.

6. Passos de Implementação de um Algoritmo Genético

Para resolver um determinado problema utilizando GA, os seguintes

passos podem ser seguidos [19, 23]:

a) Definir uma representação a ser utilizada para os indivíduos de

maneira que uma solução completa possa ser descrita;

b) Definir as estratégias de substituição, seleção, cruzamento e

mutação;

c) Definir a regras ou função que definem a aptidão dos indivíduos;

d) Ajustar os parâmetros: tamanho da população, probabilidade de

cruzamento, probabilidade de mutação, probabilidade de substituição,

III-31

e) Definir os critérios de convergência e finalização do algoritmo

genético.

7. Aplicação dos Algoritmos Genéticos

Os algoritmos genéticos são frequentemente empregados em problemas

de otimização e parametrização de funções matemáticas ou processos diversos

tais como rotas de busca, controle de dispositivos ou simulação de animais em

ambientes confinados [24]. Aplicados diretamente a problemas químicos

destacam-se problemas de minimização da estruturas de clusters atômicos e

moleculares [25-28], minimização de estruturas de proteínas [23], definição de

estruturas químicas de pequenas moléculas orgânicas [16], definição da

estrutura cristalina a partir de dados de difração de raios-X [25] e inversão de

espectros de meia vida de positrônio [20]. Devido a grande potencialidade da

técnica de algoritmos genéticos, estes têm sido aprimorados constantemente

com o desenvolvimento de operadores genéticos específicos para os

problemas de minimização de estruturas de clusters [29].

Capítulo IV - Lógica Fuzzy

IV-33

1. Introdução

Ao longo da história humana, muitos se dedicaram ao estudo da lógica.

Aristóteles, filósofo grego (384 - 322 a.C.) e um dos fundadores da ciência da

lógica, estabeleceu um conjunto de regras rígidas para obter conclusões

válidas em termos lógicos. A lógica de Aristóteles leva a uma linha de

raciocínio lógico baseada em premissas e conclusões, como por exemplo,

”Todo ser vivo é mortal” (premissa 1), a seguir é constatado "Geison é um ser

vivo" (premissa 2), como conclusão, temos que “Geison é mortal” [30,31].

A lógica de Aristóteles proporcionou a criação de um conceito de lógica

Ocidental binária, conhecida normalmente como lógica clássica, baseada

unicamente em declarações falsas ou verdadeiras, não podendo existir

afirmações que sejam parcialmente verdadeiras e parcialmente falsas. Dessa

forma, a afirmação de uma premissa e a sua negação cobre todo o espaço de

decisão [30, 31].

Após o surgimento dos paradoxos de Russel e da incerteza de

Heisenberg, o pesquisador polonês Lukasiewicz desenvolveu uma lógica

“multivalente” por volta de 1920. Esta nova teoria refinou a lógica binária (sim

- não) [30, 31].

O conceito formal de conjunto nebuloso (fuzzy) e os fundamentos da

Lógica Difusa foram desenvolvidos por Lotfi A. Zadeh em 1965, a partir da

lógica de Lukasiewicz. O desenvolvimento da lógica fuzzy foi impulsionado

pelo fato que recursos tecnológicos disponíveis na época eram incapazes de

automatizar as atividades relacionadas a problemas de natureza industrial,

biológica ou química, que compreendessem situações ambíguas e que não

eram passíveis de processamento através da lógica computacional a qual é

fundamentada na lógica booleana [32].

A teoria dos conjuntos nebulosos tem a capacidade de tratar a

imprecisão ou incerteza da informação. A lógica fuzzy corresponde a uma

formulação mais geral para as questões lógicas, possibilitando valores de

certeza intermediários aos definidos pela lógica binária (0 ou 1, sim ou não).

IV-34

A lógica nebulosa é, portanto, menos restritiva e mais adequada para o

tratamento de informações fornecidas por seres humanos.

A lógica fuzzy é atualmente uma tecnologia bem sucedida para o

desenvolvimento de sistemas de controle de processos sofisticados [32],

possibilitando a implementação de controladores simples e de fácil

manutenção para processos que necessitam de múltiplas soluções, com grau

de certeza variado. O uso de sistemas construídos com base na lógica fuzzy

são denominados controladores nebulosos ou fuzzy, os quais são

perfeitamente aplicáveis em problemas onde o modelo matemático está

sujeito a incertezas [30, 32].

Algumas aplicações para os controladores fuzzy podem ser citadas

com maior destaque, como por exemplo, o controle de um forno de cimento,

seguido posteriormente por outros controladores desenvolvidos para plantas

nucleares, refinarias, processos bioquímicos, tratamento de água, operação

automática de trens [30].

2. Lógica Fuzzy

A Lógica fuzzy corresponde a uma aplicação da teoria dos conjuntos

nebulosos. Na matemática clássica, define-se um conjunto como uma coleção

de elementos distintos que podem ser finitos ou não. Este conjunto pode ser

descrito de várias maneiras, entre as quais, destacam-se: a enumeração de

cada um de seus elementos (A = 1,2,3,4), ou uma condição de pertinência

(A = x | x≤5) [30].

Formalmente, um conjunto fuzzy A do universo de discurso Ω é definido

por uma função de pertinência µA: Ω [0,1]. Essa função associa a cada

elemento x do universo (Ω) um grau µA(x), sendo que x ∈ A [30]. A função de

pertinência µA(x) apresenta valores entre 0 e 1. Esta função define o grau de

compatibilidade entre x e o conceito expresso por A:

• se µA(x)=1, x é completamente compatível com A, ou seja

completamente verdadeiro [30, 33];

IV-35

• se µA(x)=0, x é completamente incompatível com A, ou seja

completamente falso [30, 33];

• se 0>µA(x)>1, x é parcialmente compatível com A de acordo com o

grau de µA(x) [30, 33];

Um conjunto A da teoria dos conjuntos clássicos pode ser visto como um

conjunto nebuloso específico, como sendo µA: Ω 0,1 e denominado

“crisp”, ou seja, a função de pertinência é do tipo “tudo ou nada”, “sim ou

não”, 1 ou 0.

A diferença entre a lógica clássica e nebulosa pode ser visualizada na

Figura IV -1, que descreve respectivamente o conceito de adolescente

através de um conjunto “crisp” (gráfico A) e através de um conjunto fuzzy

(gráfico B).

Figura IV-1 A) Função característica do conjunto “crisp”adolescente. B) Função trapezoidal característica do conjunto fuzzy adolescente.

O conjunto “crisp” A não exprime completamente o conceito de

“adolescente”, pois uma pessoa com 12 anos e 11 meses seria considerada

completamente incompatível com este conceito. Entretanto o conjunto

nebuloso B permite exprimir que qualquer pessoa com idade entre 13 e 17 é

completamente compatível com o conjunto adolescente. Acima de 19 ou

abaixo de 11 não existe compatibilidade. Para valores nos intervalos [11, 13]

e [17,19] a compatibilidade é parcial. Algumas funções de pertinência

IV-36

aplicadas com maior freqüência em estudos e desenvolvimentos de lógica

nebulosa são ilustradas na Figura IV-2 [30-34].

Figura IV-2 Principais funções de pertinência.

A cardinalidade de um conjunto nebuloso A pode ser expressa como [30, 34]:

• Universo discreto

( )∑Ω∈

=x

A xA µ|| (IV-1)

• Universo contínuo

( )∫Ω

= xA Aµ|| (IV-2)

Algumas propriedades e conceitos dos conjuntos nebulosos são

mostrados graficamente na Figura IV-3. Os casos extremos do conjunto

nebuloso que apresentam total compatibilidade com o conceito expresso por

A formam o subconjunto nebuloso núcleo, denotado por Nµ(A), e definido

matematicamente pela eq. 3

NucleoxxAN A ==Ω∈= 1)(|)( µµ (IV-3)

Outra definição importante corresponde ao suporte, Sµ(A)(Figura IV-3),

que agrupa todos os elementos de Ω que são totalmente ou parcialmente

compatíveis com o conceito de A. Matematicamente o suporte corresponde a

todos os elementos que apresentam µA(x)>0, como descrito pela eq. 4

IV-37

SuportexxAS A =>Ω∈= 0)(|)( µµ ( IV-4)

A partir da definição de um valor no intervalo aberto (0,1), é possível

obter conjuntos intermediários entre o núcleo e o suporte. Estes

subconjuntos, denotados por Cα (Figura IV-3) e definidos pela eq. 5 são

denominados de cortes de nível ou cortes-α, para a Figura IV-3 o corte-α é

realizado em 0.5.

αµα >Ω∈= )(|)( xxAC A ( IV-5)

A altura do conjunto A, (eq. 6) representa o maior grau de

compatibilidade dos elementos de Ω em relação ao conceito expresso por A.

Se a altura máxima for igual a 1 (Figura IV-3), o conjunto é classificado como

normalizado.

))(max()( xAAltura Aµ= ( IV-6)

Figura IV-3 Cardinalidade, altura, suporte e núcleo e o corte de nível 0.5 do conjunto fuzzy A.

IV-38

3. Operações em Conjuntos Nebulosos

a. t-normas e s-normas

Para desenvolver os conceitos relacionados às operações de

intercessão, união e complemento de conjuntos nebulosos, considere os

conjuntos A e B definidos em Ω. A intercessão dos conjuntos A e B pode ser

expressa por outro conjunto conforme a expressão I=A∩B, de forma

semelhante, a união é representada pelo conjunto U=A∪B.

Na teoria de conjuntos nebulosos a intercessão é implementada pelos

operadores t-normas enquanto a união pode ser definida pelos operadores t-

conormas ou s-normas [30, 34].

Uma função t-norma ou s-norma definida como F, para operar em dois

conjuntos nebulosos, A e B, deve apresentar a mesma dimensão dos

conjuntos em questão, ou seja, F: [0,1]2 [0,1]. Portanto, a função F deve

ser, comutativa, associativa e monotônica se F satisfaz as seguintes

propriedades, respectivamente, para ∀ (a, b) ∈ [0,1], como descrito a seguir

[30, 31]:

• Comutatividade : );,(),( abFbaF =

• Associatividade: );),,(()),(,( cbaFFcbFaF =

• Monotonicidade: ;),(),( dbecasedcFbaF ≤≤≤

Os operadores t-norma e s-norma diferem-se em relação a definição do

elemento neutro. Para que um operador do tipo T:[0,1]2 [0,1] possa ser

classificado como t-norma ele deve ser comutativo, associativo, monotônico e

apresentar o seguinte o elemento neutro:

• Elemento neutro t-norma =1: 1)1,( =aT

Igualmente, um operador s-norma deve ser comutativo, associativo,

monotônico e apresentar a seguinte definição para o elemento neutro [31]:

• Elemento neutro s-norma = 0: .)0,( aaS =

IV-39

O operador negação para uma t-norma ou s-norma são definidas pelas

relações de Morgan (eq. 7) definidas para ∀ (a, b) ∈ [0,1] [31]. A negação

dos termos a e b pode ser feita pelo principal operador negação, a=1-a.

),(),(),(),(baTbaSbaSbaT

¬¬=¬¬¬=¬ 1( IV-7)

A utilização de conjuntos crisp µA=0,1 reduz a lógica nebulosa à

lógica clássica, da mesma forma que as t-norma e s-normas são reduzidas

aos operadores intercessão e união clássicos.

A Tabela IV-1 mostra as principais t-normas e s-normas mais utilizadas

em estudos e aplicações da lógica nebulosa. Considerando que os conjuntos

A e B apresentam funções de pertinência triangular, o esboço geral para as

principais t-normas está na Figura IV–4 enquanto as s-normas estão na

Figura IV–5. Algumas características importantes correspondem a expressão

de cada t-norma e s-norma. A t-norma Zadeh apresenta maior expressão

enquanto a t-norma de Weber tem a menor região de cobertura. Para as s-

normas ocorre uma inversão a s-norma de Zadeh tem uma área menor

enquanto a s-norma de Weber apresenta a maior área, como pode ser

visualizado na Figura IV-5 [30].

Tabela IV-1. Principais operadores t-norma e s-norma

t-norma s-norma Nome

),min( ba ),max( ba Zadeh

ba. baba .−+ Probabilística

)0,1max( −+ ba )1,min( ba + Lukasienwiez

==

01,1

asebbsea

==

100

asebbsea Weber

1 O simbolo lógico significa negação

IV-40

Figura IV-4 Esboço das principais t-normas.

Figura IV-5 Esboço das principais s-normas.

b. Operador Implicação

Os operadores de implicação I:[0,1]2 [0,1] são utilizados para modelar

regras de inferência do tipo SE <premissa> ENTÃO <conclusão>.

Considerando que A e B estão associados às funções de pertinência µA e µB

a relação A B (Se A então B) é expressa como [30,31]:

))(),((),( yxIyxb BAA µµµ =→ ( IV-8)

As principais expressões matemáticas para o operador implicação estão

relacionadas na Tabela IV-2

IV-41

Tabela IV-2 Principais operadores de implicação

t-norma Nome

),1max( ba− Kleene-Diemes

)1,1min( ba +− Lukasienwiez

≤

ãobase

sen,0,1 Rescher-Gaines

≤

ãobbase

sen,,1 Brower-Gödel

≠

ãobaseab

sen,1),,min( Goguen

aba +−1 Reichenbach “estocástica”

),min(,1max( baa− Zadeh-Wilmott

),min( ba Mamdani

ba. Larsen

Alguns operadores implicação têm correspondência matemática com alguma

t-norma, como por exemplo: os operadores de implicação Larsen e Mamdani

são equivalentes a t-normas probabilística e Zadeh, respectivamente.

4. Controladores Fuzzy

Para a construção de um controlador nebuloso é necessário definir

primeiramente as variáveis lingüísticas, como por exemplo, através de uma

quádrupla (X,Ω,T(X),µX), sendo X o nome da variável, Ω o universo de

discurso (espaço) de X, T(X) é um conjunto de nomes para os valores de X, e

µX é uma função que associa para cada elemento de T(X) uma função de

pertinência [35].

A Figura IV–6 mostra a variável lingüística característica de cada idade

humana com os termos nebulosos muito jovem, jovem, adulto, idoso e muito

idoso.

IV-42

Figura IV-6 Termos lingüísticos que mapeiam a variável características de cada idade.

Os controladores fuzzy são facilmente adaptáveis e podem incorporar

conhecimento de outros sistemas. Estes são também versáteis,

principalmente quando o modelo físico é de difícil representação matemática.

Os controladores fuzzy são empregados com maior freqüência em sistemas

que apresentam uma incerteza intrínseca [30, 36].

A Figura IV–7 mostra a estrutura geral de um controlador nebuloso,

formado pela base de conhecimento, interface de fuzzificação, procedimento

de inferência e interface de defuzzificação, cada um destes elementos serão

descritos a seguir [36].

A interface de fuzzificação corresponde á transformação da entrada do

sistema em conjuntos nebulosos. O processo de fuzzificação identifica os

valores de entrada das variáveis que caracterizam o sistema e as normaliza

para o universo de discurso padronizado.

A base de conhecimento que caracteriza o problema e a estratégia de

controle é formada por uma base de dados e uma base de regras. Na base

de dados são armazenadas as definições do espaço e as funções de

pertinência dos termos nebulosos. A base de regras é composta normalmente

por regras de produção do topo SE <premissa> ENTÃO <conclusão> [36].

IV-43

As regras e os dados de entrada são processados pelo procedimento

de inferência; este irá deduzir as ações de controle de acordo com o estado

do sistema analisado, através da aplicação de operadores nebulosos,

intercessão (t-normas), união (s-normas) e implicação.

Figura IV-7 Estrutura de um controlador fuzzy.

O processo de inferência pode ser descrito pelos seguintes tópicos [30]:

1) Verificação dos graus de compatibilidade global entre os fatos e as

cláusulas nas premissas das regras:

2) Determinação dos graus de compatibilidade global das premissas de cada

regra;

3) Determinação do valor de conclusão em função dos graus de pertinência;

4) Obtenção da ação de controle global.

Algumas estratégias de controle são: controle nebuloso clássico,

controle de Mandani e Larsen [30], controle por interpolação e controle de

Tsukamoto [30], sendo que dentre estes apenas o controle clássico será

explorado devido a sua aplicação no desenvolvimento do trabalho desta

dissertação.

Para um controlador fuzzy clássico, cada conclusão é modelada por um

conjunto nebuloso com funções de pertinência com formatos diferenciados,

triângulos, trapézios, sino, dentre outras.

O controle clássico apresenta os seguintes passos [31, 37]:

IV-44

Passo1: Cada variável de estado deve assumir um conjunto nebuloso

definido por uma função de pertinência, ou seja, não pode existir um conjunto

totalmente excludente;

Passo 2: A compatibilidade do valor de entrada é calculada para cada

premissa e cada regra, no universo de discurso, logo as funções de

pertinência devem cobrir todo o espaço;

Passo 3: Obtém-se a compatibilidade global a partir de um operador t-

norma;

Passo 4: Identifica-se o conjunto nebuloso que mais contribui para a

compatibilidade do valor de entrada;

Passo 5: A partir de um operador s-norma é avaliada a contribuição de

todos as regas no processo de decisão.

A etapa final do controlador nebuloso é a interface de defuzzificação

que corresponde a tradução do controle nebuloso obtido pelo sistema de

inferência para a ação de controle, ou seja, nesta etapa são retornadas as

ações de controle para o sistema. Na defuzzificação a partir de um controle

nebuloso inferido são realizados os controles não nebulosos. Os principais

métodos de defuzzificação utilizados são [30, 37]:

1) Primeiro máximo: O valor de saída é encontrado a partir do primeiro valor

máximo (máximo local) definido pelas funções de pertinência;

2) Método da media dos máximos: O valor de saída é defindo pela média de

todos os valores máximos definidos pelas regas;

3) Método do centroide: O valor de saída corresponde ao centro de

gravidade da função de pertinência.

A escolha do método de defuzzificação depende da natureza do controle a

ser realizado.

Capítulo V - Algoritmo Genético Implementado

V-46

1. Estrutura do Algoritmo Genético Implementado

O sistema de otimização e parametrização implementado neste estudo

corresponde a um sistema híbrido que contém as diretrizes de otimização dos

algoritmos evolutivos associado à técnica de controle fornecida pela lógica

nebulosa e a técnicas de classificação de dados por agrupamento. A técnica de

classificação corresponde à realização de agrupamentos por distância mínima e

será explicada neste capitulo. A lógica fuzzy é utilizada para obter a função fitness

e para controlar os operadores genéticos crossover, mutação, seleção natural

[17,30]. A Figura V–1 mostra a estrutura do algoritmo genético desenvolvido, as

próximas seções descrevem detalhadamente cada parte do sistema. O sistema

implementado é capaz de encontrar múltiplas soluções para sistemas complexos.

Figura V–1 Estrutura geral do algoritmo genético implementado.

V-47

a. População Inicial

A representação de cada indivíduo pode ser realizada de três formas

diferentes, cada uma corresponde a um vetor de N componentes, sendo N o

número de elementos a serem otimizados. A primeira representação corresponde

a um vetor com strings binários de 0 e 1 (0’s e 1’s), que serão utilizadas pelos

operadores genéticos. A segunda representação é obtida a partir da conversão do

vetor de strings binários para o valor real com intervalos definidos de acordo com

a função ou propriedade do sistema analisado que será otimizado/parametrizado.

A terceira representação, semelhante à segunda, corresponde a conversão de

cada string binário para um valor real no intervalo [0,1], esta representação é

utilizada pelo sistema de classificação [38].

b. Função Fitness

Para o algoritmo genético desenvolvido existem dois tipos de função fitness.

Se o algoritmo genético estiver sendo utilizado em um processo de

parametrização, onde existe um valor de referência, utiliza-se uma função

logaritmo do erro (eq. V-1) [23].

−==

real

realga

EEE

ErroFitness log)log( (V-1)

sendo Ega o valor da propriedade ou parâmetro utilizado pelo GA para

parametrizar/otimizar o sistema e Ereal o valor de real ou de referência. Para a

função Fitness definida acima tanto o erro quanto o logaritmo do erro serão

minimizados no processo de otimização.

Entretanto, para problemas que não apresentam propriedades ou medidas

de referência, a função fitness passa a ser definida de acordo com o problema,

dentro do espaço definido pelo conjunto de dados. Por exemplo, a minimização de

estruturas pode utilizar uma função potencial para modelar a energia potencial de

um sistema. Entretanto, a determinação de alinhamento de biosseqüências utiliza-

se a similaridade e neste caso ocorre a maximização dos valores de similaridade

encontrados durante o alinhamento.

V-48

c. Seleção – Operador Predador

O operador predador elimina indivíduos da população de acordo com a

probabilidade de eliminação, definida pela função de pertinência (eq.V-2). A eq.

(V-2) corresponde a uma função sigmoidal aberta para a direita; portanto, quanto

maior o valor de erro, maior a probabilidade de o indivíduo ser eliminado da

população, ou quanto mais desfavorável for a aptidão do indivíduo maior a

probabilidade de ser eliminado da população. Para cada indivíduo na população é

selecionado um número aleatório (r) entre 0 e 1. Se Ppi > r o indivíduo será

eliminado da população.

)(1

1

1DMF

DM

ip

ie

P+−

+−

+

= ( V-2)

sendo que Fi é o valor da função fitness para o indivíduo analisado, M a média da

função fitness (eq. V-1) e D o desvio padrão da função fitness. O gráfico ilustrativo

para a eq. V-2 é mostrado na Figura V–2.

Figura V–2 Função de pertinência para o operador predador.

V-49

d. Seleção – Operador Habitat

O algoritmo genético desenvolvido tem a capacidade de encontrar múltiplas

soluções que geram soluções equivalentes ou que satisfazem critérios de

aceitabilidade. Para que o maior número de soluções possíveis seja encontrado, o

operador habitat garante que a população não irá convergir para uma única

solução. Sempre que um indivíduo estiver muito próximo de outro, ocorrerá um

aumento na probabilidade de execução de um torneio (Phab), governada pela

função sigmóide (eq. V-3), entre os indivíduos próximos. Neste torneio a

probabilidade de eliminação (eq. V-1) é utilizada para definir qual indivíduo está

mais adaptado e consequentemente terá menor probabilidade de ser retirado da

população [23]. O operador habitat outorga a cada indivíduo a responsabilidade de

otimizar uma região do espaço de busca que apresenta formato esférico, podendo

ser modelado por

mij RRijhab

eP −+

=1

1 (V-3)

sendo que a variável Rij define a distância euclidiana entre dois indivíduos, Rm é a

distância mínima permitida para dois indivíduos, M corresponde a media da função

fitness (eq. V-1) e D corresponde ao desvio padrão da função fitness. A Figura V–

3 ilustra o comportamento representativo para a eq. V-3.

Figura V–3 Função de pertinência para o operador habitat.

V-50

e. Operador Imigração

O operador imigração cria novos indivíduos aleatórios, diminuindo a

degenerescência da população e evitando a convergência prematura do algoritmo

genético. Quantidade de indivíduos criados aleatoriamente (Ni) é definida pela eq.

V-4 (sigmóide aberta para a direita) e corresponde a metade dos indivíduos

eliminados pelo operador predador e habitat multiplicado pela probabilidade de

execução do operador imigrante [17, 23]. Com o decorrer das gerações a

população torna-se mais adaptada e consequentemente a quantidade de novos

indivíduos adicionados à população torna-se menor. A partir da geração que a

probabilidade do operador imigração não consegue definir a criação de nem

mesmo um indivíduo, a população torna-se fechada para a entrada de imigrantes

e a estratégia do GA passa a ser apenas minimizar os indivíduos presentes, pois

novos pontos de busca não são mais criados. Esse procedimento pode ser

formalmente expresso por

2 .1)(1

+

=−

+− iAM

DM

imigrante

e

NN ( V-4)

sendo N a quantidade de indivíduos eliminados pelo operador predador e habitat,

M é o valor médio da função de aptidão, D corresponde ao desvio padrão da

função Fitness (eq. V-1) e o parâmetro Ai define o valor de ativação do operador

imigração. O parâmetro Ai representa o valor limite para a função fitness onde o

operador começa a perder expressividade, pois a população encontra-se bem

adaptada.

f. Operador Crossover

O operador crossover recombina indivíduos da população. A recombinação

ocorre entre um par de indivíduos escolhido aleatoriamente. Para o par

selecionado, a probabilidade de ocorrência da recombinação é definida pela eq.

V-5, que corresponde ao produto de duas funções de pertinência sigmoidal

abertas para a esquerda, portanto quanto maior a aptidão de cada indivíduo maior

será a probabilidade de recombinação do par. O processo de recombinação

V-51

ocorre com a troca total ou parcial de uma componente dos vetores de strings

binários. O operador crossover é controlado pela função de pertinência (eq. V-5)

que promove a intercessão das regiões mais adaptadas dos indivíduos envolvidos

no cruzamento. Particularmente tratando-se de conjunto nebulosos, a intercessão

é implementada pelos operadores t-norma. Para o desenvolvimento do algoritmo

genético foi utilizada a t-norma probabilística (a. b) [30, 31, 36], sendo, portanto, a

função dada por :

( ) ( )DMFDM

DMFDM

ijcross

jiiee

P+−

++−

+ ++

= 11

1

1

1

1 (V-5)

em que, Pijcross define a pertinência para a operação de combinação de dois

indivíduos, Fi e Fj são os valores de aptidão dos indivíduos i e j respectivamente,

M é a média do valor de aptidão da população, e D corresponde ao desvio padrão

da função Fitness. A Figura V–4 mostra o comportamento típico da função de

pertinência de dois indivíduos escolhidos aleatoriamente (a e b) e a t-norma

probabilística (ab) para estes indivíduos, ou seja, a pertinência que controla o

operador crossover para a execução da combinação entre os indivíduos a e b.

Figura V–4 - Função de pertinência t-norma para o operador crossover.

V-52

g. Operador Mutação

O operador mutação gera um novo indivíduo através da simples troca de

símbolo no vetor de strings binários (1 para 0 e 0 para 1). O operador mutação,

assim como o operador imigrante apresenta a capacidade de reduzir a

degenerescência da população e criar novas localidades de otimização evitando

os possíveis mínimos locais. A probabilidade de mutação (eq. V-6) apresenta uma

penalidade intrínseca (Pm) que limita o valor de probabilidade de ocorrência do

operador mutação [17, 18]. A expressão formal para esse operador é dada por

)(1

1

1DMF

DMm

imut

iepP

+−++

= ( V-6)

sendo que Pm define o valor de probabilidade máxima permitido para o operador

mutação, M é a media dos valores de Fitness (eq. V-1) e D o desvio padrão da

função fitness.

h. Convergência do Algoritmo Genético

A execução do GA é finalizada sob a ocorrência de duas condições

mutuamente excludentes, definidas pelas seguintes premissas:

i) O GA terá convergido se somente se operador predador e habitat

não forem mais capazes de eliminar indivíduos devido à

convergência de toda a população para um único valor de fitness.

Neste caso, a media da população corresponde ao mesmo valor

encontrado na população e o desvio é igual a zero, portanto não

existem indivíduos que sejam menos adaptados e passíveis de

eliminação.

ii) O GA será finalizado se somente se o valor médio da função fitness

(Fitnessm) for menor que Fitnesslimite (problemas de minimização) ou

Fitnessm ≥ Fitnesslimite (problemas de maximização) e Desviom ≤

DesvioLimite, sendo que os valores de Fitnesslimite e Desviolimite são

definidos de acordo com o problema.

V-53

2. Sistema de Classificação

Após a convergência do GA os indivíduos são agrupados em classes

definidas de acordo com a distância euclidiana dos vetores unitários dos membros

da população. A definição das classes presentes na população utiliza a distância

mínima como critério de agrupamento [38]. Para a implementação do algoritmo

genético foi empregada a distância euclidiana conforme dada abaixo

−

−=−=

=

→→→→→→→→

21212121 ., VVVVVVVVdDijT

( V-7)

Para que todas as possíveis classes sejam contempladas, cada elemento da

população é considerado como protótipo para formação de uma classe. Embora

todos os indivíduos possam gerar pelo menos uma classe, serão considerados

apenas os agrupamentos que tiverem dois ou mais elementos. A criação de uma

classe será efetiva quando os indivíduos envolvidos apresentarem uma distancia

(Dij) menor ou igual a 1%. O processo de seleção das melhores soluções ocorre

somente para os indivíduos que apresentam valores de Fitness < (MédiaFitness-

Desviofitness). O restante da população é agrupado em classes de acordo com a

distância mínima (eq. V-7). A Figura V–5 mostra uma distribuição da aptidão

(fitness) representativa e a região de seleção dos melhores indivíduos da

população [38].

Figura V–5 Gráfico representativo da distribuição da aptidão e a região de seleção das melhores soluções.

Capítulo VI - Parametrização de Funções

VI-55

1. Introdução aos Sistemas de Liberação Controlada de Drogas

A arquitetura do algoritmo genético desenvolvido no Capítulo V (pg. 45)

indica uma elevada versatilidade do mesmo para a otimização de problemas que

apresentam múltiplas soluções, como por exemplo, o processo de elucidação de

estruturas de proteínas e a parametrização de funções matemáticas. Os

problemas envolvendo parametrização de funções matemáticas exigem uma

elevada exatidão e sensibilidade do método de otimização. Portanto a

parametrização de sistemas de liberação controlada de drogas possibilita uma

análise acurada do desempenho do GA em problemas que exigem precisão e

sensibilidade, como por exemplo, elucidação de estruturas de proteínas. Sendo

assim, a metodologia desenvolvida no Capítulo anterior será primeiramente

testada no problema de hipersuperfícies como será o caso a ser descrito neste

Capítulo.

O desenvolvimento de sistemas de sistemas de liberação controlada de

fármacos [39-42] devem viabilizar o aumento e manutenção da atividade

farmacológica terapêutica durante elevado intervalo de tempo [39]. Levando-se em

consideração os aspectos econômicos, os sistemas de liberação controlada de

fármacos devem apresentar o menor custo possível sem a redução da atividade

farmacológica desejada. Considerando-se os aspectos farmacológicos e

econômicos, a indústria farmacêutica destaca-se no aproveitamento de matérias-

primas de baixo custo e fácil acesso para o desenvolvimento de novas

formulações, novos materiais poliméricos e novas técnicas de encapsulamento

para o desenvolvimento de metodologias terapêuticas modernas [39, 40].

A constituição dos dispositivos de liberação controlada de fármacos envolve

propriedades características como, por exemplo: concentração das substâncias

com atividade farmacológica, concentração de saturação na matriz, tipos de

matrizes poliméricas, decomposição da matriz e geometria dos dispositivos de

inclusão farmacológica (comprimidos) [40]. Devido à elevada complexidade, a

criação e desenvolvimento de novos sistemas utilizam estudos teóricos para a

VI-56

determinação de parâmetros ideais, como por exemplo, coeficientes de difusão

[40-43].

Modelos matemáticos específicos para problemas de liberação controlada

de drogas foram propostos por Fu et al. [41] e Higuchi [43]. Estes modelos

consideram em conjunto a geometria do comprimido, as propriedades da matriz e

dos substratos dissolvidos. Em decorrência da complexidade dos modelos

matemáticos, torna-se necessário a utilização de técnicas computacionais de

otimização, para a obtenção de soluções confiáveis e satisfatórias.

Aplicadas diretamente aos sistemas de liberação controlada de drogas tem-

se a rede neural artificial proposta por Marcus et al. [40] que utiliza como

treinamento o conjunto de pontos que definem a fração da droga liberada com os

respectivos parâmetros que produzem as curvas, de acordo com o modelo

matemático proposto por Higuchi [42], este modelo relaciona, o coeficiente de

difusão (D), a solubilidade de saturação (Cs), a concentração inicial da droga (A) e

o tamanho do comprimido (h) com a fração de droga liberada (F). A rede neural

artificial tem por objetivo determinar um conjunto de parâmetros (D, Cs, A e h) que

definem uma curva de fração de droga conhecida (F(t)).

Entretanto, a solução proposta pela rede neural pode não ser única,

produzindo várias soluções que podem gerar a mesma curva de fração de droga

liberada e dessa forma construindo soluções múltiplas. Para que outros conjuntos

de parâmetros possam ser encontrados, o sistema de otimização precisa

contemplar a possibilidade de soluções múltiplas.

Este Capítulo apresenta o primeiro processo de validação do algoritmo

proposto correspondendo a um processo de parametrização de funções de

frações de droga liberada. A parametrização do modelo matemático [42] gera uma

hipersuperfície de busca que apresenta múltiplas soluções que geram a mesma

curva de fração liberada de droga. O estudo do sistema de liberação controlada de

droga utilizando o algoritmo genético acoplado a lógica fuzzy possibilitou uma

avaliação rigorosa da capacidade do sistema inteligente em resolver problemas

que apresentam múltiplas soluções. A partir desta avaliação foi possível

determinar a configuração ideal do sistema inteligente. A partir da determinação

VI-57

da configuração ideal do GA, problemas que apresentam maior complexidade de

otimização, como por exemplo, determinação de rotas de decomposição,

interpretação de dados de análises instrumentais e a elucidação de estruturas de

proteínas, poderão ser estudados.

Para testar e validar o sistema proposto com o objetivo de se obter uma

metodologia eficiente para ser usada no estudo de dados instrumentais e

determinação de estruturas secundárias de proteínas, foram empregados os

dados de um sistema contendo hidrocortisona solubilizada em uma matriz

polimérica [39-42], sendo que a fração liberada compreende a um período de 100

dias. A partir da determinação de múltiplos conjuntos de parâmetros com a mesma

fração liberada do fármaco podem-se realizar experimentos direcionados para a

obtenção de sistemas de liberação que têm propriedades diferentes; entretanto,

fornecem a mesma atividade farmacológica e possivelmente podem ser mais

viáveis sob os aspectos econômicos e experimentais.

2. O Modelo Matemático

O modelo matemático proposto por Higuchi [42] para a análise da fração de

hidrocortisona liberada (F(t)) é descrita pela eq. VI-1 [39, 42]:

( ) 21

22

2.8)(

−=

hAtCsACDtF s (VI-1)

sendo; D o coeficiente de difusão, Cs é a solubilidade de saturação da droga na

matriz, A é a concentração inicial da droga, h é o tamanho comprimido e t o tempo

decorrido do início do processo de liberação. Para o modelo matemático de

Higuchi [42] apenas os parâmetros D, Cs, A e h serão otimizados.

O processo de otimização tem como objetivo, encontrar conjuntos de

parâmetros que forneçam curvas equivalentes de fração liberada de drogas. A

Tabela VI-1 contém os parâmetros que geram a curva de referência e os

respectivos intervalos de busca que serão utilizados pelo algoritmo genético

implementado.

VI-58

Tabela VI-1 Definição dos Intervalos de formação para cada parâmetro da eq. VI-1 e definição dos parâmetros da curva de referência

Parâmetro Parâmetros

de referência

Intervalos de busca dos

Parâmetros otimizados

Inicio Final

D (×10-5 cm2dia-1) 1,35 0,042 4,820

Cs (mg.cm-3) 16,2 2,70 40,0

A (mg.cm-3) 70,0 33,3 133,1

h (cm) 0,167 0,164 0,170

A seleção dos intervalos de busca foi baseada no estudo realizado por

Marcus et al. [40] onde foram utilizadas quatro curvas de fração de hidrocortisona

liberada. Dentre as quatro curvas utilizadas uma apresentava a menor fração de

droga liberada em 100 dias, enquanto a outra curva apresentava a maior fração de

droga liberada. A curva de menor ascendência é gerada a partir dos parâmetros

que definem o início do espaço de busca (Tabela VI-1, coluna 3), enquanto a

curva mais ascendente é gerada pelos parâmetros de definem o final do espaço

de busca. A Figura VI–1 apresenta três curvas de fração de hidrocortisona

liberada, sendo a primeira corresponde da curva de referência, que será

parametrizada pelo algoritmo genético com a finalidade de determinar múltiplos

conjuntos de parâmetros que possam gerar a mesma curva. A segunda curva da

Figura VI–1 é gerada a partir dos parâmetros que geram o inicio do espaço de

busca e a terceira curva é obtida a partir dos parâmetros de formam o final do

espaço de busca.

VI-59

Figura VI–1 Curvas de fração de droga liberada por um período de 100 dias. Curva de referência (quadrado preto) (D=1.35×10-5 cm2dia-1, Cs=16.2mg.cm-3 . A= 70mg.cm-3, h=0.167cm), Curva com os parâmetros de inicio (circulo aberto) (D=0.042×10-5 cm2dia-1, Cs=2.7mg.cm-3 . A=33.3mg.cm-3, h=0.164cm) [40] e curva com os parâmetros de final (triângulo aberto) (D=4.82×10-5 cm2dia-1, Cs=40mg.cm-3 . A= 133.3mg.cm-3, h=0.170cm) [40].

Para demonstrar a complexidade do espaço de busca gerado pela eq. VI-1,

a Figura VI–2 mostra os mapas de contorno para o logaritmo do erro a partir da

variação de apenas dois parâmetros, mantendo os demais constantes no valor de

referência contido na Tabela VI-1.

O problema de parametrização da função de liberação controlada de

hidrocortisona apresenta múltiplas soluções, sendo que os parâmetros D, Cs, A e

h geram uma hipersuperfície de quatro dimensões. Devido ao período de liberação

ser constante, (100 dias) este não precisa ser otimizado. Na Figura VI-2 observa-

se os mapas de contorno para o erro e a formação de múltiplas regiões de

mínimos que podem ser locais ou globais. Para o gráfico (Figura VI-2a), que

apresenta curva de nível do logaritmo do erro em função do coeficiente de difusão

e da solubilidade de saturação, observa-se um comportamento aproximadamente

hiperbólico no posicionamento das regiões de minimização. Para as curvas de

VI-60

níveis Figura VI–2b e Figura VI–2d existe uma dependência linear dos parâmetros

envolvidos. Para os outros gráficos o comportamento é aproximadamente linear,

devido a pequena faixa de busca definida na Tabela VI-1.

Figura VI–2 Mapas de contorno para a superfície de erro definida pela eq. VI-1 (fitness), (a) mapa de contorno para o Coeficiente de difusão (D) pela solubilidade de saturação (Cs) com os valores constantes A=70.0 mg.cm-3 e h =0.167cm, (b) mapa de contorno para o Coeficiente de difusão (D) pela

VI-61

concentração inicial de hidrocortisona (Cs) com valores constantes Cs=16.2 mg.cm-3 e h=0.167cm, (c) mapa de contorno para o Coeficiente de difusão (D) pelo tamanho do comprimido (h) com valores constantes Cs=16.2mg.cm-3 e A=70.1 mg.cm-3 valores constantes D=1.35x10-5 cm2dia-1 e h =0.167cm, (d) mapa de contorno para a solubilidade de saturação (Cs) pela concentração inicial de hidrocortisona (A) com valores constantes D=1.35x10-5cm2dia-1 e A=70.1 mg.cm-3 (e) mapa de contorno para a solubilidade de saturação (Cs) pelo tamanho do comprimido (h) com valores constantes D=1.35x10-5cm2dia-1e Cs=16.2 mg.cm-3 (f) mapa de contorno para a concentração inicial de hidrocortisona (A) pelo tamanho do comprimido (h) com valores constantes D=1.35x10-5 cm2dia-1 e Cs=16.2 mg.cm-3.

Utilizando-se a capacidade que o algoritmo implementado apresenta para

encontrar múltiplas soluções equivalentes ou com grande similaridade, torna-se

possível gerar um conjunto de pontos que permite mapear o espaço de busca

definido pela Tabela VI-1.

3. Configuração do Sistema Inteligente

A execução do algoritmo genético depende da definição dos seguintes

parâmetros, função fitness, tamanho da população, raio de ação do operador

habitat (eq. V-3, Capítulo V, pg. 49), ativação do operador imigração (eq. V-4,

Capítulo V, pg. 50), probabilidade máxima do operador mutação (eq. V-6, Capítulo

V, pg.52) e definição dos critérios de convergência a serem utilizados. Para a

determinação de conjuntos equivalentes que geram a mesma curva de referência

da fração de droga liberada (Figura VI–1) utilizou-se como função de aptidão

(fitness) o logaritmo decimal do erro em relação a fração liberada em 100 dias.

Para a determinação dos parâmetros do GA implementado, foi utilizado o valor

limite arbitrário de fitness igual a –3, ou seja, o erro igual a 10-3.

A função fitness corresponde ao erro calculado entre a função fração de

fármaco liberado utilizando os parâmetros de referência e a função que utiliza os

parâmetros encontrados pelo algoritmo genético controlado pela lógica fuzzy. A

função fitness é definida como:

VI-62

),,,(),,,(),,,(

log),,,(rrrr

rrrriiiii hACDF

hACDFhACDFhACDFitness ii

ii

−= ( VI-2)

sendo que F corresponde a função de fração liberada de fármaco (eq. VI-1), o

índice i define os parâmetros D, Cs,A e h calculados pelo GA e o índice r refere-se

a curva de fração de droga liberada gerada a partir dos parâmetros de referência

contidos na Tabela VI – 1.

A determinação do tamanho da população limite para obter soluções

coerentes foi realizada em função da quantidade de gerações para se alcançar os

critérios de convergência. A Figura VI-3 mostra a quantidade média de gerações

necessárias para ocorrência de um dos critérios de convergência (Capítulo V,

seção 1-h, pg. 52). Observa-se que o crescimento é aproximadamente linear. Para

populações com número de indivíduos menor que 100, o algoritmo genético sofre

grandes variações e freqüentemente ocorre convergência prematura do sistema.

Figura VI–3. Número médio de gerações em função do tamanho da população.

O desempenho do algoritmo genético será avaliado pela quantidade de

gerações necessárias para obter a convergência, sendo que, o número de

gerações será normalizado entre 0 e 1. Para exemplificar esta normalização se,

por exemplo, o algoritmo genético necessita de 100, 150 e 300 gerações em

execuções separadas para convergir, o número de gerações normalizado será

VI-63

respectivamente 0,3; 0,5 e 1,0; ou seja, os valores foram divididos pelo maior

número de gerações encontrado. Desta forma quanto menor for a quantidade de

gerações necessárias (NG) para convergência, mais adequado será o parâmetro

do GA.

A Figura VI–4 mostra o gráfico da quantidade de gerações normalizada

(NG) em função do raio de ativação do operador habitat (Rm). Este resultado

demonstra um comportamento aproximadamente parabólico, com o mínimo

definido em 0,05. Desta forma os indivíduos que se aproximam por uma distância

inferior a 0,05 apresentam maior probabilidade de entrarem em conflito por meio

de um torneio, sendo que o indivíduo mais adaptado terá maior chance de

permanecer na população.

Figura VI–4 Determinação do raio de ação do operador habitat.

O próximo parâmetro corresponde à ativação do operador imigração (eq.

V-4, Capítulo V, pg. 50). A Figura VI–5 ilustra o comportamento do número de

gerações normalizada como função da ativação do operador imigração definida

pela função fitness (eq. VI-2)

VI-64

Figura VI–5 Determinação do fator de ativação da imigração (Ai).

A partir da Figura VI–5 é possível verificar que o melhor desempenho

ocorre com Ai igual a –1,3, que corresponde a um erro de 5% na população. Desta

forma, nas gerações em que a média da função fitness for superior a –1,3, o

operador imigração será executado mais frequentemente. O controle fuzzy

realizado sobre o operador imigração, faz com novas regiões de otimização

possam ser geradas enquanto a população ainda se encontra dispersa, ou seja,

apresenta um valor de fitness elevado. Para populações que estão aproximando-

se do limite de convergência, o operador imigração tem sua atividade

praticamente anulada, também determinada pelo controlador fuzzy que apresenta

a função de pertinência definida no Capitulo V, eq. V-4 (pg. 50).

O desempenho do operador mutação é semelhante ao operador imigração;

entretanto, este não torna-se menos expressivo com o decorrer das gerações.

Esta diferenciação de controle fuzzy deve-se a ação dos operadores imigração e

mutação. O operador imigração gera indivíduos completamente aleatórios,

enquanto o operador mutação modifica apenas uma parte do indivíduo, enquanto

a outra parte permanece preservada. A Figura VI–6 demonstra o comportamento

do número de gerações normalizado (NG) em função do parâmetro probabilidade

máxima de execução do operador mutação, sendo que para o valore de 0,03

VI-65

verifica-se o melhor desempenho do operador na convergência do GA. Entretanto,

para valores acima de 0,04 o operador mutação faz com que a população torne-se

muito aleatória, prejudicando o processo de otimização.

Figura VI–6 Determinação da probabilidade máxima de mutação.

O valor de Errolimite=10-3 foi utilizado apenas para analisar a quantidade de

gerações em função do tamanho da população. Entretanto para a determinação

dos parâmetros, o critério de convergência para o valor limite de da função de

aptidão foi de –10, (Errolimite= 10-10). Para o critério de convergência definido

(Errolimite= 10-10) com uma população de 100 indivíduos, são necessárias em

média 8000 gerações.

O algoritmo genético implementado tem a capacidade de encontrar

múltiplas soluções, desde que estas sejam possíveis de acordo como o modelo

matemático a ser otimizado. O comportamento para a função de aptidão durantes

a evolução do algoritmo genético é mostrado na Figura VI–7. Inicialmente ocorre

uma rápida queda na função fitness (eq. VI-2) a ser otimizado, sendo que este

período inicial ocorre aproximadamente até a geração número 700, a partir deste

momento o sistema tem um comportamento oscilatório e a função fitness varia

entre valores de alta (oscilação máxima em -1.26 na geração 1900) e regiões de

VI-66

baixa. O comportamento oscilatório é provocado pelos controladores fuzzy

associados a cada operador genético.

Figura VI–7 Evolução do logaritmo decimal do erro (função de aptidão) em função do número de gerações.

As diversas oscilações ocorridas durante a evolução do GA são provocadas

por um comportamento sazonal dos operadores genéticos. Os períodos de

redução no valor do logaritmo do erro são provocados principalmente pela ação do

operador crossover. Este permite combinar os indivíduos mais adaptados

reduzindo assim o erro médio da população. A partir do momento que os

indivíduos tornam-se muito próximos, o controlador fuzzy identifica e quantifica

estas aproximações, retornando uma ação de controle sobre o operador habitat

que aumenta a sua atividade, este aumento faz com que o operador habitat seja

executado com maior freqüência, eliminado indivíduos muito próximos. O critério

de proximidade é governado pelo raio de ação do operador habitat (definido

anteriormente com sendo igual 0,05) em relação aos vetores unitários que

compõem cada indivíduo. Desta forma se dois indivíduos estão a uma distância

inferior a 0.05, a probabilidade de confronto entre os dois aumenta de acordo com

a função de pertinência sigmoidal. Nesta situação de indivíduos muito próximos o

VI-67

operador habitat inicia um torneio (Capitulo V seção 1-d) para determinar qual dos

indivíduos permanecerá na população, sendo que o indivíduo mais adaptado tem

maior probabilidade de ganhar o torneio. Esta eliminação ocorre de forma

independente da aptidão média da população, o único critério é a proximidade

entre dois indivíduos quaisquer. A atividade do operador habitat provoca um

aumento no valor do logaritmo do erro, pois novos indivíduos, ainda não

adaptados, são criados pelos operadores imigrante e mutação. O processo de

oscilação ocorre até que a população obtenha uma distribuição no espaço de

busca que não possibilite a sobreposição de indivíduos. A partir deste instante o

operador habitat torna-se inexpressivo e o operador crossover promove a

otimização da população até execução de um dos critérios de convergência.

A cada geração que se passa o algoritmo genético identifica os indivíduos

que podem ser classificados como possíveis soluções a partir dos critérios de

convergência, ou seja, os indivíduos que tem o valor da função fitness menos ou

igual a -10 (erro > 10-10). A Figura VI–8 mostra a quantidade de possíveis soluções

em função do número de geração para a mesma execução do GA dos dados

apresentados na Figura VI–7.

Figura VI–8 Quantidade de soluções em cada geração do GA.

VI-68

O número de possíveis soluções sofre a mesma interferência que a função fitness

(eq. VI-2), devido a atividade alternada dos operadores habitat e crossover. Para

uma população 100 indivíduos e Fitenesslimite= -10. As execuções do algoritmo

genético encontram entre 12 e 23 soluções por execução.

4. Resultados do Algoritmo Genético

Para cada execução do algoritmo genético utilizando uma população de

100 indivíduos são encontrados em média 17 soluções, desta forma o algoritmo foi

executado diversas vezes até que a quantidades de soluções acumuladas não se

modificasse, ou seja, até que o sistema se tornasse autoconsistente, ao final deste

processo foram encontradas 568 soluções. A função erro utilizada como função

Fitness foi calculada a partir da fração de droga liberada definida pelos parâmetros

de referencia e pelos parâmetros encontrados pelo sistema, erro médio das

soluções igual 0,01%; e o erro máximo não ultrapassa 0,03%. Devido a grande

quantidade de soluções equivalentes, estas foram selecionadas por agrupamentos

representativos, alguns valores selecionados estão na Tabela VI-2.

Tabela VI-2 Conjuntos de parâmetros encontrados pelo algoritmo genético

Nº D (10-5cm2dia-1)

Cs (mg.cm3

)

A (mg.cm3

)

H (cm)

1 1,33 23,6 97,6 0,1692 1,54 7,5 37,4 0,1673 0,71 39,7 78,8 0,1654 0,88 18,4 46,5 0,1685 2,90 3,4 34,3 0,1676 0,82 22,2 50,1 0,1697 0,76 27,5 58,9 0,1658 4,38 5,9 87,0 0,1709 2,74 4,9 46,2 0,16710 3,76 8,7 116,6 0,16511 0,95 38,0 108,5 0,16712 2,48 7,3 62,1 0,16613 4,30 7,6 118,4 0,16414 3,51 6,3 74,7 0,17015 0,99 23,1 70,0 0,16616 1,13 36,7 126,0 0,16817 4,68 5,2 82,9 0,16918 4,18 6,8 101,4 0,16519 4,62 3,7 60,3 0,16620 4,25 3,5 52,7 0,165

VI-69

Todos os conjuntos encontrados e apresentados na Tabela VI-2 geram a

mesma curva de fração liberada de hidrocortisona (Figura VI-1). Alguns conjuntos

são totalmente diferentes dos parâmetros de referência. Entretanto os resultados 1

e 15, por exemplo, apresentam respectivamente os valores de difusão (D) e

concentração inicial (A) próximos dos valores de referência. Os resultados obtidos

pelo algoritmo genético podem auxiliar no desenvolvimento de novos sistemas de

liberação de fármacos que sejam mais eficientes de serem sintetizados e/ou que

tenham maior viabilidade econômica. Outros conjuntos de valores também se

destacam, como por exemplo, as soluções 8, 17, 18, 19 e 20 por apresentarem

um elevado coeficiente de difusão; entretanto, como pode ser observado na

Tabela VI-2, os valores de solubilidade para estes sistemas são relativamente

baixos em relação aos parâmetros de referência (Tabela VI-1), impedindo que a

droga seja liberada mais rapidamente. Outro tipo de solução presente na Tabela

VI-2 corresponde aos sistemas que têm um baixo coeficiente de difusão,

entretanto apresentam uma elevada solubilidade (Cs) e também uma elevada

concentração inicial (A), como por exemplo, as soluções 3 e 11. Utilizando estas

duas situações opostas de parametrização da fração de hidrocortisona é possível

experimentalmente criar um sistema de liberação que seja mais viável para se

sintetizar e conseqüentemente mais viável economicamente.

Capítulo VII- Interpretação de Análise Termogravimétrica

VII-71

1. Introdução à Análise Termogravimétrica

A análise termogravimétrica envolve a medida da massa de amostras em

função do aumento da temperatura. Os gráficos obtidos de massa por temperatura

permitem a avaliação de estabilidade térmica, taxa de reação, mecanismos de

reação e determinação da composição da amostra [44]. A instrumentação para a

realização de uma análise termogravimétrica constitui-se de: (i) uma balança

analítica sensível, (ii) um forno, (iii) um sistema de gás de purga de modo a

fornecer uma atmosfera inerte ou reativa, (iv) um microcomputador para o controle

dos instrumentos e para a aquisição e apresentação de dados [45].

O computador é utilizado unicamente para aquisição de dados e controle do

instrumento [46]. A interpretação dos dados é realizada pelo analista, em geral um

especialista experimental. Para a análise termogravimétrica o analista

experimental, conhecido também como perito, tem como principal objetivo atribuir

as perdas de massa a componentes da amostra que estão sendo liberados

durante a análise; neste caso o perito deve contemplar em seu raciocínio de

interpretação quais as possíveis decomposições em cada perda de massa. No

entanto o trabalho de interpretação pode ser exaustivo para um perito humano,

devido ao número de possibilidades de decomposições de uma amostra, podendo

até ocasionar interpretações incorretas. Para exemplificar este tipo de erro, de

acordo com a ref. [47], a decomposição do ácido acetilsalisílico foi estudada e,

como mostrado, ocorre em duas etapas, sendo que a primeira perda de massa

corresponde à liberação de ácido acético. Entretanto, na ref. [48] a primeira perda

de massa é aparentemente interpretada incorretamente, sendo atribuída como

H2O+CO+CO2.

Diversas técnicas matemáticas e de Inteligência artificial [49] também podem

ser empregadas na análise de curvas termogravimétricas para a determinação de

modelos de decomposição térmica, busca por padrões entre curvas TG e

obtenção de propriedades térmicas ou ainda na definição das condições de

análise. Utilizando-se o modelo de rede neural é possível analisar a influência de

diversos modelos de decomposição [50]. Técnicas de estatística multivariada

[51,52] são também empregadas com freqüência na análise de dados

VII-72

termogravimétricos. Utilizando técnicas de regressão e análise de componentes

principais (PCA) aplicados a dados de curva TG e propriedades como índice de

refratividade, densidade e índice saponificação de óleos extraídos de peixes,

Wesolowski e Czerwonka mostraram que pode-se determinar o grau de

decomposição destes óleos [53]. Propriedades medicinais foram atribuídas a

extratos de flores através da técnica de PCA utilizando como dados de análise

diversas curvas TG e a composição química elementar dos materiais [54].

Particularmente, os parâmetros e as condições de análise exercem uma grande

influência nos resultados. Parâmetros experimentais influenciam os resultados

quantitativos e qualitativos de análise térmica e, portanto, a determinação destes

parâmetros é um dos focos de estudos que procuram definir diretrizes para

obtenção de resultados com alta definição de análise [55]. Esta determinação das

condições experimentais pode ser realizada com o auxílio de sistemas

computacionais baseados na técnica de sistemas especialistas [56]. Técnicas

como lógica fuzzy têm sido utilizadas para definir a relação entre fragmentos

moleculares e parâmetros espectrais considerando uma base de dados de

espectros moleculares [35, 36, 57].

As interpretações de curvas termogravimétricas apresentam regras de

caráter prático que podem ser implementadas em um sistema computacional

inteligente [58, 59]. Como demostrado anteriormente no Capítulo VI o algoritmo

genético não apresenta comportamento viciado, podendo inferir múltiplas

soluções, caso estas sejam possíveis. A aplicação do algoritmo genético ao

problema de interpretação de curvas TG exclui a ocorrência de erros causada por

falha humana, pois, o analista ao realizar a interpretação pode cometer o erro de

não contemplar a decomposição correta de uma substância não claramente

evidenciada por uma dada possível rota, pois o número de possibilidades de

decomposições pode ser muito extenso e/ou complexo. Neste capítulo serão

apresentados os mecanismos de construção da população inicial e o algoritmo

que avalia se as estruturas químicas geradas pelo GA estão em acordo com o tipo

de interpretação da curva termogravimétrica. A configuração dos parâmetros do

algoritmo genético será a mesma utilizada no processo de parametrização,

descrito no Capítulo anterior.

VII-73

2. Modificações no Algoritmo Genético e nos Controladores Fuzzy

a. População Inicial

Cada indivíduo da população tem a capacidade de representar todas as

perdas de massa seqüenciais o inclusive o resíduo formado. Cada perda de

massa é representada por dois vetores. O primeiro vetor contém N moléculas que

podem estar presentes na perda de massa analisada. Este vetor não apresenta

uma composição binária, mas dependente da molécula analisada e da atmosfera

utilizada para realizar a análise termogravimétrica. O segundo vetor corresponde à

representação binária dos respectivos índices estequiométricos de cada fragmento

molecular presente no primeiro vetor. Para exemplificar a representação de uma

decomposição térmica, usou-se a representação da decomposição do CaCO3 em

CO2(g) e CaO(s), sendo que o intervalo para a geração dos índices estequimétricos

é entre 0 e 100.

CaOCOCaCO +→∆

23

Indivíduo = ,,]1,0,0,0,0,0,0,0[],,[,]1,0,0,0,0,0,0,0[],,,[Atmosfera,Resíduo,massa de perda1ºOOOCaOOC

O indivíduo representado acima contém três listas a primeira refere-se a perda

de uma molécula de gás carbônico, e a segunda lista representa o conteúdo do

resíduo, óxido de cálcio, a última representa a atmosfera em que foi realizada a

análise. Se o experimento for feito em uma atmosfera inerte a terceira lista não

será preenchida.

b. Função Fitness

A função de aptidão para a interpretação de curvas termogravimétricas será

a soma dos erros de cada perda de massa mais o erro do processo total. Embora

pareça controverso somar o erro do processo total, com o erro de cada perda de

massa, esta análise dos erros de cada perda de massa e do processo total

possibilita ao GA realizar o processo de otimização de forma local e global

simultaneamente. Enquanto o erro de cada perda é calculado em relação à

VII-74

quantidade de massa, o erro total refere-se à lei de conservação da massa, ou

seja, a mesma quantidade de átomos na molécula analisada deve estar presente

nos fragmentos moleculares. A função fitness é dada por:

∑∑∑

==

= −+

−

=T

kk

kk

P

j

FRA

ffi

i QQQ

M

MMFitness

1 exp

exp

1 exp

exp1 (VII-1)

em que j representa cada perda de massa, P o número total de perdas de massa

mais resídio, f determina os fragmentos associado a perda de massa j, FRA

define o número total de fragmentos. Mfi e a massa de cada fragmento atribuido a

perda de massa, Mexp Valor experimental da perda de massa, T denota o número

de diferentes átomos presentes na molecula analisada, Qk indica a quantidade do

átomo K presentes no indivíduo, ou seja em todas as perdas de massa, e Qkexp

indica a quantidade de átomos k presentes na molécula analisada.

c. Operador Predador

Inicialmente as listas de fragmentos moleculares são geradas aleatoriamente

e, portanto podem existir fragmentos moleculares neutros e carregados. Desta

forma, a primeira avaliação realizada sobre a população de indivíduos refere-se a

validade das estruturas moleculares formadas. Em uma análise real existem

apenas fragmentos desprovidos de carga ou elétrons livres (radicais), portanto

somente os que tiverem número de oxidação (NOX) igual a zero serão utilizados

no processo de interpretação da curva TG.

Este processo de validação de estruturas químicas é realizado pelo

operador predador, que foi especificamente modificado para a interpretação de

dados termogravimétricos. Ao operador predador foi acrescentado um conjunto de

regras de controle que determinam se um fragmento molecular é válido (NOX=0)

ou não-válido. As regras de controle são ordenadas por uma árvore de busca

(Figura VII-1).

A árvore de busca (Figura VII-1) inicia-se com a busca do fragmento em um

banco de dados contendo estruturas que apresentam NOX igual a zero (banco 1).

Estas estruturas correspondem a moléculas que são encontradas freqüentemente

em análises termogravimétricas, tais como amônia e gás carbônico [60-62]. A

VII-75

utilização do banco de dados reduz o tempo computacional que seria necessário

para calcular o NOX de estruturas que são encontradas freqüentemente. Se o

fragmento não é encontrado no primeiro banco de dados, a busca procede em um

segundo banco de dados contendo estruturas que não podem existir (banco 2) em

uma análise real. O segundo banco de dados contém estruturas que são providas

de cargas, como por exemplo, CO3-2 e NH4

+; estas estruturas ao serem

encontradas na segunda parte do banco de dados serão eliminadas da

representação do indivíduo juntamente com o respectivo índice estequiométrico.

Se o fragmento não é conhecido por nenhum dos bancos de dados, utilizam-se as

regras que definem funções químicas.

A árvore de busca posposta contém 7 regras heurísticas, sendo 3 funções:

óxido, hidróxido e hidrocarbonetos e 4 definições para sais: sulfatos, halogenetos,

carbonatos e sais de elementos alcalinos, alcalinos terrosos e íon amônio, estas

funções químicas e classes de sais foram escolhidas com base na simplicidade de

implementação das regras heurísticas e na freqüência com que estas substâncias

podem aparecer em uma análise termogravimétrica real. As regras definidas para

óxidos, hidróxidos e sais auxiliam principalmente na determinação do resíduo. A

regra para hidrocarbonetos é útil em análise de substâncias orgânicas, pois, a

população inicial gera uma quantidade elevada de fragmentos desnecessários que

provocam o aumento demasiado do tempo computacional durante o cálculo do

NOX. No entanto, se a estrutura não é conhecida pelos bancos de dados, não é

definida por nenhuma regra heurística para funções ou definição de sais, recorre-

se ao cálculo do NOX, submetido a duas considerações; (i) se o NOX calculado

for igual a zero o fragmento continua no conjunto de fragmentos e (ii) se o NOX for

diferente de zero o fragmento é eliminado do processo de análise. Para

fragmentos com NOX igual a zero a espécie química será inserida no banco de

dados como uma estrutura neutra, assim uma nova ocorrência deste fragmento na

própria árvore de busca ou em uma segunda análise irá dispensar a realização do

cálculo do NOX, pois o sistema inteligente passa a reconhecer a validade do

fragmento na árvore sem a necessidade de calcular o valor do NOX. Desta forma,

à medida que o sistema é utilizado, torna-se cada vez mais ágil para resolver

problemas. No entanto a inserção de fragmentos com valores de NOX diferentes

VII-76

de zero na segunda parte do banco de dados provoca o aumento do tempo

computacional, pois a quantidade de fragmentos torna-se muito elevada e a busca

no banco provoca um consumo do tempo computacional extremamente elevado.

Figura VII-1 Árvore de busca para a validação de fragmentos moleculares com NOX = 0 definindo os bancos de dados (banco 1 e banco 2) das regras heurísticas que definem funções químicas e alguns sais e finalizando a árvore o cálculo do NOX.

As regras heurísticas utilizam um formalismo de matemática lógica (ML) [1].

As regras implementadas classificam os fragmentos moleculares em válidos (Fv) e

não válidos (Fn). Matematicamente a busca no banco de dados pode ser expressa

através da seguinte premissa::

“Se F está contido no bando de dados de fragmentos válidos então F é

classificados como válido, caso contrário F será submetido a próxima regra.”

( )( ) ( )[ ] ( )( )[ ]rVVV NSFFFSF →∈¬∃∨=→∈∃ (VII-2)

sendo Sv o conjunto predefinido de estruturas químicas válidas que ocorrem

com maior freqüência em análises termogravimétricas, como por exemplo, gás

VII-77

carbônico e amônia, Fv corresponde ao fragmento molecular classificado como

válido e Nr significa a utilização da próxima regra heurística, visto que esta não foi

capaz de classificar o fragmento molecular.

De forma semelhante à busca realizada no conjunto de fragmentos válidos, a

busca no banco de dados de estrutura não válidas é representada na eq VII-3

( )( ) ( )[ ] ( )( )[ ] NSFFFSF rnvnnv →∈¬∃∨=→∈∃ ( VII-3)

Sendo: Snv corresponde ao conjunto de estruturas moleculares que não podem

existir em uma análise termogravimétrica e são derivadas das estruturas

existentes no conjunto de fragmentos válidos, tais como íons carbonato e amônio,

Fn significam que o fragmento molecular em questão foi classificado como não

válido.

Entretanto se o fragmento molecular não é classificado de acordo com os

bancos de dados, o conjunto de regras que definem diversas funções químicas é

iniciado. Para exemplificar, considere a função química de um composto binário,

(óxido ou halogenetos), que pode ser implementada facilmente através das

seguintes premissas:

• Todo composto binário é constituído pelo átomo que identifica a função,

oxigênio ou halogênio, e qualquer outro elemento químico;

• Existe uma soma de valores de NOx para os dois elementos que é igual a

zero

Estas premissas podem ser representadas conforme a eq abaixo

( ) ( ) ( )

( ) ( ) ( ) ( )vioegrugru

oegrub

FFXNOxFNOx x Fn

FXFFFF

=→

=

+∃

∧⊂∃∧⊂∃↔=

∑=

01

m

i

( VII-4)

sendo: Fb a função binária óxido ou halogeneto, Fgru corresponde ao átomo que

forma o grupo funcional (O, F, Cl, Br ou I), Xioe corresponde ao outro elemento

químico que forma o fragmento molecular, n(Xoe) representa o número de vezes

que o grupo funcional está presente no fragmento molecular, NOx(Fgru) e NOx(Xoe)

corresponde a função que retorna o valor do NOx para qualquer elemento químico

ou grupo funcional, o índice i corresponde ao i-ésimo átomo diferente do elemento

VII-78

que define o grupo funcional e m é o total de átomos que não pertence ao grupo

funcional.

De forma semelhante à construção anterior para as funções químicas

hidróxido, sulfatos, carbonatos, sais de metais alcalinos e sais de amônio tem-se a

seguinte equação:

( ) ( ) ( ) ( ) ( )vioegrugrugruhsca FFXNOxFNOx FnF)(FFF =→

=

+∃∧⊂∃↔= ∑

=0

1

m

ix (VII-5)

sendo Fhsca corresponde as funções químicas hidróxido, e sais sulfato, carbonato,

sais de metais alcalinos e sais de amônio,

Para as funções orgânicas, especificamente hidrocarbonetos, as premissas

utilizadas têm que considerar a quantidade de ligações que cada átomo pode

realizar, pois caso contrário, diversos fragmentos não válidos seriam classificados

como válidos. Desta forma tem-se as seguintes premissas para a função

hidrocarboneto

• Os hidrocarbonetos são constituídos somente de carbono e hidrogênio

• Cada carbono deve ter 4 ligações e cada hidrogênio deve ter uma ligação

• Os átomos de carbono podem fazer ligações simples, duplas, ou triplas.

• A partir destas premissas obtêm-se a seguinte equação:

( )( ) ( ) ( ) ( )

vnh FFsimple)))(tripledouble)(double

simple)(double(simpleBF)(Cbond1FHbonds 4FC

FF =→

∧∨∧∨∧∨∃⊂∀

∧∃⊂∀∧∃⊂∀↔= ( (VII-6)

sendo Fh corresponde a função hidrocarboneto, C corresponde a carbono,

H corresponde a hidrogênio, Bn define uma função que retorna os tipos de

ligações que podem existir para um átomo de carbono

Caso nenhuma das regras definidas acima possam validar o fragmento a

última regra corresponde ao cálculo do valor de NOx de acordo com a seguinte

equação:

( ) ( ) ( )

¬∃↔=∨

=∃↔= ∑∑

==

m

i 1

ioen

m

1i

ioeV XNOxFF0XNOxFF

(VII-7)

sendo m o número total de átomos presentes no fragmento,

VII-79

A partir do conjunto de fragmentos válidos o sistema inicia o processo de

inferência de soluções através da rede neural semântica que utiliza a eq. VII-8

para classificar as interações da rede como soluções (R) da curva

termogravimétrica:

( )( )( ) ( )( )( )

>−↔∨

≤−↔ ∑∑

==

h

i

h

iabsabs

1Cexp

ical

1Cexp

ical IWFWLIWFWR

( VII-8)

Sendo R o conjunto de fragmentos e as respectivas perdas de massa que

formam uma solução válida, L corresponde ao conjunto de fragmentos e as

respectivas perdas de massa que não formam uma solução válida, Wcal(Fi) é uma

função que retorna a percentagem que o fragmento ou conjunto de fragmentos

associados à i-ésima perda de massa representa para a análise

termogravimétrica, Wexp corresponde ao i-ésimo valor de perda de massa, h

corresponde ao número de perdas de massa, Ic é o intervalo de confiança para a

análise ou simplesmente o erro absoluto máximo permitido.

O sistema de fragmentação de moléculas tem a capacidade de encontrar

todas as possibilidades de fragmentação que podem gerar moléculas validadas

pelos bancos de dados, regras heurísticas ou cálculo do NOX. No entanto, em

algumas situações específicas, tais como: fragmentação com formação de

substâncias pouco estáveis (incomuns), valor de NOX específico para uma certa

classe de substâncias, pode levar o sistema de fragmentação a não contemplar

fragmentos que deveriam ser validados ou validar fragmentos que não deveriam

ser adicionados ao conjunto de fragmentos válidos. Para estas situações os

bancos de dados de fragmentos (banco 1 e banco 2), o banco de dados com

valores de NOX para cada elemento químico juntamente com o conjunto de regras

heurísticas para as definições de funções químicas e sais têm a propriedade de

serem atualizados com facilidade. Esta capacidade de novas inclusões possibilita

ao perito humano acrescentar fragmentos que não estão sendo validados pela

rede de busca (Figura VII-1) ou retirar fragmentos que estão sendo validados

quando não deveriam ser validos. Entretanto, quaisquer modificações devem ser

realizadas de forma criteriosa para que não sejam inseridas informações erradas;

um analista experimental experiente pode supervisionar tais inserções. As

VII-80

atualizações devem ser realizadas depois de verificada uma interpretação

incoerente.

O controlador fuzzy para o operador predador, apresenta portanto um

conjunto “crisp”, ou seja formando apenas por duas opções de controle (válido e

não válido). Não existe uma molécula que seja parcialmente válida para o

processo de interpretação de curvas TG. A ação de controle obtida depende da

composição do individio, se existir apenas um fragmento não-válido associado a

uma das perdas de massa e este for classificado como não válido o indivíduo é

eliminado, pois uma perda de massa não pode ficar sem determinação, Entretanto

se existir mais de um indivíduo associado a perda de massa, apenas o indivíduo

não válido será eliminado.

d. Operador Mutação

O operador mutação foi modificado, pois as mutações na lista de átomos

que geram uma perda de massa não podem ser binárias. Para descrever o

processo de mutação em uma seqüência de átomos, considere uma análise

termogravimétrica com carbonato de cálcio em uma atmosfera de oxigênio ou ar.

Nesta análise existem três tipos de átomos (Ca, C, e O). Tomando como exemplo

um fragmento molecular formado por Ca, C, O uma operação de mutação

realizada na primeira posição deve substituir o átomo de cálcio por carbono ou

oxigênio. Para decidir qual substituição será efetuada, o operador mutação faz um

sorteio entre os átomos que podem substituir o elemento selecionado. Para o

exemplo descrito, sorteia-se um número inteiro no intervalo fechado 1 e 2, sendo

que 1 representa o carbono e 2 corresponde ao oxigênio. Se por exemplo o

numero aleatório for 1 o novo fragmento será O,C,O que corresponde ao CO2. O

operador habitat avalia a presença de indivíduos muito próximos e

consequentemente muito semelhantes considerando primeiramente se existe

alguma combinação de fragmentos moleculares iguais e em seguida a lista de

índices estequiométricos é avaliada da mesma forma que um vetor com

componentes numéricas.

VII-81

e. Critério de Convergência

Cada indivíduo da população apresenta uma trinca de vetores (moléculas,

índices estequimétricos, atmosfera) para cada perda de massa. O critério de

convergência considera uma solução do problema se somente se a soma das

percentagens fornecidas por cada trinca resultam em 100% da amostra, e se o

erro de ajuste para cada perda de massa for o menor possível, preferencialmente

se for igual a zero, entretanto os erros experimentais inerentes a qualquer método

de medição podem impossibilitar um ajuste com erro igual a zero.

3. Interpretação de Curvas Termogravimétricas

A Tabela VII-1 contém os resultados de interpretação de curvas

termogravimétricas que apresentam todas as perdas de massa bem definidas. O

erro percentual indicado na Tabela VII-1 refere-se a atribuição de cada perda de

massa, enquanto o erro total corresponde ao erro cometido em relação a todo o

processo de interpretação. Caso o algoritmo genético apresente mais de uma

solução, o usuário deverá escolher qual solução será a mais adequada como

interpretação da curva TG. As três primeiras interpretações presentes são

completamente compatíveis com os dados termogravimétricos com as respectivas

interpretações presentes na literatura [60-62]. O oxalato de cálcio é utilizado como

padrão de calibração da instrumentação de análise térmica, pois as perdas de

massa ocorrem em passos separados e bem definidos [62]. Primeiro ocorre a

perda da molécula de água que inicia em 76ºC e termina em 190ºC [62]. O

próximo passo corresponde a liberação de uma molécula de CO entre 400ºC e

523ºC [62], e acima de 600º acorre a liberação CO2. Considerando a curva de

decomposição para [Cu(NH3)4]SO4.H2O, uma pequena sobreposição ocorre entre

a primeira e segunda perda de massa. O resultado fornecido pelo GA reflete a

presença de perdas de massa sobrepostas devido aos valores fracionados

definidos para a liberação das moléculas de amônia na primeira e segunda perda

de massa [63, 64].

VII-82

Tabela VII-1 Interpretação de curvas TG de acordo com o algoritmo genetoco, fornecendo a interpretação das respectivas perdas de massa juntamente com o valor calculado, o erro cometido em cada atribuição, o erro total e o tempo computacional para cada molécula analisada são apresentados

Molécula Perda

de massa

Perdas (%)

Experimental

Perdas (%)

Calculado

Interpretação Erro

%

Erro

Total %

Tempo

(min)

CaCO3 1 44.03 43.97 CO2 0.14

Resíduo 55.94 56.03 CaO 0.16 0.09 10

CaC2O4H2O 1 12.32 12.32 H2O 0

2 18.88 19.17 CO 1.5

3 29.04 30.12 CO2 3.71

Resíduo 39.77 38.38 CaO 3.49 1.39 15

Mg(CHO2)2.2H2O 1 23.67 23.96 2H2O 1.22

2 49.10 49.23 H2O+2CO 0.26

Resíduo 27.23 26.80 MgO 1.58 0.42 12

[Cu(NH3)4]SO4.H2O 1 20.83 21.19 H2O+1.94NH3 0.02

2 6.03 6.93 1.06 NH3 1.32

3 6.97 6.93 NH3 0.57

4 32.56 32.57 SO3 0.03

Resíduo 33.61 32.36 CuO 3.71 0.71 20

O último passo para a validação do algoritmo genético corresponde à

realização de testes de interpretação em sistemas complexos (Tabela

VII-2)[65,66], que apresentam estruturas moleculares extensas e curvas

termogravimétricas que sejam compostas por vários passos de decomposição

caracterizando a curva TG como extremamente complexa. Para estes testes serão

utilizadas curvas termogravimétricas de complexos aminosalicilato de cobalto(III),

complexos de norfloxina de Manganês(II) e Cobalto(II). A interpretação realizada

pelo algoritmo genético pode levar em consideração as possíveis reações da

substância com a atmosfera, desde que esta seja definida como reativa. Os três

primeiros complexos foram extraídos da referência [65] e a análise

termogravimétrica foi realizada em uma atmosfera de ar, possibilitando a

ocorrência de reações, tais como oxidação. A interpretação para o primeiro

VII-83

complexo está em total acordo com os dados da literatura. Para as três perdas de

massa do complexo 1, ocorre apenas a perda da molécula de água seguida da

liberação em uma única perda dos ligantes etilenodiamina e salicilato. A análise do

resíduo através de difração de raios-X, de acordo com a referência [65], indica a

formação do Co3O4, que corresponde a um óxido combinado (CoO + Co2O3). A

atribuição do resíduo realizada pelo algoritmo genético demonstra a sua

capacidade de resolução, sendo que ao resíduo foi atribuído como 1/3CoO e

1/3Co2O3.

Tabela VII-2 Interpretação de curvas TG para sistemas químicos complexos, que apresentam estruturas químicas extensas

Molécula Perda

de massa

Temperatura Perdas (%)

Experimental

Perdas (%)

Calculado

Erro

(%)

Erro

Total

Interpretação

(1) ref 65 I 100-195 9.2 8.9 3.2 2H2O

[Co(en)2sal]Cl.2H2O II 230-270 30.2 29.7 5.7 2en

III 270-630 43.9 42.9 2.3 Sal+Cl

Resíduo >630 21.9 20. 8.7 2.51 (1/3) Co3O4

(2) ref 65 I 100-180 3.60 3.57 0.8 H2O

[Co(en)2(C2H5NH2)sal](NO3)2.H2O II 205-260 31.00 31.62 2.0 2NO2+O2+

(NH3+CH3NH2 ou C2H5NH2)

III 260-270 24.20 23.83 1.5 2en

IV 310-515 25.00 27.20 8.8 Sal

Resíduo >515 18.11 18.15 0.2 2.5 (1/3) Co3O4

(3) ref 65 I 75-100 4.20 4.24 0.9 H2O

[Co(NH3)5sal](NO3)2.H2O II 165-345 4.60 4.58 0.4 1.14 NH3

III 75,00 77.23 3 3.86NH3+NO2+O2+sal

Resíduo 20.2 18.9 5.5 1.3 (1/3) Co3O4

(4) ref 66 I 7.62 7.70 1.0 4H2O

[Co(nor)2]SO4.8H2O II 71.21 70.67 0.8 11C2H2+3C2H4

+6NO+2HF+4H2O

Resíduo 21.17 21.65 2.3 0.7 CoSO4+4C

(5) ref 66 I 7.49 7.55 0.8 4H2O

Mn(nor)2(CH3CO2)2.8H2O II 7.51 7.55 0.5 4H2O

III 72.02 72.42 0.6 11C2H2+4C2H4+6NO+

H2O+2CO+2HF

Resíduo 12.98 12.45 4.0 2 MnO+4C

* sal corresponde a C6H4(OH)CO2-, en equivale a etilenodiamina, nor corresponde a norfloxacina.

Para a interpretação do complexo 2, existiram duas classes de soluções

equivalentes em relação a quantidade de massa liberada [65]. A primeira perda é

VII-84

atribuída à molécula de água. A diferenciação entre as soluções do GA ocorreram

na segunda perda de massa. A primeira solução contém 2NO2+O2+NH3+CH3NH2

e a segunda classe de solução encontrada foi 2NO2+O2+NH3+C2H5NH2), sendo

que ambas estão em conformidade com os dados relatados na literatura [65]. A

determinação do resíduo para o complexo 2 foi a mesma encontrada para o

complexo 1 (1/3CoO e 1/3Co2O3).

Para o terceiro complexo ocorreu uma atribuição com valores

estequiométricos não usuais. A segunda perda de massa foi atribuída como

1.14NH3, e na terceira perda de massa foi identificado pelo GA a seguinte

atribuição 3.86 NH3 + NO2 + O2 + SalH. Apesar dos valores fracionados na

quantificação dos ligantes amino, a quantidade total está de acordo com o contido

na molécula que é de cinco moléculas de amônia.

Os complexos 4 e 5 foram obtidos a partir da refêrencia [66]. A análise

termogravimétrica para estes complexos utilizou atmosfera de nitrogênio e,

portanto, a atmosfera será considerada inerte para o GA. Estes complexos

apresentam o ligante norfloxacina (Figura VII-2) formando assim as estruturas

mais extensas da Tabela VII-2. Para demonstrar a complexidade desta análise a

Figura VII-3 apresenta a curva termogravimétrica para o complexo 4 e a sua

respectiva estrutura química. A análise termogravimétrica do complexo 4, não

apresenta passos de decomposição bem definidos, ou seja separados por

patamares, ou seja, ocorrem sobreposições de reações. No momento em que uma

decomposição está ocorrendo, outra já está começando. Apesar da extensão da

estrutura química e da indefinição da perda de massa o algoritmo genético

encontrou uma interpretação equivalente à proposta na literatura [66]. Na segunda

perda de massa ocorre a decomposição térmica do ligante norfloxacina em cinco

componentes diferentes (11C2H2+3C2H4+6NO+2HF+4H2O). A atribuição do

resíduo (CoSO4+4C) apresenta uma contaminação por carbono quantificada como

4C e equivalente a atribuição proposta na literatura [66].

VII-85

NHN

F

N

OO

HO

CH2CH3

Figura VII-2 Fórmula do ligante norfloxacina.

Figura VII-3 (A): Análise termogravimétrica do complexo 4 da Tabela VII-2 e (B) estrutura química do complexo 4.

A analise termogravimétrica para o complexo 5 e a sua respectiva estrutura

é mostrada na Figura VII-4. Semelhante ao complexo 4, a curva TG não apresenta

passos de decomposição térmica definidos, indicando a presença de reações

simultâneas. A estrutura do complexo também é extensa compreendendo mais de

100 átomos. A interpretação do GA mostra-se coerente com interpretação contida

na ref 66, o ligante norfloxacina foi fragmentado em 6 moléculas

(11C2H2+4C2H4+6NO+H2O+2CO+2HF). Novamente a atribuição do resíduo

apresentou uma contaminação com carbono (4C). A interpretação das curvas TG

para os complexos 4 e 5 mostrou um erro inferior a 2% o que reforça a

potencialidade do algoritmo genético proposto para a interpretação de dados

instrumentais.

VII-86

Figura VII-4 (A) Análise termogravimétrica do complexo 5 Tabela VII -2 e (B) estrutura química do complexo 5.

A determinação de rotas de decomposição a partir de dados

termogravimétricos aprimora a confiabilidade do algoritmo genético para

aplicações em sistemas mais complexos que este, como por exemplo, para

elucidação de estruturas de proteínas. Durante o desenvolvimento do algoritmo

genético o foco de aplicação consistia em determinar estruturas de proteínas;

entretanto, devido aos resultados obtidos com o GA aplicado aos estudos de

liberação de fármacos e interpretação de dados termogravimétricos em que o erro

verificado foi compatível com os resultados contidos na literatura [40, 65, 66]

possibilitou a sua utilização para outras aplicações, como descrito neste capítulo e

no capítulo VI.

Capítulo VIII - Modelamento de Estruturas de Proteínas

VIII-88

1. Introdução

O atual desenvolvimento de diversas áreas científicas e tecnológicas, como

por exemplo; medicina, farmacologia e química, estão relacionadas a estudos do

genoma e elucidação estrutural e funcional de proteínas, enzimas, receptores de

novos fármacos, auxiliando assim na compreensão de fenômenos biológicos em

nível molecular [69]. A compreensão de toda a arquitetura molecular dos

fenômenos biológicos indica a possibilidade de avanços significativos nas técnicas

de diagnóstico e tratamento de doenças, possibilitando realizar tratamentos

clínicos no feto ou na primeira infância, muito antes do surgimento dos primeiros

sintomas [67,68]. Para que esta evolução de diagnóstico e tratamento seja viável é

necessário primeiramente a elucidação do maior número possível de estruturas

tridimensionais (terciárias e quaternárias) de proteínas [70].

Focalizando na determinação de estruturas tridimensionais de proteínas, os

métodos instrumentais como cristalografia de raios-X, ressonância magnética

nuclear e difração de nêutrons têm sido aprimoradas constantemente, obtendo-se

bons resultados [69]. Entretanto, a quantidade de amostras muitas vezes é

reduzida, ou então a proteína não forma cristais definidos. Outras proteínas

podem perder a sua função ou adotar outra conformação quando retiradas do

meio em que existem, como por exemplo, proteínas ligadas à membrana

plasmática [71].

Embora a obtenção da estrutura tridimensional seja de difícil determinação,

a obtenção das seqüências de aminoácidos (estruturas primárias) são

relativamente mais simples de serem efetuadas [14-15]. Desta forma o

modelamento de estruturas de proteínas a partir da estrutura primária pode

representar uma antecipação para a real definição de toda a arquitetura molecular

de um ser vivo. Estas determinações contribuem significativamente com outros

estudos relacionados, por exemplo, à determinação de sítios específicos de

proteínas, análise e determinação de novos fármacos [15, 40, 73].

Como discutido no Capitulo II, a síntese de proteínas no ribossomo é

catalisada por diversas enzimas e sofre a influência de diversas moléculas

relacionadas no processo, tais como tRNA, enzimas ativadoras de aminoácidos,

VIII-89

polipeptídeos, dentre outros. A elevada complexidade dificulta grandemente o

desenvolvimento de modelos matemáticos consistentes que sejam eficientes para

elucidar uma estrutura tridimensional [73].

Para demonstrar a complexidade da determinação de estruturas de

proteínas, a estrutura secundária (α-hélice e folha β) corresponde a um problema

ainda sem solução definitiva na biologia molecular estrutural [15, 74]. A grande

limitação está em conhecer e simular, com precisão, a ação das leis que regem o

processo de enovelamento ou empacotamento ("folding"), impedindo assim

obtenção de conformações que sejam simultaneamente estáveis e funcionais..

Uma forma de obtenção de estruturas secundárias e terciárias corresponde

a modelagem por homologia ou modelagem comparativa [75]. Estas baseiam-se

nas seguintes premissas :

a. a homologia entre seqüências de aminoácidos implica em semelhança

estrutural e funcional;

b. proteínas homólogas apresentam regiões internas conservadas

(principalmente constituídas de elementos de estrutura secundária:

hélices, alças e folhas-β );

c. as principais diferenças estruturais entre proteínas homólogas ocorrem

nas regiões externas, constituídas principalmente por alças ("loops"),

que ligam os elementos de estruturas secundárias.

Neste Capítulo serão discutidas algumas propriedades relacionadas ao

modelamento por homologia e as adaptações realizadas no algoritmo genético

para a construção de estruturas secundárias de proteínas.

2. Proteínas Homólogas

As proteínas homólogas são identificadas principalmente pela atividade

biológica, extremamente semelhante para diferentes organismos. Por exemplo, a

hemoglobina tem a função de transporte de O2 em diferentes espécies de

vertebrados [11]. Esta diferenciação de composição, preservando a

funcionalidade deve-se principalmente ao mecanismo evolucionário de duplicação

de genes, associado às mutações, que produz divergências moleculares.

Entretanto, a diferenciação durante o processo evolutivo é apenas parcial e as

VIII-90

proteínas que estão relacionadas por um ancestral comum, proteínas hómologas,

apresentam sítios de elevada similaridade na seqüência de aminoácidos e na

estrutura tridimensional [12].

As proteínas homólogas podem ser idênticas, semelhantes ou não-

semelhantes. Quanto menor o grau de semelhança entre proteínas, menor será a

semelhança estrutural. As regiões preservadas no processo evolutivo, configuram

partes fundamentais para a manutenção da função da proteína e por este motivo

não sofrem grandes modificações [11-12].

3. Estrutura Secundária de Proteínas

A estrutura secundária corresponde a um arranjo regular da estrutura de um

polipeptídeo de acordo com o tipo de conformação presente na cadeia

polipeptídica. Os padrões (tipos) de estrutura secundária em um polipeptídeo são

estabilizados principalmente por ligações de hidrogênio entre grupo amida (N-H) e

o oxigênio ligado ao carbono α no grupo carbonila. Em termos gerais a estrutura

secundária de um polipeptídeo pode ser encontrada nas formas de hélices, alças

e folhas [10].

A estrutura em hélice é formada pela repetição dos ângulos diedros do

carbono α de cada aminoácido. As hélices podem ser caraterizadas pela

quantidade de aminoácidos necessária para formar uma volta completa. A Tabela

VIII-1 mostra os tipos de estruturas secundárias e a quantidade de aminoácido

para formar uma volta na hélice ou para formar uma alça.

A Figura VIII–1 mostra um esquema para os três tipos de hélice com a

representação dos carbonos α dos aminoácidos. A hélice 310 corresponde a forma

mais compacta de hélice. Nesta estrutura, 3 resíduos de aminoácido formam um

anel de 10 átomos a partir das ligações de hidrogênio, por este motivo foi

denominada 310-hélice. Esta hélice apresenta ligações de hidrogênio não

alinhadas, formando uma estrutura energeticamente desfavorável e, portanto é

encontrada apenas em pequenos trechos das cadeias polipeptídicas [13].

VIII-91

Tabela VIII-1 Alguns tipos de estruturas secundaras

Estrutura Freqüência Aminoácidos

por volta

completa (n)

310-hélice Pequenos

fragmentos

3,0

α-hélice Abundante 3,6

αL-Hélice Hipotético 3,6

π-hélice Raro 4,3

alça Abundante 3,0

Folha β Abundante --

Figura VIII–1 Representação cilíndrica para as hélice (a) 310hélice , (b) α-

hélice e π-hélice.

A estrutura π-hélice é, em geral, rara; além disso, a geometria da hélice não

permite uma estabilização por forças de van der Waals e as ligações de

hidrogênio encontram-se parcialmente alinhadas [12-14].

A α-hélice forma a estrutura com geometria mais estável, as ligações de

hidrogênio encontram-se alinhadas e o raio da hélice possibilita uma estabilização

VIII-92

adequada devida às forças de van der Waals. As α-hélices podem ser

encontradas em seqüências que apresentam entre 4 e 25 aminoácidos.

Outra estrutura estável e abundante corresponde as alças, que são

formadas por uma ligação de hidrogênio entre o aminoácido na posição i e o

aminoácido na posição i+2. As estruturas em alça são encontradas comumente na

superfície da estruturas tridimensionais de proteínas [80]. A Figura VIII-2 mostra a

estrutura de uma alça.

Figura VIII–2 Estrutura de uma alça entre os aminoácidos i e i+3

A folha-β, conhecida também com folha pregueada, envolve 2 ou mais

segmentos polipeptídicos da mesma molécula ou de moléculas diferentes,

arranjadas em paralelo ou no sentido anti-paralelo. Os segmentos em folha -β da

proteína adquirem um aspecto de uma folha de papel dobrada em pregas. Esta

conformação é estabilizada por ligações de hidrogênio entre as cadeias [14].

4. Modelagem de Proteínas por Homologia

A metodologia de modelagem de proteínas por homologia implica

basicamente em três passos sucessivos [75]:

• identificação e seleção das proteínas-molde;

VIII-93

• alinhamento das seqüências de resíduos;

• construção das coordenadas do modelo.

O modelamento de proteínas por homologia requer a existência de pelo

menos uma proteína com estrutura conhecida. A seleção das proteínas utilizadas

como padrão pode ser realizada através da família protéica a que pertence a

proteína-problema ou por similaridade com diversas proteínas contidas em bancos

de dados, como por exemplo PDB [76].

5. Alinhamento de Seqüências de Aminoácidos

O objetivo do alinhamento de proteínas é obter resíduos estruturalmente

equivalentes levando em conta características estruturais comuns, tais como,

elementos de estrutura secundária e resíduos catalíticos. Para que estruturas

confiáveis possam ser propostas o processo de alinhamento deve considerar a

possibilidade de realização de múltiplos alinhamentos entre a proteína-problema e

as proteínas que serão utilizadas para a modelagem. O processo de alinhamento

necessita de um método de quantificação da qualidade dos alinhamentos obtidos

[77, 78]. Para o estudo apresentado nesta dissertação foram utilizadas matrizes de

pontuação BLOSUM, que podem ser obtidas pela ref. [79]. Para uma melhor

representação dos resultados de alinhamento, utiliza-se freqüentemente um

código de letras para representar cada aminoácido [15].

VIII-94

Tabela VIII-2 Codificação dos nomes de cada aminoácido

Nome Letra Sigla Nome Letras Sigla

Alanina A Ala Metionina M Met

Cisteina C Cys Asparginina N Asn

Acido

Aspártico

D Asp Prolina P Pro

Ácido

Glutâmico

E Glu Glutamina Q Gln

Fenilalanina F Phe Arginina R Arg

Glicina G Gly Serina S Ser

Histidina H His Treonina T Thr

Iso-leusina I Ile Valina V Val

Lisina K Lys Triptofano W Trp

Leucina L Leu Tirosina Y Tyr

a Matriz de Pontuação

A matriz de pontuação corresponde a uma tabela de valores que tem a

função de descrever a probabilidade de ocorrer uma substituição entre

aminoácidos em um dado alinhamento. A matriz BLOSUM (Block Substitutin

Matrix), é gerada a partir do alinhamento múltiplo restrito de proteinas. As matrizes

BLOSUM são derivadas do banco de dados denominados Blocks que

correspondem a conjuntos de alinhamentos contínuos de regiões de seqüência

em famílias de proteínas relacionadas. Estes blocos são agrupados e ordenados

de acordo com as freqüências de substituições entre eles dentro de uma família.

Associado ao nome BLOSUM existe um valor numérico (por exemplo, 50) que

representa o valor limite para a etapa de agrupamento na formação da matriz. Um

valor de 50 indica que as seqüências com similaridade maior ou igual a 50% foram

incluídas na para a construção da matriz [77-80].

Por exemplo, na matriz BLOSUM50 (Figura VIII-3) [79] o ácido glutâmico

(E) possui uma pontuação positiva para substituição por ácido aspártico (D) e por

VIII-95

glutamina (Q), estas substituições são conservadoras. O ácido aspártico possui

uma cadeia lateral quimicamente similar ao ácido glutâmico, a não ser pela

ausência de um grupamento metil. Por outro lado, a glutamina é similar em

tamanho e composição química ao ácido glutâmico, mas é neutra enquanto o

ácido glutâmico possui carga positiva. As pontuações de substituição para ácido

glutâmico com resíduos de Isoleucina (I) e Leucina (L) são negativas. Estes

resíduos possuem cadeias laterais neutras e apolares e são quimicamente

diferentes do ácido glutâmico. As pontuações na parte diagonal da matriz indicam

a freqüência de ocorrência de cada aminoácido. Por exemplo, com uma

pontuação positiva de 15, é bastante improvável que o alinhamento de um

triptofano seja mera coincidência.

Figura VIII–3 Matriz de alinhamento BLOSUM50 [79].

6. Modificações no Algoritmo Genético

O algoritmo genético proposto no Capítulo V foi primeiramente configurado

para obter o melhor desempenho e validado em problemas de elevada

VIII-96

complexidade. O primeiro problema escolhido para validação do algoritmo

genético acoplado a lógica fuzzy corresponde à parametrização de funções

(Capítulo VI), sendo que o sistema utilizado para a realização de testes

corresponde a função que define a fração de droga liberada (eq. VI-1 Capítulo VI,

pg. 57) em um sistema controlado [40-43]. Através da resolução do problema de

parametrização de funções, foi possível avaliar a capacidade do sistema

inteligente (Capítulo V) na obtenção de múltiplas soluções como um erro de ajuste

inferior à precisão experimental.

O segundo problema para a validação do sistema inteligente proposto

nesta dissertação corresponde a interpretação de dados de análise

termogravimétrica (Capítulo VII). Este problema envolve a identificação das

possíveis rotas de decomposição térmica de uma substância pura. A interpretação

das curvas termogravimétricas foram obtidas a partir da fragmentação da molécula

analisada e atribuição dos fragmentos moleculares às perdas de massa de forma

a obter o menor erro de ajusta para cada perda de massa e para o processo total.

Novamente o sistema inteligente implementado mostrou-se eficiente apresentando

resultados concordantes nos dados de interpretação de curvas TG coletados em

diversos artigos científicos.

A partir dos resultados obtidos no procedimento de validação da

metodologia de otimização (Capítulos VI e VII) o algoritmo genético foi

devidamente adaptado para a predição de estruturas químicas de proteínas. Cada

indivíduo da população configura um possível alinhamento entre duas seqüências,

a estrutura dos indivíduos é formada por duas listas, a primeira contém

informações relacionadas a proteína-problema, enquanto a segunda apresenta

informações relacionadas às proteínas da base de dados que serão utilizadas

para inferir informações estruturais na proteína-problema. Cada lista que compõe

os indivíduos apresenta as seguintes informações:

• Nome ou rótulo de cada seqüência;

• Posição na seqüência onde inicia-se o alinhamento efetivo;

• Extensão do alinhamento;

• Posições onde estão inseridas as falhas (“gaps”) para o alinhamento;

VIII-97

• Padrões estruturais dos fragmentos associados aos fragmentos de

proteínas (p.ex. α-hélice e folha-β).

A Figura VIII–4 demonstra a estrutura de um indivíduo configurada para

inferir a estrutura secundária do fragmento de citocromo C Humano a partir

do de um fragmento de citocromo C do cavalo.

Figura VIII–4- Representação dos indivíduos para inferir a estrutura secundária de um fragmento de citocromo C humano.

Como pode ser observado na Figura VIII– a posição 5 da primeira lista está

vazia, pois esta corresponde a proteína-problema e portanto não apresenta

nenhuma definição estrutural.

a. Função Fitness

Para a elucidação de estruturas secundárias de proteínas a função de

aptidão (Capítulo V, eq. V-1, pg. 47) será modificada para expressar corretamente

o objetivo do processo de otimização. Especificamente para a elucidação de

estruturas protéicas a função fitness será a soma dos valores de pontuação

definidos pela matriz de substituição (BLOSSUM) utilizando a penalidade referente

VIII-98

à inserção de gaps. A função de fitness particularmente proposta para o estudo de

proteínas pode ser escrita como

)(),(1

gGbasFT

iiii −= ∑

=(VIII-1)

sendo que Fi corresponde a função fitness, s(ai,bi) é o elemento que define a

pontuação do alinhamento do aminoácido ai com o aminoácido bi , G(g), designa a

função de penalidade definida como [75]:

hgdgG )1()( −−= ( VIII-2)

sendo g o tamanho do espaçamento, d o valor de cada alinhamento com um

espaçamento e h o valor atribuído a cada extensão do espaçamento. O parâmetro

d (eq. VIII-2) pode assumir dois valores diferentes. Se no alinhamento existir

alguma penalidade presente d assume o valor –12, enquanto se não existir

nenhuma penalidade d será igual a zero.

Figura VIII–5 Exemplificação de alinhamentos com penalidade consecutivas e alternadas.

À função fitness (eq. VIII-1) corresponde á similaridade entre duas

seqüências de aminoácidos, portanto quanto maior o valor da função fitness mais

semelhantes serão as seqüências comparadas. Esta função fitness privilegia os

VIII-99

alinhamentos que apresentam gaps consecutivos, pois a inserção alternada de

penalidades provoca uma queda acentuada dos valores da função fitness que

neste caso será sempre maximizada. Para exemplificar o cálculo da função fitness

a Figura VIII–5 mostra dois alinhamentos, um com penalidades consecutivas e

outro com penalidades alternadas.

b Operadores Genéticos

Para a formatação presente nos indivíduos da população, os operadores

genéticos também foram alterados para melhor adaptação do GA ao problema de

elucidação de estruturas.

O operador predador não sofreu qualquer modificação, pois a sua execução

depende apenas do valor da função fitness. Entretanto os outros operadores

presentes no algoritmo genético proposto no Capítulo V foram modificados para

serem adaptados à formação da população. O operador habitat considera como

estando próximos os indivíduos que têm uma identidade superior a 95%, neste

caso o indivíduo que tiver o maior valor de aptidão terá maior probabilidade de ser

o vencedor durante o torneio realizado entre os indivíduos muito semelhantes.

Como descrito anteriormente nos capítulos V, VI e VII, o operador habitat tem a

função de impedir que os indivíduos da população venham a convergir para um

único alinhamento, ou seja uma solução. A atividade do operador habitat é

controlada por um controlador fuzzy que identifica o perfil da população, ou seja,

se a população estiver dispersa em várias soluções de elevada aptidão a atividade

do operador habitat é reduzida, entretanto, se vários indivíduos convergem para

uma solução a atividade do operador habitat aumenta, sendo que esta alteração

de atividade é governada pela função de pertinência encontrada no Capitulo V eq.

3 (pg. 49). A presença do operador habitat associado ao controlador fuzzy é

essencial para a obtenção de soluções confiáveis no processo de elucidação da

estrutura secundária de proteínas. Se o operador Habitat for omitido do processo

de inferência do algoritmo genético, o GA poderia se tornar viciado em soluções

de elevada aptidão. Para a predição de estruturas secundárias de proteínas esta

omissão provocaria a convergência dos indivíduos para apenas um alinhamento

VIII-100

entre a seqüência problema e uma seqüência da base de dados, encontrando

assim o alinhamento global ótimo, ou seja, o alinhamento de maior similaridade.

Para o operador crossover a única modificação refere-se ao tipo de

combinação realizada entre os indivíduos, sendo que a lista de um indivíduo será

trocada com a lista de outro.

A execução do operador mutação sofreu o maior número de modificações.

O operador mutação pode realizar as seguintes operações sobre um indivíduo:

mudar o tamanho do alinhamento (aumentar ou diminuir), mudar a posição das

penalidades dentro do alinhamento, mudar a posição de início do alinhamento

para cada seqüência separadamente. Desta forma o GA está adequado para

inferir soluções relacionadas a estruturas de proteínas, a partir do modelamento

por homologia.

7. Determinação da Estrutura Secundária

a. Estrutura do Citocromo C

O citocromo C está localizado no interior da organela mitocôndria de todas

as células eucarionte que realizam respiração aeróbia. O citocromo C tem a

função de receber os elétrons do citocromo b e transferi-lo para a enzima

citocromo oxidase. Para todos os animais vertebrados o citocromo C apresenta

um sítio característico contendo um resíduo de cisteína que se liga ao grupo

heme. Este sítio de ligação concede aos diversos tipos de citocromo C a sua

funcionalidade biológica.

Para o presente estudo foi utilizada a seqüência primária do citocromo C

humano. Utilizando o algoritmo genético desenvolvido neste trabalho (Capítulo V),

a estrutura secundária do citocromo C (humano) pode ser determinada com

elevada precisão. O GA utiliza como base de dados as seqüências lineares de

proteínas e fragmentos de proteínas contidos no bando de dados PDB [76].

Atualmente (janeiro de 2007) este banco contém 32602 seqüências de proteínas

com estruturas determinadas por difração de raios-X. A partir dos alinhamentos

realizados pelo algoritmo genético, foram identificadas quatro seqüências para

inferir a estrutura secundária do citocromo C humano, sendo que todas

VIII-101

correspondem à família do citocromo C. A Tabela VIII-3 apresenta a similaridade

global das seqüências selecionadas pelo GA para inferir a estrutura secundária do

citocromo C humano. Os valores de similaridade global foram obtidos a partir do

sistema VOBEL [81, 82] que determina alinhamentos globais com base em um

sistema especialista.

Tabela VIII-3 Similaridades mais expressivas encontradas pelo algoritmo genético para a determinação da estrutura do citocromo C humano

Organismo Citocromo C

Cavalo

Citocromo C

Salmão

Citocromo C

Boi

Citocromo C

Rato

Similaridade 91% 84% 14% 9%

Embora a similaridade do citocromo C das espécies boi e salmão seja

pequena, existem regiões de conservação significativa, principalmente nas regiões

que contém cisteína. A seguir é mostrado a seqüência de aminoácidos do

citocromo C humano e o seu respetivo código como descrito no banco de dados

PDB

>1J3S:A|PDBID|CHAIN|SEQUENCE 01 GDVEK GKKIF IMKCS QCHTV EKGGK HKTGP 31 NLHGL FGRKT GQAPG YSYTA ANKNK GIIWG 61 EDTLM EYLEN PKKYI PGTKM IFVGI KKKEE 91 RADLI AYLKK ATNE

A partir dos alinhamentos realizados considerando-se as estruturas

secundárias dos citocromos identificados na Tabela VIII-3, a estrutura secundária

do citocromo C humano determinada pelo GA é mostrada na Tabela VIII-4

VIII-102

Tabela VIII-4 Padrões de estruturas secundária encontrados no citocromo C humano utilizando o algoritmo genético

Posição Trecho da seqüência Estrutura Confiança (%)

1-3 GDV Hélice-α 50

4-13 EKGKKIFIMK Hélice-α 70

15-17 SQC Alça 40

35-37 LFG Alça 40

50-56 ANKNKG Hélice-α 50

61-74 EDTLM EYLEN PKKY Hélice-α 96

88-102 KEERADLIAYLKKAT Hélice-α 97

As estruturas identificadas na Tabela VIII-4 estão em total acordo com os

encontrados no banco de dados PDB. No final do processo de inferência o

algoritmo genético retorna para cada região identificada o valor da confiança,

baseado na distribuição dos alinhamentos encontrados, ou seja, quanto mais

alinhamentos para um mesmo trecho da proteína problema forem encontrados

com a mesma estrutura secundária, maior será a confiança do GA no processo de

inferência estrutural. Nota-se na Tabela VIII-4 que os fragmentos mais extensos

apresentam maior confiabilidade, pois a extensão do alinhamento contribui para

uma maior similaridade entre as seqüências. O valor da confiabilidade

corresponde a freqüência da resposta do algoritmo genético na população.

Comparando os dados obtidos pelo GA com os dados referentes ao

citocromo C humano no banco de dados, conclui-se que os trecho de seqüências

apresentados na Tabela VIII-4 estão corretos, apenas uma alça não foi

identificada, provavelmente por não conter um alinhamento expressivo nas

seqüências do banco de dados. A convergência do algoritmo genético na

determinação da estrutura do citocromo-C humano para uma população contendo

300 indivíduos foi obtida após 8000 gerações. Este processo foi executado em 3

horas de processamento. Este elevado tempo computacional deve-se a elevada

VIII-103

quantidade de procedimento de leitura em arquivos, o que aumenta

demasiadamente o tempo computacional.

b. Estruturas das Cadeias α e β da Hemoglobina Humana

A hemoglobina tem a função de realizar o transporte de oxigênio no tecido

sangüíneo. A estrutura da hemoglobina contém quatro cadeias polipeptídicas,

sendo dois do tipo cadeia α com 141 aminoácidos e duas cadeias β com 146

aminoácidos. Juntamente com as estruturas protéicas existem também quatro

grupos heme (porfirínicos) coordenados a um átomo de ferro.

A determinação da estrutura secundária das cadeias α e β da hemoglobina

humana apresentou um conjunto de quadro cadeias de polipeptídeos pertencentes

à mesma família da hemoglobina. A similaridade entre todas as cadeias pode ser

visualizada na Tabela VIII-5.

Tabela VIII-5 – Similaridade entre cadeias α e β da hemoglobina humana em

relação as seqüências selecionadas pelo GA

Similaridade entra as Cadeias α (%)

Organismo Humano Cavalo Boi Porco Rato

Humano -- 89 89 86 95

Cavalo -- 100% 87 89

Boi -- 87 89

Porco -- 86

Rato --

Similaridade entra as Cadeias β (%)

Humano Cavalo Boi Porco Rato

Humano 86 86 87 99

Cavalo -- 100 85 86

Boi -- 84 86

Porco -- 85

Rato --

VIII-104

As seqüências de aminoácidos que formam as cadeias α e β da

hemoglobina são mostradas a seguir, e foram obtidas a partir do banco de dados

PDB [76].

Cadeia α >1GZX:A|PDBID|CHAIN|SEQUENCE 01 VLSPA DKTNV KAAWG KVGAH AGEYG AEALE 31 RMFLS FPTTK TYFPH FDLSH GSAQV KGHGK 61 KVADA LTNAV AHVDD MPNAL SALSD LHAHK 91 LRVDP VNFKL LSHCL LVTLA AHLPA EFTPA 121 VHASL DKFLA SVSTV LTSKY R

Cadeia β >1GZX:B|PDBID|CHAIN|SEQUENCE 01 VHLTP EEKSA VTALW GKVNV DEVGG EALGR 31 LLVVY PWTQR FFESF GDLST PDAVM GNPKV 61 KAHGK KVLGA FSDGL AHLDN LKGTF ATLSE 91 LHCDK LHVDP ENFRL LGNVL VCVLA HHFGK 121 EFTPP VQAAY QKVVA GVANA LAHKY H

O processo de determinação da estrutura secundária para a cadeia α obteve uma

similaridade média de 87%. Este resultado possibilitou uma determinação da

estrutura secundária da cadeia α-hemoglobina humana, representada na Tabela

VIII-5. A Tabela VIII-5 apresenta a seqüência de aminoácidos da α-hemoglobina

com as respectivas definições de estrutura secundária. Nota-se que as regiões de

hélice são mais fáceis de prever, pois apresentam elevada confiança de acordo

com o procedimento adotado pelo GA. Alguns trechos, como por exemplo, 36 a

44, foi identificada a estrutura de 310hélice que apresenta tamanhos reduzidos, em

relação a α-hélice.

VIII-105

Tabela VIII-6 Padrões de estruturas secundária encontrados para cadeia α da

hemoglobina humana utilizando o algoritmo genético

posição Trecho da seqüência Estrutura Confiança

(%)

1-4 VLS Cadeia linear 60

5-17 PA DKTNVKAAWGKV α-Hélice 96

18-20 AH 310Hélice 30

21-35 AGEYGAEALERMFLS α-Hélice 90

36-44 FPTTKTYFP 310Hélice 85

45-53 HFDLSHGSA Cadeia linear 84

54-72 SHGSAQVKGHGKKVADALTNAVAH α-Hélice 100

73 -80 VDDMPNAL 310Hélice 70

81-89 SALSDLHA α-Hélice 80

91-92 HKL Alça 20

93-95 RVDP Cadeia linear 30

96-114 NFKLLSHCLLVTLA AH α-Hélice 90

115-117 LPA EFT Alça 30

118-136 AVHASL DKFLASVSTV L α-Hélice 95

137-142 TSKYR Alça 40

VIII-106

A cadeia β da hemoglobina é caracterizada por apresentar trechos extensos

de estrutura α-hélice, como pode ser visualizado na Tabela VIII-7.

Tabela VIII-7 Padrões de estruturas secundária encontrados para a cadeia β-

da hemoglobina humana utilizando o algoritmo genético

Posição Trecho da seqüência Estrutura Confiança

(%)

1-4 VHLT Cadeia linear 30

5-14 P EEKSA VTAL α-hélice 95

15-19 WGKVNV Cadeia linear 60

20-34 DEVGGEALGRLLVV α-hélice 96

36-44 WTQRFFES 310-hélice 45

50-73 PDAVMGNPKVKAHGKKVLGAFSD α-hélice 98

75-77 LAH alça 40

81-84 KGTFATLSELHCD α-hélice 90

96-100 HVDP Cadeia linear 30

118-122 GKEF 310-hélice 80

123-141 TPPVQAAY QKVVAGVANAL α-hélice 91

141-146 HKYH Cadeia linear 80

A predominância das estruturas de α -hélice pode ser facilmente detectada

pela quantidade, extensão e pela confiança do algoritmo genético no processo de

determinação da estrutura.

O acoplamento das técnicas de algoritmos genéticos e lógica fuzzy

possibilita a utilização do sistema em diversos problemas que envolvem múltiplas

soluções. Embora seja determinada apenas uma seqüência de estruturas

secundárias o GA teve que encontrar múltiplos alinhamentos para inferir os

resultados de forma satisfatória.

Capítulo IX- Conclusão

IX-108

1. Considerações Finais e Perspectivas Futuras

O algoritmo genético desenvolvido nesta dissertação de mestrado mostrou-

se eficaz na obtenção de soluções confiáveis para diferentes tipos de problemas,

que envolveram parametrização de funções matemáticas, interpretação de dados

de curvas termogravimétricas e elucidação de estruturas secundárias e terciárias

de protéicas. Claramente, os estudos desenvolvidos mostraram eficiência das

técnicas de inteligência artificial para aplicações em sistemas químicos complexos.

O desenvolvimento do algoritmo genético apresenta como inovação o

operador habitat, que possibilita ao GA encontrar múltiplas soluções compatíveis

no espaço de busca. Este operador genético foi fundamental para o sucesso do

sistema, o que foi comprovado pelos resultados nos problemas aplicados. Outra

característica da metodologia de otimização desenvolvida (GA) corresponde ao

acoplamento de controladores nebulosos ou fuzzy para os operadores genéticos,

possibilitando que estes tenham atividade dependentes da aptidão da população,

tornando-os mais eficientes na obtenção de soluções.

A estrutura do algoritmo genético foi elaborada de forma generalizada.

Assim, este pode ser aplicado em diversos problemas sem a necessidade de

grandes modificações na estrutura computacional. Apenas dois fatores devem ser

definidos de acordo com o problema: a formatação (estrutura) da população inicial

e a função de aptidão, também conhecida como função fitness.

A metodologia desenvolvida projeta para futuras aplicações em outros

sistemas de relevância científica e tecnológica, tais como, interpretação de dados

de espectrometria de massa, espectroscopias de infravermelho e UV-vísivel, bem

como em ressonância magnética nuclear. Relacionada à biologia molecular, o GA

pode ser utilizado futuramente na determinação de estruturas secundárias de

ácidos ribonucléicos (RNA) que são caracterizados pela elevada complexidade

estrutural.

109

Referencias Bibliográficas

[1] E.A. Bender, Mathematics Methods of Artificial Intelligence; E. E.

Comp. So. Press.:Washington, 2000.

[2] D. Holzhauer, I. Grosse, Eng. with Comput., 1999, 15, 315-325.

[3] Vladmir, J. Colect. Czech. Chem. Commum., 1992, 57, 184-197.

[4] N Kikuchi, H. Narimatsu, Biochim. Biophys. Acta-Gen. Subj., 2006,

1760, 578-583.

[5] Y. Lu, S. Freeland, Genome Biol., 2006, 7, 1-7.

[6] X.J. Yu, C. Wang, Y.X. Li, BMC Bioinformatics, 2006, 7, 1-6.

[7] M. Katoh, M. Katoh, Technol. Cancer Res. Treat., 2006, 5, 169-175.

[8] P. N. Judson, C. A. Marchant, J. D. Vessey, J. Chem. Inf. Comput.

Sci. 2003, 43, 1364-1370.

[9] P. Chaudhury, S.P. Bhattacharyya, W. Quapp, Chem. Phys., 2000,

253, 295-303.

[10] D. P. Snustad, M. J. Simmons, Principles of Gentics, John Wikey &

Sons, New York, 2001.

[11] A. L. Lehninger, Princípios de Bioquímica, Sarvier, São Paulo 1984.

[12] T. E. Creighton, Proteins: Structures and molecular properties, 2ºed,

W. H. Freeman and Company, New York, 1993.

[13] G. E. Sshulz, R. H. Schirmer, Principles of protein structure, Springer-

Verlag, New York, 1985.

[14] J.B.C. Finlay, M.J.Geisow, Protein sequencing, Oxford University

Press, New York, 1989.

[15] V. A. Blomfield, D. M. Crothers, I. Tinoco Jr., Nucleic Acids,

structures, properties and functions, University Science Books,

Sausalito, 1999.

[16] C. Wu, Y. Liang, H. P. Lee, C. Lu, Phys. Rev E, 2004, 70, 016701.

[17] Z. Michalewicz, Genetic Algoritms+Data Structures=Evolution

Programs, Springer-Verlag, New York, 1996.

[18] E.S.A Silva, H.A. Duarte, J. C. Belchior, Chem. Phys., 2006, 323,

553 –562.

110

[19] S. Habershon, K.D.M. Harris, R.L. Johnston, G.W. Turner, J.M.

Johnston, Chem. Phys. L., 2002, 353, 85 –194.

[20] N.H.T. Lemes, J.P. Braga, J.C. Belchior, Chem. Phys. L., 2005, 412,

353 –358.

[21] Y. Ge, J.D. Head, Chem. Phys. L. 2004, 398,107 –112.

[22] A. Rapallo, G. Rossi, R. Ferrando, A. Fortunelli. J. Chem. Phyc.,

2005, 122, 194308.

[23] G.A. Cox, R.L. Johnston, J. Chem. Phyc., 2004, 124, 204714.

[24] M. Shirayama , M.K.T Hatakeyama, H. Kimura, BioSystems. 2004, 77

151–161.

[25] Y.L. Xiao, D.E. Williams, J. Phys. Chem., 1994, 98, 7191-7200.

[26] P.J. Hsu, S.K. Lai, J. Chem. Phyc., 2006, 124, 044711.

[27] Y. Ge, J.D.Head, Chem Phys. Let. 2004, 398 107 –112.

[28] F.-C Chuang, C.Z. Wang, K.H. Ho, Phys Rev. B, 2006, 73, 125431.

[29] H. Kabrede, R. Hentschke, J. Phys. Chem. B, 2003, 107, 3914-3920.

[30] J.-S.R, Jang, C.-T. Sun, E. Mizutani, Neuro-Fuzzy and Soft

Computing. Prentice Hall, London, 1997.

[31] L.A. Zadeh, Fuzzy Logic for the management of Uncertaly; John

Wiley, New York, 1992.

[32] D. Driankov, H. Hellendoorn, M. Reinfrank. An In-troduction to Fuzzy

Control. Springer-Verlag, London, 1993.

[33] L.A. Zadeh, Inform. and Cont., 1965. 8, 338 – 353.

[34] L.A. Zadeh. Fuzzy Sets and Systems, 1978, 1, 3–28.

[35] H.F. Pop, C. Sârbu, O. Horowitz, D. Dumitrescu J. Chem. Inf.

Comput. Sci. 1996, 36, 465-482.

[36] B Desbska, B. Guzowska-Swider J. Chem. Inf. Comput. Sci. 2000,

40, 325-329.

[37] M. Akay, C. Maurice, Fuzzy and Set systems; 1997, 90, 219-228.

[38] A.F. Kohn, Reconhecimento de Padrões, Departamento de

engenharia eletrônica da escola Politécnica-USP, 1998.

111

[39] C.J. Richardson, D.J. Barlow. J. Pharm. Pharmacol. 1996, 48,581–

591.

[40] M.A.A. Reis, R.N.D. Sinisterra, J.C. Belchior. J. Pharm. Sci., 2004,

93, 418-430.

[41] J.C. Fu, C. Hagemeir, D.L. Moyer, Ng EW, J Biomed Mater, 1976,

10, 743–758.

[42] J, Siepmann, A. Streubel, N.A Peppas, Pharm Res 2002, 19, 306–

314.

[43] T. Higuchi, J. Pharm. Sci., 1961, 50, 874–875.

[44] R.C. Mackenzie, Thermochim. Acta, 1979, 28, 1-6.

[45] D.A. Skoog, F.J. Holler, T.A. Nieman, Principles of Instrumental

Analysis, 4 ed. Philadelphia: Saunders, 1992.

[46] N. Morel, A. Faist, Bulding and Environment, 1993, 28, 465-473.

[47] A. S. Ribeiro, A.C.F Caires,.N. Borrale, M. Lonashiro, Thermochim.

Acta 1996, 279, 177-181.

[48] G. Gupchup, K. Alexander, D. Dollimore, Thermochim. Acta, 1992,

196, 267-278.

[49] D. Holzhauer, I. Grosse, Engineering with Computers, 1999, 15 315-

325.

[50] R.C.O. Sebastião, J.P. Braga, M.I. Yoshida, Thermochim. Acta, 2004,

412, 107-111.

[51] G.C. Xu, L. Zhang, L. Liu, G.F. Liu, D.Z. Jia, Thermochim. Acta,

2005, 429, 31-42.

[52] M. Eloma, C.H. Lochmuller, M. Kudrjashova, M. Kaljurand,

Thermochim. Acta, 2000, 362, 137-144.

[53] M. Wesolowski, M. Czerwonka, Thermochim. Acta, 2003, 398, 175-

183.

[54] M. Wesolowski, P. Konieczynski, Thermochim. Acta, 2003, 397, 171-

180.

[55] C. Bernal, A.B. Couto, S.T. Trazzi, E.T.G. Cavalheiro, Química Nova,

2002, 25, 849-855.

112

[56] T. Nakayama, K. Tanaka, J. Chem. Inf. Comp. Sci., 1999, 39, 819-

832.

[57] B. Debska, B. Guzowska-Swider, D. Cabrol-Brass, J. Chem. Inf.

Comput. Sci. 2000, 40, 330-338.

[58] G.P. Voga; J.C. Belchior; Thermochim. Acta; 2007, 452, 140-148.

[59] G.P. Voga; J.C. Belchior, “Processo de interpretação de dados

termogravimétricos utilizando técnicas de inteligência artificial” INPI

Protocolo No. 014060008706. 2006.

[60] W.W. Wendlandt, Thermal Analysis, John Wiley: New York, 1986.

[61] D.E. Brown, M.J. Hardy, Thermochim. Acta.1985, 85, 521-524.

[62] A. Arenillas, F. Rubiera, J.J. Pis, J. Anal. Appl. Pyrolysis, 1999, 50,

31-46.

[63] R.F. Speyer, Thermal Analysis of Materials, Marcel Dekker: New

York 1994.

[64] J.P. Gupta, D.V. Nowell, Thermochim. Acta 1979, 30, 339-350.

[65] N. Das, Thermochim. Acta, 1995,257, 163-171.

[66] S.A. Sadeek, J. Mol. Struct. 2005, 753, 1-12.

[67] A. Farce, S. Dilly, S. Yous, P. Berthelot, P. Chavatte, J. Enzym. Inhib.

Med. Chem., 2006, 21, 285-295.

[68] C. Graaf, C. Oostenbrink, P.H.J. Keizers, B.M.A van Vugt-

Lussenburg, R.A.B van Waterschoot, R.A. Tschirret-Guth, J.N.M.

Commandeur, N.P.E Vermeulen, JI Curr. Drug Metab, 2007, 8, 59-

77.

[69] L. Miguet, Z. Zhang, M, Barbier, M.G. Grigorov, J. Comput.-Aided

Mol. Des., 2006, 20, 67-81.

[70] N.P. Todorov, C.L. Buenemann, I.L. Alberts, Proteins, 2006, 64, 43-

59.

[71] O. Moran, L.J.V. Galietta, O. Zegarra-Moran, Cell. Mol. Life Sci.,

2005, 62, 446-460.

[72] U. Heinemann, Nat. Struct. Biol. 2000, 7, 940.

[73] E. Gasteiger, E. Jung, A. Bairoch,. Curr. Issues Mol. Biol. 2001, 3, 47.

113

[74] A. Bairoch, R. Apweiler, Nucleic Acids Res. 2000, 28, 45-55.

[75] A. D. Baxevanis, B.F. Francis, Bioinformatics: a pratical guide to the

analisys of genes and proteins, John Wiley & Sons, New York, 2001.

[76] http://www.rcsb.org/pdb/home/home.do; jan/2007.

[77] J. Qiu, R. Elber, Proteins, 2006, 62, 881-891.

[78] Y.M. Huang, C. Bystroff, Bioinformatics, 2006, 22, 413-422.

[79] http://www.nhgri.nil.gov, jan/2007 .

[80] M. S. Waterman, Introduction to computacional Biology, Charman &

Hall, London, 1995,

[81] J. C. Belchior ; G. V. Pereira. Process of molecular analysis and

sequencing for the classification and identification of RNA, DNA,

and/or proteins utilizing techniques of artificial inteligence -

PCT/BR03/00194. 2003.

[82] J. C. Belchior ; G. V. Pereira. Processo de análise e seqüenciamento

molecular para classificação e identificação de RNA, DNA e/ou

proteínas utilizando técnicas de inteligência artificial - PI0205900-2.

2002

114

PUPLICAÇÕES

G.P. Voga, J.C. Belchior, F.D. Vieira, Parametrização de múltiplos sistemas

de liberação de controlada de drogas utilizando inteligência artificial, A ser

submetido, 2007.

G.P. Voga, J.C. Belchior, Elucidação do estruturas secundárias de

proteínas a partir de modelagem comparativa, utilizando inteligência

artificial. A ser submetido, 2007.

Livros Grátis( http://www.livrosgratis.com.br )

Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas










http://www.livrosgratis.com.br/cat_1/administracao/1







http://www.livrosgratis.com.br/cat_2/agronomia/1







http://www.livrosgratis.com.br/cat_3/arquitetura/1







http://www.livrosgratis.com.br/cat_4/artes/1







http://www.livrosgratis.com.br/cat_5/astronomia/1







http://www.livrosgratis.com.br/cat_6/biologia_geral/1









http://www.livrosgratis.com.br/cat_8/ciencia_da_computacao/1











http://www.livrosgratis.com.br/cat_9/ciencia_da_informacao/1











http://www.livrosgratis.com.br/cat_7/ciencia_politica/1









http://www.livrosgratis.com.br/cat_10/ciencias_da_saude/1











http://www.livrosgratis.com.br/cat_11/comunicacao/1







http://www.livrosgratis.com.br/cat_12/conselho_nacional_de_educacao_-_cne/1















http://www.livrosgratis.com.br/cat_13/defesa_civil/1









http://www.livrosgratis.com.br/cat_14/direito/1







http://www.livrosgratis.com.br/cat_15/direitos_humanos/1









http://www.livrosgratis.com.br/cat_16/economia/1







http://www.livrosgratis.com.br/cat_17/economia_domestica/1









http://www.livrosgratis.com.br/cat_18/educacao/1







http://www.livrosgratis.com.br/cat_19/educacao_-_transito/1









http://www.livrosgratis.com.br/cat_20/educacao_fisica/1









http://www.livrosgratis.com.br/cat_21/engenharia_aeroespacial/1









http://www.livrosgratis.com.br/cat_22/farmacia/1







http://www.livrosgratis.com.br/cat_23/filosofia/1







http://www.livrosgratis.com.br/cat_24/fisica/1







http://www.livrosgratis.com.br/cat_25/geociencias/1







http://www.livrosgratis.com.br/cat_26/geografia/1







http://www.livrosgratis.com.br/cat_27/historia/1







http://www.livrosgratis.com.br/cat_31/linguas/1







Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo

http://www.livrosgratis.com.br/cat_28/literatura/1







http://www.livrosgratis.com.br/cat_30/literatura_de_cordel/1











http://www.livrosgratis.com.br/cat_29/literatura_infantil/1









http://www.livrosgratis.com.br/cat_32/matematica/1







http://www.livrosgratis.com.br/cat_33/medicina/1







http://www.livrosgratis.com.br/cat_34/medicina_veterinaria/1









http://www.livrosgratis.com.br/cat_35/meio_ambiente/1









http://www.livrosgratis.com.br/cat_36/meteorologia/1







http://www.livrosgratis.com.br/cat_45/monografias_e_tcc/1







http://www.livrosgratis.com.br/cat_37/multidisciplinar/1





http://www.livrosgratis.com.br/cat_38/musica/1







http://www.livrosgratis.com.br/cat_39/psicologia/1







http://www.livrosgratis.com.br/cat_40/quimica/1







http://www.livrosgratis.com.br/cat_41/saude_coletiva/1









http://www.livrosgratis.com.br/cat_42/servico_social/1









http://www.livrosgratis.com.br/cat_43/sociologia/1







http://www.livrosgratis.com.br/cat_44/teologia/1







http://www.livrosgratis.com.br/cat_46/trabalho/1







http://www.livrosgratis.com.br/cat_47/turismo/1







Documents

Aplicação de Técnicas de Inteligência Artificial em ...livros01.livrosgratis.com.br/cp092865.pdf · Aplicação de técnicas de inteligência artificial em problemas de interpretação