Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
UFMG/ICEx.DQ. 662a D. 406a
Geison Voga Pereira
Aplicação de Técnicas de Inteligência Artificial em Problemas de Interpretação de Dados Instrumentais
e Elucidação de Estruturas Protéicas
Dissertação apresentada ao
Departamento de Química do Instituto
de Ciências Exatas como requisito
parcial à obtenção do título de Mestre
em Química – Físico-Química
UNIVERSIDADE FEDERAL DE MINAS GERAIS Belo Horizonte
2007
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
.
Voga, Geison Pereira.
Aplicação de técnicas de inteligência artificial em problemas de interpretação de dados instrumentais e elucidação de estruturas protéicas / Geison Pereira Voga. 2007.
Xvii, 114 f. : il. Orientador: Jadson Cláudio Belchior. Dissertação (mestrado) – Universidade Federal de Minas Gerais. Departamento de Química.
Inclui bibliografia.
1.Físico-química - Teses 2.Inteligência artificial – Teses 3.Proteínas – Teses I. Belchior, Jadson Cláudio, Orientador II. Título.
CDU 043
V877a 2007 D
iii
A sabedoria construiu sua casa; ergueu suas setes colunas.
Matou animais para a refeição, preparou seu vinho e arrumou sua mesa.
Enviou suas servas para fazerem convites
deste o ponto mais alto da cidade, clamando:
“Venham todos os inexperientes!” Aos que não têm bom senso ela diz:
“Venham comer a minha comida e beber o vinho que preparei.
Deixem a insensatez, e vocês terão vida; andem pelo caminho do
entendimento”. Instrua o homem sábio,
e ele será ainda mais sábio; ensine o homem justo,
ele aumentará o seu saber. “O temor do Senhor
é o princípio da sabedoria, e o conhecimento do Santo
é entendimento”
Provérbios 9:1-6 e 9,10
Bíblia. Bíblia Sagrada: Nova Versão Internacional/ [Traduzida pela Comissão de Tradução da Sociedade Bíblica Internacional]. - São Paulo, 2000.
iv
Esta dissertação foi realizada sob a orientação do professor
Dr. Jadson Cláudio Belchior
v
A Elis; minha amada esposa.
A minha filha querida; Milena.
Aos meus pais e irmãos.
vi
AGRADECIMENTOS
Em primeiro lugar eu agradeço a Deus que tornou possível a realização de
mais um grande sonho e por ter me dado força nos momentos mais difíceis destes
últimos dois anos.
Agradeço a minha amada e maravilhosa esposa Elis que me apoiou em
todos os momentos e também teve uma grande paciência e cuidado comigo,
Destaco também a sua intensa colaboração para conclusão deste trabalho.
A minha filha Milena, que com apenas um ano e quatro meses, me ajudou
na digitação, por diversas vezes enquanto eu digitava ou programava ela aparecia
com aquela mão pequenininha e apagava ou apertava um monte de teclas, me
fazendo reformular e rescrever algumas partes dos programas e também desta
dissertação.
Aos meus pais e irmãos pelo apoio e incentivo em todos os momentos.
Ao professor Jadson pela sua orientação e credibilidade.
Agradeço também aos colegas do LDAM e aos amigos do laboratório Júlio,
Fernando e Elcio por estarem sempre dispostos a ajudar.
Aos professores, secretárias da Pós-graduação e funcionários do
Departamento de Química.
À banca examinadora, pela atenção e sugestões.
Ao CNPq, pela bolsa concedida.
vii
SUMÁRIO LISTA DE FIGURAS .................................................................................... x
LISTA DE TABELAS .................................................................................... xiv
RESUMO...................................................................................................... xvi
ABSTRACT .................................................................................................. xvii
I Introdução ............................................................................................ I - 1
1. Técnicas de Inteligência Artificial ..................................................... I - 2
2. Motivação ........................................................................................ I - 2
3. Objetivos .......................................................................................... I - 3
4. Organização da Dissertação ........................................................... I – 4
I Parte – Fundamentos teóricos II Base Biológica ......................................................................................... II - 6
1. Introdução ........................................................................................ II - 7
2. Estruturas dos Aminoácidos ............................................................ II - 7
3. Ligações Peptídicas ......................................................................... II - 10
4. Estruturas Protéicas Tridimensionais .............................................. II - 11
5. Funções Biológicas das Proteínas ................................................... II - 13
6. Síntese de Proteínas ....................................................................... II - 15
a. Transcrição de Genes ............................................................. II - 15
b. Tradução do mRNA................................................................. II - 17
c. O código Genético .................................................................. II – 19
III Algoritmos Evolutivos ............................................................................... III - 21
1. Introdução ........................................................................................ III - 22
2. Estrutura dos Algoritmos Genéticos ................................................ III - 23
3. Operadores Genéticos ..................................................................... III - 25
4. Seleção Genética ............................................................................ III - 28
5. Parâmetros Genéticos ..................................................................... III - 29
6. Passos de implementação de um Algoritmo Genético .................... III - 30
7. Aplicação dos Algoritmos Genéticos ............................................... III - 31
viii
IV Lógica Fuzzy ........................................................................................... IV-32
1. Introdução ........................................................................................ IV-33
2. Lógica Fuzzy ................................................................................... IV-34
3. Operações em Conjuntos Nebulosos .............................................. IV-38
a. t-normas e s-normas ............................................................... IV-38
b. Operador Implicação ............................................................... IV-40
4. Controladores Fuzzy ........................................................................ IV-41
II Parte - Implementação e Desenvolvimento V Algoritmo Genético Implementado ........................................................... V-45
1. Estrutura do Algoritmo Genético Implementado .............................. V-46
a. População Inicial ..................................................................... V-47
b. Função Fitness ........................................................................ V-47
c. Seleção – Operador Predador ................................................ V-48
d. Seleção – Operador Habitat .................................................... V-49
e. Operador Imigração ................................................................ V-50
f. Operador Crossover ................................................................ V-50
g. Operador Mutação .................................................................. V-52
h. Convergência do Algoritmo Genético ...................................... V-52
2. Sistema de Classificação ................................................................. V-53
III Parte – Resultados e discussões VI - Parametrização de Funções .................................................................. VI-54
1. Introdução aos Sistemas de Liberação Controlada de Drogas ........ VI-55
2. O Modelo Matemático ...................................................................... VI-57
3. Configuração do Algoritmo Genético ............................................... VI-61
4. Resultados do Algoritmo Genético .................................................. VI-68
VII- Interpretação de Análise Termogravimétrica ......................................... VII-70
1. Introdução à Análise Termogravimétrica ......................................... VII-71
2. Modificações no Algoritmo Genético e nos Controladores Fuzzy .... VII-73
a. População inicial ..................................................................... VII-73
ix
b. Função Fitness ........................................................................ VII-73
c. Operador Predador ................................................................. VII-74
d. Operador Mutação .................................................................. VII-80
e. Critério de convergência ......................................................... VII-81
3. Interpretação de Curvas Termogravimétricas .................................. VII-81
VIII Elucidação de Estruturas de Proteínas ................................................. VIII-87
1. Introdução ........................................................................................ VIII-88
2. Proteínas Homólogas ...................................................................... VIII-89
3. Estrutura Secundária de Proteínas .................................................. VIII-90
4. Modelagem de Proteínas por Homologia ........................................ VIII-92
5. Alinhamento de Seqüências de Aminoácidos .................................. VIII-93
a Matriz de Pontuação ............................................................... VIII-94
6. Modificações no Algoritmo Genético ............................................... VIII-95
a Função Fitness ....................................................................... VIII-97
b Operadores Genéticos ............................................................ VIII-99
7. Determinação da Estrutura Secundária. .......................................... VIII-100
a. Estrutura do Citocromo C ....................................................... VIII-100
b Estruturas das Cadeias α e β da Hemoglobina Humana ........ VIII-103
IX Conclusão ........................................................................................... IX-107
1. Considerações Finais e Perspectivas Futuras ................................. IX-108
Referencias Bibliográficas ......................................................................... 109
x
LISTA DE FIGURAS Figura II-1 Estrutura geral de um aminoácido. ..................................................... II-8
Figura II-2 Estrutura dos 20 aminoácidos comumente encontrados nas
proteínas. Os grupos amino e carboxila, que participam da
formação de peptídeos durante a síntese de proteínas, são
mostrados nas áreas em destaque. Os grupos laterais, que
são diferentes para cada aminoácido, são mostrados abaixo
das áreas em destaque. As abreviações padrões de três
letras são mostradas entre parênteses. ............................................ II-9
Figura II-3 Formação de uma ligação peptídica entre dois aminoácidos
pela remoção de água. .................................................................... II-11
Figura II-4 Tipos de interações moleculares que determinam as
estruturas de um peptídeo............................................................... II-12
Figura II-5. Esquema geral do processo de transcrição em eucariontes. ........... II-17
Figura II-6. Esquema geral do processo de transcrição em eucariontes. ........... II-18
Figura III–1 Representação clássica de um cromossomo. ................................ III-24
Figura III–2 Esquema geral de um algoritmo genético. ..................................... III-25
Figura III–3 Operador crossover simples. ......................................................... III-26
Figura III–4 Operador crossover para permutar substrings dos
cromossomos. ................................................................................ III-26
Figura III–5 Operador mutação baseado em troca simples. .............................. III-27
Figura III–6 Mecanismo de inversão para o operador mutação. ....................... III-28
Figura IV-1 A) Função característica do conjunto “crisp” adolescente. B)
Função trapezoidal característica do conjunto nebuloso
adolescente. ................................................................................... IV-35
Figura IV-2 Principais funções de pertinência. .................................................. IV-36
Figura IV-3 Cardinalidade, altura, suporte, núcleo e o corte de nível 0.5
do conjunto nebuloso A. ................................................................. IV-37
Figura IV-4 Esboço das principais t-normas ...................................................... IV-40
xi
Figura IV-5 Esboço das principais s-normas ..................................................... IV-40
Figura IV-6 Termos lingüísticos que mapeiam a variável características .......... IV-42
Figura IV-7 Estrutura de um controlador nebuloso. .......................................... IV-43
Figura V–1 Estrutura geral do algoritmo genético implementado. ..................... V–46
Figura V–2 - Função de pertinência para o operador predador......................... V–48
Figura V–3 Função de pertinência para o operador habitat. ............................. V–49
Figura V–4 - Função de pertinência t-norma para o operador crossover. ......... V–51
Figura V–5 Gráfico representativo da distribuição da aptidão e a região
de seleção das melhores soluções. ................................................ V-53
Figura VI–1. Curvas de fração de droga liberada por um período de 100
dias. Curva de referência (quadrado preto) (D=1.35×10-5
cm2dia-1, Cs=16.2mg.cm-3 . A= 70mg.cm-3, h=0.167cm),
Curva com os parâmetros de inicio (circulo aberto)
(D=0.042×10-5 cm2dia-1, Cs=2.7mg.cm-3 . A=33.3mg.cm-3,
h=0.164cm) e curva com os parâmetros de final (triângulo
aberto) (D=4.82×10-5 cm2dia-1, Cs=40mg.cm-3 . A=
133.3mg.cm-3, h=0.170cm). ........................................................... VI-59
Figura VI–2 Mapas de contorno para a superfície de erro definida pela
eq 1, (a) mapa de contorno para o Coeficiente de difusão
(D) pela solubilidade de saturação (Cs) com os valores
constantes A=70.0 mg.cm-3 e h =0.167cm, (b) mapa de
contorno para o Coeficiente de difusão (D) pela
concentração inicial de hidrocortisona (Cs) com valores
constantes Cs=16.2 mg.cm-3 e h =0.167cm, (c) mapa de
contorno para o Coeficiente de difusão (D) pelo tamanho do
comprimido (h) com valores constantes Cs=16.2 mg.cm-3 e
A=70.1 mg.cm-3 valores constantes D=1.35x10-5 cm2dia-1 e
h =0.167cm, (d) mapa de contorno para a solubilidade de
saturação (Cs) pela concentração inicial de hidrocortisona
xii
(A) com valores constantes D=1.35x10-5 cm2dia-1 e
h=0.167cm (e) mapa de contorno para a solubilidade de
saturação (Cs) pelo tamanho do comprimido (h) com valores
constantes D=1.35x10-5 cm2dia-1 e Cs=16.2 mg.cm-3 (f)
mapa de contorno para a concentração inicial de
hidrocortisona (A) pelo tamanho do comprimido (h) com
valores constantes D=1.35x10-5 cm2dia-1 e Cs=16.2 mg.cm-
3. ..................................................................................................... VI-60
Figura VI–3. Número médio de gerações em função do tamanho da
população. ...................................................................................... VI-62
Figura VI–4 Determinação do raio de ação do operador habitat. ...................... VI-63
Figura VI–5 Determinação do fator de ativação da imigração (Ai). ................... VI-64
Figura VI–6 Determinação da probabilidade máxima de mutação. ................... VI-65
Figura VI–7 Evolução do logaritmo decimal do erro (função de aptidão)
em função do número de gerações. ............................................... VI-66
Figura VI–8 Quantidade de soluções em cada geração do GA......................... VI-67
Figura VII-1 Árvore de busca para a validação de fragmentos
moleculares com NOX = 0 definindo os bancos de dados
(banco 1 e banco 2) das regras heurísticas que definem
funções químicas e alguns sais e finalizando a árvore o
cálculo do NOX. ............................................................................ VII-76
Figura VII-2: Fórmula do ligante norfloxacina. .................................................. VII-85
Figura VII-3 (A): Análise termogravimétrica do complexo 4 da Tabela
VII-2 e (B) estrutura química do complexo 4. ............................... VII–85
Figura VII-4 (A): Análise termogravimétrica do complexo 5 Tabela VII -2
e (B) estrutura química do complexo 5. ........................................ VII–86
Figura VIII–1 Representação cilíndrica para as hélice (a) 310helice , (b)
α-helice e (c) π-helice .................................................................. .VIII-91
Figura VIII–2 Estrutura de uma alça entre os aminoácido i e i+2. ................... VIII-92
xiii
Figura VIII–3 Matriz de alinhamento BLOSUM50 [79]. .................................... VIII-95
Figura VIII–4- Representação dos indivíduos para inferir a estrutura
secundária de um fragmento de citocromo C humano. ................ VIII-97
Figura VIII–5 Exemplificação de alinhamentos com penalidade
consecutivas e alternadas. ........................................................... VIII-98
xiv
LISTA DE TABELAS
Tabela II-1 Código genético .............................................................................. II-19
Tabela IV-1. Principais operadores t-norma e s-norma ..................................... IV-39
Tabela IV-2 Principais operadores de implicação ............................................. IV-41
Tabela VI-1 Definição dos Intervalos de formação para cada parâmetro
da Eq. 1 e definição dos parâmetros da curva de referência ..................... VI–58
Tabela VI-2 Conjuntos de parâmetros encontrados pelo algoritmo
genético ...................................................................................................... VI–68
Tabela VII-1 Interpretação de curvas TG de acordo com o algoritmo 1,
fornecendo a interpretação das respectivas perdas de massa
juntamente com o valor calculado, o erro cometido em cada
atribuição, o valor do intervalo de confiança (IC) e o tempo
computacional para cada molécula analisada são apresentados .............. VII-82
Tabela VII-2 Interpretação de curvas TG para sistemas químicos
complexos, que apresentam estruturas químicas extensas. ...................... VII-83
Tabela VIII-1 Alguns tipos de estruturas estruturas secundaras ..................... VIII-91
Tabela VIII-2 Codificação dos nomes de cada aminoácido ............................. VIII-94
Tabela VIII-3 Similaridades mais expressivas encontradas pelo
algoritmo genético para a determinação da estrutura do citocromo C
humano ................................................................................................... VIII-101
Tabela VIII-4 Padrões de estruturas secundária encontrados no
citocromo C humano utilizando o algoritmo genético .............................. VIII-102
Tabela VIII-5 – Similaridade entre cadeias α e β da hemoglobina
humana em relação as seqüências selecionadas pelo GA ..................... VIII-103
Tabela VIII-6 Padrões de estruturas secundária encontrados para
cadeia α da hemoglobina humana utilizando o algoritmo genético ......... VIII-105
xv
Tabela VIII-7 Padrões de estruturas secundária encontrados para a
cadeia β-da hemoglobina humana utilizando o algoritmo genético ......... VIII-106
xvi
RESUMO
As técnicas de inteligência artificial (IA) podem ser utilizadas para resolver
diversos sistemas que apresentam elevada complexidade, como por exemplo,
parametrização de funções matemáticas, interpretação de dados de análises
instrumentais e elucidação de estruturas químicas. Estes problemas podem
apresentar múltiplas soluções, sendo necessário a utilização de técnicas
inteligentes que possam contemplar esta possibilidade. Dentre as diversas
técnicas de IA destacam-se os algoritmos genéticos, baseados na teoria da
evolução, e a lógica nebulosa ou fuzzy, que apresenta uma metodologia de
controle e representação de incertezas presentes nas informações relevantes aos
problemas complexos. Esta dissertação apresenta o desenvolvimento de um
algoritmo genético acoplado a diversos controladores fuzzy, formando um sistema
híbrido. O sistema apresenta a capacidade se encontrar múltiplas soluções para
problemas de parametrização de funções matemáticas, interpretação de dados de
curvas termogravimétricas, controle adequado na liberação de fármacos e
elucidação de estruturas protéicas.
xvii
ABSTRACT Artificial intelligence (AI) techniques can be applied for solving complex problems
such as mathematical function parametrizations, instrumental data interpretation
and to elucidate chemical structures. Such problems can have multiple solutions
and may be necessary the use of efficient methods to achieve possible solutions.
One can point out that methods such as genetic algorithms based on evolutionary
methods and fuzzy logic are adequate to solving complex problems where control
and uncertainty are present. This work will present the development of genetic
algorithms coupled with several control fuzzy methods that can be call as hybrid
system. As will be shown, the system has the ability of finding multiple solutions of,
e.g., parametrization functions, thermogravimetric data analysis and interpretation,
as well as efficient applications for determining drug controlled delivery systems.
Finally, the AI approach will be applied for elucidating protein structures.
Capítulo I- Introdução
I-2
1. Técnicas de Inteligência Artificial
A utilização de técnicas de inteligência artificial (IA) tem-se mostrado
promissora no desenvolvimento de sistemas computacionais capazes de
solucionar problemas complexos, tais como elucidação de estruturas químicas,
análise e extração de regras de bancos de dados, interpretação de dados de
análises instrumentais, como, por exemplo: espectrometria de massa,
termogravimetria, espectroscopia de infravermelho, ultravioleta e ressonância
magnética nuclear [1-3].
Em geral os problemas envolvendo áreas da biológica são caraterizados
pela grande quantidade de dados a serem analisados ou pela complexidade do
sistema biológico a ser estudado [4]. Outro problema de relevância refere-se à
interpretação de dados instrumentais por parte de peritos especialistas. Estes
tipos de problemas envolvem a formulação de diversas regras heuristicas e
métodos de controle para realizar o processo de decisão e consequentemente a
interpretação da análise instrumental.
O avanço das técnicas computacionais eficientes pode auxiliar de forma
expressiva o atual estágio de desenvolvimento da biologia molecular, através do
reconhecimento de padrões, utilizando técnicas como, por exemplo, a
programação dinâmica para encontrar alinhamentos ótimos entre seqüências
lineares de bioméloculas, tais como ácidos nucléicos (RNA, DNA) e proteínas [5].
Diversos problemas químicos, biológicos, físicos e econômicos, podem
apresentar mais de uma solução compatível. Neste caso, torna-se necessário a
realização de modificações na estrutura computacional dos algoritmos envolvidos
para possibilitar a determinação de múltiplas soluções compatíveis.
2. Motivação
A inteligência artificial possibilita o desenvolvimento de sistemas
computacionais eficientes na resolução de problemas complexos tais como, a
elucidação da estrutura química de sistemas biológicos (como por exemplo:
biomoléculas, simulação de processos metabólicos) e a interpretação de dados de
análises instrumentais.
I-3
Relacionado especificamente à biologia molecular, a inteligência artificial
pode ser utilizada para problemas que envolvam [4-7]:
• Alinhamento e busca de seqüências;
• Predição de genes;
• Alinhamentos múltiplos de seqüências;
• Análise filogenética;
• Análise de seqüência de proteínas;
• Predição da estrutura protéica;
• Alinhamento e comparação de estruturas protéicas
• Simulação bioquímica;
• Análise de genomas completos;
Focalizando-se no uso das técnicas de inteligência artificial na interpretação
de dados de análises instrumentais, esta pode ser aplicada no controle de
instrumentos e na interpretação analítica ou numérica [3, 8]:
A obtenção de soluções para os problemas citados acima é viável com a
utilização de técnicas de inteligência artificial que sejam de fácil implementação e
que tenham potencialidade para inferir soluções em problemas complexos; como
por exemplo, algoritmos genéticos e lógica nebulosa; esta última mais comumente
conhecida como lógica fuzzy. Os algoritmos genéticos constituem uma técnica de
busca e otimização baseada no modelamento computacional da teoria de
evolução de Darwin. A lógica nebulosa, por sua vez, apresenta uma descrição
computacional para modelar a incerteza presente em informações e em sistemas
de controle [1, 9].
A interpretação de dados instrumentais e a elucidação de estruturas devem
ser realizadas por sistemas que tenham a propriedade de contemplar múltiplas
soluções equivalentes ou similares.
3. Objetivos
Implementar um sistema de otimização para parametrização de funções
matemáticas, interpretação de dados termogravimétricos e determinação de
I-4
estruturas secundárias de proteínas, utilizando as técnicas de inteligência artificial,
como algoritmo genético acoplado à lógica fuzzy.
4. Organização da Dissertação
Esta dissertação de mestrado está organizada em três partes: fundamentos
teóricos, implementação e desenvolvimento computacional e apresentação de
resultados. A primeira parte é composta pelos Capítulos II, III e IV que contêm os
fundamentos teóricos relacionados aos conceitos biológicos das proteínas e as
técnicas de inteligência artificial utilizadas para o desenvolvimento de algoritmos
de otimização. A segunda parte da desta dissertação, implementação e
desenvolvimento computacional, é composta exclusivamente pelo Capítulo V. Os
Capítulos seguintes, VI, VII e VIII, formam a terceira parte desta dissertação, onde
serão apresentados os resultados obtidos pela aplicação do algoritmo genético
desenvolvido em três problemas diferentes, relacionados respectivamente a
liberação controlada de fármacos, interpretação de dados termogravimétricos e
determinação de estruturas secundárias de proteínas.
O conteúdo de cada capítulo encontra-se organizados da seguinte forma:
O Capítulo II apresenta alguns conceitos básicos relacionados à Biologia
molecular, destacando a estrutura e constituição química das proteínas seguida de
uma breve explicação do processo de transcrição do DNA para mRNA e posterior
tradução da informação genética para síntese de proteínas. O capítulo é finalizado
com a descrição do código genético e a sua importância para a biologia molecular.
No Capítulo III são destacados os principais conceitos relacionados à
técnica de inteligência artificial, denominada algoritmos genéticos. O Capítulo
inicia-se com uma descrição histórica e conceitos da computação evolutiva. Em
seguida é apresentada a estrutura geral dos algoritmos genéticos explorando cada
elemento separadamente.
No Capítulo IV são descritos os conceitos relacionados à lógica nebulosa e
a estrutura dos operadores nebulosos, t-normas, s-normas e implicação,
semelhantemente ao Capítulo anterior. Em seguida é apresentada a estrutura
geral de um controlador nebuloso.
I-5
O Capítulo V apresenta o desenvolvimento e implementação do sistema
híbrido, que associa as características de otimização dos algoritmos genéticos
associado ao controle nebuloso dos operadores genéticos. O capítulo apresenta
também a implementação do operador habitat que concede ao algoritmo genético
a capacidade de encontrar múltiplas soluções.
Os capítulos VI e VII compreendem a validação do algoritmo genético
proposto no Capítulo V. O algoritmo genético é utilizado na parametrização de um
modelo matemático utilizado para determinar a fração de hidrocortizona liberada
por um sistema de liberação controlada. No Capítulo VII o algoritmo genético é
adaptado para obter interpretações de curvas termogravimétricas, curva TG.
No Capítulo VIII é apresentado a teoria para modelagem de proteínas por
homologia, e as receptivas adaptações no algoritmo genético para a determinação
de alinhamentos múltiplos com a finalidade de inferir e elucidar estruturas
secundária e terciária das proteínas.
No ultimo Capítulo (IX) são apresentadas as considerações finais
relacionadas à construção do algoritmo e sua versatilidade para resolver diversos
problemas complexos.
Capítulo II - Base Biológica
II-7
1. Introdução
Coletivamente as moléculas de água correspondem a aproximadamente
70% da massa total de células vivas, enquanto as proteínas constituem cerca de
15% em massa. Esta percentagem de massa das proteínas corresponde a 50%
da massa orgânica de células vivas. Esta elevada contribuição em massa orgânica
reflete a importância das proteínas para os seres vivos, assumindo papel vital para
todas as células, sejam estas microbianas ou pertencentes a seres multicelulares
[10].
As proteínas podem ser encontradas em todas as partes das células e
ocorrem em grande diversidade, sendo que centenas de diferentes tipos podem
ser encontradas em uma única célula. As proteínas têm diferentes funções nos
organismos vivos. Elas podem constituir material de sustentação mecânica, como
por exemplo, queratina, ou apresentar funções catalisadoras de reações, como
ocorre com a ATPsintetase que tem a propriedade catalítica de adicionar um
grupo fosfato à molécula de adenosina difosfato (ADP) formando adenosina
trifosfato que corresponde a principal molécula transportadora de energia nos
processos metabólicos [11].
A constituição de milhares de proteínas diferentes ocorre a partir de um
pequeno grupo de moléculas de unidades fundamentais relativamente simples em
comparação com as proteínas. Todas as proteínas, mesmo aquelas que estão
presentes em linhagens de bactérias extremamente antigas [11], podem ser
constituídas com o mesmo conjunto de 20 (vinte) aminoácidos, unidos
covalentemente em seqüências características. Cada um dos aminoácidos
apresenta uma cadeia lateral específica, que confere a estes uma individualidade
química específica [10-11].
2. Estruturas dos Aminoácidos
Normalmente em uma proteína é possível encontrar todos os vinte
aminoácidos. Ocasionalmente um ou mais dos aminoácidos presentes em uma
proteína podem ser modificados após a síntese da proteína final, formando assim
um novo tipo de aminoácido. Os aminoácidos livres são moléculas relativamente
II-8
pequenas com todas as suas estruturas conhecidas, sendo que o primeiro
aminoácido descoberto corresponde a aspargina, em 1806, enquanto o último foi
descoberto em 1938, correspondendo a treonina. Todos os aminoácidos livres,
exceto a prolina, contêm um grupo amino livre e um grupo carboxila livre. A
estrutura geral dos aminoácidos é mostrada na Figura II-1. Os aminoácidos
diferem um do outro pelos grupos laterais (designado R), os quais variam em
estrutura, tamanho, carga elétrica e solubilidade em água. Esta diversificação dos
aminoácidos contribui de forma estrutural e funcional para as proteínas. As
cadeias laterais podem ser de 4 (quatro) tipos diferentes: (1) grupos hidrofóbico ou
não polares, (2) grupos hidrofílicos ou polares, (3) grupos ácidos ou de carga
negativa (4) grupos básicos ou carregados positivamente [12].
Figura II-1 Estrutura geral de um aminoácido.
Na Figura II-2 estão apresentados os 20 aminoácidos comumente
encontrados nas proteínas. Nota-se que em todos os aminoácidos, exceto na
glicina, existe um carbono assimétrico, o carbono α, ao qual estão ligados quatro
grupos diferentes: uma carbonila, um grupo amino, um hidrogênio e um grupo R,
formando assim um centro quiral [11].
Os aminoácidos podem ser classificados de acordo com a composição e
propriedades. Utilizando principalmente a polaridade como critério de classificação
os aminoácidos podem ser classificados em 4 grupos diferentes, também
demonstrado na Figura II-2 [10].
II-9
Figura II-2 Estrutura dos 20 aminoácidos comumente encontrados nas proteínas. Os grupos amino e carboxila, que participam da formação de peptídeos durante a síntese de proteínas, são mostrados nas áreas em destaque. Os grupos laterais, que são diferentes para cada aminoácido, são mostrados abaixo das áreas em destaque. As abreviações padrões de três letras são mostradas entre parênteses.
II-10
Os aminoácidos que apresentam grupos R formados por cadeia de
hidrocarbonetos são hidrofóbicos. Nesta classe cinco aminoácidos têm grupos
alifáticos (Alanina, Valina, Leucina, Isoleucina, e Prolina) e dois contêm um anel
aromático (fenilalanina e triptofano) e um contêm enxofre (metionina) apolares.
Outra classe de aminoácidos apresenta grupos R que conferem maior
solubilidade em água. Nesta classe incluem glicina, serina, treonina, cisteina,
tirosina, asparginina e glutamina. O grupo hidroxila presente nos aminoácidos
serina, treonina, e tirosina conferem maior solubilidade, enquanto a asparginina e
glutamina têm grupos amina. A cisteina é identificada pelo grupo sulfidrila ou tiol
[11,12].
O próximo grupo é caracterizado pela presença de grupos que têm carga
líquida negativa em pH 7.0; estão nesta classe o ácido aspártico, e o ácido
glutâmico, cada um deles apresentando mais um grupo carboxila [11,12].
O último grupo é caracterizado pela presença de grupos R com carga
líquida positiva em pH 7.0, constitui-se da lisina que possui um segundo grupo
amina na sua cadeia alifática, arginina que tem um grupo guanidino carregado
positivamente, e a histidina que apresenta um grupo imidazol fracamente ionizado
[11,12].
3. Ligações Peptídicas
Os polipeptídeos são cadeias longas de aminoácidos, que podem, por
exemplo, para a proteína da seda pode existir entre 51 e pouco mais de 1000
aminoácidos. Considerando a combinação de 20 aminoácidos para gerar qualquer
seqüência polipeptídica, é possível obter um número de moléculas diferentes
extremamente elevado. Para um peptídeo com 6 aminoácidos existem 206, ou
seja 6.4x107 tipos de peptídeos diferentes. Para um polipeptídeo com 100
aminoácidos, a quantidade de seqüências diferentes é aproximadamente
1.26x10130. Os aminoácidos nos polipeptídios são ligados por ligações
denominadas peptídicas (Figura II-3). Cada ligação peptídica é formada por uma
reação entre o grupo amino de um aminoácido e o grupo carboxila de outro com a
eliminação de uma molécula de água [10].
II-11
Figura II-3 Formação de uma ligação peptídica entre dois aminoácidos pela remoção de água.
4. Estruturas Protéicas Tridimensionais
Nas estruturas tridimensionais complexas das proteínas, podemos distinguir
quatro níveis diferentes de organização [10-13]:
1) Estrutura primária – a estrutura primária de um polipeptídeo é a sua
seqüência de aminoácidos que é especificada pela seqüência de
nucleotídeos de um gene;
2) Estrutura secundária – refere-se às inter-relações espaciais dos
resíduos de aminoácidos nos polipeptídeos;
3) Estrutura terciária – refere-se ao dobramento da proteína no espaço
tridimensional;
4) Estrutura quaternária – refere-se à associação de dois ou mais
polipeptídeos em uma proteína multimérica, como por exemplo, a
hemoglobina que possui os quatro níveis de organização estrutural.
Os polipeptídeos dobram-se espontaneamente em conformações
específicas que é função da estrutura primária da seqüência. Em alguns casos, o
dobramento da proteína sofre influência de outras proteínas, denominadas
chaperonas que ajudam os polipeptídeos nascentes a formar sua própria estrutura
tridimensional [13].
A estrutura secundária nas proteínas é encontrada com maior freqüência
nas formas hélices α e folhas β. Ambas as estruturas são mantidas por ligações
de hidrogênio entre as ligações peptídicas situadas bem próxima uma da outra. A
hélice α apresenta uma estrutura em formato de cilindro rígido o e mantido estável
II-12
principalmente por ligações de hidrogênio com outra ligação peptídica próxima.
Uma folha β ocorre com o dobramento paralelo da seqüência de peptídeos;
novamente a estrutura é mantida por ligações de hidrogênio entre os aminoácidos
que se encontram próximo [13].
Enquanto a organização espacial dos aminoácidos e segmentos adjacentes
de um polipeptídeo determina sua estrutura secundária, o dobramento geral do
polipeptídeo completo define sua estrutura terciária. Em geral, os aminoácidos
com cadeias laterais hibrofílicas estão situados nas superfícies das proteínas (em
contato com o citoplasma aquoso), enquanto os aminoácidos de cadeias
hidrofóbicas interagem uns com os outros nos espaços internos da estrutura
protéica. A estrutura terciária é mantida por um grande número de ligações não-
covalentes e relativamente fracas. Na estrutura protéica, além das ligações
peptídicas, existem, também com caráter covalente, as ligações dissulfidricas (S-
S) que, contribuem com a estabilização da conformação protéica. Quatro outros
tipos de interações não-covalentes estão envolvidos na estabilização da estrutura
terciária: ligações iônicas, ligações de hidrogênio, efeito hidrofóbico e interações
de van der Waals. Na Figura II-2 são demonstrados exemplos para as interações
e para a ligação dissulfídrica que contribuem para a formação da estrutura
terciária de uma proteína [13].
Figura II-4 Tipos de interações moleculares que determinam as estruturas de um peptídeo.
II-13
As ligações iônicas ocorrem entre as cadeias laterais dos aminoácidos que
têm cargas opostas. As ligações iônicas são relativamente fracas no interior
celular, devido ao meio aquoso que solvata os íons formados. As ligações de
hidrogênio são interações fracas entre átomos eletronegativos (carga parcial
negativa) e átomos de hidrogênio (carga parcial positiva) ligados covalentemente a
outros átomos também eletronegativos. O efeito hidrofóbico (forças de London)
ocorrem entre grupos que não são solvatados pelo meio aquoso, as interações de
van der Waals são interações fracas que ocorrem em átomos próximos, auxiliando
na manutenção de sítios específicos [11].
A estrutura quaternária existe apenas em proteínas que são formadas por
mais de uma seqüência de polipeptídeo. Um exemplo dessa estrutura pode ser
observado na molécula da hemoglobina que é constituída por duas cadeias de
globulina α e duas cadeias de globulina β associadas a quatro grupos heme [11].
5. Funções Biológicas das Proteínas
As proteínas podem ser classificadas de acordo com a sua estrutura,
composição ou função biológica. Utilizando a atividade biológica para classificar as
proteínas têm-se as seguintes classes [10-14]:
• Enzimas
As enzimas possuem atividade catalítica altamente específica.
Praticamente todas as reações metabólicas envolvem alguma atividade catalítica
produzida por enzimas.
• Proteínas Transportadoras
Estas proteínas são responsáveis pelo ligamento e transporte de moléculas
ou íons de um órgão para outro no plasma sangüíneo. Ao passar pelos pulmões a
hemoglobina das hemácias liga-se ao oxigênio, transportando-o para os tecidos
periféricos onde o oxigênio é liberado para participar das oxidações de nutrientes
produtores de energia. O plasma sangüíneo contém também lipoproteínas que
transportam lipídios do fígado para outros órgãos. Outros tipos de proteínas
transportadoras estão presentes nas membranas celulares para ligar e transportar
glicose, aminoácidos, e outros nutrientes para dentro das células através da
membrana.
II-14
• Proteínas Nutrientes e de Reserva
Outro tipo de proteína comum, por exemplo, em sementes de plantas, tem a
capacidade de armazenar energia suficiente para fazer germinar o embrião da
planta. Alguns exemplos são as proteínas das sementes do trigo, arroz e milho.
Ovoalbumina, a principal proteína do ovo, e a caseína, a principal proteína do leite
são também exemplos de proteínas nutrientes. Em tecidos animais destaca-se a
ferritina que armazena ferro.
• Proteínas Contráteis ou de Movimento
Algumas proteínas possibilitam as células ou organismo à capacidade de
contrair-se, mudar de forma ou mover-se. Actina e Miosina são proteínas
filamentosas ou tubulares que agem no sistema contrátil de músculos esqueléticos
e também em muitas células não musculares. Um outro exemplo é a tubulina,
proteína com a qual os microtúbulos são construídos durante o processo de
divisão celular. Estes são componentes importantes de flagelos e cílios capazes
de movimentar células.
• Proteínas Estruturais
As proteínas estruturais servem como filamentos, cabos ou lâminas para
conferir firmeza ou proteção às estruturas biológicas. O Colágeno é uma proteína
fibrosa que concede resistência a tensões, pele e cartilagem. O Couro, por
exemplo, apresenta ligamentos ricos em elastina, uma proteína estrutural capaz
de distender-se em duas dimensões. Os cabelos, unhas e penas são constituídos
de uma proteína insolúvel chamada queratina.
• Proteínas de Defesa
Muitas proteínas têm a função de defender os organismos da invasão de
outras espécies ou contra lesões. As imunoglobulinas ou anticorpos de
vertebrados são proteínas responsáveis por precipitar ou neutralizar bactérias,
vírus invasores ou proteínas estranhas de outras espécies. Fibrinogênio e
trombina são proteínas coaguladoras que impedem a perda de tecido sangüíneo
por meio de lesões. O veneno de serpentes, as toxinas bacterianas e aricina
proteína tóxica de plantas, também parecem ter funções de defesa.
• Proteínas regulares
II-15
As proteínas reguladoras podem regular a atividade celular ou fisiológica.
Entre elas estão muitos hormônios como a insulina, que regula o metabolismo dos
açúcares, o hormônio do crescimento da pituitária, e o hormônio paratireóideo o
qual regula o transporte de Ca+2 e de fosfato. Outras proteínas reguladoras,
chamadas repressoras, regulam a biossíntese de enzimas por células bacterianas.
• Outras Proteínas
Existem outras numerosas proteínas cujas funções são as mais diversas
possíveis e de difícil classificação.
6. Síntese de Proteínas
A síntese de proteínas ocorre em um processo envolvendo duas grandes
etapas. Inicialmente a informação contida no genoma é transcrita para uma
seqüência de nucleotídeos mRNA. A próxima etapa consiste em transcrever o
gene codificado no mRNA para a seqüência de aminoácidos. No processo de
síntese de proteínas incluem diversas macromoléculas que atuam como
componentes estruturais dos ribossomos (organela onde ocorre a transcrição para
seqüências de proteínas) e catalisadores. O processo todo inclui em media 50
polipeptídeos e 3 a 5 moléculas de RNA presentes no ribossomo, pelo menos 20
enzimas ativadoras de aminoácidos, 30 a 60 moléculas diferentes de tRNA e
diversas proteínas solúveis que estão envolvidas no processo de inicio da
transcrição, alongamento e término da seqüência de aminoácidos [15].
a. Transcrição de Genes
O termo genoma designa toda a informação genética de um organismo
armazenada na forma de seqüência de ácido nucleico. Para os organismos
procariontes e eucariontes, toda a informação genética é armazenada no DNA
(ácido desoxiribonucleico) que é constituído por uma seqüência dupla de
nucleotídeos. Cada nucleotídeo é composto por um grupo fosfato, um açúcar de
cinco carbonos (pentose), e uma base nitrogenada. Para a molécula de DNA o
açúcar corresponde a 2-desoxiribose, enquanto para o RNA corresponde a ribose.
No DNA são comumente encontradas quatro bases nitrogenadas, sendo: Adenina
(A), guanina(G), Timina (T) e Citosina (C). Para o RNA a timina é substituída por
II-16
Uracila (U). A adenina e guanina apresentam um anel duplo e são classificadas
como purinas. A citosina, timina e uracila têm apenas um anel e são classificadas
como pirimidinas [10, 14].
No processo de transcrição uma fita de RNA complementar é produzida a
partir de uma das fitas de DNA. A transcrição deve ser realizada fielmente para
que as células tenham proteínas com as suas seqüências de aminoácidos
geneticamente determinadas. O processo de transcrição pode gerar quatro tipos
diferentes de RNA. O primeiro e mais comum corresponde ao RNA mensageiro
(mRNA); este é enviado aos ribossomos para codificar seqüências de
aminoácidos. O segundo tipo, RNA transportador, são pequenas moléculas de
RNA que funcionam como adaptadores entre os aminoácidos e as suas
respectivas codificações no processo de transcrição. O terceiro tipo corresponde
aos RNA ribossômicos, que são os componentes estruturais dos ribossomos,
onde ocorre o processo de tradução da seqüência de mRNA da seqüência de
aminoácido. Os RNA nucleares (snRNA) têm a função de selecionar as regiões de
íntrons (seqüências intercalares) nos genes as quais não fazem parte da
informação gênica transcrita. A função das regiões de íntrons ainda não foi
totalmente elucidada, entretanto pressupõe-se que tenham a importante função de
conservação e controle da informação genética [14].
O conceito mais amplo de gene pode ser definido como uma seqüência de
um cromossomo (DNA) que codifica uma cadeia polipeptídica única com uma
molécula de RNA. Para os organismos procariontes normalmente as seqüências
de mRNA transcrita do DNA são completamente complementares. Entretanto para
organismos eucariontes ocorre um procedimento pos-transcrisional, sendo que
apenas algumas partes do gene codificarão a seqüência de aminoácidos. A
Figura II-5 ilustra os processo de transcrição gênica. Inicialmente ocorre a
transcrição de toda a seqüência onde está contido o gene, formando um mRNA
que ainda não tem a capacidade de codificar uma seqüência protéica de interesse
para o organismo. Em seguida as regiões que não codificam a seqüência de
mRNA desejada (introns) são eliminadas, restando apenas as regiões de exon
II-17
(seqüências expressas), onde está a codificação da seqüência de aminoácidos
desejada [14].
Figura II-5 Esquema geral do processo de transcrição em eucariontes.
b. Tradução do mRNA
Após a transcrição o mRNA é transportado para os sítios de síntese de
polipeptídeos no retículo endoplasmático rugoso. Na etapa da tradução a
informação genética contida nas seqüências de mRNA é transferida para as
seqüências de aminoácidos. O processo de tradução ocorre nos ribossomos, onde
estão envolvidos três tipos de RNA, o RNA mensageiro que contem a informação
a ser traduzida, RNA ribossômico que constitui uma parte estrutural do ribossomo
e os tRNA (RNA transportador) que codificam os aminoácidos corretos para a
formação da seqüências polipeptídicas. O processo completo de síntese de
proteína é ilustrado na Figura II-6. Este processo ocorre no citoplasma e apresenta
cinco etapas, cada uma catalisada por enzimas ou complexos enzimáticos
específicos:
• Etapa 1: Ativação dos aminoácidos:
Cada um dos aminoácidos é ligado a um tRNA específico com o consumo
de energia (ATP). Estas reações são catalisadas por enzimas dependentes
de Mg+2 [11,14].
• Etapa 2: Iniciação da cadeia polipeptídica:
II-18
No ribossomo o RNA mensageiro combina-se com o primeiro tRNA ligado
ao seu respectivo aminoácido. O tRNA inicial forma um par de bases com
uma trinca de nucleotídeos específica, codon, que assinala o inicio da
cadeias polipeptídica [11,15].
• Etapa 3: Alongamento da cadeia:
A cadeia polipeptídica é alongada por ligações covalentes de unidades
sucessivas de aminoácidos [11].
• Etapa 4: Término e liberação:
O termino da cadeia é sinalizada pelo codon de finalização no mRNA e
liberação da seqüência de aminoácido [15].
• Etapa 5: Enovelamento e Processamento:
O processo de enovelamento e as modificações realizadas por enzimas
específicas ocorrem simultaneamente com as etapas anteriores, fazendo
com que o polipeptídeo assuma a sua conformação tridimensional.
Figura II-6 Esquema geral do processo de tradução em eucariontes.
II-19
c. O código Genético
Durante a tradução, a seqüência de nucleotídeos no RNA transcrito é
convertida na seqüência de aminoácidos no produto polipeptídico do gene. Esta
conversão é governada pelo código genético que corresponde a especificação dos
aminoácidos pelas trincas de nucleotídeos denominadas de códons. O conjunto de
códons e os respectivos aminoácidos codificados estão listados na Tabela II-1.
[10]
Tabela II-1 Código genético
Segunda letra dos códons
U C A G
Prim
eira
letra
dos
cód
ons
U
UUU Phe
UUC Phe
UUA Leu
UUG Leu
UCU Ser
UCC Ser
UGA Ser
UCG Ser
UAU Tyr
UAC Tyr
UAA Fim
UAG Fim
UGU Cys
UGC Cys
UGA Fim
UGG Trp
U
C
A
G
Terceira letra do codon
C
CUU Leu
CUC Leu
CUA Leu
CUG Leu
CCU Pro
CCC Pro
CCA Pro
CCG Pro
CAU His
CAC His
CAA Gln
CAG Gln
CGU Arg
CGC Arg
CGA Arg
CGG Arg
U
C
A
G
A
AUU Ile
AUC Ile
AUA Ile
AUG Met
ACU Thr
ACC Thr
ACA Thr
ACG Thr
AAU Asn
AAC Asn
AAA Lys
AAG Lys
AGU Ser
AGC Ser
AGA Arg
AGG Arg
U
C
A
G
G
GUU Val
GUC Val
GUA Val
GUG Val
GCU Ala
GCC Ala
GCA Ala
GCG Ala
GAU Asp
GAC Asp
GAA Glu
GAG Glu
GGU Gly
GGC Gly
GGA Gly
GGG Gly
U
C
A
G
Na Tabela II-1 existem dois códigos selecionados, a trinca AUG em
organismos procariontes e eucariontes geralmente especifica o início do processo
II-20
de tradução. Os códons UAG, UAA E UGA especificam o termino do processo de
formação da cadeia polipeptídica.
A conclusão de todo o código genético ocorreu até a primeira metade da
década de 1960 e algumas propriedades importantes são [10,15]:
1) O código genético é composto de trincas de nucleotídeos. Três
nucleotídeos no mRNA especificam um aminoácido no produto
polipeptídico.
2) O código genético não tem superposição. Cada nucleotídeo no mRNA
pertence a apenas um códon.
3) O código genético não tem pontuação. Durante a tradução não existem
intervalos, a seqüência é traduzida consecutivamente.
4) O código genético é redundante. Apenas dois aminoácidos são
especificados por apenas um codon.
5) O código genético é ordenado. Vários códons diferem-se apenas de um
nucleotídeo em uma posição diferente.
6) O código genético contém códons de início (AUG) e final (UAG, UAA E
UGA).
7) O código genético é quase universal. Existem poucas exceções em
alguns aminoácidos para algumas espécies de microrganismos.
Através do código genético é possível avaliar quais são as possíveis
cadeias de polipeptídeos que podem ser formadas a partir de um gene ou
seqüência de mRNA.
Capítulo III - Algoritmos Genéticos
III-22
1. Introdução
Os Algoritmos Genéticos (GA - sigla do nome em inglês genetic algoritm)
são técnicas de otimização multidimensionais, inspiradas em mecanismos de
seleção e genética natural. Os algoritmos genéticos foram criados com o intuito
de simular alguns processos observados nas populações de espécies
envolvendo evolução natural. Os mecanismos que realizam esta evolução
ainda não estão completamente elucidados, entretanto algumas características
são bem compreendidas e aceitas [16].
O processo de evolução envolve modificações nas informações
genéticas dos seres vivos. A evolução ocorre, portanto nos genes, que são os
elementos orgânicos responsáveis pelas codificações genéticas dos seres
vivos [17].
As principais características da teoria evolucionária são [17]:
a) A seleção natural é um processo que atua sobre a os indivíduos de
acordo com a aptidão que estes apresentam no ambiente;
b) A seleção natural é o elo entre os genes e o desempenho das suas
estruturas decodificadas. O processo de seleção natural faz com que
os genes que codificam características que tornam os indivíduos
melhor adaptados sejam reproduzidas mais vezes e com maior
probabilidade que as estruturas mal sucedidas;
c) O processo de reprodução é o ponto onde a evolução acontece.
Mutações podem provocar mudanças nos cromossomos dos filhos,
fazendo com que eles sejam diferentes dos padrões genéticos dos
seus pais;
d) A evolução biológica não tem memória. Toda a informação sobre
como produzir indivíduos bem adaptados ao meio ambiente está
contida no seu genoma, conjunto de genes carregados pelos
indivíduos da população atual.
No começo da década de 70, John Holland, pesquisava as
características da evolução natural, considerando que estas características
poderiam ser adequadamente incorporadas a algoritmos computacionais
III-23
dedicados a solucionar problemas complexos de forma semelhante à natureza,
ou seja, utilizando a evolução natural [17].
Baseado em premissas que descrevem a teoria da evolução natural,
foram criados conceitos computacionais análogos aos existentes no processo
de evolução natural. Os cromossomos podem ser representados por conjuntos
binários de números ou símbolos (strings ou cadeias) contendo 0 e 1.
Realizando uma simulação do processo natural, os primeiros algoritmos
genéticos resolviam problemas através da manipulação de strings binários,
encontrando os cromossomos que melhor representavam a solução do
problema através de um mecanismo de transcrição da informação genética
[17].
Outro ponto interessante na técnica desenvolvida por Holland, refere-se
à natureza dos cromossomos artificiais que não têm conhecimento algum
referente ao tipo de problema que estão resolvendo. A única informação
disponível é uma avaliação de cada cromossomo produzido. O objetivo desta
avaliação é verificar quais são os cromossomos (conjunto de genes) que
produzem soluções mais adaptados. Esta definição do grau de adaptação
reflete-se no aumento das suas chances de seleção dos cromossomos para
reprodução e formação da geração posterior [17].
2. Estrutura dos Algoritmos Genéticos
A técnica usada para codificar as soluções varia de acordo com o
problema a ser estudado. A codificação clássica proposta por Holland é a mais
utilizada. A codificação clássica (Figura III–1), utilizada em problemas que
possuem variáveis contínuas e cujas soluções requeridas necessitam boa
precisão numérica, torna os cromossomos longos. Para cada ponto decimal
acrescentado na precisão, é necessário adicionar 3,3 bits no string [18]. A
conseqüência imediata do aumento do string, que representa o cromossomo, é
o aumento do tempo computacional necessário para calcular transformar a
representação binária em decimal.
III-24
Figura III–1 Representação clássica de um cromossomo.
Outros tipos de codificação de cromossomos foram desenvolvidos,
gerando codificações adequadas para problemas específicos, sendo que a
forma não clássica mais utilizada é a codificação real. Esta forma de
codificação consiste em representar, um gene ou cromossomo relacionado a
uma variável numérica contínua através de seu próprio valor real. A escolha da
forma de codificação deve ser feita criteriosamente, pois uma codificação
errada pode não levar ao resultado correto, ou aumentar demasiadamente o
tempo de processamento [19].
O elemento de ligação entre o GA e o problema a ser resolvido é a
função de avaliação ou aptidão. A função de avaliação, também chamada de
função de aptidão, toma como entrada um cromossomo e retorna um número,
ou lista de números, que representam a medida de desempenho do
cromossomo com relação ao problema a ser resolvido. Esta função
desempenha no GA o mesmo papel que o meio ambiente na teoria da evolução
natural das espécies.
De maneira geral, um GA pode ser descrito através do fluxograma
apresentado na Figura III–2, que apresenta as seguintes características gerais
[18-20]:
a) Operam em um conjunto de pontos, denominado como população, e
não a partir de pontos isolados;
b) Trabalham com um conjunto de parâmetros codificados e não com os
próprios parâmetros;
III-25
c) Utilizam informação da função objetivo, denominada função de
adaptabilidade ou fitness;
d) Usam transições probabilísticas.
Figura III–2 Esquema geral de um algoritmo genético.
3. Operadores Genéticos
A estrutura de um algoritmo genético apresenta elementos que realizam
modificações nos cromossomos para produzir novos cromossomos ou
indivíduos, estes elementos chamados de operadores genéticos podem ser
basicamente crossover, mutação e inversão [17].
O operador crossover corresponde a troca de informações genéticas
entre dois indivíduos (pais) para formar dois novos indivíduos diferentes
(filhos), que guardam influências dos pais. Existem várias formas de realizar
este cruzamento. O operador crossover, mais simples, corresponde à troca de
um ponto escolhido aleatoriamente sobre o comprimento do cromossomo, em
III-26
seguida os bits correspondentes são trocados, como é mostrado na
Figura III–3. [17, 21]
Figura III–3 Operador crossover simples. Outra forma de operador crossover consiste em permutar substrings dos
cromossomos pais, gerando também dois indivíduos filhos, como demostrado
na figura III-4 [17,21].
Figura III–4 Operador crossover para permutar substrings dos cromossomos.
Comparando os dois tipos de operadores crossover o primeiro, apesar da
simplicidade, apresenta a possibilidade de realizar permutações não efetivas,
caso a posição selecionada tenha o mesmo valor binário. A segunda forma de
operador crossover é mais eficiente, pois a probabilidade de existir substrings
iguais é menor.
O operador mutação consiste em criar perturbações na cadeia dos
cromossomos dando origem a um novo string, este pode guardar pouca ou
nenhuma informação da cadeia mãe. A mutação é a denominação dada a
III-27
vários mecanismos de alterações genéticas, que criam novos cromossomos.
Esta alteração ocorre de forma que cada gene em cada cromossomo é um
candidato à mutação. A probabilidade de execução da mutação é mantida,
usualmente, em um valor baixo, para evitar a perda de um número grande de
cromossomos bem adaptados.
O objetivo do operador mutação nos GAs consiste em possibilitar o
processo de busca em regiões não exploradas pela população e prevenir a
convergência prematura para soluções locais. Os principais mecanismos de
execução do operador mutação são: adição, remoção, inversão e troca simples,
Na adição ocorre a inserção de mais um bit na cadeia, o processo inverso
corresponde a remoção. Estes dois mecanismos são empregados somente em
situações onde torna-se necessário alterar o comprimento da cadeia do
cromossomo para remover informações irrelevantes ou adicionar a capacidade
de representar mais informações [17, 22].
A troca simples consiste em selecionar uma posição ou conjunto de
posições e permutar todos os valores da região selecionada (Figura III–5). Para
a representação binária, se em uma posição estiver o valor lógico 1, este será
trocado para 0 e o inverso também é válido. A Figura III–5 demonstra o
mecanismo de troca simples para um operador mutação.
Figura III–5 Operador mutação baseado em troca simples.
III-28
O mecanismo de inversão consiste na retirada de um pedaço da cadeia e
a inserção desta cadeia invertida [17]. Os efeitos deste mecanismo podem ser
visualizados na Figura III–6.
Figura III–6 Mecanismo de inversão para o operador mutação.
Comparando os mecanismos para realizar uma mutação o operador
baseado na troca simples é mais eficiente, pois este sempre retornará um
individuo diferente. Entretanto o mecanismo de inversão pode selecionar uma
região de simetria no cromossomo, como por exemplo, o string 1001, que ao
ser invertida não provoca modificações no individuo, podendo gerar um sistema
com vícios, impedindo a convergência do algoritmo genético.
4. Seleção Genética
A finalidade do processo de seleção em um algoritmo genético é
escolher os elementos da população que serão utilizados pelos operadores
genéticos para produzir novos indivíduos. Em problemas de maximização, esta
escolha deve ser realizada de maneira que os indivíduos mais aptos da
população tenham maior chance de reprodução. Esta operação corresponde a
versão artificial da seleção das espécies do Darwinismo, sendo que os seres
mais aptos têm maior probabilidade de sobreviver, ou seja, os mais fortes e
menos vulneráveis aos predadores e doenças. O objetivo principal da seleção é
III-29
preservar as melhores soluções, eliminando as soluções de baixa aptidão. A
Seleção pode ser realizada da seguinte forma [23]:
a) Identificação das melhores soluções;
b) Realização de múltiplas cópias das melhores soluções através dos
operadores genéticos;
c) Eliminação das soluções de baixa aptidão na população.
A quantidade de indivíduos selecionados depende da implementação do
algoritmo genético, podendo ser um número fixo ou uma quantidade
proporcional ao tamanho da população, com, por exemplo, 30% dos indivíduos
serão selecionados, e o restante eliminado. Existe um grande número de
estratégias de seleção. As mais comuns são seleção por torneio e seleção por
ranking. Na seleção por torneio, são realizadas várias competições entre duas
soluções, e as melhores soluções são selecionadas. Este método é
caracterizado por apresentar uma pequena complexidade computacional. A
estratégia de seleção pelo ranking ordena os cromossomos de acordo como o
seu valor de aptidão, desde o melhor (ranking 1) até o pior (ranking N). Depois,
o número de cópias das soluções é proporcional ao valor de ranking [17, 23].
5. Parâmetros Genéticos
A implementação de um algoritmo genético exige a definição de alguns
parâmetros intrínsecos. A determinação correta destes parâmetros possibilita
ao algoritmo genético a sua convergência para soluções ideais associado a
uma boa administração dos recursos computacionais [17, 23].
a) Tamanho da População:
O tamanho da população determina o número de cromossomos na
população, afetando o desempenho global e a eficiência dos algoritmos
genéticos. Com uma população pequena o desempenho pode tornar-se
ineficiente, pois a população fornecerá uma pequena cobertura do
espaço de busca do problema. Uma grande população geralmente
fornece uma cobertura representativa do domínio do problema, além de
prevenir convergências prematuras para soluções locais ao invés de
globais. No entanto, para se trabalhar com grandes populações, são
III-30
necessários recursos computacionais além de possivelmente aumentar o
tempo de processamento do algoritmo genético;
b) Taxa de Cruzamento (crossover):
Este parâmetro determina a probabilidade de ocorrência do operador
cruzamento. Quanto maior for esta taxa, mais rapidamente novas
estruturas serão introduzidas na população. Entretanto se este
parâmetro for muito alto uma grande parte da população será substituída
podendo ocorrer perdas de estruturas com alta aptidão. Se a taxa for
muito baixa o algoritmo ficará estagnado em algumas regiões do espaço
de busca.
c) Taxa de Mutação:
Determina a probabilidade de ocorrência de uma mutação. Uma baixa
taxa de mutação previne a convergência prematura para um ótimo local,
possibilitando ao algoritmo explorar melhor todo o espaço de busca. Uma
taxa de mutação muito alta faz com que o processo de busca torne-se
essencialmente aleatório;
d) Intervalo de Geração:
Controla a porcentagem da população que será substituída durante a
próxima geração. Com um valor alto, a maior parte da população será
substituída, podendo ocorrer perda de estruturas de alta aptidão. Com
um valor baixo, o algoritmo pode tornar-se muito lento.
6. Passos de Implementação de um Algoritmo Genético
Para resolver um determinado problema utilizando GA, os seguintes
passos podem ser seguidos [19, 23]:
a) Definir uma representação a ser utilizada para os indivíduos de
maneira que uma solução completa possa ser descrita;
b) Definir as estratégias de substituição, seleção, cruzamento e
mutação;
c) Definir a regras ou função que definem a aptidão dos indivíduos;
d) Ajustar os parâmetros: tamanho da população, probabilidade de
cruzamento, probabilidade de mutação, probabilidade de substituição,
III-31
e) Definir os critérios de convergência e finalização do algoritmo
genético.
7. Aplicação dos Algoritmos Genéticos
Os algoritmos genéticos são frequentemente empregados em problemas
de otimização e parametrização de funções matemáticas ou processos diversos
tais como rotas de busca, controle de dispositivos ou simulação de animais em
ambientes confinados [24]. Aplicados diretamente a problemas químicos
destacam-se problemas de minimização da estruturas de clusters atômicos e
moleculares [25-28], minimização de estruturas de proteínas [23], definição de
estruturas químicas de pequenas moléculas orgânicas [16], definição da
estrutura cristalina a partir de dados de difração de raios-X [25] e inversão de
espectros de meia vida de positrônio [20]. Devido a grande potencialidade da
técnica de algoritmos genéticos, estes têm sido aprimorados constantemente
com o desenvolvimento de operadores genéticos específicos para os
problemas de minimização de estruturas de clusters [29].
Capítulo IV - Lógica Fuzzy
IV-33
1. Introdução
Ao longo da história humana, muitos se dedicaram ao estudo da lógica.
Aristóteles, filósofo grego (384 - 322 a.C.) e um dos fundadores da ciência da
lógica, estabeleceu um conjunto de regras rígidas para obter conclusões
válidas em termos lógicos. A lógica de Aristóteles leva a uma linha de
raciocínio lógico baseada em premissas e conclusões, como por exemplo,
”Todo ser vivo é mortal” (premissa 1), a seguir é constatado "Geison é um ser
vivo" (premissa 2), como conclusão, temos que “Geison é mortal” [30,31].
A lógica de Aristóteles proporcionou a criação de um conceito de lógica
Ocidental binária, conhecida normalmente como lógica clássica, baseada
unicamente em declarações falsas ou verdadeiras, não podendo existir
afirmações que sejam parcialmente verdadeiras e parcialmente falsas. Dessa
forma, a afirmação de uma premissa e a sua negação cobre todo o espaço de
decisão [30, 31].
Após o surgimento dos paradoxos de Russel e da incerteza de
Heisenberg, o pesquisador polonês Lukasiewicz desenvolveu uma lógica
“multivalente” por volta de 1920. Esta nova teoria refinou a lógica binária (sim
- não) [30, 31].
O conceito formal de conjunto nebuloso (fuzzy) e os fundamentos da
Lógica Difusa foram desenvolvidos por Lotfi A. Zadeh em 1965, a partir da
lógica de Lukasiewicz. O desenvolvimento da lógica fuzzy foi impulsionado
pelo fato que recursos tecnológicos disponíveis na época eram incapazes de
automatizar as atividades relacionadas a problemas de natureza industrial,
biológica ou química, que compreendessem situações ambíguas e que não
eram passíveis de processamento através da lógica computacional a qual é
fundamentada na lógica booleana [32].
A teoria dos conjuntos nebulosos tem a capacidade de tratar a
imprecisão ou incerteza da informação. A lógica fuzzy corresponde a uma
formulação mais geral para as questões lógicas, possibilitando valores de
certeza intermediários aos definidos pela lógica binária (0 ou 1, sim ou não).
IV-34
A lógica nebulosa é, portanto, menos restritiva e mais adequada para o
tratamento de informações fornecidas por seres humanos.
A lógica fuzzy é atualmente uma tecnologia bem sucedida para o
desenvolvimento de sistemas de controle de processos sofisticados [32],
possibilitando a implementação de controladores simples e de fácil
manutenção para processos que necessitam de múltiplas soluções, com grau
de certeza variado. O uso de sistemas construídos com base na lógica fuzzy
são denominados controladores nebulosos ou fuzzy, os quais são
perfeitamente aplicáveis em problemas onde o modelo matemático está
sujeito a incertezas [30, 32].
Algumas aplicações para os controladores fuzzy podem ser citadas
com maior destaque, como por exemplo, o controle de um forno de cimento,
seguido posteriormente por outros controladores desenvolvidos para plantas
nucleares, refinarias, processos bioquímicos, tratamento de água, operação
automática de trens [30].
2. Lógica Fuzzy
A Lógica fuzzy corresponde a uma aplicação da teoria dos conjuntos
nebulosos. Na matemática clássica, define-se um conjunto como uma coleção
de elementos distintos que podem ser finitos ou não. Este conjunto pode ser
descrito de várias maneiras, entre as quais, destacam-se: a enumeração de
cada um de seus elementos (A = 1,2,3,4), ou uma condição de pertinência
(A = x | x≤5) [30].
Formalmente, um conjunto fuzzy A do universo de discurso Ω é definido
por uma função de pertinência µA: Ω [0,1]. Essa função associa a cada
elemento x do universo (Ω) um grau µA(x), sendo que x ∈ A [30]. A função de
pertinência µA(x) apresenta valores entre 0 e 1. Esta função define o grau de
compatibilidade entre x e o conceito expresso por A:
• se µA(x)=1, x é completamente compatível com A, ou seja
completamente verdadeiro [30, 33];
IV-35
• se µA(x)=0, x é completamente incompatível com A, ou seja
completamente falso [30, 33];
• se 0>µA(x)>1, x é parcialmente compatível com A de acordo com o
grau de µA(x) [30, 33];
Um conjunto A da teoria dos conjuntos clássicos pode ser visto como um
conjunto nebuloso específico, como sendo µA: Ω 0,1 e denominado
“crisp”, ou seja, a função de pertinência é do tipo “tudo ou nada”, “sim ou
não”, 1 ou 0.
A diferença entre a lógica clássica e nebulosa pode ser visualizada na
Figura IV -1, que descreve respectivamente o conceito de adolescente
através de um conjunto “crisp” (gráfico A) e através de um conjunto fuzzy
(gráfico B).
Figura IV-1 A) Função característica do conjunto “crisp”adolescente. B) Função trapezoidal característica do conjunto fuzzy adolescente.
O conjunto “crisp” A não exprime completamente o conceito de
“adolescente”, pois uma pessoa com 12 anos e 11 meses seria considerada
completamente incompatível com este conceito. Entretanto o conjunto
nebuloso B permite exprimir que qualquer pessoa com idade entre 13 e 17 é
completamente compatível com o conjunto adolescente. Acima de 19 ou
abaixo de 11 não existe compatibilidade. Para valores nos intervalos [11, 13]
e [17,19] a compatibilidade é parcial. Algumas funções de pertinência
IV-36
aplicadas com maior freqüência em estudos e desenvolvimentos de lógica
nebulosa são ilustradas na Figura IV-2 [30-34].
Figura IV-2 Principais funções de pertinência.
A cardinalidade de um conjunto nebuloso A pode ser expressa como [30, 34]:
• Universo discreto
( )∑Ω∈
=x
A xA µ|| (IV-1)
• Universo contínuo
( )∫Ω
= xA Aµ|| (IV-2)
Algumas propriedades e conceitos dos conjuntos nebulosos são
mostrados graficamente na Figura IV-3. Os casos extremos do conjunto
nebuloso que apresentam total compatibilidade com o conceito expresso por
A formam o subconjunto nebuloso núcleo, denotado por Nµ(A), e definido
matematicamente pela eq. 3
NucleoxxAN A ==Ω∈= 1)(|)( µµ (IV-3)
Outra definição importante corresponde ao suporte, Sµ(A)(Figura IV-3),
que agrupa todos os elementos de Ω que são totalmente ou parcialmente
compatíveis com o conceito de A. Matematicamente o suporte corresponde a
todos os elementos que apresentam µA(x)>0, como descrito pela eq. 4
IV-37
SuportexxAS A =>Ω∈= 0)(|)( µµ ( IV-4)
A partir da definição de um valor no intervalo aberto (0,1), é possível
obter conjuntos intermediários entre o núcleo e o suporte. Estes
subconjuntos, denotados por Cα (Figura IV-3) e definidos pela eq. 5 são
denominados de cortes de nível ou cortes-α, para a Figura IV-3 o corte-α é
realizado em 0.5.
αµα >Ω∈= )(|)( xxAC A ( IV-5)
A altura do conjunto A, (eq. 6) representa o maior grau de
compatibilidade dos elementos de Ω em relação ao conceito expresso por A.
Se a altura máxima for igual a 1 (Figura IV-3), o conjunto é classificado como
normalizado.
))(max()( xAAltura Aµ= ( IV-6)
Figura IV-3 Cardinalidade, altura, suporte e núcleo e o corte de nível 0.5 do conjunto fuzzy A.
IV-38
3. Operações em Conjuntos Nebulosos
a. t-normas e s-normas
Para desenvolver os conceitos relacionados às operações de
intercessão, união e complemento de conjuntos nebulosos, considere os
conjuntos A e B definidos em Ω. A intercessão dos conjuntos A e B pode ser
expressa por outro conjunto conforme a expressão I=A∩B, de forma
semelhante, a união é representada pelo conjunto U=A∪B.
Na teoria de conjuntos nebulosos a intercessão é implementada pelos
operadores t-normas enquanto a união pode ser definida pelos operadores t-
conormas ou s-normas [30, 34].
Uma função t-norma ou s-norma definida como F, para operar em dois
conjuntos nebulosos, A e B, deve apresentar a mesma dimensão dos
conjuntos em questão, ou seja, F: [0,1]2 [0,1]. Portanto, a função F deve
ser, comutativa, associativa e monotônica se F satisfaz as seguintes
propriedades, respectivamente, para ∀ (a, b) ∈ [0,1], como descrito a seguir
[30, 31]:
• Comutatividade : );,(),( abFbaF =
• Associatividade: );),,(()),(,( cbaFFcbFaF =
• Monotonicidade: ;),(),( dbecasedcFbaF ≤≤≤
Os operadores t-norma e s-norma diferem-se em relação a definição do
elemento neutro. Para que um operador do tipo T:[0,1]2 [0,1] possa ser
classificado como t-norma ele deve ser comutativo, associativo, monotônico e
apresentar o seguinte o elemento neutro:
• Elemento neutro t-norma =1: 1)1,( =aT
Igualmente, um operador s-norma deve ser comutativo, associativo,
monotônico e apresentar a seguinte definição para o elemento neutro [31]:
• Elemento neutro s-norma = 0: .)0,( aaS =
IV-39
O operador negação para uma t-norma ou s-norma são definidas pelas
relações de Morgan (eq. 7) definidas para ∀ (a, b) ∈ [0,1] [31]. A negação
dos termos a e b pode ser feita pelo principal operador negação, a=1-a.
),(),(),(),(baTbaSbaSbaT
¬¬=¬¬¬=¬ 1( IV-7)
A utilização de conjuntos crisp µA=0,1 reduz a lógica nebulosa à
lógica clássica, da mesma forma que as t-norma e s-normas são reduzidas
aos operadores intercessão e união clássicos.
A Tabela IV-1 mostra as principais t-normas e s-normas mais utilizadas
em estudos e aplicações da lógica nebulosa. Considerando que os conjuntos
A e B apresentam funções de pertinência triangular, o esboço geral para as
principais t-normas está na Figura IV–4 enquanto as s-normas estão na
Figura IV–5. Algumas características importantes correspondem a expressão
de cada t-norma e s-norma. A t-norma Zadeh apresenta maior expressão
enquanto a t-norma de Weber tem a menor região de cobertura. Para as s-
normas ocorre uma inversão a s-norma de Zadeh tem uma área menor
enquanto a s-norma de Weber apresenta a maior área, como pode ser
visualizado na Figura IV-5 [30].
Tabela IV-1. Principais operadores t-norma e s-norma
t-norma s-norma Nome
),min( ba ),max( ba Zadeh
ba. baba .−+ Probabilística
)0,1max( −+ ba )1,min( ba + Lukasienwiez
==
01,1
asebbsea
==
100
asebbsea Weber
1 O simbolo lógico significa negação
IV-40
Figura IV-4 Esboço das principais t-normas.
Figura IV-5 Esboço das principais s-normas.
b. Operador Implicação
Os operadores de implicação I:[0,1]2 [0,1] são utilizados para modelar
regras de inferência do tipo SE <premissa> ENTÃO <conclusão>.
Considerando que A e B estão associados às funções de pertinência µA e µB
a relação A B (Se A então B) é expressa como [30,31]:
))(),((),( yxIyxb BAA µµµ =→ ( IV-8)
As principais expressões matemáticas para o operador implicação estão
relacionadas na Tabela IV-2
IV-41
Tabela IV-2 Principais operadores de implicação
t-norma Nome
),1max( ba− Kleene-Diemes
)1,1min( ba +− Lukasienwiez
≤
ãobase
sen,0,1 Rescher-Gaines
≤
ãobbase
sen,,1 Brower-Gödel
≠
ãobaseab
sen,1),,min( Goguen
aba +−1 Reichenbach “estocástica”
),min(,1max( baa− Zadeh-Wilmott
),min( ba Mamdani
ba. Larsen
Alguns operadores implicação têm correspondência matemática com alguma
t-norma, como por exemplo: os operadores de implicação Larsen e Mamdani
são equivalentes a t-normas probabilística e Zadeh, respectivamente.
4. Controladores Fuzzy
Para a construção de um controlador nebuloso é necessário definir
primeiramente as variáveis lingüísticas, como por exemplo, através de uma
quádrupla (X,Ω,T(X),µX), sendo X o nome da variável, Ω o universo de
discurso (espaço) de X, T(X) é um conjunto de nomes para os valores de X, e
µX é uma função que associa para cada elemento de T(X) uma função de
pertinência [35].
A Figura IV–6 mostra a variável lingüística característica de cada idade
humana com os termos nebulosos muito jovem, jovem, adulto, idoso e muito
idoso.
IV-42
Figura IV-6 Termos lingüísticos que mapeiam a variável características de cada idade.
Os controladores fuzzy são facilmente adaptáveis e podem incorporar
conhecimento de outros sistemas. Estes são também versáteis,
principalmente quando o modelo físico é de difícil representação matemática.
Os controladores fuzzy são empregados com maior freqüência em sistemas
que apresentam uma incerteza intrínseca [30, 36].
A Figura IV–7 mostra a estrutura geral de um controlador nebuloso,
formado pela base de conhecimento, interface de fuzzificação, procedimento
de inferência e interface de defuzzificação, cada um destes elementos serão
descritos a seguir [36].
A interface de fuzzificação corresponde á transformação da entrada do
sistema em conjuntos nebulosos. O processo de fuzzificação identifica os
valores de entrada das variáveis que caracterizam o sistema e as normaliza
para o universo de discurso padronizado.
A base de conhecimento que caracteriza o problema e a estratégia de
controle é formada por uma base de dados e uma base de regras. Na base
de dados são armazenadas as definições do espaço e as funções de
pertinência dos termos nebulosos. A base de regras é composta normalmente
por regras de produção do topo SE <premissa> ENTÃO <conclusão> [36].
IV-43
As regras e os dados de entrada são processados pelo procedimento
de inferência; este irá deduzir as ações de controle de acordo com o estado
do sistema analisado, através da aplicação de operadores nebulosos,
intercessão (t-normas), união (s-normas) e implicação.
Figura IV-7 Estrutura de um controlador fuzzy.
O processo de inferência pode ser descrito pelos seguintes tópicos [30]:
1) Verificação dos graus de compatibilidade global entre os fatos e as
cláusulas nas premissas das regras:
2) Determinação dos graus de compatibilidade global das premissas de cada
regra;
3) Determinação do valor de conclusão em função dos graus de pertinência;
4) Obtenção da ação de controle global.
Algumas estratégias de controle são: controle nebuloso clássico,
controle de Mandani e Larsen [30], controle por interpolação e controle de
Tsukamoto [30], sendo que dentre estes apenas o controle clássico será
explorado devido a sua aplicação no desenvolvimento do trabalho desta
dissertação.
Para um controlador fuzzy clássico, cada conclusão é modelada por um
conjunto nebuloso com funções de pertinência com formatos diferenciados,
triângulos, trapézios, sino, dentre outras.
O controle clássico apresenta os seguintes passos [31, 37]:
IV-44
Passo1: Cada variável de estado deve assumir um conjunto nebuloso
definido por uma função de pertinência, ou seja, não pode existir um conjunto
totalmente excludente;
Passo 2: A compatibilidade do valor de entrada é calculada para cada
premissa e cada regra, no universo de discurso, logo as funções de
pertinência devem cobrir todo o espaço;
Passo 3: Obtém-se a compatibilidade global a partir de um operador t-
norma;
Passo 4: Identifica-se o conjunto nebuloso que mais contribui para a
compatibilidade do valor de entrada;
Passo 5: A partir de um operador s-norma é avaliada a contribuição de
todos as regas no processo de decisão.
A etapa final do controlador nebuloso é a interface de defuzzificação
que corresponde a tradução do controle nebuloso obtido pelo sistema de
inferência para a ação de controle, ou seja, nesta etapa são retornadas as
ações de controle para o sistema. Na defuzzificação a partir de um controle
nebuloso inferido são realizados os controles não nebulosos. Os principais
métodos de defuzzificação utilizados são [30, 37]:
1) Primeiro máximo: O valor de saída é encontrado a partir do primeiro valor
máximo (máximo local) definido pelas funções de pertinência;
2) Método da media dos máximos: O valor de saída é defindo pela média de
todos os valores máximos definidos pelas regas;
3) Método do centroide: O valor de saída corresponde ao centro de
gravidade da função de pertinência.
A escolha do método de defuzzificação depende da natureza do controle a
ser realizado.
Capítulo V - Algoritmo Genético Implementado
V-46
1. Estrutura do Algoritmo Genético Implementado
O sistema de otimização e parametrização implementado neste estudo
corresponde a um sistema híbrido que contém as diretrizes de otimização dos
algoritmos evolutivos associado à técnica de controle fornecida pela lógica
nebulosa e a técnicas de classificação de dados por agrupamento. A técnica de
classificação corresponde à realização de agrupamentos por distância mínima e
será explicada neste capitulo. A lógica fuzzy é utilizada para obter a função fitness
e para controlar os operadores genéticos crossover, mutação, seleção natural
[17,30]. A Figura V–1 mostra a estrutura do algoritmo genético desenvolvido, as
próximas seções descrevem detalhadamente cada parte do sistema. O sistema
implementado é capaz de encontrar múltiplas soluções para sistemas complexos.
Figura V–1 Estrutura geral do algoritmo genético implementado.
V-47
a. População Inicial
A representação de cada indivíduo pode ser realizada de três formas
diferentes, cada uma corresponde a um vetor de N componentes, sendo N o
número de elementos a serem otimizados. A primeira representação corresponde
a um vetor com strings binários de 0 e 1 (0’s e 1’s), que serão utilizadas pelos
operadores genéticos. A segunda representação é obtida a partir da conversão do
vetor de strings binários para o valor real com intervalos definidos de acordo com
a função ou propriedade do sistema analisado que será otimizado/parametrizado.
A terceira representação, semelhante à segunda, corresponde a conversão de
cada string binário para um valor real no intervalo [0,1], esta representação é
utilizada pelo sistema de classificação [38].
b. Função Fitness
Para o algoritmo genético desenvolvido existem dois tipos de função fitness.
Se o algoritmo genético estiver sendo utilizado em um processo de
parametrização, onde existe um valor de referência, utiliza-se uma função
logaritmo do erro (eq. V-1) [23].
−==
real
realga
EEE
ErroFitness log)log( (V-1)
sendo Ega o valor da propriedade ou parâmetro utilizado pelo GA para
parametrizar/otimizar o sistema e Ereal o valor de real ou de referência. Para a
função Fitness definida acima tanto o erro quanto o logaritmo do erro serão
minimizados no processo de otimização.
Entretanto, para problemas que não apresentam propriedades ou medidas
de referência, a função fitness passa a ser definida de acordo com o problema,
dentro do espaço definido pelo conjunto de dados. Por exemplo, a minimização de
estruturas pode utilizar uma função potencial para modelar a energia potencial de
um sistema. Entretanto, a determinação de alinhamento de biosseqüências utiliza-
se a similaridade e neste caso ocorre a maximização dos valores de similaridade
encontrados durante o alinhamento.
V-48
c. Seleção – Operador Predador
O operador predador elimina indivíduos da população de acordo com a
probabilidade de eliminação, definida pela função de pertinência (eq.V-2). A eq.
(V-2) corresponde a uma função sigmoidal aberta para a direita; portanto, quanto
maior o valor de erro, maior a probabilidade de o indivíduo ser eliminado da
população, ou quanto mais desfavorável for a aptidão do indivíduo maior a
probabilidade de ser eliminado da população. Para cada indivíduo na população é
selecionado um número aleatório (r) entre 0 e 1. Se Ppi > r o indivíduo será
eliminado da população.
)(1
1
1DMF
DM
ip
ie
P+−
+−
+
= ( V-2)
sendo que Fi é o valor da função fitness para o indivíduo analisado, M a média da
função fitness (eq. V-1) e D o desvio padrão da função fitness. O gráfico ilustrativo
para a eq. V-2 é mostrado na Figura V–2.
Figura V–2 Função de pertinência para o operador predador.
V-49
d. Seleção – Operador Habitat
O algoritmo genético desenvolvido tem a capacidade de encontrar múltiplas
soluções que geram soluções equivalentes ou que satisfazem critérios de
aceitabilidade. Para que o maior número de soluções possíveis seja encontrado, o
operador habitat garante que a população não irá convergir para uma única
solução. Sempre que um indivíduo estiver muito próximo de outro, ocorrerá um
aumento na probabilidade de execução de um torneio (Phab), governada pela
função sigmóide (eq. V-3), entre os indivíduos próximos. Neste torneio a
probabilidade de eliminação (eq. V-1) é utilizada para definir qual indivíduo está
mais adaptado e consequentemente terá menor probabilidade de ser retirado da
população [23]. O operador habitat outorga a cada indivíduo a responsabilidade de
otimizar uma região do espaço de busca que apresenta formato esférico, podendo
ser modelado por
mij RRijhab
eP −+
=1
1 (V-3)
sendo que a variável Rij define a distância euclidiana entre dois indivíduos, Rm é a
distância mínima permitida para dois indivíduos, M corresponde a media da função
fitness (eq. V-1) e D corresponde ao desvio padrão da função fitness. A Figura V–
3 ilustra o comportamento representativo para a eq. V-3.
Figura V–3 Função de pertinência para o operador habitat.
V-50
e. Operador Imigração
O operador imigração cria novos indivíduos aleatórios, diminuindo a
degenerescência da população e evitando a convergência prematura do algoritmo
genético. Quantidade de indivíduos criados aleatoriamente (Ni) é definida pela eq.
V-4 (sigmóide aberta para a direita) e corresponde a metade dos indivíduos
eliminados pelo operador predador e habitat multiplicado pela probabilidade de
execução do operador imigrante [17, 23]. Com o decorrer das gerações a
população torna-se mais adaptada e consequentemente a quantidade de novos
indivíduos adicionados à população torna-se menor. A partir da geração que a
probabilidade do operador imigração não consegue definir a criação de nem
mesmo um indivíduo, a população torna-se fechada para a entrada de imigrantes
e a estratégia do GA passa a ser apenas minimizar os indivíduos presentes, pois
novos pontos de busca não são mais criados. Esse procedimento pode ser
formalmente expresso por
2 .1)(1
+
=−
+− iAM
DM
imigrante
e
NN ( V-4)
sendo N a quantidade de indivíduos eliminados pelo operador predador e habitat,
M é o valor médio da função de aptidão, D corresponde ao desvio padrão da
função Fitness (eq. V-1) e o parâmetro Ai define o valor de ativação do operador
imigração. O parâmetro Ai representa o valor limite para a função fitness onde o
operador começa a perder expressividade, pois a população encontra-se bem
adaptada.
f. Operador Crossover
O operador crossover recombina indivíduos da população. A recombinação
ocorre entre um par de indivíduos escolhido aleatoriamente. Para o par
selecionado, a probabilidade de ocorrência da recombinação é definida pela eq.
V-5, que corresponde ao produto de duas funções de pertinência sigmoidal
abertas para a esquerda, portanto quanto maior a aptidão de cada indivíduo maior
será a probabilidade de recombinação do par. O processo de recombinação
V-51
ocorre com a troca total ou parcial de uma componente dos vetores de strings
binários. O operador crossover é controlado pela função de pertinência (eq. V-5)
que promove a intercessão das regiões mais adaptadas dos indivíduos envolvidos
no cruzamento. Particularmente tratando-se de conjunto nebulosos, a intercessão
é implementada pelos operadores t-norma. Para o desenvolvimento do algoritmo
genético foi utilizada a t-norma probabilística (a. b) [30, 31, 36], sendo, portanto, a
função dada por :
( ) ( )DMFDM
DMFDM
ijcross
jiiee
P+−
++−
+ ++
= 11
1
1
1
1 (V-5)
em que, Pijcross define a pertinência para a operação de combinação de dois
indivíduos, Fi e Fj são os valores de aptidão dos indivíduos i e j respectivamente,
M é a média do valor de aptidão da população, e D corresponde ao desvio padrão
da função Fitness. A Figura V–4 mostra o comportamento típico da função de
pertinência de dois indivíduos escolhidos aleatoriamente (a e b) e a t-norma
probabilística (ab) para estes indivíduos, ou seja, a pertinência que controla o
operador crossover para a execução da combinação entre os indivíduos a e b.
Figura V–4 - Função de pertinência t-norma para o operador crossover.
V-52
g. Operador Mutação
O operador mutação gera um novo indivíduo através da simples troca de
símbolo no vetor de strings binários (1 para 0 e 0 para 1). O operador mutação,
assim como o operador imigrante apresenta a capacidade de reduzir a
degenerescência da população e criar novas localidades de otimização evitando
os possíveis mínimos locais. A probabilidade de mutação (eq. V-6) apresenta uma
penalidade intrínseca (Pm) que limita o valor de probabilidade de ocorrência do
operador mutação [17, 18]. A expressão formal para esse operador é dada por
)(1
1
1DMF
DMm
imut
iepP
+−++
= ( V-6)
sendo que Pm define o valor de probabilidade máxima permitido para o operador
mutação, M é a media dos valores de Fitness (eq. V-1) e D o desvio padrão da
função fitness.
h. Convergência do Algoritmo Genético
A execução do GA é finalizada sob a ocorrência de duas condições
mutuamente excludentes, definidas pelas seguintes premissas:
i) O GA terá convergido se somente se operador predador e habitat
não forem mais capazes de eliminar indivíduos devido à
convergência de toda a população para um único valor de fitness.
Neste caso, a media da população corresponde ao mesmo valor
encontrado na população e o desvio é igual a zero, portanto não
existem indivíduos que sejam menos adaptados e passíveis de
eliminação.
ii) O GA será finalizado se somente se o valor médio da função fitness
(Fitnessm) for menor que Fitnesslimite (problemas de minimização) ou
Fitnessm ≥ Fitnesslimite (problemas de maximização) e Desviom ≤
DesvioLimite, sendo que os valores de Fitnesslimite e Desviolimite são
definidos de acordo com o problema.
V-53
2. Sistema de Classificação
Após a convergência do GA os indivíduos são agrupados em classes
definidas de acordo com a distância euclidiana dos vetores unitários dos membros
da população. A definição das classes presentes na população utiliza a distância
mínima como critério de agrupamento [38]. Para a implementação do algoritmo
genético foi empregada a distância euclidiana conforme dada abaixo
−
−=−=
=
→→→→→→→→
21212121 ., VVVVVVVVdDijT
( V-7)
Para que todas as possíveis classes sejam contempladas, cada elemento da
população é considerado como protótipo para formação de uma classe. Embora
todos os indivíduos possam gerar pelo menos uma classe, serão considerados
apenas os agrupamentos que tiverem dois ou mais elementos. A criação de uma
classe será efetiva quando os indivíduos envolvidos apresentarem uma distancia
(Dij) menor ou igual a 1%. O processo de seleção das melhores soluções ocorre
somente para os indivíduos que apresentam valores de Fitness < (MédiaFitness-
Desviofitness). O restante da população é agrupado em classes de acordo com a
distância mínima (eq. V-7). A Figura V–5 mostra uma distribuição da aptidão
(fitness) representativa e a região de seleção dos melhores indivíduos da
população [38].
Figura V–5 Gráfico representativo da distribuição da aptidão e a região de seleção das melhores soluções.
Capítulo VI - Parametrização de Funções
VI-55
1. Introdução aos Sistemas de Liberação Controlada de Drogas
A arquitetura do algoritmo genético desenvolvido no Capítulo V (pg. 45)
indica uma elevada versatilidade do mesmo para a otimização de problemas que
apresentam múltiplas soluções, como por exemplo, o processo de elucidação de
estruturas de proteínas e a parametrização de funções matemáticas. Os
problemas envolvendo parametrização de funções matemáticas exigem uma
elevada exatidão e sensibilidade do método de otimização. Portanto a
parametrização de sistemas de liberação controlada de drogas possibilita uma
análise acurada do desempenho do GA em problemas que exigem precisão e
sensibilidade, como por exemplo, elucidação de estruturas de proteínas. Sendo
assim, a metodologia desenvolvida no Capítulo anterior será primeiramente
testada no problema de hipersuperfícies como será o caso a ser descrito neste
Capítulo.
O desenvolvimento de sistemas de sistemas de liberação controlada de
fármacos [39-42] devem viabilizar o aumento e manutenção da atividade
farmacológica terapêutica durante elevado intervalo de tempo [39]. Levando-se em
consideração os aspectos econômicos, os sistemas de liberação controlada de
fármacos devem apresentar o menor custo possível sem a redução da atividade
farmacológica desejada. Considerando-se os aspectos farmacológicos e
econômicos, a indústria farmacêutica destaca-se no aproveitamento de matérias-
primas de baixo custo e fácil acesso para o desenvolvimento de novas
formulações, novos materiais poliméricos e novas técnicas de encapsulamento
para o desenvolvimento de metodologias terapêuticas modernas [39, 40].
A constituição dos dispositivos de liberação controlada de fármacos envolve
propriedades características como, por exemplo: concentração das substâncias
com atividade farmacológica, concentração de saturação na matriz, tipos de
matrizes poliméricas, decomposição da matriz e geometria dos dispositivos de
inclusão farmacológica (comprimidos) [40]. Devido à elevada complexidade, a
criação e desenvolvimento de novos sistemas utilizam estudos teóricos para a
VI-56
determinação de parâmetros ideais, como por exemplo, coeficientes de difusão
[40-43].
Modelos matemáticos específicos para problemas de liberação controlada
de drogas foram propostos por Fu et al. [41] e Higuchi [43]. Estes modelos
consideram em conjunto a geometria do comprimido, as propriedades da matriz e
dos substratos dissolvidos. Em decorrência da complexidade dos modelos
matemáticos, torna-se necessário a utilização de técnicas computacionais de
otimização, para a obtenção de soluções confiáveis e satisfatórias.
Aplicadas diretamente aos sistemas de liberação controlada de drogas tem-
se a rede neural artificial proposta por Marcus et al. [40] que utiliza como
treinamento o conjunto de pontos que definem a fração da droga liberada com os
respectivos parâmetros que produzem as curvas, de acordo com o modelo
matemático proposto por Higuchi [42], este modelo relaciona, o coeficiente de
difusão (D), a solubilidade de saturação (Cs), a concentração inicial da droga (A) e
o tamanho do comprimido (h) com a fração de droga liberada (F). A rede neural
artificial tem por objetivo determinar um conjunto de parâmetros (D, Cs, A e h) que
definem uma curva de fração de droga conhecida (F(t)).
Entretanto, a solução proposta pela rede neural pode não ser única,
produzindo várias soluções que podem gerar a mesma curva de fração de droga
liberada e dessa forma construindo soluções múltiplas. Para que outros conjuntos
de parâmetros possam ser encontrados, o sistema de otimização precisa
contemplar a possibilidade de soluções múltiplas.
Este Capítulo apresenta o primeiro processo de validação do algoritmo
proposto correspondendo a um processo de parametrização de funções de
frações de droga liberada. A parametrização do modelo matemático [42] gera uma
hipersuperfície de busca que apresenta múltiplas soluções que geram a mesma
curva de fração liberada de droga. O estudo do sistema de liberação controlada de
droga utilizando o algoritmo genético acoplado a lógica fuzzy possibilitou uma
avaliação rigorosa da capacidade do sistema inteligente em resolver problemas
que apresentam múltiplas soluções. A partir desta avaliação foi possível
determinar a configuração ideal do sistema inteligente. A partir da determinação
VI-57
da configuração ideal do GA, problemas que apresentam maior complexidade de
otimização, como por exemplo, determinação de rotas de decomposição,
interpretação de dados de análises instrumentais e a elucidação de estruturas de
proteínas, poderão ser estudados.
Para testar e validar o sistema proposto com o objetivo de se obter uma
metodologia eficiente para ser usada no estudo de dados instrumentais e
determinação de estruturas secundárias de proteínas, foram empregados os
dados de um sistema contendo hidrocortisona solubilizada em uma matriz
polimérica [39-42], sendo que a fração liberada compreende a um período de 100
dias. A partir da determinação de múltiplos conjuntos de parâmetros com a mesma
fração liberada do fármaco podem-se realizar experimentos direcionados para a
obtenção de sistemas de liberação que têm propriedades diferentes; entretanto,
fornecem a mesma atividade farmacológica e possivelmente podem ser mais
viáveis sob os aspectos econômicos e experimentais.
2. O Modelo Matemático
O modelo matemático proposto por Higuchi [42] para a análise da fração de
hidrocortisona liberada (F(t)) é descrita pela eq. VI-1 [39, 42]:
( ) 21
22
2.8)(
−=
hAtCsACDtF s (VI-1)
sendo; D o coeficiente de difusão, Cs é a solubilidade de saturação da droga na
matriz, A é a concentração inicial da droga, h é o tamanho comprimido e t o tempo
decorrido do início do processo de liberação. Para o modelo matemático de
Higuchi [42] apenas os parâmetros D, Cs, A e h serão otimizados.
O processo de otimização tem como objetivo, encontrar conjuntos de
parâmetros que forneçam curvas equivalentes de fração liberada de drogas. A
Tabela VI-1 contém os parâmetros que geram a curva de referência e os
respectivos intervalos de busca que serão utilizados pelo algoritmo genético
implementado.
VI-58
Tabela VI-1 Definição dos Intervalos de formação para cada parâmetro da eq. VI-1 e definição dos parâmetros da curva de referência
Parâmetro Parâmetros
de referência
Intervalos de busca dos
Parâmetros otimizados
Inicio Final
D (×10-5 cm2dia-1) 1,35 0,042 4,820
Cs (mg.cm-3) 16,2 2,70 40,0
A (mg.cm-3) 70,0 33,3 133,1
h (cm) 0,167 0,164 0,170
A seleção dos intervalos de busca foi baseada no estudo realizado por
Marcus et al. [40] onde foram utilizadas quatro curvas de fração de hidrocortisona
liberada. Dentre as quatro curvas utilizadas uma apresentava a menor fração de
droga liberada em 100 dias, enquanto a outra curva apresentava a maior fração de
droga liberada. A curva de menor ascendência é gerada a partir dos parâmetros
que definem o início do espaço de busca (Tabela VI-1, coluna 3), enquanto a
curva mais ascendente é gerada pelos parâmetros de definem o final do espaço
de busca. A Figura VI–1 apresenta três curvas de fração de hidrocortisona
liberada, sendo a primeira corresponde da curva de referência, que será
parametrizada pelo algoritmo genético com a finalidade de determinar múltiplos
conjuntos de parâmetros que possam gerar a mesma curva. A segunda curva da
Figura VI–1 é gerada a partir dos parâmetros que geram o inicio do espaço de
busca e a terceira curva é obtida a partir dos parâmetros de formam o final do
espaço de busca.
VI-59
Figura VI–1 Curvas de fração de droga liberada por um período de 100 dias. Curva de referência (quadrado preto) (D=1.35×10-5 cm2dia-1, Cs=16.2mg.cm-3 . A= 70mg.cm-3, h=0.167cm), Curva com os parâmetros de inicio (circulo aberto) (D=0.042×10-5 cm2dia-1, Cs=2.7mg.cm-3 . A=33.3mg.cm-3, h=0.164cm) [40] e curva com os parâmetros de final (triângulo aberto) (D=4.82×10-5 cm2dia-1, Cs=40mg.cm-3 . A= 133.3mg.cm-3, h=0.170cm) [40].
Para demonstrar a complexidade do espaço de busca gerado pela eq. VI-1,
a Figura VI–2 mostra os mapas de contorno para o logaritmo do erro a partir da
variação de apenas dois parâmetros, mantendo os demais constantes no valor de
referência contido na Tabela VI-1.
O problema de parametrização da função de liberação controlada de
hidrocortisona apresenta múltiplas soluções, sendo que os parâmetros D, Cs, A e
h geram uma hipersuperfície de quatro dimensões. Devido ao período de liberação
ser constante, (100 dias) este não precisa ser otimizado. Na Figura VI-2 observa-
se os mapas de contorno para o erro e a formação de múltiplas regiões de
mínimos que podem ser locais ou globais. Para o gráfico (Figura VI-2a), que
apresenta curva de nível do logaritmo do erro em função do coeficiente de difusão
e da solubilidade de saturação, observa-se um comportamento aproximadamente
hiperbólico no posicionamento das regiões de minimização. Para as curvas de
VI-60
níveis Figura VI–2b e Figura VI–2d existe uma dependência linear dos parâmetros
envolvidos. Para os outros gráficos o comportamento é aproximadamente linear,
devido a pequena faixa de busca definida na Tabela VI-1.
Figura VI–2 Mapas de contorno para a superfície de erro definida pela eq. VI-1 (fitness), (a) mapa de contorno para o Coeficiente de difusão (D) pela solubilidade de saturação (Cs) com os valores constantes A=70.0 mg.cm-3 e h =0.167cm, (b) mapa de contorno para o Coeficiente de difusão (D) pela
VI-61
concentração inicial de hidrocortisona (Cs) com valores constantes Cs=16.2 mg.cm-3 e h=0.167cm, (c) mapa de contorno para o Coeficiente de difusão (D) pelo tamanho do comprimido (h) com valores constantes Cs=16.2mg.cm-3 e A=70.1 mg.cm-3 valores constantes D=1.35x10-5 cm2dia-1 e h =0.167cm, (d) mapa de contorno para a solubilidade de saturação (Cs) pela concentração inicial de hidrocortisona (A) com valores constantes D=1.35x10-5cm2dia-1 e A=70.1 mg.cm-3 (e) mapa de contorno para a solubilidade de saturação (Cs) pelo tamanho do comprimido (h) com valores constantes D=1.35x10-5cm2dia-1e Cs=16.2 mg.cm-3 (f) mapa de contorno para a concentração inicial de hidrocortisona (A) pelo tamanho do comprimido (h) com valores constantes D=1.35x10-5 cm2dia-1 e Cs=16.2 mg.cm-3.
Utilizando-se a capacidade que o algoritmo implementado apresenta para
encontrar múltiplas soluções equivalentes ou com grande similaridade, torna-se
possível gerar um conjunto de pontos que permite mapear o espaço de busca
definido pela Tabela VI-1.
3. Configuração do Sistema Inteligente
A execução do algoritmo genético depende da definição dos seguintes
parâmetros, função fitness, tamanho da população, raio de ação do operador
habitat (eq. V-3, Capítulo V, pg. 49), ativação do operador imigração (eq. V-4,
Capítulo V, pg. 50), probabilidade máxima do operador mutação (eq. V-6, Capítulo
V, pg.52) e definição dos critérios de convergência a serem utilizados. Para a
determinação de conjuntos equivalentes que geram a mesma curva de referência
da fração de droga liberada (Figura VI–1) utilizou-se como função de aptidão
(fitness) o logaritmo decimal do erro em relação a fração liberada em 100 dias.
Para a determinação dos parâmetros do GA implementado, foi utilizado o valor
limite arbitrário de fitness igual a –3, ou seja, o erro igual a 10-3.
A função fitness corresponde ao erro calculado entre a função fração de
fármaco liberado utilizando os parâmetros de referência e a função que utiliza os
parâmetros encontrados pelo algoritmo genético controlado pela lógica fuzzy. A
função fitness é definida como:
VI-62
),,,(),,,(),,,(
log),,,(rrrr
rrrriiiii hACDF
hACDFhACDFhACDFitness ii
ii
−= ( VI-2)
sendo que F corresponde a função de fração liberada de fármaco (eq. VI-1), o
índice i define os parâmetros D, Cs,A e h calculados pelo GA e o índice r refere-se
a curva de fração de droga liberada gerada a partir dos parâmetros de referência
contidos na Tabela VI – 1.
A determinação do tamanho da população limite para obter soluções
coerentes foi realizada em função da quantidade de gerações para se alcançar os
critérios de convergência. A Figura VI-3 mostra a quantidade média de gerações
necessárias para ocorrência de um dos critérios de convergência (Capítulo V,
seção 1-h, pg. 52). Observa-se que o crescimento é aproximadamente linear. Para
populações com número de indivíduos menor que 100, o algoritmo genético sofre
grandes variações e freqüentemente ocorre convergência prematura do sistema.
Figura VI–3. Número médio de gerações em função do tamanho da população.
O desempenho do algoritmo genético será avaliado pela quantidade de
gerações necessárias para obter a convergência, sendo que, o número de
gerações será normalizado entre 0 e 1. Para exemplificar esta normalização se,
por exemplo, o algoritmo genético necessita de 100, 150 e 300 gerações em
execuções separadas para convergir, o número de gerações normalizado será
VI-63
respectivamente 0,3; 0,5 e 1,0; ou seja, os valores foram divididos pelo maior
número de gerações encontrado. Desta forma quanto menor for a quantidade de
gerações necessárias (NG) para convergência, mais adequado será o parâmetro
do GA.
A Figura VI–4 mostra o gráfico da quantidade de gerações normalizada
(NG) em função do raio de ativação do operador habitat (Rm). Este resultado
demonstra um comportamento aproximadamente parabólico, com o mínimo
definido em 0,05. Desta forma os indivíduos que se aproximam por uma distância
inferior a 0,05 apresentam maior probabilidade de entrarem em conflito por meio
de um torneio, sendo que o indivíduo mais adaptado terá maior chance de
permanecer na população.
Figura VI–4 Determinação do raio de ação do operador habitat.
O próximo parâmetro corresponde à ativação do operador imigração (eq.
V-4, Capítulo V, pg. 50). A Figura VI–5 ilustra o comportamento do número de
gerações normalizada como função da ativação do operador imigração definida
pela função fitness (eq. VI-2)
VI-64
Figura VI–5 Determinação do fator de ativação da imigração (Ai).
A partir da Figura VI–5 é possível verificar que o melhor desempenho
ocorre com Ai igual a –1,3, que corresponde a um erro de 5% na população. Desta
forma, nas gerações em que a média da função fitness for superior a –1,3, o
operador imigração será executado mais frequentemente. O controle fuzzy
realizado sobre o operador imigração, faz com novas regiões de otimização
possam ser geradas enquanto a população ainda se encontra dispersa, ou seja,
apresenta um valor de fitness elevado. Para populações que estão aproximando-
se do limite de convergência, o operador imigração tem sua atividade
praticamente anulada, também determinada pelo controlador fuzzy que apresenta
a função de pertinência definida no Capitulo V, eq. V-4 (pg. 50).
O desempenho do operador mutação é semelhante ao operador imigração;
entretanto, este não torna-se menos expressivo com o decorrer das gerações.
Esta diferenciação de controle fuzzy deve-se a ação dos operadores imigração e
mutação. O operador imigração gera indivíduos completamente aleatórios,
enquanto o operador mutação modifica apenas uma parte do indivíduo, enquanto
a outra parte permanece preservada. A Figura VI–6 demonstra o comportamento
do número de gerações normalizado (NG) em função do parâmetro probabilidade
máxima de execução do operador mutação, sendo que para o valore de 0,03
VI-65
verifica-se o melhor desempenho do operador na convergência do GA. Entretanto,
para valores acima de 0,04 o operador mutação faz com que a população torne-se
muito aleatória, prejudicando o processo de otimização.
Figura VI–6 Determinação da probabilidade máxima de mutação.
O valor de Errolimite=10-3 foi utilizado apenas para analisar a quantidade de
gerações em função do tamanho da população. Entretanto para a determinação
dos parâmetros, o critério de convergência para o valor limite de da função de
aptidão foi de –10, (Errolimite= 10-10). Para o critério de convergência definido
(Errolimite= 10-10) com uma população de 100 indivíduos, são necessárias em
média 8000 gerações.
O algoritmo genético implementado tem a capacidade de encontrar
múltiplas soluções, desde que estas sejam possíveis de acordo como o modelo
matemático a ser otimizado. O comportamento para a função de aptidão durantes
a evolução do algoritmo genético é mostrado na Figura VI–7. Inicialmente ocorre
uma rápida queda na função fitness (eq. VI-2) a ser otimizado, sendo que este
período inicial ocorre aproximadamente até a geração número 700, a partir deste
momento o sistema tem um comportamento oscilatório e a função fitness varia
entre valores de alta (oscilação máxima em -1.26 na geração 1900) e regiões de
VI-66
baixa. O comportamento oscilatório é provocado pelos controladores fuzzy
associados a cada operador genético.
Figura VI–7 Evolução do logaritmo decimal do erro (função de aptidão) em função do número de gerações.
As diversas oscilações ocorridas durante a evolução do GA são provocadas
por um comportamento sazonal dos operadores genéticos. Os períodos de
redução no valor do logaritmo do erro são provocados principalmente pela ação do
operador crossover. Este permite combinar os indivíduos mais adaptados
reduzindo assim o erro médio da população. A partir do momento que os
indivíduos tornam-se muito próximos, o controlador fuzzy identifica e quantifica
estas aproximações, retornando uma ação de controle sobre o operador habitat
que aumenta a sua atividade, este aumento faz com que o operador habitat seja
executado com maior freqüência, eliminado indivíduos muito próximos. O critério
de proximidade é governado pelo raio de ação do operador habitat (definido
anteriormente com sendo igual 0,05) em relação aos vetores unitários que
compõem cada indivíduo. Desta forma se dois indivíduos estão a uma distância
inferior a 0.05, a probabilidade de confronto entre os dois aumenta de acordo com
a função de pertinência sigmoidal. Nesta situação de indivíduos muito próximos o
VI-67
operador habitat inicia um torneio (Capitulo V seção 1-d) para determinar qual dos
indivíduos permanecerá na população, sendo que o indivíduo mais adaptado tem
maior probabilidade de ganhar o torneio. Esta eliminação ocorre de forma
independente da aptidão média da população, o único critério é a proximidade
entre dois indivíduos quaisquer. A atividade do operador habitat provoca um
aumento no valor do logaritmo do erro, pois novos indivíduos, ainda não
adaptados, são criados pelos operadores imigrante e mutação. O processo de
oscilação ocorre até que a população obtenha uma distribuição no espaço de
busca que não possibilite a sobreposição de indivíduos. A partir deste instante o
operador habitat torna-se inexpressivo e o operador crossover promove a
otimização da população até execução de um dos critérios de convergência.
A cada geração que se passa o algoritmo genético identifica os indivíduos
que podem ser classificados como possíveis soluções a partir dos critérios de
convergência, ou seja, os indivíduos que tem o valor da função fitness menos ou
igual a -10 (erro > 10-10). A Figura VI–8 mostra a quantidade de possíveis soluções
em função do número de geração para a mesma execução do GA dos dados
apresentados na Figura VI–7.
Figura VI–8 Quantidade de soluções em cada geração do GA.
VI-68
O número de possíveis soluções sofre a mesma interferência que a função fitness
(eq. VI-2), devido a atividade alternada dos operadores habitat e crossover. Para
uma população 100 indivíduos e Fitenesslimite= -10. As execuções do algoritmo
genético encontram entre 12 e 23 soluções por execução.
4. Resultados do Algoritmo Genético
Para cada execução do algoritmo genético utilizando uma população de
100 indivíduos são encontrados em média 17 soluções, desta forma o algoritmo foi
executado diversas vezes até que a quantidades de soluções acumuladas não se
modificasse, ou seja, até que o sistema se tornasse autoconsistente, ao final deste
processo foram encontradas 568 soluções. A função erro utilizada como função
Fitness foi calculada a partir da fração de droga liberada definida pelos parâmetros
de referencia e pelos parâmetros encontrados pelo sistema, erro médio das
soluções igual 0,01%; e o erro máximo não ultrapassa 0,03%. Devido a grande
quantidade de soluções equivalentes, estas foram selecionadas por agrupamentos
representativos, alguns valores selecionados estão na Tabela VI-2.
Tabela VI-2 Conjuntos de parâmetros encontrados pelo algoritmo genético
Nº D (10-5cm2dia-1)
Cs (mg.cm3
)
A (mg.cm3
)
H (cm)
1 1,33 23,6 97,6 0,1692 1,54 7,5 37,4 0,1673 0,71 39,7 78,8 0,1654 0,88 18,4 46,5 0,1685 2,90 3,4 34,3 0,1676 0,82 22,2 50,1 0,1697 0,76 27,5 58,9 0,1658 4,38 5,9 87,0 0,1709 2,74 4,9 46,2 0,16710 3,76 8,7 116,6 0,16511 0,95 38,0 108,5 0,16712 2,48 7,3 62,1 0,16613 4,30 7,6 118,4 0,16414 3,51 6,3 74,7 0,17015 0,99 23,1 70,0 0,16616 1,13 36,7 126,0 0,16817 4,68 5,2 82,9 0,16918 4,18 6,8 101,4 0,16519 4,62 3,7 60,3 0,16620 4,25 3,5 52,7 0,165
VI-69
Todos os conjuntos encontrados e apresentados na Tabela VI-2 geram a
mesma curva de fração liberada de hidrocortisona (Figura VI-1). Alguns conjuntos
são totalmente diferentes dos parâmetros de referência. Entretanto os resultados 1
e 15, por exemplo, apresentam respectivamente os valores de difusão (D) e
concentração inicial (A) próximos dos valores de referência. Os resultados obtidos
pelo algoritmo genético podem auxiliar no desenvolvimento de novos sistemas de
liberação de fármacos que sejam mais eficientes de serem sintetizados e/ou que
tenham maior viabilidade econômica. Outros conjuntos de valores também se
destacam, como por exemplo, as soluções 8, 17, 18, 19 e 20 por apresentarem
um elevado coeficiente de difusão; entretanto, como pode ser observado na
Tabela VI-2, os valores de solubilidade para estes sistemas são relativamente
baixos em relação aos parâmetros de referência (Tabela VI-1), impedindo que a
droga seja liberada mais rapidamente. Outro tipo de solução presente na Tabela
VI-2 corresponde aos sistemas que têm um baixo coeficiente de difusão,
entretanto apresentam uma elevada solubilidade (Cs) e também uma elevada
concentração inicial (A), como por exemplo, as soluções 3 e 11. Utilizando estas
duas situações opostas de parametrização da fração de hidrocortisona é possível
experimentalmente criar um sistema de liberação que seja mais viável para se
sintetizar e conseqüentemente mais viável economicamente.
Capítulo VII- Interpretação de Análise Termogravimétrica
VII-71
1. Introdução à Análise Termogravimétrica
A análise termogravimétrica envolve a medida da massa de amostras em
função do aumento da temperatura. Os gráficos obtidos de massa por temperatura
permitem a avaliação de estabilidade térmica, taxa de reação, mecanismos de
reação e determinação da composição da amostra [44]. A instrumentação para a
realização de uma análise termogravimétrica constitui-se de: (i) uma balança
analítica sensível, (ii) um forno, (iii) um sistema de gás de purga de modo a
fornecer uma atmosfera inerte ou reativa, (iv) um microcomputador para o controle
dos instrumentos e para a aquisição e apresentação de dados [45].
O computador é utilizado unicamente para aquisição de dados e controle do
instrumento [46]. A interpretação dos dados é realizada pelo analista, em geral um
especialista experimental. Para a análise termogravimétrica o analista
experimental, conhecido também como perito, tem como principal objetivo atribuir
as perdas de massa a componentes da amostra que estão sendo liberados
durante a análise; neste caso o perito deve contemplar em seu raciocínio de
interpretação quais as possíveis decomposições em cada perda de massa. No
entanto o trabalho de interpretação pode ser exaustivo para um perito humano,
devido ao número de possibilidades de decomposições de uma amostra, podendo
até ocasionar interpretações incorretas. Para exemplificar este tipo de erro, de
acordo com a ref. [47], a decomposição do ácido acetilsalisílico foi estudada e,
como mostrado, ocorre em duas etapas, sendo que a primeira perda de massa
corresponde à liberação de ácido acético. Entretanto, na ref. [48] a primeira perda
de massa é aparentemente interpretada incorretamente, sendo atribuída como
H2O+CO+CO2.
Diversas técnicas matemáticas e de Inteligência artificial [49] também podem
ser empregadas na análise de curvas termogravimétricas para a determinação de
modelos de decomposição térmica, busca por padrões entre curvas TG e
obtenção de propriedades térmicas ou ainda na definição das condições de
análise. Utilizando-se o modelo de rede neural é possível analisar a influência de
diversos modelos de decomposição [50]. Técnicas de estatística multivariada
[51,52] são também empregadas com freqüência na análise de dados
VII-72
termogravimétricos. Utilizando técnicas de regressão e análise de componentes
principais (PCA) aplicados a dados de curva TG e propriedades como índice de
refratividade, densidade e índice saponificação de óleos extraídos de peixes,
Wesolowski e Czerwonka mostraram que pode-se determinar o grau de
decomposição destes óleos [53]. Propriedades medicinais foram atribuídas a
extratos de flores através da técnica de PCA utilizando como dados de análise
diversas curvas TG e a composição química elementar dos materiais [54].
Particularmente, os parâmetros e as condições de análise exercem uma grande
influência nos resultados. Parâmetros experimentais influenciam os resultados
quantitativos e qualitativos de análise térmica e, portanto, a determinação destes
parâmetros é um dos focos de estudos que procuram definir diretrizes para
obtenção de resultados com alta definição de análise [55]. Esta determinação das
condições experimentais pode ser realizada com o auxílio de sistemas
computacionais baseados na técnica de sistemas especialistas [56]. Técnicas
como lógica fuzzy têm sido utilizadas para definir a relação entre fragmentos
moleculares e parâmetros espectrais considerando uma base de dados de
espectros moleculares [35, 36, 57].
As interpretações de curvas termogravimétricas apresentam regras de
caráter prático que podem ser implementadas em um sistema computacional
inteligente [58, 59]. Como demostrado anteriormente no Capítulo VI o algoritmo
genético não apresenta comportamento viciado, podendo inferir múltiplas
soluções, caso estas sejam possíveis. A aplicação do algoritmo genético ao
problema de interpretação de curvas TG exclui a ocorrência de erros causada por
falha humana, pois, o analista ao realizar a interpretação pode cometer o erro de
não contemplar a decomposição correta de uma substância não claramente
evidenciada por uma dada possível rota, pois o número de possibilidades de
decomposições pode ser muito extenso e/ou complexo. Neste capítulo serão
apresentados os mecanismos de construção da população inicial e o algoritmo
que avalia se as estruturas químicas geradas pelo GA estão em acordo com o tipo
de interpretação da curva termogravimétrica. A configuração dos parâmetros do
algoritmo genético será a mesma utilizada no processo de parametrização,
descrito no Capítulo anterior.
VII-73
2. Modificações no Algoritmo Genético e nos Controladores Fuzzy
a. População Inicial
Cada indivíduo da população tem a capacidade de representar todas as
perdas de massa seqüenciais o inclusive o resíduo formado. Cada perda de
massa é representada por dois vetores. O primeiro vetor contém N moléculas que
podem estar presentes na perda de massa analisada. Este vetor não apresenta
uma composição binária, mas dependente da molécula analisada e da atmosfera
utilizada para realizar a análise termogravimétrica. O segundo vetor corresponde à
representação binária dos respectivos índices estequiométricos de cada fragmento
molecular presente no primeiro vetor. Para exemplificar a representação de uma
decomposição térmica, usou-se a representação da decomposição do CaCO3 em
CO2(g) e CaO(s), sendo que o intervalo para a geração dos índices estequimétricos
é entre 0 e 100.
CaOCOCaCO +→∆
23
Indivíduo = ,,]1,0,0,0,0,0,0,0[],,[,]1,0,0,0,0,0,0,0[],,,[Atmosfera,Resíduo,massa de perda1ºOOOCaOOC
O indivíduo representado acima contém três listas a primeira refere-se a perda
de uma molécula de gás carbônico, e a segunda lista representa o conteúdo do
resíduo, óxido de cálcio, a última representa a atmosfera em que foi realizada a
análise. Se o experimento for feito em uma atmosfera inerte a terceira lista não
será preenchida.
b. Função Fitness
A função de aptidão para a interpretação de curvas termogravimétricas será
a soma dos erros de cada perda de massa mais o erro do processo total. Embora
pareça controverso somar o erro do processo total, com o erro de cada perda de
massa, esta análise dos erros de cada perda de massa e do processo total
possibilita ao GA realizar o processo de otimização de forma local e global
simultaneamente. Enquanto o erro de cada perda é calculado em relação à
VII-74
quantidade de massa, o erro total refere-se à lei de conservação da massa, ou
seja, a mesma quantidade de átomos na molécula analisada deve estar presente
nos fragmentos moleculares. A função fitness é dada por:
∑∑∑
==
= −+
−
=T
kk
kk
P
j
FRA
ffi
i QQQ
M
MMFitness
1 exp
exp
1 exp
exp1 (VII-1)
em que j representa cada perda de massa, P o número total de perdas de massa
mais resídio, f determina os fragmentos associado a perda de massa j, FRA
define o número total de fragmentos. Mfi e a massa de cada fragmento atribuido a
perda de massa, Mexp Valor experimental da perda de massa, T denota o número
de diferentes átomos presentes na molecula analisada, Qk indica a quantidade do
átomo K presentes no indivíduo, ou seja em todas as perdas de massa, e Qkexp
indica a quantidade de átomos k presentes na molécula analisada.
c. Operador Predador
Inicialmente as listas de fragmentos moleculares são geradas aleatoriamente
e, portanto podem existir fragmentos moleculares neutros e carregados. Desta
forma, a primeira avaliação realizada sobre a população de indivíduos refere-se a
validade das estruturas moleculares formadas. Em uma análise real existem
apenas fragmentos desprovidos de carga ou elétrons livres (radicais), portanto
somente os que tiverem número de oxidação (NOX) igual a zero serão utilizados
no processo de interpretação da curva TG.
Este processo de validação de estruturas químicas é realizado pelo
operador predador, que foi especificamente modificado para a interpretação de
dados termogravimétricos. Ao operador predador foi acrescentado um conjunto de
regras de controle que determinam se um fragmento molecular é válido (NOX=0)
ou não-válido. As regras de controle são ordenadas por uma árvore de busca
(Figura VII-1).
A árvore de busca (Figura VII-1) inicia-se com a busca do fragmento em um
banco de dados contendo estruturas que apresentam NOX igual a zero (banco 1).
Estas estruturas correspondem a moléculas que são encontradas freqüentemente
em análises termogravimétricas, tais como amônia e gás carbônico [60-62]. A
VII-75
utilização do banco de dados reduz o tempo computacional que seria necessário
para calcular o NOX de estruturas que são encontradas freqüentemente. Se o
fragmento não é encontrado no primeiro banco de dados, a busca procede em um
segundo banco de dados contendo estruturas que não podem existir (banco 2) em
uma análise real. O segundo banco de dados contém estruturas que são providas
de cargas, como por exemplo, CO3-2 e NH4
+; estas estruturas ao serem
encontradas na segunda parte do banco de dados serão eliminadas da
representação do indivíduo juntamente com o respectivo índice estequiométrico.
Se o fragmento não é conhecido por nenhum dos bancos de dados, utilizam-se as
regras que definem funções químicas.
A árvore de busca posposta contém 7 regras heurísticas, sendo 3 funções:
óxido, hidróxido e hidrocarbonetos e 4 definições para sais: sulfatos, halogenetos,
carbonatos e sais de elementos alcalinos, alcalinos terrosos e íon amônio, estas
funções químicas e classes de sais foram escolhidas com base na simplicidade de
implementação das regras heurísticas e na freqüência com que estas substâncias
podem aparecer em uma análise termogravimétrica real. As regras definidas para
óxidos, hidróxidos e sais auxiliam principalmente na determinação do resíduo. A
regra para hidrocarbonetos é útil em análise de substâncias orgânicas, pois, a
população inicial gera uma quantidade elevada de fragmentos desnecessários que
provocam o aumento demasiado do tempo computacional durante o cálculo do
NOX. No entanto, se a estrutura não é conhecida pelos bancos de dados, não é
definida por nenhuma regra heurística para funções ou definição de sais, recorre-
se ao cálculo do NOX, submetido a duas considerações; (i) se o NOX calculado
for igual a zero o fragmento continua no conjunto de fragmentos e (ii) se o NOX for
diferente de zero o fragmento é eliminado do processo de análise. Para
fragmentos com NOX igual a zero a espécie química será inserida no banco de
dados como uma estrutura neutra, assim uma nova ocorrência deste fragmento na
própria árvore de busca ou em uma segunda análise irá dispensar a realização do
cálculo do NOX, pois o sistema inteligente passa a reconhecer a validade do
fragmento na árvore sem a necessidade de calcular o valor do NOX. Desta forma,
à medida que o sistema é utilizado, torna-se cada vez mais ágil para resolver
problemas. No entanto a inserção de fragmentos com valores de NOX diferentes
VII-76
de zero na segunda parte do banco de dados provoca o aumento do tempo
computacional, pois a quantidade de fragmentos torna-se muito elevada e a busca
no banco provoca um consumo do tempo computacional extremamente elevado.
Figura VII-1 Árvore de busca para a validação de fragmentos moleculares com NOX = 0 definindo os bancos de dados (banco 1 e banco 2) das regras heurísticas que definem funções químicas e alguns sais e finalizando a árvore o cálculo do NOX.
As regras heurísticas utilizam um formalismo de matemática lógica (ML) [1].
As regras implementadas classificam os fragmentos moleculares em válidos (Fv) e
não válidos (Fn). Matematicamente a busca no banco de dados pode ser expressa
através da seguinte premissa::
“Se F está contido no bando de dados de fragmentos válidos então F é
classificados como válido, caso contrário F será submetido a próxima regra.”
( )( ) ( )[ ] ( )( )[ ]rVVV NSFFFSF →∈¬∃∨=→∈∃ (VII-2)
sendo Sv o conjunto predefinido de estruturas químicas válidas que ocorrem
com maior freqüência em análises termogravimétricas, como por exemplo, gás
VII-77
carbônico e amônia, Fv corresponde ao fragmento molecular classificado como
válido e Nr significa a utilização da próxima regra heurística, visto que esta não foi
capaz de classificar o fragmento molecular.
De forma semelhante à busca realizada no conjunto de fragmentos válidos, a
busca no banco de dados de estrutura não válidas é representada na eq VII-3
( )( ) ( )[ ] ( )( )[ ] NSFFFSF rnvnnv →∈¬∃∨=→∈∃ ( VII-3)
Sendo: Snv corresponde ao conjunto de estruturas moleculares que não podem
existir em uma análise termogravimétrica e são derivadas das estruturas
existentes no conjunto de fragmentos válidos, tais como íons carbonato e amônio,
Fn significam que o fragmento molecular em questão foi classificado como não
válido.
Entretanto se o fragmento molecular não é classificado de acordo com os
bancos de dados, o conjunto de regras que definem diversas funções químicas é
iniciado. Para exemplificar, considere a função química de um composto binário,
(óxido ou halogenetos), que pode ser implementada facilmente através das
seguintes premissas:
• Todo composto binário é constituído pelo átomo que identifica a função,
oxigênio ou halogênio, e qualquer outro elemento químico;
• Existe uma soma de valores de NOx para os dois elementos que é igual a
zero
Estas premissas podem ser representadas conforme a eq abaixo
( ) ( ) ( )
( ) ( ) ( ) ( )vioegrugru
oegrub
FFXNOxFNOx x Fn
FXFFFF
=→
=
+∃
∧⊂∃∧⊂∃↔=
∑=
01
m
i
( VII-4)
sendo: Fb a função binária óxido ou halogeneto, Fgru corresponde ao átomo que
forma o grupo funcional (O, F, Cl, Br ou I), Xioe corresponde ao outro elemento
químico que forma o fragmento molecular, n(Xoe) representa o número de vezes
que o grupo funcional está presente no fragmento molecular, NOx(Fgru) e NOx(Xoe)
corresponde a função que retorna o valor do NOx para qualquer elemento químico
ou grupo funcional, o índice i corresponde ao i-ésimo átomo diferente do elemento
VII-78
que define o grupo funcional e m é o total de átomos que não pertence ao grupo
funcional.
De forma semelhante à construção anterior para as funções químicas
hidróxido, sulfatos, carbonatos, sais de metais alcalinos e sais de amônio tem-se a
seguinte equação:
( ) ( ) ( ) ( ) ( )vioegrugrugruhsca FFXNOxFNOx FnF)(FFF =→
=
+∃∧⊂∃↔= ∑
=0
1
m
ix (VII-5)
sendo Fhsca corresponde as funções químicas hidróxido, e sais sulfato, carbonato,
sais de metais alcalinos e sais de amônio,
Para as funções orgânicas, especificamente hidrocarbonetos, as premissas
utilizadas têm que considerar a quantidade de ligações que cada átomo pode
realizar, pois caso contrário, diversos fragmentos não válidos seriam classificados
como válidos. Desta forma tem-se as seguintes premissas para a função
hidrocarboneto
• Os hidrocarbonetos são constituídos somente de carbono e hidrogênio
• Cada carbono deve ter 4 ligações e cada hidrogênio deve ter uma ligação
• Os átomos de carbono podem fazer ligações simples, duplas, ou triplas.
• A partir destas premissas obtêm-se a seguinte equação:
( )( ) ( ) ( ) ( )
vnh FFsimple)))(tripledouble)(double
simple)(double(simpleBF)(Cbond1FHbonds 4FC
FF =→
∧∨∧∨∧∨∃⊂∀
∧∃⊂∀∧∃⊂∀↔= ( (VII-6)
sendo Fh corresponde a função hidrocarboneto, C corresponde a carbono,
H corresponde a hidrogênio, Bn define uma função que retorna os tipos de
ligações que podem existir para um átomo de carbono
Caso nenhuma das regras definidas acima possam validar o fragmento a
última regra corresponde ao cálculo do valor de NOx de acordo com a seguinte
equação:
( ) ( ) ( )
¬∃↔=∨
=∃↔= ∑∑
==
m
i 1
ioen
m
1i
ioeV XNOxFF0XNOxFF
(VII-7)
sendo m o número total de átomos presentes no fragmento,
VII-79
A partir do conjunto de fragmentos válidos o sistema inicia o processo de
inferência de soluções através da rede neural semântica que utiliza a eq. VII-8
para classificar as interações da rede como soluções (R) da curva
termogravimétrica:
( )( )( ) ( )( )( )
>−↔∨
≤−↔ ∑∑
==
h
i
h
iabsabs
1Cexp
ical
1Cexp
ical IWFWLIWFWR
( VII-8)
Sendo R o conjunto de fragmentos e as respectivas perdas de massa que
formam uma solução válida, L corresponde ao conjunto de fragmentos e as
respectivas perdas de massa que não formam uma solução válida, Wcal(Fi) é uma
função que retorna a percentagem que o fragmento ou conjunto de fragmentos
associados à i-ésima perda de massa representa para a análise
termogravimétrica, Wexp corresponde ao i-ésimo valor de perda de massa, h
corresponde ao número de perdas de massa, Ic é o intervalo de confiança para a
análise ou simplesmente o erro absoluto máximo permitido.
O sistema de fragmentação de moléculas tem a capacidade de encontrar
todas as possibilidades de fragmentação que podem gerar moléculas validadas
pelos bancos de dados, regras heurísticas ou cálculo do NOX. No entanto, em
algumas situações específicas, tais como: fragmentação com formação de
substâncias pouco estáveis (incomuns), valor de NOX específico para uma certa
classe de substâncias, pode levar o sistema de fragmentação a não contemplar
fragmentos que deveriam ser validados ou validar fragmentos que não deveriam
ser adicionados ao conjunto de fragmentos válidos. Para estas situações os
bancos de dados de fragmentos (banco 1 e banco 2), o banco de dados com
valores de NOX para cada elemento químico juntamente com o conjunto de regras
heurísticas para as definições de funções químicas e sais têm a propriedade de
serem atualizados com facilidade. Esta capacidade de novas inclusões possibilita
ao perito humano acrescentar fragmentos que não estão sendo validados pela
rede de busca (Figura VII-1) ou retirar fragmentos que estão sendo validados
quando não deveriam ser validos. Entretanto, quaisquer modificações devem ser
realizadas de forma criteriosa para que não sejam inseridas informações erradas;
um analista experimental experiente pode supervisionar tais inserções. As
VII-80
atualizações devem ser realizadas depois de verificada uma interpretação
incoerente.
O controlador fuzzy para o operador predador, apresenta portanto um
conjunto “crisp”, ou seja formando apenas por duas opções de controle (válido e
não válido). Não existe uma molécula que seja parcialmente válida para o
processo de interpretação de curvas TG. A ação de controle obtida depende da
composição do individio, se existir apenas um fragmento não-válido associado a
uma das perdas de massa e este for classificado como não válido o indivíduo é
eliminado, pois uma perda de massa não pode ficar sem determinação, Entretanto
se existir mais de um indivíduo associado a perda de massa, apenas o indivíduo
não válido será eliminado.
d. Operador Mutação
O operador mutação foi modificado, pois as mutações na lista de átomos
que geram uma perda de massa não podem ser binárias. Para descrever o
processo de mutação em uma seqüência de átomos, considere uma análise
termogravimétrica com carbonato de cálcio em uma atmosfera de oxigênio ou ar.
Nesta análise existem três tipos de átomos (Ca, C, e O). Tomando como exemplo
um fragmento molecular formado por Ca, C, O uma operação de mutação
realizada na primeira posição deve substituir o átomo de cálcio por carbono ou
oxigênio. Para decidir qual substituição será efetuada, o operador mutação faz um
sorteio entre os átomos que podem substituir o elemento selecionado. Para o
exemplo descrito, sorteia-se um número inteiro no intervalo fechado 1 e 2, sendo
que 1 representa o carbono e 2 corresponde ao oxigênio. Se por exemplo o
numero aleatório for 1 o novo fragmento será O,C,O que corresponde ao CO2. O
operador habitat avalia a presença de indivíduos muito próximos e
consequentemente muito semelhantes considerando primeiramente se existe
alguma combinação de fragmentos moleculares iguais e em seguida a lista de
índices estequiométricos é avaliada da mesma forma que um vetor com
componentes numéricas.
VII-81
e. Critério de Convergência
Cada indivíduo da população apresenta uma trinca de vetores (moléculas,
índices estequimétricos, atmosfera) para cada perda de massa. O critério de
convergência considera uma solução do problema se somente se a soma das
percentagens fornecidas por cada trinca resultam em 100% da amostra, e se o
erro de ajuste para cada perda de massa for o menor possível, preferencialmente
se for igual a zero, entretanto os erros experimentais inerentes a qualquer método
de medição podem impossibilitar um ajuste com erro igual a zero.
3. Interpretação de Curvas Termogravimétricas
A Tabela VII-1 contém os resultados de interpretação de curvas
termogravimétricas que apresentam todas as perdas de massa bem definidas. O
erro percentual indicado na Tabela VII-1 refere-se a atribuição de cada perda de
massa, enquanto o erro total corresponde ao erro cometido em relação a todo o
processo de interpretação. Caso o algoritmo genético apresente mais de uma
solução, o usuário deverá escolher qual solução será a mais adequada como
interpretação da curva TG. As três primeiras interpretações presentes são
completamente compatíveis com os dados termogravimétricos com as respectivas
interpretações presentes na literatura [60-62]. O oxalato de cálcio é utilizado como
padrão de calibração da instrumentação de análise térmica, pois as perdas de
massa ocorrem em passos separados e bem definidos [62]. Primeiro ocorre a
perda da molécula de água que inicia em 76ºC e termina em 190ºC [62]. O
próximo passo corresponde a liberação de uma molécula de CO entre 400ºC e
523ºC [62], e acima de 600º acorre a liberação CO2. Considerando a curva de
decomposição para [Cu(NH3)4]SO4.H2O, uma pequena sobreposição ocorre entre
a primeira e segunda perda de massa. O resultado fornecido pelo GA reflete a
presença de perdas de massa sobrepostas devido aos valores fracionados
definidos para a liberação das moléculas de amônia na primeira e segunda perda
de massa [63, 64].
VII-82
Tabela VII-1 Interpretação de curvas TG de acordo com o algoritmo genetoco, fornecendo a interpretação das respectivas perdas de massa juntamente com o valor calculado, o erro cometido em cada atribuição, o erro total e o tempo computacional para cada molécula analisada são apresentados
Molécula Perda
de massa
Perdas (%)
Experimental
Perdas (%)
Calculado
Interpretação Erro
%
Erro
Total %
Tempo
(min)
CaCO3 1 44.03 43.97 CO2 0.14
Resíduo 55.94 56.03 CaO 0.16 0.09 10
CaC2O4H2O 1 12.32 12.32 H2O 0
2 18.88 19.17 CO 1.5
3 29.04 30.12 CO2 3.71
Resíduo 39.77 38.38 CaO 3.49 1.39 15
Mg(CHO2)2.2H2O 1 23.67 23.96 2H2O 1.22
2 49.10 49.23 H2O+2CO 0.26
Resíduo 27.23 26.80 MgO 1.58 0.42 12
[Cu(NH3)4]SO4.H2O 1 20.83 21.19 H2O+1.94NH3 0.02
2 6.03 6.93 1.06 NH3 1.32
3 6.97 6.93 NH3 0.57
4 32.56 32.57 SO3 0.03
Resíduo 33.61 32.36 CuO 3.71 0.71 20
O último passo para a validação do algoritmo genético corresponde à
realização de testes de interpretação em sistemas complexos (Tabela
VII-2)[65,66], que apresentam estruturas moleculares extensas e curvas
termogravimétricas que sejam compostas por vários passos de decomposição
caracterizando a curva TG como extremamente complexa. Para estes testes serão
utilizadas curvas termogravimétricas de complexos aminosalicilato de cobalto(III),
complexos de norfloxina de Manganês(II) e Cobalto(II). A interpretação realizada
pelo algoritmo genético pode levar em consideração as possíveis reações da
substância com a atmosfera, desde que esta seja definida como reativa. Os três
primeiros complexos foram extraídos da referência [65] e a análise
termogravimétrica foi realizada em uma atmosfera de ar, possibilitando a
ocorrência de reações, tais como oxidação. A interpretação para o primeiro
VII-83
complexo está em total acordo com os dados da literatura. Para as três perdas de
massa do complexo 1, ocorre apenas a perda da molécula de água seguida da
liberação em uma única perda dos ligantes etilenodiamina e salicilato. A análise do
resíduo através de difração de raios-X, de acordo com a referência [65], indica a
formação do Co3O4, que corresponde a um óxido combinado (CoO + Co2O3). A
atribuição do resíduo realizada pelo algoritmo genético demonstra a sua
capacidade de resolução, sendo que ao resíduo foi atribuído como 1/3CoO e
1/3Co2O3.
Tabela VII-2 Interpretação de curvas TG para sistemas químicos complexos, que apresentam estruturas químicas extensas
Molécula Perda
de massa
Temperatura Perdas (%)
Experimental
Perdas (%)
Calculado
Erro
(%)
Erro
Total
Interpretação
(1) ref 65 I 100-195 9.2 8.9 3.2 2H2O
[Co(en)2sal]Cl.2H2O II 230-270 30.2 29.7 5.7 2en
III 270-630 43.9 42.9 2.3 Sal+Cl
Resíduo >630 21.9 20. 8.7 2.51 (1/3) Co3O4
(2) ref 65 I 100-180 3.60 3.57 0.8 H2O
[Co(en)2(C2H5NH2)sal](NO3)2.H2O II 205-260 31.00 31.62 2.0 2NO2+O2+
(NH3+CH3NH2 ou C2H5NH2)
III 260-270 24.20 23.83 1.5 2en
IV 310-515 25.00 27.20 8.8 Sal
Resíduo >515 18.11 18.15 0.2 2.5 (1/3) Co3O4
(3) ref 65 I 75-100 4.20 4.24 0.9 H2O
[Co(NH3)5sal](NO3)2.H2O II 165-345 4.60 4.58 0.4 1.14 NH3
III 75,00 77.23 3 3.86NH3+NO2+O2+sal
Resíduo 20.2 18.9 5.5 1.3 (1/3) Co3O4
(4) ref 66 I 7.62 7.70 1.0 4H2O
[Co(nor)2]SO4.8H2O II 71.21 70.67 0.8 11C2H2+3C2H4
+6NO+2HF+4H2O
Resíduo 21.17 21.65 2.3 0.7 CoSO4+4C
(5) ref 66 I 7.49 7.55 0.8 4H2O
Mn(nor)2(CH3CO2)2.8H2O II 7.51 7.55 0.5 4H2O
III 72.02 72.42 0.6 11C2H2+4C2H4+6NO+
H2O+2CO+2HF
Resíduo 12.98 12.45 4.0 2 MnO+4C
* sal corresponde a C6H4(OH)CO2-, en equivale a etilenodiamina, nor corresponde a norfloxacina.
Para a interpretação do complexo 2, existiram duas classes de soluções
equivalentes em relação a quantidade de massa liberada [65]. A primeira perda é
VII-84
atribuída à molécula de água. A diferenciação entre as soluções do GA ocorreram
na segunda perda de massa. A primeira solução contém 2NO2+O2+NH3+CH3NH2
e a segunda classe de solução encontrada foi 2NO2+O2+NH3+C2H5NH2), sendo
que ambas estão em conformidade com os dados relatados na literatura [65]. A
determinação do resíduo para o complexo 2 foi a mesma encontrada para o
complexo 1 (1/3CoO e 1/3Co2O3).
Para o terceiro complexo ocorreu uma atribuição com valores
estequiométricos não usuais. A segunda perda de massa foi atribuída como
1.14NH3, e na terceira perda de massa foi identificado pelo GA a seguinte
atribuição 3.86 NH3 + NO2 + O2 + SalH. Apesar dos valores fracionados na
quantificação dos ligantes amino, a quantidade total está de acordo com o contido
na molécula que é de cinco moléculas de amônia.
Os complexos 4 e 5 foram obtidos a partir da refêrencia [66]. A análise
termogravimétrica para estes complexos utilizou atmosfera de nitrogênio e,
portanto, a atmosfera será considerada inerte para o GA. Estes complexos
apresentam o ligante norfloxacina (Figura VII-2) formando assim as estruturas
mais extensas da Tabela VII-2. Para demonstrar a complexidade desta análise a
Figura VII-3 apresenta a curva termogravimétrica para o complexo 4 e a sua
respectiva estrutura química. A análise termogravimétrica do complexo 4, não
apresenta passos de decomposição bem definidos, ou seja separados por
patamares, ou seja, ocorrem sobreposições de reações. No momento em que uma
decomposição está ocorrendo, outra já está começando. Apesar da extensão da
estrutura química e da indefinição da perda de massa o algoritmo genético
encontrou uma interpretação equivalente à proposta na literatura [66]. Na segunda
perda de massa ocorre a decomposição térmica do ligante norfloxacina em cinco
componentes diferentes (11C2H2+3C2H4+6NO+2HF+4H2O). A atribuição do
resíduo (CoSO4+4C) apresenta uma contaminação por carbono quantificada como
4C e equivalente a atribuição proposta na literatura [66].
VII-85
NHN
F
N
OO
HO
CH2CH3
Figura VII-2 Fórmula do ligante norfloxacina.
Figura VII-3 (A): Análise termogravimétrica do complexo 4 da Tabela VII-2 e (B) estrutura química do complexo 4.
A analise termogravimétrica para o complexo 5 e a sua respectiva estrutura
é mostrada na Figura VII-4. Semelhante ao complexo 4, a curva TG não apresenta
passos de decomposição térmica definidos, indicando a presença de reações
simultâneas. A estrutura do complexo também é extensa compreendendo mais de
100 átomos. A interpretação do GA mostra-se coerente com interpretação contida
na ref 66, o ligante norfloxacina foi fragmentado em 6 moléculas
(11C2H2+4C2H4+6NO+H2O+2CO+2HF). Novamente a atribuição do resíduo
apresentou uma contaminação com carbono (4C). A interpretação das curvas TG
para os complexos 4 e 5 mostrou um erro inferior a 2% o que reforça a
potencialidade do algoritmo genético proposto para a interpretação de dados
instrumentais.
VII-86
Figura VII-4 (A) Análise termogravimétrica do complexo 5 Tabela VII -2 e (B) estrutura química do complexo 5.
A determinação de rotas de decomposição a partir de dados
termogravimétricos aprimora a confiabilidade do algoritmo genético para
aplicações em sistemas mais complexos que este, como por exemplo, para
elucidação de estruturas de proteínas. Durante o desenvolvimento do algoritmo
genético o foco de aplicação consistia em determinar estruturas de proteínas;
entretanto, devido aos resultados obtidos com o GA aplicado aos estudos de
liberação de fármacos e interpretação de dados termogravimétricos em que o erro
verificado foi compatível com os resultados contidos na literatura [40, 65, 66]
possibilitou a sua utilização para outras aplicações, como descrito neste capítulo e
no capítulo VI.
Capítulo VIII - Modelamento de Estruturas de Proteínas
VIII-88
1. Introdução
O atual desenvolvimento de diversas áreas científicas e tecnológicas, como
por exemplo; medicina, farmacologia e química, estão relacionadas a estudos do
genoma e elucidação estrutural e funcional de proteínas, enzimas, receptores de
novos fármacos, auxiliando assim na compreensão de fenômenos biológicos em
nível molecular [69]. A compreensão de toda a arquitetura molecular dos
fenômenos biológicos indica a possibilidade de avanços significativos nas técnicas
de diagnóstico e tratamento de doenças, possibilitando realizar tratamentos
clínicos no feto ou na primeira infância, muito antes do surgimento dos primeiros
sintomas [67,68]. Para que esta evolução de diagnóstico e tratamento seja viável é
necessário primeiramente a elucidação do maior número possível de estruturas
tridimensionais (terciárias e quaternárias) de proteínas [70].
Focalizando na determinação de estruturas tridimensionais de proteínas, os
métodos instrumentais como cristalografia de raios-X, ressonância magnética
nuclear e difração de nêutrons têm sido aprimoradas constantemente, obtendo-se
bons resultados [69]. Entretanto, a quantidade de amostras muitas vezes é
reduzida, ou então a proteína não forma cristais definidos. Outras proteínas
podem perder a sua função ou adotar outra conformação quando retiradas do
meio em que existem, como por exemplo, proteínas ligadas à membrana
plasmática [71].
Embora a obtenção da estrutura tridimensional seja de difícil determinação,
a obtenção das seqüências de aminoácidos (estruturas primárias) são
relativamente mais simples de serem efetuadas [14-15]. Desta forma o
modelamento de estruturas de proteínas a partir da estrutura primária pode
representar uma antecipação para a real definição de toda a arquitetura molecular
de um ser vivo. Estas determinações contribuem significativamente com outros
estudos relacionados, por exemplo, à determinação de sítios específicos de
proteínas, análise e determinação de novos fármacos [15, 40, 73].
Como discutido no Capitulo II, a síntese de proteínas no ribossomo é
catalisada por diversas enzimas e sofre a influência de diversas moléculas
relacionadas no processo, tais como tRNA, enzimas ativadoras de aminoácidos,
VIII-89
polipeptídeos, dentre outros. A elevada complexidade dificulta grandemente o
desenvolvimento de modelos matemáticos consistentes que sejam eficientes para
elucidar uma estrutura tridimensional [73].
Para demonstrar a complexidade da determinação de estruturas de
proteínas, a estrutura secundária (α-hélice e folha β) corresponde a um problema
ainda sem solução definitiva na biologia molecular estrutural [15, 74]. A grande
limitação está em conhecer e simular, com precisão, a ação das leis que regem o
processo de enovelamento ou empacotamento ("folding"), impedindo assim
obtenção de conformações que sejam simultaneamente estáveis e funcionais..
Uma forma de obtenção de estruturas secundárias e terciárias corresponde
a modelagem por homologia ou modelagem comparativa [75]. Estas baseiam-se
nas seguintes premissas :
a. a homologia entre seqüências de aminoácidos implica em semelhança
estrutural e funcional;
b. proteínas homólogas apresentam regiões internas conservadas
(principalmente constituídas de elementos de estrutura secundária:
hélices, alças e folhas-β );
c. as principais diferenças estruturais entre proteínas homólogas ocorrem
nas regiões externas, constituídas principalmente por alças ("loops"),
que ligam os elementos de estruturas secundárias.
Neste Capítulo serão discutidas algumas propriedades relacionadas ao
modelamento por homologia e as adaptações realizadas no algoritmo genético
para a construção de estruturas secundárias de proteínas.
2. Proteínas Homólogas
As proteínas homólogas são identificadas principalmente pela atividade
biológica, extremamente semelhante para diferentes organismos. Por exemplo, a
hemoglobina tem a função de transporte de O2 em diferentes espécies de
vertebrados [11]. Esta diferenciação de composição, preservando a
funcionalidade deve-se principalmente ao mecanismo evolucionário de duplicação
de genes, associado às mutações, que produz divergências moleculares.
Entretanto, a diferenciação durante o processo evolutivo é apenas parcial e as
VIII-90
proteínas que estão relacionadas por um ancestral comum, proteínas hómologas,
apresentam sítios de elevada similaridade na seqüência de aminoácidos e na
estrutura tridimensional [12].
As proteínas homólogas podem ser idênticas, semelhantes ou não-
semelhantes. Quanto menor o grau de semelhança entre proteínas, menor será a
semelhança estrutural. As regiões preservadas no processo evolutivo, configuram
partes fundamentais para a manutenção da função da proteína e por este motivo
não sofrem grandes modificações [11-12].
3. Estrutura Secundária de Proteínas
A estrutura secundária corresponde a um arranjo regular da estrutura de um
polipeptídeo de acordo com o tipo de conformação presente na cadeia
polipeptídica. Os padrões (tipos) de estrutura secundária em um polipeptídeo são
estabilizados principalmente por ligações de hidrogênio entre grupo amida (N-H) e
o oxigênio ligado ao carbono α no grupo carbonila. Em termos gerais a estrutura
secundária de um polipeptídeo pode ser encontrada nas formas de hélices, alças
e folhas [10].
A estrutura em hélice é formada pela repetição dos ângulos diedros do
carbono α de cada aminoácido. As hélices podem ser caraterizadas pela
quantidade de aminoácidos necessária para formar uma volta completa. A Tabela
VIII-1 mostra os tipos de estruturas secundárias e a quantidade de aminoácido
para formar uma volta na hélice ou para formar uma alça.
A Figura VIII–1 mostra um esquema para os três tipos de hélice com a
representação dos carbonos α dos aminoácidos. A hélice 310 corresponde a forma
mais compacta de hélice. Nesta estrutura, 3 resíduos de aminoácido formam um
anel de 10 átomos a partir das ligações de hidrogênio, por este motivo foi
denominada 310-hélice. Esta hélice apresenta ligações de hidrogênio não
alinhadas, formando uma estrutura energeticamente desfavorável e, portanto é
encontrada apenas em pequenos trechos das cadeias polipeptídicas [13].
VIII-91
Tabela VIII-1 Alguns tipos de estruturas secundaras
Estrutura Freqüência Aminoácidos
por volta
completa (n)
310-hélice Pequenos
fragmentos
3,0
α-hélice Abundante 3,6
αL-Hélice Hipotético 3,6
π-hélice Raro 4,3
alça Abundante 3,0
Folha β Abundante --
Figura VIII–1 Representação cilíndrica para as hélice (a) 310hélice , (b) α-
hélice e π-hélice.
A estrutura π-hélice é, em geral, rara; além disso, a geometria da hélice não
permite uma estabilização por forças de van der Waals e as ligações de
hidrogênio encontram-se parcialmente alinhadas [12-14].
A α-hélice forma a estrutura com geometria mais estável, as ligações de
hidrogênio encontram-se alinhadas e o raio da hélice possibilita uma estabilização
VIII-92
adequada devida às forças de van der Waals. As α-hélices podem ser
encontradas em seqüências que apresentam entre 4 e 25 aminoácidos.
Outra estrutura estável e abundante corresponde as alças, que são
formadas por uma ligação de hidrogênio entre o aminoácido na posição i e o
aminoácido na posição i+2. As estruturas em alça são encontradas comumente na
superfície da estruturas tridimensionais de proteínas [80]. A Figura VIII-2 mostra a
estrutura de uma alça.
Figura VIII–2 Estrutura de uma alça entre os aminoácidos i e i+3
A folha-β, conhecida também com folha pregueada, envolve 2 ou mais
segmentos polipeptídicos da mesma molécula ou de moléculas diferentes,
arranjadas em paralelo ou no sentido anti-paralelo. Os segmentos em folha -β da
proteína adquirem um aspecto de uma folha de papel dobrada em pregas. Esta
conformação é estabilizada por ligações de hidrogênio entre as cadeias [14].
4. Modelagem de Proteínas por Homologia
A metodologia de modelagem de proteínas por homologia implica
basicamente em três passos sucessivos [75]:
• identificação e seleção das proteínas-molde;
VIII-93
• alinhamento das seqüências de resíduos;
• construção das coordenadas do modelo.
O modelamento de proteínas por homologia requer a existência de pelo
menos uma proteína com estrutura conhecida. A seleção das proteínas utilizadas
como padrão pode ser realizada através da família protéica a que pertence a
proteína-problema ou por similaridade com diversas proteínas contidas em bancos
de dados, como por exemplo PDB [76].
5. Alinhamento de Seqüências de Aminoácidos
O objetivo do alinhamento de proteínas é obter resíduos estruturalmente
equivalentes levando em conta características estruturais comuns, tais como,
elementos de estrutura secundária e resíduos catalíticos. Para que estruturas
confiáveis possam ser propostas o processo de alinhamento deve considerar a
possibilidade de realização de múltiplos alinhamentos entre a proteína-problema e
as proteínas que serão utilizadas para a modelagem. O processo de alinhamento
necessita de um método de quantificação da qualidade dos alinhamentos obtidos
[77, 78]. Para o estudo apresentado nesta dissertação foram utilizadas matrizes de
pontuação BLOSUM, que podem ser obtidas pela ref. [79]. Para uma melhor
representação dos resultados de alinhamento, utiliza-se freqüentemente um
código de letras para representar cada aminoácido [15].
VIII-94
Tabela VIII-2 Codificação dos nomes de cada aminoácido
Nome Letra Sigla Nome Letras Sigla
Alanina A Ala Metionina M Met
Cisteina C Cys Asparginina N Asn
Acido
Aspártico
D Asp Prolina P Pro
Ácido
Glutâmico
E Glu Glutamina Q Gln
Fenilalanina F Phe Arginina R Arg
Glicina G Gly Serina S Ser
Histidina H His Treonina T Thr
Iso-leusina I Ile Valina V Val
Lisina K Lys Triptofano W Trp
Leucina L Leu Tirosina Y Tyr
a Matriz de Pontuação
A matriz de pontuação corresponde a uma tabela de valores que tem a
função de descrever a probabilidade de ocorrer uma substituição entre
aminoácidos em um dado alinhamento. A matriz BLOSUM (Block Substitutin
Matrix), é gerada a partir do alinhamento múltiplo restrito de proteinas. As matrizes
BLOSUM são derivadas do banco de dados denominados Blocks que
correspondem a conjuntos de alinhamentos contínuos de regiões de seqüência
em famílias de proteínas relacionadas. Estes blocos são agrupados e ordenados
de acordo com as freqüências de substituições entre eles dentro de uma família.
Associado ao nome BLOSUM existe um valor numérico (por exemplo, 50) que
representa o valor limite para a etapa de agrupamento na formação da matriz. Um
valor de 50 indica que as seqüências com similaridade maior ou igual a 50% foram
incluídas na para a construção da matriz [77-80].
Por exemplo, na matriz BLOSUM50 (Figura VIII-3) [79] o ácido glutâmico
(E) possui uma pontuação positiva para substituição por ácido aspártico (D) e por
VIII-95
glutamina (Q), estas substituições são conservadoras. O ácido aspártico possui
uma cadeia lateral quimicamente similar ao ácido glutâmico, a não ser pela
ausência de um grupamento metil. Por outro lado, a glutamina é similar em
tamanho e composição química ao ácido glutâmico, mas é neutra enquanto o
ácido glutâmico possui carga positiva. As pontuações de substituição para ácido
glutâmico com resíduos de Isoleucina (I) e Leucina (L) são negativas. Estes
resíduos possuem cadeias laterais neutras e apolares e são quimicamente
diferentes do ácido glutâmico. As pontuações na parte diagonal da matriz indicam
a freqüência de ocorrência de cada aminoácido. Por exemplo, com uma
pontuação positiva de 15, é bastante improvável que o alinhamento de um
triptofano seja mera coincidência.
Figura VIII–3 Matriz de alinhamento BLOSUM50 [79].
6. Modificações no Algoritmo Genético
O algoritmo genético proposto no Capítulo V foi primeiramente configurado
para obter o melhor desempenho e validado em problemas de elevada
VIII-96
complexidade. O primeiro problema escolhido para validação do algoritmo
genético acoplado a lógica fuzzy corresponde à parametrização de funções
(Capítulo VI), sendo que o sistema utilizado para a realização de testes
corresponde a função que define a fração de droga liberada (eq. VI-1 Capítulo VI,
pg. 57) em um sistema controlado [40-43]. Através da resolução do problema de
parametrização de funções, foi possível avaliar a capacidade do sistema
inteligente (Capítulo V) na obtenção de múltiplas soluções como um erro de ajuste
inferior à precisão experimental.
O segundo problema para a validação do sistema inteligente proposto
nesta dissertação corresponde a interpretação de dados de análise
termogravimétrica (Capítulo VII). Este problema envolve a identificação das
possíveis rotas de decomposição térmica de uma substância pura. A interpretação
das curvas termogravimétricas foram obtidas a partir da fragmentação da molécula
analisada e atribuição dos fragmentos moleculares às perdas de massa de forma
a obter o menor erro de ajusta para cada perda de massa e para o processo total.
Novamente o sistema inteligente implementado mostrou-se eficiente apresentando
resultados concordantes nos dados de interpretação de curvas TG coletados em
diversos artigos científicos.
A partir dos resultados obtidos no procedimento de validação da
metodologia de otimização (Capítulos VI e VII) o algoritmo genético foi
devidamente adaptado para a predição de estruturas químicas de proteínas. Cada
indivíduo da população configura um possível alinhamento entre duas seqüências,
a estrutura dos indivíduos é formada por duas listas, a primeira contém
informações relacionadas a proteína-problema, enquanto a segunda apresenta
informações relacionadas às proteínas da base de dados que serão utilizadas
para inferir informações estruturais na proteína-problema. Cada lista que compõe
os indivíduos apresenta as seguintes informações:
• Nome ou rótulo de cada seqüência;
• Posição na seqüência onde inicia-se o alinhamento efetivo;
• Extensão do alinhamento;
• Posições onde estão inseridas as falhas (“gaps”) para o alinhamento;
VIII-97
• Padrões estruturais dos fragmentos associados aos fragmentos de
proteínas (p.ex. α-hélice e folha-β).
A Figura VIII–4 demonstra a estrutura de um indivíduo configurada para
inferir a estrutura secundária do fragmento de citocromo C Humano a partir
do de um fragmento de citocromo C do cavalo.
Figura VIII–4- Representação dos indivíduos para inferir a estrutura secundária de um fragmento de citocromo C humano.
Como pode ser observado na Figura VIII– a posição 5 da primeira lista está
vazia, pois esta corresponde a proteína-problema e portanto não apresenta
nenhuma definição estrutural.
a. Função Fitness
Para a elucidação de estruturas secundárias de proteínas a função de
aptidão (Capítulo V, eq. V-1, pg. 47) será modificada para expressar corretamente
o objetivo do processo de otimização. Especificamente para a elucidação de
estruturas protéicas a função fitness será a soma dos valores de pontuação
definidos pela matriz de substituição (BLOSSUM) utilizando a penalidade referente
VIII-98
à inserção de gaps. A função de fitness particularmente proposta para o estudo de
proteínas pode ser escrita como
)(),(1
gGbasFT
iiii −= ∑
=(VIII-1)
sendo que Fi corresponde a função fitness, s(ai,bi) é o elemento que define a
pontuação do alinhamento do aminoácido ai com o aminoácido bi , G(g), designa a
função de penalidade definida como [75]:
hgdgG )1()( −−= ( VIII-2)
sendo g o tamanho do espaçamento, d o valor de cada alinhamento com um
espaçamento e h o valor atribuído a cada extensão do espaçamento. O parâmetro
d (eq. VIII-2) pode assumir dois valores diferentes. Se no alinhamento existir
alguma penalidade presente d assume o valor –12, enquanto se não existir
nenhuma penalidade d será igual a zero.
Figura VIII–5 Exemplificação de alinhamentos com penalidade consecutivas e alternadas.
À função fitness (eq. VIII-1) corresponde á similaridade entre duas
seqüências de aminoácidos, portanto quanto maior o valor da função fitness mais
semelhantes serão as seqüências comparadas. Esta função fitness privilegia os
VIII-99
alinhamentos que apresentam gaps consecutivos, pois a inserção alternada de
penalidades provoca uma queda acentuada dos valores da função fitness que
neste caso será sempre maximizada. Para exemplificar o cálculo da função fitness
a Figura VIII–5 mostra dois alinhamentos, um com penalidades consecutivas e
outro com penalidades alternadas.
b Operadores Genéticos
Para a formatação presente nos indivíduos da população, os operadores
genéticos também foram alterados para melhor adaptação do GA ao problema de
elucidação de estruturas.
O operador predador não sofreu qualquer modificação, pois a sua execução
depende apenas do valor da função fitness. Entretanto os outros operadores
presentes no algoritmo genético proposto no Capítulo V foram modificados para
serem adaptados à formação da população. O operador habitat considera como
estando próximos os indivíduos que têm uma identidade superior a 95%, neste
caso o indivíduo que tiver o maior valor de aptidão terá maior probabilidade de ser
o vencedor durante o torneio realizado entre os indivíduos muito semelhantes.
Como descrito anteriormente nos capítulos V, VI e VII, o operador habitat tem a
função de impedir que os indivíduos da população venham a convergir para um
único alinhamento, ou seja uma solução. A atividade do operador habitat é
controlada por um controlador fuzzy que identifica o perfil da população, ou seja,
se a população estiver dispersa em várias soluções de elevada aptidão a atividade
do operador habitat é reduzida, entretanto, se vários indivíduos convergem para
uma solução a atividade do operador habitat aumenta, sendo que esta alteração
de atividade é governada pela função de pertinência encontrada no Capitulo V eq.
3 (pg. 49). A presença do operador habitat associado ao controlador fuzzy é
essencial para a obtenção de soluções confiáveis no processo de elucidação da
estrutura secundária de proteínas. Se o operador Habitat for omitido do processo
de inferência do algoritmo genético, o GA poderia se tornar viciado em soluções
de elevada aptidão. Para a predição de estruturas secundárias de proteínas esta
omissão provocaria a convergência dos indivíduos para apenas um alinhamento
VIII-100
entre a seqüência problema e uma seqüência da base de dados, encontrando
assim o alinhamento global ótimo, ou seja, o alinhamento de maior similaridade.
Para o operador crossover a única modificação refere-se ao tipo de
combinação realizada entre os indivíduos, sendo que a lista de um indivíduo será
trocada com a lista de outro.
A execução do operador mutação sofreu o maior número de modificações.
O operador mutação pode realizar as seguintes operações sobre um indivíduo:
mudar o tamanho do alinhamento (aumentar ou diminuir), mudar a posição das
penalidades dentro do alinhamento, mudar a posição de início do alinhamento
para cada seqüência separadamente. Desta forma o GA está adequado para
inferir soluções relacionadas a estruturas de proteínas, a partir do modelamento
por homologia.
7. Determinação da Estrutura Secundária
a. Estrutura do Citocromo C
O citocromo C está localizado no interior da organela mitocôndria de todas
as células eucarionte que realizam respiração aeróbia. O citocromo C tem a
função de receber os elétrons do citocromo b e transferi-lo para a enzima
citocromo oxidase. Para todos os animais vertebrados o citocromo C apresenta
um sítio característico contendo um resíduo de cisteína que se liga ao grupo
heme. Este sítio de ligação concede aos diversos tipos de citocromo C a sua
funcionalidade biológica.
Para o presente estudo foi utilizada a seqüência primária do citocromo C
humano. Utilizando o algoritmo genético desenvolvido neste trabalho (Capítulo V),
a estrutura secundária do citocromo C (humano) pode ser determinada com
elevada precisão. O GA utiliza como base de dados as seqüências lineares de
proteínas e fragmentos de proteínas contidos no bando de dados PDB [76].
Atualmente (janeiro de 2007) este banco contém 32602 seqüências de proteínas
com estruturas determinadas por difração de raios-X. A partir dos alinhamentos
realizados pelo algoritmo genético, foram identificadas quatro seqüências para
inferir a estrutura secundária do citocromo C humano, sendo que todas
VIII-101
correspondem à família do citocromo C. A Tabela VIII-3 apresenta a similaridade
global das seqüências selecionadas pelo GA para inferir a estrutura secundária do
citocromo C humano. Os valores de similaridade global foram obtidos a partir do
sistema VOBEL [81, 82] que determina alinhamentos globais com base em um
sistema especialista.
Tabela VIII-3 Similaridades mais expressivas encontradas pelo algoritmo genético para a determinação da estrutura do citocromo C humano
Organismo Citocromo C
Cavalo
Citocromo C
Salmão
Citocromo C
Boi
Citocromo C
Rato
Similaridade 91% 84% 14% 9%
Embora a similaridade do citocromo C das espécies boi e salmão seja
pequena, existem regiões de conservação significativa, principalmente nas regiões
que contém cisteína. A seguir é mostrado a seqüência de aminoácidos do
citocromo C humano e o seu respetivo código como descrito no banco de dados
PDB
>1J3S:A|PDBID|CHAIN|SEQUENCE 01 GDVEK GKKIF IMKCS QCHTV EKGGK HKTGP 31 NLHGL FGRKT GQAPG YSYTA ANKNK GIIWG 61 EDTLM EYLEN PKKYI PGTKM IFVGI KKKEE 91 RADLI AYLKK ATNE
A partir dos alinhamentos realizados considerando-se as estruturas
secundárias dos citocromos identificados na Tabela VIII-3, a estrutura secundária
do citocromo C humano determinada pelo GA é mostrada na Tabela VIII-4
VIII-102
Tabela VIII-4 Padrões de estruturas secundária encontrados no citocromo C humano utilizando o algoritmo genético
Posição Trecho da seqüência Estrutura Confiança (%)
1-3 GDV Hélice-α 50
4-13 EKGKKIFIMK Hélice-α 70
15-17 SQC Alça 40
35-37 LFG Alça 40
50-56 ANKNKG Hélice-α 50
61-74 EDTLM EYLEN PKKY Hélice-α 96
88-102 KEERADLIAYLKKAT Hélice-α 97
As estruturas identificadas na Tabela VIII-4 estão em total acordo com os
encontrados no banco de dados PDB. No final do processo de inferência o
algoritmo genético retorna para cada região identificada o valor da confiança,
baseado na distribuição dos alinhamentos encontrados, ou seja, quanto mais
alinhamentos para um mesmo trecho da proteína problema forem encontrados
com a mesma estrutura secundária, maior será a confiança do GA no processo de
inferência estrutural. Nota-se na Tabela VIII-4 que os fragmentos mais extensos
apresentam maior confiabilidade, pois a extensão do alinhamento contribui para
uma maior similaridade entre as seqüências. O valor da confiabilidade
corresponde a freqüência da resposta do algoritmo genético na população.
Comparando os dados obtidos pelo GA com os dados referentes ao
citocromo C humano no banco de dados, conclui-se que os trecho de seqüências
apresentados na Tabela VIII-4 estão corretos, apenas uma alça não foi
identificada, provavelmente por não conter um alinhamento expressivo nas
seqüências do banco de dados. A convergência do algoritmo genético na
determinação da estrutura do citocromo-C humano para uma população contendo
300 indivíduos foi obtida após 8000 gerações. Este processo foi executado em 3
horas de processamento. Este elevado tempo computacional deve-se a elevada
VIII-103
quantidade de procedimento de leitura em arquivos, o que aumenta
demasiadamente o tempo computacional.
b. Estruturas das Cadeias α e β da Hemoglobina Humana
A hemoglobina tem a função de realizar o transporte de oxigênio no tecido
sangüíneo. A estrutura da hemoglobina contém quatro cadeias polipeptídicas,
sendo dois do tipo cadeia α com 141 aminoácidos e duas cadeias β com 146
aminoácidos. Juntamente com as estruturas protéicas existem também quatro
grupos heme (porfirínicos) coordenados a um átomo de ferro.
A determinação da estrutura secundária das cadeias α e β da hemoglobina
humana apresentou um conjunto de quadro cadeias de polipeptídeos pertencentes
à mesma família da hemoglobina. A similaridade entre todas as cadeias pode ser
visualizada na Tabela VIII-5.
Tabela VIII-5 – Similaridade entre cadeias α e β da hemoglobina humana em
relação as seqüências selecionadas pelo GA
Similaridade entra as Cadeias α (%)
Organismo Humano Cavalo Boi Porco Rato
Humano -- 89 89 86 95
Cavalo -- 100% 87 89
Boi -- 87 89
Porco -- 86
Rato --
Similaridade entra as Cadeias β (%)
Humano Cavalo Boi Porco Rato
Humano 86 86 87 99
Cavalo -- 100 85 86
Boi -- 84 86
Porco -- 85
Rato --
VIII-104
As seqüências de aminoácidos que formam as cadeias α e β da
hemoglobina são mostradas a seguir, e foram obtidas a partir do banco de dados
PDB [76].
Cadeia α >1GZX:A|PDBID|CHAIN|SEQUENCE 01 VLSPA DKTNV KAAWG KVGAH AGEYG AEALE 31 RMFLS FPTTK TYFPH FDLSH GSAQV KGHGK 61 KVADA LTNAV AHVDD MPNAL SALSD LHAHK 91 LRVDP VNFKL LSHCL LVTLA AHLPA EFTPA 121 VHASL DKFLA SVSTV LTSKY R
Cadeia β >1GZX:B|PDBID|CHAIN|SEQUENCE 01 VHLTP EEKSA VTALW GKVNV DEVGG EALGR 31 LLVVY PWTQR FFESF GDLST PDAVM GNPKV 61 KAHGK KVLGA FSDGL AHLDN LKGTF ATLSE 91 LHCDK LHVDP ENFRL LGNVL VCVLA HHFGK 121 EFTPP VQAAY QKVVA GVANA LAHKY H
O processo de determinação da estrutura secundária para a cadeia α obteve uma
similaridade média de 87%. Este resultado possibilitou uma determinação da
estrutura secundária da cadeia α-hemoglobina humana, representada na Tabela
VIII-5. A Tabela VIII-5 apresenta a seqüência de aminoácidos da α-hemoglobina
com as respectivas definições de estrutura secundária. Nota-se que as regiões de
hélice são mais fáceis de prever, pois apresentam elevada confiança de acordo
com o procedimento adotado pelo GA. Alguns trechos, como por exemplo, 36 a
44, foi identificada a estrutura de 310hélice que apresenta tamanhos reduzidos, em
relação a α-hélice.
VIII-105
Tabela VIII-6 Padrões de estruturas secundária encontrados para cadeia α da
hemoglobina humana utilizando o algoritmo genético
posição Trecho da seqüência Estrutura Confiança
(%)
1-4 VLS Cadeia linear 60
5-17 PA DKTNVKAAWGKV α-Hélice 96
18-20 AH 310Hélice 30
21-35 AGEYGAEALERMFLS α-Hélice 90
36-44 FPTTKTYFP 310Hélice 85
45-53 HFDLSHGSA Cadeia linear 84
54-72 SHGSAQVKGHGKKVADALTNAVAH α-Hélice 100
73 -80 VDDMPNAL 310Hélice 70
81-89 SALSDLHA α-Hélice 80
91-92 HKL Alça 20
93-95 RVDP Cadeia linear 30
96-114 NFKLLSHCLLVTLA AH α-Hélice 90
115-117 LPA EFT Alça 30
118-136 AVHASL DKFLASVSTV L α-Hélice 95
137-142 TSKYR Alça 40
VIII-106
A cadeia β da hemoglobina é caracterizada por apresentar trechos extensos
de estrutura α-hélice, como pode ser visualizado na Tabela VIII-7.
Tabela VIII-7 Padrões de estruturas secundária encontrados para a cadeia β-
da hemoglobina humana utilizando o algoritmo genético
Posição Trecho da seqüência Estrutura Confiança
(%)
1-4 VHLT Cadeia linear 30
5-14 P EEKSA VTAL α-hélice 95
15-19 WGKVNV Cadeia linear 60
20-34 DEVGGEALGRLLVV α-hélice 96
36-44 WTQRFFES 310-hélice 45
50-73 PDAVMGNPKVKAHGKKVLGAFSD α-hélice 98
75-77 LAH alça 40
81-84 KGTFATLSELHCD α-hélice 90
96-100 HVDP Cadeia linear 30
118-122 GKEF 310-hélice 80
123-141 TPPVQAAY QKVVAGVANAL α-hélice 91
141-146 HKYH Cadeia linear 80
A predominância das estruturas de α -hélice pode ser facilmente detectada
pela quantidade, extensão e pela confiança do algoritmo genético no processo de
determinação da estrutura.
O acoplamento das técnicas de algoritmos genéticos e lógica fuzzy
possibilita a utilização do sistema em diversos problemas que envolvem múltiplas
soluções. Embora seja determinada apenas uma seqüência de estruturas
secundárias o GA teve que encontrar múltiplos alinhamentos para inferir os
resultados de forma satisfatória.
Capítulo IX- Conclusão
IX-108
1. Considerações Finais e Perspectivas Futuras
O algoritmo genético desenvolvido nesta dissertação de mestrado mostrou-
se eficaz na obtenção de soluções confiáveis para diferentes tipos de problemas,
que envolveram parametrização de funções matemáticas, interpretação de dados
de curvas termogravimétricas e elucidação de estruturas secundárias e terciárias
de protéicas. Claramente, os estudos desenvolvidos mostraram eficiência das
técnicas de inteligência artificial para aplicações em sistemas químicos complexos.
O desenvolvimento do algoritmo genético apresenta como inovação o
operador habitat, que possibilita ao GA encontrar múltiplas soluções compatíveis
no espaço de busca. Este operador genético foi fundamental para o sucesso do
sistema, o que foi comprovado pelos resultados nos problemas aplicados. Outra
característica da metodologia de otimização desenvolvida (GA) corresponde ao
acoplamento de controladores nebulosos ou fuzzy para os operadores genéticos,
possibilitando que estes tenham atividade dependentes da aptidão da população,
tornando-os mais eficientes na obtenção de soluções.
A estrutura do algoritmo genético foi elaborada de forma generalizada.
Assim, este pode ser aplicado em diversos problemas sem a necessidade de
grandes modificações na estrutura computacional. Apenas dois fatores devem ser
definidos de acordo com o problema: a formatação (estrutura) da população inicial
e a função de aptidão, também conhecida como função fitness.
A metodologia desenvolvida projeta para futuras aplicações em outros
sistemas de relevância científica e tecnológica, tais como, interpretação de dados
de espectrometria de massa, espectroscopias de infravermelho e UV-vísivel, bem
como em ressonância magnética nuclear. Relacionada à biologia molecular, o GA
pode ser utilizado futuramente na determinação de estruturas secundárias de
ácidos ribonucléicos (RNA) que são caracterizados pela elevada complexidade
estrutural.
109
Referencias Bibliográficas
[1] E.A. Bender, Mathematics Methods of Artificial Intelligence; E. E.
Comp. So. Press.:Washington, 2000.
[2] D. Holzhauer, I. Grosse, Eng. with Comput., 1999, 15, 315-325.
[3] Vladmir, J. Colect. Czech. Chem. Commum., 1992, 57, 184-197.
[4] N Kikuchi, H. Narimatsu, Biochim. Biophys. Acta-Gen. Subj., 2006,
1760, 578-583.
[5] Y. Lu, S. Freeland, Genome Biol., 2006, 7, 1-7.
[6] X.J. Yu, C. Wang, Y.X. Li, BMC Bioinformatics, 2006, 7, 1-6.
[7] M. Katoh, M. Katoh, Technol. Cancer Res. Treat., 2006, 5, 169-175.
[8] P. N. Judson, C. A. Marchant, J. D. Vessey, J. Chem. Inf. Comput.
Sci. 2003, 43, 1364-1370.
[9] P. Chaudhury, S.P. Bhattacharyya, W. Quapp, Chem. Phys., 2000,
253, 295-303.
[10] D. P. Snustad, M. J. Simmons, Principles of Gentics, John Wikey &
Sons, New York, 2001.
[11] A. L. Lehninger, Princípios de Bioquímica, Sarvier, São Paulo 1984.
[12] T. E. Creighton, Proteins: Structures and molecular properties, 2ºed,
W. H. Freeman and Company, New York, 1993.
[13] G. E. Sshulz, R. H. Schirmer, Principles of protein structure, Springer-
Verlag, New York, 1985.
[14] J.B.C. Finlay, M.J.Geisow, Protein sequencing, Oxford University
Press, New York, 1989.
[15] V. A. Blomfield, D. M. Crothers, I. Tinoco Jr., Nucleic Acids,
structures, properties and functions, University Science Books,
Sausalito, 1999.
[16] C. Wu, Y. Liang, H. P. Lee, C. Lu, Phys. Rev E, 2004, 70, 016701.
[17] Z. Michalewicz, Genetic Algoritms+Data Structures=Evolution
Programs, Springer-Verlag, New York, 1996.
[18] E.S.A Silva, H.A. Duarte, J. C. Belchior, Chem. Phys., 2006, 323,
553 –562.
110
[19] S. Habershon, K.D.M. Harris, R.L. Johnston, G.W. Turner, J.M.
Johnston, Chem. Phys. L., 2002, 353, 85 –194.
[20] N.H.T. Lemes, J.P. Braga, J.C. Belchior, Chem. Phys. L., 2005, 412,
353 –358.
[21] Y. Ge, J.D. Head, Chem. Phys. L. 2004, 398,107 –112.
[22] A. Rapallo, G. Rossi, R. Ferrando, A. Fortunelli. J. Chem. Phyc.,
2005, 122, 194308.
[23] G.A. Cox, R.L. Johnston, J. Chem. Phyc., 2004, 124, 204714.
[24] M. Shirayama , M.K.T Hatakeyama, H. Kimura, BioSystems. 2004, 77
151–161.
[25] Y.L. Xiao, D.E. Williams, J. Phys. Chem., 1994, 98, 7191-7200.
[26] P.J. Hsu, S.K. Lai, J. Chem. Phyc., 2006, 124, 044711.
[27] Y. Ge, J.D.Head, Chem Phys. Let. 2004, 398 107 –112.
[28] F.-C Chuang, C.Z. Wang, K.H. Ho, Phys Rev. B, 2006, 73, 125431.
[29] H. Kabrede, R. Hentschke, J. Phys. Chem. B, 2003, 107, 3914-3920.
[30] J.-S.R, Jang, C.-T. Sun, E. Mizutani, Neuro-Fuzzy and Soft
Computing. Prentice Hall, London, 1997.
[31] L.A. Zadeh, Fuzzy Logic for the management of Uncertaly; John
Wiley, New York, 1992.
[32] D. Driankov, H. Hellendoorn, M. Reinfrank. An In-troduction to Fuzzy
Control. Springer-Verlag, London, 1993.
[33] L.A. Zadeh, Inform. and Cont., 1965. 8, 338 – 353.
[34] L.A. Zadeh. Fuzzy Sets and Systems, 1978, 1, 3–28.
[35] H.F. Pop, C. Sârbu, O. Horowitz, D. Dumitrescu J. Chem. Inf.
Comput. Sci. 1996, 36, 465-482.
[36] B Desbska, B. Guzowska-Swider J. Chem. Inf. Comput. Sci. 2000,
40, 325-329.
[37] M. Akay, C. Maurice, Fuzzy and Set systems; 1997, 90, 219-228.
[38] A.F. Kohn, Reconhecimento de Padrões, Departamento de
engenharia eletrônica da escola Politécnica-USP, 1998.
111
[39] C.J. Richardson, D.J. Barlow. J. Pharm. Pharmacol. 1996, 48,581–
591.
[40] M.A.A. Reis, R.N.D. Sinisterra, J.C. Belchior. J. Pharm. Sci., 2004,
93, 418-430.
[41] J.C. Fu, C. Hagemeir, D.L. Moyer, Ng EW, J Biomed Mater, 1976,
10, 743–758.
[42] J, Siepmann, A. Streubel, N.A Peppas, Pharm Res 2002, 19, 306–
314.
[43] T. Higuchi, J. Pharm. Sci., 1961, 50, 874–875.
[44] R.C. Mackenzie, Thermochim. Acta, 1979, 28, 1-6.
[45] D.A. Skoog, F.J. Holler, T.A. Nieman, Principles of Instrumental
Analysis, 4 ed. Philadelphia: Saunders, 1992.
[46] N. Morel, A. Faist, Bulding and Environment, 1993, 28, 465-473.
[47] A. S. Ribeiro, A.C.F Caires,.N. Borrale, M. Lonashiro, Thermochim.
Acta 1996, 279, 177-181.
[48] G. Gupchup, K. Alexander, D. Dollimore, Thermochim. Acta, 1992,
196, 267-278.
[49] D. Holzhauer, I. Grosse, Engineering with Computers, 1999, 15 315-
325.
[50] R.C.O. Sebastião, J.P. Braga, M.I. Yoshida, Thermochim. Acta, 2004,
412, 107-111.
[51] G.C. Xu, L. Zhang, L. Liu, G.F. Liu, D.Z. Jia, Thermochim. Acta,
2005, 429, 31-42.
[52] M. Eloma, C.H. Lochmuller, M. Kudrjashova, M. Kaljurand,
Thermochim. Acta, 2000, 362, 137-144.
[53] M. Wesolowski, M. Czerwonka, Thermochim. Acta, 2003, 398, 175-
183.
[54] M. Wesolowski, P. Konieczynski, Thermochim. Acta, 2003, 397, 171-
180.
[55] C. Bernal, A.B. Couto, S.T. Trazzi, E.T.G. Cavalheiro, Química Nova,
2002, 25, 849-855.
112
[56] T. Nakayama, K. Tanaka, J. Chem. Inf. Comp. Sci., 1999, 39, 819-
832.
[57] B. Debska, B. Guzowska-Swider, D. Cabrol-Brass, J. Chem. Inf.
Comput. Sci. 2000, 40, 330-338.
[58] G.P. Voga; J.C. Belchior; Thermochim. Acta; 2007, 452, 140-148.
[59] G.P. Voga; J.C. Belchior, “Processo de interpretação de dados
termogravimétricos utilizando técnicas de inteligência artificial” INPI
Protocolo No. 014060008706. 2006.
[60] W.W. Wendlandt, Thermal Analysis, John Wiley: New York, 1986.
[61] D.E. Brown, M.J. Hardy, Thermochim. Acta.1985, 85, 521-524.
[62] A. Arenillas, F. Rubiera, J.J. Pis, J. Anal. Appl. Pyrolysis, 1999, 50,
31-46.
[63] R.F. Speyer, Thermal Analysis of Materials, Marcel Dekker: New
York 1994.
[64] J.P. Gupta, D.V. Nowell, Thermochim. Acta 1979, 30, 339-350.
[65] N. Das, Thermochim. Acta, 1995,257, 163-171.
[66] S.A. Sadeek, J. Mol. Struct. 2005, 753, 1-12.
[67] A. Farce, S. Dilly, S. Yous, P. Berthelot, P. Chavatte, J. Enzym. Inhib.
Med. Chem., 2006, 21, 285-295.
[68] C. Graaf, C. Oostenbrink, P.H.J. Keizers, B.M.A van Vugt-
Lussenburg, R.A.B van Waterschoot, R.A. Tschirret-Guth, J.N.M.
Commandeur, N.P.E Vermeulen, JI Curr. Drug Metab, 2007, 8, 59-
77.
[69] L. Miguet, Z. Zhang, M, Barbier, M.G. Grigorov, J. Comput.-Aided
Mol. Des., 2006, 20, 67-81.
[70] N.P. Todorov, C.L. Buenemann, I.L. Alberts, Proteins, 2006, 64, 43-
59.
[71] O. Moran, L.J.V. Galietta, O. Zegarra-Moran, Cell. Mol. Life Sci.,
2005, 62, 446-460.
[72] U. Heinemann, Nat. Struct. Biol. 2000, 7, 940.
[73] E. Gasteiger, E. Jung, A. Bairoch,. Curr. Issues Mol. Biol. 2001, 3, 47.
113
[74] A. Bairoch, R. Apweiler, Nucleic Acids Res. 2000, 28, 45-55.
[75] A. D. Baxevanis, B.F. Francis, Bioinformatics: a pratical guide to the
analisys of genes and proteins, John Wiley & Sons, New York, 2001.
[76] http://www.rcsb.org/pdb/home/home.do; jan/2007.
[77] J. Qiu, R. Elber, Proteins, 2006, 62, 881-891.
[78] Y.M. Huang, C. Bystroff, Bioinformatics, 2006, 22, 413-422.
[79] http://www.nhgri.nil.gov, jan/2007 .
[80] M. S. Waterman, Introduction to computacional Biology, Charman &
Hall, London, 1995,
[81] J. C. Belchior ; G. V. Pereira. Process of molecular analysis and
sequencing for the classification and identification of RNA, DNA,
and/or proteins utilizing techniques of artificial inteligence -
PCT/BR03/00194. 2003.
[82] J. C. Belchior ; G. V. Pereira. Processo de análise e seqüenciamento
molecular para classificação e identificação de RNA, DNA e/ou
proteínas utilizando técnicas de inteligência artificial - PI0205900-2.
2002
114
PUPLICAÇÕES
G.P. Voga, J.C. Belchior, F.D. Vieira, Parametrização de múltiplos sistemas
de liberação de controlada de drogas utilizando inteligência artificial, A ser
submetido, 2007.
G.P. Voga, J.C. Belchior, Elucidação do estruturas secundárias de
proteínas a partir de modelagem comparativa, utilizando inteligência
artificial. A ser submetido, 2007.
Livros Grátis( http://www.livrosgratis.com.br )
Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas
Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo