79
1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

Embed Size (px)

Citation preview

Page 1: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

1André de Carvalho

LABIC

Utilizando Inteligência Artificial em

Bioinformática

Prof. André de CarvalhoLABIC - Universidade de São Paulo

Page 2: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

2André de Carvalho

LABIC Principais tópicos

Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilizando Inteligência Artificial Conclusão

Page 3: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

3André de Carvalho

LABIC IA e Bioinformática

BIOLOGIA

Redes Neurais, Algorítmos genéticos

COMPUTAÇÃO

Bioinformática

Page 4: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

4André de Carvalho

LABIC Definições

Bioinformática Pesquisa e desenvolvimento de ferramentas

computacionais, matemáticas e estatísticas para a resolução de problemas da BiologiaBiologia molecular

A Computação está para a Biologia da mesmaforma que a Matemática está para a Física.

Harold Morowitz

Page 5: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

5André de Carvalho

LABIC Bioinformática

Nos últimos anos, diversos laboratórios têm trabalhado no seqüenciamento de vários genomas Até o ano 2000:

Mais que 30 organismos tinham sido seqüenciados Cerca de 150 organismos estavam sendo seqüenciados

Determinação da seqüência de nucleotídeos em uma molécula é o primeiro passo para entender seu funcionamento

Beneficia várias áreasMedicina - Farmácia - Agricultura

Page 6: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

6André de Carvalho

LABIC Crescimento do GenBank

0

2000000

4000000

6000000

8000000

10000000

12000000

1990 1992 1994 1996 1998 2000

Ano

Número de sequências armazenadas no banco de dados GenBank

Page 7: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

7André de Carvalho

LABIC Andamento de projetos genoma

73 genomas completos publicados Humano Camundongo Drosophila Arabidopsis Levedura

212 de procariotos em andamento 157 de eucariotos em andamento

Page 8: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

8André de Carvalho

LABIC Fração do genoma da levedura

CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGCCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATATCTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAAAAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAACGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGGTGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCAAGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCATCTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGTCTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGCAGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAGTTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGTTTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGGCTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGGTAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGGTTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATATTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCACACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTCTCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATTATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGTTCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTTCTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAATAGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAATTTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTTTCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTGTTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGGCTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGACTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATTTTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTATTATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGTTGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAGCAACTCATAATTTAA

Page 9: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

9André de Carvalho

LABIC Bioinformática

Ênfase está se deslocando progressivamente da acumulação de dados para a sua interpretação Com os seqüenciamentos realizados, uma grande

quantidade de dados tem sido gerada Estes dados precisam agora ser analisados Análise laboratorial destes dados é difícil e cara

Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos

Page 10: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

10André de Carvalho

LABIC Bioinformática

Para muitas destas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular

quase sempre geram dados com erros ou imprecisõesNa medição dos valores ou definição das classes

Inteligência Artificial fornecem técnicas eficientes para lidar com problemas deste tipo

Page 11: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

11André de Carvalho

LABIC Biologia Molecular

Estudo das células e moléculas Em particular: genoma dos organismos

Estruturas principais: Genes Cromossomos DNA RNA Proteínas

nucleotídeos

aminoácidos

Expressão

Gênica

Page 12: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

12André de Carvalho

LABIC Biologia Molecular

Dogma central da Biologia Molecular Transferência de Informação

Transcrição

Tradução

DNA

RNA

Proteínas

Replicação

Page 13: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

13André de Carvalho

LABIC Biologia Molecular

Algumas descobertas posteriores contradizem este dogma: RNA pode sofrer replicação em alguns vírus e

plantas RNA viral, através de uma enzima denominada

transcriptase reversa, pode ser transcrito em DNA DNA pode traduzir diretamente proteínas

específicas Sem passar pelo processo de transcrição

Page 14: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

14André de Carvalho

LABIC Biologia Molecular

DNA (Ácido Desoxirribonucleico) O DNA é uma molécula formada por duas fitas (dupla

fita) que se entrelaçam formando uma hélice dupla DNA é composto de quatro nucleotídeos diferentes

Adenina, Citosina, Guanina e Timina Fitas são mantidas juntas por ligações

que conectam cada nucleotídeo de uma fita ao seu complemento na outra

• A se liga com T e C se liga com G

Page 15: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

15André de Carvalho

LABIC Biologia Molecular

Genes Subseqüências de DNA

Localizados no cromossomo

Servem como molde para a produção de proteínas

Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras

Page 16: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

16André de Carvalho

LABIC Biologia Molecular

Proteínas Definem estrutura, função e mecanismos

regulatórios das célulasExemplos de mecanismos regulatórios: controle do

ciclo celular, transcrição gênica

Seqüências linearesCombinações de 20 aminoácidos diferentesTrês nucleotídeos (codon) formam um aminoácido

Page 17: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

17André de Carvalho

LABIC Biologia Molecular

Page 18: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

18André de Carvalho

LABIC Biologia Molecular

Expressão gênica Processo pelo qual genes são usados para

produzir proteínas Mecanismos de expressão gênica são diferentes

para organismos:Eucariotos

• Material genético difuso nas células (Ex.: bactérias)

Procariotos• Material genético em um núcleo (Ex.: seres humanos)

Page 19: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

19André de Carvalho

LABIC Processo de expressão gênica

Transcrição RNA polimerase é a molécula (enzima) que

transcreve DNA em RNA RNA polimerase começa a transcrição após se

ligar a um sinal regulatório no DNA chamado promotor

Gera molécula de RNA mensageiro (mRNA)

Page 20: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

20André de Carvalho

LABIC Processo de expressão gênica

Transcrição depende do organismo Organismos eucariotos

Cada gene é transcrito independentementeExiste um promotor antes de todo gene

Organismos procariotosVários genes consecutivos podem ser transcritos em

uma única molécula de RNANão existe necessariamente um promotor antes de

cada gene

Page 21: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

21André de Carvalho

LABIC Processo de expressão gênica

Tradução Sintetiza uma proteína utilizando como forma mRNA Leitura do mRNA é feita por uma molécula chamada de

ribossomo Mensagem lida é utilizada para montar uma cadeia de proteína

• Tripla de nucleotídeos consecutivos (codon) codifica um aminoácido

Código genético: mapeamento de codons em aminoácidos

Page 22: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

22André de Carvalho

LABIC Processo de expressão gênica

G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

DNA

mRNA

A

T

Page 23: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

23André de Carvalho

LABIC Processo de expressão gênica

T G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

A C G U C G A G G C C U G A G G U A . . .

DNA

mRNA

Page 24: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

24André de Carvalho

LABIC Processo de expressão gênica

T G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

A C G U C G A G G C C U G A G G U A . . .

DNA

mRNA

Tradução

Thr

Ribossomo

A C G

Page 25: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

25André de Carvalho

LABIC Processo de expressão gênica

T G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

A C G U C G A G G C C U G A G G U A . . .

DNA

mRNA

Tradução RibossomoHis

LeuGlySer

Ser

Cys

Page 26: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

26André de Carvalho

LABIC Processo de expressão gênica

Estrutura de leitura Para uma dada faixa de DNA, nucleotídeos podem

ser agrupados em triplas de três formas diferentesUm dos nucleotídeos pode ocupar a 1a, 2a ou 3a

posição em um codonApenas um destes três possíveis agrupamentos é

realmente lido pelo ribossomoO agrupamento lido é chamado de estrutura de

leitura do gene

A T T A C G A A G

Page 27: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

27André de Carvalho

LABIC Processo de expressão gênica

Em organismos eucariotos, existe um outro passo importante durante o processo de expressão gênica Após o DNA ser transcrito, certas partes da molécula

são eliminadas antes de sua transformação em proteína

Genes em eucariotos são formados por segmentos alternados de exons e introns

Page 28: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

28André de Carvalho

LABIC Regiões de splice

Exons: Seqüências de nucleotídeos que são expressas (traduzidas

em proteínas) Introns:

Seqüências intercaladas que são eliminadas na tradução Regiões de splice (splice-junctions):

Pontos de fronteira onde ocorrem junções de exons e intronsDoadoras: bordas exon-intronAceptoras: bordas intron-exon

Page 29: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

29André de Carvalho

LABIC Splice-junctions

mRNA

intronexon

Splicing

DNA

Transcrição

mRNA

doador aceptor

Page 30: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

30André de Carvalho

LABIC Biologia Molecular e IA

Problemas da Biologia Molecular que podem ser tratados por IA Reconhecimento de genes Construção de árvores filogenéticas Análise de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de seqüências

Page 31: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

31André de Carvalho

LABIC Reconhecimento de genes

Um dos principais problemas em biologia molecular é a identificação de genes em seqüências de DNA não caracterizadas

Algoritmos convencionais não têm sido eficientes Variação natural dos genes Complexidade dos genes Natureza pouco compreendida dos genes

Abordagem promissora: Aprendizado de Máquina

Page 32: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

32André de Carvalho

LABIC Reconhecimento de genes

Duas abordagens principais têm sido seguidas:

Busca por sinal

Busca por conteúdo

Page 33: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

33André de Carvalho

LABIC Reconhecimento de genes

Busca por sinal Localiza genes indiretamente Procura sinais particulares relacionados com a

expressão de genes Sinal

Região localizada do DNA que realiza uma função específica (exemplo: se liga a uma enzima)

Page 34: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

34André de Carvalho

LABIC Reconhecimento de genes

Busca por conteúdo Reconhece genes diretamente Identifica segmentos de seqüências de DNA que

possuem as propriedades gerais de regiões codificadoras

Se baseia no conhecimento das diferentes propriedades estatísticas de regiões codificadoras e não codificadoras

Page 35: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

35André de Carvalho

LABIC Busca por sinal

É importante não apenas entender a função de cada gene Mas também os mecanismos que regulam a

expressão do gene Vários sinais exercem importantes funções

regulatórias definindo:Condições sob as quais os genes são expressosTaxa com a qual a expressão ocorre

Page 36: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

36André de Carvalho

LABIC Busca por sinal

Detecção de sinal já é um problema em si Vários sinais que podem ser identificados em

seqüências de nucleotídeos são importantes para a identificação de genes Sítios de início de transcrição (promotores) Sítios de término de transcrição (terminadores) Sítios de splice-junction Sítios de início da tradução (codons de iniciação) Sítios de término da tradução (codons de parada ou stop

codons)

Page 37: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

37André de Carvalho

LABIC Busca por sinal

Diferentes sinais têm diferentes dificuldades de identificação Codons de parada são facilmente identificados Identificação de outros sinais é mais complicada

Busca por sinal é uma tarefa de classificação Dada uma janela de tamanho fixo de um DNA,

determinar se ela contém um sinal de interesse Se uma característica identificável do sinal ocupa

uma posição particular na janela

Page 38: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

38André de Carvalho

LABIC Busca por sinal

Promotor na posição 3?

Classificador

Posição 1 = ‘C’Posição 2 = ‘T’Posição 3 = ‘T’Posição 4 = ‘A’Posição 5 = ‘C’Posição 6 = ‘G’

Representação das características

Seqüência de DNA ... A T C G T G C T T A C G C G T C C A1 2 3 4 5 6

Page 39: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

39André de Carvalho

LABIC Reconhecimento de início da tradução

Reconhece codons de iniciação Tradução de mRNA em proteína não começa

com sua primeira tripla de nucleotídeos Em organismos procariotos, uma simples

molécula de mRNA pode ter vários sítios de início de tradução Genes consecutivos podem ser transcritos em uma

única cadeia de mRNA

Page 40: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

40André de Carvalho

LABIC Reconhecimento de promotores

Sinal regulatório de uma molécula de DNA onde RNA polimerase se liga para começar a transcrição RNA polimerase é uma molécula que transcreve DNA

em RNA Auxilia na localização de genes no DNA Existem sítios amplamente aceitos como sendo as

regiões que fornecem as carecterísticas definidoras de promotores Regiões 10 e 35

Page 41: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

41André de Carvalho

LABIC Busca pelo conteúdo

Identifica genes reconhecendo padrões que que ocorrem na sua seqüência de nucleotídeos Regiões do DNA que serão traduzidas em proteínas

Organismos procariotos: distinguir genes de regiões não codificadoras

Organismos eucariotos: distinguir também introns de exons

Janelas de tamanho fixo também são utilizadas para esta previsão

Page 42: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

42André de Carvalho

LABIC Busca pelo conteúdo

Busca por conteúdo procura responder as seguintes perguntas: Quais são as regiões codificadoras Para uma dada região, que faixa e qual estrutura

de leitura codifica a proteína Várias propriedades podem ser exploradas

para distinguir regiões codificadoras de não codificadoras

Page 43: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

43André de Carvalho

LABIC Busca pelo conteúdo

Propriedades que podem ser exploradas: Alguns aminoácidos são usados mais freqüentemente que

outros em regiões codificadoras A existência de diferentes números de codons para

aminoácidos diferentes Codons que mapeiam em um dado aminoácido não são

usados igualmente na maioria dos organismos Não podem conter codons de parada Alguns codons têm maior probabilidade de serem vizinhos

Page 44: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

44André de Carvalho

LABIC Reconhecimento de genes

Abordagens mais promissoras em reconhecimento de genes: Combinam previsão de vários sinais diferentes

e regiões codificadoras Reconhecimento de operons

Genes consecutivos que são ativados ou desativados em conjunto

Page 45: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

45André de Carvalho

LABIC Redes Neurais Artificiais

Sistemas computacionais distribuídos baseados na estrutura e funcionamento do sistema nervoso Nodos simulam neurônios Conexões ponderadas simulam sinapses

Definidas por Arquitetura Aprendizado

Page 46: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

46André de Carvalho

LABIC Redes Neurais Artificiais

camada de entrada

camadas intermediárias

camada de saída

conexões

Page 47: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

47André de Carvalho

LABIC Redes Neurais Artificiais

Stormo et al (1982): reconhecimento de sítios de início de tradução no DNA de bactérias E. Coli Primeira aplicação de Redes Neurais em Bioinformática Utilizou rede Perceptron

... A T C G T G C T T A C G C G C G T ...

A C G T A C G T A C G T

Page 48: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

48André de Carvalho

LABIC

Reconhecimento de regiões de splicingRampone (1998)

Reconhecimento de promotoresMa e Wang (1999)

Bajic et al. (2002)

Previsão de estrutura de proteínasRiis et al (1995)

Polyac et al (1992)

Servidor GRAIL - identificação de genesUberbacher et al (1993)

Sítios de início de transcriçãoTowell et al (1990)

Problema abordadoTrabalho

Redes Neurais Artificiais

Page 49: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

49André de Carvalho

LABICAlgoritmos Genéticos

Técnica de busca e otimização Baseados na genética e teoria da seleção natural Utiliza uma população de soluções candidatas

(indivíduos)A cada indivíduo é associado um escore de aptidão, que

mede o quão boa é a solução que ele representa Otimização ocorre em várias gerações

A cada geração• Mecanismos de seleção selecionam os indivíduos mais aptos• Operadores de reprodução geram novos indivíduos

Page 50: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

50André de Carvalho

LABICAlgoritmos Genéticos

População atual

Reprodução

Avaliação

Seleção

População inicial População final

Page 51: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

51André de Carvalho

LABIC Algoritmos Genéticos

Alinhamento de seqüências: Uma a uma Uma com várias Identificar:

InserçõesRemoçõesSubstituições

Seq1: A G C C A T A T

Seq2: A C G C T A T A

Seq1: A G C C A T A T

Seq2: A C G C T A T A

Page 52: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

52André de Carvalho

LABIC Algoritmos Genéticos

Alinhamento de sequênciasZhang e Wong (1997)

Previsão de estrutura de proteínas

Alander (1995)

Krasnogor et al. (1999)

Problema abordadoTrabalho

Page 53: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

53André de Carvalho

LABIC Raciocínio Baseado em Casos

Resolve novos problemas adaptando soluções de problemas anteriores semelhantes

Nova solução

Novo problema1

2Solução

Problema

Solução

Problema

Page 54: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

54André de Carvalho

LABIC Raciocínio Baseado em Casos

RBC é mais que uma Base de Dados Não é uma tabela de busca

Sistemas de RBC procuram casos passados semelhantes ao problema atual em uma base de casos indexada Indexação e representação de casos facilitam

recuperação de casos relevantes e sua comparação com o problema atual

Permite adaptação de casos

Page 55: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

55André de Carvalho

LABIC Raciocínio Baseado em Casos

Ciclo de um sistema de RBC

(Aamodt, 1993)

Page 56: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

56André de Carvalho

LABIC Raciocínio Baseado em Casos

Alinhamento de seqüênciasHarris et al. (1993)

Reconhecimento de genesShavlik (1990, 1991)

Problema abordadoTrabalho

Page 57: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

57André de Carvalho

LABIC Classificadores de Margens Largas

Maximizam a margem de separação entre classes presentes nos dados Máquinas de Vetores Suporte (SVMs) Boosting Maior capacidade de generalização Baseados na Teoria de Aprendizado

EstatísticoVapnik e Chervonenkis (1968)Embute conceitos probabilísticos e estatísticos

Page 58: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

58André de Carvalho

LABIC Classificadores de Margens Largas

Máquinas de Vetores Suporte Encontra um hiperplano ótimo que separa classes em um

espaço abstrato

margem

Classe 1Classe 2

Page 59: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

59André de Carvalho

LABIC Classificadores de Margens Largas

Análise de expressão gênica

ExpressãoTecido normal Tecido com tumor

Gene T1 T2 T3 T1 T2 T3 1 128 100 30 20 10 9 2 20 10 18 104 210 47 3 29 130 7 37 310 40 4 21 12 15 92 123 84

Page 60: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

60André de Carvalho

LABIC Classificadores de Margens Largas

Promotores, reg. codificadorasAB, RNsJackson (1995)

DNA microarraySVMs, ADsBrown et al. (1999)

Subfamílias proteínasSVMsKarchin et al. (2002)

Especificidade proteínasADs, ABHuss et al. (2001)

Bem-Hur et al. (2000)

Furey et al. (2001)

Zien et al. (2000)

Ding e Dubchak (2001)

Trabalho

DNA microarraySVMs, AB, clusterização

DNA microarraySVMs

Sítios de início de traduçãoSVMs

Estrutura proteínasSVMs, RNs

Problema abordadoTécnicas

Page 61: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

61André de Carvalho

LABIC Árvores de Decisão

Organizam informações em estrutura composta de nós e ramificações Nós: testes sobre atributos; Ramos: resultados dos testes

sorrisorri

segurasegura inimigoinimigo

nãosim

inimigoinimigo amigoamigo

espada balão oubandeira

Page 62: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

62André de Carvalho

LABIC Árvores de Decisão

Lapedes et al (1989): detecção de regiões de splicing (regiões doadoras) Entrada: cadeia de nucleotídeos

PositivoPositivo

Posição 8 = ?Posição 8 = ?

Posição 3 = ?Posição 3 = ? NegativoNegativo Posição 9 = ?Posição 9 = ?

A C G T

A C G T

NegativoNegativo NegativoNegativo NegativoNegativoNegativoNegativoPositivoPositivo PositivoPositivo

A C G T

NegativoNegativo

Page 63: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

63André de Carvalho

LABICOutras técnicas

Eddy (1998)Detecção de genesCadeias de Markov

Guan et al (1994)Estrutura de proteínas

RNAs, AGs e k-NN

Dond e Searls (1994)

Previsão da estrutura de genes

Lingüística computacional

Friedman et al (2000)

Detecção de genesRedes Baysianas

TrabalhoProblemaTécnica

Page 64: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

64André de Carvalho

LABIC Projeto Fapesp Genoma Clínico

Genoma do câncer humano Dados clínicos e de expressão gênica

Sage, PCR, Microarray e MPSS

9 tipos de câncer Análise de expressão gênica Data mining Utiliza técnicas de Aprendizado de Máquina FAPESP e Instituto Ludwig

Page 65: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

65André de Carvalho

LABIC Projeto CNPq - Bioinformática

Reconhecimento de genes Identificação de promotores Reconhecimento de regiões de splicing Reconhecimento de regiões codificadoras Utiliza SVMs, AB e RNs Metodologias para melhorar desempenho

Redução de ruídosSeleção de atributos

CNPq e FAPESP

Page 66: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

66André de Carvalho

LABICProjeto CNPq - Bioinformática

Melhoramento genético Utiliza marcadores moleculares para avaliar

potencial genético10 marcadores (2 já foram avaliados)

Identificação de cruzamentos mais promissoresPrevisão de ganho de peso entre nascimento e

desmama

Utiliza SVMs e RNs CNPq e Embrapa

Page 67: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

67André de Carvalho

LABIC Referências de IA e Bioinformática

Artificial Intelligence and Molecular Biology Editado por Lawrence Hunter, AAAI Press Book Disponível gratuitamente na internet

Bioinformatics (Adaptive Computation and Machine Learning) Pierre Baldi, Soren Brunak, Sren Brunak, MIT Press

Neural Networks and Genome Informatics Cathy H. Wu, Jerry W. McLarty, Elssevier

Data Analysis and Classification for Bioinformatics Arun Jagota

Page 68: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

68André de Carvalho

LABIC Conclusão

Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilização de IA em Bioinformática

Page 69: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

69André de Carvalho

LABIC Agradecimentos

Ana Carolina Lorena Cláudia Regina Milaré Humberto de Sousa Silvia Gorla Modonese da Silva Alexandre Delbem Katti Faceli Welington Martins

Page 70: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

70André de Carvalho

LABIC Reconhecimento de regiões de splicing

DadosDados: regiões de splicing de primatas (UCI) Divisão do problemaDivisão do problema:

Identificação de presença da região (Experimento 1) Determinação do tipo da região (Experimento 2)

intron-exon exon-intron

Técnicas: Árvores de Decisão (ADs) Redes Neurais Artificiais (RNAs) Máquinas de Vetores Suporte (SVMs)

Page 71: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

71André de Carvalho

LABIC Pré-processamento dos dados

Heurística Tomek linksHeurística Tomek links: identificar Dados classificados incorretamente Borderlines 5 - 6 % dados

Page 72: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

72André de Carvalho

LABIC Resultados

ADs:ADs: diminuição do tamanho das árvores induzidas

(10 - 33 %) RNAs:RNAs:

menor tempo de treinamento (20 %) SVMs:SVMs:

menor tempo de treinamento (7 - 15 %) menor número de vetores suporte (6 - 10 %)

Page 73: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

73André de Carvalho

LABIC

Experimento 2

Erros obtidos (%)

3.7 2.45.3 2.44.5 1.66.8 1.01.9 1.0 4.5 0.9Pré-proc.

3.3 2.85.3 2.34.3 1.56.7 0.91.9 0.6 4.4 0.6Originais

EIIETotalNIE+EITotalDados

3.0 2.84.3 2.33.7 1.7---- --Pré-proc.

3.3 2.33.6 1.73.5 1.7---- --Originais

0.9 0.51.2 1.22.1 1.22.0 0.41.0 0.8 2.9 0.8Pré-proc.

2.1 2.31.7 1.11.9 1.12.2 0.61.3 0.8 3.6 0.9Originais

Experimento 1

AD

RNA

SVM

Page 74: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

74André de Carvalho

LABIC Teste de Significância

95 %95 %ADSVM

Pré-processadosOriginaisTécnica 2Técnica 1

80 %--ADRNA

95 %95 %ADSVM

95 %95 %RNASVM

Pré-processadosOriginaisTécnica 2Técnica 1

• Significância com que Técnica 1 é melhor que Técnica 2• Experimento 1:

• Experimento 2:

Page 75: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

75André de Carvalho

LABIC Análise de expressão gênica

Várias medidas foram testadas para a seleção de genes

Para as várias medidas foram selecionados 50, 10 e 4 genes, sendo metade hipo e metade hiper expressos

Para os casos 10 e 4 genes, os genes foram selecionados dentre aqueles com expressão > 5 (apenas 84 genes)

Page 76: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

76André de Carvalho

LABIC Experimentos

Os genes selecionados foram utilizados em um algoritmo de Aprendizado de Máquina (AM) AM utilizado para classificar se uma amostra é de

tecido normal ou com tumor, a partir dos dados de expressão desses genes

Objetivo: verificar quais entre várias medidas para seleção dos genes forneceu um conjunto de genes mais apropriado para a distinção tumor/normal

Page 77: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

77André de Carvalho

LABIC Bibliotecas empregadas

Normal 1 - SAGE_Brain_normal_cerebellum_B_1_FREQUENCY 2 - SAGE_Brain_normal_cerebellum_B_BB542_FREQUENCY 3 - SAGE_Brain_normal_cortex_B_BB542_FREQUENCY 4 - SAGE_Brain_normal_cortex_B_pool6_FREQUENCY 5 - SAGE_Brain_normal_peds_cortex_B_H1571_FREQUENCY 6 - SAGE_Brain_normal_thalamus_B_1_FREQUENCY

Tumor 7 - SAGE_Brain_astrocytoma_gradeIII_B_H1020_FREQUENCY 8 - SAGE_Brain_ependymoma_B_239_FREQUENCY 9 - SAGE_Brain_glioblastoma_B_GBM1062_FREQUENCY 10 - SAGE_Brain_glioblastoma_CL_H54+EGFRvIII_FREQUENCY 11 - SAGE_Brain_glioblastoma_CL_H54+LacZ_FREQUENCY 12 - SAGE_Brain_medulloblastoma_B_96-04-P019_FREQUENCY 13 - SAGE_Brain_medulloblastoma_B_98-04-P494_FREQUENCY 14 - SAGE_Brain_medulloblastoma_B_98-05-P608_FREQUENCY

Page 78: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

78André de Carvalho

LABIC Resultados

Classificações incorretasFórmula

4 genes10 genes50 genesMedida

010B(Difference)

000A(Ratio)

010D(Difference)

000E

010F (correlação de Pearson)

210I(Distância Euclidiana)

010H(Baseado em C e D)

010G (Baseado em A e B)

000C(Ratio)

n

iii cg

n 1

2)(1

n

iiicg

n 1

1

15

5

DifferenceRatio

15

5

DifferenceRatio)min()max¨(

)min()max¨(

RatioRatio

differencedifference

dpNdpT

MediaNMediaTcgp

),(

MediaNMediaT

SomaNSomaT

SomaNSomaT

Se MediaNMediaT MediaN

MediaT

MediaT

MediaN

Se

senão

SomaN

SomaT

SomaT

SomaNsenão

)min()max¨(

)min()max¨(

RatioRatio

differencedifference

Page 79: 1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

79André de Carvalho

LABIC Genes selecionados com as várias medidas

TAG UNIGENENo. de vezes que

foi selecionadoDescrição

AAGTTGCTAT 78575 1Prosaposin (variant Gaucher disease and variant metachromatic leukodystrophy)

AGGCTACGGA 119122 6 ribosomal protein L13a

ATGTGAAGAG 111779 1 secreted protein, acidic, cysteine-rich (osteonectin)

ATTTGAGAAG 178658 9 RAD23 homolog B (S. cerevisiae)

CACCTAATTG 334477 9 FLJ23277 protein

CCACTGCACT 107003 6 enhancer of invasion 10

CCTGTAATCC 138593 6 5'-nucleotidase (purine), cytosolic type B

CTGGGTTAAT 298262 5 ribosomal protein S19

GAGGGAGTTT 76064 8 ribosomal protein L27a

GGCAAGCCCC 334895 2 ribosomal protein L10a

GGCTGGGGGC 75721 3 profilin 1

GGGCTGGGGT 90436 2 sperm associated antigen 7

GTGAAACCCC 372737 6 hypothetical protein MGC3207

GTGAAACCCT 182476 1 hypothetical protein PP1226

GTGAAGGCAG 77039 3 ribosomal protein S3A

GTTGTGGTTA 75415 1 beta-2-microglobulin

TACCATCAAT 169476 1 glyceraldehyde-3-phosphate dehydrogenase

TACTAGTCCT 289088 8 heat shock 90kD protein 1, alpha

TAGGTTGTCT 279860 1 tumor protein, translationally-controlled 1

TGCACGTTTT 169793 3 ribosomal protein L32

TGCCTGCACC 135084 3 cystatin C (amyloid angiopathy and cerebral hemorrhage)

TGGAGTGGAG 3764 2 guanylate kinase 1

TGTACCTGTA 334842 2 tubulin, alpha, ubiquitous

TTGGGGTTTC 62954 1 ferritin, heavy polypeptide 1