79
1 André de Carvalho LABIC Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

Utilizando Inteligência Artificial em Bioinformática

  • Upload
    dmitri

  • View
    40

  • Download
    5

Embed Size (px)

DESCRIPTION

Utilizando Inteligência Artificial em Bioinformática. Prof. André de Carvalho LABIC - Universidade de São Paulo. Principais tópicos. Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilizando Inteligência Artificial Conclusão. IA e Bioinformática. - PowerPoint PPT Presentation

Citation preview

Page 1: Utilizando Inteligência Artificial em Bioinformática

1André de Carvalho

LABIC

Utilizando Inteligência Artificial em

Bioinformática

Prof. André de CarvalhoLABIC - Universidade de São Paulo

Page 2: Utilizando Inteligência Artificial em Bioinformática

2André de Carvalho

LABIC Principais tópicos

Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilizando Inteligência Artificial Conclusão

Page 3: Utilizando Inteligência Artificial em Bioinformática

3André de Carvalho

LABIC IA e Bioinformática

BIOLOGIA

Redes Neurais, Algorítmos genéticos

COMPUTAÇÃO

Bioinformática

Page 4: Utilizando Inteligência Artificial em Bioinformática

4André de Carvalho

LABIC Definições

Bioinformática Pesquisa e desenvolvimento de ferramentas

computacionais, matemáticas e estatísticas para a resolução de problemas da BiologiaBiologia molecular

A Computação está para a Biologia da mesmaforma que a Matemática está para a Física.

Harold Morowitz

Page 5: Utilizando Inteligência Artificial em Bioinformática

5André de Carvalho

LABIC Bioinformática

Nos últimos anos, diversos laboratórios têm trabalhado no seqüenciamento de vários genomas Até o ano 2000:

Mais que 30 organismos tinham sido seqüenciados Cerca de 150 organismos estavam sendo seqüenciados

Determinação da seqüência de nucleotídeos em uma molécula é o primeiro passo para entender seu funcionamento

Beneficia várias áreasMedicina - Farmácia - Agricultura

Page 6: Utilizando Inteligência Artificial em Bioinformática

6André de Carvalho

LABIC Crescimento do GenBank

0

2000000

4000000

6000000

8000000

10000000

12000000

1990 1992 1994 1996 1998 2000

Ano

Número de sequências armazenadas no banco de dados GenBank

Page 7: Utilizando Inteligência Artificial em Bioinformática

7André de Carvalho

LABIC Andamento de projetos genoma

73 genomas completos publicados Humano Camundongo Drosophila Arabidopsis Levedura

212 de procariotos em andamento 157 de eucariotos em andamento

Page 8: Utilizando Inteligência Artificial em Bioinformática

8André de Carvalho

LABIC Fração do genoma da levedura

CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGCCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATATCTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAAAAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAACGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGGTGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCAAGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCATCTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGTCTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGCAGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAGTTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGTTTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGGCTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGGTAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGGTTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATATTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCACACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTCTCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATTATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGTTCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTTCTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAATAGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAATTTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTTTCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTGTTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGGCTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGACTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATTTTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTATTATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGTTGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAGCAACTCATAATTTAA

Page 9: Utilizando Inteligência Artificial em Bioinformática

9André de Carvalho

LABIC Bioinformática

Ênfase está se deslocando progressivamente da acumulação de dados para a sua interpretação Com os seqüenciamentos realizados, uma grande

quantidade de dados tem sido gerada Estes dados precisam agora ser analisados Análise laboratorial destes dados é difícil e cara

Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos

Page 10: Utilizando Inteligência Artificial em Bioinformática

10André de Carvalho

LABIC Bioinformática

Para muitas destas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular

quase sempre geram dados com erros ou imprecisõesNa medição dos valores ou definição das classes

Inteligência Artificial fornecem técnicas eficientes para lidar com problemas deste tipo

Page 11: Utilizando Inteligência Artificial em Bioinformática

11André de Carvalho

LABIC Biologia Molecular

Estudo das células e moléculas Em particular: genoma dos organismos

Estruturas principais: Genes Cromossomos DNA RNA Proteínas

nucleotídeos

aminoácidos

Expressão

Gênica

Page 12: Utilizando Inteligência Artificial em Bioinformática

12André de Carvalho

LABIC Biologia Molecular

Dogma central da Biologia Molecular Transferência de Informação

Transcrição

Tradução

DNA

RNA

Proteínas

Replicação

Page 13: Utilizando Inteligência Artificial em Bioinformática

13André de Carvalho

LABIC Biologia Molecular

Algumas descobertas posteriores contradizem este dogma: RNA pode sofrer replicação em alguns vírus e

plantas RNA viral, através de uma enzima denominada

transcriptase reversa, pode ser transcrito em DNA DNA pode traduzir diretamente proteínas

específicas Sem passar pelo processo de transcrição

Page 14: Utilizando Inteligência Artificial em Bioinformática

14André de Carvalho

LABIC Biologia Molecular

DNA (Ácido Desoxirribonucleico) O DNA é uma molécula formada por duas fitas (dupla

fita) que se entrelaçam formando uma hélice dupla DNA é composto de quatro nucleotídeos diferentes

Adenina, Citosina, Guanina e Timina Fitas são mantidas juntas por ligações

que conectam cada nucleotídeo de uma fita ao seu complemento na outra

• A se liga com T e C se liga com G

Page 15: Utilizando Inteligência Artificial em Bioinformática

15André de Carvalho

LABIC Biologia Molecular

Genes Subseqüências de DNA

Localizados no cromossomo

Servem como molde para a produção de proteínas

Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras

Page 16: Utilizando Inteligência Artificial em Bioinformática

16André de Carvalho

LABIC Biologia Molecular

Proteínas Definem estrutura, função e mecanismos

regulatórios das célulasExemplos de mecanismos regulatórios: controle do

ciclo celular, transcrição gênica

Seqüências linearesCombinações de 20 aminoácidos diferentesTrês nucleotídeos (codon) formam um aminoácido

Page 17: Utilizando Inteligência Artificial em Bioinformática

17André de Carvalho

LABIC Biologia Molecular

Page 18: Utilizando Inteligência Artificial em Bioinformática

18André de Carvalho

LABIC Biologia Molecular

Expressão gênica Processo pelo qual genes são usados para

produzir proteínas Mecanismos de expressão gênica são diferentes

para organismos:Eucariotos

• Material genético difuso nas células (Ex.: bactérias)

Procariotos• Material genético em um núcleo (Ex.: seres humanos)

Page 19: Utilizando Inteligência Artificial em Bioinformática

19André de Carvalho

LABIC Processo de expressão gênica

Transcrição RNA polimerase é a molécula (enzima) que

transcreve DNA em RNA RNA polimerase começa a transcrição após se

ligar a um sinal regulatório no DNA chamado promotor

Gera molécula de RNA mensageiro (mRNA)

Page 20: Utilizando Inteligência Artificial em Bioinformática

20André de Carvalho

LABIC Processo de expressão gênica

Transcrição depende do organismo Organismos eucariotos

Cada gene é transcrito independentementeExiste um promotor antes de todo gene

Organismos procariotosVários genes consecutivos podem ser transcritos em

uma única molécula de RNANão existe necessariamente um promotor antes de

cada gene

Page 21: Utilizando Inteligência Artificial em Bioinformática

21André de Carvalho

LABIC Processo de expressão gênica

Tradução Sintetiza uma proteína utilizando como forma mRNA Leitura do mRNA é feita por uma molécula chamada de

ribossomo Mensagem lida é utilizada para montar uma cadeia de proteína

• Tripla de nucleotídeos consecutivos (codon) codifica um aminoácido

Código genético: mapeamento de codons em aminoácidos

Page 22: Utilizando Inteligência Artificial em Bioinformática

22André de Carvalho

LABIC Processo de expressão gênica

G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

DNA

mRNA

A

T

Page 23: Utilizando Inteligência Artificial em Bioinformática

23André de Carvalho

LABIC Processo de expressão gênica

T G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

A C G U C G A G G C C U G A G G U A . . .

DNA

mRNA

Page 24: Utilizando Inteligência Artificial em Bioinformática

24André de Carvalho

LABIC Processo de expressão gênica

T G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

A C G U C G A G G C C U G A G G U A . . .

DNA

mRNA

Tradução

Thr

Ribossomo

A C G

Page 25: Utilizando Inteligência Artificial em Bioinformática

25André de Carvalho

LABIC Processo de expressão gênica

T G C A G C T C C G G A C T C C A T . . . RNA Polimerase

promotor Transcrição

A C G U C G A G G C C U G A G G U A . . .

DNA

mRNA

Tradução RibossomoHis

LeuGlySer

Ser

Cys

Page 26: Utilizando Inteligência Artificial em Bioinformática

26André de Carvalho

LABIC Processo de expressão gênica

Estrutura de leitura Para uma dada faixa de DNA, nucleotídeos podem

ser agrupados em triplas de três formas diferentesUm dos nucleotídeos pode ocupar a 1a, 2a ou 3a

posição em um codonApenas um destes três possíveis agrupamentos é

realmente lido pelo ribossomoO agrupamento lido é chamado de estrutura de

leitura do gene

A T T A C G A A G

Page 27: Utilizando Inteligência Artificial em Bioinformática

27André de Carvalho

LABIC Processo de expressão gênica

Em organismos eucariotos, existe um outro passo importante durante o processo de expressão gênica Após o DNA ser transcrito, certas partes da molécula

são eliminadas antes de sua transformação em proteína

Genes em eucariotos são formados por segmentos alternados de exons e introns

Page 28: Utilizando Inteligência Artificial em Bioinformática

28André de Carvalho

LABIC Regiões de splice

Exons: Seqüências de nucleotídeos que são expressas (traduzidas

em proteínas) Introns:

Seqüências intercaladas que são eliminadas na tradução Regiões de splice (splice-junctions):

Pontos de fronteira onde ocorrem junções de exons e intronsDoadoras: bordas exon-intronAceptoras: bordas intron-exon

Page 29: Utilizando Inteligência Artificial em Bioinformática

29André de Carvalho

LABIC Splice-junctions

mRNA

intronexon

Splicing

DNA

Transcrição

mRNA

doador aceptor

Page 30: Utilizando Inteligência Artificial em Bioinformática

30André de Carvalho

LABIC Biologia Molecular e IA

Problemas da Biologia Molecular que podem ser tratados por IA Reconhecimento de genes Construção de árvores filogenéticas Análise de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de seqüências

Page 31: Utilizando Inteligência Artificial em Bioinformática

31André de Carvalho

LABIC Reconhecimento de genes

Um dos principais problemas em biologia molecular é a identificação de genes em seqüências de DNA não caracterizadas

Algoritmos convencionais não têm sido eficientes Variação natural dos genes Complexidade dos genes Natureza pouco compreendida dos genes

Abordagem promissora: Aprendizado de Máquina

Page 32: Utilizando Inteligência Artificial em Bioinformática

32André de Carvalho

LABIC Reconhecimento de genes

Duas abordagens principais têm sido seguidas:

Busca por sinal

Busca por conteúdo

Page 33: Utilizando Inteligência Artificial em Bioinformática

33André de Carvalho

LABIC Reconhecimento de genes

Busca por sinal Localiza genes indiretamente Procura sinais particulares relacionados com a

expressão de genes Sinal

Região localizada do DNA que realiza uma função específica (exemplo: se liga a uma enzima)

Page 34: Utilizando Inteligência Artificial em Bioinformática

34André de Carvalho

LABIC Reconhecimento de genes

Busca por conteúdo Reconhece genes diretamente Identifica segmentos de seqüências de DNA que

possuem as propriedades gerais de regiões codificadoras

Se baseia no conhecimento das diferentes propriedades estatísticas de regiões codificadoras e não codificadoras

Page 35: Utilizando Inteligência Artificial em Bioinformática

35André de Carvalho

LABIC Busca por sinal

É importante não apenas entender a função de cada gene Mas também os mecanismos que regulam a

expressão do gene Vários sinais exercem importantes funções

regulatórias definindo:Condições sob as quais os genes são expressosTaxa com a qual a expressão ocorre

Page 36: Utilizando Inteligência Artificial em Bioinformática

36André de Carvalho

LABIC Busca por sinal

Detecção de sinal já é um problema em si Vários sinais que podem ser identificados em

seqüências de nucleotídeos são importantes para a identificação de genes Sítios de início de transcrição (promotores) Sítios de término de transcrição (terminadores) Sítios de splice-junction Sítios de início da tradução (codons de iniciação) Sítios de término da tradução (codons de parada ou stop

codons)

Page 37: Utilizando Inteligência Artificial em Bioinformática

37André de Carvalho

LABIC Busca por sinal

Diferentes sinais têm diferentes dificuldades de identificação Codons de parada são facilmente identificados Identificação de outros sinais é mais complicada

Busca por sinal é uma tarefa de classificação Dada uma janela de tamanho fixo de um DNA,

determinar se ela contém um sinal de interesse Se uma característica identificável do sinal ocupa

uma posição particular na janela

Page 38: Utilizando Inteligência Artificial em Bioinformática

38André de Carvalho

LABIC Busca por sinal

Promotor na posição 3?

Classificador

Posição 1 = ‘C’Posição 2 = ‘T’Posição 3 = ‘T’Posição 4 = ‘A’Posição 5 = ‘C’Posição 6 = ‘G’

Representação das características

Seqüência de DNA ... A T C G T G C T T A C G C G T C C A1 2 3 4 5 6

Page 39: Utilizando Inteligência Artificial em Bioinformática

39André de Carvalho

LABIC Reconhecimento de início da tradução

Reconhece codons de iniciação Tradução de mRNA em proteína não começa

com sua primeira tripla de nucleotídeos Em organismos procariotos, uma simples

molécula de mRNA pode ter vários sítios de início de tradução Genes consecutivos podem ser transcritos em uma

única cadeia de mRNA

Page 40: Utilizando Inteligência Artificial em Bioinformática

40André de Carvalho

LABIC Reconhecimento de promotores

Sinal regulatório de uma molécula de DNA onde RNA polimerase se liga para começar a transcrição RNA polimerase é uma molécula que transcreve DNA

em RNA Auxilia na localização de genes no DNA Existem sítios amplamente aceitos como sendo as

regiões que fornecem as carecterísticas definidoras de promotores Regiões 10 e 35

Page 41: Utilizando Inteligência Artificial em Bioinformática

41André de Carvalho

LABIC Busca pelo conteúdo

Identifica genes reconhecendo padrões que que ocorrem na sua seqüência de nucleotídeos Regiões do DNA que serão traduzidas em proteínas

Organismos procariotos: distinguir genes de regiões não codificadoras

Organismos eucariotos: distinguir também introns de exons

Janelas de tamanho fixo também são utilizadas para esta previsão

Page 42: Utilizando Inteligência Artificial em Bioinformática

42André de Carvalho

LABIC Busca pelo conteúdo

Busca por conteúdo procura responder as seguintes perguntas: Quais são as regiões codificadoras Para uma dada região, que faixa e qual estrutura

de leitura codifica a proteína Várias propriedades podem ser exploradas

para distinguir regiões codificadoras de não codificadoras

Page 43: Utilizando Inteligência Artificial em Bioinformática

43André de Carvalho

LABIC Busca pelo conteúdo

Propriedades que podem ser exploradas: Alguns aminoácidos são usados mais freqüentemente que

outros em regiões codificadoras A existência de diferentes números de codons para

aminoácidos diferentes Codons que mapeiam em um dado aminoácido não são

usados igualmente na maioria dos organismos Não podem conter codons de parada Alguns codons têm maior probabilidade de serem vizinhos

Page 44: Utilizando Inteligência Artificial em Bioinformática

44André de Carvalho

LABIC Reconhecimento de genes

Abordagens mais promissoras em reconhecimento de genes: Combinam previsão de vários sinais diferentes

e regiões codificadoras Reconhecimento de operons

Genes consecutivos que são ativados ou desativados em conjunto

Page 45: Utilizando Inteligência Artificial em Bioinformática

45André de Carvalho

LABIC Redes Neurais Artificiais

Sistemas computacionais distribuídos baseados na estrutura e funcionamento do sistema nervoso Nodos simulam neurônios Conexões ponderadas simulam sinapses

Definidas por Arquitetura Aprendizado

Page 46: Utilizando Inteligência Artificial em Bioinformática

46André de Carvalho

LABIC Redes Neurais Artificiais

camada de entrada

camadas intermediárias

camada de saída

conexões

Page 47: Utilizando Inteligência Artificial em Bioinformática

47André de Carvalho

LABIC Redes Neurais Artificiais

Stormo et al (1982): reconhecimento de sítios de início de tradução no DNA de bactérias E. Coli Primeira aplicação de Redes Neurais em Bioinformática Utilizou rede Perceptron

... A T C G T G C T T A C G C G C G T ...

A C G T A C G T A C G T

Page 48: Utilizando Inteligência Artificial em Bioinformática

48André de Carvalho

LABIC

Reconhecimento de regiões de splicingRampone (1998)

Reconhecimento de promotoresMa e Wang (1999)

Bajic et al. (2002)

Previsão de estrutura de proteínasRiis et al (1995)

Polyac et al (1992)

Servidor GRAIL - identificação de genesUberbacher et al (1993)

Sítios de início de transcriçãoTowell et al (1990)

Problema abordadoTrabalho

Redes Neurais Artificiais

Page 49: Utilizando Inteligência Artificial em Bioinformática

49André de Carvalho

LABICAlgoritmos Genéticos

Técnica de busca e otimização Baseados na genética e teoria da seleção natural Utiliza uma população de soluções candidatas

(indivíduos)A cada indivíduo é associado um escore de aptidão, que

mede o quão boa é a solução que ele representa Otimização ocorre em várias gerações

A cada geração• Mecanismos de seleção selecionam os indivíduos mais aptos• Operadores de reprodução geram novos indivíduos

Page 50: Utilizando Inteligência Artificial em Bioinformática

50André de Carvalho

LABICAlgoritmos Genéticos

População atual

Reprodução

Avaliação

Seleção

População inicial População final

Page 51: Utilizando Inteligência Artificial em Bioinformática

51André de Carvalho

LABIC Algoritmos Genéticos

Alinhamento de seqüências: Uma a uma Uma com várias Identificar:

InserçõesRemoçõesSubstituições

Seq1: A G C C A T A T

Seq2: A C G C T A T A

Seq1: A G C C A T A T

Seq2: A C G C T A T A

Page 52: Utilizando Inteligência Artificial em Bioinformática

52André de Carvalho

LABIC Algoritmos Genéticos

Alinhamento de sequênciasZhang e Wong (1997)

Previsão de estrutura de proteínas

Alander (1995)

Krasnogor et al. (1999)

Problema abordadoTrabalho

Page 53: Utilizando Inteligência Artificial em Bioinformática

53André de Carvalho

LABIC Raciocínio Baseado em Casos

Resolve novos problemas adaptando soluções de problemas anteriores semelhantes

Nova solução

Novo problema1

2Solução

Problema

Solução

Problema

Page 54: Utilizando Inteligência Artificial em Bioinformática

54André de Carvalho

LABIC Raciocínio Baseado em Casos

RBC é mais que uma Base de Dados Não é uma tabela de busca

Sistemas de RBC procuram casos passados semelhantes ao problema atual em uma base de casos indexada Indexação e representação de casos facilitam

recuperação de casos relevantes e sua comparação com o problema atual

Permite adaptação de casos

Page 55: Utilizando Inteligência Artificial em Bioinformática

55André de Carvalho

LABIC Raciocínio Baseado em Casos

Ciclo de um sistema de RBC

(Aamodt, 1993)

Page 56: Utilizando Inteligência Artificial em Bioinformática

56André de Carvalho

LABIC Raciocínio Baseado em Casos

Alinhamento de seqüênciasHarris et al. (1993)

Reconhecimento de genesShavlik (1990, 1991)

Problema abordadoTrabalho

Page 57: Utilizando Inteligência Artificial em Bioinformática

57André de Carvalho

LABIC Classificadores de Margens Largas

Maximizam a margem de separação entre classes presentes nos dados Máquinas de Vetores Suporte (SVMs) Boosting Maior capacidade de generalização Baseados na Teoria de Aprendizado

EstatísticoVapnik e Chervonenkis (1968)Embute conceitos probabilísticos e estatísticos

Page 58: Utilizando Inteligência Artificial em Bioinformática

58André de Carvalho

LABIC Classificadores de Margens Largas

Máquinas de Vetores Suporte Encontra um hiperplano ótimo que separa classes em um

espaço abstrato

margem

Classe 1Classe 2

Page 59: Utilizando Inteligência Artificial em Bioinformática

59André de Carvalho

LABIC Classificadores de Margens Largas

Análise de expressão gênica

ExpressãoTecido normal Tecido com tumor

Gene T1 T2 T3 T1 T2 T3 1 128 100 30 20 10 9 2 20 10 18 104 210 47 3 29 130 7 37 310 40 4 21 12 15 92 123 84

Page 60: Utilizando Inteligência Artificial em Bioinformática

60André de Carvalho

LABIC Classificadores de Margens Largas

Promotores, reg. codificadorasAB, RNsJackson (1995)

DNA microarraySVMs, ADsBrown et al. (1999)

Subfamílias proteínasSVMsKarchin et al. (2002)

Especificidade proteínasADs, ABHuss et al. (2001)

Bem-Hur et al. (2000)

Furey et al. (2001)

Zien et al. (2000)

Ding e Dubchak (2001)

Trabalho

DNA microarraySVMs, AB, clusterização

DNA microarraySVMs

Sítios de início de traduçãoSVMs

Estrutura proteínasSVMs, RNs

Problema abordadoTécnicas

Page 61: Utilizando Inteligência Artificial em Bioinformática

61André de Carvalho

LABIC Árvores de Decisão

Organizam informações em estrutura composta de nós e ramificações Nós: testes sobre atributos; Ramos: resultados dos testes

sorrisorri

segurasegura inimigoinimigo

nãosim

inimigoinimigo amigoamigo

espada balão oubandeira

Page 62: Utilizando Inteligência Artificial em Bioinformática

62André de Carvalho

LABIC Árvores de Decisão

Lapedes et al (1989): detecção de regiões de splicing (regiões doadoras) Entrada: cadeia de nucleotídeos

PositivoPositivo

Posição 8 = ?Posição 8 = ?

Posição 3 = ?Posição 3 = ? NegativoNegativo Posição 9 = ?Posição 9 = ?

A C G T

A C G T

NegativoNegativo NegativoNegativo NegativoNegativoNegativoNegativoPositivoPositivo PositivoPositivo

A C G T

NegativoNegativo

Page 63: Utilizando Inteligência Artificial em Bioinformática

63André de Carvalho

LABICOutras técnicas

Eddy (1998)Detecção de genesCadeias de Markov

Guan et al (1994)Estrutura de proteínas

RNAs, AGs e k-NN

Dond e Searls (1994)

Previsão da estrutura de genes

Lingüística computacional

Friedman et al (2000)

Detecção de genesRedes Baysianas

TrabalhoProblemaTécnica

Page 64: Utilizando Inteligência Artificial em Bioinformática

64André de Carvalho

LABIC Projeto Fapesp Genoma Clínico

Genoma do câncer humano Dados clínicos e de expressão gênica

Sage, PCR, Microarray e MPSS

9 tipos de câncer Análise de expressão gênica Data mining Utiliza técnicas de Aprendizado de Máquina FAPESP e Instituto Ludwig

Page 65: Utilizando Inteligência Artificial em Bioinformática

65André de Carvalho

LABIC Projeto CNPq - Bioinformática

Reconhecimento de genes Identificação de promotores Reconhecimento de regiões de splicing Reconhecimento de regiões codificadoras Utiliza SVMs, AB e RNs Metodologias para melhorar desempenho

Redução de ruídosSeleção de atributos

CNPq e FAPESP

Page 66: Utilizando Inteligência Artificial em Bioinformática

66André de Carvalho

LABICProjeto CNPq - Bioinformática

Melhoramento genético Utiliza marcadores moleculares para avaliar

potencial genético10 marcadores (2 já foram avaliados)

Identificação de cruzamentos mais promissoresPrevisão de ganho de peso entre nascimento e

desmama

Utiliza SVMs e RNs CNPq e Embrapa

Page 67: Utilizando Inteligência Artificial em Bioinformática

67André de Carvalho

LABIC Referências de IA e Bioinformática

Artificial Intelligence and Molecular Biology Editado por Lawrence Hunter, AAAI Press Book Disponível gratuitamente na internet

Bioinformatics (Adaptive Computation and Machine Learning) Pierre Baldi, Soren Brunak, Sren Brunak, MIT Press

Neural Networks and Genome Informatics Cathy H. Wu, Jerry W. McLarty, Elssevier

Data Analysis and Classification for Bioinformatics Arun Jagota

Page 68: Utilizando Inteligência Artificial em Bioinformática

68André de Carvalho

LABIC Conclusão

Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilização de IA em Bioinformática

Page 69: Utilizando Inteligência Artificial em Bioinformática

69André de Carvalho

LABIC Agradecimentos

Ana Carolina Lorena Cláudia Regina Milaré Humberto de Sousa Silvia Gorla Modonese da Silva Alexandre Delbem Katti Faceli Welington Martins

Page 70: Utilizando Inteligência Artificial em Bioinformática

70André de Carvalho

LABIC Reconhecimento de regiões de splicing

DadosDados: regiões de splicing de primatas (UCI) Divisão do problemaDivisão do problema:

Identificação de presença da região (Experimento 1) Determinação do tipo da região (Experimento 2)

intron-exon exon-intron

Técnicas: Árvores de Decisão (ADs) Redes Neurais Artificiais (RNAs) Máquinas de Vetores Suporte (SVMs)

Page 71: Utilizando Inteligência Artificial em Bioinformática

71André de Carvalho

LABIC Pré-processamento dos dados

Heurística Tomek linksHeurística Tomek links: identificar Dados classificados incorretamente Borderlines 5 - 6 % dados

Page 72: Utilizando Inteligência Artificial em Bioinformática

72André de Carvalho

LABIC Resultados

ADs:ADs: diminuição do tamanho das árvores induzidas

(10 - 33 %) RNAs:RNAs:

menor tempo de treinamento (20 %) SVMs:SVMs:

menor tempo de treinamento (7 - 15 %) menor número de vetores suporte (6 - 10 %)

Page 73: Utilizando Inteligência Artificial em Bioinformática

73André de Carvalho

LABIC

Experimento 2

Erros obtidos (%)

3.7 2.45.3 2.44.5 1.66.8 1.01.9 1.0 4.5 0.9Pré-proc.

3.3 2.85.3 2.34.3 1.56.7 0.91.9 0.6 4.4 0.6Originais

EIIETotalNIE+EITotalDados

3.0 2.84.3 2.33.7 1.7---- --Pré-proc.

3.3 2.33.6 1.73.5 1.7---- --Originais

0.9 0.51.2 1.22.1 1.22.0 0.41.0 0.8 2.9 0.8Pré-proc.

2.1 2.31.7 1.11.9 1.12.2 0.61.3 0.8 3.6 0.9Originais

Experimento 1

AD

RNA

SVM

Page 74: Utilizando Inteligência Artificial em Bioinformática

74André de Carvalho

LABIC Teste de Significância

95 %95 %ADSVM

Pré-processadosOriginaisTécnica 2Técnica 1

80 %--ADRNA

95 %95 %ADSVM

95 %95 %RNASVM

Pré-processadosOriginaisTécnica 2Técnica 1

• Significância com que Técnica 1 é melhor que Técnica 2• Experimento 1:

• Experimento 2:

Page 75: Utilizando Inteligência Artificial em Bioinformática

75André de Carvalho

LABIC Análise de expressão gênica

Várias medidas foram testadas para a seleção de genes

Para as várias medidas foram selecionados 50, 10 e 4 genes, sendo metade hipo e metade hiper expressos

Para os casos 10 e 4 genes, os genes foram selecionados dentre aqueles com expressão > 5 (apenas 84 genes)

Page 76: Utilizando Inteligência Artificial em Bioinformática

76André de Carvalho

LABIC Experimentos

Os genes selecionados foram utilizados em um algoritmo de Aprendizado de Máquina (AM) AM utilizado para classificar se uma amostra é de

tecido normal ou com tumor, a partir dos dados de expressão desses genes

Objetivo: verificar quais entre várias medidas para seleção dos genes forneceu um conjunto de genes mais apropriado para a distinção tumor/normal

Page 77: Utilizando Inteligência Artificial em Bioinformática

77André de Carvalho

LABIC Bibliotecas empregadas

Normal 1 - SAGE_Brain_normal_cerebellum_B_1_FREQUENCY 2 - SAGE_Brain_normal_cerebellum_B_BB542_FREQUENCY 3 - SAGE_Brain_normal_cortex_B_BB542_FREQUENCY 4 - SAGE_Brain_normal_cortex_B_pool6_FREQUENCY 5 - SAGE_Brain_normal_peds_cortex_B_H1571_FREQUENCY 6 - SAGE_Brain_normal_thalamus_B_1_FREQUENCY

Tumor 7 - SAGE_Brain_astrocytoma_gradeIII_B_H1020_FREQUENCY 8 - SAGE_Brain_ependymoma_B_239_FREQUENCY 9 - SAGE_Brain_glioblastoma_B_GBM1062_FREQUENCY 10 - SAGE_Brain_glioblastoma_CL_H54+EGFRvIII_FREQUENCY 11 - SAGE_Brain_glioblastoma_CL_H54+LacZ_FREQUENCY 12 - SAGE_Brain_medulloblastoma_B_96-04-P019_FREQUENCY 13 - SAGE_Brain_medulloblastoma_B_98-04-P494_FREQUENCY 14 - SAGE_Brain_medulloblastoma_B_98-05-P608_FREQUENCY

Page 78: Utilizando Inteligência Artificial em Bioinformática

78André de Carvalho

LABIC Resultados

Classificações incorretasFórmula

4 genes10 genes50 genesMedida

010B(Difference)

000A(Ratio)

010D(Difference)

000E

010F (correlação de Pearson)

210I(Distância Euclidiana)

010H(Baseado em C e D)

010G (Baseado em A e B)

000C(Ratio)

n

iii cg

n 1

2)(1

n

iiicg

n 1

1

15

5

DifferenceRatio

15

5

DifferenceRatio)min()max¨(

)min()max¨(

RatioRatio

differencedifference

dpNdpT

MediaNMediaTcgp

),(

MediaNMediaT

SomaNSomaT

SomaNSomaT

Se MediaNMediaT MediaN

MediaT

MediaT

MediaN

Se

senão

SomaN

SomaT

SomaT

SomaNsenão

)min()max¨(

)min()max¨(

RatioRatio

differencedifference

Page 79: Utilizando Inteligência Artificial em Bioinformática

79André de Carvalho

LABIC Genes selecionados com as várias medidas

TAG UNIGENENo. de vezes que

foi selecionadoDescrição

AAGTTGCTAT 78575 1Prosaposin (variant Gaucher disease and variant metachromatic leukodystrophy)

AGGCTACGGA 119122 6 ribosomal protein L13a

ATGTGAAGAG 111779 1 secreted protein, acidic, cysteine-rich (osteonectin)

ATTTGAGAAG 178658 9 RAD23 homolog B (S. cerevisiae)

CACCTAATTG 334477 9 FLJ23277 protein

CCACTGCACT 107003 6 enhancer of invasion 10

CCTGTAATCC 138593 6 5'-nucleotidase (purine), cytosolic type B

CTGGGTTAAT 298262 5 ribosomal protein S19

GAGGGAGTTT 76064 8 ribosomal protein L27a

GGCAAGCCCC 334895 2 ribosomal protein L10a

GGCTGGGGGC 75721 3 profilin 1

GGGCTGGGGT 90436 2 sperm associated antigen 7

GTGAAACCCC 372737 6 hypothetical protein MGC3207

GTGAAACCCT 182476 1 hypothetical protein PP1226

GTGAAGGCAG 77039 3 ribosomal protein S3A

GTTGTGGTTA 75415 1 beta-2-microglobulin

TACCATCAAT 169476 1 glyceraldehyde-3-phosphate dehydrogenase

TACTAGTCCT 289088 8 heat shock 90kD protein 1, alpha

TAGGTTGTCT 279860 1 tumor protein, translationally-controlled 1

TGCACGTTTT 169793 3 ribosomal protein L32

TGCCTGCACC 135084 3 cystatin C (amyloid angiopathy and cerebral hemorrhage)

TGGAGTGGAG 3764 2 guanylate kinase 1

TGTACCTGTA 334842 2 tubulin, alpha, ubiquitous

TTGGGGTTTC 62954 1 ferritin, heavy polypeptide 1