131
análise de dados genéticos: um problema de big data a cada novo paciente RBras 2016 - Salvador, BA Marcus Nunes 24 e 25 de maio de 2016 Universidade Federal do Rio Grande do Norte

Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

análise de dados genéticos: um problema debig data a cada novo pacienteRBras 2016 - Salvador, BA

Marcus Nunes24 e 25 de maio de 2016

Universidade Federal do Rio Grande do Norte

Page 2: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem sou eu?

Page 3: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem sou eu?

• Sou Marcus Nunes, Ph.D. em Estatística pela Penn StateUniversity

• Professor na UFRN• Meus interesses principais são as aplicações da Estatística emgrandes conjuntos de dados, como genética, climatologia esaúde

[email protected]• http://marcusnunes.me/rbras-2016/

3

Page 4: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

sobre o que é este minicurso?

Page 5: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

sobre o que é este minicurso?

• Uma introdução à análise de dados genéticos• Vamos entender de onde estes dados vem• Como eles podem ser preparados para a análise• E realizaremos testes estatísticos nestes dados

5

Page 6: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

sobre o que é este minicurso?

• O que é Big Data?• Quem trabalha com Big Data?• Uma ideia geral sobre DNA• Fundamentos estatísticos• Aplicação em um conjunto real de dados

6

Page 7: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que é big data?

Page 8: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que é big data?

• Não existe consenso a respeito de uma definição sobre o querealmente é big data

• A área ainda é nova; não houve tempo para o conhecimentosedimentar

• Em geral, diz respeito a áreas do conhecimento onde asferramentas de análise de dados tradicionais não são a melhorescolha possível

8

Page 9: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o oue é big data?

• Big Data são os dados que possuem 3 V:• Volume• Velocidade• Variedade

9

Page 10: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que é big data?

• Uma outra definição de Big Data se vale da Estatística para serformulada

• Podemos considerar um conjunto de dados como Big Data se otempo que levamos para ajustar um modelo aos dados é maiordo que o tempo utilizado para a escolha deste modelo

10

Page 11: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que é big data?

• Mike Franklin, da Universidade de Berkeley, diz o seguinte:• “Big Data é todo conjunto de dados caro para manter emanipular e de onde é difícil extrair informações”

• Esta definição é relativa: para alguns, dados na casa dosterabytes podem ser caros para manter; para outros, dados nacasa dos petabytes podem ser baratos para manter

11

Page 12: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem trabalha com big data?

Page 13: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem trabalha com big data?

• Competências de um profissional 100% capacitado paratrabalhar com Big Data:

• Estatística• Programação• Negócios• Conhecer bem a área de atuação (internet, marketing, áreafinanceira, biologia etc)

13

Page 14: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem trabalha com big data?

• Que tipo de profissionais temos no momento?• Bons estatísticos e matemáticos que escrevem códigos semotimização

• Bons cientistas da computação que entendem um pouco deestatística e matemática

• Bons cientistas da computação que entendem um pouco denegócios, depois de muita experiência na área

• Doutores em biologia ou genética• Gerentes que sabem fazer estas pessoas trabalharem juntas

14

Page 15: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem trabalha com big data?

• Estatísticos• Programadores• Físicos• Cientistas de Dados

15

Page 16: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem trabalha com big data?

• Cientista de Dados (Data Scientist) é um novo nome paraEstatístico

• Alguns dizem que o Cientista de Dados é um Estatístico quemora em São Francisco e usa um Mac

• No fundo, ambos são a mesma coisa, embora uma destasprofissões trabalhe melhor seu marketing pessoal

16

Page 17: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem já jogou rpg?

17

Page 18: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

quem já jogou rpg?

17

Page 19: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

malcolm gladwell - outliers

Deficiência Crítica

Aprendiz - 2.000 horas

Especialista - 10.000 horas

18

Page 20: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que um bioestatístico precisa saber

EST

ESTatística: coletar, organizar, analisar einterpretar dados, provar teoremas emanipular expressões algébricas

19

Page 21: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que um bioestatístico precisa saber

EST SIS

SIStemas: ser proficiente em computaçãoem geral, sabendo como usar diferentesprogramas e sistemas operacionais

20

Page 22: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que um bioestatístico precisa saber

EST SIS ALG

ALGoritmos: ser capaz de traduzir procedimentose instruções para a realização de uma tarefaem alguma linguagem de programação

21

Page 23: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que um bioestatístico precisa saber

EST SIS ALG COM

COMunicação: entender problemas deoutras áreas e comunicar suasconclusões para outras pessoas

22

Page 24: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que um bioestatístico precisa saber

EST SIS ALG COM PER

PERsistência: tentar diferentes maneiras deencarar os problemas, mesmo quando

eles parecem sem solução

23

Page 25: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que um bioestatístico precisa saber

EST SIS ALG COM PER SOR

SORte: estar no lugar certo e na hora certae ter as habilidades necessárias

quando esta hora chegar

24

Page 26: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que eu sei

EST SIS ALG COM PER SOR

25

Page 27: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

não é bom estar na média

EST SIS ALG COM PER SOR

26

Page 28: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

seja muito bom em algumas áreas

EST SIS ALG COM PER SOR

27

Page 29: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

dna

Page 30: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

dna

• Descrito pela primeira vez em 1948 (Watson e Crick)• A genética já era conhecida anteriormente• Mendel e suas ervilhas• Francis Galton e a eugenia

29

Page 31: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

estrutura química do dna

NH2

N

N NH

N

O

HN

O NH

CH3

Adenina Timina

NH2

N

O NH

O

HN

NH2 N NH

N

Citosina Guanina

30

Page 32: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

mas para que serve o dna?

• Tudo• Cor dos olhos, altura, propensão a sofrer de doenças, testes depaternidade no Programa do Ratinho

• Codifica aminoácidos em proteínas

31

Page 33: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

mais sobre dna

• Cada nucleotídeo é uma base• A adenina liga-se apenas com a timina, enquanto a citosinaliga-se apenas com a guanina

• O genoma humano possui mais de 3 bilhões de pares de base

32

Page 34: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

estrutura do dna

33

Page 35: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

o que desejamos saber sobre o dna?

• Expressão gênica• Processo em que a informação de um gene é utilizada nasíntese de um produto gênico

• Em geral, transformar um ou mais aminoácidos em proteínas

34

Page 36: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

tecnologias de sequenciamento

• Sanger sequencing• Microarrays• RNA-Seq

35

Page 37: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

sanger sequencing

• Usado no Projeto Genoma Humano• Custou US$ 2,7 bilhões• 13 anos para ficar pronto

36

Page 38: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

microarrays

37

Page 39: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

microarrays

• Estão caindo em desuso• Preço entre US$ 200 e US$ 650 por array• Maior disponibilidade no mercado

38

Page 40: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

rna-seq

12 + 19 + 5

39

Page 41: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

rna-seq

• Método cuja utilização vem crescendo mais ultimamente• Cada sequenciamento custa entre US$ 40 e US$ 2.000 (em maiode 2016)

• Leva entre 2 horas e 11 dias para ficar pronta, variando deacordo com a tecnologia utilizada

40

Page 42: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

minion

• Tecnologia desenvolvida na universidade de Oxford e lançadaem maio de 2015

• Cada chip de sequenciamento custa US$ 1000• Em breve, a análise poderá ser feita em tempo real

41

Page 43: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

minion

42

Page 44: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

pipeline

1. Preparação da amostra2. Sequenciamento3. Alinhamento das leituras4. Controle de qualidade5. Análise e descrição dos resultados

43

Page 45: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

preparação da amostra e sequenciamento

• Não nos interessa aqui• Função de um biólogo ou bioinformata• Depende da tecnologia utilizada

44

Page 46: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

exemplo de sequenciamento

@SRR014849.1 EIXKN4201CFU84 length=50GGGGGGGGGGGGGGGGCTTTTTTTGTTTGGAACCGAAAGGGTTTTGAAT+SRR014849.1 EIXKN4201CFU84 length=503+&$#”””””””””””7F@71,’”;C?,B;?6B;:EA1EA 1EA5’9B:

@título e descrição opcionallinha com o que foi sequenciado+repetição opcional do títulolinha com as qualidades da sequência

45

Page 47: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

alinhamento das leituras

• Genoma de referência• bowtie, SAMtools, bedtools• Análise e descrição dos resultados

46

Page 48: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

recursos

• Bioconductor - http://bioconductor.org/• Gene Expression Omnibus (GEO)http://www.ncbi.nlm.nih.gov/geo/

• BioStars - http://www.biostars.org/

47

Page 49: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

sequenciar genomas é cada vez mais barato

• Projeto Genoma Humano: 13 anos, US$ 2,7 bilhões• RNA-Seq: 8 horas, entre US$ 805 e $1.700• MiniON: tempo real, US$ 900

48

Page 50: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

custo de sequenciamento

Fonte: http://genome.gov49

Page 51: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

custo de sequenciamento

Fonte: http://genome.gov50

Page 52: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

futuro da genômica

Fonte: Green and Guyer (2011)51

Page 53: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

métodos

Page 54: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

pipeline

Obter SRAConverterpara FASTQ

Baixar Genomade Referênciae AnotaçãoGênica

Controle deQualidade

Alinhar aoGenoma deReferência

Criar arquivosBAM e SAM

Verificar oAlinhamento

Contar asLeituras

AnáliseEstatística

53

Page 55: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

planejamento de experimentos

• Experimentos de RNA-Seq devem ser planejados corretamente• Máximo de informação• Mínimo de custo

54

Page 56: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

planejamento de experimentos

• Amostragem• Replicação• Agrupamento em blocos• Aleatorização

55

Page 57: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

amostragem

• Ideias similares às de outros tipos de experimentos• Definir claramente a nossa população de interesse• Obter amostras representativas

56

Page 58: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

aleatorização

• Fazer comparações entre tratamentos• Sujeitos distribuídos de maneira aleatória• Evitar vícios

57

Page 59: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

replicação

• Número suficiente de sujeitos no estudo• Replicação biológica• Replicação técnica

58

Page 60: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

agrupamento em blocos

• Reduzir a variabilidade na análise• Agrupando sujeitos similares• Bloco incompleto equilibrado

59

Page 61: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

agrupamento em blocos

60

Page 62: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

modelagem

• Dados discretos• Não-normalidade• Testes múltiplos

61

Page 63: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

distribuição de contagens

0 2000 4000 6000 8000

Cullen and Frey graph

square of skewness

kurt

osi

s

11363

9737

8246

6755

5264

3773

2282

927

Observation

bootstrapped values

Theoretical distributions

normalnegative binomial

Poisson

62

Page 64: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

distribuições

Poisson

• f(x|λ) = e−λλx

x!

• E(Y) = λ

• Var(Y) = λ

Binomial Negativa

• f(y|r,p) =(r+y−1

y)pr(1− p)y

• E(Y) = pr1−p

• Var(Y) = pr(1−p)2

• f(y|µ,ϕ) = Γ(y+ϕ−1)Γ(ϕ−1)Γ(y+1)

(1

1+ϕµ

)ϕ−1 (ϕµ1+ϕµ

)y• E(Y) = µ

• Var(Y) = µ+ ϕµ2

63

Page 65: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

modelos lineares generalizados

• Uma distribuição de probabilidade, da família exponencial, parao vetor resposta Y

• Um preditor linear para a esperança η = Xβ, que especifica asvariáveis explicativas do modelo

• Uma função de ligação g(·) que relaciona η e µ tal que η = g(µ)

64

Page 66: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

modelos lineares generalizados

• f(y|θ, ϕ) = exp{yiθi−κ(θi)

αi(ϕ)+ c(yi|ϕ)

}• κ′(θi) = E(Y)• κ′′(θi) = Var(Y)

65

Page 67: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

edgeR

66

Page 68: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

edger

• Estimador de máxima verossimilhança condicional ajustadapelos quantis (Robinson e Smyth, 2010)

• Todas as amostras i no experimento possuem o mesmotamanho (i.e., mi = m)

• A soma Z = Y1 + Y2 + · · ·+ Yk ∼ NB(kmλ, ϕk−1) é verdadeira

67

Page 69: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

edger

• Condicionando a verossimilhança em Z e tomando seulogaritmo natural, temos

L(z|ϕ) =[ k∑i=1

log Γ(yi + ϕ−1)

]+ log Γ(nϕ−1)

− log Γ(z+ kϕ−1)− k log Γ(ϕ−1)

• Com a equação acima é possível construir um método deestimação para o parâmetro ϕ

68

Page 70: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

edger

• Seja m∗ =(∏k

i=1mi

) 1k a média geométrica dos tamanhos das

bibliotecas• Os dados observados são ajustados como se eles tivessem sidoamostrados a partir de uma distribuição NB(m∗λ, ϕ)

69

Page 71: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

edger

1. Encontre ϕ, o estimador CML que maximiza a verossimilhançacondicional

2. Dada a estimativa de ϕ, estime λ

3. Assumindo que yi ∼ NB(miλ, ϕ), calcule os percentis observados

pi = P(Y < yi|miλ,ϕ) +12P(Y = yi|miλ,ϕ), (1)

i = 1,2, · · · ,k (2)

4. Utilizando a interpolação linear das funções dos quantis, gerepseudo-dados de uma distribuição NB(m∗λ, ϕ), com quantis pi

5. Calcule ϕ utilizando a CML nos pseudo-dados6. Repita os passos 2 a 5 até ϕ convergir

70

Page 72: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

edger

• É possível definir um teste exato• Para dois grupos A e B, definimos ZtA e ZtB como as somas daspseudo-contagens destes grupos, sobre o número de amostraskA e kB. Sob a hipótese nula,

Ztl ∼ NB(nlm∗λt, ϕn−1l ), l ∈ {A,B}

• Condicionando na soma das pseudo-contagens totais, ZtA + ZtBtambém é uma variável aleatória Binomial Negativa

71

Page 73: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

ma plot

• O MA Plot é uma aplicação do gráfico de Bland-Altman emestudos genéticos

• Visa detectar diferenças sistemáticas entre duas replicações deum mesmo experimento

• Se estamos interessados na certa característica R de umexperimento com duas replicações R1 e R2, então ascoordenadas cartesianas (x, y) do MA Plot são dadas por

R(x,y) =(R1 + R22 ,R1 − R2

)

72

Page 74: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

ma plot

●●

300 400 500 600

−10

0−

500

5010

0

Média

Dife

renç

a

73

Page 75: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

comparações múltiplas

• É como chamamos o fato de realizarmos duas ou maisinferências simultâneas

• No caso de testarmos apenas uma hipótese, definimos umaregião de rejeição para controlar a taxa de falsos positivos,conhecidos como Erros do Tipo I, enquanto atingimos o mínimopossível para a taxa de falsos negativos, chamados de Erros doTipo II

• Conforme o número de testes aumenta, torna-se cada vez maisprovável que os grupos controle e tratamento diferenciem-seem pelo menos uma característica apenas devido à chance

74

Page 76: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

comparações múltiplas

• Quando determinamos um nível α para o Erro Tipo I de umteste estatístico, estamos na verdade dizendo que “α× 100%das vezes em que deveríamos rejeitar a hipótese alternativa,nós estamos aceitando-a”

• Ou seja, se testamos a mesma hipótese nula 100 vezes, com umnível α = 0,05, rejeitaremos H0 em 5 destes testes, mesmo H0sendo verdade

• Existem diversas maneiras deste problema ser corrigido

75

Page 77: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

correção de bonferroni

• Se o nível desejado para erros do Tipo I em m testes realizadosé (no máximo) α, então α/m é o valor da correção de Bonferronipara estes testes

• Justificativa:P(pelo menos um res. sig.) = 1− P(nenhum res. sig.)P(pelo menos um res. sig.) = 1− (1− α)m

76

Page 78: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

correção de bonferroni

• Se α = 0,05 e m = 100,

P(pelo menos um res. sig.) = 1− P(nenhum res. sig.)P(pelo menos um res. sig.) = 1− (1− 0,05)100P(pelo menos um res. sig.) = 0,9941

• Método conservador

77

Page 79: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

fdr

• False Discovery Rate• Um conjunto de predições possui um percentual esperando defalsas predições

• Para uma série de testes de hipóteses independentes, a FDR édada por

FDR = E(

VV+ S

)onde V é o número de falsos positivos e S é o número deverdadeiros positivos

78

Page 80: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

fdr

Verdade Decisão TotalNão-significativo Significativo

Hipótese nula U V m0Hipótese alternativa T S m−m0Total m− r r m

79

Page 81: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

fdr

• Combinamos os p-valores de cada teste num único vetor dep-valores. Após este vetor ser compilado, duas etapas sãorealizadas:1. Ordenar os m p-valores calculados do menor para o maior,denominando-os como p(1),p(2), · · · ,p(m)

2. Encontrar o maior k tal que p(k) ≤ kmα

• Assumindo que os testes de hipóteses são independentes, estemétodo controla a FDR desejada

80

Page 82: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

aplicação

Page 83: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

aplicação

• O conjunto de dados analisado aqui foi disponibilizado porBrooks et al. (2011)

• Sete amostras de Drosophila melanogaster, conhecidapopularmente como mosca das frutas

• 3 amostras tratadas com siRNA (short interfering RNA -tratamento) e 4 amostras sem tratamento (controle)

82

Page 84: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

Hardware e Software Necessário

83

Page 85: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

hardware e software necessário

• O ideal é utilizar um máquina com um sistema operacional *nix,seja Linux, Unix ou OS X

• Se possível, com vários processadores• Um computador com 8 processadores, 8GB de RAM e um HDespaçoso já é um bom começo

• Entretanto, o seu computador pessoal pode dar conta dorecado, embora seja um pouco lento

• Se o seu local de trabalho possui um cluster, aproveite-o!

84

Page 86: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

hardware e software necessário

• Alinhador de sequências: tophat2 -https://ccb.jhu.edu/software/tophat/index.shtml

• Visualizador de arquivos: IGV -https://www.broadinstitute.org/igv/

85

Page 87: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

hardware e software necessário

• Programa estatístico: R - http://r-project.org/• Pacotes do R: ShortRead, DESeq, edgeR, GenomicRanges,GenomicFeatures, org.Dm.eg.dm e suas dependências

86

Page 88: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

hardware e software necessário

• Ferramenta para trabalhar com arquivos BAM e SAM: samtools- http://samtools.sourceforge.net/

• Ferramenta para contagem de leituras mapeadas: HTSeq -http://www-huber.embl.de/HTSeq/doc/overview.html

• Conversor de arquivos SRA: SRA Toolkit - http://www.ncbi.nlm.nih.gov/Traces/sra/?view=software

87

Page 89: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

hardware e software necessário

• Gerenciadores de pacotes podem facilitar a instalação destesprogramas

• Homebrew: http://brew.sh/ (OS X)• Linuxbrew: http://linuxbrew.sh/ (testei no Ubuntu eCentOS)

88

Page 90: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

hardware e software necessário

• Todos os programas citados aqui são gratuitos• Muitos deles são de código aberto, permitindo que sejamalterados e personalizados de acordo com seu uso

• Além disso, estão em constante atualização

89

Page 91: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

Preparação dos Dados

90

Page 92: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

baixar os arquivos sra

> sri <- read.csv(”SraRunInfo.csv”, stringsAsFactors=FALSE)> keep <- grep(”CG8144|Untreated-”, sri$LibraryName)> sri <- sri[keep, ]>> fs <- basename(sri$download_path)

91

Page 93: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

baixar os arquivos sra

> fs

## [1] ”SRR031714.sra” ”SRR031715.sra” ”SRR031716.sra”## [4] ”SRR031717.sra” ”SRR031724.sra” ”SRR031725.sra”## [7] ”SRR031726.sra” ”SRR031727.sra” ”SRR031708.sra”## [10] ”SRR031709.sra” ”SRR031710.sra” ”SRR031711.sra”## [13] ”SRR031712.sra” ”SRR031713.sra” ”SRR031718.sra”## [16] ”SRR031719.sra” ”SRR031720.sra” ”SRR031721.sra”## [19] ”SRR031722.sra” ”SRR031723.sra” ”SRR031728.sra”## [22] ”SRR031729.sra”

92

Page 94: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

baixar os arquivos sra

> for(i in 1:nrow(sri)){+ download.file(sri$download_path[i], fs[i])+ }

93

Page 95: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

converter os arquivos .sra para fastq

> stopifnot(all(file.exists(fs)))> for(f in fs) {+ cmd <- paste(”fastq-dump --split-3”, f)+ cat(cmd,”\n”)+ system(cmd)+ }

94

Page 96: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

baixar o genoma de referência e anotações gênicas

> # baixar o genoma de referencia>> system(”wget ftp://ftp.ensembl.org/pub/release-70/fasta/drosophila_melanogaster/dna/Drosophila_melanogaster.BDGP5.70.dna.toplevel.fa.gz”)> system(”gunzip Drosophila_melanogaster.BDGP5.70.dna.toplevel.fa.gz”)>> # baixar as anotacoes dos genes>> system(”wget ftp://ftp.ensembl.org/pub/release-70/gtf/drosophila_melanogaster/Drosophila_melanogaster.BDGP5.70.gtf.gz”)> system(”gunzip Drosophila_melanogaster.BDGP5.70.gtf.gz”)

95

Page 97: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

construir o índice de referência

> system(”bowtie2-build -fDrosophila_melanogaster.BDGP5.70.dna.toplevel.faDme_BDGP5_70”)

96

Page 98: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

verificar a qualidade do sequenciamento

> library(”ShortRead”)> fqQC <- qa(dirPath=”.”, pattern=”.fastq$”, type=”fastq”)> report(fqQC, type=”html”, dest=”fastqQAreport”)

97

Page 99: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

colocar a tabela inicial num formato com uma amostra porlinha

> sri$LibraryName <- gsub(”S2_DRSC_”, ””, sri$LibraryName)> samples <- unique(sri[, c(”LibraryName”, ”LibraryLayout”)])> for(i in seq_len(nrow(samples))) {+ rw <- (sri$LibraryName==samples$LibraryName[i])+ if(samples$LibraryLayout[i]==”PAIRED”) {+ samples$fastq1[i] <- paste0(sri$Run[rw],”_1.fastq”,collapse=”,”)+ samples$fastq2[i] <- paste0(sri$Run[rw],”_2.fastq”,collapse=”,”)+ } else {+ samples$fastq1[i] <- paste0(sri$Run[rw],”.fastq”,collapse=”,”)+ samples$fastq2[i] <- ””+ }+ }

98

Page 100: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

adicionar descrições à tabela de metadados

> samples$condition = ”CTL”> samples$condition[grep(”RNAi”,samples$LibraryName)] = ”KD”> samples$shortname = paste(substr(samples$condition,1,2),+ substr(samples$LibraryLayout,1,2), seq_len(nrow(samples)), sep=”.”)

99

Page 101: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

verificar se está tudo correto

> samples[, c(1, 2, 5, 6)]

## LibraryName LibraryLayout condition shortname## 1 Untreated-3 PAIRED CTL CT.PA.1## 3 Untreated-4 PAIRED CTL CT.PA.2## 5 CG8144_RNAi-3 PAIRED KD KD.PA.3## 7 CG8144_RNAi-4 PAIRED KD KD.PA.4## 144 Untreated-1 SINGLE CTL CT.SI.5## 150 CG8144_RNAi-1 SINGLE KD KD.SI.6## 156 Untreated-6 SINGLE CTL CT.SI.7

100

Page 102: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

alinhar as amostras com o genoma de referência

> gf <- ”Drosophila_melanogaster.BDGP5.70.gtf”> bowind <- ”Dme_BDGP5_70”> cmd <- with(samples,+ paste(”tophat -G”, gf, ”-p 5 -o”, LibraryName,+ bowind, fastq1, fastq2))> system(cmd)

101

Page 103: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

criar os arquivos bam

> for(i in seq_len(nrow(samples))) {+ lib = samples$LibraryName[i]+ ob = file.path(lib, ”accepted_hits.bam”)

+ # classificar por nome, converter para SAM para htseq-count+ cat(paste0(”samtools sort -n ”,ob,” ”,lib,”_sn”),”\n”)+ cat(paste0(”samtools view -o ”,lib,”_sn.sam ”,lib,”_sn.bam”),”\n”)

+ # classificar por posicao e indice para IGV+ cat(paste0(”samtools sort ”,ob,” ”,lib,”_s”),”\n”)+ cat(paste0(”samtools index ”,lib,”_s.bam”),”\n\n”)+ }

102

Page 104: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

inspecionar os alinhamentos utilizando o igv

103

Page 105: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

contar as leituras utilizando o htseq-count

> samples$countf <- paste(samples$LibraryName, ”count”, sep=”.”)> gf <- ”Drosophila_melanogaster.BDGP5.70.gtf”> cmd <- paste0(”htseq-count -s no -a 10 ”,+ samples$LibraryName, ”_sn.sam ”, gf,” > ”, samples$countf)> cmd

104

Page 106: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

tempos de processamento

Tarefa Tempo (horas)Checar a qualidade 2Organizar os metadados 1Alinhamento das leituras 6Contagem das leituras 3Análise estatística 0,3Total 12,3

• Note que o tempo de obtenção dos dados, seja através de umexperimento ou de download via internet, não está sendoconsiderado

105

Page 107: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

Análise Estatística

106

Page 108: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

carregar o pacote edger e criar um countdataset

> library(”edgeR”)

## Loading required package: limma

> counts <- readDGE(samples$countf)$counts

107

Page 109: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

filtrar os genes pouco expressados e não-informativos

> noint <- rownames(counts) %in% c(”no_feature”, ”ambiguous”,+ ”too_low_aQual”, ”not_aligned”, ”alignment_not_unique”)> cpms <- cpm(counts)> keep <- rowSums(cpms>1)>=3 & !noint> counts <- counts[keep,]

> head(counts)

## Untreated-3 Untreated-4 CG8144_RNAi-3## FBgn0000008 76 71 87## FBgn0000017 3498 3087 3029## FBgn0000018 240 306 288## FBgn0000032 611 672 694## FBgn0000042 40048 49144 70574## FBgn0000043 15910 18194 31086## CG8144_RNAi-4 Untreated-1 CG8144_RNAi-1## FBgn0000008 68 137 115## FBgn0000017 3264 7014 4322## FBgn0000018 307 613 528## FBgn0000032 757 1479 1361## FBgn0000042 72850 97565 95760## FBgn0000043 34085 34171 42389## Untreated-6## FBgn0000008 82## FBgn0000017 3926## FBgn0000018 485## FBgn0000032 1351## FBgn0000042 99372## FBgn0000043 29671

108

Page 110: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

visualizar e inspecionar a tabela de contagens

> colnames(counts) <- samples$shortname> counts <- counts[, order(samples$condition)]> head(counts)

## CT.PA.1 CT.PA.2 CT.SI.5 CT.SI.7 KD.PA.3 KD.PA.4## FBgn0000008 76 71 137 82 87 68## FBgn0000017 3498 3087 7014 3926 3029 3264## FBgn0000018 240 306 613 485 288 307## FBgn0000032 611 672 1479 1351 694 757## FBgn0000042 40048 49144 97565 99372 70574 72850## FBgn0000043 15910 18194 34171 29671 31086 34085## KD.SI.6## FBgn0000008 115## FBgn0000017 4322## FBgn0000018 528## FBgn0000032 1361## FBgn0000042 95760## FBgn0000043 42389

109

Page 111: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

verificar as estatísticas das contagens

> summary(counts)

## CT.PA.1 CT.PA.2 CT.SI.5## Min. : 4.0 Min. : 7 Min. : 7.0## 1st Qu.: 130.0 1st Qu.: 159 1st Qu.: 326.0## Median : 359.0 Median : 426 Median : 858.5## Mean : 1166.9 Mean : 1377 Mean : 2652.6## 3rd Qu.: 967.2 3rd Qu.: 1085 3rd Qu.: 2178.0## Max. :130453.0 Max. :165299 Max. :293366.0## CT.SI.7 KD.PA.3 KD.PA.4## Min. : 0 Min. : 3 Min. : 1## 1st Qu.: 219 1st Qu.: 159 1st Qu.: 174## Median : 584 Median : 426 Median : 465## Mean : 1781 Mean : 1343 Mean : 1435## 3rd Qu.: 1460 3rd Qu.: 1094 3rd Qu.: 1164## Max. :206540 Max. :144953 Max. :162846## KD.SI.6## Min. : 3.0## 1st Qu.: 281.0## Median : 721.5## Mean : 2129.6## 3rd Qu.: 1800.0## Max. :348013.0

110

Page 112: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

construir os histogramas das contagens

CT.PA.1

counts[, 1]

Fre

quen

cy

0 2000 5000

040

080

012

00

CT.PA.2

counts[, 2]

Fre

quen

cy0 2000 5000

050

015

00

111

Page 113: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

construir os histogramas das contagens

CT.PA.5

counts[, 5]

Fre

quen

cy

0 2000 5000

050

010

0020

00

CT.PA.7

counts[, 7]

Fre

quen

cy0 2000 5000

050

015

0025

00

112

Page 114: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

construir os histogramas das contagens

KD.SI.3

counts[, 3]

Fre

quen

cy

0 2000 5000

050

010

0015

0020

0025

00KD.SI.4

counts[, 4]

Fre

quen

cy

0 2000 5000

050

010

0015

00

KD.SI.6

counts[, 6]

Fre

quen

cy0 2000 5000

050

010

0015

0020

00113

Page 115: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

criar um objeto do tipo dgelist

> d <- DGEList(counts=counts, group=samples$condition)> names(d)

> counts <- read.csv(file=”counts.csv”, header=T)> d <- DGEList(counts=counts, group=samples$condition)> names(d)

## [1] ”counts” ”samples”

114

Page 116: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

estimar os fatores de normalização

> d <- calcNormFactors(d)> d$samples

## group lib.size norm.factors## CT.PA.1 CTL 8397136 0.9702373## CT.PA.2 CTL 9909691 0.9652457## KD.PA.3 KD 9664838 0.9973330## KD.PA.4 KD 10325828 1.0146062## CT.SI.5 CTL 19087995 1.0009795## KD.SI.6 KD 15324886 1.0391230## CT.SI.7 CTL 12812818 1.0145053

115

Page 117: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

dendrograma

> dist <- as.dist(1 - cor(counts))> plot(hclust(dist))

KD

.SI.6

KD

.PA

.3

KD

.PA

.4

CT.

SI.7

CT.

SI.5

CT.

PA.1

CT.

PA.2

0.00

0.10

Cluster Dendrogram

hclust (*, "complete")dist

Hei

ght

116

Page 118: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

inspecionar as relações entre as amostras

> plotMDS(d, labels=samples$shortname,+ col=c(”darkgreen”,”blue”)[factor(samples$condition)])

−0.5 0.0 0.5 1.0

−0.

50.

00.

51.

0

Leading logFC dim 1

Lead

ing

logF

C d

im 2

CT.PA.1CT.PA.2

KD.PA.3KD.PA.4

CT.SI.5

KD.SI.6

CT.SI.7

117

Page 119: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

estimar as dispersões por tags

> d <- estimateCommonDisp(d)> d <- estimateTagwiseDisp(d)

118

Page 120: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

gráfico entre a média e a variância

> plotMeanVar(d, show.tagwise.vars=TRUE, NBline=TRUE)

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●●

●●

●●

● ●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●● ●●

●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●● ●

●●

● ●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●●

●● ●●

●●

●●

●●●

●●

●●

●●●

●● ●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●

●●

●●

●●●●●

●●●

●●

●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●●

●●

● ●

●●

●●

● ● ●●

●●

● ●

● ●

●●

●●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●●

●● ●

●●●

●●

●●

● ●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

●●

● ●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

● ●

●●

5e+01 5e+02 5e+03 5e+04

1e+

021e

+06

Mean gene expression level (log10 scale)

Poo

led

gene

−le

vel v

aria

nce

(log1

0 sc

ale)

xxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxx

xxx

119

Page 121: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

gráfico entre a média e a variância

> plotBCV(d)

2 4 6 8 10 12 14

0.2

0.6

1.0

Average log CPM

Bio

logi

cal c

oeffi

cien

t of v

aria

tion

●●

●●●

●●● ●

●●

●●

● ●

●●

●●

●●

●● ●

● ●●

●●

●●

●●

●● ●

●●●

●● ●●

●●

●●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●● ●●

●●● ●

●●●

●●

●●

●●

●●●

● ●●

●●

●● ●● ●

●●●

●● ●●

●●●

●●

●● ●

● ●

●● ●●

●● ●

●●

●●

● ●

●●

● ●

●●●

●●●●

●●

●●

●● ●

●●

●●

●●

● ●●

● ●

●●

●●●

●●

● ●●● ●●●

●●

● ●

●●●●

●●

● ●●

● ●●

●●●

●●

●●●●

●●

●●

●●

●●

●●●

● ●●●

● ●

●●

● ●●●●

●●

●●

● ●●

● ●●●

● ● ●

●●●

●●

●● ●

● ●●●

●●

●●

● ●

● ●

● ●

●●● ●

●●

●●● ● ●

●● ●● ● ●

●●

● ●●

●●

●●●

●● ●

●●

●●● ●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●●

● ●

● ●

● ● ●●

● ●

●●

●●

● ●●

● ●

●●

●●

●●●

●● ● ●

● ●

●●

●●

●●

●● ●●

●●●

●●

●●

●●

●●

●●● ●

●●

● ●

●●

●●

● ●

●● ●

●●

●●

●●

●● ●

● ●

●●

●●

●●

●● ●●

●●

●●

●●●

●●

●●

●● ●●●

●●

●●

●●

●●●

●●

●●●●

● ●

●● ●

● ●

●●

● ●

● ●●

●●●

●●

● ● ●●

● ●

● ●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

● ●

●●

●● ●●

●●

●●

●●

●● ●●

● ●

●●

●●●

● ●●

●●

● ●●

●●

●● ●●

●●

● ●

●●

●●

●● ●

● ●

●●

●●

● ●●●

●●

●●●

● ●●

●●

●●●

●●●

●● ●●

● ●

● ●● ●● ●

●●

●●

●●

●● ●

●●●●

●● ●

●●●

●●

● ●●

●●

●●● ●● ●●

● ●

●●

●●●

●●

●● ●

●●

●● ●●

●●

●●●●

● ●

●● ●

●●

●●

● ●

●●

●● ●

● ●

● ●

●●

●●●

●●●●

●●

● ●●

●●●●●

● ●●

●●

●●

●●●

● ●

●● ●

●●

●●

●●

●● ●

●●●

●●●

● ●●●

●● ●

●●

●●

●●

● ● ●

●●

●●

●●●

●●

●● ●

● ●●

● ●●

●●

● ●

●● ●

●●● ●

●●

●●

● ●●●

●●

●●

●●

● ●

●●●

●●

●●

● ●●

●● ●

●●

●●

●●

●●

● ●● ●●

●● ●●

●●●●

●●

● ● ●●

●●

●●

●●

● ●

●●●●

●●

●●

●●

●●

● ●● ●

●● ●

●●

●●

●●

●●

●●

●●

●●●●

●●

● ●

●● ●

●●

●●

●●

●●

● ●

●● ●

●●

●●

●●●

● ●

●●

●●

● ●●● ●

●●●

●●

●●

●●●

●●

●●●

●●

●● ●●

● ●

●●

●●

●●

● ● ●

●●

●●

●●●

●● ●●

●●●

●● ●

● ●

●●

● ●●●

●●

●●

● ●

●● ●

● ●

●●

● ●

●● ●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●● ●●

● ●

● ●●

●●● ●●

●●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●● ●

● ●

●●●

●●

● ●

● ●●

●●● ●

● ●●

● ●

●●●

●●

●●●

●●●

● ●●

●●

● ●

●● ●

● ●

●●

● ●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●●

● ●●

●● ●●●●

●●●

●●●

●●

● ●● ●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ● ● ●

●●●

●●

●●

● ●●●●

●●

● ● ● ●

●●

● ●●

● ● ●

●●

● ●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●●●

● ●

●●

●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●● ● ●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●

● ●

●●

● ●● ●

●●●

● ●

●●

● ●

●●●

●●●

●● ●●

● ●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●●

●● ●

●●

●●

●●●

●●

●●

●●● ●

●●

● ●●

●●●

● ●●

●●

●●

●●

●●

● ●

●● ●● ●

●●

●●

●● ●

●●

●●

●●

●● ● ●●

●●

●●

●●

●●●● ●

●●

●●

● ●●

●●●

● ●

●●

●●●

● ●●

●●●

●●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●●

●● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●● ●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

● ●●

●● ●

●●

● ●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●● ●

● ●●

●●● ●●

●●

● ●●

●●

●●

●●

● ●

● ● ●

●●

●●

●●

● ●

●●

●●●

●●

●●

●●

● ●

●●

● ●●●

● ●

● ●

● ●

●●

●●●

●●

● ●●

●●

● ●●

●●

●●

●●

● ●

●●●●

● ●●●

●●

● ●●●●●

●●

● ●

● ●

●●

● ●

●● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

● ●●● ●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●●

● ●

●●

●● ●

●●

●● ●

●●

●●

● ●

● ●●

●● ●● ●●● ●●●

●●

●●

●● ●

●● ●

● ●

●●

●●

●● ●

● ●

●●

●●

● ●●●

●● ●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

● ●

●●● ●● ●

●●

●●

●● ●

●●

● ●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●●●●

●●●

●●

●●

●● ●

●●●●

●●

● ●●●●

●●

●●

●●●

● ● ●●● ●

●●

●●

●●

●●

● ●

●●

●●●

●●●

● ●●

● ●● ●●

●●

● ●

●●●

●●

●●

●●

●●●

●●

●●●

●●

● ●

●●

●●

●● ●●

●●

●●

●●

● ●●●

● ●

●●●

● ●

●●

●●

●● ●

●●

● ●●

●●

● ●

●●

● ●●

●●●

●●

●●●● ●

● ●

●●

● ●●

● ●●● ●

●●

●● ●

●●●

●● ●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●●

● ●●

●● ●

● ●●

●●

●●

● ●

●●

●●

●●●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●● ●

●●

●●●

● ●

●●

●●

● ●

●●

●●

●●●●

●●

●●

●●

●● ●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

● ●

● ●●● ●

● ●

● ● ●●

●●

●●

●●●

●●●● ●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●●

● ●●

●●

●● ●

● ●

● ●●

● ●

●●

● ●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●●

●●●● ●● ●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

● ●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●●

● ● ●

● ●

●●

●●

●●

●●

● ●●

●●

● ●

●●

●●

●●●●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●● ●

●●

●● ●

● ●●

●●

● ●● ●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

● ●●

● ●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●●●

●●●

●● ●●

●●

● ●

●●

● ● ●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●● ●●

● ●

●●

●● ●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●● ●● ●●

● ●

●●

● ●

●●

● ●

●●●

● ●

●●

●● ●●●

●●

●●

●●●

●●

●●

●● ●●

●●

●●

● ●

●●

● ●

● ●

●●

●●●

●●

● ●

●●

● ●

●●●

●●

● ●●

●●

●●

●●

●●●

● ●●●●

●●●

●●

●●

● ●

● ●● ●●

● ●●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●● ● ●●●

●●

● ●

●●

●●

●●

● ●

●● ●●

●●

●●●

●●

●●

●●●

● ●

●●● ●

●● ●

● ●

●●

●●●

●●● ●

●●●

●●

● ●

●●

●● ●

●●

● ●

●●

●●

●●

● ●●

● ●

●●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

●●

● ●●●

●●

● ●● ●

● ●

● ●●

●●

●●●

●●

●●

●●

●●

●●●

●● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●●

●●

●●

●●●

●●●

● ●●●●●

●●

● ●●●

●●

● ●●

● ●

● ●●● ●

● ●●● ● ● ●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

● ●

● ●●

●●●

● ●

●●

●●

●●

● ●

●●

●●

●●●

●●●

●●

●●

● ●

● ● ●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●● ●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●● ● ●

●●

●●

●●

●●● ●

●●●

● ●●

●●

● ●

●●

●●

●●

● ●●

●●

●●

● ●

●●●

●●

●●

●●

●●●●

●●

●●● ●

●● ●

●●

●●

● ● ●

●●

●●

●●●

●●

● ●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●● ●● ●●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

● ●

●●

● ●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●● ●● ●

●●●

●●

● ●

●●

●●

● ●●

●●

●●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●●

●● ● ●

● ●

●●

●●

●● ●

●●

●●

● ●

●●

● ●

●●

●●

● ●

●●

●●

● ●

● ●●

●●

●●

● ●

●●

●●

● ● ●

●●

●●

●●●

● ●

● ●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●● ●

●● ●

●●

●●

●●

●●

●●

●●●

●●●

● ●●

●●

●●

●●

●●

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

● ●

●●

● ●

●●●

● ●

●● ●

● ●

●●

●● ●●

● ●●

●● ●

●● ●

●●

●●

●●

●●

●●

●●

●● ●

●● ●

●●

●●

●●

●●●

●●

● ●●

●● ●

●●

●●●

●●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●●

●●

●● ●●

●●

●●

●●

●●

● ●●●

●●

●●

●●●●

● ●

●●

●●

●● ●

●●

● ●

● ●

● ●

●●●

● ●● ●

●●●

● ●

●●

●● ●●

●●

●●

●●

●●

● ●●●

●●

●●● ●

●●

●●●

● ●●●

●●

●●

●●

●●●

● ●●●

●●●

●● ●●

●●

●●

●●

●● ●

●●

●●●

●●●

●●

●●

● ●

●●●

● ●●

●●●●

●●

●●●●

● ●●

●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●

●●

● ● ●●

●●

●●

●●

● ●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● TagwiseCommon

120

Page 122: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

teste para a expressão diferencial dos genes

> de <- exactTest(d, pair=c(”CTL”, ”KD”))

121

Page 123: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

criar as estatísticas de diferenciação

> tt <- topTags(de, n=nrow(d))> head(tt$table)

## logFC logCPM PValue FDR## FBgn0039155 -4.614626 5.872116 1.053589e-96 7.581626e-93## FBgn0025111 2.931199 6.857715 7.621880e-58 2.742352e-54## FBgn0039827 -4.027050 4.398979 9.162157e-56 2.197696e-52## FBgn0003360 -3.181349 8.421436 1.192060e-54 2.144515e-51## FBgn0000071 2.708106 4.733580 1.795362e-40 2.558706e-37## FBgn0034736 -3.519673 4.130238 2.133440e-40 2.558706e-37

122

Page 124: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

inspecionar as leituras ajustadas por tamanho de bibliotecapara os genes com maior diferenciação

> nc <- cpm(d, normalized.lib.sizes=TRUE)> rn <- rownames(tt$table)> head(nc[rn, order(samples$condition)], 5)

## CT.PA.1 CT.PA.2 CT.SI.5 CT.SI.7## FBgn0039155 91.074075 97.958381 100.750047 106.780137## FBgn0025111 34.244834 31.572498 26.639882 28.464446## FBgn0039827 39.399970 36.695189 30.094170 34.465059## FBgn0003360 448.619600 494.600960 589.636377 682.300456## FBgn0000071 9.082859 9.199933 7.484289 5.846751## KD.PA.3 KD.PA.4 KD.SI.6## FBgn0039155 3.734803 4.963419 3.516607## FBgn0025111 247.430725 254.279776 188.389644## FBgn0039827 1.659913 2.768061 2.009490## FBgn0003360 62.557957 58.797426 61.791803## FBgn0000071 52.079758 55.933915 45.653090

123

Page 125: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

plot ma com os genes com diferenciação significativa

> deg <- rn[tt$table$FDR < 0.05]> plotSmear(d, de.tags=deg)

● ●

●●

●●

●●

●●

● ●●

●●

●●●

●●

● ●

●●

●●●

●●

● ●

●●

●● ●

●●

●● ● ●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●● ●

●●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●● ●

● ●●

●● ●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●●

● ●●●

●●● ● ●

● ●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

● ●

● ●

● ●●

●●

●●

●●

●●

●●

●● ●

●●

● ●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

● ●

● ●

●●●

●●

●● ●

●●●

●● ●

● ●

●● ●

● ●●

●● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

● ●

●●

●●

●●

●● ●

● ●

●●●

● ●

●●

●●

●● ●

●●

●●

●●

●●

● ●●

●●●

●●

●●●

● ●●

● ●

●●

●●

●●

●●

●● ●

● ●●●

●●

● ●●

●●

●●●

● ●

●●

● ●

●●

● ●

●●

●●

●●

● ●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●● ●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●●

●●●

●●

● ●

●● ●●

●●

● ●

●●

●●

●●

●● ●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●● ●●

●●

● ●●●

● ●

●●

●●

● ●

● ●

●●●●

● ●

● ●

●●

●●

●●

●●●

●●

●●

● ●

●●

● ●

●●

●●●

● ●

●●

●●

●●●

●●●

●●

● ●

●●

●●

●●

●●

● ●●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●● ●●●

●●

● ●

●● ●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●● ●●

●●

●●

●●

● ●

● ●

●●

● ●

●● ●

● ●●

●●●

●● ●●

●●

●●

●●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

● ●●

●●

●●

● ●

●●●

● ●

●●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

● ●

●●

●●●●

●●

●●

●●

● ●

●●

● ●● ●

●●

● ●

●●

●●

● ●●

●●

●●

●●

●● ●

●●

●●

●● ●

●●

●● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●● ●

●●

●●

●●

● ●

●●

●●● ●

●●

● ●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

● ●

●●

●●

● ●

●● ●

●●

●●

●●

●●

● ●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

● ●●

● ●●

● ●

●● ●

● ● ●●

● ●

●●

●●

●●

●●

●●

●●

●● ● ●

●●

●●

●● ●

●●

● ●

●●

● ●

● ●

●●

● ●

● ● ●

●●

●● ●

●●

● ●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●●

●●

●●

●●

●●

●●

●●

●●

● ● ●●●

●●

●●

●●●

●●

● ●●

●●

● ●

●●

●● ●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

● ● ●

● ● ●●

●●

● ●●

● ●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●●

●●

●●

●● ●

● ● ●

●●

●●

●●

●●

●●

● ●●● ●

●●

●●

●●

●●●

● ●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●●

●● ●

●●

●● ●

● ● ●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

● ●●

●●

●●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

● ●●

●●

●●●

● ● ●●

● ●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●● ● ●●

●●

●●●

● ●●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ● ●●

●●

●●

●●●

●●●

●● ●

●●

●●●

●●

●●

●● ●

● ●●

●●

● ●

●●

●●

● ●

●●●●

● ●

● ●

●●

● ●

● ●●

●●

●●●

● ● ●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●

●● ● ●

● ●

●●●●

●●

●●

●● ●

●●

●●

●● ●

● ●

● ●●

●●

●●

●●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●●

● ●

●●

●●

● ●

●●

●●

● ●● ●

●●

●●

●●

●● ●

●●

●● ●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●● ● ●

●●

●●

●●

● ●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●●

●●

● ●

●●

● ●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●● ●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●● ●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●● ●

●●

●● ●

●●●

● ●

●●

●●

●●

● ●●

●●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

● ●

●●

● ●

●●

● ●

● ●●

●●

●●

●●

●●

●●

●●

●●●

●● ●●

●●

●●

●●

●●

● ●●

●● ●

●●

●●

●● ●

●●

●●

●●

● ●

●●

● ●

●●

● ● ●

●●

●●●

●●

●●

●●

●●

●●

● ●● ●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

● ●●

● ●

●●

● ●●

● ●

●●

● ●

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

● ●●

●●

●●

●●

●●

●●

● ●●● ●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

● ●

●●

● ●

●●

●●

●●

● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●●

● ●●

● ●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●● ●

● ●

●●

● ●

●●

● ●●

●●

●●

●●●●

●●

● ● ●●

●●

●●

●●

●●

●●

●● ●●

●●

● ●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●●

● ●

●●●

● ●

●●●

●●

● ●

●●

●●

●●

● ●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

● ●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●●

●●

● ●

●●

●●

● ●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●●

● ●

●●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

● ●

● ●● ●

●●

● ●

● ●

● ●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●● ●

0 2 4 6 8 10 12 14

−4

−2

02

Average logCPM

logF

C :

KD

−C

TL

● ●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●●

● ●

●●

● ●

●●

●●

● ●

●●

●●

● ●●

●●

●● ●

●●

●●

● ●

●● ●

●●

●●

● ●

● ●●●

● ●

●●

● ●

●●

●●

●●

●●

●●

● ●

124

Page 126: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

histograma dos p-valores

> hist(de$table$PValue, breaks=100)

Histogram of de$table$PValue

de$table$PValue

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

010

030

050

0

125

Page 127: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

Conclusão

126

Page 128: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

conclusão

• Big Data são 3 V: Volume, Velocidade, Variedade• Análise de dados genéticos envolve diversas áreas doconhecimento

• É possível trabalhar em vários projetos da área, em equipesmultidisciplinares

127

Page 129: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

Referências

128

Page 130: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

referências

[1] S Anders, D J McCarthy, Y Chen, M Okoniewski, G K Smyth,W Huber, and M D Robinson. Count-based differential expressionanalysis of RNA sequencing data using R and Bioconductor.Nature protocols, 8(9):1765–1786, 2013.

[2] Paul Livermore Auer. Statistical design and analysis ofnext-generation sequencing data. PhD thesis, 2010.

[3] Angela N. Brooks, Li Yang, Michael O. Duff, Kasper D. Hansen,Jung W. Park, Sandrine Dudoit, Steven E. Brenner, and Brenton R.Graveley. Conservation of an RNA regulatory map betweenDrosophila and mammals. Genome Research, 21(2):193–202, 2011.

[4] Mark D Robinson, Davis J McCarthy, and Gordon K Smyth. edgeR:a Bioconductor package for differential expression analysis ofdigital gene expression data. Bioinformatics, 26(1):139–40, jan2010.

129

Page 131: Análise de dados genéticos: Um problema de Big Data a cada ...rbras2016.ufba.br/wp-content/uploads/2016/06/MC8_Marcus_Nunes.… · quemsoueu? • SouMarcusNunes,Ph.D.emEstatísticapelaPennState

análise de dados genéticos: um problema debig data a cada novo pacienteRBras 2016 - Salvador, BA

Marcus Nunes24 e 25 de maio de 2016

Universidade Federal do Rio Grande do Norte