53
Curso MEyAdDG lcollado Inicio Intro Soluciones La realidad Tipos de an alisis Alineadores Un caso de RNA-seq eucarionte Curso de M etodos Estad sticos y Anal ticos de DatosGenomicos Leonardo Collado Torres [email protected] y [email protected] Lic. en Ciencias Gen omicas www.lcg.unam.mx/~lcollado/ Winter Genomics (WG) e Instituto de Biotecnolog a (IBT) de la UNAM 21 de Enero de 2010 1 / 53

Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Curso de Metodos Estadısticos y Analıticos deDatos Genomicos

Leonardo Collado [email protected] y [email protected]

Lic. en Ciencias Genomicaswww.lcg.unam.mx/˜lcollado/

Winter Genomics (WG) e Instituto de Biotecnologıa (IBT) de la UNAM

21 de Enero de 2010

1 / 53

Page 2: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Software para Datos deSecuenciacion Masiva

1 Intro

2 Soluciones

3 La realidad

4 Tipos de analisis

5 Alineadores

6 Un caso de RNA-seq eucarionte

2 / 53

Page 3: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Por fin tenemos datos. . . ahora alanalisis

3 / 53

Page 4: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

¿Cuello de botella?

4 / 53

Page 5: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

El otro problema

� A Illumina, y me imagino que las otras, no les interesadesarrollar algoritmos que faciliten el analisis mas alla deun nivel que consideran suficiente. Excepto en el analisisde imagenes.

� Lo dejan todo en manos de los investigadores :)

5 / 53

Page 6: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Ademas, todo cambia MUYrapido!!

6 / 53

Page 7: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Los lıderes

� 128 ∗ 690000 = 88320000 USD

� Broad, BGI, Sanger

7 / 53

Page 8: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

¿Mexico?

8 / 53

Page 9: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Soluciones Integrales

� Bioconductor

� CLCbio Genomics Workbench

� Mosaik

� Programas de las companıas de secuenciacion: ELAND,Newbler, entre otros.

� SHORE. . .

9 / 53

Page 10: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

CLCbio Genomics Workbench

El problema principal es el precio, aunque esta disponible enmodo de prueba.

10 / 53

Page 11: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Mosaik

� Es muy nuevo ası que siguen arreglando errores, pero tienepotencial.

� ¿Pero se nos olvida algo?

11 / 53

Page 12: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

¿Tenemos muchas o pocassecuencias unicas?

Copies per read (log 10)

Cum

ulat

ive

prop

ortio

n of

read

s

0.7

0.8

0.9

1.0

0 1 2 3

12 / 53

Page 13: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Frecuencia de NTss_8_1_sequence.txt

Cycle −− N Seqs: 4107504 Obs. GC: 62.127

Per

cent

age

0

20

40

60

0 10 20 30 40 50

ACGTGCN

13 / 53

Page 14: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Frecuencia de NTs del otro pars_8_2_sequence.txt

Cycle −− N Seqs: 4107504 Obs. GC: 62.678

Per

cent

age

0

20

40

60

0 10 20 30 40 50

ACGTGCN

14 / 53

Page 15: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

¿Y la calidad?

● ●

● ●

● ●

● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40 50

05

1015

2025

3035

Quality per Cycle

Cycle

Qua

lity

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ●

● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ●

● ● ● ● ●

● ●

● ● ● ● ● ● ●

● ● ●

● ●

● ● ●

● ●

● ●

● ●

● ● ●

● ●

● ● ● ● ●

● ● ●

● ● ● ●

● ●

● ● ●

● ●

● ●

● ●

● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ●

● ● ● ● ● ● ●

● ● ●

● ● ● ●

● ● ●

● ●

● ● ●

● ● ● ● ●

● ●

10% quantile30% quantileMedian70% quantile90% quantile

15 / 53

Page 16: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

El par no pinta bien

● ●

● ● ●

● ●

● ●

● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40

05

1015

2025

3035

Quality per Cycle

Cycle

Qua

lity

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

● ● ● ●

● ●

● ● ● ● ● ● ●

● ● ● ● ●

● ● ●

● ●

● ● ● ●

● ● ● ● ●

● ●

● ●

● ●

● ● ● ● ●

● ● ● ● ● ●

● ●

● ●

● ●

● ● ●

● ●

● ●

● ●

● ● ●

● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ● ● ●

● ●

● ●

● ● ● ●

● ●

● ● ● ●

● ●

● ●

10% quantile30% quantileMedian70% quantile90% quantile

16 / 53

Page 17: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Para entender mejor

●●

●●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

Phred Quality to Probility

Phred Quality

Pro

babi

lity

of th

e ba

se b

eing

wro

ng

17 / 53

Page 18: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Ası que. . .

Hay que filtrar!

� Por calidad.

� Por un ciclo dado.

� Por la presencia de Ns.

� Las secuencias compuestas priomordialmente de una solabase.

� Eliminar secuencia de adaptadores.

� Calidad del alineamiento.

� Lo que inventen :)

18 / 53

Page 19: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Recordando

19 / 53

Page 20: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

ChIP y RNA - seq

20 / 53

Page 21: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

RNA-seq

21 / 53

Page 22: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Ensamblado de novo

22 / 53

Page 23: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Variacion estructural

23 / 53

Page 24: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Lo basico

� Como pueden ver, hay que filtar y alinear en todo tipoaplicacion.

24 / 53

Page 25: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

El famoso MAQ

� Todo gracias a Heng Li del Sanger.

� El primero en usar las calidades al momento de alinear.

� Bastante rapido.

� Trae un identificador de SNPs.

� Visualizador de alineamientos asociado: mapview.

� Muy bien documentado.

25 / 53

Page 26: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

El famoso MAQ

26 / 53

Page 27: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

El famoso MAQ

27 / 53

Page 28: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Salmonella Typhi con MAQ

28 / 53

Page 29: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Hay dos grandes categorıas dealineadores

29 / 53

Page 30: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Hash Index - Spaced Seeds

� MAQ, SHRiMP, ELAND, SOAP, MOSAIK, ZOOM,BFAST, . . .

30 / 53

Page 31: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Burrows-Wheeler Transform

� Bowtie, BWA, SOAP2, . . .� Generalmente son MUCHO mas rapidos.

31 / 53

Page 32: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

SHRiMP

� De los primeros en poder manejar datos de SOLiD.

� Implementa un alineamiento Smith-Waterman en elproceso. Aumenta la precision.

32 / 53

Page 33: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

SHRiMP

33 / 53

Page 34: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

¿Que notan?

Son datos de Ciona savignyi34 / 53

Page 35: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Bowtie

� Desarrollado por Ben Langmead

� Extremadamente rapido

� Similar a MAQ en la forma de uso

� Basado en el BWT

� Corre en paralelo

35 / 53

Page 36: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Bowtie vs otros

36 / 53

Page 37: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Bowtie: en paralelo

37 / 53

Page 38: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Bowtie: creando ındices

38 / 53

Page 39: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Resumiendo

39 / 53

Page 40: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Siempre queremos mas :)

> (1e+09 * 50)/(2 * 3e+09)

[1] 8.333333

> 1e+09/(2e+07 * 8)

[1] 6.25

40 / 53

Page 41: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

BFAST

� Desarrollado por Nils Homer

� Rapido aunque no tanto como Bowtie

� Utiliza un alineamiento tipo Smith-Waterman. Es muchomas sensible!

� Acepta datos de SOLiD

� Mucho mas robusto que cualquier otro so far

� Bastante nuevo.

41 / 53

Page 42: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

BFAST: el plan

42 / 53

Page 43: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

BFAST: creando un ındice

43 / 53

Page 44: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

BFAST vs otros

44 / 53

Page 45: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

BFAST vs otros con datos reales

45 / 53

Page 46: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

BFAST y color errors

46 / 53

Page 47: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Para todos gustos

Acuerdense de fijarse

� La sensibilidad.

� La velocidad, si es crucial.

� La memoria requerida.

� Exploren los parametros.

� Chequen que esten bien los archivos de entrada. Cadaprograma puede usar uno diferente.Cuidado con secuencias paired-end y mate-pair.

47 / 53

Page 48: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

El tıo SAM

� Heng Li y otros desarrollaron SAMtools que entre otrasfunciones, su objetivo es unificar formatos de salida de losalineadores.

� Esta muy relacionado a su hermano BAMtools.

� http://samtools.sourceforge.net/

48 / 53

Page 49: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Ewan Birney

� Having a large memory machine - whatever route usedhere - is always useful. I would buy the largest machinewhich still has a reasonable linear trend of memory cost(at one goes up in memory, there is often a sharp increasein cost which is not linear. Buy just below that with lots ofcores). This machine therefore, with the right number ofcores, can be part of a standard farm without much costpenalty and can be used for these other tasks. This isoften a 128GB or 256GB machine, but...you need to talkto vendors.

49 / 53

Page 50: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Programas a usar - Ben Langmead

1 TopHat▶ Alinea las secs. para identificar uniones exon-exon▶ Las secs. tienen que ser del mismo tamano y no identifica

indeles menores a cierto umbral.▶ O todas son PE o todas son SE.▶ No usa genoma de referencia.▶ Usa Bowtie para identificar exones potenciales.▶ Construye una db de posibles uniones y luego las confirma

(3 tipos de evidencia).

2 Cufflinks▶ Ensambla secs. alineadas en transcritos y estima su

abundancia.▶ Mide la abundancia en RPKM: reads per pk of exon model

per million mapped reads▶ La version actual es beta.

50 / 53

Page 51: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Analisis

� Nos dan los datos: 100mil secuencias de 36pb de unexperimento RNA-seq de Drosophila melanogaster.

� Leer en R, explorar las secuencias y filtrar: las que tienenNs y no son del cromosoma. Nos quedamos con 55 %1

� Calcular la cobertura con IRanges.

� Obtener la anotacion del genoma usando biomaRt paraconectarnos a ENSEMBL.

� Pasar la anotacion a un objeto de IRanges.

� Calcular la cobertura por exon y por transcrito.

� Visualizar la cobertura en un Genome Browser como el deUCSC.

� Excluyendo solo las secs con Ns, corremos TopHat.

� Visualizar los archivos WIG y BED en un Genome Browser.

� Tan tan!1Podrıan usar BioPython entre otras opciones

51 / 53

Page 52: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

Referencias

� Next Generation Sequencing Analysis Focus de NatureMethods

� Trapnell y Salzberg

� Noticia Illumina

� Noticia Slim

� Artıculo de MAQ

� Artıculo Bowtie

� Artıculo BFAST

� Artıculo sobre Salmonella Typhi

� Software List de SEQanswers - muy util!

� Metzker - Review

� Comunicacion personal con Nicolas Delhomme

52 / 53

Page 53: Curso de Métodos Estadísticos y Analíticos de Datos …lcolladotor.github.io/courses/Courses/MEyAdDG/day4/software.pdfCurso MEyAdDG lcollado Inicio Intro Soluciones La realidad

CursoMEyAdDG

lcollado

Inicio

Intro

Soluciones

La realidad

Tipos deanalisis

Alineadores

Un caso deRNA-seqeucarionte

sessionInfo

Informacion de mi sesion:> sessionInfo()

R version 2.10.0 (2009-10-26)

i386-pc-mingw32

locale:

[1] LC_COLLATE=English_United States.1252

[2] LC_CTYPE=English_United States.1252

[3] LC_MONETARY=English_United States.1252

[4] LC_NUMERIC=C

[5] LC_TIME=English_United States.1252

attached base packages:

[1] stats graphics grDevices

[4] utils datasets methods

[7] base

53 / 53