Integração de dados genômicos e estatísticos no RStudio

Preview:

Citation preview

Integracao de dados genomicos e estatısticosno RStudio

Leandro Nascimento Lemos

Doutorando em Biologia na Agricultura e no AmbienteOrientadora: Profa. Tsai

Novembro/2016

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Feedback de ontem

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Feedback de ontem

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Introducao

R: Linguagem de Programacao (Open).Ambiente de desenvolvimento integrado para calculosestatısticos e graficos (Wikipedia).

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Introducao

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Leitura e manipulacao de dados - Usando Funcoes (10minutos)

VetorProteobacteria.pasto.A <- 20ProteobacteriaAbund <- c(10,20,50)ph.pasto <- c(4,5,6)?mean ((ajuda!))mean(ProteobacteriaAbund)sd (ProteobacteriaAbund)plot(ph, ProteobacteriaAbund)?plot (Procurar os parametros para modificar o grafico. (Porexemplo, modificar ProteobacteriaAbund por Proteobacteriarelative abundance).

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Leitura e manipulacao de dados (10 minutos)

VetorProteobacteriaAbund <- c(10,20,22,25,28,30)ph <- c(4,4.5,5,5.5,6,7)plot(ph, ProteobacteriaAbund, xlab=”pH”,ylab=”Proteobacteria relative abundance (%)”,col=”blue”)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Leitura e manipulacao de dados - Data frame (15minutos)

Data frame: Armazenamento de tabelas (linhas e colunas).tabela <- data.frame(ProteobacteriaAbund, ph)Leitura de arquivos (Inumeras funcoes...)Session, Set Working Directory, Choose Directory.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Leitura e manipulacao de dados - Data frame (15minutos)

abund <- read.csv(”analysis.tvs”, sep=”\t”, header=TRUE,row.names=1)?applyapply(abund, 2, sum) - Abundancia total

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Indices de Diversidade

Instalar e carregar o pacote vegan.install.packages(”vegan”)library(”vegan”)diversity(abund, index=”shannon”, MARGIN=2)shannonValues <- diversity(abund, index=”shannon”,MARGIN=2)barplot(shannonValues)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Diversidade Beta

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Estatıstica Multivariada

Padroes de similaridadeIdentificacao de quais variaveis estao influenciando nospadroes de similaridade.Matriz de distribuicao de especies vs. Matriz de variaveisambientais (metadados).Grande variedade de tecnicas estatısticas...Analise de Coordenadas Principais (PCoA).Analise de Correspondencia Canonica (CCA).

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Estatıstica Multivariada

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Analise de Coordenadas Principais (PCoA)

Conceito de distancia: Quanto mais similaridade entre asamostras, mais proximas elas estao entre si.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Metrica de distancia - Bray-Curtis

Conceito de distancia: Quanto mais similaridade entre asamostras, mais proximas elas estao entre si.Bray-Curtis: proporcao de similaridade ou dissimilaridade(distancia) na abundancia das especies.Valores entre 0 e 1.0 (iguais).Quanto mais proximo de 1, mais dissimilar!

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Analise de Coordenadas Principais (PCoA)

Ideia principal: Reduzir dimensoes pra resumir os dados!

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: PCoA - Matriz de distancia - 20 minutos

1 Abrir o RStudio.2 Carregar o pacote vegan.3 Carregar o arquivo de abundancia de filos e o arquivo de

abundancia de funcoes em objetivos separados no R.4 Pesquisa sobre a funcao vegdist (dica: ?vegdist) e calcule as

similaridade entre cada amostra pelo Metodo Bray-Curtis.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Reducao de Dimensoes - PCoA - 10 minutos

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: PCoA - Matriz de distancia - 20 minutos

1 Abrir o RStudio.2 Carregar o pacote vegan.3 ?cmdscale

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: PCoA - Matriz de distancia - 20 minutos

AbundPhyla <- read.csv(”analysis.tvs”, header=TRUE,sep=”\t”, row .names = 1)

AbundPhyla.d <- vegdist(t(AbundPhyla), method=”bray”)AbundPhyla.ord <- cmdscale(AbundPhyla.d, eig=TRUE)x <- AbundPhyla.ord$points[,1]y <- AbundPhyla.ord$points[,2]plot(x, y, xlab=”Coordinate 1”, ylab=”Coordinate 2”,type=”n”)text(x, y, labels = row.names(t(AbundPhyla)), cex=.7)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: ggplot2 (pacote de geracao de graficos publicaveis)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Analise de Correspondencia Canonica (CCA)Encontrar relacoes entre dois conjuntos de variaveis X e Y.Distribuicao de taxons e parametros ambientais (metadados, por exemplo: pH,temperatura, umidade, etc).O conjunto das variaveis resposta (Y) e contrastado com o conjunto dasvariaveis explicatorias (X).Triplot: variaveis resposta sao representadas por flechas e variaveis explicatoriassao representadas por pontos.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Analise de Correspondencia Canonica (CCA)

library(”vegan”)AbundPhyla ¡- read.csv(”TaxonomyOrder.tvs”, sep=”t”, header=TRUE, row.names=1)quimicos ¡- read.csv(”Metadados.csv”, sep=”t”, header=TRUE, row.names=1)cca.calc ¡- cca(t(AbundPhyla), t(scale(quimicos)))plot(cca.calc, choices = c(1, 2), display = c(”cn”, ”sites”),scaling = ”species”)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

R: Analise de Correspondencia Canonica (CCA) - 10minutos

?cca

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Discussao

Quais analises computacionais e metodos estatısticos eu devoaplicar no meu estudo?

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Obrigado pela atencao!

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Recommended