Upload
trinhkien
View
217
Download
0
Embed Size (px)
Citation preview
Biologia In Silico - Centro de Informática - UFPE
Ivan G. Costa [email protected]
Centro de InformáticaUniversidade Federal de Pernambuco
Pré-processamento e Normalização de Microarrays
Biologia In Silico - Centro de Informática - UFPE
Tópicos
• Microarrays e Ruídos• Aquisição dos dados de microarray
– análise da imagem– medição da expressão
• Pré-processamento e normalização– normalização dos dados
• inter e intra arrays
– filtros
Biologia In Silico - Centro de Informática - UFPE
Aquisição e Processamento de Dados
• Extração dos valores de expressão– identificação do spot– calcular intensidade
do sinal– normalizar valores
entre arrays– detecção de ruídos
Cond A Cond B Cond C
Gene 1 -1,1 0,1 1,5Gene 2 3,1 3,4 2,1
Gene 3 -2,2 -1,9 -3
... ... ...
BC
BC
A
Biologia In Silico - Centro de Informática - UFPE
Fontes de Variabilidade (1)
• Sistemáticos– quantidade total de RNA– transcriptase reversa– etiquetagem (label)– processo de escaneamento da imagem
• Efeitos similares em muitos dados– Técnicas de normalização
Biologia In Silico - Centro de Informática - UFPE
Fontes de Variabilidade (2)
• Estocásticos– defeito em sondas– deficiência do processo de detecção de
spots – cross-hibridização ou hibridização não
específica
• Efeitos específico de cada sonda– requerer modelos ruído
Biologia In Silico - Centro de Informática - UFPE
Fontes de Variabilidade (3)
Biologia In Silico - Centro de Informática - UFPE
Conceitos Basicos
Víes Ausencia de Víes
Ruido P
ouco Ruido
Biologia In Silico - Centro de Informática - UFPE
Processamento de Imagem
Biologia In Silico - Centro de Informática - UFPE
Processamento de Imagem
• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma
• Processamento– Posicionamento dos grids
Biologia In Silico - Centro de Informática - UFPE
Processamento de Imagem
• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma
• Processamento– Posicionamento dos grids
Biologia In Silico - Centro de Informática - UFPE
Processamento de Imagem
• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma
• Processamento– Posicionamento dos grids– Identificação dos spots– Valor do background
Biologia In Silico - Centro de Informática - UFPE
Identificação Spots
• Identificar bordas
• Custoso, boa detecção do sinal
• Centralizar círculos
• Simples, baixa qualidade no sinal
Biologia In Silico - Centro de Informática - UFPE
Valor do Spot
Biologia In Silico - Centro de Informática - UFPE
Valor do Spot Saturação • Calibragem do scanner pode levar
muitos pixels a ter valores máximos– 16bits – 65,535
• Mediana resolve com poucos pontos saturados
• Usar NA no caso de vários valores
Biologia In Silico - Centro de Informática - UFPE
verde (cy5)
vermelho(cy3)
cDNA Leitura - Exemplo
• Imagem é dividida em 2 canais (verde e vermelho)
• Mediana da intensidade de cada circulo
• Expressão final é dada por
– cy3mediana/cy5mediana
20050
Biologia In Silico - Centro de Informática - UFPE
Detecção de Background
• Problemas:– falha na lavagem do
array, luminosidade, hibridização não específica
• Uso de intensidade local como sinal de background
Biologia In Silico - Centro de Informática - UFPE
verde (cy5)
vermelho(cy3)
cDNA Leitura - Exemplo
• Imagem é dividida em 2 canais (verde e vermelho)
• Inclusão de background na medida
• Expressão final é dada por– (cy3sinal-cy3background)/
(cy5sinal -cy5background)
20050
Biologia In Silico - Centro de Informática - UFPE
Leitura Affymetrix Exemplo
• Grid quadrado é usado para marcar sondas
• Expressão absoluta do gene
PMPM
MM
PMPMPM
PM1 = 300
PM1 = 0
PM2 = 2000
PM2 = 100
Biologia In Silico - Centro de Informática - UFPE
Leitura Affymetrix Exemplo
• Expressão absoluta do gene
• Formula original pode gerar valores negativos
PMPM
MM
PMPMPM
PM1 = 300
PM1 = 0
PM2 = 2000
PM2 = 100
Avg.diff=∑j∈A
w j PM j−MM j
∣A∣∑j∈A
w j
w j=1 if PM j−MM j00 if PM j−MM j0
Biologia In Silico - Centro de Informática - UFPE
Qualidade de Leitura • u
• Fontes de ruído– Defeito de fabricação, distribuição, erro no
processo de identificação do spot, bolha de ar, poeira, cabelo, buracos negros
• Qualidade do spot:– Luminosidade: razão do sinal/background – Uniformidade: variação da intensidade do
pixel– Morfologia: área, perímetro, forma circular– Tamanho do spot: numero de pixels
Biologia In Silico - Centro de Informática - UFPE
Qualidade de Leitura • u
• Ações:– Definir valores como NA (missing values)
•i.e. (cy3sinal-cy3background) < c– normalização locais para reduzir problemas
como poeira– usar indicadores de qualidade em estágios
posteriores da análise.
Biologia In Silico - Centro de Informática - UFPE
Normalização
Biologia In Silico - Centro de Informática - UFPE
Preliminares
Biologia In Silico - Centro de Informática - UFPE
Preliminares
Biologia In Silico - Centro de Informática - UFPE
Normalização
Biologia In Silico - Centro de Informática - UFPE
Normalização
microarrays
expre
ssão
Biologia In Silico - Centro de Informática - UFPE
Normalização
• Problemas– Intensidade dos canais, calibragem do
scanner, ...
• Princípios básicos– a maioria dos genes medidos mantem
mesma expressão– a quantidade total de RNA
apresentado é igual
Biologia In Silico - Centro de Informática - UFPE
Normalização
• Localização– Corrigir viés
espacial• Escala
– igualar variabilidade
• Os microarrays devem ter mesma escala e localização
{
Biologia In Silico - Centro de Informática - UFPE
Normalização Escalonamento
• Rescalonamento
Mediana é usada por ser mais robusto
• Todos arrays tem a mesma localização
enorm=enorm−medianaarray
Biologia In Silico - Centro de Informática - UFPE
Normalização Escalonamento (2)• Como medir o fator de escalonamento?
– todos os genes– genes house-keeping – controles spike-in
• Correção do Background– global - Usar 5% percentile– Local - ???
Biologia In Silico - Centro de Informática - UFPE
Controle de Qualidade
• Swirl data
log(red)/log(green)
Biologia In Silico - Centro de Informática - UFPE
Controle de Qualidade
Biologia In Silico - Centro de Informática - UFPE
Escalonamento Local
Aplicar escalonamento para cada sub-grid
Biologia In Silico - Centro de Informática - UFPE
Escalonamento Local
Biologia In Silico - Centro de Informática - UFPE
EscalonamentoProblemas Scatter Plot MA Plot
Normalização global → não leva efeitos de intensidade em consideração
Biologia In Silico - Centro de Informática - UFPE
Normalização Loess
• Existe um viés dependente da intensidade
Viés = f(x)• emed= f(x) + ereal
• Encontra f e calcular emed-f
• Calcular f com regressão local
Biologia In Silico - Centro de Informática - UFPE
Normalização LoessExemplo
Biologia In Silico - Centro de Informática - UFPE
Normalizacao Metodo de Quantil• Todos os histogramas devem ser
identicos
Biologia In Silico - Centro de Informática - UFPE
Normalizacao Metodo de Quantil
Normalizacao Metodo de Quantil
Biologia In Silico - Centro de Informática - UFPE
Normalizacao Metodo de Quantil
Normalizacao Metodo de Quantil
Biologia In Silico - Centro de Informática - UFPE
Normalizacao Metodo de Quantil
Normalizacao Metodo de Quantil
Biologia In Silico - Centro de Informática - UFPE
Normalizacao Metodo de Quantil
Normalizacao Metodo de Quantil
Biologia In Silico - Centro de Informática - UFPE
NormalizacaoEstabilizacao de Variancia• Usa transformacao arcsin ao invez
do log• Usa metodos de maxima
verossimilhanca para calcular valores de escalonamento e normalizacao
• Ussume um erro aditivo e multiplicativo
Biologia In Silico - Centro de Informática - UFPE
NormalizacaoEstabilizacao de Variancia
Biologia In Silico - Centro de Informática - UFPE
NormalizacaoEstabilizacao de Variancia
Biologia In Silico - Centro de Informática - UFPE
Normalizacoes
• A principio todas as normalizacoes retornam bom resultados– Escalonamento local– Loess– Quantil– Estabilizacao de variancia
Biologia In Silico - Centro de Informática - UFPE
Filtros
Biologia In Silico - Centro de Informática - UFPE
Filtros
• Problema no desing da sonda
Biologia In Silico - Centro de Informática - UFPE
Filtros
• Alguns genes nao hidridizam com suas sondas
• Problemas de confeccao da sonda• Solucoes
– Usar sondas multiplas– Filtrar genes com baixa expressao
• Ex. Em affymetrix genes com emed > 200
Biologia In Silico - Centro de Informática - UFPE
Conclusoes
• Pre-processamento – Obtenco dos dados– Requer varios niveis de checagem de
qualidade• Sonda, array, gene
– Exercicio importante na analise de dados!
Biologia In Silico - Centro de Informática - UFPE
Software
• Bioconductor– Implementa maioria dos metodos:
vsn, limma, affy, …
• Affymetrix, Agilent– tem software proprio implementando
metodos.
Biologia In Silico - Centro de Informática - UFPE
Agradecimentos
Slides foram retirados de apresentacoes de Christine Steinhof e Tim Beissbarth