Livro Selecao Genomica Ampla

  • Upload
    mileknz

  • View
    212

  • Download
    3

Embed Size (px)

Citation preview

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    1

    UNIVERSIDADE FEDERAL DE VIOSA CENTRO DE CINCIAS EXATAS E TECNOLGICAS

    DEPARTAMENTO DE ESTATSTICA PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

    Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria Multivariada e Estatstica Espacial

    Marcos Deon Vilela de Resende Fabyano Fonseca e Silva

    Paulo Svio Lopes Camila Ferreira Azevedo

    Disciplina EST792 - Mtodos Estatsticos na Seleo Genmica Ampla Citao: Resende, M.D.V.; Silva, F.F.; Lopes, P.S.; Azevedo, C.F. Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria Multivariada (RRM) e Estatstica Espacial. Viosa: Universidade Federal de Viosa/Departamento de Estatstica. 2012. 291 p. http://www.det.ufv.br/ppestbio/corpo_docente.php

    Viosa MG 2012

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    2

    UNIVERSIDADE FEDERAL DE VIOSA CENTRO DE CINCIAS EXATAS E TECNOLGICAS

    DEPARTAMENTO DE ESTATSTICA PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

    Dados Internacionais de Catalogao na Publicao - CIP Embrapa Florestas

    Seleo genmica ampla (GWS) via modelos mistos (REML/BLUP), inferncia Bayesiana (MCMC), regresso aleatria multivariada (RRM) e estatstica espacial [recurso eletrnico] / Marcos Deon Vilela de Resende ... [et al.].- Dados eletrnicos.- Viosa, MG : Universidade Federal de Viosa, 2012. 291 p.

    Disciplina EST792 Mtodos Estatsticos na Seleo Genmica Ampla.

    Sistema requerido: Adobe Acrobat Reader. Modo de acesso: World Wide Web. Ttulo da pgina da web (acesso em 12 nov. 2012).

    ISBN 978-85-89119-08-5

    1. Estatstica biomtrica. 2. Seleo genmica. 3. Gentica quantitativa. 4. Matemtica computacional. I. Resende, Marcos Deon Vilela de. II. Silva, Fabyano Fonseca e. III. Lopes, Paulo Svio. IV. Azevedo, Camila Ferreira.

    CDD 519.5 (21. ed.) Marcos Deon Vilela de Resende, Fabyano Fonseca e Silva, Paulo Svio Lopes, Camila Ferreira Azevedo.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    3

    UNIVERSIDADE FEDERAL DE VIOSA CENTRO DE CINCIAS EXATAS E TECNOLGICAS

    DEPARTAMENTO DE ESTATSTICA PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

    Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria Multivariada e Estatstica Espacial

    Marcos Deon Vilela de Resende1 Fabyano Fonseca e Silva2

    Paulo Svio Lopes3 Camila Ferreira Azevedo4

    Apresentao

    A Seleo Genmica veio unir a Gentica de Populaes Gentica Quantitativa. Estes dois ramos com forte orientao Biomtrica tradicionalmente caminharam em separado, seja no Melhoramento Gentico de Plantas e Animais ou na Gentica Humana. Atualmente, a estimao de componentes da variao gentica e de valores genticos e a predio de fentipos usa trs conjuntos de dados ou informaes: fenotpicos, genealgicos e genotpicos em locos marcadores moleculares em desequilbrio de ligao com os genes de interesse. Ferramentas da Gentica de Populaes participam plenamente dos mtodos de estimao atualmente empregados. Dessa forma, Gentica de Populaes, Gentica Quantitativa, Gentica Molecular e Estatstica so demandados simultaneamente na anlise gentica dos caracteres de interesse. Esse texto aborda a nova Gentica Quantitativa do terceiro milnio.

    Viosa MG 2012. Os autores.

    1Estatstico, Ps-Doutor em Estatstica Biomtrica e Estatstica Gentica (Inglaterra) 2Zootecnista, Ps-Doutor em Estatstica Biomtrica e Estatstica Gentica (USA) 3Zootecnista, Ps-Doutor em Gentica Quantitativa e Melhoramento Animal (USA) 4Matemtica, Mestre em Estatstica Aplicada e Biometria (UFV)

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    4

    UNIVERSIDADE FEDERAL DE VIOSA CENTRO DE CINCIAS EXATAS E TECNOLGICAS

    DEPARTAMENTO DE ESTATSTICA PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

    Sumrio 1 Fundamentos Estatsticos da Seleo Gentica (7) 1.1 Propriedades dos Estimadores em Inferncia Estatstica (7) 1.2 Evoluo dos Mtodos de Avaliao Gentica (10) 1.3 Modelos Estatsticos Lineares (17) 1.4 Modelos Estatsticos de Seleo (19) 1.5 Mtodos Estatsticos de Estimao (20) 1.6 Derivaes Frequentistas e Bayesianas dos Estimadores de Valores Genticos (22) 1.7 Estimao de Componentes de Varincia (30) 1.8 Estimao Bayesiana de Componentes de Varincia: relao com ML e REML (33) 1.9 Estimao Bayesiana via MCMC (34) 1.10 Mtodos Numricos e Softwares para REML/BLUP e MCMC (41) 1.11 Testes de Hipteses e Parcimnia de Modelos (46) 1.12 Modelos Computacionais BLUP (48) 1.13 Modelos BLUP Univariados Multi-Efeitos (50) 1.14 Modelos BLUP Multivariados (50) 1.15 Modelos BLUP Espaciais e de Competio (Efeitos Associativos) (53) 1.16 Modelos BLUP Longitudinais (Regresso Aleatria e Normas de Reao) (60) 1.17 Casos Especiais: GLMM, GEE, HGLMM, PL, MP, PLS e SALP (67) 1.18 Mtodos Estatsticos para GWS (73) 1.19 Procedimento Estatstico para Comparao de Duas Metodologias (75) 1.20 Procedimento BLUP Melhorado: I-BAYES-BLUP (79) 2 Anlise genmica (82)

    2.1 Fundamentos da Anlise de QTLs e da Seleo Genmica (82) 2.2 Anlise de Ligao (LA) e Anlise de Desequilbrio de Ligao (LDA) (85)

    3 Anlise de QTL e da expresso gnica (89) 3.1 Mtodos de Anlise de QTL (89) 3.2 Anlise de QTL como Efeito Aleatrio via Modelos Lineares Mistos (93) 3.3 Anlise de QTL em Famlias de Irmos Germanos (94) 3.4 Estimao da Herdabilidade via Parentesco Genmico (97) 3.5 Funes de Mapeamento (99) 3.6 Anlise da Expresso Gnica (101)

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    5

    4 Gentica de associao (GWAS) (108) 4.1 Coeficientes e Medidas de Desequilbrio de Ligao (108) 4.2 Mtodos de Anlise de QTL via LDA (109) 4.3 Mapeamento Genmico Amplo via Regresso em Marcas nicas (114) 4.4 Poder Estatstico e Significncia na Associao e Deteco de QTL (116) 4.5 Mapeamento Genmico Amplo via Modelos Mistos com Hapltipos (118) 4.6 Mapeamento Genmico Amplo via Abordagem IBD-LD (119) 4.7 Mapeamento Genmico Amplo via Abordagem LDA-LA (120) 4.8 Mapeamento Genmico Amplo via Abordagem GWS (120) 4.9 Associao Genmica Ampla (GWAS) em Humanos (121) 4.10 Captura da h2 e Imperfeito LD entre SNPs e Variantes Causais (122) 4.11 GWAS via BayesCpi e BayesDpi (123) 5 Seleo Auxiliada por Marcadores Moleculares (MAS) (126) 5.1 Tipos de Seleo via Marcadores Genticos (126) 5.2 Seleo em Genes de Efeitos Conhecidos ou Marcadores Diretos (GAS) (127) 5.3 MAS via Marcadores em Equilbrio de Ligao (LE-MAS) (127) 5.4 MAS via Marcadores em Desequilbrio de Ligao (LD-MAS) (128) 5.5 LD-MAS via Anlise de Marcas nicas (128) 5.6 LD-MAS via Anlise de Mltiplos Marcadores e Regresso de Cumeeira (129) 5.7 LD-MAS via Anlise de IBD (134) 5.8 Nmero de Locos a ser Usado na LD-MAS (134) 6 Seleo genmica ampla (GWS) (136) 6.1 Fundamentos da Genome Wide Selection (GWS) (136) 6.2 Acurcia da GWS (139) 6.3 Populaes de Estimao, Validao e Seleo (147) 6.4 Populao de Validao e Jacknife (148) 6.5 Correlao e Regresso entre Valores Genticos Preditos e Fentipos (150) 6.6 Mtodos Estatsticos na Seleo Genmica Ampla (151) 6.7 Mtodo RR-BLUP (155) 6.8 Formas de Parametrizao da Matriz de Incidncia Genotpica (160) 6.9 Correo dos Fentipos (162) 6.10 Relao entre Varincia Gentica e Varincia dos Marcadores (165) 6.11 Exemplo via RR-BLUP/GWS (167) 6.12 G-BLUP com Dominncia e Interao GE: Avaliao Simultnea Global (168) 6.13 G-BLUP e Regresso Aleatria Multivariada (MRR) (173) 6.14 Comparao entre Mtodos de Estimao Penalizada (173) 6.15 Mtodos Bayesianos (179) 6.16 Mtodos Lasso (187) 6.17 Distribuies dos Efeitos Genticos nos Mtodos RR-BLUP, Bayes e Lasso (193) 6.18 Regresso Kernel Hilbert Spaces (RKHS) (195) 6.19 Regresso via Quadrados Mnimos Parciais (PLSR) (199) 6.20 Regresso via Componentes Principais (PCR) (200) 6.21 Regresso via Componentes Independentes (ICR) (200) 6.22 Comparao entre 12 Mtodos de Seleo Genmica Ampla (202) 6.23 Pesos das Marcas nos Diferentes Mtodos e Frequncias Allicas (204) 6.24 Imputao de Gentipos Marcadores (205) 6.25 Aumento na Eficincia Seletiva do Melhoramento de Plantas e Animais (207)

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    6

    6.26 Reduo no Erro da Inferncia sobre os QTL via Uso dos Marcadores (209) 6.27 Gentica de Populaes Genmica Ampla (GWPG) (226) 6.28 Gentica Quantitativa Genmica Ampla (GWQG) (229) 6.29 Software Selegen Genmica para GWS e GWAS (234) 6.30 Software GCTA para G-REML em Gentica Humana e Animal (239) 6.31 Variao Epigentica e Covarincia entre Parentes (243) 7 Scripts em R para Modelos Mistos, Inferncia Bayesiana e Seleo Genmica (245) 7.1 R para Modelos Mistos (245) 7.2 R para Inferncia Bayesiana (247) 7.3 R para Seleo Genmica (248) 7.3.1 Mtodo BayesA (248) 7.3.2 Mtodo BayesB (249) 7.3.3 Mtodo BayesCPi (250)

    7.3.4 Mtodo BLASSO (252) 7.3.5 Mtodo Regresso via Quadrados Mnimos Parciais (PLSR) (253) 7.3.6 Mtodo Regresso via Componentes Principais (PCR) (253) 7.3.7 Mtodo Regresso via Componentes Independentes (ICR) (256) 7.3.8 Mtodo Regresso Ridge-BLUP (RR-BLUP) (257) 7.3.9 Mtodo G-BLUP (259) 7.3.10 Anlise Espacial no Mtodo RR-BLUP (262) 7.3.11 Mtodo Regresso Kernel Hilbert Spaces (RKHS) (263)

    8 Referncias (264) 9 Fotos de Pesquisadores com Participao Relevante na Evoluo dos Mtodos Estatsticos de Avaliao Gentica (288)

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    7

    UNIVERSIDADE FEDERAL DE VIOSA CENTRO DE CINCIAS EXATAS E TECNOLGICAS

    DEPARTAMENTO DE ESTATSTICA PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

    1 Fundamentos Estatsticos da Seleo Gentica

    O melhoramento gentico de animais e plantas fundamenta-se em duas aes: a identificao de indivduos superiores; a criao de novas combinaes genotpicas superiores por meio do cruzamento entre esses indivduos elites. Em ambas as etapas a seleo tem papel fundamental e realizada com base na avaliao gentica dos indivduos, a qual tem dois objetivos: (i) inferir sobre os valores genticos dos indivduos; (ii) ordenar os indivduos com base em seus valores genticos.

    1.1 Propriedades dos Estimadores em Inferncia Estatstica

    A escolha de um mtodo timo de estimao/predio de valores genticos

    deve basear-se no critrio de uma inferncia mais precisa e realista possvel, a qual deve ser avaliada segundo parmetros estatsticos adequados. Nesse contexto, os parmetros mais importantes so a acurcia seletiva e o erro quadrtico mdio de estimao. A acurcia conceituada como a correlao entre o valor gentico verdadeiro e aquele estimado a partir das informaes genotpicas (marcadores) e/ou fenotpica dos indivduos. Um estimador acurado apresenta menor diferena quadrtica entre valores verdadeiros e estimados, ou seja, apresenta mnimo erro quadrtico mdio (EQM) de estimao. A Tabela 1 ilustra essa questo. Tabela 1. Ilustrao de clculo da acurcia e do erro de predio de valores genticos a partir de dados simulados.

    Individuo Valor Gentico Real ( g ) Valor Gentico

    Predito ( g ) Erro de Predio

    (%)( gg ) 1 65.929 71.716 0.09 2 76.213 74.242 0.03 3 55.333 62.620 0.13 4 54.678 60.012 0.10 5 74.766 76.409 0.02 6 92.742 75.515 0.19 7 81.241 76.785 0.05 8 62.385 72.929 0.17 9 83.280 81.906 0.02 10 66.279 67.104 0.01 11 59.107 63.747 0.08 12 63.325 64.381 0.02 13 60.807 68.552 0.13 14 66.864 65.872 0.01 15 78.432 67.242 0.14 16 54.042 56.527 0.05 17 75.274 77.499 0.03 18 86.995 76.232 0.12 19 72.250 78.856 0.09 20 80.547 70.806 0.12 Erro Mdio de Predio 0.08 Correlao ou Acurcia 0.78

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    8

    No exemplo apresentado, o erro mdio de predio foi de 8 % e a correlao entre os valores verdadeiros e aqueles preditos foi de 78 %. Esse o valor da acurcia seletiva (

    ggr

    ) e seu quadrado ( 2

    ggr ) denominado confiabilidade, confiana ou fidcia

    seletiva. O valor gentico estimado equivale ao verdadeiro mais o erro de predio, ou seja, )( gggg .

    Um mtodo timo de estimao/predio deve apresentar mnimo EQM, o qual dado por EQM = Vcio2 + Preciso = Vcio2 + PEV. Assim, um estimador de mnimo EQM apresenta vcio nulo ou baixo e alta preciso (baixa varincia do erro de predio PEV ou )( ggVar ). Em ausncia de vcio, EQM = PEV. A Figura 1 ilustra os conceitos de vcio, preciso e acurcia (Resende, 2008; Peternelli et al., 2011).

    a) b) c) d)

    Figura 1: ilustrao dos conceitos de acurcia, preciso e vcio. (a): alto vicio, baixa preciso, baixa acurcia; (b): baixo vcio, baixa preciso, baixa acurcia; (c): alto vcio, alta preciso, baixa acurcia; (d): baixo vcio, alta peciso, alta acurcia.

    Verifica-se pela Figura 1 que a alta acurcia (capacidade de acertar o alvo da

    predio nas vrias tentativas) uma combinao de alta preciso (baixa variao nas vrias tentativas) e baixo vcio (mdia das vrias tentativas igual ao alvo da predio). Em outras palavras, pode-se dizer que a acurcia a capacidade de acessar a verdade, e a preciso a capacidade de acessar sempre a mesma estria mas no necessariamente a verdade. A acurcia e a preciso guardam entre si as seguintes relaes:

    - Acurcia (

    ggr

    )

    2/12 ]/1[ gPEVr gg

    - Preciso (PEV) 22 )1()(

    gggrggVarPEV

    A raiz quadrada da PEV equivale ao desvio padro do erro de predio e pode ser usada para cmputo do intervalo de confiana do efeito gentico (g) predito, por meio da expresso: 2/1)]([ ggVartgi ou 2/122 ])1[( gi iggrtg , em que t um valor tabelado (1,96) associado distribuio t de Student a 95 % de confiana na inferncia e 2g a varincia gentica aditiva da populao.

    A estimao da PEV com base na inversa da matriz dos coeficientes das

    equaes de modelo misto apresentada a seguir, com base em Resende (2002). A matriz dos coeficientes das equaes do modelo misto eZgXby equivale a

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    9

    122211211

    ''

    ''

    AZZXZ

    ZXXXCCCC

    C e a inversa generalizada de C igual

    a

    22

    21

    1211

    CCCCC , em que y, b e g so vetores de dados, efeitos fixos e genticos

    aditivos, respectivamente, os ltimos com matrizes de incidncia X e Z. Tem-se tambm 2)( gAgVar , em que uma matriz de correlao entre os elementos de g. O estimador da varincia do erro de predio (PEV) dos efeitos genticos dado por

    222)( eCggVarPEV . Assim, a acurcia pode ser estimada por: 2/12 ]/1[

    gPEVr gg . Especificamente para um indivduo i, tem-se:

    222 )1( geii igg

    rdPEV 2/12/122 )1()/1(

    igei ddr igg , em que:

    di : i-simo elemento da diagonal de C22.

    2

    2

    2

    2 1h

    hg

    e . O desvio padro do erro de predio do valor gentico do indivduo i dado

    por: 2/1222/12 ])1[(][ geii igg

    rdSEP . importante relatar que para o caso em que 2eIR e as equaes de

    modelo misto no so simplificadas em relao ao termo R-1, tem-se PEVi = Ci22.

    Em inferncia estatstica, os estimadores devem apresentar as seguintes

    propriedades desejveis: a) No vcio, tal que a esperana matemtica do estimador seja o prprio parmetro. b) Consistncia, tal que, com o aumento do tamanho da amostra, a esperana do

    estimador convirja para o parmetro e a varincia do estimador, para zero (associado ao conceito de convergncia em probabilidade): refere-se ao aumento da acurcia de uma estimativa com o aumento do tamanho da amostra.

    c) Eficincia, tal que o estimador apresente varincia mnima. d) Suficincia, tal que o estimador condense o mximo possvel a informao

    contida na amostra e no seja funo (dependente) do parmetro. e) Completitude que est ligada unicidade do estimador. f) Invarincia translao, tal que a estimao dos componentes de varincia no

    seja afetada por mudanas nos efeitos fixos. g) Admissibilidade, que implica mnimo EQM global. h) Acurcia, que congrega baixo vcio e baixa PEV (alta preciso). i) Interpretabilidade: complexidade mnima aps seleo de covariveis. j) Regularidade: estimao sem consumir graus de liberdade. k) Estimabilidade: possibilidade de estimao dados o mtodo estatstico de estimao e o conjunto de dados (o conceito de estimabilidade envolve conceitos de estimao no tendenciosa e unicidade). l) Parcimnia: eficcia com o menor nmero possvel de parmetros no modelo.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    10

    m) Propriedade Shrinkage: regresso ou penalizao (ditada pelo tamanho da amostra e das variaes dos efeitos aleatrios e residuais) e economia de graus de liberdade. n) Propriedade Orculo ou de retido, que se refere a coeficientes no zero assintoticamente no viesados, normalidade assinttica e seleo consistente de covariveis medida que N (nmero de indivduos) e nm (nmero de covariveis) tendem a infinito. o) Ajuste Vlido, produzindo estimativas no espao paramtrico (varincias positivas e herdabilidades entre zero e um). p) Identificabilidade: soluo nica para os parmetros do modelo.

    Dessas propriedades, as mais importantes em conexo com a avaliao gentica so apresentadas na Tabela 2. As demais so tambm importantes e sero invocadas em outras partes desse texto.

    Tabela 2. Propriedades dos estimadores mais importantes em conexo com a avaliao gentica.

    Propriedades Propriedades Componentes Denominao das Propriedades Admissibilidade Vis2 baixo + PEV mnima global No vis aproximado + eficincia global Acurcia U Vis 0 + PEV mnima na classe U No vis + eficincia local Acurcia Global Vis2 baixo + PEV mnima global No vis aproximado + eficincia global Interpretabilidade Complexidade Mnima Parcimnia Regularidade Estimabilidade + Ajuste vlido Shrinkage, economia de graus de liberdade U: classe de estimadores no viesados.

    O erro quadrtico mdio de predio equivale distncia Euclideana mdia entre os estimadores e os correspondentes parmetros. Minimizar o erro quadrtico mdio significa maximizar a acurcia. Assim, o mtodo ideal de estimao ou predio dos valores genotpicos aquele que minimiza EQM. Verifica-se que tal mtodo pode ser viciado em pequeno grau, pois o que importa minimizar a soma PEVVcio 2)( . Na classe dos estimadores/preditores no viciados, a preciso dada pelo parmetro varincia do erro de predio (PEV) e a estratgia de minimizar PEV conduz tambm maximizao da acurcia. Mas, de maneira geral (relaxando a necessidade de no vcio), o que deve ser minimizado o EQM, buscando a admissibilidade. Alm da admissibilidade e acurcia, a interpretabilidade e a regularidade so relevantes, especialmente na seleo genmica. 1.2 Evoluo dos mtodos de avaliao gentica

    Em inferncia estatstica frequentista existem basicamente cinco classes de

    modelos de seleo. Fisher (1925) criou o mtodo da ANOVA via quadrados mnimos ordinrios (OLS) para a avaliao de variedades de cereais em delineamentos balanceados. O modelo genrico bsico dado por eXby , em que y o vetor da varivel resposta, b o vetor de efeitos genticos (fixos no caso) e e o vetor de erros aleatrios com matriz de covarincia 2eIR , caracterizando a Classe I de modelos de seleo. Nessa Classe I, os candidatos seleo so de efeitos fixos, implicando na escolha entre tratamentos, representados por uma amostra aleatria de observaes tomadas independentemente em cada tratamento.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    11

    A abordagem inicial da anlise de dados desbalanceados devida a Fisher e Yates, ambos trabalhando na Rothamsted Experimental Station na Inglaterra. Para este caso de representao desbalanceada, Yates (1934) apresentou as solues de quadrados mnimos ponderados (WLS) para dois diferentes modelos de classificao cruzada. Nesse caso, matriz de covarincia diagonal dada por 2eiIR , em que 2ei a varincia do erro associada observao i. Pela abordagem de Fisher e Yates os valores genticos eram estimados como efeitos fixos.

    Henderson et al. (1959) em um artigo influente apresentou estimadores de

    quadrados mnimos generalizados (GLS) de efeitos fixos contemplando a interferncia de efeitos aleatrios (g) correlacionados na estimao daqueles efeitos. Nesse caso, o modelo dado por eZgXby , em que X e Z so conhecidas matrizes de incidncia. A matriz de covarincia de y dada por Var(y) = V = Var (g) + R = 2)( eIgVar em que Var (g) pode ser no diagonal.

    Na Classe II de modelos de seleo, a seleo envolve candidatos considerados

    como variveis aleatrias no observveis pertencentes a uma determinada populao. Essa classe sempre foi considerada no melhoramento gentico, associado aos ndices de seleo envolvendo informaes de parentes, desde o trabalho de Lush (1931). Sob esse modelo aleatrio os preditores associados pertencem ao mtodo BLP (melhor predio linear). O modelo (de mdias) dado por eZgy , em que g o vetor de valores genticos, considerados como aleatrios. O BLP no especifica o que fazer com a mdia geral (u), o qual na prtica tem sido estimada por OLS (Resende et al., 1993). Bueno Filho e Vencovsky (2009) relatam a utilidade do BLP no melhoramento vegetal.

    O terceiro tipo de seleo foi negligenciado por estatsticos e melhoristas at o

    incio da dcada de 1970. Essa Classe III de modelo de seleo, denominado Modelo Misto de Seleo (em analogia ao modelo misto de anlise de varincia), foi apresentada formalmente por Henderson (1973), contemplando o mtodo BLUP (melhor predio linear no viesada). O modelo dado por eZgXby , em que b um vetor de efeitos fixos (efeitos ambientais identificveis) e g o vetor de efeitos genticos, considerados como aleatrios. Neste caso, os candidatos seleo so variveis aleatrias no observveis pertencentes a mais que uma populao, e o mrito de cada candidato a soma da mdia da populao mais o valor predito da varivel aleatria associada ao candidato. Neste caso, a seleo depende, tambm, de efeitos fixos desconhecidos. O modelo misto de seleo foi apresentado como BLUP por Henderson (1973), mas, foi concebido por volta de 1949 pelo prprio Henderson. Naquela poca, Henderson derivou o mtodo BLUP por meio da da maximizao da funo densidade de probabilidade conjunta de y (valores fenotpicos) e g (valores genticos) (Henderson, 1973). A funo maximizada no era uma funo de verossimilhana e sim uma densidade conjunta.

    Em termos mais rigorosos, a seleo um problema puramente estatstico,

    visto que na prtica seleciona-se uma frao de indivduos segundo seus valores genticos os quais seguem uma distribuio de probabilidade. Pearson (1903) derivou as mdias e varincias condicionais para a distribuio normal multivariada. Os

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    12

    resultados de Pearson foram apresentados em notao matricial por Aitken (1934) e empregados por Henderson no contexto dos preditores BLUP, os quais podem ser vistos como valores genticos condicionais a um conjunto de (N-r) funes lineares dos dados, linearmente independentes e invariantes `a translao, em que N o nmero de observaes e r o posto de X, a matriz de incidncia para os efeitos fixos. Os ndices de seleo podem ser vistos como computaes das mdias condicionais dos valores genticos dadas as observaes. Lush (1931) foi o primeiro cientista a utilizar preditores de valores genticos baseados em mdias condicionais e Cochran (1951) estendeu as propriedades timas dos ndices de seleo para quaisquer distribuies.

    A mdia fenotpica, mdia aritmtica ou mdia estimada pelo mtodo de

    quadrados mnimos no um estimador de mnimo EQM quando se tem mais que dois tratamentos ou materiais genticos em avaliao. O trabalho de Stein (1955), que constituiu um verdadeiro paradoxo na Estatstica, demonstrou que a mdia aritmtica estimador no admissvel, isto , que existem estimadores que propiciam menor erro quadrtico mdio ou menor risco que a mdia aritmtica, quando mais que duas mdias necessitam ser estimadas. Neste contexto, James e Stein (1961) apresentaram um estimador melhorado para a mdia populacional, que dado por

    ........* )( YYYkM i , em que k um fator regressor (ou de shrinkage) da mdia

    amostral de determinado tratamento ( .iY ) sobre a mdia geral ( ...Y ), em que FTTk /)]1/()3[(1 e T o nmero de gentipos em avaliao.

    Os mtodos (viciados ou no) que minimizam o EQM conduzem a

    estimadores/preditores do tipo shrinkage. Genericamente, um estimador do tipo shrinkage tem a forma de um escalar (variando entre zero e um) multiplicado por um vetor de mdias estimadas por quadrados mnimos ou por mxima verossimilhana. Ou seja, para o caso balanceado, esse tipo de estimador multiplica as mdias fenotpicas por um fator que varia entre zero e um, dependendo da confiabilidade (herdabilidade) que se tem nas mdias fenotpicas estimadas.

    Estimadores do tipo shrinkage comearam a ser usados por Lush (1931) no

    contexto do melhoramento animal associado ao mtodo da melhor predio linear (BLP) e, posteriormente, foram tambm usados no mtodo da melhor predio linear no viciada (BLUP) conforme Henderson (1973; 1975) e Thompson (1976; 1979). Esses mtodos assumem os efeitos de materiais genticos como aleatrios e o BLUP , adicionalmente, um preditor no viciado. Entretanto, conforme Stein (1955), para mais que dois tratamentos, estimadores do tipo shrinkage so necessrios, independentemente se os efeitos forem tomados como fixos ou aleatrios. O estimador melhorado de James e Stein (1961) no necessita de qualquer suposio referente a efeitos fixos ou aleatrios, ou sobre as distribuies das mdias a serem estimadas (Efron e Morris 1977) e pertencem Classe IV de modelos de seleo. Requer apenas o relaxamento da suposio de no vcio. Este estimador viesado, mas tem menor erro quadrtico mdio que o estimador de quadrados mnimos, em determinada regio do espao paramtrico.

    No contexto da avaliao gentica, importante relatar que o vcio

    propiciado pelo estimador de James-Stein pequeno e s pode existir quando o

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    13

    nmero de tratamentos baixo (inferior a dez). medida que o nmero de tratamentos aumenta, o estimador viesado torna-se no viesado e, por isso, o estimador de James-Stein denominado como aproximadamente no viesado. Conforme Schaeffer (1999), a princpio, somente estimadores no viesados eram usados pelos estatsticos. Os desenvolvimentos tericos, porm, evidenciaram que tais estimadores podem gerar estimativas fora do espao paramtrico admissvel. Assim, atualmente, procedimentos aproximadamente no viesados, desde que admissveis (de mnimo erro quadrtico mdio), tm sido considerados como os ideais.

    Os estimadores de James e Stein (1961) propiciam, com o aumento do

    nmero de tratamentos em avaliao, uma transio natural de um modelo de efeitos fixos para um modelo de efeitos aleatrios. E isso s depende do tamanho da populao (nmero de tratamentos). Com grande nmero de tratamentos, os estimadores de James-Stein e o mtodo BLUP (cujo regressor k = 1 1/F) se equivalem (Tabela 3). Nesse caso, a metodologia BLUP a melhor escolha pela facilidade de implementao e por poder ser estendida para o caso no balanceado. Quando o nmero de tratamentos superior a cinco, o modelo se aproxima mais de aleatrio (devendo-se usar o mtodo BLUP) e, quando menor que cinco o modelo se aproxima mais de fixo (devendo-se usar o mtodo de quadrados mnimos, cujo fator de regresso igual a 1). Logicamente o estimador de James-Stein o mais eficaz em qualquer das situaes (Resende e Duarte, 2007).

    Tabela 3. Valores dos regressores (de James-Stein) dos desvios das mdias fenotpicas em relao mdia geral, em experimentos balanceados, para obteno de estimativas precisas de valores genticos para diferentes nmeros de tratamentos ou genitores na populao.

    Nmero de tratamentos Regressor1 Nmero de tratamentos Regressor

    3 1 - 0,33/F* 14 1 - 0,85/F

    4 1 - 0,33/F 15 1 - 0,86/F

    5 1 - 0,50/F 16 1 - 0,87/F

    6 1 - 0,60/F 17 1 - 0,88/F

    7 1 - 0,67/F 18 1 - 0,88/F

    8 1 - 0,71/F 19 1 - 0,89/F

    9 1 - 0,75/F 20 1 - 0,89/F

    10 1 - 0,78/F 21 1 - 0,90/F

    11 1 - 0,80/F 38 1 0,95/F

    12 1 - 0,82/F 135 1 0,99/F

    13 1 - 0,83/F 400 1 1/F 1- F*: F de Snedecor centrado em zero, sendo que esse regressor deve multiplicar diretamente a mdia fenotpica e no o desvio; F: F de Snedecor centrado na mdia geral

    O procedimento de estimao bayesiana pertence Classe V de modelos de seleo

    e foi recomendado para avalio gentica por Gianola e Fernando (1986). O teorema de Bayes foi derivado em 1763 e, portanto, bem mais antigo do que o mtodo de Stein, e tambm minimiza o erro quadrtico esperado. Por isso, o estimador de James-Stein muito similar ao estimador de Bayes, tornando-se inclusive idnticos para grande nmero de tratamentos (Efron e Morris 1977). Por isso, so tambm denominados como estimadores de Bayes-Stein, Bayes emprico ou regra emprica de Bayes. Em inferncia bayesiana no existe qualquer distino entre efeitos fixos ou aleatrios, e os parmetros

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    14

    a serem estimados so considerados variveis aleatrias que devem ser estimadas considerando as incertezas a elas associadas.

    Na Tabela 4 apresentada a evoluo dos mtodos de avaliao gentica. Em cada

    linha da tabela o primeiro autor citado refere-se ao trabalho mais influente e os demais referem-se a trabalhos bsicos e/ou tericos que j haviam abordado o tema.

    Tabela 4. Evoluo dos mtodos de estimao de componentes de mdias (valores genticos).

    Observaes em y so Variveis Aleatrias Mtodo Autores Modelo Estimador Estrutura de

    Varincias OLS Fisher (1925) Fixo eXby yXXXb ')'( 1 ),0(~ 2eINe

    WLS Yates (1934) Fixo eXby yRXXRXb 111 ')'( ),0(~ 2eiIRNe

    GLS Henderson et al.

    (1959) Fixo

    eZgXby yVXXVXb111 ')'( ),(~ VXbNy

    2)( eIgVarV

    BLP Lush (1931; 1945); Pearson (1903); Aitken (1934)

    Aleatrio eZgy yRZAZRZg g 11121 '])('[ ),0(~ 2eIRNe ),0(~ 2gANg

    BLUP (A-BLUP) Henderson (1973);

    Thompson (1976); Henderson (1949)

    MistoeZgXby )('

    ])('[1

    1121

    bXYRZ

    AZRZg g

    ),0(~ 2eIRNe ),0(~ 2gANg

    James-Stein Efron e Morris

    (1977); James e Stein (1962); Stein (1955)

    eZgXby ........ )( YYYkg i

    )/11( Fk

    ),0(~ 2eiIRNe

    MAP (Bayes) Gianola e Fernando (1986); Fernando e Gianola (1986); Robertson (1955); Dempfle (1971); Bayes (1763)

    AleatrioeZgXby

    )(

    )(yP

    gPgyPygP

    )('

    ])('[1

    1121

    bXYRZ

    AZRZg g

    ),0(~ 2eIRNe

    ),0(~ 2gANg

    ),0(~ 2bINb 2b

    MAS (LE e LD) via OLS e BLUP

    Lande e Thompson (1990, OLS); Fernando e Grossman (1989); Goddard (1991)

    Fixo

    eqQZguys

    iii

    1

    ou emWZguy

    s

    iii

    1

    MistoeqQZgXby

    iii

    ou emWZgXby

    iii

    s

    iiimWZgg

    1

    s o nmero de marcas significativas

    i

    iimWZgg

    ),0(~ 2eINe

    ),0(~ 2eINe ),0(~ 2gANg

    GWS (RR-BLUP); GBLUP; Bayes; RR-BLUP_B)

    Meuwissen et al. (2001); Whittaker et al. (2000); Van Raden (2008); Nejati-Javaremi et al. (1997); Resende et al. (2010); Resende Jr. et al. (2012)

    MistoeqQXby

    iii

    ou emWXby

    iii

    ou emWZXby

    iii

    ou eZWmXby

    )(')'( 111 bXyRWIWRWWmWg em_que

    )(')'( 111 bXyRWIWRWm ou

    )(')'( 1 bXyWIWWm

    )()]/([ 112211 bXyRGRg ge em_que

    ])1(2/[)'( ni

    ii ppWWGA

    ),0(~ 2eINe ),0(~ 2gGNg

    ])1(2/[)'( ni

    ii ppWWG

    Observaes em y so Variveis Mistas (Aleatrias + Determinsticas) Mtodo Autores Modelo Estimador Estrutura de

    Varincias Modelos Espaciais: Krigagem e Autoregressivos

    Matheron (1971); Robinson (1991); Gilmour et al. (1995)

    MistoeZgXby )('

    ])('[1

    1121

    bXYZ

    AZZg g

    ),0(~ Ne ),0(~ 2gANg

    r

    rc

    ce )]()([2

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    15

    11

    11

    )(

    123

    112

    211

    321

    cc

    Modelos de Regresso Aleatria Multivariada: Polinmios de Legendre, Splines cbicas e B

    Schaeffer e Dekkers (1994); White et al. (1999); Meyer (2005)

    MistoeZgXby )('

    ])('[1

    111

    bXYZ

    KAZZg g

    ),0(~ Ne ),0(~ gKANg

    r

    rc

    ce )]()([2

    Modelos de Competio: Efeitos Associativos ou Indiretos

    Resende et al. (2005) Van Vleck e Cassady (2005); Arango et al. (2005);

    MistoeZgXby

    eNZZXby NZZXby

    )('

    ]*'[1

    111

    bXYZ

    GZZg

    22 )]()([

    rr

    cc I

    gggg

    G*

    A: matriz de correlao gentica aditiva construda via pedigree; G: matriz de correlao gentica aditiva construda via marcadores. Notao: Vetores y, b, g, m, q: referentes aos dados fenotpicos, efeitos fixos, genticos aditivos polignicos aleatrios, genticos aditivos aleatrios de marcadores, genticos aditivos aleatrios de QTL, respectivamente, com varincias 0, 2

    g , 2m e 2q . Matrizes X, Z, W, Q: incidncia para b, g, m, q, respectivamente.

    Na Tabela 5 apresentada a evoluo na forma de considerao do modelo gentico associado aos caracteres quantitativos nos mtodos de avaliao gentica.

    Tabela 5. Evoluo na forma de considerao do modelo gentico associado aos caracteres quantitativos nos mtodos de avaliao gentica.

    Modelo Efeitos Mtodo de Seleo

    Autores

    Polignico Infinitesimal Pequenos - Infinitos BLUP Fisher (1918)

    Misto de Herana: genes maiores + polignico residual

    Grandes + Pequenos Infinitos LE - MAS Fernando e Grossman (1989)

    Misto de Herana: genes maiores + polignico residual

    Grandes + Pequenos Finitos (segregando dentro de famlias)

    LE - MAS Fernando et al. (1994)

    Misto de Herana: genes maiores + polignico residual

    Grandes + Pequenos Finitos (segregando na populao: entre famlias)

    LD - MAS e GWS

    Meuwissen et al. (2001)

    O modelo linear misto convencional contempla os efeitos fixos (b), genticos

    aleatrios (g) e ambientais aleatrios (e) por meio de eZgXby (Modelo Individual). Incluindo os efeitos (q) dos QTLs de grandes efeitos para os locos i, o modelo torna-se eqQZgXby

    iii * (Modelo de QTL), quando se conhecem os

    genes ou emWZgXbyi

    ii * quando se conhecem apenas os marcadores, em que Qi uma matriz de incidncia que relaciona os indivduos com os alelos do loco i, e qi e mi contm os efeitos allicos para cada loco gnico e marcador, respectivamente. As matrizes de incidncia Q no so conhecidas e nem as suas dimenses, dadas pelo nmero de alelos em cada loco. Tambm no conhecido o nmero de locos que afeta o carter. Isto contrasta com o primeiro modelo, em que as matrizes de incidncia para b e g (X e Z, respectivamente) so conhecidas. Se Q fosse conhecida as equaes de modelo misto poderiam ser usadas sem qualquer alterao. Um outro modelo melhor seria eqQXby

    iii ou emWZXby

    iii (Modelo

    GWS), no qual todos os locos seriam individualizados e no haveria necessidade de incluso do resduo gentico polignico ou infinitesimal ( *g ).

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    16

    O que torna a anlise genmica diferenciada o fato da matriz Q ser desconhecida. No entanto, ela pode ser estimada com base nas informaes dos marcadores (matriz W). Segundo Perez-Enciso e Misztal (2004), a forma como os marcadores so usados para estimar Q e a forma de definio de q resulta em distintos modelos que contemplam os vrios delineamentos para a anlise de QTLs e formas de seleo genmica.

    Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor a predio simultnea dos efeitos dos marcadores, sem o uso de testes de significncia para marcas individuais. Isto contrasta com o mtodo da MAS proposto por Lande e Thompson (1990). Uma comparao entre as trs proposies pode ser vista na Tabela 6. Tabela 6. Comparao entre as trs proposies de seleo auxiliada por marcadores.

    Autores Mtodo Populao Nmero de Marcadores (nm)

    Teste de Significncia

    Extensao para o Enfoque Bayesiano

    Lande e Thompson (1990)

    MAS Indice de Seleo Reg. Mult.

    Dentro de famlia ou

    cruzamento

    Muito menor que tamanho do cruzamento (N): nm = N

    No No

    Meuwissen et al. (2001)

    GWS RR-BLUP

    Toda a Populao

    Muito maior que tamanho da populao de estimao (N):

    nm >> N

    No Sim

    Verifica-se pela Tabela 6, que a inovao de Meuwissen et al. (2001) no foi

    em termos de metodologia estatstica mas, em termos conceituais enfatizando o uso do conceito de desequilbrio de ligao em nvel populacional e no apenas dentro de famlia e o no uso de testes de significncia para marcas. E o maior mrito foi a demonstrao, via simulao, do fato de que a GWS pode realmente funcionar na prtica. Por outro lado, a verso G-BLUP da GWS, enfatizando a troca da matriz A pela G no BLUP tradicional (Van Raden, 2008) j havia sido proposta por Nejati-Javaremi et al. (1997) e Fernando (1998).

    O no uso de significncia estatstica para a seleo de marcas pela GWS a

    distingue da GWAS (Genome Wide Association Studies), a qual procura associao entre locos e carter fenotpico em nvel populacional, por meio de testes de hipteses visando detectar efeitos com significncia estatstica. A GWAS sofre com a alta taxa de falsos negativos devido ao uso de pontos de corte muito rigorosos visando evitar a ocorrncia de falsos positivos. A GWS equivale GWAS aplicada sobre todos os locos simultaneamente e baseando-se em estimao e predio em vez de teste de hiptese. Dessa forma consegue explicar parte muito maior da variabilidade gentica e evitar a chamada herdabilidade faltante ou perdida (missing heritability), tpica dos estudos de anlise de ligao e de associao.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    17

    1.3 Modelos Estatsticos Lineares

    Os modelos estatsticos lineares tem a forma geral y = u + b + g + e, em que u uma constante ou mdia geral, b um fator de blocagem cujos nveis so efeitos fixos ou aleatrios, g um fator de tratamentos cujos nveis so efeitos fixos ou aleatrios e e um erro aleatrio. Esses modelos podem ser classificados em:

    Modelo Fixo: todos os fatores possuem nveis com efeitos

    fixos, exceto o erro aleatrio (e). Modelo Aleatrio: todos os fatores possuem nveis com efeitos

    aleatrios, exceto a mdia geral (u). Modelo Misto: possui efeitos fixos, alm da mdia geral, e

    efeitos aleatrios alm do erro experimental.

    A natureza dos efeitos estatsticos pode ser definida:

    Fator de efeitos fixos: os nveis so constantes; so escolhidos; a inferncia vlida para os nveis em estudo; a informao entre nveis no afeta a estimao de cada nvel.

    Fator de efeitos aleatrios: os nveis so variveis aleatrias amostradas segundo uma distribuio de probabilidade; os nveis so amostras aleatrias de uma populao; a inferncia vlida para toda a populao; a informao entre nveis afeta a estimao de cada nvel.

    No contexto dos modelos mistos, as seguintes regras prticas podem ser

    adotadas para a definio de efeitos fixos ou aleatrios, a qual depende de: (i) nmero de nveis do fator (com 38 nveis o modelo aproxima 95% ao modelo aleatrio, conforme a Tabela 3); (ii) tamanho de cada nvel do fator (com 5 indivduos de cada genitor em cada nvel, 15% da variao gentica fica retida entre nveis ou grupos e para utiliz-la deve-se tomar o fator grupo como de efeitos aleatrios); (iii) magnitude da variao entre nveis do fator em relao variao residual ( medida que o coeficiente de determinao c2 do fator tende a 1, o modelo tende de aleatrio para fixo); (iv) presena de tratamento preferencial aos melhores indivduos, caso em que os grupos de indivduos devem ser tratados como de efeitos fixos, explorando a propriedade do Blup de invarincia translao nos efeitos fixos.

    Fora relativa dos efeitos fixos e efeitos aleatrios com matrizes de correlao A e I

    Os efeitos fixos dominam efeitos aleatrios com matriz de correlao A e I. Efeitos aleatrios com matriz de correlao A dominam efeitos aleatrios com matriz de correlao I. Isto ilustrado a seguir.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    18

    (A) - Modelo de reprodutor: ajustes no concorrentes

    Efeitos fixos Pop (p)

    Touro (t) Indivduo (g) Peso Modelo Ajustado Ajuste para Touro

    1 1 11 200.10 eTtuy 1 ),0(~ 2tINt

    Aleatrio em t Aleatrio em t Aleatrio em t Aleatrio em t Aleatrio em t

    1 2 12 160.50 1 2 13 302.45 1 3 14 112.67 1 3 15 145.89

    (B) - Modelo de reprodutor: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matriz de correlao I: 110 I

    Efeitos fixos Pop (p)

    Touro (t) Indivduo (g) Peso Modelo Ajustado Ajuste para Touro

    1 1 11 200.10 eTtXpy ),0(~ 2tINt

    Fixo em p e zero em t Aleatrio em t Aleatrio em t Aleatrio em t Aleatrio em t

    2 2 12 160.50 2 2 13 302.45 2 3 14 112.67 2 3 15 145.89

    (C) - Modelo individual ou animal: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matriz de correlao A:

    110 A . O indivduo 11 ter seu efeito gentico predito em g mas o valor refere-se somente parte dentro de famlia. Efeitos fixos

    Pop (p) Touro (t) Indivduo (g) Peso Modelo Ajustado Ajuste para Touro

    1 1 11 200.10 eZgXpy

    ),0(~ 2gANg Fixo em p e zero em g

    Aleatrio em g Aleatrio em g Aleatrio em g Aleatrio em g

    2 2 12 160.50 2 2 13 302.45 2 3 14 112.67 2 3 15 145.89

    (D) - Modelo individual ou animal: ajustes concorrentes: efeitos aleatrios com matriz de correlao A dominam efeitos aleatrios com matriz de correlao I: 11 IA . Nesse caso, o vetor estimado t conter apenas valores zero. Efeitos fixos

    Pop (p) Touro (t) Indivduo (g) Peso Modelo Ajustado Ajuste para

    Touro 1 1 11 200.10 eZgTtuy 1

    ),0(~ 2gANg ),0(~ 2tINt

    Aleatrio em g Aleatrio em g Aleatrio em g Aleatrio em g Aleatrio em g

    1 2 12 160.50 1 2 13 302.45 1 3 14 112.67 1 3 15 145.89

    (E) - Modelo individual ou animal: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matrizes de correlao A e I simultaneamente: 1110 IeA Efeitos fixos

    Pop (p) Touro (t) Indivduo (g) Peso Modelo Ajustado Ajuste para Touro

    1 1 11 200.10 eZgTtXpy ),0(~ 2gANg

    ),0(~ 2tINt

    Fixo em p e zero em g e t Aleatrio em g Aleatrio em g Aleatrio em g Aleatrio em g

    2 2 12 160.50 2 2 13 302.45 2 3 14 112.67 2 3 15 145.89

    (F) - Modelo de famlias de irmos completos: ajustes no concorrentes: o vetor f estima os efeitos de famlia contemplando

    2min

    22 )4/1()2/1( anciadogf . Efeitos fixos

    Pop (p) Famla (f) Indivduo (g) Peso Modelo Ajustado Ajuste para

    Famlia 1 1 11 200.10 eFfuy 1

    ),0(~ 2fINf

    Aleatrio em f Aleatrio em f Aleatrio em f Aleatrio em f Aleatrio em f

    1 2 12 160.50 1 2 13 302.45 1 3 14 112.67 1 3 15 145.89

    (G) - Modelo individual ou animal com famlias de irmos completos: ajustes concorrentes: efeitos aleatrios com matriz de correlao A dominam efeitos aleatrios com matriz de correlao I: 11 IA . O vetor f estima os efeitos da capacidade especfica de combinao (CEC) associados a cada famlia, contemplando 2 min

    2 )4/1( anciadof . Efeitos fixos

    Pop (p) Famla (f) Indivduo (g) Peso Modelo Ajustado Ajuste para

    CEC de Famlia 1 1 11 200.10 eZgFfuy 1

    ),0(~ 2gANg ),0(~ 2fINf

    Aleatrio em f Aleatrio em f Aleatrio em f Aleatrio em f Aleatrio em f

    1 2 12 160.50 1 2 13 302.45 1 3 14 112.67 1 3 15 145.89

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    19

    Assim, os efeitos associados matriz de incidncia X so mais fortes do que

    aqueles associados matriz de incidncia Z abrangendo os seguintes casos:

    )/(''')/(0'

    221

    221

    ge

    be

    IZZXZZXXX

    ;

    )/(''')/(0'

    221

    221

    ge

    be

    AZZXZZXXX

    e

    )/(''')/('

    221

    221

    ge

    ge

    IZZXZZXAXX

    , em que A uma matriz no diagonal de

    correlao entre valores genticos aditivos, com elementos dados por XYa , o numerador do coeficiente de parentesco de Wright entre os indivduos X e Y dado

    pela correlao 2/1)( YYXX

    XYXYa aa

    ar , em que FaXX 1 o parentesco do indivduo com ele mesmo e F o coeficiente de endogamia. Se F = 0, XYXYa ar . 1.4 Modelos Estatsticos de Seleo

    Os modelos estatsticos de seleo tem a forma geral )( yfg , em que t um estimador dos efeitos de tratamentos genticos e y = u + b + g + e. Os modelos estatsticos de seleo podem ser classificados em (Resende, 2008):

    A) Estimadores no Viesados

    (i) Modelo I (Fixo): tem como alvo a escolha entre

    tratamentos independentes e de efeitos fixos; assume implicitamente que g2 = Var(g) / Var(y) = 1, ou seja, que o coeficiente de determinao dos efeitos de tratamento equivale a 100%; utiliza na seleo os procedimentos de comparao de mdias fenotpicas estimadas por quadrados mnimos (OLS).

    (ii) Modelo II (Aleatrio): tem como alvo a seleo entre variveis aleatrias no observveis pertencentes a uma mesma populao estatstica (ambiente); assume g2 = Var(g) / Var(y) = h2, em que h2 a herdabilidade de cada nvel do fator de tratamentos; utiliza na seleo o procedimento da melhor predio linear (BLP) ou ndice de seleo (SI).

    (iii) Modelo III (Misto): tem como alvo a seleo entre variveis aleatrias no observveis pertencentes a vrias populaes estatsticas (ambientes ou raas, de efeitos fixos); assume g2 = Var(g) / Var(y) = h2, em que h2 a herdabilidade de cada nvel do fator de tratamentos; estima as mdias das vrias populaes por quadrados mnimos generalizados (GLS), produzindo melhores estimativas lineares no viciadas (BLUE) dessas mdias; utiliza na seleo o procedimento da melhor predio linear no viciada (BLUP).

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    20

    O procedimento BLUP pode ser assim caracterizado: B: minimiza a varincia do erro de predio (PEV), ou seja, maximiza

    a preciso. L: uma funo linear das observaes. U: no viciado, propriedade essa que, em conjuno com a

    minimizao da PEV, maximiza a acurcia na classe dos preditores no viesados.

    P: preditor de uma varivel aleatria.

    As propriedades B e U, simultaneamente, caracterizam um procedimento acurado, na classe dos preditores no viesados. Assim, o BLUP poderia tambm ser traduzido como preditor linear acurado (ALP). B) Estimadores Aproximadamente no Viesados

    (iv) Modelo IV: tem como alvo a escolha entre tratamentos

    com coeficientes de determinao dados por FTTg /)]1/()3[(12 , em que T o numero de nveis

    dos efeitos aleatrios g e F a estatstica F de Snedecor, funo da proporo entre varincia entre tratamentos e varincia residual. Utiliza na seleo mdias fenotpicas estimadas por quadrados mnimos (OLS) ponderadas pelo fator de shrinkage g2 (Estimadores de James-Stein).

    (v) Modelo V: tem como alvo a escolha entre variveis aleatrias obtidas como mdias a posteriori (MAP) de uma distribuio condicional dos valores genticos dados o vetor de dados e os valores atualizados dos componentes de varincia e efeitos fixos (Estimadores de Bayes ou MAP).

    1.5 Mtodos Estatsticos de Estimao

    Os mtodos estatsticos de estimao de componentes de mdia e de varincia, associados aos cinco tipos de modelos estatsticos de seleo, so apresentados na Tabela 7.

    Tabela 7. Mtodos estatsticos de estimao de componentes de mdia e de varincia e testes de hipteses . Modelo Estatstico Linear e de Seleo

    Mtodo de Estimao de Componentes de Mdias

    Mtodo de Estimao de Componentes de Varincia

    Teste da Significncia dos Efeitos

    Modelo I (Fixo) Quadrados Mnimos (LS) Quadrados Mnimos: Anlise de Varincia (ANOVA)

    Teste F de Snedecor; Teste de Wald

    Modelo II (Aleatrio) BLP ou BLUP Mxima Verossimilhana (ML) ou ML Residual (REML): Anlise de Deviance (ANADEV)

    Teste LRT via Qui - Quadrado

    Modelo III (Misto) BLUP REML: Anlise de Deviance (ANADEV)

    Teste LRT via Qui-Quadrado

    Modelo IV James-Stein Quadrados Mnimos: (OLS); Mxima Verossimilhana (ML)

    Intervalo de Confiana

    Modelo V Bayes (MAP) Moda a Posteriori (MAP) via MCMC

    Intervalo Bayesiano de Credibilidade

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    21

    Verifica-se uma sofisticao dos procedimentos quando se passa do modelo I para o modelo III e V. Uma ilustrao de clculos associados anlise de deviance apresentada a seguir.

    Na anlise de modelos mistos com dados desbalanceados, os efeitos do

    modelo no so testados via testes F tal como se faz no mtodo da anlise de varincia. Nesse caso, para os efeitos aleatrios, o teste cientificamente recomendado o teste da razo de verossimilhana (LRT). Para os efeitos fixos, um teste F aproximado pode ser usado. Um quadro similar ao quadro da anlise de varincia pode ser elaborado. Tal quadro pode ser denominado de Anlise de Deviance (ANADEV) e estabelecido segundo os seguintes passos:

    a) Obteno do ponto de mximo do logaritmo da funo de

    verossimilhana residual (Log L) para modelos com e sem o efeito a ser testado;

    a) Obteno da deviance D = -2 Log L para modelos com e sem o efeito a ser testado;

    b) Fazer a diferena entre as deviances para modelos sem e com o efeito a ser testado, obtendo a razo de verossimilhana (LR);

    c) Testar, via LRT, a significncia dessa diferena usando o teste qui-quadrado com 1 grau de liberdade.

    Considere como exemplo o seguinte experimento, conduzido no

    delineamento de blocos ao acaso com vrias plantas por parcela. Tem-se ento o seguinte modelo, y = u + g + b + gb + e, em que g refere-se ao efeito aleatrio de gentipos, b refere-se ao efeito fixo de blocos, gb refere-se ao efeito aleatrio de parcela e e refere-se ao resduo aleatrio dentro de parcela. A seguinte anlise de deviance (ANADEV) pode ser realizada.

    Efeito Deviance LRT(Qui-quadradod) Comp.Var. Coef. Determ.

    Gentipos 647.1794+ 6.5546** 0.032924* h2g = 0.0456* Parcela 654.1289+ 13.5041** 0.068492** c2parc = 0.0948** Resduo - - 0.6206 c2res=0.8595 Modelo Completo 640.6248 - - c2total=1.0000 Bloco - F = 7.0172** - - Qui-quadrado tabelado: 3,84 e 6,63 para os nveis de significncia de 5 % e 1 %, respectivamente.. + Deviance do modelo ajustado sem os referidos efeitos d Distribuio com 1 grau de liberdade.

    Verifica-se que os efeitos de gentipos e de parcelas so significativos.

    Conseqentemente, os respectivos componentes de varincia so significativamente diferentes de zero, assim como os respectivos coeficientes de determinao (herdabilidade dos efeitos genotpicos h2g e coeficiente de determinao dos efeitos de parcela - c2parc). O fator bloco, considerado de efeito fixo, foi testado via F de Snedecor. A anlise de devincia uma generalizao (para os casos balanceado e desbalanceado) da clssica anlise de varincia.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    22

    1.6 Derivaes Frequentistas e Bayesianas de Estimadores de Valores Genticos

    a. Minimizao da soma de quadrados dos resduos ou erros de estimao sob

    modelo de efeitos fixos e restrio U de no vicio (OLS). b. Minimizao da soma de quadrados ponderada (comtemplando heterocedasticia)

    dos resduos sob modelo de efeitos fixos e restrio de no vicio (WLS). c. Minimizao da soma de quadrados ponderada (comtemplando heterocedasticia

    e erros correlacionados) dos resduos sob modelo de efeitos fixos e restrio de no vicio (GLS).

    d. Maximizao da funo de verossimilhana de y (ML; BLP emprico). e. Minimizao do erro quadrtico mdio de estimao sob modelo aleatrio (BLP

    se os componentes de varincia so conhecidos). f. Maximizao da acurcia: maximizao da distribuio conjunta entre g e y (BLP

    se os componentes de varincia so conhecidos). g. Minimizao do erro quadrtico mdio de estimao na classe U sob modelo

    misto (BLUP se os componentes de varincia so conhecidos, Krigagem). h. Maximizao da acurcia na classe U: maximizao (com respeito a g e b) da

    distribuio conjunta entre g e ( bXy ) (BLUP se os componentes de varincia so conhecidos; BLP de g + GLS de b).

    i. Maximizao da funo de verossimilhana restrita de ( bXy ) (REML; BLUP emprico).

    j. Maximizao da distribuio a posteriori de g dado y (MAP ou Bayes ou Mdia condicional a posteriori).

    k. GWS: Maximizao da acurcia na classe U: maximizao da distribuio conjunta entre g e m (RR-BLUP e G-BLUP); m um vetor dos efeitos de marcadores genticos de DNA.

    l. GWS: Maximizao da distribuio a posteriori de g dado m (MAP ou Bayes ou Mdia condicional).

    Existem duas formas frequentistas de derivao do BLUP: (i) pela

    minimizao do erro quadrtico mdio de predio (

    i

    ii ggE2)( ) sob restrio de

    no vicio; (ii) pela maximizao da funo densidade de probabilidade conjunta do vetor de dados e do vetor de parmetros. A forma (ii) apresentada a seguir.

    Modelo misto

    y = Xb + Zg + e Funo Densidade de Probabilidade de y

    )()'(

    21exp

    2

    1),( 12/1)2/1( XbyVXbyVVXbyf

    N

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    23

    Funo Densidade de Probabilidade Conjunta de y e g

    )'(21exp

    2

    1.

    )()'(21exp

    2

    1

    )().(),(

    12/1)2/1(

    12/1)2/1(

    gGgG

    ZgXbyRZgXbyR

    gfgyfgyf

    q

    N

    A funo densidade de probabilidade conjunta de y e g dada pelo produto entre a funo densidade de probabilidade condicional de y dado g e a funo densidade de probabilidade de g, ou seja, f(y,g) = f(y|g) . f(g). Maximizando essa funo, por meio da derivao da mesma em relao a b e g, e tomando-se as derivadas identicamente nulas, obtm-se as equaes de modelo misto. importante reafirmar que a funo a ser maximizada uma funo densidade de probabilidade conjunta de y e dos parmetros e no uma funo de verossimilhana ( )( gyf ). Detalhes dessa derivao so apresentados por Lopes et al. (1998) e Martins et al. (1997;1998).

    A predio usando BLUP assume que os componentes de varincia so conhecidos. Entretanto, na prtica, so necessrias estimativas fidedignas dos componentes de varincia (parmetros genticos) de forma a se obter o que se denomina BLUP emprico (Harville e Carriquiry, 1992). O procedimento recomendado para estimao de componentes de varincia o da mxima verossimilhana restrita (REML), desenvolvido por Patterson e Thompson (1971). Teorema de Bayes (em termos de Eventos) Probabilidade condicional: Se A e B so eventos em um dado espao de probabilidade, a probabilidade condicional de um evento A dado o evento B, indicado por P[AB] definida por:

    0,P[B]seP[B]

    B]P[A,]P[ BA

    Probabilidade Conjunta: a partir da frmula da probabilidade condicional obtm-se a frmula da probabilidade conjunta dada por P[A,B]=P[B] . P[ BA ]=P[A] . P[ AB ]. Teorema de probabilidade total: para um dado espao de probabilidade se B1, B2, ..., Bn uma coleo de eventos mutuamente disjuntos satisfazendo:

    entonjparaBPeB jnj

    j ...,,2,101

    APBPBAPAP jnj

    j 1

    , em que o espao amostral. Teorema de Bayes: a partir da frmula da probabilidade conjunta e da probabilidade total obtm-se:

    .PrPr,

    1

    TotaleobabilidadConjuntaeobabilidad

    BPBAP

    BPBAPAP

    BAPABPj

    n

    jj

    kkk

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    24

    Funo Densidade de Probabilidade e Expectncia

    Uma varivel aleatria contnua no possui uma funo de probabilidade que associe probabilidades a cada ponto ou valores de seu domnio. Estas probabilidades so calculadas para intervalos de valores do domnio atravs de uma funo densidade de probabilidade. A funo f(Y) uma funo densidade de probabilidade desde que satisfaa s condies:

    (i) dyyfbYaPb

    a )()( (ii) 1)(

    dyyf

    Uma varivel com distribuio Normal ou Gaussiana com parmetros (mdia) e 2 (varincia), tem como funo densidade de probabilidade:

    0e,y,)uy(2

    1exp)2(

    1)y(f 222/12

    Formalmente, os momentos dos dados equivalem aos valores esperados de uma

    funo de uma varivel aleatria. Sendo Y uma varivel aleatria e g() uma funo com domnio e contradomnio reais, define-se expectncia ou valor esperado g() da varivel aleatria Y, a funo E [g(Y)] dada por:

    (i) )()()]([ yPYgYgEY

    Y se Y uma varivel aleatria discreta; (ii) dyyfYgYgE Y )()()]([

    se Y uma varivel aleatria contnua com

    funo densidade de probabilidade )( yfY . Assim, tem-se: a) Se g (Y) = Y, ento, E[g(Y)] = E(Y) = Y: primeiro momento; b) Se g (Y) = Y2, ento, E[g(Y)] = E(Y2): segundo momento; c) Se g (Y) = Y3, ento, E[g(Y)] = E(Y3): terceiro momento; d) Se g (Y) = Y4, ento, E[g(Y)] = E(Y4): quarto momento; e) Se g (Y) = (Y-0), ento, E[g(Y)] = E(Y) = Y: primeiro momento

    centrado em zero (mdia); f) Se g (Y) = (Y-Y)2, ento, E[g(Y)] = E(Y-Y)2=Var(Y): segundo

    momento centrado na mdia (varincia).

    Os momentos de uma varivel aleatria ou de sua correspondente distribuio so as potncias das esperanas. O r-simo momento de uma varivel aleatria Y usualmente indicado por Mr e definido por Mr = E(Y

    r) se a esperana existe. O r-simo momento central de uma varivel aleatria Y em torno de a definido como E[(Y-a)r]. Se a = Y, tem-se o r-simo momento central de Y em torno da mdia Y. Assim:

    M1 = E[(Y-Y)] = 0: primeiro momento central; M2 = E[(Y-Y)2] = Var (Y): segundo momento central.

    A varincia de uma varivel aleatria Y com esperana E(Y) = Y definida por:

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    25

    (i) )()()( 22 yPYYVar YY

    YY se Y discreta; (ii) dyyfYYVar YYY )()()( 22

    se Y contnua.

    Funo Densidade Marginal Uma funo densidade marginal de uma varivel Y1 com respeito outra varivel Y2 refere-se aos valores assumidos por Y1 independente dos valores assumidos por Y2. Nesse caso, a distribuio marginal Y1 dada por

    2211 ),()( dyyyfyf

    , donde se v que

    y2 integrada (tendo eliminada a sua influncia) na funo. Assim, y2 considerada varivel de distrbio. Funo Densidade Condicional Uma funo densidade condicional de uma varivel Y1 com respeito outra varivel Y2 refere-se aos valores assumidos por Y1 quando Y2 assume um valor constante. Nesse caso, a distribuio condicional dada por )(/),()( 22121 yfyyfyyf , onde )( 2yf a densidade marginal da varivel Y2, a qual fixada em um determinado valor. A esperana condicional de Y1 dado Y2 uma regresso de Y1 em Y2, dada por

    ))(arg/())(/()()( 222211222

    2211221221 yinalmconjuntayyyYYE yyyyyy Estimao Bayesiana

    A estimao Bayesiana difere da estimao por mxima verossimilhana (ML) devido ao fato de se maximizar a distribuio a posteriori do parmetro em vez da funo de verossimilhana. Essa distribuio dita condicional do parmetro dadas as observaes (y) e proporcional ao produto da funo de verossimilhana pela distribuio a priori do parmetro. De maneira similar ML, possvel tambm maximizar a funo densidade a posteriori em relao aos parmetros. Se a informao a priori encontra-se disponvel a estimao Bayesiana deve ser prefervel ML.

    O princpio bayesiano atribudo postumamente (1763) a Thomas Bayes, que nunca publicou em vida um trabalho matemtico. No entanto, a base desse princpio foi publicada antes por Saunderson (1683-1739), um cego professor de tica, que publicou vrios artigos matemticos.

    Ao invs de maximizar a distribuio a posteriori, uma alternativa definir uma

    funo de perda, como por exemplo as funes de perda linear e quadrtica, as quais contemplam respectivamente as diferenas simples e quadrticas entre os valores estimados e os parmtricos. Minimizar a funo de perda linear equivale a maximizar a densidade a posteriori (obtendo a moda) e minimizar a funo de perda quadrtica equivale a maximizar a mdia da distribuio a posteriori. Se a distribuio a priori no informativa (vaga) e/ou a quantidade de dados muito grande (a

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    26

    verossimilhana domina a priori), a estimao bayesiana converge para a estimao ML, ou seja, ambas so equivalentes.

    O Teorema de Bayes, definido em termos de densidades de probabilidade,

    tem a seguinte formulao para a distribuio de uma varivel aleatria contnua:

    .)()(

    )(),(

    dfyf

    fyfyf

    yfyf

    R

    (1)

    : vetor de parmetros f(): funo densidade de probabilidade da distribuio a priori, que tambm a densidade marginal de . Esta funo denota o grau de conhecimento acumulado sobre , antes da observao de y. y : vetor de dados ou de informaes obtidas por amostragem.

    f(y): funo densidade de probabilidade da distribuio condicional de uma observao (y) dado (denominada funo de verossimilhana ou modelo para os dados).

    ),( yf = f(y) f() : funo densidade conjunta de y e .

    f(y): distribuio condicional de dado y, ou distribuio a posteriori (que a base

    da estimao e predio bayesiana). A Figura a seguir (em que y foi substitudo por X) ilustra essas distribuies.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    27

    )()(),( yfEdfyfdyfyf RR - distribuio marginal ou preditiva de y com respeito a , onde R a amplitude da distribuio de . E significa esperana com respeito distribuio de . (A integrao da distribuio conjunta, no espao paramtrico de , produz a marginal de y). A funo yf denominada funo de verossimilhana ponderada (por f ) sobre a distribuio de . A marginal de y independente de , o qual integrado para fora da funo.

    Como f(y) no funo de (ou seja, f(y) constante para qualquer ), a

    forma usual da formulao de Bayes : f(y) f(y) f(), onde indica proporcionalidade. Dessa forma, f(y) no integra 1.

    A expresso (1) advm das expresses f(,y) = f(y) f() e f(,y)=f(y)

    f(y), as quais so obtidas a partir do teorema da probabilidade condicional. Em termos de estimao, enquanto para a estatstica freqentista podem

    existir vrios estimadores para um determinado parmetro, para a estatstica bayesiana existe, em princpio, um nico estimador, o qual conduz a estimativas que maximizam a funo densidade de probabilidade a posteriori. Assim, inferncias sobre so realizadas a partir da densidade a posteriori atravs da expresso geral dyfyp R )( , onde p denota probabilidade (Gianola & Fernando, 1986).

    Ao nvel do i-simo elemento do vetor , a esperana condicional de i

    dado y

    dfyf

    dfyf

    R

    iR

    )()(

    )()( , o qual o usual estimador bayesiano de i. Verifica-se que a predio dos valores genticos ( g ), a partir dos dados

    fenotpicos (y), baseia-se na mdia condional ou regresso de g em y, dada por:

    dggyfdggyfgygE ),(/),()( , em que: ),( gyf : funo densidade da distribuio de probabilidade conjunta de y e g.

    Com dados desbalanceados, independentemente da distribuio, o ordenamento dos candidatos com base em E(gy) e a seleo daqueles com os maiores valores, maximiza a mdia dos indivduos selecionados, conforme demonstrado por Fernando & Gianola (1986).

    Em inferncia bayesiana no existem parmetros de efeitos fixos, mas apenas

    variveis aleatrias. Tais variveis so estimadas, diferentemente da abordagem frequentista, em que os efeitos aleatrios so preditos e os efeitos fixos e componentes de varincia so estimados. Na inferncia bayesiana os parmetros tm uma distribuio de probabilidade enquanto na inferncia frequentista (com fatores de efeitos fixos) os estimadores dos parmetros que tm uma distribuio de probabilidade.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    28

    Relao entre Blup e Estimadores Bayesianos

    Alm das distribuies (normais) adotadas para os efeitos aleatrios (g) no modelo linear clssico e para a verossimilhana do vetor de observaes (y), a abordagem bayesiana requer atribuies para as distribuies a priori dos efeitos fixos e componentes de varincia. A atribuio de distribuies a priori no informativas ou uniformes para os efeitos fixos e componentes de varincia uma forma de caracterizar um conhecimento a priori vago sobre os referidos efeitos e componentes (Gianola & Fernando, 1986; Silva et al., 2008; 2011).

    Quanto estimao dos efeitos fixos (efeitos de blocos completos, por

    exemplo) e de efeitos aleatrios (valores genticos), tem-se que as mdias das distribuies marginais a posteriori dos parmetros de locao (efeitos fixos e aleatrios), dados os componentes de varincia ou parmetros de disperso conhecidos, equivalem s solues das equaes do modelo misto do BLUP, desde que: sejam atribudas prioris no informativas para os efeitos fixos, prioris normais para os efeitos aleatrios e verossimilhana normal para o vetor de observaes.

    Uma vez que a distribuio a posteriori resultante simtrica e unimodal

    (normal), a moda, a mediana e a mdia so idnticas e uma grande classe de funes de perda comum (funo de perda quadrtica, funo de perda absoluta ou funo de perda uniforme) conduz ao mesmo estimador. Determinando a moda obtm-se o vetor mdio da distribuio conjunta a posteriori, por maximizao e no integrao. Obtm-se ento:

    0)(''

    )()(

    ''''

    2111

    11

    2111

    111

    gg AyRZrSyRX

    ygEybE

    AZRZXRZZRXSXRX

    , em que r1 = E(b) e 0 = E (g).

    Essa derivao da metodologia BLUP, sob o enfoque bayesiano baseia-se na

    combinao de dois estimadores (fontes de informao) independentes. Neste caso, as equaes resultantes so denominadas equaes de modelo misto de Robertson (Resende e Rosa-Perez, 1999).

    Tomando a distribuio a priori sobre os efeitos fixos como no informativa (expressa como S e ento 0S 1 ), tem-se que esta equao resultante equivale s equaes do modelo misto do BLUP:

    yRZyRX

    gb

    AZRZXRZZRXXRX

    g1

    1

    2111

    11

    ''

    ''''

    Essa equao pode ser derivada tambm pela maximizao de f (y, ) para variaes em (em que = b;g), sendo o estimador, neste caso, denominado mximo a posteriori (MAP). Sendo P(gy) = probabilidade de g dado y, o mximo a posteriori (MAP) de g dado pela maximizao de P(gy). Quando g e y seguem uma distribuio normal multivariada, o MAP de g equivalente ao BLUP de g. A prova disso apresentada a seguir.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    29

    Se Y ~N (, V), ou seja, P (Y) = )()'(212/2/

    1

    )2(1

    yVy

    nne

    V em que n =

    ordem de y, tem-se usando o teorema de Bayes:

    yPgPgyPygP

    yPgPgyP

    ygP

    logloglog)(

    )(

    gAgnGZgXyRZgXyRn 11 '2

    log21)()'(

    21log

    2 constante

    yRZgGZRZXRZgGgZXyRZg

    yRXgZRXXRXgZXyRXB

    111111

    1111

    ')'('0)('

    '''0)('

    Esta ltima expresso equivalente ao BLUP de g.

    Relao entre Estimadores de Mxima Verossimilhana (ML) e Bayesianos

    O objetivo do mtodo ML encontrar um conjunto de parmetros que maximizam a verossimilhana de um modelo, dado uma coleo de observaes. A verossimilhana para um determinado modelo pode ser escrito como uma funo. Segundo os fundamentos de clculo matemtico, para encontrar o mximo dessa funo, deve-se tomar a primeira derivada ou diferencial dessa funo e igualar o resultado a zero. Isto propicia o conjunto de parmetros que conduzem a funo a um ponto crtico mximo, desde que no se tenha atingido um ponto de mnimo. Isto pode ser verificado usando o sinal da derivada segunda. Sinal positivo da derivada segunda indica concavidade para cima, ou seja, ponto de mnimo. Sinal negativo da derivada segunda indica concavidade para baixo, ou seja, ponto de mximo.

    Considerando como uniforme a distribuio a priori dos parmetros em b a serem estimados e maximizando (obtendo a moda) a distribuio a posteriori, o estimador resultante equivalente ao de mxima verossimilhana ML (Henderson, 1984; Gianola & Fernando, 1986). De fato, maximizando f (g,b) (mas considerando uma priori no informativa para b) com respeito a g e b obtm-se um estimador denominado de mxima verossimilhana, por Henderson et al. (1959), embora f(g,b) no seja uma funo de verossimilhana e sim uma densidade a posteriori. Mesmo assim, pode ser obtido a partir das equaes do modelo misto que

    byVXXVXybE ')'()( 111 e gXbyVGZygE ][')( 1 em que b um estimador GLS e tambm ML de b e g um estimador ML de E(gb, y), equivalendo mdia da distribuio condicional na qual b fixado.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    30

    Implementao Prtica da Anlise Bayesiana

    Os resultados de interesse gerados pela anlise Bayesiana so, em geral, as distribuies marginais a posteriori dos parmetros de interesse. Posteriormente, inferncias baseadas na mdia, mediana, moda e desvios padres destas distribuies so realizadas na prtica.

    O problema bsico da implementao da anlise Bayesiana refere-se integrao numrica. A integrao (no espao do parmetro) da funo densidade de probabilidade a posteriori, por exemplo:

    dypgygE R )()(])([ , onde: )(g , para obteno da mdia a posteriori e

    )(,)()( 2 yEg , para obteno da varincia a posteriori ou risco de Bayes, pode ser realizada atravs dos mtodos (Gamerman, 1996): (i) analtico para aproximao de integral; (ii) automticos ou de quadratura; (iii) simulao estocstica para obteno de distribuies a posteriori, a qual descrita em tpico seguinte.

    1.7 Estimao de Componentes de Varincia

    Embora o problema central da avaliao gentica seja a estimao de componentes de mdias (valores genticos), os quais so obtidos via integrao (clculo de esperana matemtica) de funes, os componentes de varincia so um problema tangencial avaliao gentica e so tambm essenciais em outras etapas do melhoramento gentico. Os componentes de varincia podem ser obtidos via integrao ou derivao (maximizao) de funes. Na Tabela 8 so apresentados os principais mtodos de estimao de componentes de varincia. Em cada linha da tabela o primeiro autor citado refere-se ao trabalho mais influente e os demais referem-se a trabalhos bsicos e/ou tericos que complementam o tema.

    Tabela 8. Evoluo dos mtodos de estimao de componentes de mdias (valores genticos). Mtodo Autores Modelo Estrutura de

    Varincias Distribuio das Varincias

    ANOVA Henderson (1953); Fisher (1925)

    Fixo, funo para y ),0(~ 2eINe - ML Hartley e Rao (1967);

    Fisher (1922) Aleatrio, funo para y ),0(~ 2eIRNe

    ),0(~ 2gANg -

    REML Patterson e Thompson (1971); Thompson (1969; 1973)

    Misto, funo para (y-Xb) ),0(~ 2eIRNe ),0(~ 2gANg

    -

    BAYES- MCMC Geman e Geman (1984); Gelfand e Smith (1990)

    Aleatrio, distribuio a posteriori

    ),0(~ 2eINe ),0(~ 2aANa

    ),(~ 222 eee S ),(~ 222 aaa S

    Uniforme se 0;2 2 ii S

    G-REML ou REML/G-BLUP

    Van Raden (2008); Misztal et al. (2010)

    Misto, funo para (y-Xb) com regresso em covariveis (marcas) aleatrias ou G como matriz de parentesco genmico

    ),0(~ 2eIRNe ),0(~ 2gGNg

    -

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    31

    A variao fenotpica devida a efeitos genticos e ambientais. Os efeitos genticos podem ser decompostos em efeitos de um conjunto de genes de efeitos menores (poligenes) e efeitos atribudos a genes maiores ou regies genmicas especficas. A distino entre esses trs tipos de efeitos, bem como a decomposio da variao fenotpica total de um carter em funo desses trs componentes, tem se tornado essencial aos programas de melhoramento gentico de plantas e animais. Os efeitos ambientais podem ser desmembrados em independentes e correlacionados.

    Os mtodos padres para estimao desses componentes de varincia tm sido o

    da mxima verossimilhana residual (REML) e o da estimao Bayesiana (MCMC). Aplicados sobre dados fenotpicos combinados com informaes de marcadores genticos e de genealogia, esses mtodos permitem a separao da varincia gentica associada a todo genoma daquela associada a regies cromossmicas especficas, conduzindo deteco de genes individuais. Quando aplicado usando apenas a informao de ligao gnica em anlise dentro de famlia, geralmente no conduz a mapeamento suficientemente preciso para permitir resoluo ao nvel molecular. Entretanto, a inferncia sobre o parentesco gentico entre indivduos usando as informaes sobre desequilbrio de ligao marcadores-QTL em toda a populao, contribui para a melhoria da resoluo.

    Mxima Verossimilhana (ML)

    O mtodo da mxima verossimilhana baseia-se na obteno do ponto de

    mximo de uma funo de verossimilhana (que a funo densidade de probabilidade conjunta dos pontos amostrais). E este mximo obtido por derivao da funo de verossimilhana (L) em relao ao parmetro de interesse. Assim, o estimador ML maximiza a verossimilhana do parmetro dado a funo densidade de probabilidade e o conjunto de dados. O ponto de mximo da funo de verossimilhana mais facilmente encontrado quando se toma o logaritmo natural dessa funo. Isto porque, com essa transformao, o produtrio em L= (;y) transforma-se em somatrio, fato que torna os clculos mais tratveis. No presente texto, as denominaes Log e Loge denotam a mesma coisa, ou seja, o logaritmo natural ou na base e.

    O mtodo ML foi desenvolvido por Fisher (1922), mas somente aps cerca de

    45 anos, Hartley e Rao (1967) apresentaram a especificao matricial de um modelo misto e a derivao de equaes ML para vrias classes de modelos. Os trabalhos de Henderson (1953) usando quadrados mnimos tiveram grande impacto no desenvolvimento dos mtodos de estimao de componentes de varincia a partir de dados desbalanceados, estimulando principalmente os trabalhos de Hartley e Rao. Embora viciado, o procedimento ML computacionalmente mais simples que o mtodo REML (descrito a seguir) e, em determinadas situaes, apresenta eficincia satisfatria. O vcio pode ser considervel se o nmero de equaes independentes (posto de X, em que X a matriz de incidncia dos efeitos fixos), para os efeitos fixos, for relativamente grande em relao ao nmero (N) de observaes. Quando o posto de X pequeno em relao a N, os mtodos ML e REML conduzem a resultados similares, conforme verificado por Resende et al. (1996) e Duarte e Vencovsky (2001).

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    32

    Mxima Verossimilhana Restrita (REML)

    O mtodo REML foi desenvolvido e melhorado pelo pesquisador Robin Thompson e co-autores na Inglaterra. Tal mtodo (Patterson & Thompson, 1971) surgiu a partir de esforos na obteno de melhores estimadores de componentes de varincia para dados no ortogonais e desbalanceados (Thompson, 1969). Posteriormente, foi estendido para modelos multivariados (Thompson,1973) e melhorado em termos do algoritmo de estimao via informao mdia (AI-REML) (Johnson & Thompson, 1995), visando a incorporao em softwares de excelncia como o GENSTAT e o ASREML (Gilmour, Thompson e Cullis, 1995).

    O mtodo REML propicia uma correo ao ML, eliminando o seu vcio. No

    mtodo REML, somente a poro da verossimilhana que invariante aos efeitos fixos (especificados no vetor ) maximizada. Assim, o REML mantm as demais propriedades do ML, no viciado e permite tambm a imposio de restries de no negatividade. Dessa forma, o REML o procedimento ideal de estimao de componentes de varincia em modelos mistos. No mtodo REML, os componentes de varincia so estimados sem serem afetados pelos efeitos fixos do modelo e os graus de liberdade referentes estimao dos efeitos fixos so considerados, produzindo estimativas no viciadas (Resende, 2007).

    O mtodo REML divide os dados em duas partes: contrastes dos efeitos

    fixos; e contrastes dos erros (isto , todos os contrastes com esperana zero) os quais contm informaes somente sobre os componentes de varincia. Apenas os contrastes dos erros so ento usados para estimar os componentes de varincia, uma vez que eles contm todas as informaes disponveis sobre os parmetros de varincia. Isto feito pela projeo dos dados no espao residual ou espao vetorial dos contrastes dos erros. Os dados projetados tm Log L dado por

    )()(logloglog2log)]([2 11 bXyVbXyVXXVXXXrNRL , em que N o nmero de dados e r(X) o posto da matriz de incidncia dos efeitos fixos. Os componentes de varincia so ento estimados pela maximizao do logaritmo da funo RL dos dados projetados.

    O Log L dos dados originais dado por )()(log2log2 1 XbyVXbyVNL .

    A funo RL tem termos adicionais em relao a L. O nico termo adicional

    relevante para a estimao de componentes de varincia XXV 1log , o qual efetivamente remove os graus de liberdade usados na estimao dos efeitos fixos. Essa diferena entre RL e L reflete exatamente a diferena entre REML e ML (Resende, 2007). Quando o modelo inclui tambm outros efeitos fixos, alm da mdia geral, o mtodo REML deve ser usado em vez do ML.

    Sob o enfoque frequentista o REML derivado por meio da marginalizao da

    verossimilhana atravs dos efeitos fixos. Pelo enfoque Bayesiano o REML obtido por meio da integrao atravs dos efeitos fixos e outros efeitos aleatrios.

  • Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo ____________________________________________________________________________________

    33

    1.8 Estimao Bayesiana de Componentes de Varincia e relao com ML e REML

    No contexto dos modelos lineares mistos, os valores genticos (1=g) so

    preditos simultaneamente estimao dos efeitos fixos (2=b) e dos componentes de varincia (3= 2i ). Na abordagem bayesiana, a avaliao gentica pode ser obtida, de maneira geral, pela construo da densidade a posteriori f (1, 2, 3y) e, se necessrio, pela integrao de f (1, 2, 3y) em relao a 2 e 3. Estes (2 e 3) so denominados parmetros de nuisance e, por isso, devem ser integrados fora, exceto 2 em alguns casos, onde o mesmo constitui-se em uma parte integrante da funo de mrito total (neste caso, a funo de mrito depende da combinao linear de 1 e 2).

    A obteno de 1 req