estadistica EMBRAPA

Embed Size (px)

Citation preview

  • 7/23/2019 estadistica EMBRAPA

    1/107

    ISSN 1980-3958

    Dezembro, 2011 219

    Mtodos estatsticos na

    seleo genmica ampla

  • 7/23/2019 estadistica EMBRAPA

    2/107

    Documentos 219

    Embrapa Florestas

    Colombo, PR2011

    ISSN 1980-3958

    Dezembro, 2011

    Empresa Brasileira de Pesquisa Agropecuria

    Embrapa Florestas

    Ministrio da Agricultura, Pecuria e Abastecimento

    Marcos Deon Vilela de ResendeFabyano Fonseca e SilvaJos Marcelo Soriano VianaLuz Alexandre PeternelliMrcio Fernando Ribeiro Resende Jr.Patricio Muoz del Valle

    Mtodos estatsticos na

    seleo genmica ampla

  • 7/23/2019 estadistica EMBRAPA

    3/107

    Embrapa 2011

    Embrapa Florestas

    Estrada da Ribeira, Km 111, Guaraituba,83411-000, Colombo, PR - Brasil

    Caixa Postal: 319Fone/Fax: (41) [email protected]

    Comit Local de Publicaes

    Presidente: Patrcia Pvoa de MattosSecretria-Executiva: Elisabete Marques OaidaMembros: lvaro Figueredo dos Santos, Antonio AparecidoCarpanezzi, Claudia Maria Branco de Freitas Maia, Dalva Luizde Queiroz, Guilherme Schnell e Schuhli, Lus Cludio MaranhoFroufe, Marilice Cordeiro Garrastazu, Srgio Gaiad

    Superviso editorial: Patrcia Pvoa de MattosReviso de texto: Mauro Marcelo BertNormalizao bibliogrfca: Francisca RascheEditorao eletrnica: Mauro Marcelo BertCapa: Mauro Marcelo Bert

    1aedio

    Verso digital (2011)

    Todos os direitos reservados

    A reproduo no-autorizada desta publicao, no todo ou emparte, constitui violao dos direitos autorais (Lei no 9.610).

    Dados Internacionais de Catalogao na Publicao (CIP)

    Embrapa Florestas

    Mtodos estatsticos na seleo genmica ampla [recurso eletrnico] /Marcos Deon Vilela de Resende ... [et al.]. Dados eletrnicos -Colombo : Embrapa Florestas, 2011.

    (Documentos / Embrapa Florestas, ISSN 1980-3958 ; 219)

    Sistema requerido: Adobe Acrobat Reader. Modo de acesso: World Wide Web. Ttulo da pgina da web (acesso em 10 abr. 2012).

    1. Mtodos estatsticos. 2. Medio. 3. Melhoramento vegetal 4.Melhoramento animal. 5. Marcador gentico. I. Resende, Marcos DeonVilela de. II. Silva, Fabyano Fonseca e. III. Viana, Jos Marcelo Soriano. IV.Peternelli, Luz Alexandre. V. Resende Jnior, Mrcio Fernando Ribeiro. VI.

    Muoz del Valle, Patricio. VII. Srie. CDD 631.52 (21. ed.)

  • 7/23/2019 estadistica EMBRAPA

    4/107

    Autores

    Marcos Deon Vilela de Resende

    Estatstico, Doutor,Pesquisador da Embrapa [email protected]

    Fabyano Fonseca e Silva

    Zootecnista, Doutor,Professor da [email protected]

    Jos Marcelo Soriano Viana

    Engenheiro Agrnomo, Doutor,

    Professor da [email protected]

    Luz Alexandre Peternelli

    Engenheiro Agrnomo, Doutor,Professor da [email protected]

    Mrcio Fernando Ribeiro Resende Jr.

    Engenheiro Florestal, Mestre,Estudante na Universidade da [email protected]

    Patricio Muoz Del Valle

    Engenheiro Florestal, Mestre,

    Estudante na Universidade da [email protected]

  • 7/23/2019 estadistica EMBRAPA

    5/107

  • 7/23/2019 estadistica EMBRAPA

    6/107

    Apresentao

    A seleo genmica ampla (GWS) aumenta a efcincia e rapidez

    do melhoramento gentico. Essa tecnologia fundamenta-sena predio de fentipos com base na leitura de marcadoresgenticos e uso de mtodos preditivos. Existem vrios mtodospara aplicao na GWS. O presente documento contempla

    mais de uma dezena desses mtodos contemplando a teoria,a computao e a aplicao a dados simulados. Assim, seucontedo abrangente e pode servir como um guia importantepara os usurios da GWS.

    Washigton L. E. Magalhes

    Chefe de Pesquisa e Desenvolvimento

  • 7/23/2019 estadistica EMBRAPA

    7/107

  • 7/23/2019 estadistica EMBRAPA

    8/107

    Sumrio

    Descrio genrica dos mtodos de seleo genmica

    ampla (GWS) ...............................................................9

    Mtodos de estimao penalizada.................................16

    Mtodos de Estimao bayesiana (BayesA, BayesB, Fast

    BayesB, BayesC, BayesD)........................................26

    Lasso bayesiano e Lasso bayesiano Melhorado (BLASSO e

    IBLASSO)...................................................................40

    Regresso Kernel Hilbert Spaces (RKHS)........................51

    Regresso via quadrados mnimos parciais (PLSR)...........58

    Relao entre RR-BLUP, BLASSO e IBLASSO.................60

    Anlise simultnea de indivduos genotipados e no

    genotipados via GBLUP................................................67

    Anlise de associao genmica ampla (GWAS).............72

    Associao genmica ampla (GWAS) em humanos.........77

    Comparao entre 12 mtodos de seleo genmica

    ampla........................................................................84

    Pesos das marcas nos diferentes mtodos e frequncias

    allicas......................................................................89

    Formas de parametrizao da matriz de incidncia

    genotpica.................................................................91

  • 7/23/2019 estadistica EMBRAPA

    9/107

    Imputao de gentipos marcadores..............................93

    Aumento na efcincia seletiva do melhoramento de plantas

    e animais...................................................................97Referncias..............................................................100

  • 7/23/2019 estadistica EMBRAPA

    10/107

    Mtodos estatsticos na

    seleo genmica amplaMarcos Deon Vilela de Resende

    Fabyano Fonseca e Silva

    Jos Marcelo Soriano Viana

    Luz Alexandre Peternelli

    Mrcio Fernando Ribeiro Resende Jr.

    Patricio Muoz del Valle

    Descrio genrica dos mtodos deseleo genmica ampla (GWS)

    Os estudos de associao genmica ampla (Genome WideAssociation Studies- GWAS) e seleo (ou estimao) genmica

    ampla (Genome Wide Selection - GWS) so importantes nomelhoramento gentico de animais e plantas e tambm nagentica humana. No melhoramento gentico, a GWS aumenta aefcincia e rapidez do processo seletivo. Em gentica humana,

    as ferramentas da GWS propiciam a medicina personalizadaou medicina genmica (WRAY, 2005; WRAY et al., 2007;GODDARD et al., 2009; CAMPOS et al., 2010; MAKOWSKYet al., 2011), a qual fundamenta-se na predio de fentipos

    com base na leitura de marcadores genticos e uso de mtodospreditivos. As predies geradas so usadas na diagose,preveno e tratamento das doenas.

    Um mtodo ideal para GWS deve contemplar trs atributos:

    (i) acomodar a arquitetura gentica do carter em termos degenes de pequenos e grandes efeitos e suas distribuies; (ii)

    realizar a regularizao do processo de estimao em presenade multicolinearidade e grande nmero de marcadores, usandopara isso estimadores do tipo shrinkage; (iii) realizar a seleo decovariveis (marcadores) que afetam a caracterstica em anlise.

  • 7/23/2019 estadistica EMBRAPA

    11/107

    10 Mtodos estatsticos na seleo genmica ampla

    O problema principal da GWS a estimao de um grandenmero de efeitos a partir de um limitado nmero deobservaes e tambm as colinearidades advindas dodesequilbrio de ligao entre os marcadores. Osestimadores do tipo shrinkagelidam adequadamente comisso, tratando os efeitos de marcadores como variveisaleatrias e estimando-os simultaneamente (Resende et al.,2008).

    Os principais mtodos para a GWS podem ser divididos emtrs grandes classes: regresso explcita, regressoimplcita e regresso com reduo dimensional. Na primeiraclasse, destacam-se os mtodos RR-BLUP, LASSO (LeastAbsolute Shrinkage and Selection Operator), Rede Elstica(Elastic Net EN), BayesA e BayesB, dentre outros. Naclasse de regresso implcita, citam-se os mtodos RKHS(Reproducing Kernel Hilbert Spaces, que um mtodo

    semi-paramtrico, assim como o mtodo de redes neurais)(GIANOLA; CAMPOS, 2009) e regresso kernel noparamtrica via modelos aditivos generalizados (GIANOLAet al., 2006). Dentre os mtodos de regresso com reduodimensional, destacam-se o de quadrados mnimos parciaise de componentes principais. A Tabela 1 ilustra os mtodospara GWS.

  • 7/23/2019 estadistica EMBRAPA

    12/107

    Mtodos estatsticos na seleo genmica ampla 11

    Tabela 1.Classificao dos Mtodos para GWS.Classe Famlia Mtodo Atributos

    Regressoexplcita

    Mtodos de

    estimao

    penalizada

    (Regresso

    linear)

    RR-BLUP/GWS

    Regularizao,Arquiteturagentica

    homognea,Seleo indireta de

    covariveis

    LASSO

    Regularizao,Arquiteturagentica

    homognea,Seleo direta de

    covariveis

    EN

    Regularizao,Arquiteturagentica

    homognea,Seleo direta de

    covariveis

    RR-BLUP-Het/GWS

    Regularizao,

    Arquiteturagentica flexvel,

    Seleo indireta decovariveis

    Mtodos de

    estimao

    bayesiana

    (Regresso no

    linear)

    BayesA

    Regularizao,Arquitetura

    gentica flexvel,Seleo indireta de

    covariveis

    BayesB

    Regularizao,Arquiteturagentica flexvel,

    Seleo direcionadade covariveis

    Fast BayesB

    Regularizao,Arquitetura

    gentica flexvel,Seleo direcionada

    de covariveis

    BayesCRegularizao,

    Arquitetura

  • 7/23/2019 estadistica EMBRAPA

    13/107

    12 Mtodos estatsticos na seleo genmica ampla

    genticahomognea,

    Seleo direta de

    covariveis

    Regresso

    explcita

    Mtodos de

    estimao

    bayesiana

    (Regresso no

    linear)

    BayesD

    Regularizao,Arquitetura

    gentica flexvel,Seleo direta de

    covariveis

    BLASSO

    Regularizao,Arquitetura

    gentica flexvel,Seleo direta de

    covariveis

    IBLASSO

    Regularizao,Arquitetura

    gentica flexvel,Seleo direta de

    covariveis

    Regresso

    implcita

    RegressoKernelRKHS

    Redes neurais

    Regresso

    com reduo

    dimensional

    Quadradosmnimosparciais

    Componentesprincipais

    Os mtodos de regresso implcita so divididos em doisgrupos: (i) mtodos de estimao penalizada (RR-BLUP,LASSO, EN, RR-BLUP-Het); (ii) mtodos de estimaobayesiana (BayesA, BayesB, Fast BayesB, BayesC,BayesD, BLASSO, IBLASSO e outros) (Tabela 1). Osestimadores penalizados so obtidos como soluo para umproblema de otimizao, em que a funo objetivo (funocujo valor minimizado ou maximizado, dependendo doproblema e objetivo) definida pelo balano entre precisodo ajuste (soma de quadrado dos resduos) e complexidade

  • 7/23/2019 estadistica EMBRAPA

    14/107

    Mtodos estatsticos na seleo genmica ampla 13

    do modelo (componente de penalizao). Os mtodos deestimao penalizada diferem de acordo com as funes depenalizao usadas, as quais produzem diferentes graus deshrinkage. Esse encurtamento previne a super-parametrizao e pode conduzir reduo do erroquadrtico mdio de estimao.

    Os mtodos bayesianos esto associados a sistemas deequaes no lineares e as predies no lineares podemser melhores quando os efeitos de Quantitative trait loci(QTL) no so normalmente distribudos, devido presenade genes de efeitos maiores. As predies linearesassociadas ao RR-BLUP assumem que todos os marcadorescom mesma frequncia allica contribuem igualmente paraa variao gentica (ausncia de genes de efeitos maiores).Na estimao bayesiana, o encurtamento das estimativasdos efeitos do modelo controlado pela distribuio a prioriassumida para esses efeitos. Diferentes prioris induzem a

    diferentes encurtamentos. Os mtodos de estimaopenalizada e os bayesianos podem ser com (BayesB, FastBayesB,BayesC, BayesD, LASSO, BLASSO, IBLASSO) ousem (RR-BLUP, EN, RR-BLUP-Het, BayesA) seleo diretade covariveis. Os mtodos bayesianos so superioresquando a distribuio dos efeitos dos QTL leptocrtica(curtose positiva), devido presena de genes de grandesefeitos. Com distribuio normal dos efeitos dos QTL, o

    mtodo RR-BLUP igualmente eficiente.

    Comparaes entre os mtodos de predio de valoresgenticos genmicos tm sido realizadas. Meuwissen et al.(2001) concluram pela superioridade terica do mtodoBayesB, o qual mostrou-se ligeiramente superior ao RR-BLUP. Entretanto, o autor simulou os dados genotpicossegundo a mesma distribuio a prioriempregada no

    processo de estimao. Isso conduziu a acurcias maiselevadas por esse mtodo, as quais podem no ser

  • 7/23/2019 estadistica EMBRAPA

    15/107

    14 Mtodos estatsticos na seleo genmica ampla

    realsticas na prtica, se a distribuio real associada aosefeitos genticos diferir da distribuio a prioriassumida naanlise.

    Comparando mtodos bayesianos, Habier et al. (2011)relataram que o mtodo BayesA mostrou-se superior namaioria das situaes, mas nenhum dos mtodosbayesianos so claramente superiores em todas assituaes. Entretanto, BayesB, BayesCe BayesDapresentam a vantagem de propiciar informao sobre a

    arquitetura gentica do carter quantitativo e identificar asposies de QTL por modelagem da frequncia de Singlenucleotide polymorphism( SNP) no nulos. Tambm Mrodeet al. (2010) concluram pela superioridade do BayesA eFast BayesB sobre o BayesB.

    O mtodo Fast BayesB foi desenvolvido por Meuwissen etal. (2009), visando diminuir o tempo de computao do

    mtodo BayesB, originalmente implementado via simulaoestocstica por meio de procedimento Monte Carlo Cadeiade Markov (MCMC). Esses autores derivaram um estimadorno MCMC por meio de integrao analtica. Esse mtodoaproxima bem o mtodo original e muito mais rpido.Mrode et al. (2010) obtiveram, na prtica, uma ligeirasuperioridade do Fast BayesB sobre o BayesB.

    Os mtodos BayesA e RR-BLUP em associao com ummtodo de seleo de marcadores propiciam tambminformao sobre a arquitetura gentica do carterquantitativo. E essa seleo de covariveis pode ser feitapor meio da GWAS a posteriori (GWAS-PSE, conformedetalhado em tpico seguinte) e tambm pelo ordenamentodo mdulo dos efeitos estimados de marcadores.

    Com distribuio exponencial e poucos efeitos com valorzero, o melhor estimador dos efeitos allicos denominado

  • 7/23/2019 estadistica EMBRAPA

    16/107

    Mtodos estatsticos na seleo genmica ampla 15

    LASSO (TIBSHIRANI, 1996). Entretanto, com muitosefeitos com valor zero, o LASSO no adequado. Usai etal. (2009) compararam o LASSO com BLUP e BayesAempregando 156 SNPs significativos. As acurcias obtidasforam das ordens de 0,89, 0,75 e 0,84, respectivamente.Assim, o LASSO uma boa opo quando se usa umnmero limitado de marcadores.

    Gonzalez-Recio et al. (2008) compararam o mtodo noparamtrico ou semi-paramtrico Reproducing KernelHilbert Spaces(RKHS) com a regresso bayesiana e RR-BLUP em termos de eficincia na seleo genmica.Concluram que o mtodo da regresso RKHS apresentoumelhor capacidade preditiva do que os demais. Espao deHilbert (Hilbert Spaces) um conceito muito usado emfsica estatstica (fsica quntica) ou mecnica estatstica(mecnica quntica) associado ao tema entropia, ou medidade desordem ou imprevisibilidade de um sistema (SALINAS,

    2005). Tambm so emprestados da fsica estatstica osconhecimentos da distribuio de Gibbs, usados naimplementao da anlise bayesiana.

    Mtodos de regresso com reduo dimensional regresso via quadrados mnimos parciais (PLSR) eregresso via componentes principais (PCR) foramavaliados por Solberg et al. (2009). Concluram que esses

    so mais simples e rpidos computacionalmente, pormmenos acurados que o BayesB, com acurcias da ordem de0,68 (PLSR e PCR) e 0,84 (BayesB).

    Um procedimento BLASSO melhorado (IBLASSO ouImproved Bayesian Lasso) foi proposto por Legarra et al.(2011). O IBLASSO apresenta capacidade preditiva superiorao BLASSO e similar ao RR-BLUP-Het e BayesA com

    distribuies a priorino informativas para os efeitosaleatrios e componentes de varincia.

  • 7/23/2019 estadistica EMBRAPA

    17/107

    16 Mtodos estatsticos na seleo genmica ampla

    Com base no exposto e nos resultados de literaturarelatados, verifica-se que na classe dos mtodos deregresso explcita, o BayesA, o LASSO bayesianoMelhorado (IBLASSO) e o RR-BLUP so os mtodosfavoritos quando o modelo polignico infinitesimal seaplica. Na presena de genes de grande efeito, o mtodoRR-BLUP necessita ser modificado de forma a permitirheterogeneidade de varincia gentica entre locos; issogera o mtodo RR-BLUP-Het. Adicionalmente, os mtodosBayesA, RR-BLUP e RR-BLUP-Het necessitam ser

    complementados com a seleo de covariveis por meio dealguma forma de GWAS. As varincias genticas de cadaloco, necessrias no mtodo RR-BLUP-Het, podem serestimadas via os mtodos BayesA (por meio de MCMC) ouIBLASSO.

    O presente documento contempla os mtodos BayesA,BayesB, Fast BayesB, BayesC, BLASSO, IBLASSO, RR-

    BLUP, RR-BLUP-Het, MCMC-BLUP, PLSR,e RKHS. Essesmtodos propiciam, em determinadas situaes, os trsatributos desejveis de acomodao da arquitetura genticado carter, regularizao da estimao e seleo decovariveis.

    Mtodos de estimao penalizada

    Em um problema de regresso tem-se que a variveldependente y dada como funo de uma varivelpreditora (x) e vetor de erros aleatrios (e), segundo o

    modelo e+x'=y . No contexto da seleo genmicadefine-se x como um vetor de gentipos marcadorescodominantes geralmente codificados como 0, 1 ou 2, deacordo com o nmero de cpias de um dos alelos do loco

    marcador, e definido como um vetor de coeficientes deregresso que contemplam os efeitos dos marcadores no

  • 7/23/2019 estadistica EMBRAPA

    18/107

    Mtodos estatsticos na seleo genmica ampla 17

    carter fenotpico y, via desequilbrio de ligao com osgenes que o controlam.

    Usando esperana condicional, a equao de regresso dada por:

    x)|E(y=x'=y

    Isso implica que

    ]),|()(/[]),|()([),|( == dxyppdxyppyxEem que

    )p( a funo densidade de probabilidade de e

    x),|p(y a funo de verossimilhana de y.

    Assim, a predio de y depende de )p( , ou seja, da

    distribuio dos efeitos (via LD com os QTLs) dosmarcadores. Essa distribuio pode ser tratada comoinformao ou distribuio a priorino contexto bayesianoou como varivel aleatria no contexto frequentista. Se

    )N( 20,~ , BLUP de e y BLUP de y. Isto implica

    que os efeitos de todos os marcadores so tomados damesma distribuio. Alternativamente, pode ser assumido

    que)N(

    ii20,~

    , em que

    i

    2

    tomado de umadistribuio qui-quadrado invertida, segundo o enfoquebayesiano. Nesse caso, isso implica que grande nmero demarcadores apresenta efeitos pequenos e poucosmarcadores apresentam efeitos grandes.

    Esse mtodo BLUP para os coeficientes de regresso

    denominado regresso aleatria ou regresso de cumeeira(Ridge regression) (RR-BLUP). Os coeficientes de regresso

  • 7/23/2019 estadistica EMBRAPA

    19/107

    18 Mtodos estatsticos na seleo genmica ampla

    ridgeso definidos como aqueles que minimizam a soma dequadrados penalizada dada por:

    n

    =i

    iRR

    N

    j

    n

    =i

    iijj (t)+)x(yN)(1

    2

    1

    2/1 , em que RR o

    parmetro de penalizao (associado ao shrinkage) ouparmetro ridge, n o nmero de marcadores e N onmero de indivduos. O primeiro termo da equao asoma de quadrados dos resduos da regresso (medida dafalta de ajuste do modelo) e o segundo termo apenalizao, a qual depende da magnitude dos coeficientes

    de regresso via n

    =i

    i1

    2

    . Por meio da funo de penalizao,

    um grande valor de cria um maior custo para de grandevalor, levando-o a encolher mais. Ocorre ento aminimizao da soma de quadrados dos resduos, sujeita

    restrio tn

    =i

    i 1

    2 . A soluo para esse problema de

    otimizao conduz a yX'(t)I]+X[X'= RR1 .

    Outro mtodo relacionado o LASSO, que combinashrinkage(regularizao) com seleo de variveis eenvolve o seguinte problema de otimizao, via

    minimizao de ||+)x(yN)(n

    =i

    iL

    N

    j

    n

    =i

    iijj 11

    2/1 , em que

    ||n

    =i

    i1

    a soma dos valores absolutos dos coeficientes de

    regresso. As solues em que os coeficientes deregresso se distanciam de zero sofrem penalizao. Ocorreento a minimizao da soma de quadrados dos resduos,

    sujeita a restrio t||n

    =i

    i 1

    . O componente ||n

    =i

    iL 1

  • 7/23/2019 estadistica EMBRAPA

    20/107

    Mtodos estatsticos na seleo genmica ampla 19

    regulariza a regresso sem penalizar muito. O parmetro desuavizao L controla a intensidade da regularizao.

    Para computao do Lasso, Tibshirani (1996) props omtodo de programao quadrtica, o qual muitocomplexo. A escolha do

    L de capital importncia, pois o

    mesmo influencia o tamanho do grupo de marcadoresselecionados. medida que L tende a zero a soluo

    converge para mtodo de regresso fixa via quadrados

    mnimos (FR-LS), ou seja, para yX'X)(X'= 1 . Nesse

    caso, no h seleo de covariveis e a predio torna-seinstvel. Valores muito altos de L reduzem muito os

    valores dos coeficientes de regresso. Para cmputo de

    L de forma otimizada, Usai et al. (2009) propuseram o

    algoritmo da regresso de ngulo mnimo (LARS) associadoa um passo de validao cruzada. O LASSO pode serimplementado tambm via abordagem bayesiana, em que

    BL controla a preciso da distribuio a prioriatribuda aos

    coeficientes de regresso.Dois atributos importantes de um mtodo estatstico deregresso ou modelo de predio so a acurcia preditivaea capacidade de interpretao. O mtodo de quadradosmnimos falha nos dois aspectos. um mtodo noviesado, mas pode apresentar estimativas com alta

    varincia e, portanto, no apresenta mnimo erro quadrticomdio e nem alta acurcia. O mtodo RR apresentapequeno vis e alta acurcia preditiva propiciada peloshrinkage, o qual regulariza a estimao e melhora aestabilidade da soluo. Ambos os mtodos no produzemmodelos interpretveis, pois no selecionam covariveis.Um terceiro mtodo, denominado seleo de subconjuntode covariveis (como o Garrote de Breiman) produz

    modelos interpretveis, porm, com muita variabilidade nosresultados, pois se trata de um processo discreto. O

  • 7/23/2019 estadistica EMBRAPA

    21/107

    20 Mtodos estatsticos na seleo genmica ampla

    mtodo Lasso foi proposto para conciliar esses doisatributos desejveis (acurcia preditiva e capacidade deinterpretao). Portanto, mantm a estabilidade da RR eproduz modelos interpretveis (pois produz algunscoeficientes que so exatamente zero) comoo mtodo deBreiman. Conforme Tibshirani (1996), os trs mtodospodem ser assim comparados:

    a. Situao de pequeno nmero de grandes efeitos

    (controle gentico por poucos genes de grandesefeitos): Garrote de Breiman melhor, seguido porLasso e RR.

    b. Situao de moderado nmero de moderadosefeitos: Lasso melhor, seguido por RR e Garrote deBreiman.

    c. Situao de grande nmero de pequenos efeitos(controle gentico por muitos genes de pequenosefeitos): RR melhor por pequena margem, seguidopor Lasso e Garrote de Breiman.

    Detalhes dos mtodos de estimao penalizada

    a. Regresso Ridge(RR-BLUP)

    O mtodo RR genmico foi proposto por Whittaker et al.(2000).

    Funo objetivo a ser minimizada:

    n

    =i

    iRR

    N

    j

    n

    =i

    iijjRR +)x(y=1

    2

    1

    2argmin

  • 7/23/2019 estadistica EMBRAPA

    22/107

    Mtodos estatsticos na seleo genmica ampla 21

    Funo de penalizao, restrio ou regularizao:

    =

    n

    i

    iRR

    1

    2

    Soluo para os coeficientes de regresso:

    yX'(t)I]+X[X'= RR1

    Soluo para os efeitos genticos aditivos (a) dos

    indivduos:

    yX'(t)I]+XX[X'=X=a RR1

    Caractersticas:

    - Mantm todas as covariveis, conduzindo a modeloscomplexos.

    - Produz bons resultados para o caso de muitos marcadoresde pequenos efeitos.

    - Previne problema de multicolinearidade (que conduziria aestimativas imprecisas) entre marcadores correlacionados.

    - Regressa os coeficientes de preditores correlacionadosigualmente na direo de zero e de cada um.

    - n

    =i

    i1

    2 a norma de penalizao em .

    - Quanto maior o valor de lambda (parmetro de sintonia oucomplexidade, que regula a fora da penalizao ou

    shrinkage), maior o encurtamento.

  • 7/23/2019 estadistica EMBRAPA

    23/107

    22 Mtodos estatsticos na seleo genmica ampla

    - Se lambda estimado por REML,a RR torna-se BLUP etem-se o mtodo RR-BLUP e

    )(h)h(n=)n(h)h(=)n(=== QQQa2

    em

    2

    eai

    2

    eRR

    2222222 /1//1////

    e )+(nn=h RRQQ /2 , em que

    n

    i

    iiQ )p(p=n 12 ou

    nmero de QTL, onde h2corresponde herdabilidade do

    carter,a2

    a varincia gentica aditiva do carter e 2e

    a varincia residual.

    - Se a matriz de parentesco A for computada viainformao de marcadores e utilizada no mtodo BLUPfenotpico tradicional, tem-se o mtodo denominado GBLUPou BLUP genmico, que equivalente ao RR-BLUP emtermos da predio dos efeitos aditivos a. Assim, tem-separa o GBLUP:

    y)](A+[ZZ=a ae1 122 / , em que Z a matriz deincidncia dos indivduos e y vetor de fentipos corrigidospara os efeitos fixos.

    ])p(p[)(XX'=An

    i

    ii 12/ , em que pi a frequncia de

    um dos alelos do loco i e X* refere-se matriz X corrigida

    para suas mdias em cada loco (2pi).

    Tem-se ento a equivalncia

    y)](A+[ZZ=yX'(t)I]+XX[X'=X=a ae1

    RR

    1221 / .

    b. LASSO

    Funo objetivo a ser minimizada:

  • 7/23/2019 estadistica EMBRAPA

    24/107

    Mtodos estatsticos na seleo genmica ampla 23

    ||+)x(y=

    n

    =i

    iL

    N

    j

    n

    =i

    iijjL

    11

    2argmin

    Funo de penalizao:

    ||n

    =i

    iL 1

    Caractersticas:

    - Mantm as covariveis mais significativas e remove asdemais.

    - ||n

    =i

    i1

    a norma de penalizao em (com base em

    valores absolutos de ) e induz esparsidade na soluo,conduzindo a seleo de covariveis e shrinkage,simultaneamente.

    -||

    n

    =i

    iL 1 regulariza o ajuste de quadrados mnimos e

    regressa alguns coeficientes a zero. Essa formulao do

    regularizador faz com que o Lasso regresse de forma

    mais forte que o RR-BLUP, conduzindo alguns coeficientesa zero.

    - Instvel com dados de alta dimenso, pois no podeselecionar mais covariveis (n) do que do que otamanho amostral (N) e, nesse caso, selecionaarbitrariamente um membro de um grupo decovariveis altamente correlacionadas.

    - No possui a propriedade orculo ou de retido, quese refere a coeficientes no zero assintoticamente

  • 7/23/2019 estadistica EMBRAPA

    25/107

    24 Mtodos estatsticos na seleo genmica ampla

    no viesados, normalidade assinttica e seleoconsistente de covariveis medida que N e ntendem a infinito.

    - O mtodo Lasso adaptativo foi proposto visandoatingir a propriedade orculo, mas mantm ainstabilidade com dados de alta dimenso.

    c. Rede elstica (EN)

    Funo objetivo a ser minimizada:

    n

    =i

    n

    =i

    iiEN

    N

    j

    n

    =i

    iijjEN ||)(++)x(y=1 1

    2

    1

    2 1argmin

    Funo de Penalizao:

    n

    =i

    n

    =i

    iiEN ||)(+1 1

    2 1 ou

    qn

    =i

    iEN ||1

    Caractersticas:

    - Se = 0, EN = LASSO ou se q = 1, EN = LASSO.- Se = 1, EN = RR ou se q = 2, EN = RR.

    - Se |q 21 tem-se EN.

    - varia entre 0 e 1 e maior que 0.

    - Usa duas penalizaes: a norma de penalizao do Lassopara a seleo de covariveis e a norma de penalizao da

  • 7/23/2019 estadistica EMBRAPA

    26/107

    Mtodos estatsticos na seleo genmica ampla 25

    RR para estabilizar a soluo (quando as covariveis soaltamente correlacionadas) e melhorar a predio.

    - O comportamento semelhante ao Lasso, mas robusta extrema colinearidade entre as covariveis.

    - Permite selecionar um nmero de covariveis maior que otamanho da amostra (N).

    - No possui a propriedade orculo.

    - O mtodo Rede elstica adaptativa foi proposto visandoatingir a propriedade orculo do Lasso adaptativo e arobustez do mtodo EN extrema colinearidade entre ascovariveis (ZOU; HASTIE, 2005).

    d. Regresso Ridgecom heterogeneidade de varincias

    entre locos marcadores (RR-BLUP-Het)

    Soluo para os coeficientes de regresso:

    yX'(t)I]+X[X'=h

    RR

    1

    - similar ao RR-BLUP, mas mesmo para marcas de mesmafrequncia, regressa os coeficientes de regressodiferentemente na direo de zero.

    - Os fatores de penalizao dos marcadores no sistema deequaes de modelo misto so dados pelos elementos

    iRR

    do vetorh

    RR , em que i refere-se ao loco i.

    - Os elementosi

    RR podem ser obtidos via os mtodos

    bayesianos ou REML e usados para cmputo do mtodoRR-BLUP-Het.

  • 7/23/2019 estadistica EMBRAPA

    27/107

    26 Mtodos estatsticos na seleo genmica ampla

    Mtodos de Estimao bayesiana

    (BayesA, BayesB, Fast BayesB,

    BayesC, BayesD)

    BayesA

    O mtodo BayesA proposto por Meuwissen et al.(2001)produz resultados similares ao mtodo BLUP com varinciasheterogneas, pois as varincias dos segmentoscromossmicos diferem para cada segmento e so

    estimadas sob esse modelo, considerando a informaocombinada dos dados (funo de verossimilhana) e dadistribuio a priori para estas varincias. Neste caso, omodelo ajustado por meio de uma abordagem bayesianacom estrutura hierrquica em dois nveis. Os efeitos dosmarcadores so assumidos como amostras de umadistribuio normal com mdia zero e varincia de cadamarcador dada por uma distribuio qui-quadrado inversa eescalonada, conforme apresentado a seguir:

    )N(| iii22 0,~

    )S,( 2i22 ~

    em que o nmero de graus de liberdades e

    2

    S oparmetro da escala de distribuio. Tem-se que adistribuio marginal a prioridos efeitos genticos dos

    marcadores, 2i S,| , tem distribuio t de Student

    univariada, ou seja, )S,t(S,| 22

    i 0,~ . Assim, esta

    formulao resulta na modelagem dos efeitos dosmarcadores como amostras de uma distribuio t de

    Student.

  • 7/23/2019 estadistica EMBRAPA

    28/107

    Mtodos estatsticos na seleo genmica ampla 27

    O valor de 2S pode ser derivado com base no valor

    esperado de uma varivel aleatria com distribuio qui-

    quadrado invertida escalonada. Essa esperana matemtica

    dada por2

    22

    S=)E( . Assim, o parmetro de escala

    dado por

    ))(E(=S

    222 . Ento, para os efeitos

    genticos dos marcadores tem-se 2

    2

    2

    i

    S

    =)E( e

    i

    ))(E(=S

    222

    . A esperana )E(i

    2 equivale a

    n

    =i

    ii

    ai

    )p(

    =)E(

    1

    22

    12p

    . Assim,

    n

    =i

    ii

    a

    )(

    )p(

    =S

    2

    12p1

    22

    , em que = 4,012 ou 4,2,

    conforme Meuwissen et al. (2001), 2a a varincia

    gentica aditiva do carter e pi a frequncia allica do

    marcador i. Meuwissen et al. (2001)consideraram 0,04290,0022 ou=S . Isto descreve uma

    distribuio moderadamente leptocrtica. Qualquer valor

    maior que 4 pode ser usado para . Valores menores ou

    iguais a 4 tornam -se a prioriflat (no informativa).

  • 7/23/2019 estadistica EMBRAPA

    29/107

    28 Mtodos estatsticos na seleo genmica ampla

    Para os efeitos residuais tem-se2

    22

    eee

    e

    S=)E( e

    e

    eee

    ))(E(=S

    222 . A esperana )E(e2 equivale

    22 ~ee =)E( . Assim,

    4.2

    24.2~2~ 222 )(=

    )(=S e

    e

    eee

    , em que

    2~e um valor a prioride

    2

    e .

    Assumido ),0(~ 2iNi , em que2

    i tomado de umadistribuio qui-quadrado invertida, segundo o enfoquebayesiano, isso implica que grande nmero de marcadoresapresenta efeitos pequenos e poucos marcadoresapresentam efeitos grandes. O uso de uma mistura de

    distribuies normal e qui-quadrado invertida conduz a umadistribuio t para e, portanto, commaior pico em zero e

    uma cauda mais longa que a distribuio normal. Estemtodo pode ser implementado via amostragem de Gibbs,para obteno dessa informao combinada ou dadistribuio a posteriori das varincias.

    Os mtodos associados a modelos hierrquicos bayesianos(BayesA e B) por meio de suas formulaes em termos doshiperparmetros propiciam varincias especficas para cada

    marcador. RR-BLUP so funes lineares dos dados eregressam as estimativas com o mesmo erro padro(mesmas frequncias allicas e tamanho amostral) pelamesma quantidade. Prioris Gaussianas conduzem ashrinkagehomogneo atravs dos marcadores. Os mtodosbayesianos so funes no lineares dos dados eregressam efeitos menores mais do que os maiores, ouseja, admitem maiores herdabilidades para os maiores

    efeitos.

  • 7/23/2019 estadistica EMBRAPA

    30/107

    Mtodos estatsticos na seleo genmica ampla 29

    O shrinkagehomogneo no desejvel, pois algunsmarcadores esto ligados a QTLs e outros no esto. Masassumindo uma distribuio a priorit escalonada ou duplaexponencial para os efeitos de marcadores tem-se osmtodos BayesA e BLASSO, respectivamente, os quaisproduzem shrinkageespecficos de acordo com o tamanhodo efeito e da varincia do marcador.

    Alm das distribuies consideradas para os efeitosaleatrios no modelo linear frequentista e para averossimilhana do vetor de observaes, a abordagembayesiana requer atribuies para as distribuies a prioridos efeitos e componentes de varincia. Essas distribuiespodem ser informativas, conforme acima, ou noinformativas. Distribuio a priorino informativa ouuniforme pode ser atribuda a esses componentes,refletindo conhecimento a priorivago. Para oscomponentes de varincia, distribuies 2invertidas

    podem ser consideradas comopriorie, considerandoi = -2 e 2

    iS = 0, a distribuio 2 se torna uniforme e,

    portanto, no informativa. A vantagem de usar distribuioqui-quadrado invertida comoprioripara os componentes devarincia refere-se ao fato de que, com dados comdistribuio normal, a distribuio a posteriori tambmuma qui-quadrado invertida.

    Considere o seguinte modelo:

    y = 1u + X+ e, onde:

    y: vetor de dados fenotpicos.

    u: mdia geral.

    : vetor de efeitos genticos aditivos (aleatrios) demarcadores.

  • 7/23/2019 estadistica EMBRAPA

    31/107

    30 Mtodos estatsticos na seleo genmica ampla

    e: vetor de erros.

    1,X: matrizes de incidncia que associam ue aosdados fenotpicos (y).

    Considera-se, inicialmente, que a distribuio condicional

    dos dados u, e e2

    normal multivariada:),1(~,, 22 ee IXNy + , onde I a matriz identidade

    e 2e a varincia residual.

    Os parmetros de interesse para inferncias so:2

    e

    2

    i e,, . Para conduzir a anlise bayesiana, torna-se

    necessrio especificar as distribuies a prioripara2

    ei e, 2 . Isto j foi realizado anteriormente. Definidas

    estas distribuies, pode-se agora escrever a distribuioconjunta a posteriori dos parmetros do modelo.

    ),,,(),,,(),,,( 222222 eieiei yppyp

    ),,,()()()()( 22222 eieiii yppppp =

    Considerando a distribuio a prioridos componentes devarincia como uma qui-quadrado escalonada invertida,tem-se que a distribuio conjunta a posteriori pode ser

    reescrita:

    +

    +

    +

    +

    +

    +

    2

    21

    22

    2

    21

    2222

    2

    '(exp

    2

    )1()'1(exp),,,(

    i

    n

    i

    e

    eeN

    eei

    S

    SXyXyyp

    e

    Para implementao do GS, deve-se derivar todas asdistribuies condicionais a posteriori a partir da

  • 7/23/2019 estadistica EMBRAPA

    32/107

    Mtodos estatsticos na seleo genmica ampla 31

    distribuio conjunta a posteriori. A distribuio condicional

    a posteriori de 2i dada por uma qui-quadrado invertida

    escalonada por ii '+S2

    e com graus de liberdade , ouseja )'+S,(=)|P( ii

    2

    2

    ii

    2 . No se pode usar essa

    distribuio a posteriori diretamente para estimar 2i , pois

    ela condicional aos efeitos ique so desconhecidos.Assim, a tcnica de amostragem de Gibbs, baseada emdistribuies a posteriori condicional a todos os outrosefeitos, usada para estimar os efeitos ie suasvarincias.

    Ento, para obteno da informao combinada dadistribuio a priorie da verossimilhana dos dados, ouseja, para obteno da distribuio a posteriori dos efeitosgenticos dos marcadores, adota-se o procedimento desimulao estocstica (mtodo Monte Carlo cadeias de

    Markov MCMC) denominado amostragem de Gibbs.Em termos mais simples, o algoritmo da amostragem deGibbs pode ser apresentado de forma resumida, conformeMeuwissen et al. (2001) eResende (2008):

    1. Fornecer os valores iniciais dos parmetros delocao e disperso do modelo. Estes valores

    iniciais podem ser calculados atravs deprocedimentos padres tais como a estimao decomponentes de varincia por REML ou quadradosmnimos. Considerando a mdia geral como nicoefeito fixo, pode-se calcular como a mdiaaritmtica das observaes. O vetor dos efeitos demarcadores deve ser inicializado com um nmeropositivo de pequena magnitude.

    2. Atualizar 2i para o i-simo marcador, amostrando-

  • 7/23/2019 estadistica EMBRAPA

    33/107

    32 Mtodos estatsticos na seleo genmica ampla

    o da distribuio condicional completa

    )'+S,(=)|P( ii2

    2

    ii

    2 com 4,2=g e

    2S calculado conforme a expresso acima.

    3. Dados ie ,calcular os valores de evia)1( Xye = , em que X = [X1X2X3...] a matriz

    de incidncia para os efeitos de marcadores. Ento,atualize a varincia residual por meio da

    amostragem de )e'e(N ii2,2 .

    4. Amostrar, de uma distribuio normal com mdia

    )11( '' Xynn

    e varincia e2/N , a mdia geral,

    dada a atualizada varincia residual.

    5. Amostrar, de uma distribuio com mdia

    2/

    1

    i

    2

    eij

    '

    ij

    n

    '

    ij0=ij

    '

    ij

    '

    ij

    +XX

    uXXXyX e varincia

    )+X(X i2

    eij

    '

    ije

    22 // , todos os efeitos de

    marcadores ijdado a amostragem mais recente da

    mdia, 2e e2

    i , em que Xij o vetor coluna de X

    com efeitos ij. No caso, ij=0 equivale a com

    efeito ijigualado a zero.

    6. Repetir os passos de (2) a (5) at que se obtenha aconvergncia da cadeia.

    De maneira genrica, na anlise bayesiana os seguintes

    passos devem ser adotados: (i) especificao dasdistribuies a prioripara os efeitos e componentes de

  • 7/23/2019 estadistica EMBRAPA

    34/107

    Mtodos estatsticos na seleo genmica ampla 33

    varincia; (ii) especificao da funo de verossimilhanapara o vetor de observaes (distribuio condicional dosdados): (iii) obteno das distribuies conjuntas aposteriori para os efeitos e componentes de varincia; (iv)obteno das distribuies condicionais a posteriori para osefeitos e componentes de varincia; (v) marginalizao dasdistribuies condicionais a posteriori para os efeitos ecomponentes de varincia. A marginalizao analtica praticamente impossvel. Assim, tm sido usados mtodosMCMC, como o amostrador de Gibbs, que atua por meio de

    amostragem e atualizao de distribuies condicionais.BayesB

    O mtodo BayesB apresenta as mesmas suposies que oBayesA para uma frao dos SNPs e assume que (1 - )dos SNPs apresenta efeitos nulos. Um problema dessemtodo a escolha da frao . Com a seleo de

    covariveis baseada no mdulo de seus efeitos estimados,os dois mtodos tendem a se equivaler. Na prtica, oBayesA tem se mostrado superior ao BayesB com igual a0,66 (HABIER et al., 2011; MRODE et al., 2010).

    Para os efeitos dos QTLs, o mtodo BayesB usa uma

    distribuio a priori com alta densidade em 2

    =0 e

    distribuio qui-quadrado invertida para 02 > . Assim,

    considera que em muitos locos no existe variaogentica, ou seja, no esto segregando. Assim, a

    distribuio a prioriequivale a ),(~ 222 Si com

    probabilidade e 02 =i com probabilidade (1 - ), em que

    depende da taxa de mutao do gene. As quantidades4,234= e S2= 0,0429 usadas por Meuwissen et al.

    (2001) produzem a mdia e varincia de 2i ,dado que

  • 7/23/2019 estadistica EMBRAPA

    35/107

    34 Mtodos estatsticos na seleo genmica ampla

    02 >i . Tais quantidades tambm dependem dos efeitos

    mutacionais e precisam ser estimadas na prtica.

    A distribuio a priorido mtodo BayesA no tem um pico

    de densidade em 02 =i . Uma vez que no possvel uma

    amostragem de 02 =i , o mtodo da amostragem de Gibbs

    no pode ser usado no mtodo BayesB, pois no movesobre todo o espao de amostragem. Assim, o algoritmo deMetropolis-Hastings deve ser usado. Esse mtodo resolve

    esse problema por meio da amostragem simultnea de2

    ii e . O amostrador de Metropolis-Hastings consiste em

    gerar amostras sequenciais como meio de aproximar umadistribuio da qual no h como amostrar diretamente. Talamostrador pode amostrar diretamente de qualquerdistribuio de probabilidade f(x), desde que a densidadeemxpossa ser calculada. Detalhes da implementao

    desse algoritmo so apresentados por Sorensen e Gianola(2002) e Chib e Greenberg (1995).

    A amostragem simultnea de 2ii e realizada da

    distribuio )y,|P()y|P(=)y|,P( iiiii 222 . , em que

    y*denota o vetor de dados corrigido para os efeitos fixos epara todos os efeitos genticos, exceto

    i .

    Essa expresso indica que se deve amostrar 2i de

    )*( 2 yP i sem condicionar em i (em contraste com o

    mtodo BayesA) e em seguida amostrari de

    )y,|P( ii 2 condicional a 2i e y*, como no mtodo

    BayesA. A distribuio )y|P(i 2 no pode ser expressa

    na forma de uma distribuio conhecida e ento deve-seusar o algoritmo MH para amostrar essa distribuio. A

  • 7/23/2019 estadistica EMBRAPA

    36/107

    Mtodos estatsticos na seleo genmica ampla 35

    distribuio a priori )p(i2 usada como distribuio

    auxiliar para sugerir atualizaes para a cadeia de MH.

    Os mtodos bayesianos teoricamente propiciam acurciasmais altas porque foram muitos efeitos de segmentoscromossmicos a valores prximos a zero (BayesA) ou azero (BayesB) e as estimativas dos efeitos dos demaissegmentos cromossmicos so regressadas de acordo comuma quantidade ditada pelas distribuies a prioridosefeitos de QTL.

    BayesC

    Gianola et al. (2009) fazem uma anlise crtica dosmtodos associados a modelos hierrquicos bayesianos(BayesA e B) especificamente em relao s suasformulaes em termos dos hiperparmetros que propiciamvarincias especficas para cada marcador. Segundo os

    autores nenhum dos mtodos permite o aprendizadobayesiano sobre essas varincias para prosseguir paralonge das prioris. Em outras palavras, os hiperparmetrosdaprioripara essas varincias sempre tero influncia naextenso do shrinkageproduzido nos efeitos dosmarcadores. O usurio do mtodo pode controlar aquantidade de shrinkageapenas arbitrariamente, por meioda variao nos parmetros e S(associados distribuio qui-quadrado invertida). Segundo os autores, omtodo BayesB no bem formulado no contexto

    bayesiano. Isto porque designar a priorique 02 =i , no

    conduz necessariamente a i= 0, conforme intenooriginal de Meuwissen et al. (2001), em que i o efeitogentico do loco i. Sugere ento que o estado zero sejaespecificado no mbito dos efeitos e no no das varincias.

    Assim, probabilidade de mistura poderia ser atribudauma distribuio a prioriBeta. Surge ento, o mtodo

  • 7/23/2019 estadistica EMBRAPA

    37/107

    36 Mtodos estatsticos na seleo genmica ampla

    BayesC que vantajoso e permite especificar umadistribuio a prioripara , permitindo a modelagem dadistribuio dupla exponencial.

    Vrios outros mtodos bayesianos foram propostos(BayesCe BayesD, conforme Habier et al., 2011), todoseles com o propsito de permitir o aprendizado bayesiano.Habier et al. (2011) relataram que o mtodo BayesAmostrou-se superior na maioria das situaes, mas quenenhum dos mtodos bayesianos so claramente superiores

    dentre eles; entretanto o BayesB, BayesDe especialmenteo BayesCapresentam a vantagem de propiciar informaosobre a arquitetura gentica do carter quantitativo eidentificar as posies de QTL por modelagem dafrequncia de SNP no nulos.

    No mtodo BayesC uma varincia comum especificadapara todos os locos. Adicionalmente, tratada como

    uma incgnita com distribuio a prioriuniforme (0,1)caracterizando o mtodo BayesC, que equivale ento aomtodo RR-BLUP com seleo de covariveis eimplementado via MCMC. Tambm se igual a 1osmtodos BayesCe RR-BLUP so iguais (se prioris vagasso usadas).

    A modelagem de muito interessante para a anlise de

    associao. A maioria das marcas no est em desequilbriode ligao com os genes. Assim, necessria a seleo deum grupo de marcas que est em associao com ocarter. O mtodo BayesB determina subjetivamente.Usando a varivel indicadora

    i os mtodos BayesCe

    BayesDmodelam os efeitos genticos aditivos como

    n

    =i

    iijij x=a1

    , em que )(=i 0,1 . A distribuio de

    )(= n...1 binomial com probabilidade . Esse modelo

  • 7/23/2019 estadistica EMBRAPA

    38/107

    Mtodos estatsticos na seleo genmica ampla 37

    de mistura mais parcimonioso do que o mtodo BayesB.Seguindo a hierarquia do modelo, uma distribuio deve serpostulada para e deve ser uma Beta (LEGARRA et al.,2011).

    Se 1= , no h seleo de marcas e o mtodo torna-se oRR-BLUP implementado via MCMC (RR-BLUP bayesiano).Para o caso da distribuio Beta com parmetros e ,tem-se:

    - Se = 0 e = 0: h problema na estimao, pois adistribuio Beta torna-se mal definida.

    - Se = 1 e = 1: tem-se uma distribuio Uniforme em.

    - Se = 1 e = 1010: tem-se prximo de zero e amaioria das marcas ter efeito zero.

    - Se = 108e = 1010: tem-se quase fixado em 0,01 eem torno de 1% das marcas ter efeito.

    BayesD

    O mtodo BayesDmantm varincias especficas paracada loco e modela como uma varivel aleatria. Omtodo BayesD difere do BayesA e BayesB por consideraro parmetro de escala das prioris qui-quadrado invertidaspara as varincias especficas para cada loco como umaincgnita com distribuio a prioriGama (1,1). Como odesconhecido parmetro de escala comum a todos oslocos as informaes de todos os locos contribuem para asua posteriori e por meio desta para as posterioris dasvarincias especficas de cada loco.

    Adicionalmente, tratado como uma incgnita comdistribuio a prioriUniforme (0,1) produzindo os mtodos

  • 7/23/2019 estadistica EMBRAPA

    39/107

    38 Mtodos estatsticos na seleo genmica ampla

    BayesCe BayesD. Em contraste, igual a um noBayesA e pode ser da ordem de 0,01 no BayesB (HABIERet al., 2011).

    Uma comparao entre os mtodos bayesianos apresentada na Tabela 2.

    Tabela 2.Comparao entre os mtodos bayesianos.

    Mtodo Modelo para os

    efeitos genticos

    Parmetros

    que estima

    Mtodo se = 1

    BayesD

    n

    =i

    iijij x=a1

    2

    i , i ,

    2

    e ,

    BayesD

    BayesCa

    j=

    i=1

    n

    ix

    ij

    i

    2

    , i ,2

    e ,

    BayesC

    BayesC

    n

    =i

    iijij x=a1

    2

    , i ,2

    e RR-BLUP bayesiano

    ( i = 1)

    BayesBa

    j=

    i=1

    n

    ix

    ij

    i

    2

    i , i ,2

    e BayesA

    BayesA

    a j=i=1

    n

    ixij

    2

    i ,

    2

    e

    -

    RR-BLUPa

    j=

    i=1

    n

    ix

    ij

    2

    ,2

    e -

  • 7/23/2019 estadistica EMBRAPA

    40/107

    Mtodos estatsticos na seleo genmica ampla 39

    Fast BayesB

    O mtodo Fast BayesB foi desenvolvido por Meuwissen et

    al. (2009) visando diminuir o tempo de computao domtodo BayesB. Esses autores derivaram um algoritmo deesperana condicional iterativa (ICE) para estimar i por

    meio de integrao analtica. Os seguintes passos devemser adotados.

    a) Calcular as observaes ajustadas, iy , que so

    corrigidas para os efeitos de todos os outros

    marcadores, usando a expresso jn

    ij

    ji xy=y

    .

    Estimar a estatstica suficiente

    N))x(xy(x=Y j

    n

    ij

    j

    '

    i

    '

    ii /

    e N= 2e /2 .

    b) Calcular ]Y|E[= iii , que usado para atualizar a

    soluo para o marcador i. A expresso para

    cmputo de ]Y|E[= iii usa a funo Delta Dirac

    e apresentada por Meuwissen et al. (2009).

    A natureza aproximada do algoritmo ICE devida ao fato

    de iy e iY no serem conhecidos e sim serem estimados.Erros de estimao em iy e iY ocorrem devido a erros de

    estimao nos efeitos j dos outros marcadores.

  • 7/23/2019 estadistica EMBRAPA

    41/107

    40 Mtodos estatsticos na seleo genmica ampla

    Lasso bayesiano e Lasso bayesiano

    Melhorado (BLASSO e IBLASSO)

    Os Lassos bayesianos so vantajosos em relao aosmtodos bayesianos de Meuwissen et al. (2001) por seremassintoticamente livres de informao a priori. O parmetropode ser estimado dos prprios dados pelos mtodosMCMC (esse algoritmo pode ser implementado usandoinformao a priorivaga) e MCEM (esse algoritmo EM norequer informao a priori). Os mtodos BayesA e BayesB

    requerem a designao de distribuies a prioripara avarincia de cada marcador. Adicionalmente algunsmtodos bayesianos requerem a estimao de . NosLassos no existe e uma distribuio controlada pordeclarada para toda a coleo de varincias dos locosmarcadores.

    No mtodo Lasso original, uma moda conjunta estimada eespera-se que a maioria dos marcadores tenham efeitosexatamente igual a zero (USAI et al., 2009). No Lassobayesiano so estimadas mdias a posteriori, produzindovalores muito pequenos, mas no zero. E mdias aposteriori so o critrio timo para seleo (LEGARRA etal., 2011). No Lasso original a soluo admite at (N-1)coeficientes de regresso no nulos, em que N o nmero

    de indivduos. O Lasso bayesiano relaxa essa restrio,possivelmente produzindo um modelo mais acurado.

    A formulao bayesiana do Lasso (BLASSO) inclui umtermo de varincia comum para modelar ambos os termos,os resduos e os efeitos genticos dos marcadores (PARK;CASELLA, 2008; CAMPOS et al., 2009b). Legarra et al.(2011) propuseram o mtodo BLASSO melhorado

    (IBLASSO), o qual usa dois termos de varincia, um paramodelar os resduos e outro para modelar os efeitos

  • 7/23/2019 estadistica EMBRAPA

    42/107

    Mtodos estatsticos na seleo genmica ampla 41

    genticos dos marcadores. Esses termos se adequam aosconceitos de variao endgena e exgena no contexto dosmodelos mistos, conforme Singer et al. (2011). Issotambm coerente com a teoria da gentica quantitativa,que preconiza a decomposio da variao fenotpica emvariao gentica e residual.

    Uma comparao entre os trs mtodos Lassos, o RR-BLUPe o RR-BLUP-Het apresentada na Tabela 3.

  • 7/23/2019 estadistica EMBRAPA

    43/107

    42 Mtodos estatsticos na seleo genmica ampla

    Tabela 3.Caractersticas dos trs mtodos Lassos.

    Mtodo Modelo Varincia de cada marcador Varincia gentica aditiva Parmetro de forma

    LASSO

    )exp[()2/(~

    )exp()2/(),1(

    ),0(~

    1

    2

    22

    i

    i

    e

    ee

    p

    IMVNe

    eXuy

    ==

    ++=

    - - -

    BLASSO

    ]/)exp[()2/(),(

    ),0(~

    1

    2

    22

    =

    ++=

    p

    IMVNe

    eXuy

    .)2/exp()2/()(

    ;)...)();,0(~)(

    2

    1

    22

    22

    1

    2

    =

    =

    i

    n

    p

    DdiagDNp

    22/)2()( eVar =

    222)( iiiVar ==

    22

    1

    2 /212p )()p(= e

    m

    =i

    iia 222 /2 e )(=

    IBLASSO]/)exp[()2/(~,

    ),0(~

    1

    2

    22

    i

    i

    ee IMVNe

    eXuy

    ++=

    )()(=)|p(

    )=diag(D)D);N()|p(

    i

    i

    n21

    2/exp2/

    ...(0,~222

    2

    2/2)( =Var22

    )( iiiVar == 2

    1

    2 /212p )p(=m

    =i

    iia 22 /2 =

    RR-BLUP

    )IMVN(|

    )IMVN(|e

    e+X+=y

    2

    2

    ee

    0,~

    0,~

    1u

    2

    2

    2)( =Var

    2

    1

    2 12p

    m

    =i

    iia )p(= 2222 / )(= e

  • 7/23/2019 estadistica EMBRAPA

    44/107

    43 Mtodos estatsticos na seleo genmica ampla

    Mtodo Modelo Varincia de cada marcador Varincia gentica aditiva Parmetro de forma

    RR-BLUP-Het

    D)MVN(,|

    )IMVN(|e

    e+X+=y

    2

    ee

    0,~

    0,~

    1u

    2

    2

    i

    2

    ii ==)Var( - -

    Tabela 3. Continuao.

  • 7/23/2019 estadistica EMBRAPA

    45/107

    44 Mtodos estatsticos na seleo genmica ampla

    IBLASSO

    A parametrizao do IBLASSO equivalente ao do LASSOoriginal de Tibshirani (1996), porm, a implementao bayesiana. Outra diferena refere-se ao fato de que aparametrizao do LASSO original assume que a matriz deincidncia X foi padronizada. O IBLASSO no assume isso.Essa diferena pode ser observada na descrio dosmodelos apresentada na Tabela 3. A igualdade naparametrizao advm da comparao entre os termos

    )( 2

    / e )( 2/ . Somente a proporo )( / utilizadana prtica e, portanto, e no podem ser estimados

    separadamente. Assim, o de Tibshirani equivale a)( / do IBLASSO e , essencialmente, uma medida da

    variao gentica dos marcadores na populao. De formaequivalente, o modelo do IBLASSO poderia ser escrito em

    termos de 2 , retirando .

    A forma da distribuio dos efeitos das marcas determinada pelo parmetro de forma , que relacionado variao gentica dos marcadores por meio da expresso

    2/2)( =Var .Essa relao denota que 2 desempenha

    papel similar ao inverso da varincia nos modelos sobnormalidade. O parmetro pode ser estimado por MCMCou mxima verossimilhana marginal (MCEM ou REML). Aestimao por MCEM evita o uso de super-priori para (PARK; CASELLA, 2008).

    Partindo-se da relao 2

    1

    2 12p

    m

    =i

    iia )p(= (GIANOLA et

    al., 2009), tem-se 2

    1

    2 /212p )p(=m

    =i

    iia , em que 2a a

    varincia gentica aditiva. Uma vez que a varincia

  • 7/23/2019 estadistica EMBRAPA

    46/107

    Mtodos estatsticos na seleo genmica ampla 45

    gentica aditiva do carter geralmente conhecida a priori(de outros estudos), uma informao a prioripara pode

    ser dada por 21

    2 /212p a

    m

    =i

    ii )p(= . Entretanto, nosmodelos hierrquicos bayesianos propriamente ditos (casodos Lassos bayesianos e no dos mtodos bayesianos deMeuwissen) informao a priori atribuda aoshiperparmetros ( e componentes de varincia, porexemplo) de forma que a influncia dessa informaodesaparece assintoticamente.

    O modelo genrico do Lasso da forma:

    | | ])[()(=),|p(

    )IMVN(|e

    e+X+=y

    2

    /exp2/

    0,~

    1u

    2

    2

    Essa distribuio exponencial do Lasso para coaduna bemcom a distribuio observada para os efeitos genticos doslocos de um carter quantitativo(GODDARD, 2009).

    Com dois componentes de varincia ( 2e e

    2

    ) o modelo

    torna-se:

    | | ])[()(,|

    )IMVN(|e

    e+X+=y

    i

    i

    2

    2

    ee

    /exp2/~

    0,~

    1u2

    Notando-se a equivalncia com o modelo de Tibshirani,tem-se:

  • 7/23/2019 estadistica EMBRAPA

    47/107

    46 Mtodos estatsticos na seleo genmica ampla

    | |)[()(| ii

    exp2/~

    Usando uma formulao em termos de um modelohierrquico aumentado, incluindo um componente de

    varincia extra 2i associado a cada loco marcador, tem-se:

    )()(=)|p(

    )=diag(D)D);N()|p(

    i

    i

    n

    2

    1

    2/exp2/

    ...0,~

    222

    2

    Assim, tem-se: 2i2

    ii ==)Var(

    A implementao prtica desse modelo via amostrador deGibbs apresentada a seguir, conforme Legarra et al.(2011).

    A distribuio a prioride2

    e consiste de uma qui-quadradoinvertida com 4 graus de liberdade. A distribuio a prioripara pode ser deliberadamente vaga, como umauniforme entre 0 e 1.000.000.

    As distribuies condicionais a posteriori completas soapresentadas a seguir.

    )'')X(y'N(demais|u e2~11/11,1/~1

    )LHS,LHS)X(y'N(xdemais| IIeiiii /1/~~~1 2 , em

    que 2ieiii +x'x=LHS 2~ e ix a linha de X

    correspondente ao efeito i ei

    ~indica todas as variveis

    ~

    , exceto i

    ~

    .

  • 7/23/2019 estadistica EMBRAPA

    48/107

    Mtodos estatsticos na seleo genmica ampla 47

    2

    ii ,)(IGdemais| 2/1222 /

    ~ , em que IG refere-se a

    Gama Invertida.

    ( ) )mGdemais| i22 ~/,2 , em que G refere-se a Gamacom parmetro de forma igual ao nmero m de marcas e

    parmetro de escala igual a )~/2 2i .

    ( )N+,S+e'edemais| 2ee 4~~22 , em que N o nmero deindivduos e 2eS a escala da distribuio a priorida

    varincia residual.

    BLASSO

    O modelo da forma

    | | ])[()(,|)IMVN(|e

    e+X+=y

    i

    i

    2

    2

    /exp2/~

    0,~

    1u

    2

    Usando uma formulao em termos de um modelohierrquico aumentado tem-se:

    )2/exp()2/()(

    )...)();,0(~)(

    2

    1

    22

    22

    1

    2

    =

    =

    i

    n

    p

    DdiagDNp

    Assim, tem-se que a varincia gentica em cada loco

    marcador dada por 22 = 2ii .

  • 7/23/2019 estadistica EMBRAPA

    49/107

    48 Mtodos estatsticos na seleo genmica ampla

    As distribuies condicionais a posteriori completas soconforme descrito para o IBLASSO, porm com asseguintes modificaes:

    22~ +x'x=LHS 2ieiii

    2

    ii ,)(IGdemais| 2/12222 /

    ~

    N+m+,S+e'e+D'demais| 2e 4~~~~~ 2122

    Essa ltima distribuio condicional mostra que os efeitosde marcadores so na prtica considerados como pseudoresduos no BLASSO.

    GBLUP com heterogeneidade de varincias

    O mtodo GBLUP ou BLUP genmico pode tambm ser

    implementado considerando a heterogeneidade de varinciaentre marcadores. Nesse caso, a matriz A dada por

    ])1(2/[)'( ** =n

    i

    ii ppDXXA , em que pi a frequncia

    de um dos alelos do loco i e X* refere-se matriz Xcorrigida para suas mdias em cada loco (2pi). A matriz D

    dada por )(=diag(D) n22

    1 ... e os elementos2

    i podem ser

    obtidos pelos mtodos IBLASSO, BLASSO, BayesA,BayesB, etc. Essa abordagem apresenta tambm osseguintes pontos favorveis: (i) permite a anlisesimultnea de indivduos genotipados e no genotipados;(ii) permite o cmputo direto da acurcia seletiva viainverso da matriz dos coeficientes das equaes demodelo misto; (iii) a matriz D pode ser estimada em apenasuma amostra da populao e ser usada em toda a

    populao de seleo e em vrias geraes.

  • 7/23/2019 estadistica EMBRAPA

    50/107

    Mtodos estatsticos na seleo genmica ampla 49

    Comparao entre distribuies assumidas para os efeitos

    genticos nos diferentes mtodos

    Na Tabela 4 so apresentadas as distribuies assumidaspara os efeitos genticos de marcadores nos diferentesmtodos de GWS.

    Tabela 4.Distribuies assumidas para os efeitos genticos demarcadores nos diferentes mtodos de GWS.

    MtodoDistribuio a prioridos

    efeitos

    Distribuio a

    prioridas

    varincias

    Distribuio

    aposteriori

    RR-BLUP(bayesiano)

    Normal com varinciacomum

    qui-quadradoinvertida noinformativa

    qui-quadradoinvertida

    BayesA

    Normal comheterogeneidade devarincias entre marcas(t dado priori qui-quadrado para asvarincias)

    qui-quadradoinvertida (equivaleao BayesB com = 1)

    qui-quadradoinvertida

    BayesB

    Normal comheterogeneidade devarincias entre marcas,mdia zero e varinciafinita (t dado priori qui-

    quadrado para asvarincias)

    Mistura dedistribuies 0com probabilidade(1-) e qui-quadrado invertida

    com probabilidade

    qui-quadradoinvertida

    BayesC

    Mistura de distribuies0 e normal com varinciacomum (t dado prioriqui-quadrado para asvarincias)

    qui-quadradoinvertida, comdistribuioUniforme entre 0e 1

    Lassos Exponencial Dupla Exponencial Dupla GamaInvertida

  • 7/23/2019 estadistica EMBRAPA

    51/107

    50 Mtodos estatsticos na seleo genmica ampla

    A Figura 1 ilustra as formas das distribuies normal (RR-BLUP) e exponencial (LASSO).

    Densidade

    Figura 1.Densidades das distribuies normal (curva pontilhada)e exponencial dupla (curva cheia), ambas com mdias iguais azero e varincias iguais unidade.

    Observa-se que a densidade a prioriutilizada no LASSOBayesiano apresenta maior massa de densidade no valorzero e caudas mais robustas, exercendo maiorencurtamento sobre coeficientes de regresso prximos de0 e menor encurtamento sobre coeficientes de regressodistantes de zero.

  • 7/23/2019 estadistica EMBRAPA

    52/107

    Mtodos estatsticos na seleo genmica ampla 51

    Regresso Kernel Hilbert Spaces

    (RKHS)

    Os mtodos regresso kernel no paramtrica via modelosaditivos generalizados (GIANOLA et al., 2006), regressosemi-paramtrica RKHS (Reproducing Kernel HilbertSpaces) (GIANOLA; KAAM, 2008) e de redes neuraispertencem classe de regresso implcita e so mtodosno paramtricos ou semi-paramtricos. Esses mtodos so

    uma alternativa para o ajuste de modelos com muitasinteraes epistticas e de dominncia.

    Gonzalez-Recio et al. (2008) compararam mtodos noparamtricos (RKHS), regresso bayesiana e RR-BLUP emtermos de eficincia na seleo genmica. Concluram queo mtodo da regresso RKHS (Reproducing Kernel HilbertSpaces) apresentou melhor capacidade preditiva do que os

    demais. Esse mtodo equivale ao BLUP modelo animal coma matriz de parentesco substituda pelos kernels. O mtodosemi-paramtrico RKHS parece ter maior capacidadepreditiva quando aplicado a dados reais (GIANOLA et al.,2009), sem fazer fortes suposies a priori.

    Regresses no paramtricas so representaes funcionaisentre um grande nmero de covariveis e uma varivel

    dependente, gerando uma estrutura menos parametrizada,com menos suposies e com facilidade para acomodarefeitos de interaes.

    As funes de kernelpodem ser usadas em mtodos noparamtricos para estimar densidades a partir de umaamostra (BISHOP, 2006). A regresso de Naradaya-Watson(NWR) aplicando o kernelbinomial para estimao dafuno do valor allico tem sido usada para implementaodo modelo no paramtrico usando a teoria do modelo

  • 7/23/2019 estadistica EMBRAPA

    53/107

    52 Mtodos estatsticos na seleo genmica ampla

    aditivo (HASTIE; TIBSHIRANI, 1986; GIANOLA et al.,2006). Este mtodo apresenta resultado similar ao do RR-BLUP, sendo que o NWR depende do fator de alisamento eo RR-BLUP depende do fator de shrinkage.

    RKHS

    Modelo

    O modelo genrico para o fentipo dado por

    jjj

    e+)g(x+u=y , em que: yj o fentipo do indivduo j; u

    a mdia do carter em estudo; ej o erro aleatrio e g(xj) uma funo desconhecida que relaciona os gentiposmarcadores (covariveis) com os fentipos (variveldependente).

    A funo g(x) definida por

    )(

    ),()()(

    xp

    dyxypyxyExg

    == .

    Funo objetivo a ser minimizada:

    }22 )()]([(minargH

    N

    j

    ijRKHS xghxguy +

    = .

    Funo de penalizao

    2

    )(H

    xgh , em que h o parmetro de suavizao e2

    )(H

    xg

    a norma de g(x) em um espao de Hilbert, a qual induzregularizao, cuja fora ditada por h.

    Caractersticas

    No espao infinito de Hilbert, procura-se a funo g(x) queminimize a soma de quadrados penalizada

  • 7/23/2019 estadistica EMBRAPA

    54/107

    Mtodos estatsticos na seleo genmica ampla 53

    }22 )()]([()]([H

    N

    j

    ij xghxguyxgSS +

    = . A soluo para

    essa minimizao dada por:

    =

    +=N

    j

    ij xxkxg1

    0 )()( , em que j so coeficientes

    desconhecidos (com total equivalente ao nmero N deindivduos genotipados) e k(x-xj) o kernelde reproduo,cuja escolha define o espao de Hilbert em que se dar aminimizao da soma de quadrados. A regularizaorealizada produz nos modelos de regresso RKHS ummenor nmero de parmetros do que em outros mtodos.

    Na RKHS uma coleo de funes reais implicitamentedefinida pela escolha de um kernelde reproduo, k(xi,xj).Esta funo mapeia pares de gentipos em nmeros reais.Sob uma perspectiva bayesiana o kernelde reproduodefine correlaes a priorientre as avaliaes da funo(valores genticos) em pares de gentipos (Cor[g(xi),g(xj)].A escolha do kernel fundamental na especificao domodelo e a RR pode ser representada como regressesRKHS. De maneira geral, os kernelsso escolhidos poralgoritmos de forma a maximizar a performance do modelo,maximizando a capacidade preditiva. Uma grande variedadede kernels avaliada e selecionado aquele que timo

    segundo o critrio de seleo do modelo (aquele quemaximiza a capacidade preditiva) (CAMPOS et al., 2009a).A capacidade preditiva na populao de validao acapacidade de prever futuras observaes. Na populaode estimao uma medida da qualidade do ajustamentoentre os dados de treinamento e o modelo.

    Na regresso RKHS a estrutura de covarincia

    proporcional a uma matriz de kernelK, dada por Cov(gi,gj)KRKHS(xi,xj), em que xi,xjso vetores de gentipos

  • 7/23/2019 estadistica EMBRAPA

    55/107

    54 Mtodos estatsticos na seleo genmica ampla

    marcadores para os indivduos i e j, e K(.,.) uma funopositiva definida avaliada nos gentipos marcadores. Umagrande vantagem da RKHS que o modelo representadoem termos de N incgnitas, fato que uma grandevantagem computacional quando n muito maior que N.

    Nos modelos de regresso explicita e na RKHS, as funesbase (funes das covariveis usadas para construir aregresso, por exemplo, polinmios) para regressarfentipos em marcadores so definidas a priorie isto impe

    restries nos padres que podem ser capturados pelosmtodos. No mtodo de redes neurais as funes baseusadas so inferidas dos prprios dados e isso conferegrande flexibilidade a esse mtodo. Porm, h o risco desuperparametrizao e a interpretao dos parmetros no trivial. A superparametrizao significa que a capacidadepreditiva na populao de estimao apresenta boaperformance mas no a apresenta na populao de

    validao (em dados que no foram usados para ajustar omodelo) (CAMPOS et al., 2009a; 2009b).

    O modelo pode ento ser expandido da seguinte forma:

    jjj e+)g(x+u=y

    j

    N

    =j

    ijj e+)xk(x+u=y 1 , em que0 faz parte de u.

    Em termos vetoriais, tem-se:

    e+T(h)+=y 1u , em que:

  • 7/23/2019 estadistica EMBRAPA

    56/107

    Mtodos estatsticos na seleo genmica ampla 55

    =

    )(

    .

    .

    .

    )(

    )(

    )(

    2

    1

    ht

    ht

    ht

    hT

    n

    ,nnihihihi xxkxxkxxkht )]()...()([)( 211 =

    enn1 ][=' ...21

    Assumindo )N(j20,~ e que os componentes de

    varincia e h so conhecidos, tm-se as equaes demodelo misto para obteno das solues de u e

    j :

    =

    + yhT

    yu

    IhThThT

    hT

    e

    )'(

    '1

    )()'('1)(

    1)'(1'1

    2

    2

    Aps a escolha do parmetro de suavizao h, pode-seobter estimativas REML para os componentes de varincia

    2

    e2

    e . O parmetro de suavizao h pode ser

    determinado via validao cruzada ou via abordagembayesiana, atribuindo-se distribuies a prioriprprias para

    todos os parmetros do modelo (GIANOLA; CAMPOS,2009).

    O modelo KRHS pode ser tambm assim especificado:e+K+=y h1u , em que u uma constante, hK a matriz

    positiva definida de kernels, dependente do parmetro desuavizao h; um vetor contendo coeficientes no

    paramtricos que so assumidos com distribuio normal),0(~ 21

    hj KN , com2

    representando a recproca do

  • 7/23/2019 estadistica EMBRAPA

    57/107

    56 Mtodos estatsticos na seleo genmica ampla

    parmetro de alisamento ( 12 = ). Os resduos tm

    distribuio normal com matriz de covarincia R=I 2e . A

    soluo para dada por yIK ehe222 ][ =+ .

    Os fentipos so preditos por 1 *hKuy += , onde uma linha

    de *hK tem a forma )]([

    **

    jiht xxKK = , com )(*

    jih xxK

    sendo o kernelentre o gentipo do indivduo i no grupo devalidao e o gentipo do indivduo j no grupo deestimao.

    RKHS com efeito polignico

    Nesse caso, o efeito gentico de um indivduo j dado pelomodelo jjj +p=g , em que jp a regresso sobre o

    pedigree e j a regresso semi-paramtrica sobre os

    marcadores. Na RKHS, a suposio de que),,(= n2...1 um processo gaussiano com mdia nula

    e funo de covarincia proporcional a um kerneldereproduo, KRKHS(xi,xj), avaliada nos gentipos marcadores,em que xie xjso vetores de gentipos marcadores para osindivduos i e j.

    A distribuio a priori conjunta de p , e componentes de

    varincia associados 2p , 2 e 2e dada por:

    ),(),(),(

    ),0(),0(),,,,,,,,,,(

    222222

    22222

    pppeee

    pRKHSppeeep

    SdfSdfSdfx

    ApNKNSfdfSdfSdfpup

  • 7/23/2019 estadistica EMBRAPA

    58/107

    Mtodos estatsticos na seleo genmica ampla 57

    Qualquer funo positiva definida

    satisfazendo )x,(xK jiRKHSi j

    ji para todas as

    sequncias no nulas { }ia uma escolha vlida de kernel.

    Pode-se escolher )x,(xK jiRKHS como um kernelGaussiano

    0,5/2exp qd=)x,(xK ijjiRKHS , em que2

    1

    )x(x=d jk

    p

    =k

    ikij

    o quadrado da distncia euclidiana, e q0,5 a medianaamostral da matriz de quadrados das distncias euclidianas

    amostrais ijd .

    Combinando a distribuio a prioriconjunta com a funode verossimilhana, a distribuio condicional completa domodelo torna-se (CROSSA et al., 2010):

    ( )}

    ),(),(),(

    ),0(),0(/,,,,,,,(

    222222

    222

    1

    222

    pppeee

    pRKHSje

    n

    i

    jjiep

    SdfSdfSdfx

    ApNKNnpuyNHypup

    =

    ++

    Amostras so retiradas dessa distribuio.

    Um modelo sem o efeito polignico pode ser ajustadoremovendo jp das equaes acima. Assim, as distribuies

    a seguirso dadas por:

    a priori:

    ),(),(

    ),(),0(),,,,,,,,,(

    2222

    222222

    ppp

    eeeRKHSppeeep

    SdfSdfx

    SdfKNSfdfSdfSdfup

  • 7/23/2019 estadistica EMBRAPA

    59/107

    58 Mtodos estatsticos na seleo genmica ampla

    e a posteriori:

    ( )}),(),(),(

    ),0(/,,,,,,(

    222222

    22

    1

    222

    pppeee

    RKHSie

    n

    i

    jjep

    SdfSdfSdfx

    KNnuyNHyup

    =

    +

    O modelo animal univariado tradicional pode tambmser expresso em termos de egy += em que

    ),0(~,0 22 RKHSRKHS KNKg , conduzindo ao estimador

    ygKI eRKHSe2122 ][ =+ (CAMPOS et al., 2009a).

    Regresso via quadrados mnimos

    parciais (PLSR)

    A regresso via quadrados mnimos parciais (PLSR) ummtodo de reduo dimensional que pode ser aplicado

    seleo de marcadores com efeitossignificativos em umcarter. um mtodo muito usado em quimiometria nasituao em que se tem um grande nmero de variveiscom relaes desconhecidas e o objetivo a construo deum bom modelo preditivo para a varivel resposta (WOLDet al., 2001). No PLS variveis latentes so extradas comocombinaes lineares das variveis originais e so usadaspara a predio da varivel resposta, conforme descrito aseguir.

    jjj e+)f(x=y : valor fenotpico do indivduo j.

    )f(xj : funo que relaciona gentipos marcadores aos

    fentipos.

    je : termo residual.

  • 7/23/2019 estadistica EMBRAPA

    60/107

    Mtodos estatsticos na seleo genmica ampla 59

    Pelo PLS, a funo )f(xj definida como h

    =l

    ljlj t=)f(x1

    ,

    em que jlt o componente latente l (l = 1, 2, h) noindividuo je geralmente h menor que o nmero devariveis. l o efeito gentico associado ao componente

    latente l. O efeito gentico (regresso) associado ao

    marcador i dado por h

    =l

    lili x=1

    .

    As variveis latentes so componentes ortogonais, o queelimina o problema de multicolinearidade e a PLSR similar regresso via componentes principais (PCR). Ambos osmtodos constroem a matriz T de componentes latentes,como transformao linear da matriz X das variveisoriginais por meio de T = XW, em que W uma matriz depesos. A diferena que a PCR extrai componentes queexplicam a varincia de X e a PLSR extrai componentes quetm maior covarincia com y. Na PLSR as colunas de pesosna matriz W so definidas de forma que o quadrado damatriz de covarincia amostral entre y e os componenteslatentes maximizado sob a restrio de que oscomponentes latentes sejam no correlacionados.

    Existem diferentes tcnicas para extrao dos componentes

    latentes. A complexidade tima do modelo, ou seja, onmero de componentes latentes, pode ser determinadapor validao cruzada.

  • 7/23/2019 estadistica EMBRAPA

    61/107

    60 Mtodos estatsticos na seleo genmica ampla

    Relao entre RR-BLUP, BLASSO e

    IBLASSO

    Resultados prticos tm revelado que a capacidadepreditiva no varia muito com o valor de RR e

    L associados herdabilidades entre 5% e 95%, quando o

    nmero de locos grande (SILVA et al., 2011).

    Em presena de genes maiores, o RR-BLUP difereconsideravelmente do BLASSO e IBLASSO. Nesse caso, oIBLASSO e o RR-BLUP-Het so melhores. O IBLASSO similar ao BayesA mas com maior shrinkagenas marcas demenor efeito, conforme discutido em tpicos anteriores.

    Em termos de ordenamento dos candidatos seleo, tm-se as seguintes tendncias. Com seleo indireta decovariveis nos mtodos que no o fazem diretamente: (i)

    BayesA igual a BayesB; (ii) RR-BLUP igual ao Lasso emranking, desde que a arquitetura gentica seja homognea;(iii) RR-BLUP igual ao BayesA e BayesB, desde que aarquitetura gentica seja homognea e aspriorisutilizadasnos mtodos bayesianos sejam no informativas; (iv) Comarquitetura gentica heterognea, RR-BLUP-Het similar aoIBLASSO em ranking; (v) RR-BLUP igual ao BayesCdesde que as prioris utilizadas no mtodo bayesiano sejam

    no informativas; (vi) RR-BLUP igual ao BayesD, desdeque a arquitetura gentica seja homognea e aspriorisutilizadas no mtodo bayesiano sejam no informativas. Se= 1, RR-BLUP igual ao BayesC.

    RR-BLUP e Lasso podem ser implementadas sob o enfoquefrequentista e bayesiano. Sepriorisno informativas foremutilizadas, tem-se que RR-BLUP frequentista semelhante

    ao RR-BLUP bayesiano e Lasso frequentista semelhanteao Lasso bayesiano.

  • 7/23/2019 estadistica EMBRAPA

    62/107

    Mtodos estatsticos na seleo genmica ampla 61

    A seleo indireta de covariveis no RR-BLUP usando osmaiores mdulos dos efeitos estimados dos marcadoresproduz o mtodo RR-BLUP_B (RESENDE et al., 2010;RESENDE JUNIOR et al., 2012), o qual pode apresentaracurcia superior. Mas esse mtodo e tambm o RR-BLUPtradicional dividem toda a variao gentica aditiva docarter por uma funo do nmero de marcadoresajustados. E os marcadores usados no capturam toda essavariao gentica. No RR-BLUP_B maior variao gentica atribuda a cada marcador do que de fato deveria. Assim, o

    RR-BLUP_B deve usar somente a variao genticacapturada pelos marcadores ajustados em cada anlise.Portanto, deve-se usar o REML para estimar essa variaoou outro mtodo bayesiano, como o BLASSO ou IBLASSO,produzindo o mtodo REML/RR-BLUP_B ou BLASSO/RR-BLUP_B ou IBLASSO/RR-BLUP_B. Tambm, a escolha domelhor modelo REML/RR-BLUP_B deve basear-se navalidao cruzada.

    Relao entre RR-BLUP e BLASSO

    Considerando todos os locos que controlam o carter:

    2/ a2

    eBLUP =

    Considerando cada loco i:

    22 // 2

    eai

    2

    eRR ==

    Pelo BLASSO e com homogeneidade de varinciasgenticas entre locos (LEGARRA et al., 2011):

    2/122 /2 ][= eBL

  • 7/23/2019 estadistica EMBRAPA

    63/107

    62 Mtodos estatsticos na seleo genmica ampla

    Como funo do penalizador no RR-BLUP:

    2/12/12/122 1.4142/2 ][=][=][=RRRReBL

    No BLASSO tem-se (CAMPOS et al., 2009b):

    22

    e

    2

    ii =

    Com homogeneidade de variancias genticas entre locos:

    22e

    2 = e

    RRe

    2

    == /1/ 22 , em que 2 a mdia dos valores de

    2

    i .

    Assim, 2/122/1222 /2/2 ][=)]([= eeBL e

    22 /2 BL= . Substituindo em22

    e

    2

    = , tem-se222 /2 BLe = .

    Para cmputo da herdabilidade, tem-se (RESENDE et al.,2010):

    2

    e

    n

    i

    ii

    n

    i

    ii

    +)p(p

    )p(p

    =h

    2

    2

    2

    12

    12

    Fazendo-se as substituies tem-se:

  • 7/23/2019 estadistica EMBRAPA

    64/107

    Mtodos estatsticos na seleo genmica ampla 63

    +

    =

    +

    =

    +

    =n

    i

    iie

    n

    i

    eii

    n

    i

    eii

    e

    n

    i

    ii

    n

    i

    ii

    pppp

    pp

    pp

    pp

    h

    })]1(2/{[11

    1

    )1(2

    )1(2

    )1(2

    )1(2

    2222

    22

    22

    2

    2

    De forma alternativa e usando 222 /2 BLe = , tem-se:

    )2/(1

    1

    )]1(4/[1

    1

    /2)1(2

    /2)1(2

    )1(2

    )1(2

    22222

    22

    22

    2

    2

    QBL

    n

    i

    iiBLe

    n

    i

    BLeii

    n

    i

    BLeii

    e

    n

    i

    ii

    n

    i

    ii

    npppp

    pp

    pp

    pp

    h

    +=

    +

    =

    +

    =

    +

    =

    , pois n

    i

    iiQ )p(p=n 12 . Assim, com arquitetura gentica

    homognea, a h2pode ser obtida a partir do parmetro depenalizao do BLASSO e das frequncias allicas noslocos marcadores.

    Sendo 2/12 ][=RRBL

    , tem-se:

    RRQ

    Q

    QRRQRRQ

    2

    BL +n

    n=

    n+=

    )(+=

    )(+=h

    /1

    1

    2n/21

    1

    2n/1

    12

    Pelo mtodo RR-BLUP, a h2 dada por )+(nn=h RRQQ/2 ,

    fato que confirma a equivalncia dos mtodos na situaode arquitetura gentica homognea.

    Como RR assumido como conhecido no RR-BLUP, o

    estimador para a h2capturada por todos os marcadores emconjunto tem que ser especificado em funo do parmetrode penalizao

    BL do BLASSO, sendo dado por

    222

    2n2n

    2n/11

    BLQ

    Q

    QBL +=

    )(+=h . Utilizando no RR-BLUP

  • 7/23/2019 estadistica EMBRAPA

    65/107

    64 Mtodos estatsticos na seleo genmica ampla

    essa h2estimada, o coeficiente de regresso envolvendovalores observados e preditos pela GWS sero prximos de1, desde que o carter seja de arquitetura genticahomognea. Isso indica que as avaliaes so no viesadase so efetivas em predizer as reais magnitudes dasdiferenas entre os indivduos em avaliao. Se aestimativa de tal coeficiente de regresso (em anliseusando a h2estimada dessa maneira) se afastar muito de 1,h indcios de presena de genes de efeitos maiores e,nesse caso, o mtodo RR-BLUP no adequado, devendo-

    se preferir o BLASSO, o IBLASSO ou o RR-BLUP-Het.Relao entre RR-BLUP, BLASSO e IBLASSO

    Considerando todos os locos que controlam o carter:

    2/ a2

    eBLUP =

    Considerando cada loco i:22 //

    2

    eai

    2

    eRR ==

    Pelo IBLASSO e com homogeneidade de varinciasgenticas entre locos (LEGARRA et al., 2011):

    2/12/2 ][=IBL

    Como funo do penalizador no RR-BLUP:

    2/122/12 /1.414/2 ][=][= eRReRRIBL

    Como funo do penalizador no BLASSO, dado por2/122 /2 ][= eBL , tem-se:

  • 7/23/2019 estadistica EMBRAPA

    66/107

    Mtodos estatsticos na seleo genmica ampla 65

    2/12/ ][= eBLIBL

    No IBLASSO tem-se (LEGARRA et al., 2011): 2

    ii =2

    .

    Com homogeneidade de varincias genticas entre locos:

    2

    =2 e 22 /2 IBL

    2

    == , em que2 a mdia dos

    valores de 2i .

    Assim, IBL= [ 2 / 2

    ]1/2

    e como 2/12 ]/2[ =BL tem-setambm a equivalncia entre BLASSO e IBLASSO quandoexiste homogeneidade de varincia entre locos.

    Do mesmo modo, 22 /2 BL = e, substituindo em2

    =2 ,

    tem-se 222 /2/2 IBLBL == .

    Para cmputo da herdabilidade, (RESENDE et al., 2010):

    2

    e

    n

    i

    ii

    n

    i

    ii

    +)p(p

    )p(p

    =h

    2

    2

    2

    12

    12

    Para o IBLASSO, fazendo-se as substituies, tem-se:

    2

    e

    n

    i

    ii

    n

    i

    ii

    2

    e

    n

    i

    ii

    n

    i

    ii

    +)p(p

    )p(p

    =

    +)p(p

    )p(p

    =h

    2

    2

    2

    2

    2

    12

    12

    12

    12

    .

    De forma alternativa e usando

    22

    /2 IBL = , tem-se:

  • 7/23/2019 estadistica EMBRAPA

    67/107

    66 Mtodos estatsticos na seleo genmica ampla

    )2/(1

    1

    )]1(4/[1

    1

    /2)1(2

    /2)1(2

    )1(2

    )1(2

    222222

    2

    22

    2

    2

    QIBLe

    n

    i

    iiIBLee

    n

    i

    IBLii

    n

    i

    IBLii

    e

    n

    i

    ii

    n

    i

    ii

    npppp

    pp

    pp

    pp

    h

    +=

    +

    =

    +

    =

    +

    =

    pois n

    i

    iiQ )p(p=n 12 . Assim, com arquitetura gentica

    homognea, a h2pode ser obtida a partir do parmetro depenalizao do IBLASSO, das frequncias allicas nos locosmarcadores e da varincia residual.

    Sendo2/12

    /2

    ][= eRRIBL , tem-se:

    RRQ

    Q

    QRRQRRQIBLe n

    n

    nnnh

    +=

    +=

    +=

    +=

    /1

    1

    )2/(21

    1

    )2/(1

    122

    2

    Pelo mtodo RR-BLUP, a h2 dada por )+(nn=h RRQQ/2 ,

    fato que confirma a equivalncia dos trs mtodos na

    situao de arquitetura gentica homognea.ComoRR assumido como conhecido no RR-BLUP e a h

    2

    viaIBL depende tambm de

    2

    e , o estimador para a h2

    capturada por todos os marcadores em conjunto tem queser especificado em funo do parmetro de penalizao

    BL do BLASSO (o qual estimado dos dados), sendo dado

    por 222

    2n

    2n

    2n/1

    1

    BLQ

    Q

    QBL +=)(+=h . Utilizando no RR-BLUP,

    essa h2estimada, o coeficiente de regresso envolvendovalores observados e preditos pela GWS sero prximos de1, desde que o carter seja de arquitetura genticahomognea.

  • 7/23/2019 estadistica EMBRAPA

    68/107

    Mtodos estatsticos na seleo genmica ampla 67

    Anlise simultnea de indivduos

    genotipados e no genotipados via

    GBLUP

    A avaliao gentica em um programa de melhoramentogentico envolve simultaneamente indivduos fenotipados egenotipados, apenas fenotipados e apenas genotipados.Essas trs classes de indivduos necessitam ter seusvalores genticos preditos para que sejam ordenados ecomparados. Uma opo realizar trs predies isoladas e

    fazer o ordenamento global. Outra opo para o grupo deindivduos apenas genotipados estabelecer um ndicecombinando a predio genmica com a predio baseadanos valores genticos preditos de seus genitores.

    No entanto, a alternativa mais eficiente realizar toda apredio em um nico passo, conforme relatado por Misztalet al. (2009) e Aguilar et al. (2010) e apresentado a seguir.

    Para o grupo de indivduos genotipados e fenotipados, oseguinte modelo linear misto geral ajustado para estimaros efeitos genticos aditivos usando informaesfenotpicas e dos marcadores (RESENDE, 2008; RESENDEet al., 2010):y = Wb + Za + e,em que y o vetor deobservaes fenotpicas, b o vetor de efeitos fixos, a o

    vetor dos efeitos genticos aditivos (aleatrios) e erefere-se ao vetor de resduos aleatrios. W eZ so as matrizesde incidncia para be a.

    Esse modelo equivalente a:y = Wb + ZXm + e,em quem o vetor dos efeitos aleatrios de marcadores, X amatriz de incidncia para me a = Xm.

    A matriz de incidncia X contm os valores 0, 1 e 2 para onmero de alelos do marcador (ou do suposto QTL) em um

  • 7/23/2019 estadistica EMBRAPA

    69/107

    68 Mtodos estatsticos na seleo genmica ampla

    indivduo diploide.Outra forma equivalente de codificar usar os valores -1, 0 e 1.

    As equaes de modelo misto para a predio de a via omtodo G-BLUP equivalem a:

    =

    + yZ

    yW

    a

    b

    GZZWZ

    ZWWW

    a

    e

    '

    '

    ''

    ''

    2

    2

    1

    , em que

    ])1(2/[)'(/)'( ==

    n

    iii ppXXkXXG

    e

    n

    i

    ii )p(p=k 12 . Com padronizao prvia dos elementos

    de X (dividindo-os por 2/112 ])p(pn

    i

    ii ) e centrando a

    mdia em zero tem-se XX'=G .

    O parmetro de escala n

    i

    ii )p(p=k 12 assume

    independncia entre efeitos de SNPS. Visando contornaressa suposio, Gianola et al. (2009) determinaram oseguinte parmetro de escala:

    ( )( ) nnppqpkn

    i

    ii

    +++

    += )/(2/)]1([2)(

    200

    em que )+(=p /0 a frequncia allica esperada,

    )p(=q 00 1 e e so parmetros da distribuio betaajustando a frequncia allica bsica e n o nmero deSNP.

  • 7/23/2019 estadistica EMBRAPA

    70/107

    Mtodos estatsticos na seleo genmica ampla 69

    O estimador de a pode ser resumido em:

    [ ] [ ]ZG+ZZ'=a

    a

    e1

    1

    2

    2

    .

    Para a avaliao global das trs classes de indivduos emum nico passo, o mesmo modelo y = Wb + Za + epodeser usado, porm com uma alterao (substituio damatriz G pela matriz H) nas equaes de modelo misto,conforme Misztal et al.(2009):

    =

    + yZ

    yW

    a

    b

    HZZWZ

    ZWWW

    a

    e

    '

    '

    ''

    ''

    2

    2

    1

    A matriz H inclui ambas as relaes, baseadas em pedigree(A) e diferenas ( A ) entre essas e as relaes genmicas,

    de forma que H = A + A . Assim, H dada por

    22

    12

    21

    11 0

    0

    0

    AGA

    G

    A

    A

    AH

    +== , em que os subscritos 1 e 2

    representam indivduos no genotipados e genotipados,respectivamente.

    A inversa de H, que permite computaes mais simples, dada por:

    1

    22

    221

    12

    21

    11

    1

    22

    1

    11 0

    0

    0

    +=

    +=

    AAG

    A

    A

    A

    AGAH , em que

    1

    22

    A a inversa da matriz de parentesco baseada em

    pedigree para os indivduos somente genotipados.

  • 7/23/2019 estadistica EMBRAPA

    71/107

    70 Mtodos estatsticos na seleo genmica ampla

    O valor gentico genmico global do indivduoj dado por

    i

    iijj X=a . Esse, quando estimado quando o individuo j

    no participa da estimao de , pode ser correlacionadocom o fentipo observado de j, visando fazer a validao.

    A partir da estimao dos valores genticos ( a ) pelo

    GBLUP, os efeitos estimados dos marcadores ( ) podem

    ser obtidos, conforme desenvolvido a seguir:

    aXXX

    XXaX

    Xa

    )(

    1=

    =

    =

    Modelos com efeitos de dominncia (d) podem serajustados. Esses so da forma y = Wb + X+ Td + e.

    Nesse caso, os elementos de X so codificados como (2)1/2

    ,0 e (2)1/2para os gentipos MM, Mm e mm,respectivamente. E os elementos de T so codificadoscomo 1, 1 e 1 para os gentipos AA, Aa e aa,respectivamente. Valores de X e T codificados dessa formaso independentes e apresentam mdia zero e varincia 1.Se os elementos de X so codificados com os valores -1, 0e 1, os modelos com efeitos de dominncia apresentam os

    elementos de T dados por 0, 1 e 0, para os gentipos MM,Mm e mm, respectivamente.

    A anlise pelo GBLUP favorvel computacionalmente,

    pois resulta em um menor nmero de equaes a seremresolvidas. Outro uso importante dessa anlise refere-se

    estimao da herdabilidade total explicada por todos os

    marcadores simultaneamente. Com matriz de parentesco

  • 7/23/2019 estadistica EMBRAPA

    72/107

    Mtodos estatsticos na seleo genmica ampla 71

    dada por ])p(p[)(XX'=k)(XX'=Gn

    i

    ii 12// , essa h2

    pode ser estimada por REML fazendo uso das equaes demodelo misto para a estimao dos componentes de

    varincia 2a e

    2

    e . Os elementos da matriz G representam

    o parentesco realizado mdio multi-locos e so dados por

    n

    =i ii

    iikiij

    jk)p(

    ))(x(xn)(=