genetica EMBRAPA

Documentos

Vivian Dagnesi TimpaniThialla Emille Costa do Nascimento

Uma Breve Introduo Estatstica Bayesiana Aplicada ao Melhoramento Gentico Animal

ISSN 1983-0513 Julho, 2015

Empresa Brasileira de Pesquisa AgropecuriaEmbrapa Amaznia OrientalMinistrio da Agricultura, Pecuria e Abastecimento

412

Embrapa Amaznia OrientalBelm, PA2015

Embrapa Amaznia OrientalTv. Dr. Enas Pinheiro, s/n. CEP 66095-903 Belm, PA.Caixa Postal 48. CEP 66017-970 Belm, PA.Fone: (91) 3204-1000Fax: (91) 3276-9845www.embrapa.brwww.embrapa.br/fale-conosco/sac

Comit Local de PublicaoPresidente: Silvio Brienza JniorSecretrio-Executivo: Moacyr Bernardino Dias-FilhoMembros: Orlando dos Santos Watrin

Eniel David CruzSheila de Souza Correa de MeloRegina Alves RodriguesLuciane Chedid Melo Borges

Superviso editorial: Luciane Chedid Melo BorgesReviso de texto: Narjara de Ftima Galiza da Silva PastanaNormalizao bibliogrfica: Andra Liliane Pereira da SilvaTratamento de imagens, ilustrao da capa e editorao eletrnica: Vitor Trindade Lbo

1 edioOn-line (2015)Disponvel em: www.embrapa.br/amazonia-oriental/publicacoes

Embrapa 2015

Timpani, Vivian Dagnesi. Uma breve introduo estatstica bayesiana aplicada ao

melhoramento gentico animal / Vivian Dagnesi Timpani, Thialla Emille Costa do Nascimento. Belm, PA : Embrapa Amaznia Oriental, 2015.

57 p. : il. ; 15 cm x 21 cm. (Documentos / Embrapa Amaznia Oriental, ISSN 1983-0513; 412).

1. Estatstica. 2. Melhoramento gentico animal. 3. Gentica animal. I. Nascimento, Thialla Emille Costa do. II. Ttulo. III. Srie.

CDD 21. ed. 519.542

Todos os direitos reservadosA reproduo no autorizada desta publicao, no todo ou em parte,

constitui violao dos direitos autorais (Lei n 9.610).

Dados Internacionais de Catalogao na Publicao (CIP)Embrapa Amaznia Oriental

Autores

Vivian Dagnesi TimpaniZootecnista, doutora em Zootecnia, pesquisadora da Embrapa Amaznia Oriental, Belm, PA.

Thialla Emille Costa do NascimentoMdica-veterinria, graduada pela Universidade Federal do Vale do So Francisco, Petrolina, PE.

Agradecimentos

Ao Professor Dr. Tarcisio Moraes Gonalves (Ufla).

Professora Dra. Thelma Safadi (Ufla).

Ao Professor Dr. Idalmo Garcia Pereira (UFMG).

Ao Professor Blasco.

Apresentao

Depois da anlise dos dados coletados no experimento ou campo, o propsito de qualquer pesquisador fazer inferncias ou predies, com certo grau de confiana, sobre o fenmeno estudado. A cincia da estatstica apresenta vrios mtodos com essa finalidade e a estatstica bayesiana vem nos ltimos anos ganhando fora em algumas reas, como no melhoramento gentico animal, sendo uma metodologia alternativa para a avaliao gentica de rebanhos comerciais. Este material um apanhado de vrios trabalhos da literatura e foi feito com o intuito de resumir a teoria Bayesiana, de maneira simples e prtica, e apresentar sua aplicao no melhoramento gentico de animais e plantas.

Adriano VenturieriChefe-Geral da Embrapa Amaznia Oriental

Sumrio

Uma Breve Introduo Estatstica BayesianaAplicada ao Melhoramento Gentico Animal .......................11

Introduo ...............................................................................11

Estatstica clssica x Estatstica bayesiana ..........................13

Probabilidade: o paradigma bayesiano ..................................18

Fundamentos da inferncia bayesiana ..................................22

Teorema de Bayes ...................................................................22

Informao a priori ..........................................................................27

Escolha da distribuio a priori ........................................................28

Tipos de distribuio a priori ...........................................................31

Priori prpria ............................................................................31

Priori no informativa ou vaga ...................................................32

Distribuies a priori usadas no melhoramento animal ........................33

Inferncia bayesiana ......................................................................34

Varivel Aleatria............................................................................34

Densidade de Probabilidade ............................................................36

Intervalo de credibilidade ................................................................37

Distribuio a posteriori ..................................................................38

Distribuies que compem a distribuio a posteriori ....................39

Distribuio de probabilidade conjunta .............................................39

Distribuio de probabilidade marginal .............................................39

Distribuio de probabilidade condicional .........................................40

Obteno do posteriori na estatstica bayesiana .............................40

Mtodo de Monte Carlo via cadeia de Markov (MCMC) ......................40

Algoritmo Metropolis-Hastings ........................................................44

Amostrador de Gibbs .....................................................................45

Diagnstico de convergncia ..........................................................47

Critrios de seleo do modelo e hiptesespara anlise estatstica ............................................................ 48

Fator de Bayes .............................................................................49

Princpios da estatstica bayesiana no modelo animal ..........52

Modelo animal ................................................................................52

Estimao dos componentes de varincia .......................................53

Estimao dos valores genticos e seleo .....................................54

Referncias ......................................................................................55

Uma Breve Introduo Estatstica Bayesiana Aplicada ao Melhoramento Gentico AnimalVivian Dagnesi TimpaniThialla Emille Costa do Nascimento

Introduo

Quando comecei a estudar a estatstica bayesiana em virtude da minha tese de doutorado, como zootecnista, senti uma falta muito grande de literatura que explicasse no o matematiqus do assunto, mas sim os princpios, definies e interpretaes que deveriam ser entendidos e usados. Quando me propuseram a realizar um curso sobre o assunto, pensei: por que no transformar toda aquela estatstica dos livros de estatstica bayesiana em um material que pudesse ser utilizado por profissionais da rea de Agrrias com simplicidade? Assim, coloquei-me na frente do meu computador e de uma montanha de livros e artigos para produzir este material, que um apanhado mais um resumo de vrios trabalhos, em que tentei traduzir a beleza e funcionalidade dessa teoria.

Foi ento que tive a oportunidade de ler um livro muito interessante, chamado Uma senhora toma ch..., que iniciava contando uma histria. Diz a histria que, numa tarde de vero na Inglaterra, um grupo de professores tomava ch (lembrem-se: os ingleses tomam ch com leite todas as tardes) e uma senhora afirmou que o ch servido sobre o leite tinha um gosto diferente do leite servido sobre o ch. Um homenzinho (porque ele era baixinho!), chamado Ronald Fischer (com certeza

12 Uma Breve Introduo Estatstica Bayesiana Aplicada ao Melhoramento Gentico Animal

vocs j ouviram falar nele), interessou-se pelo problema e tentou entende-lo, publicando, em 1953, o livro The design of experiments, que ajudou a revolucionar a experimentao em todos os campos da Cincia na primeira metade do sculo 20. Nesse livro, Fischer analisa a crena no problema proposto pela senhora do ch e considera as vrias possibilidades de planejar o experimento, desenvolvendo modelos estatsticos para obter um resultado que pudesse ser interpretado, confirmando ou no, a diferena no gosto da bebida (SALSBURG, 2009).

A importncia de Fischer para a experimentao agropecuria est no fato de ele ter sido o primeiro a mostrar (na forma de publicao) a aplicao da estatstica, de forma simples e resumida, por meio da anlise de varincia, influenciando os trabalhos cientficos realizados no sculo 20 (SALSBURG, 2009). Esse modo de pensar na estatstica fez com que Fischer considerado o criador dos mtodos modernos de anlise e experimentao desenvolvesse juntamente com Karl Pearson outro grande nome da estatstica, que estudou as distribuies de frequncia a teoria da correlao, o teste X2, dentre outras contribuies (MEMRIA, 2004).

Fischer tambm trabalhou com o conceito de probabilidade e, nesse assunto, encontrou alguns adversrios que desenvolveram o conceito de probabilidade inversa (ou, como chamamos na estatstica bayesiana, probabilidade a posteriori) com base nos estudos do Reverendo Thomas Bayes.

A metodologia bayesiana surgiu em consequncia da publicao An essay towards solving a problem in the doctrine of changes, atribuda ao Reverendo Thomas Bayes e comunicado Royal Statistical Society aps sua morte por Richard Price, em 1763 (BAYES, 1763), e posteriormente reproduzido na revista Biometrika.

13Uma Breve Introduo Estatstica Bayesiana Aplicada ao Melhoramento Gentico Animal

Segundo Blasco (2008), o uso da probabilidade a posteriori como mtodo de estimao mais eficiente que outros mtodos de inferncia estatstica, o que torna a estatstica bayesiana bastante interessante.

A estatstica bayesiana foi aplicada no melhoramento gentico animal pela primeira vez em 1986, por meio de um artigo publicado no Journal of animal science por Daniel Gianola e Rohan Fernando, no qual propuseram a utilizao da estatstica bayesiana no melhoramento gentico animal pelo fato de que as pressuposies do mtodo clssico (normalidade e no viesado) poderiam ser irrelevantes para a classificao dos animais submetidos seleo.

Estatstica clssica x Estatstica bayesiana

Depois da anlise dos dados, o propsito de qualquer estatstico fazer inferncias ou predies, com certo grau de confiana, sobre o fenmeno que se est estudando, a partir dos dados que representam a variabilidade ou a incerteza na observao da caracterstica ou fenmeno.

Inferncia significa operao intelectual por meio da qual se afirma a verdade de uma proposio em decorrncia de sua ligao com outras j reconhecidas como verdadeiras (DICIONRIO..., 2009).

Contudo, na Cincia Estatstica podemos encontrar diversas escolas, ou seja, diferentes maneiras de pensar sobre como analisar os fenmenos, com princpios e procedimentos prprios de cada metodologia (PAULINO et al., 2003).

Os procedimentos da estatstica bayesiana podem ser melhor compreendidos quando comparados sua principal concorrente, a estatstica clssica.


Na estatstica clssica, as inferncias sobre um fenmeno ou caracterstica que ocorre na populao estudada baseada na avaliao dos parmetros estimados de amostras retiradas dessa populao. Assim, ocorre uma generalizao dos parmetros da populao, a partir da estimao dos parmetros das amostras obtidas dessa populao. Nesse caso, a interpretao dos dados no depende apenas das amostras, mas tambm das hipteses adotadas sobre o fenmeno estudado (PAULINO et al., 2003).

Amostras so observaes, dentre as vrias possveis de serem obtidas na populao, por meio da repetio do experimento.

Populao o conjunto de todas as observaes possveis do fenmeno ou

caracterstica estudados.

Para Pearson, todos os valores que medimos de um determinado fenmeno so, na realidade, parte de uma disperso aleatria descrita por uma probabilidade de acontecerem, que ele chamou de funo de distribuio.

Parmetros so medidas usadas para descrever o fenmeno ou a caracterstica estudada.

Distribuio Normal ocorre quando a mdia a probabilidade de o fenmeno ocorrer, ou seja, so os valores de maior frequncia. Neste caso, a mdia o

centro da distribuio.

Segundo Salsburg (2009), cada funo de distribuio (que na maioria dos mtodos da estatstica clssica pressupe-se que seja Distribuio Normal) pode ser descrita por quatro parmetros:

Mdia: valor ou posio central a partir do qual as medies se dispersam. Desvio-padro: o quanto a maioria das medies se dispersam em torno

da mdia. Simetria: grau em que as medies se acumulam em apenas um dos lados

da mdia. Curtose: quanto as medidas extremas se afastam da mdia.


OBSERVAO

Nunca podemos determinar realmente esses parmetros; podemos apenas estim-los pelos dados.

As inferncias baseiam-se no nmero de estimativas que esto distribudas ao redor do valor parmetro e espera-se que o intervalo contenha, em certa proporo das amostras (repeties), o valor real do parmetro. Dessa forma, o resultado dado em probabilidade e a estimativa do parmetro em estudo uma distribuio de densidade probabilstica, em um determinado conjunto de dados (BLASCO, 2001).

Na metodologia bayesiana, o conceito de repetio no existe. A informao do parmetro estudado resumida pela maior probabilidade de o parmetro assumir um determinado valor ou pela probabilidade de o valor do parmetro estar dentro de certo intervalo (BLASCO, 2001; FARIA et al., 2007).

Para a estatstica clssica, o valor real do parmetro sempre fixo e as repeties ou amostras so aleatrias e a incerteza sobre o valor real do parmetro (erro) ignorada (BLASCO, 2001).

Para a estatstica bayesiana, a amostra (conjunto de dados) fixa e o parmetro aleatrio (BLASCO, 2001; FARIA et al., 2007). A inferncia bayesiana tem como caracterstica essencial o uso da probabilidade para quantificar as incertezas, ou seja, o grau de confiana que o pesquisador tem sobre o valor do parmetro (SAVIAN, 2008).

A estatstica clssica representada, atualmente, no processo de seleo das espcies animais de interesse zootcnico, pelo modelo misto. No entanto, essa metodologia tem apresentado algumas limitaes, tais como a necessidade de grande recurso computacional, a pressuposio da normalidade (nem todas as caractersticas avaliadas tm esse tipo de distribuio) e a construo de intervalos de confiana


corretos (NOGUEIRA et al., 2003). Outra limitao importante est no fato de que se obtm apenas alguns parmetros da distribuio dos dados, tais como mdia, mediana e moda, que podem ser irrelevantes para a estimao dos componentes de varincia e dos parmetros genticos (GIANOLA; FERNANDO, 1986).

Algumas dessas limitaes podem ser contornadas pela estatstica bayesiana:

Por tratar os parmetros como varivel aleatria, ela permite obter interva-los de confiana utilizando-se mtodos iterativos (mtodo de Monte Carlo), quando a distribuio das amostras impedir a construo dos intervalos de confiana (NOGUEIRA et al., 2003).

No contexto bayesiano, o conceito do vis, que produz estimativas vicia-das na estatstica clssica, no existe porque o conceito de repetio do experimento no aplicvel a essa metodologia (BLASCO, 2001).

Vis: erro que ocorre tendenciosamente no procedimento estatstico, conduzindo a uma concluso errnea sobre o fenmeno estudado.

A metodologia bayesiana requer um nmero menor de observaes, pois o uso de probabilidade na inferncia diminui a dependncia das estimativas dos parmetros em relao ao nmero de observaes utilizadas (SILVA, 2006).

A inferncia bayesiana tem a vantagem adicional de permitir a incorpora-o de informaes anteriores (a priori) adquiridas antes da obteno dos dados existentes sobre o parmetro estudado, enriquecendo o processo de inferncia (NOGUEIRA et al., 2003).


QUADRO COMPARATIVOEstatstica clssica x Estatstica bayesiana

1. A estatstica bayesiana utiliza o conhecimento prvio do pesquisador (informao a priori) adicionalmente aos dados na anlise estatstica. A informao a priori na estatstica clssica no usada porque considerada, na maioria dos casos, subjetiva. A estatstica clssica tem menos informaes disponveis para a anlise, j a estatstica bayesiana tem concluses mais fortes para o mesmo conjunto de dados analisado.

2. Na estatstica clssica, considerado que h apenas um valor para o parmetro estudado. Na estatstica bayesiana, considera-se a existncia de vrios valores possveis para o parmetro, originando assim uma distribuio de probabilidades desses valores para os dados estudados.

3. Na estatstica clssica, as inferncias so feitas com base na verossimilhana e tratam os parmetros como fixos e desconhecidos e os dados como aleatrios e conhecidos. Na estatstica bayesiana, as inferncias so provenientes da distribuio a posteriori (conhecimento prvio do pesquisador + dados do experimento) e os parmetros so aleatrios e desconhecidos; e os dados so fixos e conhecidos.

4. Ambas as escolas, clssica e bayesiana, utilizam a verossimilhana na realizao de suas inferncias. De um lado, a verossimilhana assume um papel central na inferncia bayesiana, como a funo que expressa toda a informao proveniente dos dados. Por outro lado, o mtodo da Mxima Verossimilhana ou ML (Maximum Likelihood) possui interessantes propriedades usadas pelos estatsticos clssicos.

5. No melhoramento gentico animal, as inferncias obtidas em ambas as escolas no so sempre coincidentes, particularmente para amostras pequenas e quando a anlise bayesiana utiliza informaes a priori muito informativas. Porm, quando o conjunto de dados suficientemente grande, os resultados

so bastante similares na maioria dos casos.

Fonte: Leandro (2001); Memria (2004).


Probabilidade: o paradigma bayesiano

Quando um pesquisador planeja um experimento, ele deve levar em considerao as informaes que existem nos dados utilizados e a presena de um elemento de incerteza ou erro (FERREIRA, 2005).

Paradigma: Termo com o qual Thomas Kuhn designou as realizaes cientficas que geram modelos que, por perodo mais ou menos longo e de modo mais ou menos explcito, orientam o desenvolvimento posterior das pesquisas exclusivamente na busca da soluo para os problemas por elas suscitados (DICIONRIO...,2009).

O conceito de probabilidade na estatstica bayesiana extremamente importante e est ligado ideia de grau de confiana (afinal o erro est interferindo na anlise) ou veracidade de uma hiptese testada (PAULINO et al., 2003).

Hiptese: Suposio que orienta uma investigao por antecipar caractersticas provveis do fenmeno estudado.

Sob o ponto de vista da estatstica clssica, a definio mais interessante sobre probabilidade diz que a Probabilidade de um dado evento a proporo de vezes que esse evento ocorre em um determinado perodo de tempo (SALSBURG, 2009). Em outras palavras, um evento (por exemplo, tirar 6 no lanamento de um dado) tem uma probabilidade x ligada ao nmero de vezes que o evento (nmero 6) aparece numa sequncia de lanamentos seguidos do dado.

O conceito de probabilidade de um fenmeno obtido realizando um experimento n vezes e anotando o nmero de vezes (r) que o fenmeno de interesse ocorre (FERREIRA, 2005).


P(A) = r/nOnde:r o resultado obtido da ocorrncia do evento estudado.n o nmero de repeties realizadas no experimento.

Do ponto de vista bayesiano, todos os parmetros estudados em um fenmeno so desconhecidos e incertos e essa incerteza deve ser quantificada em termos de probabilidade (PAULINO et al., 2003; SORENSEN; GIANOLA, 2002).

Assim, a probabilidade representa o grau de crena (no caso, a opinio do pesquisador) condicionado informao existente sobre o fenmeno estudado. uma medida subjetiva e pode variar de pesquisador para pesquisador, pois a experincia e a fonte dessa informao que cada um possui so diferenciadas.

OBSERVAO

Essa informao prvia que o pesquisador possui sobre o fenmeno na estatstica bayesiana chamada de informao a priori.

Para os estatsticos bayesianos, cada problema estudado nico, com caractersticas e valores para os parmetros estimados exclusivos. Com isso, o grau de conhecimento varia de problema para problema (mesmo que o objetivo de cada problema seja o mesmo, como por exemplo, estimar herdabilidade para peso a desmame na raa Nelore).

Assim, a informao a priori possui uma variabilidade que s pode ser interpretada em termos de distribuio de probabilidade, chamada de distribuio a priori (PAULINO et al., 2003).

No entanto, essa informao a priori est condicionada a certas condies experimentais de onde ela foi obtida. Segundo Salsburg (2009), a informao a priori pode ser explicada por meio da seguinte analogia:


...No sculo 18, a cidade de Veneza era governada por um grupo de fa-

mlias nobres que tinha como chefe de estado um membro de uma des-

tas famlias doge que era escolhido por eleio. Nesta eleio,

inicialmente, um pequeno grupo de membros das famlias reinantes era

escolhido como eleitor. Esta escolha era feita atravs de um sorteio,

onde, apenas, nove membros (dos 30 que compunham o grupo) seriam

aceitos como eleitor e assim poderiam votar. Eram usadas 30 bolas de

cera, com e sem uma tira de papel escrito eleitor dentro. Cada membro

do grupo de candidatos a eleitor tirava (um por vez) uma bola.

Antes que o primeiro candidato tirasse a sua bola, a chance (probabili-

dade) de cada membro do grupo ser eleitor era de 9/30. Se a primeira

bola estivesse com o papel em branco, cada um dos remanescentes

tinha a probabilidade 9/29 de ser eleitor. Porm, se a primeira bola es-

tivesse com a tira de papel escrita, cada um dos remanescentes tinha

a probabilidade 8/29 de ser eleitor. A cada bola tirada, a chance de o

prximo membro ser eleito, diminua ou aumentava, dependendo do

resultado obtido anteriormente.

Esse um exemplo de probabilidade condicionada aos eventos, ou como chamamos na estatstica, probabilidade condicional. Assim, a probabilidade de cada membro se tornar eleitor dependia das bolas que tivessem sido sorteadas antes.

A probabilidade condicional a probabilidade de ocorrer o evento B (depois), tendo ocorrido o evento A (antes).

O aspecto importante da probabilidade condicional que a probabilidade do evento A diferente para condies anteriores diferentes, ou seja, a probabilidade do evento A est condicionada aos eventos que ocorreram antes do evento que est sendo examinado.

Esta era a ideia que reinava entre os estatsticos clssicos do sculo 18 sobre como trabalhar com a probabilidade (SALSBURG, 2009).


OBSERVAO

A ideia da probabilidade condicional est baseada no fato de que um evento pode assumir diferentes valores e todos eles estarem corretos (FERREIRA, 2005).

Assim, a probabilidade condicional representa, em termos probabilsticos, a possibilidade de os eventos serem observados quando se impem condies para que o experimento ou as anlises sejam realizadas (SORENSEN; GIANOLA, 2002).

Porm, na ltima dcada do sculo 18, o Reverendo Thomas Bayes descobriu que poderamos calcular a probabilidade do evento B (antes) condicionada probabilidade do evento A (depois). Bayes inverteu o conceito de probabilidade e essa teoria foi chamada de probabilidade inversa.

Um exemplo para ajudar a entender a ideia de Bayes:

Probabilidade clssica: Qual a probabilidade de um fumante ter cncer no pulmo?

DO ANTES PARA O DEPOISDA CAUSA PARA O EFEITO

Probabilidade de Bayes: Qual a probabilidade de um paciente com cncer no pulmo ser fumante?

DO DEPOIS PARA O ANTESDO EFEITO PARA A CAUSA


Fundamentos da inferncia bayesiana

Teorema de Bayes

Com base na probabilidade condicional, a inferncia bayesiana utiliza o Teorema de Bayes como uma ferramenta de atualizao da opinio do pesquisador (SILVA, 2006) por meio da aprendizagem com a experincia. Em outras palavras, o conhecimento inicial sobre o parmetro estudado modificado depois que o experimento foi realizado (PAULINO et al., 2003; SAVIAN, 2008).

Em termos de probabilidade, esse teorema mostra como essas probabilidades mudam quando novos conhecimentos so usados na anlise, pois essa informao est disponvel antes e separadamente dos dados obtidos pelo experimento (LEANDRO, 2001).

onde: B1 o evento estudado no experimento.A o conjunto de repeties realizadas no experimento.Bj so todos os eventos possveis de ocorrer no experimento.

Porm, esse teorema mais comumente representado pela expresso:

onde: p(|x) a distribuio a posteriori.p() a distribuio a priori do parmetro.p(x|) a funo de verossimilhana obtida pelos dados (condicional).


Ou seja, o Teorema de Bayes pode ser interpretado como:

A probabilidade a posteriori condicionada probabilidade a priori multiplicada pela verossimilhana.

Nesse teorema, h duas fontes de informaes disponveis, que so combinadas para obter como resultado a distribuio a posteriori [p(|x)] de onde sero realizadas as inferncias do parmetro estudado. A primeira a distribuio a priori [p()] do parmetro, que expressa o conhecimento prvio do pesquisador, em termos probabilsticos. A segunda a funo de verossimilhana [p(x|)], que se refere aos dados amostrais obtidos no experimento (PAULINO et al., 2003; SAVIAN, 2008; SILVA, 2006).

Como x representa a distribuio dos dados, ele no uma funo ligada ao parmetro , ento a probabilidade a posteriori [p(|x)] proporcional ao produto distribuio a priori [p()] multiplicado pela funo de verossimilhana [p(x|)] (POLICARPO, 2001).

No Teorema de Bayes, a probabilidade a priori baseada nas informaes disponveis separadamente do experimento. Representa o conhecimento do fenmeno antes de os dados serem observados. A verossimilhana deduzida dos dados e expressa todo o conhecimento do fenmeno contido nestes dados (LEANDRO, 2001).

Exemplo:

Existe um tipo de rato de laboratrio, cuja cor da pele controlada por um nico gene com dois alelos 'A' e 'a', de modo que, quando o rato tem duas cpias do alelo recessivo (aa) a sua pelagem marrom e, nos outros casos, a pelagem preta (AA e Aa).

Se considerarmos uma situao em que um rato preto, filho de dois ratos pretos heterozigotos (Aa), acasalado com um rato marrom (aa) e que deste cruzamento nasam sete ratos pretos (A_), pergunta-se:


Qual a probabilidade a posteriori de esse rato preto ser homozigoto (AA)?

Neste caso, aps todos os cruzamentos possveis entre o rato preto avaliado e outro marrom, a descendncia e as probabilidades de cada gentipo ocorrer so apresentadas na Tabela 1.

Figura 1. Esquema de cruzamento utilizado no exemplo.Fonte: Blasco (2008).

Tabela 1. Probabilidades a priori da descendncia obtidas nos possveis cruzamentos entre um rato preto e outro marrom.

Cruzamento Preto (AA) Preto (Aa) Marrom (aa)AA x aa 0 1 0

Aa x aa 0 1/2 1/2

Aa x Aa 1/4 1/2 1/4

Fonte: Leandro (2001).


Qual o impacto da informao a priori sobre o resultado deste experimento?

Isso importante, pois as circunstncias em que se realizam os experimentos so diferentes, mesmo que o objetivo seja o mesmo. Dificilmente um pesquisador consegue repetir, no mesmo grau e intensidade, todos os efeitos que influenciam o evento estudado, principalmente no caso do melhoramento animal.

Os efeitos includos no modelo mudam, as condies de ambiente mudam, a balana de pesagem muda, a pessoa que coleta os dados muda, o animal fica doente, falta rao em um determinado dia e tudo isso influencia de maneira significativa na coleta das observaes. Assim, as prioris devem ser avaliadas sempre, a cada experimento realizado.


ENTENDENDO O TEOREMA DE BAYES parmetro estudado: gentipo do rato preto.

Probabilidade a priori de :

Se = 0 P(AA) = 1/3

Se = 1 P(Aa) = 2/3

Existem duas situaes para essa prognie, dependendo do gentipo do rato preto testado, e devemos calcular a probabilidade conjunta (Ver tabela 1 valores grifados e em negrito):

Pelo Teorema de Bayes:

Juntando a informao da priori com a informao obtida no cruzamento--teste, teremos:

0 se o gentipo do rato preto for AA.

1 se o gentipo do rato preto for Aa.

P(y=3 black) = P(y=3 black | AA). P(AA)+P(y=3 black | Aa). P(Aa)=

= 1.1/3+(1/2)3.2/3=0.42

P(AA|y=3 black) = = = P(y=3 black|AA). P(AA) 1x0.33

P(y=3 black) 0.420.80

P(Aa|y=3 black)= = = 1-P(AA|y=3 black) 1-0.80 0.20

prior P(AA)=0.33

prior P(Aa)=0.67

prior P(AA|y)=0.80

prior P(Aa|y)=0.20

P(y=3 pretos)=1

P(AA)=1/3=0,33

P(y=3 pretos)=1

P(Aa)=2/3=0,77

Fonte: Blasco (2008); Leandro (2001).


Com esse exemplo, observa-se que houve uma modificao nas probabilidades iniciais estabelecidas pela teoria gentica, ou seja, houve uma atualizao dos valores do parmetro estudado quando se adicionou os dados em conjunto com o conhecimento prvio.

Observa-se tambm que a funo de verossimilhana desempenha um papel importante no teorema: por meio dela que o conhecimento modificado. Ela a representao das informaes que os dados tm a contar sobre o parmetro estudado (LEANDRO, 2001) e a distribuio a posteriori so os valores dos parmetros atualizados aps a realizao do experimento.

Informao a priori

A informao a priori (expressa em termos de distribuio de probabilidade) a informao sobre os parmetros estudados obtidos ou existentes antes da realizao do experimento e serve, na estatstica bayesiana, para expressar tanto conhecimento como ignorncia sobre esses parmetros (LEANDRO, 2001).

Quando um fenmeno estudado, vrias hipteses sobre os valores dos parmetros podem ser formuladas pelo pesquisador. A informao a priori a hiptese que o pesquisador fixa como sendo o valor verdadeiro do parmetro estudado. Essa priori pode ser extrada de fundamentos subjetivos, consideraes particulares ou informaes anteriores disponveis na literatura. Em outras palavras, a informao a priori pode ser interpretada como o grau de convico sobre o valor do parmetro estudado, antes do experimento ou observao dos dados, e esse conhecimento pode ser formalmente incorporado na anlise (SORENSEN; GIANOLA, 2002).

O uso desse tipo de informao traz tona uma questo que todo pesquisador deve fazer antes de iniciar suas anlises.


Escolha da distribuio a priori

Sob o paradigma Bayesiano, o resultado de qualquer anlise estatstica combina a informao fornecida pelos dados com a informao a priori (DIAS; TOMAZELLI, 2011). Dependendo do problema estudado, h uma quantidade significativa de evidncias objetivas na qual se pode basear a escolha da distribuio a priori utilizada.

Com muita informao disponvel (vinda de fontes objetivas e confiveis), o pesquisador pode assumir certa distribuio a priori consistente, que poder contribuir com o resultado (afinal para isso que a distribuio a priori serve) e essa distribuio deve representar, probabilisticamente, o conhecimento que se tem sobre os parmetros antes da realizao do experimento.

Figura 2. Diferentes prioris para herdabilidade da taxa de ovulao em sunos da raa Landrace, mostrando as curvas de densidade da probabilidade para cada uma delas.Fonte: Blasco (2008).


As curvas 1 e 2 so assimtricas, pois a herdabilidade para essa caracterstica baixa. A curva 3 uma priori que no possui uma informao relevante sobre a herdabilidade de taxa de ovulao em sunos.

Quando a informao da distribuio a priori precisa, no h problemas para utilizao da estatstica bayesiana. Porm, a escolha da priori fica mais difcil e interessante em problemas nos quais no existe uma base terica slida, ou seja, ligada ao conhecimento oriundo de fontes confiveis. Nessa situao, a priori utilizada resultado nico baseado no conhecimento subjetivo do pesquisador, que transmite seu sentimento ou opinio em relao ao valor do parmetro estudado (BLASCO, 2008; LEANDRO, 2001).

Nesse caso, o princpio da coerncia tem que prevalecer.

No entanto, mesmo que o pesquisador esteja satisfeito com a sua escolha, pode ser que a sua expectativa em relao distribuio a posteriori seja frustrada em virtude do resultado encontrado para o parmetro.

Portanto, escolher a priori um passo importante na anlise bayesiana.

Outro ponto que deve ser avaliado a quantidade de informao que os dados utilizados podem trazer. A contribuio da priori relativamente mais importante quando a quantidade de dados escassa em comparao com quando abundante, pois, em arquivos de dados grandes, a informao da verossimilhana domina o resultado obtido em relao priori (ASSIS, 2002).

A questo primordial na escolha da priori est ligada ao fato de como obter e quantificar essa informao, de natureza essencialmente subjetiva, de modo a transform-la em uma informao que possa ser utilizada (PAULINO et al., 2003).


OBSERVAO

Como a distribuio a priori influencia no resultado ou distribuio a posteriori: ver exemplo do fumante no item Probabilidade: o paradigma bayesiano.

Existem alguns mtodos para se fazer essa transformao:

a) Mtodo estrutural

Nesse mtodo, a escolha da priori baseada em questes relacionadas diretamente ao parmetro estudado. Em outras palavras, uma pesquisa que se realiza sobre o parmetro estudado. Essas questes sero usadas para que se determine qual a distribuio que o parmetro possui com base nos conhecimentos do pesquisador ou especialista.

Trs princpios devem ser considerados nesse mtodo:

1. Fazer as perguntas para que sejam entendidas pelo pesquisador numa linguagem simples e familiar (termos tcnicos).

2. Identificar os principais efeitos que influenciam o problema estudado.3. Combinar as informaes recebidas pelo questionrio.

b) Mtodo do histograma

Esse mtodo um processo iterativo no qual o pesquisador monta intervalos dos possveis valores que o parmetro possa ter e avalia (para cada intervalo) a probabilidade de esses valores ocorrerem. Com base nessa informao, o pesquisador monta um histograma (grfico de barras) para estimar a densidade da probabilidade.

Processo iterativo: a repetio do processo de estimao do parmetro at o valor estimado convergir para um valor prximo ao valor real.


Figura 3. Histograma com os intervalos para os possveis valores do estudado.Fonte: Blasco (2008).

c) Mtodo da verossimilhana

Esse mtodo utiliza as verossimilhanas de possveis valores dos parmetros estudados e constri, por meio de uma anlise de regresso, uma funo que passa por todos esses pontos. Essa funo , ento, usada como priori.

Tipos de distribuio a priori

Priori prpria

Nela h informao substancial sobre o parmetro estudado, pois refere informao contida em dados anteriores que so relevantes para o problema presente e que foi obtida de maneira cientfica ou resultante de consideraes tericas ou de opinio pessoal. Por exemplo, estimativas de herdabilidade de outros trabalhos podem ser, nesse caso, utilizadas na avaliao gentica dos animais do seu trabalho (ASSIS, 2002; PAULINO et al., 2003).


Para que uma priori seja considerada como prpria, a equao abaixo deve ser sempre igual a 1.

Dessa forma, a distribuio a posteriori (o resultado) vai ser uma distribuio de densidade de probabilidade na qual o valor do parmetro pode ser estimado e a inferncia realizada.

Quando a equao da densidade de probabilidade no for igual a 1, a distribuio a posteriori no ser uma distribuio de densidade de probabilidade e no poder realizar as inferncias. A esse tipo de priori damos o nome de priori imprpria.

A priori imprpria no uma distribuio mas sim apenas um valor e assim no deve ser usada em uma anlise bayesiana.

Priori no informativa ou vaga

Esse tipo de priori no d nenhuma informao adicional (em relao ao conjunto de dados utilizado) sobre a distribuio do parmetro estudado. Isto ocorre quando no se consegue extrair o conhecimento que essa priori oferece ou essa informao pouco expressiva em relao s informaes contidas nos dados (PAULINO et al., 2003). Assim, esse tipo de priori traz um conhecimento vago ou no informativo e a utilizao dessa priori pode se tornar um problema bastante complexo na anlise.

RESUMINDO

Priori no informativa = informao a priori insuficiente.

A primeira ideia de "no informao'' est ligada ao fato de que todos os valores possveis do parmetro possuem a mesma probabilidade de ocorrer e esta priori ser representada (Figura 4) por uma distribuio uniforme (BLASCO, 2008; EHLERS, 2003; SORENSEN; GIANOLA, 2002).


Figura 4. Esquema grfico da curva de densidade de probabilidade de uma priori no informativa ou vaga.Fonte: Blasco (2008).

No entanto, esse tipo de priori pode ser utilizada como ponto de referncia na anlise. A priori de referncia definida como uma funo matemtica que descreve a situao em que os dados tm maior influncia no resultado e na inferncia do que a informao a priori. O mtodo mais utilizado, nesse caso, a regra de Jeffreys (PAULINO et al., 2003).

Distribuies a priori usadas no melhoramento animal

Considere um modelo linear misto:

y=Xb+Zu+e

Onde:y - o vetor de observaes. X e Zi - so as matrizes de incidncias dos efeitos fixos e aleatrios, respectivamente. b - o vetor dos efeitos fixos desconhecidos. ui - o vetor efeitos aleatrios. e - o vetor aleatrio residual.


As probabilidades a priori de todos os efeitos do modelo e dos componentes de varincia devem ser estabelecidas pelo melhorista. Usualmente, para a varivel fixa X e o vetor b, assume-se uma distribuio uniforme, que indica ausncia de conhecimento sobre esse vetor (CARNEIRO JUNIOR, 2001; POLICARPO, 2001).

Para os efeitos aleatrios, normalmente assume-se uma distribuio normal, mas para os componentes de varincia u2 e e2, que so variveis aleatrias tambm, usualmente, a distribuio utilizada a Qui-quadrado invertida (CARNEIRO JUNIOR, 2001). Para o vetor de valores genticos aditivos, a, de acordo com a teoria da gentica quantitativa, assume-se a distribuio normal com mdia zero e varincia A2a, em que A a matriz de parentesco (POLICARPO, 2001).

No modelo animal, a distribuio da funo de verossimilhana uma distribuio normal com mdia Xb + Za e varincia I2e. A distribuio a priori de tem que levar em conta a distribuio a priori dos seus diferentes componentes (b, a, 2a, 2e) (POLICARPO, 2001).

Inferncia bayesiana

Varivel aleatria

Define-se varivel aleatria como um nmero real xi associado ao evento Ei e esse nmero est ligado s caractersticas que descrevem o parmetro estudado (YORIYAZ, 2010).

a. Varivel aleatria discreta: contm um nmero definido e exato de pontos amostrais. So observaes contadas. Ex: sexo do animal (macho ou fmea), diagnstico positivo de prenhes em bovinos (sim ou no).

b. Varivel aleatria contnua: os pontos amostrais so contnuos, podendo assumir qualquer valor. So observaes medidas. Ex: produo de leite, peso ao desmame, peso da carcaa.


medida que as iteraes ocorrem, a varivel aleatria assume valores definidos que vo ser futuramente utilizados na inferncia por meio da descrio de suas probabilidades. Esses valores definidos devem estar dentro de um determinado limite (entre x1 e x2) e o valor real do parmetro estudado deve estar nesse intervalo (YORIYAZ, 2010).

Exemplo:

EXPERIMENTO

Uma vaca ter 2 diagnsticos positivos de prenhez consecutivos

S = sim

N = no

Evento

0 1 2

SS

SN

NS

NN

Assim, teremos para cada evento as seguintes probabilidades:

P(X=0)=P(NN)=25%

P(X=1)=P(SN NS)=50%P(X=2)=P(SS)=25%


Densidade de Probabilidade

Na estatstica, a distribuio de densidade de probabilidade uma funo utilizada para representar a distribuio de probabilidade de uma varivel aleatria contnua. Utiliza o clculo de integral como ferramenta.

Ao fazer inferncias sobre variveis contnuas, existe um nmero bastante grande de possveis valores que o parmetro estudado pode ter. No entanto, cada valor tem uma probabilidade de ocorrer e assim (para facilitar a inferncia) utiliza-se uma funo, chamada de Funo Densidade de Probabilidade, como auxlio na avaliao dos resultados.

Essa funo, depois de calculada a sua integral, mostra qual valor possui a maior probabilidade de ocorrer (em forma de grfico) dentre todos os valores possveis que o parmetro pode apresentar. Em outras palavras, a probabilidade de um determinado valor do parmetro estar entre dois valores A e B (BLASCO, 2008).

OBSERVAO

Somente sero utilizadas na inferncia as probabilidades relacionadas aos valores do parmetro que esto dentro do intervalo.


Figura 5. Grfico representando uma funo de densidade de probabilidade.Fonte: Blasco (2008).

Figura 6. Grfico representando o intervalo de credibilidade.Fonte: Blasco (2008).

Intervalo de credibilidade

O intervalo de credibilidade entre os pontos a e b (chamado pelos estatsticos clssicos de intervalo de confiana) contm o verdadeiro valor do parmetro, com uma probabilidade de 95% e que so facilmente construdos pelos mtodos iterativos usados na estatstica bayesiana (BLASCO, 2008).


Distribuio a posteriori

Do ponto de vista bayesiano, fazer a inferncia da anlise utilizar a distribuio a posteriori. Na abordagem bayesiana, a forma de estudar os parmetros consiste em esboar o grfico da distribuio a posteriori que mostra o intervalo no qual o valor real do parmetro est e calcula as caractersticas dessa distribuio (mdia, varincia, moda, etc.), obtendo assim toda a informao desse parmetro (LEANDRO, 2001).

Inferncia a passagem da hiptese para a concluso.

A distribuio a posteriori a descrio completa e a atualizao do conhecimento sobre o parmetro obtido a partir da informao a priori e da informao dos dados (PAULINO et al., 2003). Ou seja, o pesquisador observa os dados aps o experimento e esses dados so usados para modificar as probabilidades anteriores dos valores do parmetro, produzindo um conjunto de probabilidades posteriores ao experimento (SALSBURG, 2009).

PROBABILIDADE ANTERIOR DADOS PROBABILIDADE POSTERIOR

Na prtica, faz-se o resumo da informao sobre o parmetro (que agora est atualizada) de modo que os aspectos interessantes (em termos de probabilidade) desse parmetro possam ser observados (PAULINO et al., 2003).

A distribuio a posteriori apresenta a localizao, disperso e distribuio dos possveis valores do parmetro.

Na estimao da distribuio a posteriori, pode-se adotar dois critrios para realizar as inferncias, que tambm podem ser usados conjuntamente: a probabilidade da posteriori propriamente dita e o Fator de Bayes (LEANDRO, 2001; PAULINO et al., 2003).


Distribuies que compem a distribuio a posteriori

Distribuio de probabilidade conjunta

H situaes em que precisamos avaliar dois parmetros simultaneamente, no caso do melhoramento gentico, por exemplo, e as probabilidades associadas aos valores possveis para cada parmetro so desconhecidas (separadamente). Portanto, possvel representar a probabilidade para a ocorrncia dos dois eventos pela distribuio de probabilidade conjunta f(x,y) e realizar as inferncias em conjunto para as duas caractersticas estudadas.

Distribuio de probabilidade marginal

Na estatstica bayesiana, as inferncias sobre os parmetros avaliados da caracterstica (por exemplo, produo de leite) so feitas por meio da distribuio a posteriori, que contm toda a informao dos parmetros envolvidos na expresso dessa caracterstica (por exemplo, a herdabilidade pode ser dividida em vrios componentes: varincia aditiva, varincia do efeito materno, etc.).

Porm, s vezes, faz-se necessrio estudar apenas um desses parmetros x (no exemplo anterior, varincia aditiva). Ento, para obter as informaes desse efeito particular, deve-se integrar a distribuio a posteriori obtida como resultado em relao a todos os outros efeitos que afetam a caracterstica avaliada.

Assim, a partir da distribuio conjunta de todos os efeitos ou parmetros estudados que compem a caracterstica, podemos obter a distribuio de densidade de probabilidade marginal de x e interpretar o efeito de interesse isoladamente dos outros efeitos, como por exemplo, estudar o efeito da varincia aditiva includa no valor gentico obtido para produo de leite (BLASCO, 2011; PETERNELLI, 2011).


Distribuio de probabilidade condicional

A distribuio condicional dos dados assim chamada porque a probabilidade de um dado valor do parmetro ocorrer est condicionada aos valores da mdia e da varincia obtidos pelos dados estudados.

Condicionada: dependente de uma condio imposta.

Assim, para cada valor diferente de mdia e varincia, a distribuio observada, como resultado, muda e consequentemente a inferncia realizada tambm (BLASCO, 2008).

Obteno do posteriori na estatstica bayesiana

Mtodo de Monte Carlo via cadeia de Markov (MCMC)

O propsito deste item apresentar alguns elementos sobre a teoria do mtodo Monte Carlo via cadeia de Markov (MCMC) para que o leitor possa entender os mecanismos utilizados na obteno das distribuies a posteriori pela estatstica bayesiana.

A distribuio a posteriori do parmetro estudado contm todas as informaes necessrias para se fazer as inferncias a respeito desse parmetro. A partir dessas informaes, possvel integrar a distribuio a posteriori [p(/x)] para esboar o grfico dessa distribuio por meio dos valores numricos que resumem a informao contida nos dados. Infelizmente, esse procedimento, na maioria dos casos, muito difcil de ser feito, inviabilizando a aplicao da estatstica bayesiana (POLICARPO, 2001).

Ento, como resolver este problema?

A soluo foi utilizar mtodos de inferncia baseados na simulao iterativa. No caso da inferncia bayesiana, o Mtodo de Monte Carlo via cadeia de Markov (MCMC) (LEANDRO, 2001; PAULINO et al., 2003).


Simulao refere-se a qualquer mtodo cuja inteno imitar algum mtodo de anlise estatstico sem a necessidade de clculos complexos, como por exemplo, a integrao.

Esse mtodo j era conhecido h sculos pelos estatsticos, mas comeou a ser utilizado efetivamente somente nas ltimas dcadas do sculo 20. O nome Monte Carlo (capital de Mnaco conhecida como a cidade mundial dos jogos de azar) foi inspirado no interesse do pesquisador Nicholas Metropolis, que desenvolveu os algoritmos para implementao desse mtodo estatstico baseado nas observaes dos jogos de azar de Stanislaw Ulam (YORIYAZ, 2010).

Atualmente o mtodo de Monte Carlo utilizado como ferramenta no auxlio pesquisa nos mais variados campos, por exemplo, o desenho de reator nuclear, cromo dinmica quntica, terapia de cncer por radiao, fluxo de trfego, evoluo estelar, agropecuria e econometria.

A simulao de Monte Carlo realizada por meio da amostragem aleatria das densidades de probabilidades a posteriori conjuntas ou marginais e, ento, a mdia, o desvio-padro e os intervalos de confiana podem ser estimados diretamente dessas amostras, sem que seja necessria a resoluo de integrais (ASSIS, 2002).

Os nmeros podem ser obtidos por meio de algum processo aleatrio (tabelas, roletas, etc.) ou diretamente do computador, por meio de funes ou algoritmos especficos, como os utilizados na bayesiana (Amostrador de Gibbs e Metropolis-Hasting).

Os modelos de simulao (ou amostragem) so utilizados para analisar uma deciso envolvendo risco, ou seja, um modelo que verifica o comportamento de um ou mais efeitos estudados que no so conhecidos com certeza. Nesse caso, esses efeitos so conhecidos como varivel aleatria e o seu comportamento so descritos por uma distribuio de probabilidade.


Nesse mtodo, o valor estimado uma mdia dos valores obtidos em todas as iteraes realizadas e no se pode afirmar que este seja o valor exato do parmetro.

Iterao: tornar a fazer, repetio.

Essa diferena entre os valores estimado e real chamada de erro de Monte Carlo. A confiabilidade da estimativa do parmetro estudado ser maior quanto menor for o erro e ser tanto melhor quanto maior for o nmero de amostras utilizadas na estimao (ROSA, 1998; SAVIAN, 2008; TIMPANI, 2011).

O mtodo da Cadeia de Markov um processo em que a probabilidade de certo valor no tempo futuro depende do valor do parmetro na iterao atual, mas no dos valores estimados em iteraes anteriores. Esses valores gerados pela cadeia de Markov so considerados amostras aleatrias da distribuio de probabilidade do parmetro estudado (SILVA, 2006; TIMPANI, 2011).

A ao conjunta dos dois mtodos chamada de mtodo Monte Carlo via Cadeia de Markov (MCMC), usado, frequentemente, na estimao de parmetros genticos, por meio da estatstica bayesiana no melhoramento gentico animal (SILVA, 2006; TIMPANI, 2011).

O Mtodo MCMC , portanto, um modelo de simulao que utiliza a gerao de uma sequncia (Cadeia de Markov) de nmeros aleatrios (amostras) para atribuir valores aos parmetros que se deseja investigar.

A ideia dos processos iterativos, como o Monte Carlo, gerar valores de varivel aleatria x, em que, a cada passagem (iterao), milhares de valores vo sendo gerados para o parmetro, criando uma distribuio para esse parmetro, at chegar a uma distribuio bastante prxima da original, ou seja, quando ocorre uma convergncia. Ao gerar uma sequncia com muitos valores simulados, os valores podero ser


usados para interpretar as caractersticas da distribuio a posteriori obtida no experimento (LEANDRO, 2001; POLICARPO, 2001).

O processo pode ser pensado como um sistema que se move aleatoriamente por meio de estados, sem ter lembrana de onde ele esteve anteriormente. Em outras palavras, a cadeia gerada vai gradualmente esquecendo o valor inicial que foi dado pelo pesquisador (LEANDRO, 2001).

Para que ocorra esse movimento da cadeia so necessrios dois instrumentos de trabalho: a probabilidade de transio e a distribuio de probabilidade inicial.

Probabilidade de transio a probabilidade de um valor gerado pela cadeia ser aceito ou rejeitado pelo sistema. Assim, a transio do estado x para o estado y ocorre de acordo com a probabilidade p(x, y).

A distribuio de probabilidade inicial pode ser resumida no valor inicial do parmetro estudado.

O valor gerado na iterao s depende do valor da iterao anterior (LEANDRO, 2001). Assim, o valor gerado para o parmetro em uma iterao s relevante para gerar o valor da iterao seguinte, sendo, portanto, irrelevante na predio dos valores futuros (ASSIS, 2002).

Isto gera um problema de ordem prtica: os valores consecutivos so altamente correlacionados, interferindo nas estimativas dos parmetros estudados (CARNEIRO JUNIOR, 2001; TIMPANI, 2011). Dessa forma, se o primeiro valor for utilizado como resultado, necessrio que ocorra o intervalo amostral (thining interval), no qual alguns valores aps o valor utilizado so descartados para no prejudicar os resultados.

Essa simulao iterativa menos eficiente que o calculo direto, mas aplicvel em praticamente todos os casos e desempenha um papel extremamente marcante na inferncia bayesiana. Sua principal falha


est ligada convergncia, para a qual at o presente momento no foram ainda desenvolvidos mtodos eficientes para determin-la (LEANDRO, 2001).

Os principais componentes na simulao por MCMC so as densidade de probabilidade e os nmeros aleatrios gerados na simulao, enquanto o processo de simulao feito por meio de tcnicas de amostragem.

Uma grande vantagem dos mtodos de simulao que, aps uma amostra de valores aleatrios ser gerada, pode-se facilmente calcular caractersticas das distribuies marginais e condicionais e, a partir delas, a distribuio a posteriori dos parmetros estudados (como por exemplo, os valores das varincias gentica, ambiental e residual para a caracterstica ganho de peso em codornas de corte).

Algoritmo Metropolis-Hastings

Nesse algoritmo, a cada iterao realizada no processo, escolhido um valor inicial (um ponto candidato y) para os parmetros da distribuio a posteriori (LEANDRO, 2001).

Se esse ponto candidato for aceito pelo sistema como sendo o valor aproximado do parmetro estudado, o processo de simulao continua ocorrendo at a convergncia. Caso contrrio, o processo para e um novo valor inicial deve ser utilizado (LEANDRO, 2001).

Para que o sistema identifique e aceite o valor gerado, no algoritmo Metropolis-Hastings, obtm-se para cada valor dado a probabilidade de transio para o prximo estado (CARNEIRO JUNIOR, 2001). Um sistema exerce estado de transio (e isso ocorre com certa probabilidade), quando ocorre a troca do valor do parmetro de uma iterao (ou estado) para outro valor, na iterao seguinte.


Amostrador de Gibbs

O Amostrador de Gibbs um algoritmo do tipo Metropolis-Hastings, da famlia do mtodo Monte Carlo da Cadeia de Markov (POLICARPO, 2001) e o mais utilizado no melhoramento gentico animal.

O Amostrador de Gibbs um procedimento que obtm amostras da distribuio conjunta ou marginal de todos os parmetros estudados (por exemplo, os componentes de varincia que descrevem uma caracterstica) por meio de repetidas amostragens, formando uma Cadeia de Markov. Essa cadeia corresponde a uma sequncia de amostras de possveis valores atribudos aos parmetros estudados (POLICARPO, 2001).

medida que o nmero de iteraes aumenta, a sequncia de valores gerados (cadeia) aproxima-se da distribuio de equilbrio, ou seja, da densidade marginal e, quando esse equilbrio atingido, diz-se que ocorreu a convergncia (SAVIAN, 2008; SILVA, 2006; TIMPANI, 2011).

Para iniciar o processo de amostragem, um valor inicial de Y0 assumido e os demais valores da cadeia so gerados de forma iterativa a partir das distribuies condicionais dos parmetros (POLICARPO, 2001).

Assim, a ideia desse algoritmo gerar uma cadeia nica e longa a partir de um estado inicial [(0)=(1

(0),..... k(0))] e com comprimento m=l+kn,

em que m o nmero de iteraes; l o nmero inicial de iteraes necessrias para que a cadeia atinja a convergncia; n o nmero de iteraes que vo ser utilizadas na aplicao do MCMC e k o intervalo amostral utilizado para eliminar a correlao entre as iteraes sucessivas (SAVIAN, 2008; TIMPANI, 2011).

No processo de amostragem de Gibbs, o nmero de total de iteraes que a anlise deve realizar determinado pelo nmero de iteraes necessrias para a convergncia, para o descarte inicial (burn-in) e o intervalo amostral (thining interval) (TIMPANI, 2011).


A convergncia da cadeia para a distribuio de equilbrio no ocorre imediatamente aps o incio do processo iterativo e normalmente as primeiras amostras (valores) geradas pelo Amostrador so muito correlacionadas com os valores dados inicialmente pela distribuio a priori utilizada. Ento, as amostras iniciais devem ser descartadas na estimao final dos parmetros. O tamanho desse perodo de descarte inicial ou burn-in frequentemente determinado pela inspeo visual de grfico dos valores gerados ao longo de cada iterao (POLICARPO, 2001).

Figura 7. Diagnstico de convergncia para varincia gentica da caracterstica ganho de peso em codornas europeias.Fonte: Timpani (2011).

Figura 8. Esquema ilustrativo do Algoritmo do Amostrador de Gibbs.Fonte: Blasco (2008).


Diagnstico de convergncia

Os mtodos de MCMC so uma tima ferramenta para resoluo de muitos problemas prticos na metodologia bayesiana. Porm, as questes ligadas convergncia da cadeia ainda so uma incgnita na utilizao dessa metodologia (ABANTO-VALLE, 2005).

A convergncia da cadeia de Markov ocorre quando se percebe certa estabilidade, ou seja, os valores gerados no processo se mantm os mesmo de iterao para iterao (LEANDRO, 2001; POLICARPO, 2001).

Para verificar a convergncia, necessrio examinar certas caractersticas da cadeia produzida. Nesse caso, existem vrios mtodos (estatsticos e grficos) que podem ser utilizados com esse fim. No entanto, dois pontos devem ser considerados na escolha do mtodo de avaliao da convergncia (LEANDRO, 2001):

1. Nenhum mtodo infalvel e a recomendao da convergncia pode ser feita mesmo quando a cadeia ainda no se estabilizou.

2. conveniente para uma maior acurcia do processo que vrios mtodos sejam usados em conjunto na determinao da convergncia.

Uma importante considerao a respeito da convergncia que existe uma nica distribuio de equilbrio (lembrem-se: quando a cadeia atinge a convergncia porque ela se estabilizou) e duas propriedades so responsveis por isso: aperiocidade e irredutvel (SORENSEN; GIANOLA, 2002).

Aperiocidade: essa propriedade garante que a cadeia no fique analisando um nmero finito e determinado de valores do parmetro (ABANTO-VALLE, 2005).

Irredutvel: para uma cadeia ter essa propriedade necessrio que ela possa visitar todos os possveis conjuntos de valores do parmetro, independente do valor inicial dado (ABANTO-VALLE, 2005).


Para avaliar a convergncia dos mtodos de MCMC, faz-se uso de alguns mtodos j empregados na literatura. As tcnicas mais populares so Geweke (1992) e Heidelbelger e Welch (1983), que usam resultados baseados em anlise espectral; Raftery e Lewis (1992), que permite calcular quantas iteraes so necessrias para uma cadeia atingir a distribuio estacionria por meio da estimao de quantis posteriores com uma preciso previamente fixada; Gelman e Rubin (1992), que usa resultados baseados na anlise de varincia clssica para duas ou mais cadeias simuladas com valores iniciais diferentes. Esses mtodos e outros foram comparados no trabalho de Cowles e Carlin (1996), que concluram que no se pode afirmar qual deles o mais eficiente (ABANTO-VALLE, 2005).

Critrios de seleo do modelo e hipteses para anlise estatstica

At o momento, observou-se que a distribuio a priori deduzida e a funo de verossimilhana est de acordo com o que foi apresentado pelos dados, a distribuio a posteriori obtida e as inferncias sobre os parmetros estudados (como, por exemplo, efeito gentico, efeito materno, desvio de dominncia, genes de efeito principal, etc.) podem ser realizadas.

No entanto, o modelo ou as hipteses adotadas para anlise devem ser boas o suficiente para evitar que a incerteza sobre as informaes seja muito grande e comprometa a veracidade dos resultados.

Sempre h alternativas que podem ou no ser adotadas.

No melhoramento animal, de fundamental importncia na anlise estatstica (bayesiana ou clssica) a determinao dos efeitos (como, por exemplo, gentico, materno, dominncia, genes de efeito principal, etc.) que influenciam as caractersticas em estudo.


O uso do modelo errado ou incompleto pode trazer consequncias para a acurcia das estimativas dos valores genticos, parmetros genticos ou componentes de varincia. Assim, a escolha do modelo apropriado para a anlise uma atividade fundamental, que vem tornando-se cada vez mais importante na anlise estatstica, uma vez que, em razo dos avanos computacionais, possvel construir modelos cada vez mais complexos.

Uma das tcnicas mais usadas com esse fim, quando a estatstica bayesiana aplicada no melhoramento animal, o Fator de Bayes.

Fator de Bayes

O Fator de Bayes (FB) usado para comparar a probabilidade a posteriori ao testar duas hipteses diferentes. Em outras palavras, corresponde relao entre as probabilidades das diferentes prioris que podem ser utilizadas no experimento.

O Fator de Bayes assim definido, segundo Kass e Raftery (1995):

FBij= P(y|Mi)P(y|Mj)

Em que:

a probabilidade da posteriori que expressa a premissa representada pela hiptese alternativa (H1).

a probabilidade da posteriori que expressa a premissa representada pela hiptese alternativa (H0).

Como exemplo, considerando que voc queira determinar a existncia de genes de efeito principal (GEP) na caracterstica Idade ao primeiro parto em bovinos da raa Nelore (TIMPANI, 2011).

P(y|Mi)

P(y|Mj)


O GEP um gene que tem uma grande influncia sobre a expresso da caracterstica quantitativa.

As hipteses a serem traadas para o problema so:

H0= a caracterstica IPP no possui GEP com probabilidade a priori p.

H1= a caracterstica IPP possui GEP com probabilidade a priori q.

FBij= H1H0

A interpretao do FB bastante simples e direta. Se FB>1, tem-se a indicao de que a hiptese que est no numerador (corresponde a H1) a verdadeira; caso contrrio, se FB 10,0 Decisiva

Essa interpretao baseia-se na evidncia proveniente dos dados contra uma das hipteses, que segundo Kass e Raftery (1995) a hiptese nula ((H0)).


Tabela 3. Probabilidade a posteriori e Fator de Bayes para o nmero de genes de efeito principal (GEP) na caracterstica ganho de peso aos 345 dias.

Probabilidade a posteriori Fator de Bayes0 1 2 3 4 5 1/0 2/1 3/2 4/3 4/5

0 0 0,98 0,02 0 0 na 29,0 -5,3 na na

A evidncia baixa indica que a hiptese nula (H0) a mais provvel de ser a verdadeira. A evidncia positiva mostra que a hiptese alternativa (H1) a mais provvel de ser a correta. As evidncias forte e decisiva confirmam que a hiptese alternativa (H1) a correta.

Outro exemplo: avaliando a tabela 3, possvel concluir pelas probabilidades a posteriori e pelo Fator de Bayes obtido que a caracterstica ganho de peso aos 345 dias (GP345) na raa Nelore apresentou evidncia de possuir GEPs (TIMPANI, 2011).

Pela anlise da probabilidade a posteriori apresentada na Tabela 3, observa-se na caracterstica GP345, que a maior probabilidade est relacionada presena de dois genes de efeito principal influenciando sua expresso fenotpica.

ATENO

Isto uma evidncia, uma probabilidade de que a hiptese seja verdadeira na prtica.

A interpretao do FB (Tabela 3) baseada na confrontao de duas hipteses (H0 e H1) relacionadas s probabilidades de os diferentes nmeros de GEPs estarem influenciando essa caracterstica.

Analisando o Fator de Bayes (Tabela 3), observa-se que h uma evidncia decisiva (acima de 10,0) de que GP345 seja influenciada por dois GEPs.


Isto verificado na comparao entre as hipteses nula (H0: NGEP,= 1) e alternativa (H1: NGEP,= 2), que possui maior Fator de Bayes, e na comparao entre as hipteses nula (H0: NGEP,= 2) e alternativa (H1: NGEP,= 3), em que o valor obtido para o Fator de Bayes negativo, indicando que o denominador tem o nmero correto de GEPs para GP345.

Portanto, a concluso a que chegamos que pode haver dois GEPs influenciando a expresso fenotpica da caracterstica GP345 em bovinos da raa Nelore.

Princpios da estatstica bayesiana no modelo animal

Modelo animal

Na estatstica bayesiana, no existe distino entre variveis fixas e aleatrias e, portanto, os efeitos considerados fixos no melhoramento animal (por exemplo, grupo de contemporneos) so usados como efeitos aleatrios sobre os quais se tem pouco ou nenhum conhecimento a priori (GIANOLA; FERNANDO, 1986; POLICARPO, 2001).

Outro ponto interessante na aplicao da estatstica bayesiana no melhoramento animal, segundo Gianola e Fernando (1986), que a distribuio dos dados no precisa ser necessariamente uma distribuio Normal, sendo possvel utiliz-la na avaliao de caractersticas com outros tipos de distribuio (como por exemplo, caractersticas de limiar: diagnstico positivo de prenhes de vacas).

Quando Henderson props o BLUP como mtodo de avaliao gentica (que atualmente o mtodo padro utilizado pelo melhoramento animal) considerou situaes e populaes em que as varincias e covarincias gentica e residual eram conhecidas e observou que pouco sucesso


alcanado nos mtodos de seleo quando as varincias precisam ser estimadas na prpria populao sob seleo (POLICARPO, 2001).

No entanto, no caso da metodologia bayesiana, as varincias no precisam ser conhecidas e podem ser estimadas a partir dos dados das populaes selecionadas. Nesse caso, a distribuio a posteriori dos valores genticos e parmetros genticos a mesma com ou sem seleo ou acasalamento controlado. Assim, a estatstica bayesiana pode fornecer inferncia a respeito dos valores e parmetros genticos mesmo na presena de seleo (POLICARPO, 2001), o que pode ser um fator de viciamento das estimativas na clssica.

Sorensen et al. (1994), comparando a metodologia clssica com a bayesiana em relao resposta seleo, observaram que h diferenas entre os resultados obtidos nas duas metodologias, quando o volume de dados pequeno. Porm, quando o conjunto de dados grande, no houve diferena entre os resultados. Isto ocorre porque os dados so muito informativos em relao aos parmetros analisados e a funo de verossimilhana domina as informaes a priori, e vice- -versa. Uma das grandes vantagens dos mtodos bayesianos que eles permitem verificar concluses falsas baseadas em verossimilhanas fracas ou pouco informativas.

Estimao dos componentes de varincia

No melhoramento animal, as varincias e covarincias genticas no so conhecidas e devem ser estimadas.

Assumindo que a distribuio a priori para os efeitos fixos e componentes de varincia no so informativas, na metodologia clssica, os componentes de varincia so obtidos como a moda da distribuio a posteriori conjunta aps integrao em relao aos efeitos fixos. Assim, essas estimativas so uma aproximao das distribuies marginais dos componentes de varincia em relao aos efeitos fixos includos no modelo (POLICARPO, 2001). Essa distribuio


marginal particularmente importante na inferncia, uma vez que o objetivo da avaliao estimar os componentes de varincia de alguns dos parmetros apenas e que pela estatstica bayesiana podem ser diferenciados.

Estimao dos valores genticos e seleo

Os dados de campo, cuja avaliao gentica realizada, usualmente provm de rebanhos nos quais a seleo rotineiramente praticada. A questo de como estimar valores genticos em populaes submetidas seleo de grande importncia prtica, pois, na metodologia clssica o fato de a populao estar em seleo pode ser um problema para a obteno de estimativas acuradas.

No contexto bayesiano, pode-se mostrar que as inferncias sobre os valores genticos e parmetros genticos podem ser feitas a partir da distribuio a posteriori obtida como resultado, como se a seleo no tivesse ocorrido na populao avaliada, ou seja, concluindo, a distribuio a posteriori dos parmetros genticos e dos valores genticos, pela metodologia bayesiana, a mesma com ou sem seleo ou acasalamento no aleatrio (ASSIS, 2002).


Referncias

ABANTO-VALLE, C. A. A. Mtodos de simulao estocstica em modelos dinmicos no lineares: uma aplicao em modelos de volatilidade. 2005. 189 f. Tese (Doutorado em Estatstica) - Universidade Federal do Rio de Janeiro, Rio de Janeiro.

ASSIS, G. M. L. Predio bayesiana e clssica aplicada ao melhoramento animal. 2002. 40 f. Exame de qualificao (Doutorado em Gentica e Melhoramento) - Universidade Federal de Viosa, Viosa.

BAYES, T. An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of The Royal Society, v. 53, p. 370418, 1763. (Reprinted in Biometrika, v. 45, n. 3/4, p. 296315, 1958).

BLASCO, A. The bayesian controversy in animal breeding. Journal of Animal Science, Champaign, v. 79, n. 3, p. 2023-2046, Mar. 2001.

BLASCO, A. An easy introduction to Bayesian statistics with MCMC: lecture notes. Lavras, 2008.

CARNEIRO JUNIOR, J. M. Uso de Mtodos Bayesianos no Melhoramento Animal, com nfase na Amostragem de Gibbs. 2001. 50 p. Exame de qualificao (Doutorado em Gentica e Melhoramento) - Universidade Federal de Viosa, Viosa.

DICIONRIO Houaiss da lngua portuguesa. [Rio de Janeiro]: Objetiva, 2009. Disponvel em: http://atlas.sct.embrapa.br/houaiss2009/cgi-bin/houaissnet.exe?func=historico&palavra=infer%EAncia:67738. Acesso em: 29 abr. 2015.


EHLERS, R. S. Introduo a inferncia Bayesiana. 2003. Disponvel em: http://www.leg.ufpr.br/~paulojus/CE227/ce227/ce227.html. Acesso em: 18 jan. 2011.

FARIA, C. U. de; MAGNABOSCO, C. de U.; REYES, A. de los; LBO, R. B.; BEZERRA, L. A. F. Inferncia bayesiana e sua aplicao na avaliao gentica de bovinos da raa Nelore: reviso bibliogrfica. Cincia Animal Brasileira, v. 8, n. 1, p. 75-86, 2007.

FERREIRA, D. F. Estatstica bsica. Lavras: Editora UFLA, 2005. 664 p.

GIANOLA, D.; FERNANDO, R. L. Bayesian Methods in Animal Breeding Theory. Journal of Animal Science, v. 63, n. 1, p. 217-244, 1986.

KASS, R. E.; RAFTERY, A. E. Bayes factors. Journal of the American Statistical Association, New York, v. 90, n. 3, p. 773-795, June 1995.

LEANDRO, R. A. Introduo estatstica bayesiana: notas. In: REUNIO ANUAL DA REGIO BRASILEIRA DA SOCIEDADE INTERNACIONAL DE BIOMETRIA, 46.; SIMPSIO DE ESTATSTICA APLICADA EXPERIMENTAO AGRONMICA, 9., 2001, Piracicaba. Anais: resumos. Piracicaba: ESALQ, 2001.

MEMRIA, J. M. P. Breve Histria da Estatstica. Braslia, DF: Embrapa Informao Tecnolgica: Embrapa-Secretaria de Gesto e Estratgia, 2004. 111 p. (Embrapa-Secretaria de Gesto e Estratgia. Texto para discusso, 21).

NOGUEIRA, D. A.; SAFDI, T.; BEARZOTI, E.; BUENO FILHO, J. S. de S. Anlises clssica e bayesiana de um modelo misto aplicado ao melhoramento animal: uma ilustrao. Cincia e Agrotecnologia, Lavras, Ed. Esp., p. 1614-1624, dez. 2003.

PAULINO, C. D.; TURKMAN, A. A.; MURTEIRA, B. Estatstica bayesiana. Lisboa: Fundao Calouste Gulbenkian, 2003. 446 p.

PERERNELLI, L. A. Programa analtico. [Viosa: UFV], 2011. Cap. 4, p. 47-67. Disponvel em: http://www.dpi.ufv.br/~peternelli/inf162.www.16032004/materiais/CAPITULO4.pdf Acesso em: 31 jan. 2011.

POLICARPO, A. Estatstica bayesiana aplicada ao melhoramento gentico animal (Amostrador de Gibbs e suas aplicaes). 2001. 17 f. Exame de qualificao (Doutorado em Gentica e Melhoramento) - Universidade Federal de Viosa, Viosa.


ROSA, G. J. M. Anlise bayesiana para modelos lineares mistos robustos via Amostrador de Gibbs. 1998. 57 p. Tese (Doutorado em Estatstica e Experimentao Agropecuria) - Universidade Federal de Lavras, Lavras.

SALSBURG, D. Uma senhora toma ch...como a estatstica revolucionou a cincia do sculo XX. Rio de Janeiro: Editora Zahar, 2009. 286 p.

SAVIAN, T. V. Anlise bayesiana para modelos de degradabilidade ruminal. 2008. 81 f. Tese (Doutorado em Estatstica e Experimentao Agropecuria) - Universidade Federal de Lavras, Lavras.

SILVA, F. F. Anlise bayesiana do modelo auto-regressivo para dados em painel: aplicao na avaliao gentica de touros da raa Nelore. 2006. 100 f. Tese (Doutorado em Estatstica e Experimentao Agropecuria) - Universidade Federal de Lavras, Lavras.

SORENSEN, D. A.; WANG, C. S.; JENSEN, J.; GEANOLA, D. Bayesian Analysis of Genetic Change Due to Selection Using Gibbs Sampling. Genetics, Selection, Evolution, v. 26, n. 4, p. 333-360, 1994.

SORENSEN, D.; GIANOLA, D. Statistics for biology and health. New York: Springer, 2002. 740 p.

TIMPANI, V. D. Arquitetura gentica de caractersticas de crescimento e reproduo em bovinos da raa Nelore. 2011. 104 f. Tese (Doutorado em Zootecnia) - Universidade Federal de Lavras, Lavras.

YORIYAZ, H. Fundamentos do Mtodo de Monte Carlo para Transporte de Radiao. 2010. 91 p. Apostila da disciplina.

CG

PE 1

2080

Capa01DOC 412_V02Capa01 (1)DOC 412_mioloCapa04 (1)

Documents

genetica EMBRAPA