58
 PERÍODO -  Luiz Alberto Dolabela Falcão Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa CIÊNCIAS BIOLÓGICAS Análise de Dados Biológicos

Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca

Embed Size (px)

Citation preview

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 1/58

 

PERÍODO

-

 

Luiz Alberto Dolabela FalcãoLuiz Eduardo Macedo ReisMagnel Lima de OliveiraRodrigo Oliveira Pessoa

CIÊNCIAS BIOLÓGICAS

Anlise de DadosBiológicos

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 2/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 3/58

 

Montes Claros/MG - 2011

Luiz Alberto Dolabela FalcãoLuiz Eduardo Macedo ReisMagnel Lima de OliveiraRodrigo Oliveira Pessoa

Anlise de Dados

Biológicos

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 4/58

 

2011Proibida a reprodução total ou parcial.

Os inratores serão processados na orma da lei.

EDITORA UNIMONTESCampus Universitário Proessor Darcy Ribeiros/n - Vila Mauricéia - Montes Claros (MG)

Caixa Postal: 126 - CEP: 39.401-089Correio eletrônico: [email protected] - Teleone: (38) 3229-8214

Catalogação: Biblioteca Central Proessor Antônio Jorge - UnimontesFicha Catalográfca:

Copyright ©: Universidade Estadual de Montes Claros

UNIVERSIDADE ESTADUAL DE MONTES CLAROS - UNIMONTES

REITOR

João dos Reis Canela

VICE-REITORAMaria Ivete Soares de Almeida

DIRETOR DE DOCUMENTAÇÃO E INFORMAÇÕESHuagner Cardoso da Silva

CONSELHO EDITORIALMaria Cleonice Souto de FreitasRosivaldo Antônio GonçalvesSílvio Fernando Guimarães de CarvalhoWanderlino Arruda

REVISÃO DE LÍNGUA PORTUGUESAÂngela Heloiza BuxtonArlete Ribeiro NepomucenoAurinete Barbosa TiagoCarla Roselma Athayde MoraesLuci Kikuchi VelosoMaria Cristina Ruas de Abreu MaiaMaria Lêda Clementino MarquesUbiratan da Silva Meireles

REVISÃO TÉCNICA

Admilson Eustáquio PratesCláudia de Jesus MaiaJosiane Santos BrantKaren Tôrres Corrêa Laetá de AlmeidaKáthia Silva GomesMarcos Henrique de Oliveira

DESIGN EDITORIAL E CONTROLE DE PRODUÇÃO DE CONTEÚDOAndréia Santos DiasCamilla Maria Silva RodriguesClésio Robert Almeida CaldeiraFernando Guilherme Veloso QueirozFrancielly Sousa e SilvaHugo Daniel Duarte SilvaMarcos Aurélio de Almeida e MaiaPatrícia Fernanda Heliodoro dos SantosSanzio Mendonça HenriquesTatiane Fernandes PinheiroTátylla Ap. Pimenta FariaVinícius Antônio Alencar BatistaWendell Brito MineiroZilmar Santos Cardoso

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 5/58

 

Chee do Departamento de Ciências BiológicasGuilherme Victor Nippes Pereira

Chee do Departamento de Ciências SociaisMaria da Luz Alves Ferreira

Chee do Departamento de GeociênciasGuilherme Augusto Guimarães Oliveira

Chee do Departamento de HistóriaDonizette Lima do Nascimento

Chee do Departamento de Comunicação e Letras

Ana Cristina Santos Peixoto

Chee do Departamento de EducaçãoAndréa Laet de Melo Franco

Coordenadora do Curso a Distância de Artes VisuaisMaria Elvira Curty Romero Christof 

Coordenador do Curso a Distância de Ciências BiológicasArânio Farias de Melo Junior

Coordenadora do Curso a Distância de Ciências SociaisCludia Regina Santos de Almeida

Coordenadora do Curso a Distância de GeografaJanete Aparecida Gomes Zuba

Coordenadora do Curso a Distância de HistóriaJonice dos Reis Procópio

Coordenadora do Curso a Distância de Letras/EspanholOrlanda Miranda Santos

Coordenadora do Curso a Distância de Letras/InglêsHejaine de Oliveira Fonseca

Coordenadora do Curso a Distância de Letras/Português

Ana Cristina Santos Peixoto

Coordenadora do Curso a Distância de PedagogiaMaria Narduce da Silva

Ministro da EducaçãoFernando Haddad

Presidente Geral da CAPESJorge Almeida Guimarães

Diretor de Educação a Distância da CAPESJoão Carlos Teatini de Souza Clímaco

Governador do Estado de Minas GeraisAntônio Augusto Junho Anastasia

Vice-Governador do Estado de Minas Gerais

Alberto Pinto Coelho Júnior

Secretário de Estado de Ciência, Tecnologia e Ensino SuperiorNrcio Rodrigues

Reitor da Universidade Estadual de Montes Claros - UnimontesJoão dos Reis Canela

Vice-Reitora da UnimontesMaria Ivete Soares de Almeida

Pró-Reitora de EnsinoAnete Marília Pereira

Diretor do Centro de Educação a DistânciaJânio Marques Dias

Coordenadora da UAB/UnimontesMaria Ângela Lopes Dumont Macedo

Coordenadora Adjunta da UAB/UnimontesBetânia Maria Araújo Passos

Diretor do Centro de Ciências Humanas - CCHAntônio Wagner Veloso Rocha

Diretora do Centro de Ciências Biológicas da Saúde - CCBS

Maria das Mercês Borem Correa Machado

Diretor do Centro de Ciências Sociais Aplicadas - CCSAPaulo Cesar Mendes Barbosa

Chee do Departamento de ArtesMaristela Cardoso Freitas

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 6/58

 

Autores

Luiz Alberto Dolabela FalcãoBacharel em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes e mes-tre em Ciências Biológicas pela mesma instituição. Atualmente é proessor pesquisador da Univer-

sidade Aberta do Brasil – UAB

Luiz Eduardo Macedo ReisBacharel em Ciências Biológicas pelo Centro Universitário do Leste de Minas Gerais – UNILESTE-MG

mestre em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes. Atual-

mente coordena um subprojeto do PIBID/UNIMONTES

Magnel Lima de OliveiraLicenciado em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes e

mestre em Ciências Biológicas pela mesma instituição

Rodrigo Oliveira PessoaDoutor em Biologia Genética pela Universidade de São Paulo (USP), mestrado em Zoologia pelaUniversidade Federal da Paraíba, graduado em biologia – licenciatura e bacharelado com ênase

em Zoologia – pela Universidade Federal de Minas Gerais (UFMG). Atualmente é proessor da Uni-versidade Estadual de Montes Claros (Unimontes).

 

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 7/58

 

Sumrio

A p r e s e n t a ç ã o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Unidade 1

Delineamento experimental

1.1 Por que delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11

1.2 Custos de um desenho mal elaborado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3 Como delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

1.4 Pseudo-repetição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

1.5 Como selecionar um número apropriado de réplicas. . . . . . . . . . . . . . . . . . . . . . . . . .17

Reerências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Unidade 2

Probabilidade e variabilidade

2.1 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

2.2 Probabilidade e amostragens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3 Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

R e e r ê n c i a s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4

Unidade 3

Hipóteses Biológicas

3.1 Métodos cientíicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 Dedução e indução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3 Método hipotético-dedutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Testando hipóteses estatísticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27

3.5 Hipótese nula x Hipótese alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27

Reerências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 8/58

 

8

UAB/Unimontes - 6º Período

Unidade 4

Regressão linear e ANOVA

4.1 Regressão linear simples: Um ator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2 Regressão múltipla: múltiplos atores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33

4.3 Análise de variância (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35

Reerências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Unidade 5

Modelos lineares generalizados

5.1 A análise dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39

5.2 Modelos paramétricos e não paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39

5.3 A construção dos modelos de análise de modo paramétrico . . . . . . . . . . . . . . . . . 40

5.4 A escolha e o uso de uma curva teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.5 As curvas teóricas encontradas na amília GLM, de maior interesse para biólogos . .41

5.6 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41

5.7 Ajustamento no processo de padronização. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41

5.8 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42

5.9 Como construir modelos de regressão coerentes com as predições testadas. . .42

5.10 Método de construção e simpliicação dos modelos construídos . . . . . . . . . . . . .43

5.11 Método Backward de construção e/ou simpliicação de modelos de regressão . .43

5.12 Método Forward de construção e/ou simpliicação de modelos de regressão. . . .45

5.13 Método Stepwisede construção e/ou simpliicação de modelos de regressão . . 46

5.14 Métodos de crítica ao modelo construído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .47

Reerências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51

R e e r ê n c i a s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3

Atividades de Aprendizagem – AA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 9/58

 

9

Ciências Biológicas - Análise de Dados Biológicos

Apresentação

Caro(a) acadêmico(a),

Iniciamos agora a disciplina Anlise de Dados Biológicos. De maneira geral, nós, biólogos,temos certa aversão a números e modelos matemáticos. Entretanto, a estatística nos ornece apossibilidade de resumir aspectos gerais da natureza em padrões cientíicos através da mensu-ração e análise de dados. Sem esta erramenta, estaríamos todos desenvolvendo teorias e maisteorias sem nenhum sentido cientíico.

A análise de dados biológicos engloba um número ininito de possibilidades. Podemos“analisar” os dados amostrados utilizando desde uma simples comparação entre médias atécomplexos modelos multivariados de exploração. Entretanto, nesta disciplina, ocamos em as-pectos mais básicos da estatística que nos permitirão entender a linguagem cientíica de umamaneira geral.

Sendo assim, começamos agora nossa disciplina. Recomendamos a utilização de outros li-vros-textos e outras ontes de inormação parra compreensão mais aproundada de alguns as-suntos. Então, vamos nessa?!

Mãos à obra e bons estudos a todos!

Os autores.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 10/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 11/58

 

11

Ciências Biológicas - Análise de Dados Biológicos

UNIDADE 1Delineamento experimental

O delineamento experimental é o pas-so crucial durante a elaboração de trabalhoscientíicos para alcançar o objetivo da ciênciade responder as perguntas ormuladas nor-malmente através das hipóteses. Portanto, umdesenho amostral mal ormulado terá conse-quências diretas nos resultados, culminandoem respostas equivocadas que nenhum testeestatístico será capaz de corrigir.

O delineamento experimental é deinido

por Magnunsson e Mourão (2003) como umamaneira de “coletar os dados de orma que

você tenha uma boa chance de tomar umaboa decisão”. Todavia os passos para alcançaresta “boa decisão”, durante a escrita de seuprojeto, seguem as premissas de um méto-do cientíico, em que primeiramente se devepensar, ormular perguntas e hipóteses queserão a base para tal delineamento, além dedesenhar o experimento e realizar as análisesestatísticas quando necessárias. Desta orma aestatística é apenas uma erramenta de análi-

se de dados que permite a comunicação entrepesquisadores.

1.1 Por que delinear?Delinear é a arte do pesquisador (Mag-

nunsson e Mourão 2005) e é uma ótima ana-logia a ser utilizada. Vamos citar como exem-plo um bom compositor que, para deixar suas

canções belas, agradáveis de ouvir, com osmelhores arranjos nos instrumentos e vocal,dedica tempo e dinheiro, azendo com quesua mensagem seja enviada de orma plenaaos ouvidos de quem escuta. Este é o mesmotrabalho de um pesquisador ao elaborar umapergunta e desenhar um experimento, gas-tando tempo, preocupando-se com as pecu-liaridades de cada pergunta para montar umesquema com o melhor aproveitamento dorecurso, apresentando, assim, resultados clarose robustos ao escrever seus artigos cientíicos.Sendo capaz de repassar as descobertas para

quem as vê.Pode parecer uma tarea diícil ou qua-

se uma missão impossível, mas não é! Basica-mente, conhecer o sistema a ser observado,que é o objeto do seu estudo, é o mais impor-tante. Pois, na biologia nada é tão exato quan-to parece ser, e normalmente diversos atoresinluenciam no seu objeto de estudo.

Comecem seu experimento com umapergunta que seja “respondível”, pois ela daráorigem a boas hipóteses, que são atores im-portantíssimos no processo do delineamento

experimental. Fujam de perguntas diíceis deserem respondidas como “Existe vida após amorte?”, com certeza a resposta seria interes-santíssima, mas desaia a mente humana a de-rivar hipóteses reutáveis (Magnunsson e Mou-rão 2005).

Iniciar perguntas com “por que”, normal-mente constitui um bom início para o desen-rolar de um trabalho cientíico. Por exemplo,assistindo ao noticiário da sua cidade, vocêpercebe que os casos de dengue aumentaramconsideravelmente nos últimos meses, apenasnos bairros da zona leste da cidade. Você se in-

teressa em saber “por que existem mais casosde dengue nesta região”. Como conhece bemsua cidade e, sabe das prin cipais dierençasentre as regiões (norte, sul, leste e oeste), vocêserá capaz, com algum conhecimento prévio,de ormular novas perguntas que darão ori-gens as suas hipóteses. Vamos citar algumaspossibilidades:

• Será que o rio situado ao leste da cidade, unciona como um reservatório para o mosquitotransmissor?

• O grande número de terrenos abandonados nesta região pode conter água e acilitar o pro-

cesso de reprodução do mosquito?• Casas com grandes quintais, como é característica desta região, são reservatórios eetivos

do mosquito transmissor?

PARA REFLETIR

Somos compositoresde um bom conheci-mento cientíico.

DICAS

Turkey (1980) enatizouque “Encontrar a per-gunta certa é requen-temente mais impor-tante do que encontrara resposta certa”.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 12/58

 

12

UAB/Unimontes - 6º Período

Veja que todas as perguntas partiram do conhecimento prévio da região a ser estudada, en-tretanto muitas vezes o recurso inanceiro que possui não permite que responda a todas elas.

1.2 Custos de um desenho malelaboradoOs trabalhos que não apresentam um de-

senho experimental bem elaborado serão ca-pazes, na melhor das hipóteses, de apresentarresultados limitados e, na pior das hipóteses,de não apresentarem resultado algum (RUX-TON; COLEGRAVE, 2006). Pois, as análises serãoeitas através de recursos estatísticos comple-xos a im de corrigirem possíveis erros amos-trais, incapazes, na maioria dos casos, de res-ponderem alguma questão. É neste momentoque se percebe a perda de tempo e/ou dinhei-ro.

Ainda que o experimento consiga con-templar as questões propostas, existem outrasormas de um experimento mal delineado sermenos eiciente. Um erro comum é assumirque todo experimento deve ser eito com omaior número possível de coletas. Mas, sevocê coleta mais dados do que sua perguntarealmente necessita você perdeu tempo e di-

nheiro. Por outro lado, caso seu experimento

trabalhe em uma escala maior e necessite demuitas coletas ou muitos materiais no labora-tório, há a tentação de torná-lo o menor pos-sível. Assim caso seu experimento seja muitopequeno, sem chance alguma de detectar oseeitos de interesse, haverá novamente perdade tempo e dinheiro, e provavelmente vocêterá que reazer suas coletas.

Além disso, existem casos em que se cole-ta dados demasiadamente, sem que se penseno que está sendo eito, e no im do processovem a pergunta: Ainal, qual destes dados érealmente importante para minha pesquisa?Esta é uma ótima maneira de gastar seu pre-cioso tempo: Coletando coisas desnecessárias,e correr o risco de não coletar os dados querealmente tenham sentido para sua pesquisa.Para evitar tais problemas, basta usar mais doseu tempo planejando o delineamento de suapesquisa.

1.3 Como delinear?Começaremos nossa discussão dieren-

ciando estatisticamente os termos “popula-ção” e “amostra”. População é um conjunto deelementos que tem em comum determinadacaracterística. Em uma população de peixes de

um lago, os elementos seriam os peixes que acompõe. Assim uma amostra seria um subcon- junto dessa população.

As populações podem ser initas comoum conjunto de alunos de uma escola em de-terminado ano ou ininitas como o número devezes que se pode jogar um dado. Entretanto,a maioria das pesquisas biológicas apresentapopulações com muitos elementos, inviabi-lizando o levantamento completo e eetivode suas unidades, chamado recenseamento(Censo). Por esta razão os pesquisadores traba-lham com amostras (parte da população). Porexemplo, o número de tucanos existentes nomundo é matematicamente inito, mas as pes-quisas realizadas com essas aves só podem sereitas com amostras, porque nenhum pesqui-

sador dispõe de meios para coleta de todos ostucanos existentes no globo.

Além disso, para alguns estudos espe-cíicos, o uso de amostras tem maior valorcientíico do que o estudo sumário de toda

população. Por exemplo, para estudar o eei-to de uma toxina no controle de insetos-pra-ga de Eucalipto, é melhor submeter amos-tras destes insetos a exames minuciosos emlaboratório, e determinar a viabilidade douso para seu controle, do que utilizar estatoxina nas plantações, correndo o risco decausar danos ao ambiente sem comprova-ção cientíica de sua atuação eicaz.

Então, como devemos delinear um ex-perimento? É a pergunta que não quer calar!Independentemente do campo de pesquisa,a melhor orma de delinear um experimen-to, será bem dierente da melhor maneirade delinear outro. Assim, o conhecimentobiológico é parte crucial do delineamentoexperimental.

PARA REFLETIR

É somente através doconhecimento prévio

do objeto de estudoque se chega a um

desenho bem estru-turado, organizado e

eicaz.

DICAS

Um delineamento ex-perimental mal ormu-

lado será penalizadocom perda de tempo e

recursos materiais.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 13/58

 

13

Ciências Biológicas - Análise de Dados Biológicos

Na Biologia, mais do que qualquer outraciência, seja ela ísica ou matemática, a varia-ção é regra e as causas destas variações sãocomplexas e diversas. Existe variação em qual-quer lugar ou estema de estudo, mesmo quesejam clones ou populações naturais. Assim,

indivíduos de uma população de peixes va-riam em tamanho corporal ou bactérias emum tubo de ensaio variam em taxas de cresci-mento.

Esta complexidade de variações az comque os experimentos biológicos necessitemde amostragens que sejam capazes de revelaras situações reais daquele sistema. Vamos su-por que um Biólogo tenha sido contratado por

um piscicultor para veriicar que atores cau-sam mortalidade em tilápias (peixes) criadasem sua piscicultura comercial. O dono do es-tabelecimento reclama de perdas na produçãoem um dos seus três tanques de criação.

O proprietário revela que não existe dis-

tinção de tratamento dos peixes entre os tan-ques. Sabendo-se que a mortalidade causadapor parasitas é um dos principais atores res-ponsáveis pela morte de peixes em piscicultu-ras, o Biólogo vai ao estabelecimento e coletaum peixe em cada tanque aleatoriamente e,em laboratório, determina a taxa de parasitis-mo de cada um deles. Encontrando o seguinteresultado (Fig. 1)

Tanque 1 Tanque 2 Tanque 30

20

40

60

80

100

 %  d  e  p a r  a  s i   t  i   s 

m o

Veja, parece que o peixe coletado no ter-ceiro tanque possui uma carga parasitária umpouco maior do que os peixes dos tanques ume dois. Entretanto, o Biólogo não icou con-vencido desse resultado, pois um peixe com10% de parasitas a mais do que outros não éo suiciente para concluir que o parasitismo éa causa das mortes de todos os peixes nesse

tanque. Outros atores podem inluenciar commaior orça nas taxas de mortalidade do que oparasitismo.

Para solucionar este problema, o Biólogoretorna ao estabelecimento e realiza mais umacoleta aleatória e, desta vez, coleta 20 peixespor tanque, encontrando o seguinte resultado(Fig. 2).

0

20

40

60

80

100

 %

  d  e  p a r  a  s i   t  i   s m o

Figura 1: Modelorepresentando aporcentagem de

parasitismo de umpeixe por tanque de

criação de tilápias.Fonte: Acervo autores

PRA REFLETIR

Na Biologia, VARIAÇÃOé regra!

GLOSSáRIO:

Aleatório: Adj. Querepousa sobre umacontecimento incerto,ortuito. Seriam dadossorteados.

Figura 2: Modelorepresentando aporcentagem de

parasitismo em 20peixes por tanque de

criação de tilápias.Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 14/58

 

14

UAB/Unimontes - 6º Período

Há um aumento na coniança do Biólogoao dizer que o tanque 3 apresenta maiores ta-xas de mortalidade devido à presença de para-sitas. A razão desta maior coniança não é obs-cura. Através da amostra de um único peixe ébastante possível que as dierenças das taxas

de parasitismo entre os tanques sejam meraobra do acaso, e é improvável que o mesmoacaso ocorra durante a seleção aleatória de 20peixes por tanque. O que o Biólogo ez oi re-plicar sua observação. Se as dierenças oramcasuais no primeiro momento, não é esperadoque o mesmo ocorra em uma amostra maiorda população. Todas as análises estatísticassão baseadas em réplicas, que são realmen-te uma maneira de ormalizar a ideia de quequanto mais vezes observamos um enômeno,menores serão as chances dos resultados se-

rem casuais.Observem que o Biólogo possui 20 amos-tras de peixes por tanque, como são três tan-ques, logo o seu número amostral (N) é iguala 60. Estes 60 peixes oram coletados de ormaaleatória, que é uma das ormas de se amos-

trar uma população, entretanto este tipo deamostragem permite apenas uma visão geralda realidade daquele sistema. Onde todo oelemento da população tem igual probabilida-de de ser escolhido para a amostra.

Assim, apesar de estar certo de que a ele-

vada taxa de mortalidade dos peixes do tan-que três é causada por parasitas, nosso amigoBiólogo é incapaz de responder a seguintepergunta através de seus resultados; por queos peixes do tanque três são mais parasitados?

Para responder a esta questão o Biólogo,com conhecimento prévio do sistema de pa-rasitismo em peixes, sabe que peixes mais ve-lhos e pesados geralmente apresentam maio-res taxas de parasitismo, devido à depressãodo seu sistema imune a partir de determinadaidade.

Com caráter investigativo, o pesquisadorutiliza o mesmo desenho com os 20 peixes co-letados aleatoriamente em cada tanque paraestabelecer uma comparação do peso entre ostanques. E revela o seguinte resultado (Fig. 3):

Tanque 1 Tanque 2 Tanque 30.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

P  e  s  o 

 (  k  g  )  

Agora nosso Biólogo está convencido deque o tanque três possui peixes mais velhos epesados quando comparado aos outros tan-ques. Será que a hipótese de que peixes maisvelhos são mais susceptíveis ao ataque de pa-rasitas está correta?

Para sanar esta dúvida, o pesquisador re-torna ao estabelecimento e realiza a coleta deoutros 60 peixes apenas no tanque três, masdesta vez os separa em três categorias de ida-de durante a coleta: Peixes com idade entre

oito a dez meses, peixes de 12 a 14 meses epeixes com mais de 16 meses. Repare que des-ta vez a coleta não é mais aleatória!

Desta orma nosso pesquisador possuiuma amostra estratiicada, com 20 peixes porestrado, onde os estrados são representadospela idade dos peixes. Após a coleta o Biólo-go vai ao laboratório e determina as taxas deparasitismo em cada um deles, revelando o se-guinte resultado (Fig. 4).

PARA REFLETIR

Replicação é umamaneira de lidar com

as variações entreindivíduos devido às

variações aleatóriasque estarão presentes

em qualquer experi-ência de ciências da

vida. Quanto maior onúmero de réplicas

maior será a conian-ça que teremos emdizer que qualquer

dierença encontradaentre os grupos de seuexperimento é devida

aos atores em queestamos interessados e

não ao acaso.

◄ Figura 3: Modelorepresentando o pesode 20 peixes por tanquede criação de tilápias.Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 15/58

 

15

Ciências Biológicas - Análise de Dados Biológicos

 

8 a 10 meses 12 a 14 meses > 16 meses0

10

20

30

40

50

60

70

80

90

 %  d  e p ar  a s i   t  i   s m o

De ato o pesquisador através de sua es-tratiicação por idade evidenciou que os pei-xes mais velhos são aqueles mais parasitadose, por conta da presença destes peixes combaixo sistema imune nesse tanque, há umataxa de mortalidade maior no local.

Assim, após sua pesquisa, o Biólogo é ca-paz de programar um sistema eicaz de ma-nejo da piscicultura de tilápias para o empre-

endedor, retirando aqueles peixes com idadeentre 12 a 14 meses de vida.

Aprendemos, portanto, que uma amostraé parte de uma população de elementos, e asréplicas são repetições independentes eitas aim de descrever as variações dos elementoscontidos nessa população. Veremos, a seguir,um dos principais problemas da estatísticaatualmente, a chamada pseudo-repetição.

1.4 Pseudo-repetiçãoToda replicação deve conter amostras

independentes entre si. Vejamos o exemploanterior! Cada peixe é uma unidade amostralindependente, devido à taxa de parasitismodepender das características isiológicas decada um. Assim, caso o pesquisador dividisseos peixes pela metade e determinasse o para-

sitismo em cada parte, ele estaria aumentan-do sua amostra em 100%. Mas, seria um erroconsiderá-las independentes, pois o sistemaisiológico unciona no peixe inteiro e não deorma independente entre suas metades, issonão é o real. Portanto, o que chamamos depseudo-réplicas nada mais é do que réplicasde um experimento sem que haja indepen-dência entre amostras, ou seja, há uma eleva-ção do número de amostras sem descrição darealidade.

Espera-se que a quantidade de inorma-ção disponível aumente o número de observa-ções, mas nem sempre é assim. Quando umanova observação ornece apenas a mesmainormação que tínhamos de observações an-

teriores não aumentou a quantidade total deconhecimento disponível para nós, podendoconundir-nos, azendo-nos acreditar que dis-pomos de mais inormações do que as querealmente temos. Assim, por esta observaçãonão ser uma real repetição, Hurlbert denomi-nou-a “pseudo-repetição”, que signiica alsa

repetição (MAGNUNSSON; MOURÃO, 2005).As pseudo-repetições podem ser espa-ciais, temporais, ilogenéticas ou técnicas. Asmais comuns em trabalhos cientíicos e maisdiíceis de serem evitadas são as alsas repe-tições espaciais e temporais. As pseudo-repe-tições ilogenéticas e técnicas normalmenteocorrem em estudos especíicos ou que con-tenham problemas técnicos durante o experi-mento.

A pseudo-repetição ilogenética ocorreonde as espécies são as unidades amostrais eos organismos usados no experimento têm es-treito parentesco. Por exemplo, girinos de umamesma desova podem apresentar respostasecológicas muito similares, devido ao mate-

Figura 4: Modelorepresentando uma

amostra estratiicadade peixes por idade, emrelação à porcentagemde parasitismo, em um

tanque de criação detilápias.

Fonte: Acervo autores

DICAS

Replicações devem serindependentes; casocontrário, será umapseudo-replicação

Em uma pseudo-réplicaas unidades amostraispossuem dependênciaentre si. Ou seja, uma

modiicação em umaunidade amostral nãopode aetar a outra.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 16/58

 

16

UAB/Unimontes - 6º Período

rial genético semelhante entre os elementos enormalmente não representam a situação realexibida por populações maiores. Na pseudo--repetição técnica, a “alsa réplica” ocorrequando dierentes observações ou instrumen-tos são utilizados no experimento. Isso nor-

malmente não ocorre em experimentos bemplanejados, mas eventualmente existem alhasnos equipamentos utilizados ou mudança dapessoa que está coletando os dados, o quepode alterar os resultados em decorrência daparticularidade de cada um ao realizar sua ta-rea.

Para compreendermos o erro contido emuma pseudo-repetição espacial, vejamos o se-guinte exemplo: Nosso amigo Biólogo oi con-tratado novamente, mas desta vez, por umaempresa que cultiva eucaliptos, interessada

em saber a inluência das regiões de mata so-bre a densidade de mariposas que consome

os plantios. Portanto, a questão biológica édeterminar se a complexidade deste ambientepróximo ao plantio inluencia na densidade demariposas que devora os plantios.

O que aconteceria se nosso Biólogoamostrasse cinco seções de um plantio com

uma loresta nativa adjacente e outras cincoseções de outro plantio sem loresta adja-cente? Como demonstrado na Fig. 5, todas asseções do primeiro plantio poderiam ter me-nos mariposas porque a loresta adjacente oiqueimada em um passado recente ou é pou-co produtiva ou qualquer um de um grandenúmero de atores possíveis que aetam asmariposas. Para esta questão, uma amostrada densidade de mariposas em um plantioobviamente não é independente de outrasamostras do mesmo plantio. Portanto, as cinco

amostragens não carregam mais inormaçõesdo que uma única amostra.

De ato este erro simples é muito compli-cado de ser observado e, por isso, nós pesqui-sadores devemos preocupar-nos com a inde-pendência entre amostras. Isto é uma tarea

diícil porque nenhuma observação é comple-tamente válida ou inválida. Uma pseudo-repe-tição espacial para uma questão pode ser umarepetição válida para outra. Por exemplo, senosso amigo Biólogo estivesse interessado emdierenças nas densidades de mariposas entreplantios (sem levar em consideração a pre-sença de lorestas adjacentes) as cinco obser-vações seriam réplicas pereitamente válidas,cada uma trazendo mais inormação a respeitodas densidades de cada plantio.

As pseudo-repetições temporais são ain-

da mais diíceis de serem detectadas. Ocorrempor exemplo quando os pesquisadores têm ointeresse de descrever os eeitos da sazonali-dade sobre os padrões de diversidade em um

determinado sistema. Entretanto, o estado deum sistema natural não se altera instantanea-mente. Assim, coletas mensais em um mesmoponto não são independentes, porque as con-

dições climáticas da primeira coleta possueminluência nos padrões de diversidade encon-trados na segunda e, da mesma orma, as con-dições climáticas da segunda terão inluênciana terceira coleta, e assim sucessivamente nospróximos meses.

Problemas similares ocorrerão em qual-quer experimento que contenha múltiplas ob-servações ao longo do tempo (RUXTON ;COLE-GRAVE, 2006). Saber se estas observações sãoou não independentes variará de acordo comas particularidades biológicas de cada sistema.

Muitas vezes, como é o caso da sazona-lidade citada acima, não é possível ugir dapseudo-repetição temporal, o jeito é convivercom isso, analisando seus dados, incluindo o

◄ Figura 5: Esquemademonstrando asseções de coleta dopesquisador contratadopela empresa deeucalipto. Os pontosamarelos representama disposição da amostraem um plantio cobertopor área de mata em“A” e sem a presença de

mata em “B”.Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 17/58

 

17

Ciências Biológicas - Análise de Dados Biológicos

erro contido na amostragem (existem algunspacotes estatísticos especializados neste tipode erro) ou realizar coletas em um longo pe-ríodo de tempo, talvez décadas. Mas se qui-

ser um bom conselho, uja, como a caça ogedo caçador, de experimentos que contenhamqualquer tipo de pseudo-repetição. Isto com-plicará seus estudos.

1.5 Como selecionar um númeroapropriado de réplicas

Como vimos até aqui, um delineamentoadequado com réplicas verdadeiras é a basepara realização de análises estatísticas corre-tas e robustas. Assim, durante a elaboraçãodo delineamento experimental normalmentesurge a pergunta: Quantas replicações são ne-cessárias? Como oi discutido anteriormente,quanto maior é o número de repetições, maiorserá a coniança ao dizer que as dierenças en-tre grupos são reais e não simplesmente obrado acaso. Entretanto, o aumento no númerode repetições signiica aumento de custo paraa realização do estudo. Este custo pode ser i-nanceiro; se o experimento envolve a comprade reagentes caros, multiplicar o número deréplicas implica no aumento considerável des-ses custos ou, como normalmente é o caso, ex-perimentos custam muito TEMPO.

Portanto, temos que tentar equilibraro ideal ao real, azendo a pergunta: Quan-tas replicações meu experimento deve ter? Amelhor resposta seria, “O suiciente para terCONFIANÇA ao dizer que qualquer eeito bio-lógico encontrado existe sem a coleta de ob-servações desnecessárias”. Vamos com calma,decidir qual o tamanho adequado de amostrasnão é tão complicado assim!

Existem várias ormas de auxílio nestaquestão. Uma delas seria utilizar o materialexistente na literatura, buscando experimen-

tos que contenham características similaresao seu. Uma questão relativamente simples,mas este método somado à experiência queseu proessor orientador possui é uma técni-ca muito útil para determinar o tamanho daamostra.

Outra maneira seria azer exatamenteo que está descrito no item “Como deline-ar” descrito pelas iguras 1 e 2. Vá aumentan-

do o número de pontos no gráico até que opadrão pareça convincente. Este processo édescrito por Dytham (1999) como “collecting

dummy data” ou em português “coleta de da-dos substitutivos” (MAGNUNSSON; MOURÃO,2005).

Em um experimento simples como, porexemplo, saber quanto tempo de coleta é ne-cessário para determinar a riqueza de lagartosde um determinado local basta azer uma cur-va de acumulação de espécies, apesar de nãose adequar a todos os casos ( SCHILLING; BA-TISTA, 2008). Este método pode ser bastanteútil se o objetivo or determinar o tempo ade-quado e o número de armadilhas no local aser estudado. Basta realizar um estudo piloto,colocando suas armadilhas e coletar seus da-dos diariamente ou de hora em hora, mas isso

vai depender da escala. Com seus resultados,vá acumulando o número de espécies encon-trado na primeira coleta, com o encontrado nasegunda e assim, sucessivamente, até que a li-nha do seu gráico estabilize-se.

Por exemplo, na primeira coleta encontra-mos as espécies A, B e C, portanto temos umariqueza igual a três, na segunda coletamos asespécies D, E e F, portanto minha riqueza nasegunda coleta é igualmente três. Logo, aoacumularmos as riquezas das duas coletas,partiremos de três espécies novas na primeira

para seis espécies novas na segunda coleta.Continuando o experimento encontramos naterceira coleta as espécies A e G, portanto, ariqueza é igual a dois, mas nesta coleta pos-suímos apenas uma nova espécie, a espécie“G”, assim, ao acumularmos a riqueza, teremossete espécies coletadas no terceiro dia ou horade coleta (vejam a Fig. 6 a seguir para maioresdetalhes).

PARA REFLETIR

Nunca se convença deque não existem, naliteratura mundial, ex-perimentos que sejamsimilares ao seu. Sem-pre existem estudoscapazes de auxiliar na

construção do seu!

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 18/58

 

18

UAB/Unimontes - 6º Período

Analisando visualmente o gráico acima, somos levados a crer que a partir de oito coletasnão iremos acrescentar uma nova espécie em meus dados, portanto oito coletas é o número ide-al para realização deste trabalho. Entretanto, na biologia, as coisas não são tão simples assim.Vejamos o exemplo prático a seguir.

A curva do coletor deste artigo demons-tra que seus dados apontam para um crescen-te número de espécies encontrado ao longodas visitas. Demonstrando insuiciência amos-tral para a realização de um inventário com-pleto de aníbios (Toledo et al., 2003). Os au-tores realizam análises contendo índices como jackknie e bootstrapping por serem técnicasde reamostragem que ornecem um valor deriqueza de espécies e uma estimativa do inter-valo de coniança, permitindo comparações

estatísticas entre dois ou mais tratamentos.Não iremos ater-nos aos detalhes desta análi-se, mas é preciso que compreendam suas un-ções válidas e para tanto recomendamos a lei-tura de Trust (1974) para maiores detalhes.

Além destas técnicas, que são “boas di-cas”, existem inúmeros cálculos matemáticoselegantes para decidir quantas observaçõessão necessárias para se detectar um eeitode boa magnitude (KREBS 1989), entretantotodos eles requerem amostras preliminares(KRAMER; THIEMAN, 1987) e a maioria é limi-tada por situações triviais e simples (MAG-NUNSSON; MOURÃO 2005). Na prática nósnão precisamos recorrer a longos processosde simulações em computador para calcular

o poder do teste, você precisa saber que elesexistem. Decidir qual o tamanho ideal dasamostras é uma tarea que requer conheci-mento e, mais importante, paciência.

◄ Figura 6: Demonstraçãodo acumulo deespécies de lagartosem relação ao númerode coletas. Vejam queapenas as espécies“novas” são levadas

em consideração paraa construção de umacurva do coletor.Fonte: Acervo autores

◄ Figura 7: Curva docoletor calculada como número de espéciesde aníbios entre visitasao campo. Cada pontoexpressa a média de 50pontos gerados pelosimulador EstimateSversão 6.0b1 e as barrasindicam o desviopadrão calculado paracada ponto.FONTE: Toledo et al.,(2003), disponível em:http://www.ib.unicamp.br/museu_zoologia/iles/lab_museu_zoologia/To-ledo_et_al_2003_Comuni-dade_FEENA.pd 

GLOSSáRIOPoder do teste: É a

probabilidade que umexperimento possui

para detectar algumadierença entre os

tratamentos, assumin-do que esta dierençaexiste para ser detec-

tada. Ou em outraspalavras, “Se repetir

o experimento váriasvezes, quanto maior

o número de vezes

para que o seu testedescubra dierenças,mais adequado será otamanho da amostra”.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 19/58

 

19

Ciências Biológicas - Análise de Dados Biológicos

ReerênciasKraemer, H. C.; Thiemann, S. How Many subjects? Statistical power analysis in reseach. Theinternational Proessional publishers, London, 1987.

Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989.

Magnusson, W.E. & Mourão, G. Estatística sem matemtica. Londrina: Editora Planta, 2005.

Ruxton, G.D. & Colegrave, N. Experimental design or the lie sciences. 2ªed. Oxord, 2006.

Schilling, A. N., & Ferreira, L. Curva de acumulação de espécies e suiciência amostral em lorestastropicais. Acta Amazonica, 179-187, 2008.

Toledo, L. F., Zina, J. & Haddad, C. F. Distribuição Espacial e Temporal de uma Comunidade deAníbios Anuros do Município de Rio Claro, São Paulo, Brasil. Holos Environment, 136-149, 2003.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 20/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 21/58

 

21

Ciências Biológicas - Análise de Dados Biológicos

UNIDADE 2Probabilidade e variabilidade

Nesta unidade estudaremos dois concei-tos básicos para o entendimento da estatística:Probabilidade e variabilidade. O primeiro, deuma maneira geral, é mais claramente utiliza-

do no nosso cotidiano, ao passo que o segun-do é a base da maioria dos testes estatísticosde comparação de médias.

2.1 ProbabilidadeUm exemplo clássico de probabilidade é

a previsão do tempo. Quando lemos no jornalque existe 90% de chance de chover intuitiva-mente sabemos o que isto signiica, ou seja,que a chance de chover é extremamente alta.Sendo assim, é prudente sair com um guarda--chuva. Mas por que não podemos airmarcom certeza se irá ou não chover? Isto acon-tece porque existe variação nas condições,e esta nem sempre é possível de ser previs-ta. Entretanto, entraremos nesta questão umpouco adiante.

Vamos tomar um exemplo bem simples

para entender como calculamos a probabi-lidade de um evento real. Imaginemos umgrupo de leões que se alimenta de antílopes.Para calcularmos a probabilidade de um leãocapturar um antílope, basta que observemoscriteriosamente o número de ataques de leõesa antílopes e quantos destes são bem sucedi-dos. O ataque é, então, o evento que estamosobservando com dois resultados possíveis:Captura ou uga. Um evento, estatisticamentealando, deve ser um processo simples cominício e im bem deinidos.

Suponhamos que observamos, em um

dia, 100 ataques de leões a antílopes. Destes,98 resultaram em captura, ao passo que nosoutros dois ataques, os antílopes consegui-ram escapar. Para calcularmos a probabilidadede que nosso evento ocorra (neste caso nossoevento é a captura) basta dividirmos o núme-

ro de capturas pelo número de observações.

Neste caso temos:

Onde P : probabilidade; C  quantidade decapturas observadas; O número total de ob-servações.

Analisando a órmula, podemos chegar auma conclusão óbvia: Nunca pode haver maisresultados do que observação. Sendo assim,nossa probabilidade sempre estará entre 0 e 1.

Uma probabilidade (P ) , próxima a 1, indi-ca que nosso evento tem grandes chances deacontecer. Por outro lado, um valor de P baixoindica que as chances de que nosso eventoocorra são raras.

Entretanto, mesmo o cálculo simples,como o de leões e antílopes, pode ser proble-mático. Poderíamos ter observado nosso even-to, por exemplo, em um dia muito quente, o

que poderia ser uma vantagem para os leões,causando uma maior probabilidade de cap-tura do que o habitual. Então, como deinir oquanto de observações é necessário para esti-marmos a probabilidade?

2.2 Probabilidade e amostragens  Em nosso exemplo, observamos os

leões e antílopes durante um dia e calculamosnossa probabilidade de captura P=0,98. Se to-marmos este valor como real, observamos que

é quase certa (98% de chance) a captura deum antílope pelos leões. Entretanto, conorme já dito, vários outros atores poderiam estaratuando neste nosso dia de estudo em parti-

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 22/58

 

22

UAB/Unimontes - 6º Período

cular. Uma maneira de resolver isso seria rea-lizar o experimento em todos os dias duranteum ano. Entretanto, esta seria uma maneiraextremamente custosa de solucionar o proble-ma. Então como resolver esta questão?

Uma maneira eicaz de se estimar a pro-

babilidade é através do uso de amostras (GOT-TELI; ELLISON, 2011). Uma amostra, nada maisé, do que uma parcela considerável do nossoobjeto de estudo. No caso poderíamos obser-var durante cinco dias por mês nosso evento(captura de antílopes por leões), em dierentespartes da área de estudo. Assim, assumiríamosque a maior parte das condições ambientaisem que nosso evento está inserido oi englo-bada. Após a realização desta nova metodolo-gia, o pesquisador chegou aos seguintes nú-meros:

Capturas Fugas Total

65 35 100

Note que, neste caso, nosso resultado oibastante dierente do encontrado no primeiromomento. Esta probabilidade de P=0,65 prova-velmente aproxima-se mais da realidade, umavez que o experimento oi conduzido sob die-rentes condições ambientais. Sendo assim, em

nosso exemplo, a chance de um leão capturarum antílope em condições naturais é de 65%.

Estimativas de probabilidades também sãopossíveis com experimentos em laboratório. Umpesquisador interessado em estudar a germina-ção de sementes de uma dada espécie vegetal

pode, por exemplo, controlar algumas variáveis erealizar testes de germinação com estas semen-tes para estimar a probabilidade de que as se-mentes germinem sobre determinada condição.

Imaginemos um pesquisador interessadoem estudar os eeitos da seca sobre a germi-nação de pequizeiro (Caryocar brasiliense) umaárvore típica do cerrado. O pesquisador coletasementes desta planta e, em laboratório, acom-panha sua germinação durante um período de30 dias com umidade controlada de 20% (estesnúmeros icam a critério do pesquisador, depen-

dem de seu objetivo). Ao im do experimento,ele pode calcular a probabilidade de germinaçãodas sementes de pequizeiro em um ambiente debaixa umidade. Notem que experimentos labo-ratoriais permitem o controle de outras variáveis.Se o mesmo experimento osse conduzido nocampo, além de ser quase impossível o contro-le da variável principal (umidade) outros atorescomo luminosidade, temperatura, etc., poderiamatuar em conjunto, mascarando os resultados.

A utilização de amostras em biologia é algo natural. Na maioria dos casos, é impossível,ou pelo menos inviável, a realização de um experimento ou observação de um evento comtodos os indivíduos de uma população. Sendo assim, a utilização de amostras é importanteerramenta no desenvolvimento de trabalhos cientíicos.

2.3 VariabilidadeA variabilidade é algo comum na biolo-

gia. (Magnusson; Mourão, 2003) Aliás, a va-riação entre indivíduos é a base de uma das

teorias mais revolucionárias na biologia: Ateoria da seleção natural. A variabilidade sereere a dierenças encontradas em um pa-drão especíico. Por exemplo, em indivíduosde uma mesma espécie, encontramos die-renças genotípicas, o que chamamos de va-riabilidade genética. De ato, biologicamen-te alando, não existem amostras retiradasde uma população (neste caso designando

a totalidade) que não apresente variações,mesmo que diminutas. Vamos a mais umexemplo simples.

Um pesquisador está interessado emassociar o ganho de peso ao tipo de dietaoerecida a uma espécie de peixes comer-cial, a tilápia. Em dois tanques, ele colocadez tilápias em cada e oerece dois tiposde ração: Uma rica em gordura e a outraem proteína. Após dois meses de experi-mento, os peixes oram pesados e encon-trados os seguintes resultados:

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 23/58

 

23

Ciências Biológicas - Análise de Dados Biológicos

Tabela 1: Peso de peixes em dois tanques de criaçãoalimentados com dierentes rações (tratamentos)

IndivíduoTanque

I – Gordura(peso em kg)

Tanque II –Proteína (peso

em kg)

1 3 1,5

2 2,7 2,0

3 4,5 2,1

4 1,9 1,7

5 2,0 1,8

6 2,4 2,0

7 2,8 2,,3

8 2,3 1,6

92,0 2,0

10 2,1 1,8

Note nos resultados que, mesmo empeixes com a mesma dieta, oi observadadierença no ganho de peso. Ou seja, existeuma variabilidade no seu parâmetro obser-vado. Isto possivelmente pode estar relacio-nado a características isiológicas de cadaindivíduo. Sendo assim, indivíduos com amesma dieta, submetido às mesmas condi-ções, apresentam dierenças no peso. Qual

a importância desta variabilidade para o ex-perimento do pesquisador?

O interesse inicial do pesquisador é rela-cionar o tipo de dieta ao ganho de peso. Deacordo com nossos dados, observamos umatendência no aumento de peso nos peixes

submetidos a uma dieta rica em gordura, en-tretanto dierenças oram observadas mesmoem peixes com a mesma dieta. Se izermos amédia, observaremos que peixes com dietagordurosa, pesam, em média, 2,57 kg. Enquan-to peixes com dieta protéica pesam, em média1,88 kg. Uma simples análise destes dois nú-meros não nos permite chegar a uma conclu-são. Na verdade, o pesquisador deverá utilizartestes estatísticos que comparam a variabili-dade entre indivíduos do mesmo grupo e avariabilidade entre grupos. Esta dierença será

válida desde que a variabilidade entre gruposseja maior do que a variabilidade entre indiví-duos do mesmo grupo. Caso isto seja verdade,o pesquisador poderá concluir que uma die-ta rica em gordura causa um ganho de pesomaior em tilápias do que uma dieta protéica.

Vamos novamente a um exemplo de ex-perimento laboratorial. Um pesquisador estáinteressado em determinar a eicácia de die-rentes concentrações de inseticidas no contro-le de besouros. Ele monta um experimento deacordo com o esquema a seguir:

Concentração 100gr/L

Concentração 500gr/L

O pesquisador criou seis grupos comdez besouros da mesma espécie e aplicou,em cada um dos grupos, concentrações die-rentes de um determinado inseticida. Após30 dias, o pesquisador contou e comparou

a quantidade de besouros mortos entre asdierentes amostras. Provavelmente ele te-nha observado uma variação na quantidadede indivíduos entre os grupos devido a uma

maior susceptibilidade à morte de alguns in-divíduos.

A intenção do pesquisador é veriicarse existe dierença entre os tratamentos (con-centração de inseticida). Para isto ele utilizará

um teste estatístico novamente baseado namédia e variabilidade de indivíduos mortosentre suas amostras. Caso seja observada umadierença signiicativa, ele poderá atribuir uma

Figura 8: Esquemademonstrando o

desenho experimentalcriado por um

pesquisador a imde testar o eeito

da concentração deinseticidas sobrea mortalidade de

besouros.Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 24/58

 

24

UAB/Unimontes - 6º Período

maior eicácia a uma concentração especíicade inseticida. Caso não veriique esta dieren-ça, ele assumirá que as duas concentraçõestestadas têm a mesma eicácia no controledesta espécie de besouro.

Não entraremos, neste momento, nos tes-

tes estatísticos citados. A ideia desta unidade

é apresentar os conceitos de probabilidadee variabilidade. Entendendo-os plenamentepoderemos então partir para as próximas uni-dades. Caso ainda tenha dúvida, reveja estesconceitos, pois são conceitos-chave no desen-volvimento de toda a disciplina.

ReerênciasMagnusson, W.: Mourão, G. Estatística sem Matemtica: A Ligação Entre as Questões e aAnlise. Editora Planta, 2003.

Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 25/58

 

25

Ciências Biológicas - Análise de Dados Biológicos

UNIDADE 3Hipóteses Biológicas

Inicialmente podemos dizer que hipóte-ses são explicações potenciais sobre um even-to que estamos observando. No experimentoda unidade anterior o evento é o ganho depeso das tilápias. Uma hipótese para explicareste evento é o tipo de dieta dos peixes. Outroexemplo é a quantidade de rutas produzidaspor plantas cultivadas em solos sem adubaçãoe com adubação. Meu evento é a produção di-erencial de rutos. Minha hipótese é a quanti-dade de nutrientes disponíveis no solo. Sendo

assim, a relação evento/hipótese pode ser de-inida como uma relação de causa (hipótese) eeeito (observação).

Observações são os nossos dados, ouseja, os eventos que observamos no mundoreal conhecidos como atos. Se as observa-ções são o “quê” da ciência, as hipóteses sãoo “como”. Portanto, as observações são cole-tadas do nosso cotidiano, de eventos naturais,

enim, do mundo real. Já as hipóteses não ne-cessariamente o são. As hipóteses podem virda literatura já existente, de modelos teóricose muitas vezes da intuição e conhecimentoprévio do pesquisador. Entretanto, uma pre-missa básica deve ser obedecida no desenvol-vimento de hipóteses cientíicas: Ela deve sertestvel. Assim, deve haver a possibilidade dedesenvolvermos experimentos que nos permi-tam aceitar, modiicar ou rejeitar nossa hipóte-se desenvolvida.

“Por que o céu é azul? Porque Deus quisassim.” Este é um exemplo de uma hipótesenão cientíica. Não há meios de testarmos estaexplicação para nosso evento. Hipóteses base-adas na é, em deuses onipresentes ou qual-quer outra explicação não testável não devemazer parte do arsenal de um cientista. Valeaqui relembrar o antagonismo entre ciência ereligião já discutido na disciplina evolução.

3.1 Métodos cientíicosO método cientíico é a maneira que utilizamos para escolher entre hipóteses com base em

nossas observações. Os cientistas utilizam vários métodos em seus trabalhos e, alguns destes,serão abordados daqui para rente.

3.2 Dedução e induçãoDedução e indução são dois importantes

modos de raciocínio cientíico e ambos pro-põem inerências baseadas nos dados co-letados. A dierença básica é que enquanto adedução vai do geral para o especíico, a indu-ção az exatamente o contrário. Vamos utilizarexemplos simples para entender esta questão.

1. Todos os homens têm coração;2. Fernando é homem;3. Fernando tem coração.

Este exemplo, embora bastante simples,

demonstra um caso de dedução clássica. Parti-mos do geral para o mais especíico. Vamos ago-ra a um exemplo um pouco mais elaborado:

1. Todos os morcegos do Parque Estadual

da Mata Seca (PEMS) pertencem à amíliaPhyllostomidae;

2. Eu coletei este morcego no Parque Esta-dual da Mata Seca;

3. Este morcego é da amília Phyllostomi-dae.

Notem que novamente partimos de umcaso geral (todos os morcegos) para um casoespecíico (o morcego em particular que oicoletado). A última airmação é uma con-clusão: Se todos os morcegos do PEMS são

ilostomídeos (1) e eu coletei este morcegono PEMS (2), logo este morcego é um ilosto-mídeo (3). Esta sequência de pensamentos étambém chamada de silogismo.

GLOSSáRIO:

Inerência é umaconclusão tirada pelopesquisador com basenos seus dados.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 26/58

 

26

UAB/Unimontes - 6º Período

Em contraste com o pensamento deduti-vo, temos o indutivo:

1. Fernando tem coração;2. Fernando é homem;3. Todos os homens têm coração.

O modelo indutivo é então o oposto dodedutivo: Parte do especíico para o geral. Va-mos utilizar novamente um exemplo biológicopara uma explicação mais detalhada:

1. Todos estes 20 morcegos são da amíliaPhyllostomidae;

2. Todos estes 20 morcegos oram coletadosno Parque Estadual da Mata Seca;

3. Todos os morcegos do Parque Estadu-al da Mata Seca pertencem à amília

Phyllostomidae.

Os cientistas deinem o modelo dedutivocomo uma inerência certa e o indutivo comouma inerência provável. (GOTELLI; ELLISON,2011). De ato é isto o que ocorre. Se as duaspremissas estão certas no primeiro exemplo(dedutivo) a conclusão obrigatoriamente tam-bém será verdadeira. Já no modelo indutivo,embora a conclusão provavelmente seja ver-dadeira, ela também pode ser alsa mesmosendo as duas primeiras premissas verdadei-ras. Como?

Pense em um trabalho com duas coletasno PEMS. Em cada uma oram capturados dezmorcegos. Do total, todos eram ilostomídeos,o que ez o pesquisador tirar a conclusão deque todos os morcegos do PEMS são ilosto-mídeos. Entretanto, nada impede que em uma

terceira coleta indivíduos de outras amíliassejam amostrados no Parque. Caso isto ocorra,nossa conclusão deixa de ser verdadeira.

A ciência, de uma maneira geral, é indu-tiva. Isto é verdade principalmente porque aestatística é, por natureza, indutiva. Frequen-

temente tentamos tirar conclusões gerais combase em amostras especíicas e limitadas. Istoé comum na ciência, pois muitas vezes, comono exemplo citado, torna-se impossível a co-leta de todo nosso campo de estudos. É im-provável, e praticamente impossível, que euamostre todos os morcegos do PEMS. Sendoassim, sempre haverá margem para que minhaconclusão seja rejeitada. Quanto mais próximoda totalidade de morcegos eu amostrar (maiorconjunto de dados coletados) mais orte tor-na-se minha conclusão.

Podemos citar duas vantagens principaisdo método indutivo: Enatiza a ligação entredados e teoria; constrói e modiica hipótesescom base em conhecimento prévio. Sendo as-sim, o método indutivo baseia-se na coleta dedados que suportem ou que modiiquem a hi-pótese inicial.

Seguindo este raciocínio, podemos apon-tar uma desvantagem no método indutivoclássico: Ele considera somente uma hipóteseinicial. Sendo assim, outras hipóteses somenteserão desenvolvidas em resposta a observa-ções adicionais. Caso o pesquisador comece

seu trabalho com uma hipótese equivocada,o caminho para chegar a uma resposta cor-reta poderá tornar-se bastante longo. Alémdo mais, este método encoraja o pesquisadora conirmar sua hipótese inicial, mesmo queseus dados não a conirmem claramente.

Observação

Inicial

Novas

Observações

As novas

observações

comprovam a

hipótese?

Sim Hipótese

confirmada

Hipótese

Predição

3.3 Método hipotético-dedutivoOutro método utilizado na ciência é o

hipotético-dedutivo. Ele se inicia através deuma observação que tentamos explicar, comono método indutivo. A dierença é que, neste

caso, o pesquisador propõe múltiplas hipóte-ses explicativas. Assim, o objetivo do pesqui-sador não é conirmar, e sim alsear (rejeitar)hipóteses. A rejeição elimina algumas explica-

Figura 9: Esquemailustrando o método

indutivo.Fonte: Adaptado de Gotte-

li e Elisson, 2011.

DICAS:

A internet está cheiade silogismos interes-

santes como alguns dosite http://interessante.

Rangesite.Com/index.Php?Option=com_content&view=article&id=143:silogismo&catid=3

8:geral&itemid=54 pro-cure mais a respeito.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 27/58

 

27

Ciências Biológicas - Análise de Dados Biológicos

ções e a lista é reduzida a um número menorde hipóteses competidoras. Sendo assim, umaexplicação permanece válida até que novasobservações sejam eitas e rejeitem aquelahipótese estabelecida anteriormente e umanova seja aceita.

Nenhum método cientíico é mais corretoque outro. Entretanto os métodos hipotético--dedutivo e indutivo caracterizam muito a ci-ência no mundo real. Entender estes métodosé importante para nosso próximo passo, que étestar hipóteses.

3.4 Testando hipóteses estatísticasA utilização da estatística para testar hi-

póteses é uma parte do método cientíico, emuitas vezes nos toma bastante tempo. Deato uma das explicações é a nossa aversãoinicial a números. Entretanto, superando este

“trauma inicial”, a estatística se torna uma er-ramenta simples e bastante útil no desenvolvi-mento da ciência. Entender o conceito por trásda matemática é a melhor orma de entendera estatística.

3.5 Hipótese nula x Hipótesealternativa

Conorme já discutido, uma hipótese édesenvolvida para explicar uma observação.Estatisticamente alando, devemos testar estahipótese a im de descobrir se o resultado ob-servado não está relacionado meramente ao

acaso. Entra aí o nosso conceito de hipótesenula (também chamada de H

0). A hipótese

nula, nada mais é do que uma explicação maissimpliicada possível do padrão observado. Namaioria das vezes atribui-se o resultado a umaaleatoriedade da variação ou ao erro de medi-das. Vamos simpliicar com exemplos.

Voltemos aos nossos exemplos da uni-dade I. O objetivo do pesquisador é avaliar sedietas dierentes aetam o ganho de peso en-tre as tilápias. Para tanto, o pesquisador sele-cionou 20 peixes e os dividiu em dois grupos

com dez indivíduos cada. Cada grupo oi sub-metido às mesmas condições, com exceçãoda dieta. Sua hipótese nula (H

0), neste caso, é a

de que o aumento de peso é devido ao acaso.Ou seja, a dieta (que é o oco de seu estudo)não tem inluencia sobre o ganho de peso dospeixes. Sua hipótese alternativa é que o au-mento de peso é maior no grupo que receberação rica em gordura (a dieta tem inluênciano ganho de peso). Caso o pesquisador en-contre dierença estatística no peso dos pei-xes entre os grupos, ele aceitará sua hipótese

alternativa e prosseguirá com seu estudo paraexplicar o porquê desta variação. Por outrolado, a ausência de dierença entre os gruposindicaria que sua hipótese nula é verdadeira,ou seja, a dierença de peso observada entre

os grupos é devida, meramente, ao acaso.Vamos utilizar agora o exemplo das ba-

ratas. A hipótese alternativa do pesquisadorpoderia ser a de que uma maior concentraçãode inseticida tem uma maior eiciência no con-trole de besouros. Já sua hipótese nula (H

0) é a

de que não existe relação entre concentraçãodo inseticida e a mortalidade dos insetos. Opesquisador aceitaria sua hipótese alternativa,caso o grupo dos besouros submetidos ao tra-tamento de 500mg/L apresentasse uma mor-talidade signiicativamente maior do que a

do outro grupo. Sua hipótese nula seria aceitacaso isto não osse observado.A nossa hipótese nula é aceita geralmen-

te quando existe uma maior variabilidade en-tre indivíduos do mesmo grupo do que entregrupos. Existem diversas ormas de calcular avariabilidade, todas baseadas na distância dospontos em relação à média, também chamadade desvio. Quanto maior o desvio, maior seráa variabilidade dos dados. Vamos novamenteutilizar o exemplo dos peixes para entendereste conceito.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 28/58

 

28

UAB/Unimontes - 6º Período

 

+1,93

-0.67

O gráico acima é relativo ao tanque I,no eixo X temos os indivíduos e em Y seurespectivo peso. Cada ponto azul no gráicorepresenta um indivíduo e a linha tracejada

vermelha é a média de peso para o tanque I.Assumiremos aqui que você já sabe como cal-cular um valor de média. Caso ainda tenha dú-vidas nesta questão, recorra a sua apostila dematemática.

A distância entre cada ponto para média(representada no gráico pelos colchetes) éo desvio, como já dito, uma medida de varia-bilidade. Note que caso o desvio esteja acimada média ele terá um valor positivo. Por outrolado, pontos abaixo da média apresentarãoum desvio negativo. Um dos meios mais sim-ples para calcular a variabilidade é utilizar o

desvio médio absoluto, ou seja, a média dasdistâncias de cada ponto até a média. Paracalcular este parâmetro, somamos os desviosmédios absolutos (ou seja, o módulo dosdesvios) e dividimos pela quantidade total depontos. Utiliza-se o módulo do desvio, pois osomatório dos desvios é sempre zero quandoo sinal é conservado.

O desvio médio nos permite dizer que notanque um, os peixes pesam 2,57 ± 0,54 kg.Note que, neste caso, adicionamos a margemde erro relacionada à variabilidade. Isto signi-

ica dizer que a maioria dos dados se encontraneste intervalo.O desvio absoluto médio é apenas uma

das várias medidas da variabilidade existen-tes. Embora bastante simples e intuitiva estanão é a medida mais utilizada em trabalhoscientíicos. (MAGNUSSON; MOURÃO, 2003). Namaioria das vezes, utiliza-se o desvio padrãoou alguma derivação dele, que em alguns ca-

sos, torna-se um parâmetro mais reinado. En-tretanto, não abordaremos as órmulas paracalcular o desvio padrão, já que a ideia por trásdos números é a mesma do desvio absoluto

médio: Medir a variabilidade.Após o entendimento destes cálculossimples, podemos passar para o estudo de al-guns testes estatísticos.

Observem a tabela a seguir com os cálcu-los dos parâmetros discutidos:

Tabela 2: Peso de peixes em um tanques de criaçãobem como os valores de desvio e o módulo de

desvio para o peso de cada indivíduo.

IndivíduoTanque I

(kg)Desvio

Módulo dodesvio

1 3 0.43 0.43

2 2.7 0.13 0.13

3 4.5 1.93 1.93

4 1.9 -0.67 0.67

5 2 -0.57 0.57

6 2.4 -0.17 0.17

7 2.8 0.23 0.23

8 2.3 -0.27 0.27

9 2 -0.57 0.57

10 2.1 -0.47 0.47

Média 2.57

∑ |Desvios| 5.44

Desviomédio

0.544

ReerênciasMagnusson, W.: Mourão, G. Estatística sem Matemtica: A Ligação Entre as Questões e aAnlise. Editora Planta, 2003.

Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011.

◄ Figura 10: Gráicodemonstrando o pesode cada indivíduo doTanque I.Fonte: Adaptado de Gotte-li e Elisson, 2011.

DICAS:

Faça uma tabela seme-lhante para os peixes

do tanque dois. isso

ajudará a ixar o que oiexplicado.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 29/58

 

29

Ciências Biológicas - Análise de Dados Biológicos

UNIDADE 4Regressão linear e ANOVA

Antes de começarmos a estudar as aná-lises estatísticas, vale lembrar que, conormevisto na Unidade I,  p é a probabilidade de quemeu evento de estudo aconteça. Na estatísti-ca, o valor de  p indica a signiicância do meuteste. Ou seja, na estatística, meu valor de  p mede a probabilidade de que a dierença ob-servada poderia ser encontrada caso minhahipótese nula H

0seja verdadeira.

Vamos recorrer ao nosso exemplo base

(ganho de peso em tilápias). Suponha queapós utilizar um teste estatístico adequado,o pesquisador tenha encontrado um  p=0,54.Isto quer dizer que existem 54% de chancesde que a dierença de peso encontrada entrepeixes submetidos a dierentes dietas este- ja relacionada meramente ao acaso, e não àdierença da dieta. Sendo assim, quanto maispróximo o valor de  p or de zero, menor será aprobabilidade de que a variação seja explicadapelo acaso. Neste caso, o pesquisador aceitariasua hipótese alternativa. Entretanto, quandoconsiderar que um valor de  p seja suiciente-mente baixo para que se rejeite a H

0?

Em biologia, rejeitamos nossa hipótesenula quando  p<0,05. Ou seja, existem menosde 5% de chances de meus dados estarem re-lacionados ao acaso. Podemos considerar estenúmero bastante rigoroso. Em uma compara-ção simples, isto signiica dizer que somentesairíamos de casa com guarda chuva quando aprevisão do tempo apostasse 95% de chancesde chover. Caso adotássemos este costume,com certeza seríamos pegos de surpresa di-versas vezes.

Entretanto, em biologia, a observaçãodos padrões cientíicos deve ser orte. Diversosautores trabalham baseados em teorias e hi-póteses ormuladas em outros trabalhos. Sen-do assim, um ponto de corte mais alto (valorde  p alto) signiicaria que muitos trabalhos se-riam inerências racas sobre a realidade. Estu-dos realizados na área da saúde, como testesde ármacos, desenvolvimento de vacinas, etc.,geralmente consideram signiicativos valores

de  p<0,01. Ou seja, estes trabalhos são aindamais rigorosos quanto a aceitar sua hipótesetestada, o que é bastante recomendável.

Aceitar ou rejeitar hipóteses está intima-mente relacionado a dois erros em testes dehipóteses: Erro do tipo I e erro do tipo II. Errosdo tipo I consistem em rejeitar uma hipótesenula quando esta é verdadeira. Ou seja, tere-mos uma explicação alsa para nosso evento.Já no erro do tipo II, o contrário é observado,

aceitamos nossa hipótese nula, mesmo estasendo alsa. Ou seja, o pesquisador alha emdetectar a dierença entre os grupos. Vamos aum exemplo:

Um pesquisador encontra-se interessadoem veriicar se o rendimento escolar de umaluno está relacionado à indisciplina. Nestecaso, ele utiliza um teste comparando alunosindisciplinados com alunos sem problemasneste quesito. Caso o pesquisador tenha alha-do no delineamento de seu experimento (vejaUnidade I) ele poderá erroneamente atribuirum baixo rendimento à indisciplina (erro dotipo I) ou assumir que a indisciplina não temrelação com o rendimento do aluno (erro dotipo II). Notem então que a análise, ou mesmoa interpretação errada dos seus dados, podegerar tanto erros do tipo I quanto do tipo II emum mesmo desenho experimental.

De maneira geral o erro do tipo I pode serconsiderado mais grave, já que atribui a ummecanismo mais complexo uma explicaçãoque é simplesmente obra do acaso. Outrospesquisadores podem se basear na sua pes-quisa e desenvolver trabalhos naquela ale-

gação alsa. Já o erro do tipo II possivelmenteserá rapidamente visualizado, já que outrospesquisadores com dados mais completos ouexperimentos mais organizados poderão rejei-tar aquela hipótese nula e a ciência prossegui-rá daquele ponto.

Sabendo-se então o signiicado de  p emum teste estatístico, vamos enim aos nossostestes.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 30/58

 

30

UAB/Unimontes - 6º Período

4.1 Regressão linear simples: Um atorAs regressões são usadas na comparação

de dados numéricos onde uma variável é colo-

cada em unção da outra. Dizemos, portanto,que a variável “Y” é dependente da variável“X”. Em outras palavras, X explica as variaçõesde Y. Por este motivo é comum encontrar noslivros de estatística a variável “Y” chamada de“variável resposta” e a variável “X” de “variávelexplicativa”.

Podemos traduzir a inluência desta vari-ável na variável resposta (Y) em uma equaçãomatemática como:

Nesta equação “a” é a elevação ou o valorda variável resposta (Y) quando a variável ex-

plicativa é zero, este parâmetro é chamado deintercepto. O parâmetro “b” é a inclinação ou aquantidade que a resposta aumenta para cadaunidade de aumento da variável explicativa.

Viu?! Por isso que, em uma regressão, dis-semos que uma variável “varia” em unção daoutra.

Até o momento vimos dados categóri-cos, em que os níveis são comparados entre si.Agora iremos relacionar duas variáveis quanti-tativas e veriicar se existe relação entre elas.Veja a igura 11.

Neste gráico parece existir uma rela-ção positiva entre o número de participaçõesem sala de aula (Eixo y, variável resposta), emunção do aumento da requência de alunospresentes em sala de aula (Eixo X, variável ex-plicativa). Ou seja, à medida que existam mais

alunos em sala de aula, as aulas obterão ummaior número de participação a respeito damatéria.

Este gráico nada mais é do que a repre-sentação de uma tabela. Veja que se cruzar-mos os dados da tabela no gráico, como o jogo “batalha naval”, encontraremos cada umdaqueles pontos no gráico.

Tabela 3. Dados quantitativos demonstrando osvalores da relação entre o número de participações

e a quantidade de alunos em sala de aula.

Eixo x Eixo y

27 15

31 10

20 11

26 11

26 21

23 9

13 1

22 8

18 6

18 317 2

16 1

15 1

DICAS

A regressão é umaanálise que visa basi-

camente estimar estesparâmetros e veriicarse são estatisticamente

signiicativos.

◄ Figura 11: Relaçãoentre o número departicipações dosalunos em aula, e onúmero de alunospresentes em sala.Fonte: Acervo autores

PARA REFLETIR

A habilidade para in-terpretar as estatísticas

não é tão importantequanto à habilidade de

interpretar gráicos

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 31/58

 

31

Ciências Biológicas - Análise de Dados Biológicos

Sabendo-se o conceito de inerência, agora podemos montar as hipóteses:• H

0: As participações não aumentam com o aumento no número de alunos na sala de aula.

• H1: As participações aumentam com o número de alunos na sala de aula.

Nossa equação, colocando * para representar a multiplicação, ica:• y (Participação em sala de aula) = a + b * x (Frequência de alunos)

Para sabermos se existe uma relaçãoentre estas duas variáveis é necessário esti-mar os parâmetros a e b. Mas antes iremosveriicar se o modelo construído é válido es-tatisticamente. Para isso devemos calcular aSoma dos quadrados totais, criando o mo-

delo de análise de variância geral. Se a rela-ção or linear, a probabilidade de se detec-tar uma relação aumenta com o aumento daamplitude do intervalo (valores do eixo X).Observe as iguras abaixo contendo as varia-ções em torno das Hipóteses.

A igura três representa a soma dosquadrados dos erros (SQE) em relação aosvalores estimados pelo modelo. Basica-mente quando azemos linhas retas emgráicos, buscamos minimizar a distânciamédia da linha aos pontos. É exatamenteisso que o modelo prediz, ou seja, quanto

mais próximo minha reta está dos pontosamostrados, mais chances de acertar aodizer que minhas variáveis se relacionam.

Menor é o erro!Isso ocorre porque com o SQE obtemos a

soma de quadrados da regressão (SQR), que édada pela seguinte órmula:

Isso signiica que quanto menor o erro

DICAS

Quando nós, outraspessoas, ou programas

de estatística colo-cam linhas retas emgráicos, azem istominimizando a distân-cia média da linha aospontos (Magnusson eMourão, 2005).

Figura 12:Representação da

variância em torno da

H0.Fonte: Acervo autores

Figura 13:Representação da

variância em torno daH

1.

Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 32/58

 

32

UAB/Unimontes - 6º Período

(SQE), maior será a SQR. Entretanto, para verii-car se esta relação é signiicativa devemos cal-cular o valor de “F” obtido através da órmula:

Como podemos observar o valor de “F”leva em consideração os graus de liberdadeutilizados no modelo (gl

regressão), agora é des-

cobrir qual a probabilidade associada a este Fcom os respectivos graus de liberdade.

Não se preocupem, não precisamos

fazer estes cálculos com uma calculadora,

existe uma série de programas estatísticos

que fazem isso com apenas um coman-

do. Aqui, no meu caso, estou utilizando o

software R (disponível: http://cran.r-project.org/), um programa gratuito, fácil de ser 

instalado em seu computador, mas de ope-

ração um pouco mais complicada, quando

comparado a programas pagos, disponí-veis no mercado.

Portanto para verificar a probabilidade

associada ao F e aos graus de liberdade,

através de uma análise de variância, basta

digitar:

Anova (modelo).

Tabela 4: Tabela de análise de variância. Os graus de liberdade estão representados em “D” (degrees of freedom), soma dos quadrados por “Sum Sq” e a média da soma dos quadrados por “Mean Sq”.

Tabela de variância

Varivel resposta (Y): Número de participações em sala

D Sum Sq Mean Sq F valor P valor

N. alunos 1 289.282 289.282 19.668 0.001**

Residuals 11 161.795 14.709

** Indica a signiicância do teste

Vejam que a probabilidade da relaçãoentre as variáveis ser casual oi igual a 0,001(Tabela 2), ou seja, existe 1 chance em 1000 dementir quando airmamos que o número dealunos dentro da sala de aula aeta a participa-ção durante as aulas. De ato ter muitos alunosem sala de aula é importante para o númerode participações.

Para completarmos nossa análise e nossaequação, devemos obter os valores dos parâ-metros a e b. Para ambos as ormulas são sim-ples, veja:

Onde “n” é o número de amostras, Ȳ e Ẋ são as médias dos valores dos eixos y e x res-pectivamente. O único problema de reazerdados biológicos à mão, utilizando apenasuma calculadora, é de que normalmente nos-sos dados giram em torno de dezenas de nú-meros, que somados, utilizam várias casasdecimais. Portanto, atualmente estes valores,para nossa sorte e prazer, podem ser adquiri-dos em qualquer programa de estatística queexiste, apenas devemos pedir o resumo (sum-mary) da análise.

Summary (modelo)

Tabela 5. Resumo da análise de variância. Demonstrando os coeicientes da análise de variância. O“Estimate” representa as estimativas dos valores utilizados na regressão, “a” o intercepto e “b” o coeiciente

angular.

Coeicients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -11.3814 4.4137 -2.579 0.02565 *

Nalunos 0.9079 0.2047 4.435 0.00100 **

Std. error (Erro padrão) T value (Valor do teste T, “Valor crítico” é a dierença entre as médias, divididas pelo desviopadrão, usadas no calculo da probabilidade da hipótese nula ser verdadeira.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 33/58

 

33

Ciências Biológicas - Análise de Dados Biológicos

Nossa equação era: “Participação em salade aula = a + b * Frequência de alunos”. Agorairemos substituir os valores para deinirmos ográico. Na seção “Estimate” estão os valoresestimados do intercepto “a” (-11.3814) e do co-

eiciente angular “b” (0.9079), substituindo aormula ica:

Participação em sala de aula = -11.3814+0.9079*x

Resumindo a matemática dos nossos cál-culos, na ausência de alunos na sala de aula, onúmero de participações é -11.3814 (a ou inter-

cepto) e o incremento de um aluno na sala deaula provoca o aumento de 0.9079 participa-ções na aula (b ou inclinação da reta).

4.2 Regressão múltipla: múltiplosatores

A regressão múltipla segue as mesmaspremissas da regressão simples. Entretanto aregressão múltipla envolve mais de um atorinluenciando na sua variável resposta, ou seja,ainda que exista apenas uma variável respos-ta, devem existir duas ou mais variáveis expli-cativas.

A proposta deste tipo de análise é reduziro coeiciente do intercepto, o qual, em regres-são, signiica a parte da variável dependenteexplicada por outras variáveis, que não a con-siderada no modelo. Em outras palavras, aoinserir mais de uma variável explicativa, a vari-ância residual (ERRO PADRÃO DA ESTIMATIVA)diminui, e aumenta a orça dos testes de signi-icância. Além disso, podemos eliminar a ten-denciosidade que poderia resultar se simples-mente ignorássemos uma variável que aeta Ysubstancialmente.

Vamos seguir com o exemplo anterior. Oproessor de Ciências continua interessado emsaber quais atores são capazes de despertar ointeresse dos alunos pela disciplina.

Através da regressão simples, ele concluiuque quanto mais alunos em sala, melhor é onúmero de participações dos mesmos. Mas osanos de experiência, como proessor, dizem aele que, na prática, elevar o número de alunosem uma sala de aula gera desordem e alta decontrole. Portanto, aumentar o número de alu-nos em sala está ora de cogitação. Para sanara dúvida causada pela matemática da análisede regressão simples, ele resolve inserir maisuma variável em suas análises.

Veja! Isso é o que a regressão múltipla nospermite azer. Você se lembra que a equaçãoda reta na regressão simples era: y = a + bx;agora a equação ica y = a+ b1x1+b2x2...bnxn.Desta orma, o proessor pode inserir variáveisexplicativas que se relacionam em um mesmomodelo e assim obter resultados mais coniá-veis. Entretanto, para o aumento de cada va-

riável explicativa existe o custo nos graus deliberdade, pois cada nova variável requer, nomínimo, um grau de liberdade para estimarsua probabilidade de eeito no modelo. Por

PARA REFLETIR

A estatística “t” oi in-troduzida em 1908 porWilliam Sealy Gosset.Contratado por umacervejaria ele desen-volveu o teste “t” comoum modo barato demonitorar a qualidadeda cerveja.Figura 14 : Gráico Final,

relação entre o númerode participação na

aula e a requência dealunos em sala de aula.

Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 34/58

 

34

UAB/Unimontes - 6º Período

este motivo, o modelo ideal deve obter o maisalto relacionamento explanatório com o mí-nimo de variáveis explicativas. Mas, ainal decontas, qual ou quais variáveis podem relacio-nar-se com a participação dos alunos em salade aula, além do número de alunos em sala?

Para responder esta questão, o proessor deCiências deve possuir um conhecimento pré-vio, e LER bastante sobre o assunto. O proes-sor, portanto, decide reazer seu experimento,com um maior número de alunos, anotandoo número de vezes que precisou interrompera explicação da matéria, devido à indisciplinaocasionada pelo excesso de alunos. Note! Este

método criou uma nova variável chamada“Interrupções durante a aula”. Com esse novomodelo é possível relacionar o número de par-ticipações em sala de aula, com a requênciade alunos somada às Interrupções nas aulas.Logo, a equação deixa de ser:

“Participação em sala de aula = a + b *Frequência de alunos”.

passa a ser:“Participação em sala de aula = a + b *

Frequência de alunos”+b* Interrupções.Reazendo a Anova com o novo modelo,

teremos:Anova (novomodelo)

Tabela 6: Tabela de análise de variância. Os graus de liberdade estão representados em “D” (degrees of freedom), soma dos quadrados por “Sum Sq” e a média da soma dos quadrados por “Mean Sq”.

Tabela de variância

Response: Participação em sala de aula

D Sum Sq Mean Sq F value Pr(>F)

Nº alunos 1 289.282 289.282 32.5595 0.0001967 ***

Interrupções 1 72.948 72.948 8.2104 0.0168011 *

Residuals 10 88.847 8.885

* Indica a signiicância do teste

Nesta análise ambas as variáveis apresen-tam eeito no número de participações dosalunos na sala de aulas. Para saber COMO é

este eeito, devemos saber os valores dos pa-râmetros a e b da nossa equação. Vejamos:Summary(modelo)

Tabela 7. Resumo da análise de variância. Demonstrando os coeicientes da análise de variância. O “Estimate”representa as estimativas dos valores utilizados na regressão, “a” o intercepto e “b” o coeiciente angular.

Fórmula do modelo: lm(órmula = Participação ~ Nº alunos + Interrupções)

Coeicients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 10.7732 8.4586 1.274 0.2316

Nº alunos 0.2216 0.2876 0.771 0.4587

Interrupções -0.5538 0.1933 -2.865 0.0168 *

OK, agora que temos os valores dos parâ-metros podemos construir os gráicos. Iremosdemonstrar estes dados em dois gráicos, cadaum com uma das variáveis explicativas no eixoX. Logo, para duas retas devemos construirduas equações. Vamos relembrar como é aequação múltipla.

y= a + b1x1 + b2x2Traduzindo“Participação em sala de aula = a + b *

Frequência de alunos”+ b*Interrupções.

Inserindo os valores (Tabela 5):Reta correspondente ao primeiro gráico,

com Nº de alunos no eixo X.Participação em aula = 10.7732+0.2216*x-

-0.5538*Interrupções

Reta correspondente ao segundo gráico,

com Interrupções durante a aula no eixo X.Participação em aula=10.7732--0.5538*x+0.2216* Nº alunos

GLOSSáRIOGraus de liberdade:

Número de observaçõesindependentes menos o

número de parâmetrosestimados (N – 1).

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 35/58

 

35

Ciências Biológicas - Análise de Dados Biológicos

Veja que agora nosso amigo, proessor deciências, pode airmar que o aumento no nú-mero de alunos em sala de aula é capaz de ele-var a participação dos acadêmicos. Todavia, oaumento de Interrupções possui eeito contrá-rio, diminuindo o número de participações emsala (Figura 14). Desta orma, para que as aulasdo nosso amigo proessor de ciências sejam

contempladas pela atenção e participação deseus alunos, ele deve preocupar-se em man-ter um número de alunos capaz de manter ummínimo de Interrupções possíveis. Observeque o mundo cientíico não é simples assim,as variáveis explicativas podem interagir! Da-remos mais ênase nestas múltiplas interaçõesnos próximos capítulos.

4.3 Análise de variância (ANOVA)A análise de variância, ou ANOVA, é um

dos testes estatísticos mais utilizados em bio-logia. (MAGNUSSON; MOURÃO, 2003). Seu ob- jetivo principal é azer comparações entre dois

ou mais grupos baseadas nas dierenças entreas médias e a variabilidade. Especiicamenteneste curso, ocaremos na ANOVA baseada emum ator (one-way).

Existem outros testes estatísticos considerados “tradicionais” que desempenham unçãosemelhante à ANOVA, como é o caso do teste t de Student ou simplesmente teste t. Esta aná-lise também compara grupos baseada em suas médias e variabilidades. Entretanto, este testesomente pode ser utilizado na comparação de DOIS grupos. Por este ato, é também chama-do de teste pareado, ou seja, é eito par a par.

A análise de variância az parte de umgrupo de testes chamados paramétricos (umadiscussão mais detalhada de testes paramé-trios e não-paramétricos será eita no próximocapítulo). A premissa básica para a utilizaçãodestes testes é que os dados se adéquem aomodelo de distribuição de probabilidade nor-

mal (ou gaussiana). Este modelo é comumenteobservado em dados contínuos como peso,altura, etc. Neste tipo de distribuição, a maio-ria das observações está agregada ao redordo centro, sendo gradativamente diminuídaquando se aasta dele.

Figura 15: Númerode participações dos

alunos, em relaçãoao número de alunos

em sala (gráico

da esquerda) eInterrupções durante aaula (gráico da direita).

Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 36/58

 

36

UAB/Unimontes - 6º Período

 

1 2 3 4 5 6 7 8 9

Peso

0

1

2

3

4

5

6

   N   ú  m  e  r  o   d  e  o   b  s  e  r  v  a

  ç   õ  e  s

Para a utilização da ANOVA, primeira-mente devemos dividir os dados em variáveisdependentes (ou resposta) e variáveis inde-pendentes (ou categóricas). Vamos utilizarnosso pesquisador de tilápias novamente.Neste caso minha variável dependente é opeso dos peixes e minha variável categórica otipo de ração. Sendo assim, minha variável ca-tegórica é meu tratamento, ou seja, o que oimanipulado para testar minha hipótese. A va-riável resposta é sempre uma variável numéri-ca. Minha variável categórica, como o próprionome diz, reere-se a uma categoria.

A ANOVA é uma análise que compara gru-pos (categorias) baseados na média e variabi-lidade dentro dos grupos e entre os grupos.Este teste é a técnica de Fischer para partiçãoda soma dos quadrados. (GOTTELI; ELLISON,2011). A soma dos quadrados nada mais é doque a soma dos desvios elevada ao quadrado.Lembre-se do que oi abordado sobre varia-bilidade e desvios na unidade II. A soma dosquadrados é uma medida de variabilidade.Como órmula base da ANOVA temos:

S2B, que é a soma dos quadrados entre os

grupos (B = between) e S2W

é a soma dos qua-drados dentro dos grupos (W = within). Noteque uma ANOVA nada mais é do que a relaçãoentre a variância entre grupos e a variânciadentro dos grupos.

O restante dos cálculos são derivaçõesdesta órmula geral. Não iremos aqui azer ma-nualmente passo a passo todos os cálculos pordiversas razões. Uma delas é a de que existeminúmeros softwares que azem estas análises

e julgamos mais importante entendermos ateoria do que substituirmos órmulas por nú-meros.

Como toda análise estatística, a ANOVApossui alguns pressupostos, sendo eles:

• Amostras independentes: Conorme jádiscutido no capítulo sobre delineamentoamostral: As amostras devem ser aleató-rias e independentes entre si;

• As variâncias são homogêneas entre gru-pos: Embora a média possa variar, assu-mimos que a variância dentro de cada

grupo é similar àquela dentro de todos osgrupos. Assim, cada tratamento contribuicom o mesmo tanto para a soma dos qua-drados entre os grupos;

• Os dados ajustam-se à distribuição nor-mal;

Vamos a um exemplo. Nosso pesquisadorutilizou uma ANOVA para veriicar a dierençaentre o peso das tilápias entre seus tratamen-tos. Após rodar a análise em um programa es-tatístico, ele obteve os seguintes resultados:

GL F p

Grupos 1 7.217 0.015*

onde GL: Graus de liberdade; F valor doteste Fisher; P probabilidade de aceitar a H

0.

Neste caso, o valor de p = 0,015 indica

que o pesquisador deve rejeitar sua hipó-

tese nula, ou seja, a variação no peso dos

peixes é explicada pela diferença na dieta.

Sendo assim, caso seu interesse seja fazer 

com que os peixes ganhem peso mais rapi-

damente, uma boa alternativa é oferecer a

eles ração rica em gordura. Após a análise,

geralmente recorremos a gráficos que ilus-

trem os resultados, como o que segue:

◄ Figura 16: Gráicodemonstrando omodelo de distribuiçãonormal. Note que

a maioria dasobservações (eixo y)estão concentradas nocentro, gradativamentediminuindo nasextremidades.Fonte: Acervo autores

GLOSSáRIO:

Graus de liberdade:para encontrar a proba-bilidade ( p) associada aum valor em particular

de uma estatísticautilizam-se graus de

liberdade. Este é deini-do como o número deobservações menos 1.No nosso caso 20 pei-xes: n-1 = 19. Hoje emdia os programas de

estatística já calculamautomaticamente

O valor de p. Antiga-mente eram utilizadasas tabelas estatísticas,comuns ao inal dos li-vros de estatística paraestabelecer este valor.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 37/58

 

37

Ciências Biológicas - Análise de Dados Biológicos

 

t1 t2

Grupos

1.6

1.8

2.0

2.2

2.4

2.6

2.8

3.0

   P  e  s  o

Barras de erro

 p=0,015

Note que o gráico torna a interpretaçãoquase intuitiva. No eixo Y temos o peso médiodos peixes e no  X  os dois tratamentos, nestecaso, t1 e t2 (ração rica em gordura e rica emproteína, respectivamente). Visualmente, ob-serva-se uma grande dierença no peso dosindivíduos entre os dois tratamentos e umamaior variabilidade no tratamento um. A ob-servação da variabilidade é eita através dasbarras de erro (indicadas pela seta) presen-tes no gráico. Neste caso, a medida de erro

utilizada oi erro padrão, sendo esta bastantecomum nos trabalhos cientíicos. Além da di-

erença visual, os gráicos em trabalhos cientí-icos contêm toda, ou quase toda, inormaçãorelativa à análise. Note que o valor de  p tam-bém está presente no gráico, inormando aoleitor se a dierença visual é ou não signiicati-va. Lembre-se de que dissemos que existe di-erença significativa quando rejeitamos nossaH

0, ou seja, p<0,05.

Agora tomemos o exemplo das baratase a concentração de inseticida. Após utilizaruma ANOVA o pesquisador chegou ao seguin-

te gráico:

 

100mg/L 500mg/L

Concentração

2

3

4

5

6

7

8

9

10

   I  n   d   i  v   í   d  u  o  s

   M  o  r   t  o  s

 p=0.00105  

Note que, mais uma vez, analisando o gráicotemos acesso a todos os resultados relevantes daanálise. Relembrando: A hipótese alternativa dopesquisador é de que uma maior concentração

de inseticida causa uma maior mortalidade aosbesouros. Podemos observar ( p<0,05) que, atravésda análise de variância, o pesquisador rejeitou suahipótese nula de que a variação na mortalidade é

Figura 17: Gráicoscomparando o peso

médio dos indivíduos(eixo y) entre os

tratamentos (eixo x).Fonte: Acervo autores

Figura 18: Gráicorelacionando ao

número de indivíduosmortos (eixo y) entre os

tratamentos (eixo x).Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 38/58

 

38

UAB/Unimontes - 6º Período

devido ao acaso. Ou seja, a concentração de inse-ticidas não inluencia na mortalidade de besouros.

Apesar de bastante simples, nossosexemplos ilustram bem qual o objetivo deuma análise de variância (ANOVA): Com-parar dois (ou mais tratamentos) com base

em suas médias e variâncias. Agora que jáaprendemos dois testes básicos para dadoscom distribuição normal podemos passarpara outras análises, chamadas de modeloslineares generalizados.

Reerências

Magnusson, W.: Mourão, G. Estatística sem Matemtica: A Ligação Entre as Questões e aAnlise. Editora Planta, 2003.

Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 39/58

 

39

Ciências Biológicas - Análise de Dados Biológicos

UNIDADE 5Modelos lineares generalizados

Iremos abordar este tema de modo maisilustrativo e com isto esperamos que o leitorvislumbre situações similares aos princípiosque descrevemos e, desta orma tornar maisprático para que possam tratar seus dados deorma mais robusta, e desta orma, solucio-narmos parte das grandes dúvidas sobre esteassunto. Iremos utilizar no curso o sotware R(disponível: http://cran.r-project.org/), o qualrecomendamos que você o baixe e instalemem seus computadores e/ou peçam para ins-

talarem em seu local de uso.A amília exponencial de análise dedados, que se baseia no ato de alguns da-

dos podem ser linearizados e este procedi-mento conere a eles serem tratados com aserramentas estatísticas que hoje detemose estão disponíveis sob uma amília de dis-tribuições de erro com este peril, a dos mo-delos linearizado generalizados (GLM) (CRA-WLEY, 2007). A princípio, imagine que vocêprecisasse analisar os seu dados e tivesseindícios de que eles poderiam ser tratadoscomo dados linearizáveis, aqui iremos tra-tar basicamente como seguindo um padrão

Poisson e Binomial de erros.

5.1 A análise dos dadosImagine se o interesse neste momento

osse o de testar se a inormação de sobre se“existe eeito benéico para uma escola au-

mentar a participação do aluno na construçãode regras para o recreio”. Na verdade, este éapenas um exemplo onde o esperado é queo leitor neste momento vislumbre a hipótese,pelo menos uma predição e como testar estahipótese por meio da predição escolhida.

Uma possível hipótese seria: A adesãoas regras está condicionada a identiicaçãodos agentes e participantes da ação. Umapossível predição: Quanto maior o númerode envolvidos na escolha das regras, menorserá incidência.

Até aqui é plausível que se imagine que

a presença de pessoas na discussão das pro-postas seja algo importante, você concorda?No entanto, as pessoas envolvidas nas discus-

sões da proposta possuem dierentes pontosde vista, o que é aceitável dado a dinâmica doprocesso democrático. Assim, quanto maior o

número pessoas de determinada classe maiorserá o peso dado as decisões, em se tratandode dierente número de pessoas de determi-nada classe opinando.

Assim, a inormação se é proessor, aluno,auxiliar de serviços gerais, é relevante, entãoesta variável tem que estar em nossa planilha,que agora passa a ser do seguinte modo:

Inicialmente a nossa hipótese se tornaruma predição e esta poderia ser analisadaatravés da construção de pelo menos um mo-delo, com uma variável resposta (y) e uma oumais variáveis explicativas (x), que poderia ser

do seguindo uma rotina paramétrica ou nãoparamétrica.

5.2 Modelos paramétricos e nãoparamétricos

Os modelos de análise podem assumiruma curva teórica (ou de distribuição de errosconhecida) , neste caso, constitui um parâme-

tro e em razão disto denominar como analiseparamétrica. As analises que não assumemnenhum padrão de erros como parâmetro são

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 40/58

 

40

UAB/Unimontes - 6º Período

consideradas como não paramétrica e normal-mente constitui uma diiculdade na extrapo-lação e comparação dos resultados encontra-dos. Na verdade, nas analises não paramétricaspodemos encontrar métodos que não seriamprontamente comparáveis com outros resul-

tados, e desta orma, podem preencher asargumentações de um carrega de subjetivi-dade considerável. De certa orma, esta rotinade orientar os trabalhos com parâmetros não

comparáveis não pode ser dogmatizada, con-siderando que o meio cientíico só continuainstigando dúvidas e as nossas dúvidas nãopodem ser somente de qual o melhor métodode análise mas, de qual a resposta é mais rea-lística. De certo modo, a inormação de como

analisar e reconhecer os resultados de modoparamétrico tem sido mais claro e didático, epor isto baseamos nele no será visto no res-tante deste material.

5.3 A construção dos modelos deanálise de modo paramétrico

A escolha de um processo de modela-gem paramétrica é uma opção de se cons-truir um modelo de análise com a distribui-ção de probabilidade dentro de um padrãoconhecido e prontamente comparado ouconrontado de modo universal. Por isto,iremos tratar a partir daqui somente de pa-drões ou distribuições conhecidas e que pormais curioso que seja, são os mesmos pa-drões que a maioria dos dados encontradosem ecologia e biologia se ajustam.

O primeiro conceito importante é o de

distribuição de erros, que na verdade é ode dispersão dos dados dentro de um li-miar esperado para aquele tipo de dados,isto é importante e para compreender-mos melhor iremos revisar a interpretaçãodos coeicientes e estimadores, que serãogerados ao inal da análise e a importân-cia de sua maior coniabilidade e precisãopara uma melhor previsão de determinadoevento ou alteração.

O primeiro é que com o procedimento iráse calcular estes coeicientes seguindo um de-terminado padrão, no caso uma distribuiçãoteórica esperada, que será escolhida a priori.Esta distribuição teórica mais correta pode serescolhida segundo características da variávelresposta, ( y ) do modelo construído. Novamen-te reorçamos a ideia de que a modelagem éuma erramenta extremamente poderosa naconstrução e veriicação de uma análise maiscorreta e portanto mais robusta, o que vaigarantir maior sucesso na interpretação dos

padrões veriicados ao inal do processo deanálise. Assim caso você não saiba com clare-za quais são a(s) sua(s) predições, não comecea azer o processo de modelagem do modelo,porque na verdade ele irá avaliar uma realida-de que você deve conhecer. Esta é sem dúvidauma justiicativa você não delegue a outros asua analise, porque os resultados serão paravocê apenas números sem uma real interpre-tação biológica.

5.4 A escolha e o uso de umacurva teórica

A escolha de qual a mais adequada curvateórica para sua análise se dará de acordo comas características encontradas na sua variávelresposta. Lembrando que as inormações en-contradas nestas variáveis são sempre numé-ricas, portanto não qualitativas. Em via de re-

gra não se tem uma total coniança e certezade que a curva teórica escolhida é a melhorpara aquele conjunto de dados, por isto é ne-cessário azermos as análise de resíduo paraaerirmos o quanto a curva teórica escolhida é

adequada e também o quanto o modelo cons-truído representa a realidade medida. Estaé talvez uma das maiores diiculdades em seanalisar os nossos dados em um ambiente quenão seja de modelagem. Na verdade, quandoconstruímos nossos próprios modelos pode-

mos descrever quais as variáveis e me algumascircunstâncias até orientarmos para especii-cidades de cada tipo dados que obtenhamos,para melhores inormações veja o tópico dese-nho amostral.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 41/58

 

41

Ciências Biológicas - Análise de Dados Biológicos

5.5 As curvas teóricas encontradasna amília GLM, de maior interesse

para biólogosAs principais curvas teóricas que utilizamos podem serem encontradas em rotinas da amí-

lia glm. Elas são a Poisson e Binomial , bem como as suas variações. As deinições dos principaiscasos verão abaixo.

5.6 PoissonÉ a distribuição de probabilidade encon-

tradas nas análises de dados cuja variável res-posta ( y ) possui características de númerosnaturais. Os números naturais são númerosinteiros e positivos e é comum encontra estacaracterística em experimentos cuja variávelresposta se reere a contagem de indivíduos. Arazão é obvia, não é biologicamente plausívelse conceber a ideia de que possa se registraesta inorma cão considerando 0,5 indivíduos.

No entanto, a dispersão dos dados quemelhor se adequem a um padrão de distribui-ção Poisson podem não ser pereita, podendoocorrer dispersão dierente do esperado, po-dendo ser acima (sobredispersão) ou abaixo(subdispersão) dos dados. Neste caso, poden-do reazer o modelo para tornar a nossa aná-lise ainda mais coniável, utilizando um dasduas variações possíveis do padrão Poisson, aQuasipoisson ou Binomial Negativa.

5.7 Ajustamento no processo depadronização

A necessidade de reazer o modelo paracorrigir ao máximo possível a subdispersão(Quasipoisson) ou sobredispersão (Binomial 

Negativa), deve ser eita quando detectarmosque o parâmetro de dispersão que para a a-mília Poisson e Binomial  giram em torno de 1

estão muito acima ou muito abaixo do espera-do. Isto veriicamos quando olhamos o resumo(summary(nome-do-modelo)) e nas últimasinormações que veriicamos, observamos arazão entre a Deviance residual em relação aonúmero de graus de liberdade do resíduo. Ovalor encontrado reere-se ao parâmetro uti-lizado, o que na verdade pode ser dierentedo esperado como padrão. Assim, teremos dereazer o modelo utilizando como distribuiçãode erro uma das versões da Poisson (em cir-cunstância em o modelo inicial mais adequa-

do oi eito com o uso da Poisson), sendo Qua-sipoisson, ou Binomial Negativa. A Binomialnegativa possui um rotina um pouco dierenteno diz respeito ao modo de modelagem, a ro-

tina em si está no pacote de nome MASS, sobo nome de glm.nb.

Figura 19 : Cálculo doparâmetro de dispersãoFonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 42/58

 

42

UAB/Unimontes - 6º Período

5.8 BinomialO padrão binomial é comumente utili-

zado em dados em percebamos a sua variá-

vel resposta com valores de 0 a 1, podendoinclusive se reerir a estes extremos. A unçãoutilizada é a logit, a qual é dierente da unçãode ligação da curva teórica Poisson (log).  Umerro muito comum ao uso desta curva teóricaé sua similaridade com os dados comumentede taxa que também aparentam se tratar deproporções de uma dada ocorrência. Assim, opadrão Binomial se adequa muito bem a da-dos proporcionais, o que de certa orma, re-presenta dois extremos bem evidentes. 1) Nãoé possível a ocorrência de nenhum dado cominormação negativa, já que não é concebívelexistir uma proporção negativa de um even-to ou coisa, e 2) não é concebível existir 105%de um todo. Desta orma, as duas assintóticassão bem representadas e a existência delasdistingue este tipo de dados da inormação de

taxa, que também pode ser registrada comopercentagem. Para eeito de modelagem não

muda em nada do que já oi descrito anterior-mente, diere em apenas a variável que ocupaa unção de variável resposta, que no item an-terior oi apresentada como sendo do padrãoPoisson, neste caso, não podem ser maioresque 1 ou menores que 0. O mesmo procedi-mento para estimar a se a dispersão está sen-do calculada de acordo com o parâmetro es-perado serve para acessar esta inormação nopadrão binomial, com uma exceção de que sóexiste até então uma orma de corrigir a subou sobredispersão por meio de mudança decurva teórica da mesma amília. Detectando aocrrência de sub ou sobredispersão o métodode correção a priori seria o de reazer o mo-delo com Quasibinomial  ocupando o local dadistribuição de erros.

5.9 Como construir modelos

de regressão coerentes com aspredições testadas

Em via de regra devemos sempre criticar os nossos modelos no que tange a

correspondência entre a hipótese que acreditamos ser válidas para explicar o nosso fato e a

real correspondência dos dados as predições que assumimos. Caso esta correspondência

não seja prontamente vista em nosso trabalho suspeite de que você pode estar medindo

algo que não seja na verdade o que deveria. Um bom exercício para avaliar isto é escrever 

de modo claro e extremamente objetivo as seguintes informações do seu trabalho antes de

fazer as suas análises (com no máximo 2 linhas par acada item):

a. Hipótese que explica o ato em questão;b. A(s) predição(ões) que podem ser eitas a partir desta hipótese (item 1);c. Quais dados corresponderiam ao que estará sendo testado (relacionado com a predição)d. Quais o resultados possíveis de serem encontrados (neste item deve se considerar o que

oi predito)e. Quais os resultados possíveis de serem encontrados (que são aqueles que podem ser en-

contrados mas dierem do predito e que você saber o que representam).

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 43/58

 

43

Ciências Biológicas - Análise de Dados Biológicos

5.10 Método de construçãoe simpliicação dos modelos

construídosO processo de modelagem requer conhe-

cimento de quais são as premissas avaliadasem determinado momento. Este conhecimen-to é de extrema utilidade no processo de sim-pliicação do modelo construído. Inicialmente,precisamos compreender porque precisamossimpliicar os modelos de analise que construí-mos e qual(is) o métodos para azê-lo.

Os processo de simpliicação garantem a

quem estiver modelando a análise estatísticaa certeza de que estará azendo as inerênciascom base em apenas as predições que real-

mente são importantes para explicar as altera-ções veriicadas na ato medido (Variável res-posta (ou Y , encontrada nos gráicos)).

O princípio que se baseia para tal proces-so é o da parcimônia em que se assume que amelhor explicação para qualquer alteração é amais simples, portanto a mais aceitável.

Existem três métodos de simpliicaçãodurante o processo de modelagem: Backward ,

Forward e Stepwise, sendo os dois primeiros osmais comumente os mais utilizados, veja a se-guir a dierença básica entre eles.

5.11 MétodoBackward deconstrução e/ou simpliicação de

modelos de regressãoEste método considera que ponto de início do processo de modelagem parte do modelomais complexo, com todas as variáveis e possíveis interações estatísticas que biologicamente a-çam sentido. Observe o exemplo abaixo:

Imagine o objeto a abaixo criado com 5 números e outro objeto, b com também com 5 nú-meros.

Figura 20: Criaçãode objetos a e b

(caracterizados por→) e consequente

construção de ummodelo completoFonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 44/58

 

44

UAB/Unimontes - 6º Período

Assim, o parâmetro que baseamos é ovalor de probabilidade que na tabela apa-rece na última coluna da análise de Devian-

ce ou variância, nomeada de “P(>|Chi|)”, queneste caso são a(P= 0.02336 ), b(P=0.76010) ea:b(P=0.85820), sendo que o maior de proba-

bilidade o de b, que neste caso, seria a variá-vel de maior probabilidade de o resultado en-

contrado, porém não a variável mais de maiorcomplexidade, que neste caso é o a:b, portan-to teremos qeiu reazer o modelo retirandoeste termo do modelo, o que pode ser eito deduas ormas:

Reazendo o modelo digitando as variá-

veis novamente

Ou, 2) Atualizar o modelo eito anteriormente e no mesmo momento retirar (ou adicionarconorme a necessidade) o termo que tiver interesse no momento com o comando “update”,deste modo:

O passo seguinte é azer a releitura dasinormações que análise de Deviance ou va-riância do modelo de regressão eito, sem-pre observando a retirada das variáveis ouinterações que tenham um valor de proba-

bilidade superior ao limiar aceitável, no nos-

so caso comumente 0,05 (5%). Neste caso, avariável que seria retirada neste momentoé “b”, que na tabela de resultados podemosler o valor de probabilidade (P=0.89491, queé superior ao limiar de signiicância conside-

rado, 0,05). Observe:

◄ Figura 21: Simpliicaçãode modelo de regressãoFonte: Acervo autores

◄ Figura 22: Simpliicaçãode modelo de regressãoutilizando o comando“update”Fonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 45/58

 

45

Ciências Biológicas - Análise de Dados Biológicos

Existe uma exceção a esta ordem de prio-

ridade na escolha de qual variável deve ser re-tira do modelo em questão, quando uma pos-sível interação or importante para ao modelo,mas a uma ou mais variáveis que participemda interação não o orem. Neste caso, deve-semanter as variáveis não signiicativa no mode-lo considerado como o modelo mínimo ade-

quado (MMA), em razão do eeito que exer-

cem na interação.A leitura dos resultados é a seguinte:=5.1414, P=0.02336, por convenção exis-

tem algumas padronizações para registrarestes resultados, veriique sempre na hora deescrever os seus resultados para mostrá-los damelhor e mais ormatada orma possível.

5.12 Método Forward de

construção e/ou simpliicação demodelos de regressão

Agora vamos construir o modelo de re-gressão seguindo uma rotina dierente daBackward , que partia de uma construção demodelo já com todas as possibilidades biologi-camente possíveis de se testar, agora o pontode partida é o modelo nulo, modelo onde se

considera a ausência qualquer variável e vai seadicionando variáveis e possíveis interaçõesque açam sentido biológico, uma por vez.Este é método Forward , em que a modelagemé construída de modo a se encontrar o mode-lo mais parcimonioso de modo, mais aceitável.Desta orma, assim como a rotina de modela-gem em Backward , o proposito é se chegar aomodelo minimo adequado, no entanto, o mo-delo mais realístico possível, o que neste caso,será o modelo com as variáveis ou interaçõesque de ato representam algo, observe o pro-cedimento na igura 5 abaixo.

Figura 23: Simpliicaçãode modelo de regressão

utilizando o comando“update” e “-” a variável

ou interação deinteresse

Fonte: Acervo autores

Figura 23: Simpliicaçãode modelo de regressãoFonte: Acervo autores▼

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 46/58

 

46

UAB/Unimontes - 6º Período

O próximo passo é o de acrescer uma variável ou interação ao sistema por vez, do seguintemodo:

Quando executamos o comando anova,azemos uma análise de Deviance do mode-lo de regressão construído, o que poderia sereito de outra orma, caso a unção anova nãotivesse sido implementada no instante emquestão. Este outro método para se ter a mes-ma inormação, se comparamos os dois mode-los, baseia-se na dierença entre os dois mode-

los construídos, o anteiro e o segundo com avariável ou interação que adicionamos a ele.Os valores que encontrarmos se reerem a va-riável que oi adicionada quando comparamosos dois modelos, esta inormação é de vitalimportância em algumas rotinas que veremosadiante, observe:

5.13 Método Stepwisedeconstrução e/ou simpliicação demodelos de regressão

O método de construção seguindo a rotina em Stepwise baseia-se na construção de modeloseguindo as duas ormas de modelagem (Forward e Backward ) simultaneamente. Este método é

bastante interessante mas um pouco mais complexo que os dois anteriores.

◄ Figura 24: Simpliicaçãode modelo de regressãoFonte: Acervo autores

◄ Figura 25: Simpliicaçãode modelo de regressãoFonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 47/58

 

47

Ciências Biológicas - Análise de Dados Biológicos

5.14 Métodos de crítica ao modeloconstruído

5.14.1 Análise de resíduos

A idéia de previsão está relacionada à nossanecessidade de antepor ou prever prováveis even-tos ou situações e antecipar prováveis soluções. Onosso corpo teórico poderia nos dar suporte paraisto, através de predições. Estas predições nascemdo nosso conhecimento dos padrões como oseventos biológicos ocorrem e de que dependem.

Desta orma, as alterações nos atores que deter-minam determinado evento podem instigar pro-váveis medidas de preservação ou de reajustem na

Dentre as análises de crítica aos modelosesta garante um maior rigor de analise o quegarante uma maior robustez aos modelos ana-lisados. Existem pelo menos dois procedimen-tos de analises de resíduos, um por meio deanalise de dierenciação do modelo mínimoadequado do modelo nulo e por meio de grá-

icos de resíduos do mesmo em relação a ummodelo teórico saturado.

5.14.2 Análise de resíduos por meio da comparação do MMA com omodelo nulo

Uma dúvida recorrente se dá em virtudeda natureza do modelo nulo. O modelo nuloé aquele em que se constrói um modelo assu-

mindo a variável resposta mensurada e comovariável explicativa(s) apenas um componente

aleatório, que neste caso, é interpretado peloR como 1. Assim o modelo nulo seria do se-guinte modo, considerando do exemplo dado

na unidade “ancova”,

Neste caso, oi considerado como variávelresposta o objeto numero.de.açucar , sendo a

medida correspondendo ao número de piru-litos vendidos na banca de uma destas esqui-nas em, relação ao conteúdo de açúcar e a cordos mesmo. Claro que neste exemplo deveriaicar claro a hipótese e a(s) predição(ões) quederivem da mesma. Neste caso, a variável corse reere a intensidade do tom verde que oiutilizado na abricação do pirulito. Esta ob-servação é de extrema importância, os dadosde uma variável quantitativa devem ter umaexata correspondência entre a característica

e o número dado a ela, isto porque, durante aanálise o programa irá entender desta orma.

Se isto não or verdade você deve substituiros números desta variável por letras para tor-nar mais correta a interpretação destes dados(para maiores detalhes reveja as primeirasunidades deste material). E, considerando quea variável resposta se reere a número de pi-rulitos vendidos, que é um número discreto epositivo, assumimos a como varável resposta edeste modo a curva teórica mais provável seriaa Poisson, e considerando um limiar de signii-cância de 0,05 (5%). Assim,

◄ Figura 26: Simpliicaçãode modelo de regressãoFonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 48/58

 

48

UAB/Unimontes - 6º Período

Observe que podemos economizar emdigitar o nome de vários atores a serem tes-

tadas no modelo como o sinal de “*”, que éinterpretado como sendo para se testar asvariáveis envolvidas pelo “*” separadamentee também as possíveis interações estatísticas

entre elas. Lembrando que só podemos azerinerência com base no modelo mínimo ade-

quado (MMA), inclusive a análise e de resíduotambém é eita a partir dele, assim temos queobtê-lo e neste caso que retirar um termo domodelo, a “teor.de.açucar:cor.do.pirulito”, logo,

Repare que a interação presente entre ostermos não poderia oi retirada porque alémde possuir um valor de signiicância superiorao limiar aceitável (0,05), portanto o “modelo.completo.2” é mais aceitável que o anterior

mas ainda não pode ser considerado comomodelo mínimo adequado (MMA) por ain-da possuir variável com valor de signiicância

acima do limiar de signiicância aceitável quenem mesmo azem parte de interações entreos termos ou variável testadas com valor deprobabilidade abaixo do limiar de probabili-dade aceitável. Assim, devemos continuar reti-

rando os termo(s), um por vez, que não impor-tam para explicar as variações no número depirulitos vendidos. Então:

◄ Figura 27: Simpliicaçãode modelo de regressãoFonte: Acervo autores

◄ Figura 28: Simpliicaçãode modelo de regressãoFonte: Acervo autores

◄ Figura 9: Simpliicaçãode modelo de regressãoFonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 49/58

 

49

Ciências Biológicas - Análise de Dados Biológicos

Repare que no modelo.completo.4, veri-ca-se apenas a variável “teor.de.açucar” comovariável explicativa importante , mas não exis-te a possibilidade de simpliicar ainda mais omodelo. Se não puder simpliicar ainda mais,o modelo em questão pode ser considerado

como o modelo mínimo adequado (MMA).Lembrando que a análise de resíduo deve sereita conrontando o MMA com as análises deresíduo possíveis. Assim vamos conrontá-locom o modelo nulo, a 1ª análise de resíduo.

O valor de signiicância observado nes-ta análise de comparação do modelo mínimoadequado como modelo nulo deve ser ineriorao limiar de signiicância admitido anterior-mente. Se isto or veriicado, interpretamoscomo o modelo mínimo adequado possuindouma(s) explicação dierente da dada pelo mo-delo nulo. Assim ele é melhor que o modelonulo porque o mesmo é uma medida daque-le evento ocorrer simplesmente ao aleatório,

e o nosso modelo construído encontrou umacorrespondência entre a variação do núme-ro de vendas de pirulitos e teor de açúcar dosmesmos. Isto é suiciente para aerirmos deo modelo mínimo adequado é melhor que omodelo nulo. Mas ainda não temos condiçõesde aerir com total certeza que o teor de açú-car é um bom preditor da venda de pirulitos.Teremos que azer outras análises de resíduospossíveis para este tipo de análise.

5.14.3 Análise de resíduo por meio da comparação dos gráicos dosresíduos do MMA com o modelo teórico

O modelo mínimo adequado pode sercomparado com o modelo teórico saturadoutilizado como parâmetro (neste caso o Pois-

son). Para isto, basta azer um gráico do mo-delo e, utilizando os dois primeiros gráicostermos uma inormações se o modelo estáaceitável. Esta parte da análise é um pouco

mais subjetiva e a rapidez na veriicação vaide da com o tempo e experiência. Mas um

iniciante terá o mesmo mérito se or aten-to e observar cuidadosamente os gráicosem questão. Vamos lá, ao digitar o comando“plot(nome do modelo)” iremos notar algunsgráicos dos quais gostaríamos de chamar aatenção para os dois primeiros. O primeirodeles tem como eixos os resíduos e o eixo x o

nome do modelo como o encontrado na igu-ra 11.

Neste caso os resíduos não estão tãobons, percebido observando a concatividadeda linha avermelhada (curva de tendência).Quanto menor esta concatividade melhor será

os resíduos, muito embora nem sempre te-nhamos resíduos pereitos. O segundo gráicoda igura 11, é o de dispersão e é interessanteporque podemos basear também nele paraveriicar o quanto o nosso modelo está ajus-

tado a distribuição de erros que assumimos apriori. A linha pontilhada neste gráico mostrao modelo que oi assumido com a curva teóri-ca que assumimos a priori e os círculos abertos

são os nossos dados. O melhor seria se o maiornúmero de círculos estivesse sobre a linhapontilhada, caracterizando a distribuição deerros é mais ou menos que é mais ou menosadequada.

◄ Figura 29: Simpliicaçãode modelo deregressãoFonte: Acervo autores

◄ Figura 30: Simpliicaçãode modelo deregressãoFonte: Acervo autores

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 50/58

 

50

UAB/Unimontes - 6º Período

 

ReerênciasCrawley M. J. The R Book. John Wiley & Sons, 2007.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 51/58

 

51

Ciências Biológicas - Análise de Dados Biológicos

ResumoNa Unidade I oram abordados conceitos

básicos para nossa disciplina, como delinea-mento experimental e réplicas. Um bom de-senho experimental permite ao pesquisadortestar sua hipótese de maneira correta e teruma boa base de dados para suas análises. Autilização de réplicas permite ao pesquisa-dos acessar a variabilidade presente em seuuniverso amostral e, a partir de então, tirarconclusões de seus dados. Vimos, ainda nestaunidade, que o delineamento experimentalé parte crucial de qualquer projeto e deve sermuito bem pensado. Um desenho mal elabo-

rado torna o projeto mais caro e muitas vezesinviabiliza a elaboração de conclusões robus-tas sobre o tema estudado.

Na Unidade II oram introduzidos os con-ceitos de probabilidade e variabilidade. O pri-meiro diz respeito a chance de que um dadoevento ocorra. Já o segundo, reere-se a va-riação natural existente dentro de um mesmogrupo de estudos. Estes dois conceitos, emconjunto, ormam a base para a maioria dostestes estatísticos.

Já na Unidade III oi introduzido o concei-to de hipóteses biológicas. A maioria dos es-tudos se baseia em hipóteses, que podem serdeinidas como explicações para um eventoobservado. Deve-se considerar a necessida-de de que uma hipótese seja testável, ou seja,a minha hipótese pode ser reutada ou aceitaapós um experimento. Foram apresentados,ainda, os métodos cientíicos que podem serdeinidos como a maneira utilizada para es-

colher entre hipóteses com base nas observa-

ções. Foram abordadas, ainda, as deinições dehipótese nula (H

0) e hipótese alternativa (H

n),

que dizem respeito à explicação de meu even-to. Ele pode acontecer simplesmente ao acaso,neste caso aceitamos nossa hipótese nula; ounosso evento pode conirmar uma hipóteseanteriormente apresentada, aceitando a hipó-tese alternativa.

Duas análises estatísticas simples e bas-tante utilizadas na biologia oram apresenta-das na Unidade IV: regressão linear e a análisede variância. A regressão linear é utilizada para

testar uma relação entre duas variáveis quan-titativas, enquanto a ANOVA compara umavariável quantitativa baseada em dois ou maisgrupos (categorias) – qualitativo. Essas análisestêm algumas restrições de utilização, sendouma delas, a necessidade de que os dados seadéqüem a distribuição normal .

Por im, a Unidade V tratou dos modeloslineares generalizados. Este tipo de aborda-gem estatística está sendo amplamente uti-lizado na atualidade por ornecer uma maiorgama de possibilidades ao pesquisador. Nes-tas análises é possível construir um modelobaseado na distribuição particular dos dadoscoletados. De uma maneira simplista, essasanálises tornam-se mais direcionadas a cadatipo de dado. Foram apresentadas, ainda, ascurvas teóricas de maior importância em tra-balhos na área da biologia e exemplos passo apasso de como construir e utilizar os modeloslineares generalizados.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 52/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 53/58

 

53

Ciências Biológicas - Análise de Dados Biológicos

Reerências

Básicas

Magnusson, W. & Mourão, G. Estatística sem Matemtica: a Ligação Entre as Questões e aAnlise. Editora Planta, 2003.

Stokes, D. E. O quadrante de Pasteur: A ciência bsica e a inovação tecnológica. Editora UNI-CAMP, 2005.

Complementares

Crawley M. J. The R Book. John Wiley & Sons, 2007.

Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011.

Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989.

Ruxton, G.D. & Colegrave, N. Experimental design or the lie sciences. 2ªed. Oxord, 2006.

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 54/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 55/58

 

55

Ciências Biológicas - Análise de Dados Biológicos

Atividades de

Aprendizagem – AA01) Deina probabilidade e variabilidade. Qual a importância destas medidas para uma análiseestatística?

02) O que são hipóteses nulas e hipóteses alternativas? 

03) O que é a análise de variância? Quando devemos utilizar este tipo de análise?

04) O que é pseudo-repetição? Dê exemplos dos principais tipos.

05) Deina os parâmetros (“y”, “a”, “b” e “x”) da equação: y= a +bx.

06) O objetivo do seu estudo é veriicar se o peso é inluenciado pela idade. A partir dos dadosapresentados na tabela a seguir, aça um gráico contendo a dispersão dos pontos e responda:

a) Qual é sua variável resposta e qual a variável explicativa?

b) A inclinação “b” terá um valor positivo ou negativo?

07) O que conigura uma réplica verdadeira?

08) Dierencie análises paramétricas das não paramétricas.

09) Quais as características que um modelo tem de possuir para ser considerado como modelomínimo adequado?

10) Qual(is) critério(s) devemos utilizar quando or necessário simpliicar o modelo de análise

construído?

Peso (kg) Idade (anos)

85 20

90 25

75 30

70 40

65 50

70 6060 70

55 80

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 56/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 57/58

5/16/2018 Ciencias_biologicas_analise_de_dados_biologicos - dudu e falcão e nesca - slidepdf.com

http://slidepdf.com/reader/full/cienciasbiologicasanalisededadosbiologicos-dudu-e-falcao-e-nesca 58/58