69
A Condução da Análise 2014/2 © Thierry R. Gasnier/ Universidade Federal do Amazonas Thierry R. Gasnier Universidade Federal do Amazonas 2014/2 A Condução da Análise em Ciências Biológicas I - Base Conceitual

A Conduta Na Análise

Embed Size (px)

DESCRIPTION

A Conduta Na Análise

Citation preview

Page 1: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

Thierry R. Gasnier

Universidade Federal do Amazonas

2014

/2

A Condução da Análise em Ciências Biológicas I - Base Conceitual

Page 2: A Conduta Na Análise

A Condução da Análise I- 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

Sumário

Introdução ............................................................................................. 3

1 Estatística na perspectiva do usuário ........................................... 4

1.1 A ciência e a estatística. ............................................................ 4

1.2 Questão, hipótese, previsão e evidência. ................................ 6

1.3 Tipos de evidências ................................................................... 9

1.4 Tipos de validação de evidências .......................................... 13

1.5 Estatísticas intuitiva e frequentista..................................... 18

2 Do problema biológico ao estatístico. .......................................... 22

2.1 Entidades ................................................................................. 22

2.2 Propriedades ........................................................................... 23

2.3 Tabelas e gráficos EPR .......................................................... 24

2.4 Relações entre variáveis ......................................................... 24

2.5 A estatística para estabelecer relações. ................................ 25

3 Confiança na medida e independência ....................................... 29

3.1 Níveis e escalas de medida ..................................................... 29

3.2 Atribuição de níveis nominais e ordinais ............................. 31

3.3 Exatidão, precisão e acurácia. ............................................... 32

3.4 Distribuições de frequências .................................................. 36

3.5 Parâmetros populacionais ..................................................... 38

3.6 Intervalos de confiança de parâmetros. ............................... 39

3.7 Independência para parâmetros univariados ..................... 43

3.8 Independência em análises de relações ................................ 44

3.9 Considerações complementares ............................................ 46

4 A lógica dos testes de hipóteses .................................................... 51

4.1 O método hipotético dedutivo ............................................... 51

4.2 Estabelecendo hipóteses de trabalho .................................... 53

4.3 Descartando “hipóteses” com procedimentos ..................... 55

4.4 Descartando a hipótese do acaso ........................................... 57

4.5 Nível de significância e tipos de erros. .................................. 59

4.6 Considerações complementares ............................................ 61

Page 3: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

5 Diversidade de testes e suas premissas ....................................... 69

5.1 “Ecologia” e diversidade dos testes estatísticos. .................. 69

5.2 Testes com apenas uma variável ........................................... 69

5.3 Testes com duas variáveis ...................................................... 70

5.4 Premissas dos testes paramétricos ........................................ 71

5.5 Transformação de dados ....................................................... 75

5.6 Outras premissas .................................................................... 75

5.7 Contrastes ................................................................................ 77

6 Planejamento Amostral ................................................................ 79

6.1 Independência entre unidades amostrais ............................ 79

6.2 A coleta parecia apropriada, mas... ...................................... 79

6.3 Tipos de variáveis dentro de mapas conceituais. ................ 82

6.4 Controle: tratamento, função e estratégia ........................... 85

6.5 Escolha a sua abordagem ...................................................... 90

6.6 O experimento como modelo na pesquisa de relações. ....... 90

6.7 Abordagens quase experimentais. ........................................ 91

6.8 Abordagens não experimentais ............................................. 92

6.9 Independência pela distância ................................................ 95

7 Maximizando o poder do teste ..................................................... 98

7.1 Testes unicaudais e testes bicaudais ..................................... 98

7.2 Testes pareados e testes em blocos ........................................ 99

7.3 Níveis fixos e níveis livres ..................................................... 101

7.4 Relações retilineares, curvilineares e monotonicidade. .... 102

7.5 O poder e os tipos de teste ................................................... 102

7.6 O poder e os níveis das variáveis em estudo ...................... 104

7.7 Perdas voluntárias de poder ................................................ 105

7.8 Testes múltiplos .................................................................... 106

8 Glossário ...................................................................................... 108

9 Bibliografia citada e recomendada ........................................... 112

Anexo: Chaves e Guias para uso de testes e gráficos

Page 4: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

Introdução Utilizei o título “A Condução da Análise” porque gosto de comparar a análise na pesquisa científica com outra atividade complexa do cotidiano: a con-dução de um veículo (carro, bicicleta, etc.). Acho incrível como um condutor consegue pensar ao mesmo tempo no seu objetivo, no caminho e manter distância segura dos outros veículos. A análise de dados vista em uma perspectiva ampla, que vai do planejamento e escolha de medidas, até a interpre-tação e comunicação dos resultados, também exige esta forma complexa de pensar. Dirigir é uma ativi-dade quase assustadoramente complexa a princípio, mas, depois de algum tempo de treinamento, vai ficando cada vez mais fácil, mesmo sem deixar de ser complexa, tendendo a tornar-se agradável. O mesmo pode ocorrer com a habilidade de analisar dados. Analisar dados não pode ser um trauma, tem que ser uma atividade natural, tranquila, e até diver-tida do cotidiano da pesquisa. Este livro não é uma introdução à estatística, é uma introdução à bioestatística aplicada, isto é, ao uso de ferramentas estatísticas para a resolução de problemas biológicos. É importante separarmos dois contextos da estatística, o contexto da criação e fundamentação matemática e o contexto da aplica-ção. Há profissionais que desenvolvem ferramentas estatísticas e avaliam suas aplicações e limitações, mas há também pessoas que sabem utilizar estas ferramentas com competência apenas com a base necessária para o seu uso. O primeiro é como um engenheiro de carros ou um construtor de instru-mentos musicais e o segundo é como um piloto ou um músico. Quando uma pessoa que conhece a fundamentação e a aplicação vai ajudar outra pes-soa com um problema estatístico, não se espera que a primeira explique noções de cálculo de proba-bilidade e faça demonstrações de fórmulas (ques-tões mecânicas), espera-se que ela vá direto ao assunto e explique qual é a ferramenta apropriada, quais suas premissas e limitações, como se realiza o teste em um programa estatístico e quais são os gráficos mais apropriados para comunicar os resul-tados (questões de condução). Por isto, o conteúdo de um livro de apoio na formação de estatísticos (como para engenheiros ou construtores de instru-mentos) deve ser diferente de um livro de apoio para usuários (como para pilotos ou músicos). Podemos ganhar muito se “terceirizamos” a parte matemática da estatística para os computadores e nos concen-

tramos nas questões conceituais sobre a forma correta de utilizá-la. Para a parte prática, apresentamos um texto anexo com instruções para a escolha de muitos testes e gráficos; é uma “caixa de ferramentas” básica para análises e apresentação de resultados. Estas instru-ções servem para qualquer programa estatístico. Adicionalmente, incluímos neste anexo as instru-ções específicas sobre como fazer esses teste e gráficos no programa MYSTAT12, que pode ser baixado gratuitamente pela internet. Este livro foi desenvolvido ao longo de mais de 15 anos ministrando aulas de bioestatística em gradua-ção e pós-graduação na Universidade Federal do Amazonas (UFAM) e no Instituto Nacional de Pes-quisas da Amazônia (INPA). Devo aos alunos pelo estímulo e ajuda na busca de conteúdos mais apro-priados para uma estatística aplicada à pesquisa. O amadurecimento do texto foi um processo longo e se deveu muito à contribuição de várias pessoas. Pelas discutições de questões básicas que nortea-ram a redação, agradeço a William Magnusson, Donald Macnaughton, Cintia Cornélius, José Luiz Camargo e Paulo Estefano. Agradeço pelas suges-tões e críticas a versões anteriores do texto a Bruno Spacek, Cecilia Roma, Erika Portela, Fabrício Bac-caro, José Cardoso Neto e Sérgio Rodrigues da Silva. Este texto usado em disciplinas da UFAM continuará em processo de aperfeiçoamento. Versões mais recentes poderão ser obtidas no site www.intertropi.ufam.edu.br/ docs.html. Neste site também estão as últimas versões das apostilas para escolha de gráficos e testes e outros anexos. Sugestões poderão ser enviadas para o email [email protected]. Os direitos autorais desta apostila pertencem ao autor e à Universidade Federal do Amazonas. É permitida a cópia sem fins lucrativos desde que a fonte seja citada.

Page 5: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

4

1 Estatística na

perspectiva do usuário

1.1 A ciência e a estatística

A ciência é uma descrição da realidade. Como qualquer descrição, ela é idealizada, pois o que chamamos de realidade é sempre uma interpre-tação. Não é qualquer descrição, é uma descri-ção crítica, o que significa que é coletiva e que segue normas consensuais de lógica e de vali-dação de evidências. Os aspectos da realidade descritos são escolhidos por sua relevância. Portanto, a ciência é uma descrição idealizada crítica de aspectos relevantes da realidade.

Este é um livro sobre métodos, especificamente sobre o uso de métodos estatísticos básicos em Biologia. Há um risco em se entrar neste assun-to destes antes de se vê-lo em uma perspectiva maior, podemos terminar achando que estes métodos são “A” base da ciência. É por isto que começamos com uma definição de ciência que determina o que, como e por que algo é ciência em nosso ponto de vista. Na escolha de um tema de pesqui-sa, o mais importante é o porquê de estu-dar este tema, a relevância do que vai ser estudado. Este é o centro do universo em uma pesquisa. O método é necessaria-mente crítico para ser considerado cientí-fico, mas, além disto, não podemos falar em “O” método científico, mas em méto-dos científicos. O que costuma ser cha-mado de abordagem estatística ou quanti-tativa de análise de dados é apenas uma caixa de ferramentas metodológica para apoiar análises críticas de dados. É uma caixa de ferramentas extremamente pode-rosa para algumas situações, inútil em outras e até perigosa se mal utilizada.

Estatística significa análise de dados. Pelo menos, é neste sentido que usaremos a palavra neste livro. Antes de discutirmos uma definição mais informativa, vamos refletir sobre preconceitos acerca do que ela é, pois eles

podem ser barreiras para uma compreensão mais produtiva para usuários de Estatística.

Muitas pessoas consideram a estatística como uma especialidade da matemática, mas pode-mos considerá-la um ramo da lógica que faz uso intensivo de matemática. Vista em seu sen-tido amplo, a estatística lida com pensamento complexo. Isto não significa que seja uma forma diferente de pensar, pois também é complexo nosso pensamento cotidiano.

Por exemplo, chegar a um lugar determinado em uma cidade é uma atividade complexa (Fig. 1.1). Em primeiro lugar você precisa co-nhecer a cidade, ou ter um mapa dela e saber se orientar pelo mapa. Depois, você precisa saber o local exato onde você está e aonde quer chegar. Se for de carro, precisa saber diri-gir o veículo, o que inclui aspectos de “legisla-ção” (como saber que não se deve dirigir na contramão), aspectos “psicomotores” (como saber dominar o veículo em uma curva) e o uso

Figura 1.1- A solução de problemas complexos envolve diferen-tes níveis de conhecimento, desde os mais "moleculares" até os mais "globais", como ocorre quando conduzimos um carro até um endereço ou quando conduzimos uma pesquisa..

Page 6: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

5

correto dos instrumentos (como o freio ou o limpador de para-brisa). Estamos utilizando pensamento complexo quando temos que integrar conhecimentos de diversos aspec-tos da realidade para atingir um determinado objetivo. Complexo não significa necessaria-mente difícil. Muita gente consegue chegar a um endereço sem muita dificuldade, embora seja um problema que envolve vários tipos de conhecimento. Lidamos com problemas com-plexos no dia a dia e precisamos aprender a lidar com problemas complexos na pesquisa.

Hoje em dia não precisamos ter muito conheci-mento de mecânica para dirigir um carro e che-gar a um endereço. Normalmente basta saber que temos que colocar gasolina, trocar o óleo e calibrar os pneus ocasionalmente. Pessoas com conhecimento de mecânica de automóveis fa-zem a manutenção de nossos carros. Engenhei-ros desenvolvem novas tecnologias com base em um conhecimento de física e de química que os cientistas estão aprofundando nos institutos de pesquisa e universidades. Estas pessoas, portanto, nos ajudam a atingir nossos objetivos, pois nos entregam resolvidos os níveis mais “moleculares” ligados ao funcionamento do veículo. A nossa responsabilidade na condução de um veículo, portanto, deve se concentrar no domínio dos níveis mais “globais” do problema de como chegar ao endereço.

Uma concepção equivocada da maioria dos livros e cursos de Bioestatística dos últimos 40 anos é que é necessário e suficiente dominar o nível molecular da matemática, como o cálculo de probabilidades, para conduzir uma análise de dados. Nesta concepção, coloca-se um peso desproporcional neste nível de análise em de-trimento de níveis mais importantes para quem conduz uma análise de dados. Felizmente esta visão está começando a mudar, mas ainda é preponderante em muitos cursos.

Para formar usuários de estatística, é necessá-ria uma abordagem que leve em conta que a pesquisa é semelhante à forma cotidiana com-plexa de se pensar. Quando fazemos pesquisa precisamos, em primeiro lugar, ter conhecimen-

to do referencial teórico do assunto de pesqui-sa, pois sem ele estamos perdidos. Nosso refe-rencial teórico é como um mapa necessário a cada momento, e é dele que nascem as ques-tões de pesquisa. Cada pesquisa tem o seu referencial, por isto, neste texto começaremos discutindo sobre uma base comum do que são questões e hipóteses de pesquisas (cap. 1 e 4). Nas pesquisas que pedem análises estatísticas de dados é necessário saber como organizá-los (cap. 2). Precisamos entender bem as medidas e as formas de coletar os dados apropriados para responder questões (Cap. 3 e 6). Final-mente, precisamos saber realizar testes e pre-parar gráficos para uma análise e comunicação apropriadas (cap. 5 e 7 e Guia de testes). É isto que um usuário de estatística precisa saber fazer bem. Para a maioria dos problemas, o usuário não precisa lidar diretamente com fór-mulas ou com algoritmos complexos e menos ainda com a compreensão de por que as fórmu-las são válidas. Este conhecimento matemático e de programação pode ajudar, mas também pode atrapalhar, por desviar a atenção do prin-cipal. É necessário que se reconheça que os conhecimentos fundamentais para o estatístico não coincidem com os conhecimentos funda-mentais necessários para o usuário de estatísti-ca.

Depois destas considerações, podemos passar para uma definição, ... ou duas. Em um sentido amplo, a Estatística é uma área do conheci-mento que lida com a medida, atribuição de categorias, coleta, organização, apresenta-ção, interpretação e apresentação de dados. O termo também pode ser utilizado em um sen-tido mais estrito referindo-se prioritariamente à matemática da análise dos dados, mas é fácil perceber a diferença dentro do contexto em que o termo está sendo utilizado. A definição ampla explica o que é estatística pela sua utilidade, mas ela é realmente tão necessária?

De fato, nem toda a pesquisa precisa da estatís-tica no sentido estrito do termo, tanto que a ciência avançou no passado sem ela. Entretan-to, por que não aprender a usar uma ferramenta poderosa que pode nos ajudar em muitas situa-

Page 7: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

6

ções? Talvez a resposta mais comum seja que o assunto costuma ser desanimadoramente chato; mas ninguém o acha inútil. Se pensar bem, a competência de analisar dados não é uma necessidade apenas para quem vai fazer pesquisas, é uma necessidade para qualquer pessoa. Precisamos de reformulações sobre o que é ensinado em cursos de estatística e co-mo, mas este é um conhecimento que não deve ser considerado opcional pelos estudantes. Naturalmente, a competência na análise de dados é ainda mais importante para os interes-sados em fazer pesquisas.

Podemos comparar a estatística com um mi-croscópio, outra ferramenta de pesquisa do biólogo. O microscópio é necessário para ver-mos organismos e estruturas muito pequenos e a estatística é necessária para vermos o que há por trás de dados. É verdade que nem sempre o microscópio ou a estatística são necessários, mas é preciso ter claro que é o problema que define esta necessidade. Uma pessoa que op-tou por não aprender estatística está limitando sua capacidade de analisar dados e de resolver problemas. A boa notícia, principalmente para quem não gosta de fazer cálculos, é que domi-nar o uso da estatística hoje depende muito pouco de se entender as suas bases matemáti-cas, em função do desenvolvimento dos pro-gramas aplicativos de estatística, o que permite um melhor aprofundamento nas questões con-ceituais essenciais de análise.

A base da estatística como objeto de estudo para os estatísticos pode até ser a matemática. Entretanto, para o usuário de estatística, que a utiliza como uma ferramenta de pesquisa, a base é outra: as questões de pesquisa. É por isto que começaremos por esta base.

1.2 Questão, hipótese, previsão e evidência.

As questões na pesquisa são perguntas temáticas relevantes sobre a realidade, que geralmente começam com “como”, “por que”, “o que”, “quando”, “onde” ou “qual”, e cuja resposta não é óbvia. Por exemplo, ao

perceber que a maioria das trepadeiras em uma floresta sobe na hospedeira girando em sentido anti- horário, surge a questão “por que isto acontece?” A resposta para esta pergunta não é óbvia e a questão é relevante porque pode re-velar algum aspecto de fisiologia e ecologia de trepadeiras que são um componente importante das florestas.

As questões de pesquisa podem ser simples, mas as respostas podem ser muito complexas. As questões podem ser amplas (e. g. Por que os dinossauros desapareceram?) ou restritas a um contexto menor (e. g. Como é possível a coexistência de determinadas espécies de ca-marões que usam o mesmo recurso limitante em um riacho). Algumas vezes as questões surgem inesperadamente, como quando sur-gem pessoas com uma doença estranha des-conhecida, mas o mais comum na atividade científica é irmos atrás das questões. Levantar boas questões envolve a capacidade de obser-vação e o conhecimento do referencial teórico, inclusive para perceber que a questão é rele-vante e merece ser estudada. A boa questão não garante uma boa pesquisa, mas é difícil imaginar uma boa pesquisa sem uma questão relevante bem definida e original.

Em função disto, é importante refletirmos um pouco sobre como criamos questões. Saber criar boas questões é uma arte, mas há algu-mas diretrizes (e. g. texto “Writing Good Questi-ons, Hypotheses and Methods” disponível na internet). Durante a elaboração de um projeto você precisa levantar o referencial teórico sobre o assunto, isto é, consolidar a base conceitual consultando pessoas e com uma pesquisa bibli-ográfica séria. Levantamento bibliográfico é uma tarefa inútil se você não estudar o material. E estudar não é apenas ler, dificilmente se con-segue elaborar um projeto interessante sem um grau de envolvimento emocional com o proble-ma. A informação não vem apenas de livros, é necessário desenvolver a capacidade de obser-var. Isto significa estar atento, procurar oportu-nidades de ver fenômenos de interesse e tentar aplicar a teoria aprendida na leitura para inter-pretar suas observações. Este é o momento de

Page 8: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

7

gestação da pesquisa, quando ela precisa to-mar forma. Esta etapa demanda tempo e muita concentração, esqueça o estilo de vida “Fast Food” quando estiver elaborando um projeto.

Na pesquisa há respostas de dois tipos: descri-tivas e hipotéticas. As respostas descritivas não envolvem hipóteses, como na questão “como é o tubo digestivo desta espécie de formiga?”. Basta desenhar ou fotografar e destacar o que for considerado mais importante. Algumas des-crições envolvem ferramentas estatísticas, des-de médias aritméticas até gráficos multivaria-dos. A descrição de objetos de interesse cientí-fico, mesmo considerando a complexidade téc-nica, costuma ser simples, no sentido de não envolver hipóteses. Talvez por esta “simplicida-de”, as questões descritivas frequentemente são consideradas “inferiores” na pesquisa por algumas pessoas. Para derrubar esta ideia, basta considerar o impacto que foi a invenção do microscópio para a biologia, quando todo um novo mundo de micro-organismos e microestru-turas foi descoberto, ou a atual revolução resul-tante da descrição de genomas.

Nossas descrições da realidade param no mo-mento que aparecem dúvidas sobre o que es-tamos vendo. O que pensou o primeiro biólogo que viu células em um microscó-pio? Provavelmente foi “o que são estas caixinhas?”. Quando há questões sem resposta imediata pela “simples” observa-ção, criamos alternativas de respostas possíveis e investigamos se estão corre-tas ou não. Estas respostas possíveis são chamadas de Hipóteses. Talvez a primeira hipótese sobre as “caixinhas” tenha sido que eram meras ornamentações casuais do primeiro tecido observado, mas esta hipótese teria caído com as observações posteriores de outros organismos. Em algum momento surgiu a hipótese que as caixinhas eram uma espécie de divisão na organização de todos os organismos. Esta hipótese se sustentou e foi fortalecida com as observações posteriores e enriquecida com detalhes. Hoje a teoria celular não é mais tratada como uma possível resposta

para aquela questão, mas como um fato inques-tionável e um dos pilares da Biologia moderna. Portanto, o que era hipótese tornou-se descri-ção, pois faz parte do que aceitamos como rea-lidade.

Hipóteses que não podem ser avaliadas através da observação de fatos não entram na ciência empírica, por isto, vamos nos referir a “hipótese” como sinônimo de “hipótese empírica”. Hipóte-se (empírica) significa “qualquer afirmação simples ou complexa que tenha consequên-cias empíricas constatáveis” (Diez & Molines, 2008). Neste contexto, tanto a teoria da evolu-ção como a sugestão que determinado compor-tamento de um inseto indica territorialidade são hipóteses, pois ambas têm consequências em-píricas constatáveis. Entretanto, é mais comum se usar o termo para ideias relativamente sim-ples (como o exemplo do inseto), ficando o ter-mo “Teoria” para uma rede complexa de ideias. Pela definição acima, mesmo hipóteses exaus-tivamente corroboradas são tecnicamente hipó-teses, mas na prática, estas se tornam ideias aceitas com o acúmulo de evidências, como vimos com a teoria celular. Não há verdades definitivas na ciência, mas podemos falar que uma hipótese transforma-se em conceito

Figura 1.2- Uma hipótese é avaliada pelo contraste entre suas previsões e as observações (evidências). Neste exemplo, as evidências não apoiam a hipótese que passar sob uma escada dá azar.

Page 9: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

8

cientificamente estabelecido, quando há um conjunto de evidências que apoia fortemente a hipótese como resposta correta a uma questão. Na realidade, não testamos direta-mente hipóteses, testamos as previsões das hipóteses. Previsões são consequências em-píricas esperadas de hipóteses, e algumas delas podem ser usadas nos testes das hi-póteses. No teste de hipóteses uma previsão é comparada com uma evidência.

Uma evidência é uma observação única ou um conjunto de observações ou uma rede coesa de argumentos que serve para propor, sustentar, provar ou derrubar empiricamente hipóteses. As evidências podem ser divididas em 3 tipos, a evidência inspiradora, que é aquela que leva a novas hipóteses; a evidência verificadora, que é aquela procurada e obtida quando se está verificando uma hipótese e a evidência inspi-radora e verificadora, que é uma descoberta instantânea. Exemplos: Ao perceber casual-mente que bactérias não cresciam próximas a fungos contaminantes em placas de Petri, sur-giu a hipótese que estes fungos poderiam servir para produção de remédios (evidência inspira-dora). Para testar a hipótese, foram feitos nu-merosos experimentos que comprovaram que a eficiência da substância produzida por estes fungos na cura de várias doenças (evidência verificadora). Em 1938 foi descoberto um peixe primitivo chamado Celacanto, que é um peixe filogeneticamente próximo dos primeiros tetrá-podes terrestres. Fósseis deste peixe já eram conhecidos há bastante tempo, mas a hipótese que este peixe não estava extinto nem passava pela cabeça de ninguém. Quando o pesquisa-dor viu o peixe, ele imediatamente o identificou com segurança. Portanto, ao mesmo tempo em que esta hipótese nasceu ela já foi comprovada (evidência inspiradora e verificadora), e esta foi uma das maiores descobertas da evolução dos vertebrados. Como não vamos trabalhar com evidências inspiradoras ou inspiradoras e verifi-cadoras, vamos usar o termo evidência daqui para frente sempre no sentido de evidências verificadoras, para facilitar a fluência do texto.

Uma evidência pode ser contrária, favorável ou indefinida em relação à previsão. As compara-ções das Previsões com as Evidências são denominadas Contrastes P-E e costumam seguir regras pré-estabelecidas de análise que podem terminar com um aumento ou redução da credibilidade das hipóteses. Se a credibilida-de de uma hipótese aumentou muito, podemos dizer que respondemos à questão. Usarmos o termo “Resposta” para denominar o “final” do processo de criação científica centrado em questões. Não estamos implicando com isto que a hipótese transformou-se, de forma definitiva, na resposta para uma questão, apenas que ela passou por um teste de qualidade rigoroso e a evidência serviu para decidirmos que podemos recomendar a sua aceitação como uma “verda-de provisória”. Se a evidência corresponde ao previsto por uma hipótese, então ela apoia a hipótese, mas isto não basta. Outra hipótese concorrente pode ser compatível com a mesma previsão. Por isto, quando temos hipóteses concorrentes, temos de procurar previsões exclusivas para aquela que acreditamos ser a correta. Por exemplo, ao observar que duas espécies de plantas tendem a ocorrer juntas, um pesquisador levanta a hipó-tese que elas têm uma relação mutualista. Para

Figura 1.3- Uma hipótese é uma possível resposta para uma questão. Para avaliar se efetivamente ela é a resposta correta, precisamos contrastar previsões exclusivas dela com os dados (evidências). Frequentemente a estatística é uma útil ferramenta para realizar este contraste.

Page 10: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

9

testar a hipótese ele faz a previsão que quanto mais plantas de uma espécie houver em um local, maior será o número das plantas da outra espécie. Então, ele recolhe dados de 100 locais distantes e encontra uma forte correlação posi-tiva. O resultado parece apoiar a hipótese de mutualismo, mas há um problema. Podemos sugerir outra hipótese, que as plantas não são mutualistas, são indiferentes ou até competido-ras, e que pode se esperar uma correlação positiva entre as suas abundâncias porque as duas respondem da mesma forma à fertilidade do solo. Como a evidência é compatível com as duas hipóteses, o resultado não permite uma escolha segura. Um teste mais efetivo de mutu-alismo seria plantar as duas juntas em densida-des variáveis. A previsão pela hipótese de mu-tualismo é que haveria um maior crescimento de cada uma delas em função do aumento na abundância da outra. Se isto for observado, a única hipótese alternativa que resta para expli-car a evidência é que a diferença foi em direção ao esperado por mero acaso. A estatística é útil nesta situação, como ferramenta para a exclu-são da possibilidade do resultado coincidir com a previsão apenas por acaso.

1.3 Tipos de evidências

A estatística é uma ferramenta poderosa para realizar contrastes em muitas situações de pes-quisa. Entretanto, é importante reconhecer que nem sempre ela é aplicável. Para entender isto, vamos dividir as evidências de outra forma, pela sua natureza.

“Evidência Factual”. Uma evidência é factual quando uma ou poucas observações são suficientes para convencer que uma hipótese está correta.

Considere primeiro um exemplo cotidiano. Su-ponha que seu telefone tenha deixado de funci-onar. Sua questão é: “o que causou a interrup-ção no funcionamento?”. Então, você pensa nas possibilidades (hipóteses): mau contato na to-mada, aparelho quebrado, falta de serviço no

bairro, conta não paga, banco não repassou pagamento, etc. Vimos que uma hipótese é uma suposição de um cenário possível do qual se tira uma ou mais consequências. Então, você testa cada hipótese, por suas previsões, até descobrir qual a correta. Para a hipótese de mau contato, você meche nos contatos e verifi-ca se a linha volta. Para a hipótese de problema na rede telefônica, você vai ao vizinho ver se ele também está com problema. E assim por diante, até resolver o problema.

Agora um exemplo biológico. Algumas pessoas levantaram a hipótese que pombos conseguiri-am se orientar sem referenciais terrestres (pos-sivelmente usando magnetismo). Sua previsão era que um pombo levado em uma caixa fecha-da de seu ninho na França encontraria o cami-nho de volta se levados à Inglaterra, atraves-sando o mar sem referenciais terrestres. O experimento foi feito e o pombo conseguiu re-tornar em poucos dias. Não seria impossível que uma tempestade o arrastasse exatamente para o local do seu ninho, mas isto seria tão improvável que a evidência foi considerada conclusiva. De fato, outros pombos cruzaram o mar, eliminando até as dúvidas menos razoá-veis. Note que uma única observação tem uma força de convencimento muito forte, pois qual-quer hipótese alternativa seria extremamente improvável.

Evidências factuais importantes são comuns na história da ciência. Quando cientistas observa-ram anomalias na órbita de Netuno ao redor do Sol levantaram a hipótese que poderia ser uma perturbação gravitacional causada por um pla-neta com órbita mais externa, calcularam aonde o planeta deveria estar e encontraram um novo planeta que chamaram de Urano. A passagem do cometa Halley no ano previsto provou que cometas são corpos celestes com passagens periódicas; Pasteur derrubou a teoria da gera-ção espontânea com um simples experimento. A ideia que a terra era redonda foi comprovada com a primeira circunavegação.

Algumas vezes, uma descoberta é uma evi-dência factual que gera uma “hipótese” que ela

Page 11: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

10

mesma sustenta. É o caso da descoberta do peixe primitivo chamado Celacanto em 1938. A ideia que este peixe não estava extinto nasceu e se comprovou no mesmo momento em que o peixe foi identificado como um verdadeiro Cela-canto. Esta foi uma das maiores descobertas da paleontologia, em função da posição deste pei-xe na filogenia dos vertebrados. Dificilmente esta ideia gerada da própria evidência seria chamada de hipótese, mas a evidência é certa-mente do tipo factual, pois bastou uma observa-ção para termos convicção da afirmação.

Uma “Evidência Factual” não significa uma evi-dência definitiva e verdadeira, Colombo achava que a terra era redonda e mostrou que o mundo não terminava em um abismo no meio do Atlân-tico, mas errou ao achar que tinha chegado às Índias. Evidências factuais, como todas as ou-tras, dependem de premissas válidas, isto é, de condições explicitas ou não que justifiquem a confiança na afirmação. Ainda que estejamos sempre sujeitos a erros, não é preciso muito esforço para encontrar inúmeros exemplos de evidências factuais que revolucionaram a ciên-cia e que foram utilizadas para construir nossas certezas de muitas questões do cotidiano.

“Evidência Frequentista (Simples)”. Para facilitar a fluência do tex-to, chamaremos as evi-dências frequentistas simples apenas de “evi-dências frequentistas”; e chamaremos as evidên-

cias frequentistas complexas de “evidências contextuais”; ambas envolvem múltiplas unida-des amostrais. Uma evidência é frequentista (simples) quando se baseia em várias unidades amostrais consideradas como “independen-tes” na análise. As técnicas associadas às evidências frequentistas são o principal assunto dos cursos básicos de estatística, a tal ponto que muitas pessoas acham que a independên-cia entre unidades amostrais é uma exigência de qualquer técnica estatística, sem entender o que é esta independência. Aqui apenas apre-

sentaremos um exemplo de evidência frequen-tista, o conceito de independência será discuti-do no capítulo 3.

Você se questiona: o que é a febre? Seria uma resposta do corpo para ajudar na cura da doen-ça? Ou seria uma reação induzida pelo agente infeccioso que prolonga a doença? As duas hipóteses fazem sentido, mas como saber qual é a verdadeira? O fato de se observar uma cura rápida em um paciente cuja febre não foi tratada é uma evidência favorável à primeira hipótese, mas é muito fraca. Entretanto, um conjunto de muitos pacientes escolhidos aleatoriamente sem tratamento contra a febre com cura rápida comparado com muitos pacientes escolhidos aleatoriamente com tratamento e cura lenta seria uma evidência forte a favor da primeira hipótese. Este princípio de repetir observações e avaliar a força da evidência sem precisar co-nhecer as características de cada unidade amostral (no caso o sexo, idade, dieta, etc., das pessoas) é a razão de chamarmos esta evidên-cia de “simples”, ainda que a matemática envol-vida possa ser bastante complexa em alguns casos.

Procedimentos, como a atribuição aleatória de tratamentos, garantem a validade destas técni-cas, o que está restrito a estudos experimentais. Entretanto, as técnicas frequentistas simples podem ser aplicadas em estudos observacio-nais (em que não manipulamos variáveis) em condições especiais.

“Evidência Contextual”. Uma evidência contex-tual é um tipo mais com-plexo de evidência na qual as unidades amos-trais não podem ser consideradas “indepen-

dentes”. As evidências contextuais precisam incorporar informações do contexto para evitar interpretações equivocadas ou incompletas relacionadas com o “posicionamento” das uni-dades amostrais no tempo, no espaço ou em

Page 12: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

11

alguma forma de posicionamento funcional in-trínseca relevante para a questão.

Existe uma relação entre a mortalidade por doenças pulmonares e a sazonalidade climáti-ca? A unidade amostral na figura 1.4 é mês. O padrão cíclico torna-se evidente pela compara-ção entre cada valor e o contexto dos demais valores mais próximos e considerando a época do ano. Ao contrário da evidência frequentista simples, os registros neste caso não podem ser considerados independentes, pois tendem a ser similares aos registrados no mês anterior e na mesma época. A falta de independência não é necessariamente uma desvantagem. Neste exemplo, foi justamente pelo fato de haver de-pendência entre os valores que pudemos per-ceber a dinâmica da taxa de mortalidade e infe-rir e dimensionar o efeito do inverno.

Assim como vimos para a evidência factual, há casos em que a evidência gera a própria hipó-tese que ela sustenta. É o caso da hipótese que houve uma extinção abrupta da diversidade dos dinossauros há cerca de 50 milhões de anos depois de reinarem por mais de 100 milhões de anos (apenas restaram as aves como descen-dentes). É um caso de evidência contextual

porque a redução abrupta na abundância de dinossauros baseia-se em várias medidas su-cessivas de abundância de dinossauros (unida-des amostrais dependentes de “momentos” seguidos no registro fóssil ao longo do tempo) cuja magnitude de variação pôde ser conside-rada não aleatória. As quedas de meteoros eram eventos comuns durante a formação da terra, mas foram tornando-se raros até serem muito raros. Esta também é uma interpretação contextual temporal. Portanto, o fato de haver fortes indícios de uma grande colisão de um meteoro com a terra nesta época dá muita força à hipótese da grande extinção ser consequência do impacto de um meteoro.

A necessidade de informações de contexto ocorre em muitos estudos observacionais com múltiplas unidades amostrais, principalmente nos fenômenos em que os valores de variáveis têm uma dependência espacial ou temporal relevante para o problema em questão. Entre-tanto, existem outras formas de “posicionamen-tos” intrínsecos entre unidades amostrais. Por exemplo, quando trabalhamos com espécies como unidades amostrais, geralmente temos que levar em conta a posição filogenética da espécie. Nos exemplos do parágrafo anterior

utilizamos avaliações contextuais qualitativas, mas há casos em que são utilizadas técnicas estatísticas mais preci-sas e complexas que são específicas para diferentes situações (e. g. Geoestatística, Análi-se de séries temporais, Regressão filogenética). Não abordaremos estas técnicas, mas dedica-remos o capítulo 6 a estudos observacionais em que o cuidado redo-

brado com o contexto pode permitir a utilização da esta-tística frequentista simples.

Figura 1.4- Variação da mortalidade por doenças pulmonares no Reino Unido entre 1974 e 1979 (Daly,et al. 1996). As unidades amostrais ordenadas no tempo revelam um evidente padrão cíclico anual com taxas de mortalidade mais altas no inverno. Nas evidências contextuais, as informações de posições (espaciais, temporais, etc.) são essenciais para a análise.

Page 13: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

12

“Evidência Sistêmica” (ou Evidência por Coe-rência em Rede). Evi-dências sistêmicas são aquelas que encontram suporte principalmente na força da articulação

de ideias e/ou fatos de natureza diferente. Em-bora sejam as evidências mais complexas, te-mos alguma familiaridade com elas porque es-tão presentes em nosso cotidiano cada vez que explicamos o motivo de acreditarmos em algu-ma coisa baseado em uma conjunção de argu-mentos. O que determina a perda da fertilidade em mu-lheres na menopausa? A maioria das pessoas acredita que é apenas uma consequência natu-ral da idade, como se isto fosse fisiologicamente inevitável. Diamond (2010) sugere uma hipótese diferente, que a menopausa é um fenômeno adaptativo para a espécie humana. Não há como se testar esta hipótese experimentalmen-te, mas a análise é possível e também se ba-seia em comparação de previsões. Se a meno-pausa fosse mero resultado do envelhecimento, o que poderíamos prever? Por exemplo, pode-ríamos prever que a interrupção da fertilidade fosse comum em outras espécies. Entretanto, não é o que ocorre, na grande maioria das es-pécies, as fêmeas não param a reprodução ou só deixam de reproduzir ao quando estão muito velhas, quase morrendo. E se a hipótese de Diamond estiver certa, o que podemos prever? Poderíamos prever que haveria vantagem na menopausa relacionada a características distin-tas de nossa espécie. Diamond destaca duas características: a) um bebê tão grande que a chance de morte da mãe e do bebê no parto sempre foi alta (só reduziu recentemente devido à evolução da medicina); b) o cuidado parental dura anos, incluindo a educação. Daí conclui que a interrupção da fertilidade após certa idade seria vantajosa pelo aumento da probabilidade da mãe conseguir sobreviver para criar todos os filhos, mesmo perdendo a chance de ter mais alguns filhos. Em resumo, parar a reprodução aumentaria o sucesso reprodutivo. O importante a notar aqui é que a conclusão não depende de um fato ou de unidades amostrais independen-

tes ou dependentes, ela é mais ou menos con-vincente pela articulação das ideias.

As análises que envolvem evidências sistêmi-cas sempre foram importantes na ciência. Uma dificuldade em trabalhar com evidências sistê-micas é que nem sempre é fácil convencer pes-soas, mesmo com vários bons argumentos. O desenvolvimento da estatística frequentista no século XX possibilitou a criação de critérios poderosos e objetivos de avaliação de uma evidência (quando a evidência for um conjunto de dados “independentes”), a ponto de influen-ciar o conceito do que é ciência. Para muitos iniciantes, a ciência verdadeira é aquela que envolve estudos experimentais, repetições e testes estatísticos. O problema é que nem sem-pre a realidade se apresenta como um conjunto de dados independentes, como ocorre em um laboratório. Como usar estatística para analisar a revolução francesa? A exigência de testes para considerarmos uma teoria como científica é válida somente se utilizarmos o termo “teste” com um significado mais amplo que o de teste estatístico. Hipóteses na História, Arqueologia, Sociologia, Geografia Humana, Economia, As-tronomia, Evolução e outras áreas predominan-temente não experimentais podem ser testadas por contraste com outras hipóteses comparando a coerência do conjunto de cada uma delas, e lembrando que cada conjunto deve possuir elementos empíricos envolvidos. (e. g. docu-mentos e fatos históricos, objetos arqueológi-cos, observações de corpos celestes).

Embora as evidências possam ser divididas em quatro tipos, há situações intermediárias (fig. 1.5). Por exemplo, três evidências factuais com o mesmo resultado são mais fortes que uma evidência factual; não chega a ser uma evidên-cia frequentista simples, mas vai nesta direção. A dependência entre unidades amostrais pode ser considerada tão fraca que um problema contextual pode ser tratado como um problema frequentista simples. Uma evidência factual rica em detalhes pode ser vista como uma evidência sistêmica. Há sempre considerações sistêmicas em qualquer tipo de evidência. Por exemplo, você confia que os dados de um estudo são

Page 14: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

13

verdadeiros com base na reputação do pesqui-sador. Portanto, todas as evidências são parci-almente sistêmicas. As pesquisas costumam envolver diversas hipóteses avaliadas com evi-dências factuais, frequentistas, contextuais e/ou sistêmicas. Na interpretação, é necessário se encontrar coerência e complementaridade entre as evidências, por isto, quase sempre as pes-quisas são sistêmicas.

Nesta seção vimos que a pesquisa não neces-sariamente utiliza estatística (no sentido estrito de análise com cálculos matemáticos) até mesmo em testes de hipóteses. A próxima se-ção é sobre condições necessárias para uma evidência (frequentista ou contextual) ser válida.

1.4 Tipos de validação de evidências

Quando a polícia chega à cena de um crime, imediatamente isola a área. A entrada de algu-ma pessoa que pudesse mudar a posição da arma do crime poderia anular a validade de uma evidência. Também na pesquisa é necessário se verificar a validade de evidências. Após a apresentação se seus resultados, as pessoas podem te perguntar: “você tem certeza que os instrumentos estavam calibrados corretamen-te?”; “Como você coletou estas amostras?”; “Que teste estatístico você usou na análise?”, etc. Há diferentes tipos de validação, e falhas em qualquer uma delas podem anular toda a validade de um estudo.

1) Validação da medida. É a explicação e a demonstração que as medidas utilizadas foram tomadas de forma apropriada e realmente re-presentam aquilo que pretendemos que repre-sentem (representatividade conceitual). Se há dúvidas sobre a calibragem de um instrumento, a medida terá que ser descartada e o experi-mento repetido. Na hora de entrar dados em um computador é necessário redobrar a atenção e ainda assim temos que verificar cuidadosamen-te que não houve erros de digitação. Nem é preciso se explicar a importância destes proce-dimentos em uma pesquisa séria. Estes são os aspectos mais óbvios da validação da medida, o que não significa que não sejam muito impor-tantes.

Figura 1.6- Um paquímetro simbolizando a validação da medida.

Figura 1.5- A divisão das evidências em quatro tipos é uma simplificação didática útil. Entretanto, existem situações intermediárias entre estes quatro tipos (ver texto). Além disto, a divisão aplica-se aos testes de hipóteses individualmente. Em geral as pesquisas são sistêmicas, pois envolvem várias hipóteses relacionadas ao tema em estudo e uma busca de harmonia entre as evidências.

Page 15: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

14

O que abordaremos aqui é um aspecto mais sutil da validação da medida: a representativi-dade conceitual, que é a equivalência entre variáveis operacionais e as respectivas variá-veis teóricas. As variáveis teóricas são aque-las da hipótese e que dizem respeito à rela-ção em estudo, ainda que não possam ser diretamente medidas. As variáveis operacio-nais são aquelas efetivamente medidas (são as variáveis da previsão e da evidência). Quan-do uma variável da hipótese pode ser medida diretamente, não existe a distinção, mas é co-mum que haja a separação. Vejamos um exem-plo. Sua hipótese é que a Taxa de Atividade (TA) de um lagarto insetívoro muda em relação à disponibilidade de alimento (DA). Para isto, você mede quanto cada lagarto se deslocou em uma hora (D) e pesa os insetos (PI) que captu-rou com armadilhas de cola no centro do seu território de forrageio. As medidas de D e PI parecem ser equivalentes a TA e DA, mas não são idênticas e as diferenças podem compro-meter a interpretação. Por exemplo, você não encontra relação e considera isto evidência contrária à sua hipótese. Entretanto, isto pode-ria ser um erro de escolha de variável operacio-nal. Imagine que a mudança de atividade ocor-resse na duração da atividade diária e não em deslocamento por hora e os insetos capturados nas armadilhas podem não ser as mesmas espécies da dieta do lagarto. A má escolha de variáveis operacionais pode levar a erros de interpretação sobre relações previstas para variáveis teóricas.

A validação da medida não é um problema ape-nas de variáveis quantitativas. Imagine que perguntamos para estudantes se eles sabem nadar, juntamos os dados, analisamos com testes estatísticos e concluímos que os meninos sabem nadar com frequência significativamente maior que as meninas. Mas será que o resulta-do indica uma maior habilidade em nadar ou mais vergonha de admitir que não sabe?

Em muitos estudos, a medida é a maior fonte de incertezas. Quando nós utilizamos um coeficien-te de inteligência, estamos realmente medindo inteligência? O número de pegadas de predado-

res em uma praia pode ser considerado um indicador de pressão de predação sobre ovos de tartaruga? A concentração medida de fósforo total no solo realmente reflete o fósforo disponí-vel para uma planta? As espécies do estudo foram identificadas corretamente? Se as incer-tezas sobre medidas são uma fonte de dúvida (e isto é bastante comum), é essencial explicar bem como ela é feita nos métodos e por que você acredita que sua medida representa bem o que ela deveria representar. Algumas vezes, parte do estudo inclui uma verificação disto. No exemplo do estudo comparando a capacidade de nadar de meninos e meninas, você poderia pedir para uma parte dos estudantes nadar em uma piscina rasa. Sua medida será válida se meninos e meninas não diferirem na taxa de respostas falsas nos questionários. (Obs: A validação da medida refere-se a medidas indivi-duais; a validação de medidas coletivas é “Vali-dação Externa”, o que será explicado adiante.)

2) Validação Externa. É a explicação e a de-monstração que o conjunto de unidades amos-trais selecionadas é representativo do universo que pretendemos estar envolvendo no estudo (representatividade universal).

Segundo Motulsky (2010), o objetivo da análise estatística de dados é fazer as conclusões mais fortes possíveis com segurança sobre uma po-pulação estatística com base nos dados dis-poníveis (amostra ou amostras). Uma popu-lação estatística é um conjunto completo de entidades que se pretende estar envolvendo em uma análise. Em contraste, a amostra é o subconjunto da população estatística efeti-vamente utilizado na análise. Se você não puder mostrar que a sua amostra é representa-tiva da população estatística (também denomi-nada “universo amostral”), a generalização (ou “externalização”) do que foi observado com os seus dados é suspeita.

Esta ideia talvez fique mais clara com um exemplo. Considere duas amostras de inten-ções de voto para presidente do Brasil, uma de 1000 pessoas do Amazonas e outra de 1000 pessoas sorteadas de todo o país. Qual delas é

Page 16: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

15

uma amostra mais confiável para falarmos da intenção de votos dos brasileiros? Você se sur-preenderia se os resultados fossem muito dife-rentes? As duas amostras seriam igualmente apropriadas se não houvesse fatores geográfi-cos influenciando as intenções de votos. Entre-tanto, naturalmente que há, e a tendência mos-trada pela amostra do Amazonas pode diferir muito do resto do Brasil. Uma amostra de pes-soas sorteadas também deve ter uma diferença do resultado exato de toda a população, mas esta diferença quase certamente será muito menor e não tendenciosa.

Há dois tipos de Validação Externa:

Validação externa por procedimentos. Quan-do temos acesso potencial a toda a população de interesse, usamos determinados procedi-mentos considerados válidos para obter uma amostra representativa. A amostra representati-va ideal é a escolha aleatória universal na qual todos os elementos da população tem a mesma chance de serem sorteado para compor a amostra. Entretanto, a amostra aleatória univer-sal é algo raro na pesquisa por questões práti-cas, de forma que foram desenvolvidas muitas técnicas de se obter amostras consideradas satisfatoriamente próximas das amostras ideais. Há livros inteiros apenas sobre estas técnicas em função de diferentes condições de coletas. Não vamos nos aprofundar nisto, apenas ilus-trar com um exemplo.

Imagine a dificuldade de se obter uma amostra aleatória de 1000 eleitores entre todos os eleito-res do pais. Sortear os eleitores é fácil, basta pegar os números dos títulos e usar um compu-tador para uma escolha aleatória. O difícil é chegar aos 1000 eleitores espalhados em todos os cantos do país para entrevistar, seria carís-simo e alguns nem seriam encontrados. Uma alternativa bem mais prática seria sortear 10 pessoas de 5 capitais escolhidas aleatoriamente e 10 pessoas de 5 zonas rurais escolhidas alea-toriamente e multiplicar os valores por fatores proporcionais às populações urbana e rural. Há muitas formas válidas (e muitas inválidas) de se realizar uma amostragem. Embora nenhuma delas seja tão boa quanto a aleatória universal, pelo menos elas são realizáveis, e várias delas chegam a resultados muito próximos ao ideal teórico.

Validação externa por razoabilidade. É muito comum que não tenhamos acesso a toda a população sobre a qual pretendemos falar. Ali-ás, tirando as pesquisas eleitorais ou mercado-lógicas, esta provavelmente é a situação mais comum na pesquisa. Mas podemos generalizar a partir de uma amostra que não foi obtida de forma descrita acima? Para responder esta pergunta, tomemos um exemplo imaginário.

Quando estudo o comportamento de uma espé-cie de borboleta de florestas, minha expectativa é que este estudo vai ajudar a entender a espé-cie, não apenas os indivíduos estudados. Ra-ramente é possível realizar coletas em toda a área de distribuição da espécie, o mais comum nestes casos é que o estudo seja feito em uma única área de floresta. Se na minha amostra eu concluir que machos são mais ativos que fê-meas na área de estudo durante coletas feitas em janeiro de 2006, o que é razoável se supor?: a) Os machos desta espécie são mais ativos que as fêmeas todos os anos?; b) Os machos desta espécie são mais ativos que as fêmeas durante o ano todo?; C) Os machos são mais ativos que as fêmeas em outras florestas a 1 km dali? (e 10? e 100? e 1000?); d) Outras espé-cies do mesmo gênero têm machos mais ativos em janeiro?; e) Espécies desta família têm ma-

Figura 1.7- Esquema representando a generalização de um estudo específico para conclusões mais gerais, simboli-zando a validação externa.

Page 17: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

16

chos mais ativos em janeiro? E se o estudo do comportamento da borboleta fosse feito em um laboratório? As observações ainda seriam re-presentativas do comportamento na natureza? As respostas para estas perguntas não se ba-seiam em técnicas estatísticas, baseiam-se principalmente no que se conhece sobre borbo-letas e em observações complementares.

Evidentemente é necessário termos um cuidado redobrado para generalizar sem o apoio de técnicas estatísticas de representatividade uni-versal. Entretanto, negar a possibilidade de generalizações por razoabilidade é tão absurdo quanto generalizar sem nenhum critério. Se negarmos completamente esta possibilidade, estamos acreditando que não podemos ter ne-nhuma expectativa com base nos nossos dados sobre o que aconteceria com outra amostra obtida um minuto depois ou em uma área vizi-nha. A generalização por razoabilidade baseia-se principalmente no conhecimento sobre o assunto e na “proximidade” entre as condições do estudo e as condições para as quais quere-mos generalizar. A generalização por razoabili-dade deve ser feita com uma postura conserva-dora e uma argumentação convincente que justifique a crença sobre a validade da generali-zação com base no conhecimento teórico ante-rior e outras observações complementares. É por isto que muitos estudos precisam descrever a área de estudo, clima, e outros aspectos rele-vantes à interpretação dos dados. Além da ar-gumentação, se for considerado necessário, uma coleta adicional pode ser realizada em outra área ou época para avaliar se a generali-zação se sustenta com outras observações.

Este é um assunto polêmico, por isto, tomemos um exemplo adicional mais extremo: a generali-zação a partir de uma observação. Imagine que você encontrou uma tartaruga de uma espécie rara colocando seus ovos em um ninho em uma praia. Você leva estes ovos para o laboratório para verificar se a determinação do sexo é in-fluenciada pela temperatura durante o desen-volvimento. Ao final do experimento, nasceram apenas fêmeas dos 20 ovos mantidos a tempe-raturas altas e apenas machos dos 20 ovos

mantidos a temperaturas baixas e você conclui que nesta espécie o sexo é determinado pela temperatura no desenvolvimento. Se esta for sua conclusão, você estará extrapolando para a espécie com base em apenas uma fêmea e a partir de um experimento em condições artifici-ais de laboratório. Se esta não for a sua conclu-são, cuidado, você está sofrendo de uma doen-ça comum chamada “paranoia metodológica” disseminada até mesmo em alguns cursos de metodologia e de estatística superficiais. Gene-ralizar a partir de um indivíduo é algo inaceitável em muitas situações, mas não em todas, e não nesta em particular. Ao demonstrar estatistica-mente que isto ocorre em um indivíduo, temos evidência factual para a espécie, pois sabemos (com base em conhecimento teórico prévio) que a determinação do sexo é uma característica da espécie que não varia entre indivíduos. As con-dições artificiais de um laboratório precisam ser levadas em conta em muitos casos, mas é difícil imaginar como elas poderiam influir na razão sexual se ela fosse cromossômica do tipo 1:1. O contexto biológico nunca deve ser esquecido quando seguimos diretrizes metodológicas.

A generalização por razoabilidade é parte intrín-seca da pesquisa. Por exemplo, é comum se

Figura 1.8- Esquema de coleta simbolizando o planeja-mento amostral que é objeto de análise da validação interna.

Page 18: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

17

utilizar ratos para iniciar estudos sobre remédios para humanos porque: a) a ética nos impede de começar com humanos; b) o custo de manuten-ção de ratos em biotérios é relativamente baixo; c) os ratos também são mamíferos, e devem ter uma fisiologia semelhante em algum grau. Pre-cisamos avaliar caso a caso até que ponto é razoável generalizar e ter consciência que a generalização pode estar errada. A validação externa por razoabilidade inclui argumentos, citações e dados adicionais que justifiquem a generalização.

3) Validação Interna Ao contrário das outras forma de validação, esta se aplica unicamente para os estudos em que estamos avaliando possibilidade de relações causais entre variá-veis. De qualquer forma, estes são os estudos mais comuns em pesquisas, de forma que esta forma de validação é muito importante. A vali-dação interna é a explicação e a demonstração que foram eliminadas influências tendenciosas de variáveis de confundimento. Quando isto é feito, podemos dizer que existe representativi-dade paralela. Os conceitos de relação, variá-veis, variáveis de confundimento e representati-vidade paralela serão explicados em outros capítulos. Nesta seção apenas apresentaremos um exemplo simples para ilustrar a natureza da validação interna.

Quando eu quero saber se alguma coisa tem efeito sobre outra, eu busco dados que mostrem uma relação. Por exemplo, se eu quero saber se lagos na região 1 (Alto Rio Negro) têm mais peixes que lagos na região 2 (Manacapurú e Janauacá), eu posso pescar em lagos de cada região e chegar à conclusão que a abundância de peixes na região 1 é bem menor em média. Entretanto, imagine que ao invés de ir pescar pessoalmente nas duas regiões eu peça para você pescar na região 1 enquanto eu pesco em na região 2. Neste caso, ainda que a diferença seja grande, surge uma dúvida importante: a diferença seria devido ao lago ou devido a dife-renças de habilidade entre os pescadores. Ima-gine agora que eu tenha pescado em metade dos lagos da região 1 e em metade dos lados da região 2 e você tenha pescado nas outras

metades das duas regiões. Desta forma, o efei-to do pescador foi eliminado, ou melhor, ele deixa de ser tendencioso. Novamente, se eu encontrar uma diferença significativa no número de peixes, eu poderei concluir com segurança que lagos de uma região têm mais peixes que lagos da outra região.

Note que a medida de quantidade de peixes capturados por uma pessoa é diferente da me-dida de quantidade de peixes capturados por outra pessoa, o que seria, a princípio, um pro-blema de validação da medida. Entretanto, a forma como os dados foram coletados pode anular este problema, tornando as medidas válidas para esta comparação. Naturalmente, o problema da comparação entre lagos não seria apenas com diferenças entre pescadores; não deve haver diferença em nenhum fator relevan-te que pudesse confundir a análise, como dife-renças nos instrumentos de captura ou nas épocas do ano em que foram feitas as coletas em cada lago. Nunca conseguimos igualdade entre as coletas, mas podemos definir estraté-gias para conseguir uma equivalência (ou “para-lelismo” de condições) entre lagos que previna as influências tendenciosas. Estas estratégias costumam ser chamadas de “Desenho Amos-tral” ou “Desenho Experimental”. A independên-cia interna é geralmente simples em estudos experimentais e mais complexas em estudos observacionais. Ela será discutida nos capítulos 3 e 6.

4) Validação de análise. As chamadas técnicas qualitativas (que lidam com evidências factuais e sistêmicas) estão fora do escopo deste livro,

V. dep→ Binário (Categ. de 2)

Categórico Ordinal ou

Quantitativo Condição NP

Quantitativo Condição P

V. ind.↓

Binário (cat. de 2)

Teste de 2 prop., T. Exato de

Fisher ou T.C. (a) Graf: Seção III

Tabela de Contingência (TC) (b) Graf: Seção III

Mann- Whitney; Cochran’s TT (c) Graf: Seção IV

Teste t (de 2 grupos) (d)

Graf: Seção IV

Categórico Tabela de

Contingência (b) Graf: Seção III

Tabela de Contingência (b) Graf: Seção III

Kruskal-Wallis (e)

Graf: Seção IV

Análise de Variância (f)

Graf: Seção IV

Ordinal Mann- Whitney; Cochran’s TT (c) Graf: Seção VI

Dicotomizar VI ou VD e usar teste

apropriado (Max. Balanço) (g)

Correlação de Postos/ RNL(h) Graf: Seção V

Correlação de Postos/ RNL(h) Graf: Seção V

Quantitativo Regressão Logística (i)

Graf: Seção VI

Dicotomizar VI ou VD (Max. Balanço)

(g)

Correlação de Postos/ RNL(h) Graf: Seção V

Pearson/ Regressão

Linear/ RNL (j) Graf: Seção V

Figura 1.9- Esquema de uma tabela para escolha de testes simbolizando a validação de análise.

Page 19: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

18

apenas abordaremos a validação de análises frequentistas (simples ou contextuais). As análi-ses frequentistas envolvem principalmente tra-tamentos matemáticos com os dados para deci-dir se a evidência obtida apoia significativamen-te uma hipótese. A validação da análise geral-mente envolve considerações sobre as técnicas escolhidas (apresentadas na seção de méto-dos) e a própria análise dos dados (na seção de resultados). A profundidade destas considera-ções nos métodos varia bastante, podendo até limitar-se à nomeação do teste aplicado, se for uma análise tradicional em um contexto comum. É raro em estudos biológicos empíricos que a validação da análise envolva demonstrações matemáticas, mas é comum que haja alguma explicação quando se usa testes menos tradici-onais.

Se estivermos tratando de um teste de hipótese e já escolhemos a técnica estatística apropria-da, o próximo passo é a análise em si, cujo principal resultado é se a evidência apoia signi-ficativamente o previsto pela hipótese. Chegar a um resultado significativo depende da quanti-dade de dados (entre outras coisas), por isto, a significância implica em representatividade numérica para validar a conclusão. A ausência de um resultado significativo pode indicar duas coisas, que a hipótese estava errada ou que estava certa, mas a quantidade de dados foi insuficiente para uma decisão segura (dentro dos critérios de risco assumidos).

Aproveitando o exemplo da seção anterior so-bre a comparação na quantidade de peixes entre lagos das duas regiões e admitindo que os cuidados para a validação interna tenham sido tomados, podemos agora analisar estatisti-camente os dados. Você não pode concluir que há mais peixes em uma região que na outra com base em dois lagos de cada região e dois na outra. Pode acontecer de não haver nenhu-ma diferença na abundância de peixes e por acaso você ter tido azar duas vezes em uma região e sorte duas vezes na outra. Entretanto, não é razoável ter azar muitas vezes em uma região e sorte muitas vezes na outra. Quantos lagos são necessários para concluir com certe-

za que as regiões diferem depende de quanto de diferença existe entre os lagos e do nível de rigor do teste estabelecido pelo pesquisador. Nestas análises, a matemática ajuda muito. A lógica e a aplicação destes testes serão apre-sentadas nos capítulos 4 e 5.

1.5 Estatísticas intuitiva e frequentista

Alguns textos sugerem que cursos de estatística são necessários devido à “dificuldade dos cére-bros humanos em lidar com probabilidades”. Será que nossa estatística intuitiva é tão ruim assim? Ao contrário, somos muito bons, pois a sobrevivência de animais em geral e dos ani-mais com melhores capacidades cognitivas em particular depende destes cálculos intuitivos. Acontece que há uma diferença entre a estatís-tica intuitiva e a formal mais utilizada em pes-quisas. Veremos nesta seção como esta esta-tística intuitiva está em nosso cotidiano e como a estatística formal mais comum difere dela.

Quando atravessamos uma rua, calculamos a velocidade do carro que vem em nossa direção, a sua distância, o tamanho da rua e o tempo que levaremos para chegar ao outro lado e então cruzamos a via, com a maior naturalida-de. Imagine a complexidade e rapidez dos cál-culos que realizamos durante uma partida de tênis ou para dirigir um automóvel no meio de outros carros e dos pedestres que atravessam a rua. Esta matemática instantânea e sem núme-ros desenvolveu-se ao longo da evolução, pois quanto mais precisos os cálculos intuitivos, maior a chance de sobrevivência, sucesso soci-al e reprodutivo.

Parte desta matemática intuitiva é transformada em estatística intuitiva, utilizada na tomada de decisões do cotidiano. Por exemplo, você está saindo de casa e percebe que há nuvens carre-gadas, volta e pega um guarda chuva. No mer-cado você vai pagar as compras, escolhe a fila com menos carrinhos, mas muda de fila porque percebe que os carrinhos da frente estão muito cheios. No caminho de volta, você reconhece e cumprimenta uma pessoa que não via há uns 10 anos; ela está um pouco diferente, mas qua-

Page 20: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

19

se não envelheceu. Preparando a janta, você avalia que o peixe no forno ainda não está pronto com base no cheiro e na consistência. Conclui ainda que está de-morando e que a demora pode ter sido por não ter coberto o peixe, mas acha que valeu a pena porque ele está ficando mais dourado que no seu preparo usual. Sua mãe deveria ter chegado há meia hora, esta observação te faz ligar para ela para saber se houve algum problema. Cada uma destas atitudes simples está carre-gada de estatística intuitiva.

Não nos damos conta da complexidade dos cálculos envolvidos nas decisões do cotidiano. Usamos nossa estatística intuitiva para atribuir valores, sintetizar as informações, decidir se existe uma relação entre determina-das variáveis e construir modelos de previsão e de controle. O termo “estatística intuitiva” não implica que nascemos com ela, da mesma for-ma que não nascemos andando, na verdade nascemos com o potencial, mas é uma capaci-dade que vamos desenvolvendo. Se pensarmos bem a estatística intuitiva, é algo tão impressio-nante como a nossa capacidade de andar sobre duas pernas ou de nos comunicar com pala-vras.

Podemos dividir estas decisões em três tipos de Valor, de relação e de ação (Fig. 1.10). Há deci-sões de valor, como nas expressões “nuvens muito carregadas”, “carrinhos muito cheios” ou no reconhecimento de uma pessoa (esta pes-soa=João). Parece natural, mas pense na com-plexidade que é reconhecer uma pessoa. O atraso da mãe foi percebido em função de uma medida de tempo médio e de atraso médio que permitiu “medir” o atraso como “acima do nor-mal”. Outras decisões são de relações entre variáveis, que nos são ensinadas ou que apren-demos ou percebemos por conta própria. Por exemplo, a relação entre a quantidade de nu-vens e a probabilidade de chover ou entre o cheiro do peixe e ele estar pronto para ser con-sumido. Outras decisões são de ação, como pegar o guarda chuvas, mudar de fila ou telefo-nar para a sua mãe.

Para entender como uma decisão envolve um cálculo, analise o exemplo do guarda chuva. Depois da decisão de valor de considerar que o que você viu eram “nuvens muito carregadas” e depois de ter estabelecido (ainda na sua infân-cia) a relação entre a quantidade de nuvens e a probabilidade de chuvas, você vai aplicar este conhecimento a uma decisão de ação. A deci-são de ação de pegar o guarda chuva depende da avaliação do custo de pegar o guarda chu-vas e não chover contra o custo de não pegar o guarda chuva e chover. Comecemos pelos ex-tremos: se pegar chuva fosse extremamente perigoso e o guarda chuva fosse muito leve, você simplesmente o levaria sempre; se pegar chuva não incomodasse em nada e carregar um guarda chuvas fosse um estorvo, você nunca o levaria. Em casos intermediários, precisamos de um cálculo, intuitivo ou formal. Ilustremos com um cálculo formal. Se você acha que escapar de uma chuva vale R$10,00 e que pagaria R$2,00 para não ter que carregar o guarda chu-vas por um dia, então não levaria o guarda chu-vas se a chance de chover fosse de 50% (pois 0,5 x R$10,00 > 0,5 x R$2,00), mas levaria se a chance de chuva fosse de 90% (pois 0,1 x R$10,00 < 0,9 x R$2,00). Não dê importância ao cálculo exato, o objetivo aqui é perceber que a decisão depende de duas coisas: do custo que representa cada alternativa de decisão e da probabilidade de cada alternativa no momento da decisão.

Figura 1.10- Três tipos intuitivos de decisão utilizados em problemas do cotidiano que também são usados na pesquisa.

Page 21: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

20

É importante iniciarmos valorizando nossa ca-pacidade de tomar decisões, para entendermos que nossa lógica intuitiva não está errada, ape-nas difere na aplicação com o que é mais feito na ciência. Imagine que seu namorado ou na-morada lhe pede em casamento. Digamos que você gostaria de casar, mas teme muito a pos-sibilidade separação; qual é a chance disto ocorrer? Se você quisesse uma avaliação do tipo que se usa mais nas pesquisas científicas, você teria que casar com ele (a) umas 30 vezes em condições semelhantes à atual e verificar a taxa de sucesso para tomar uma decisão com o tipo de estatística que vamos trabalhar neste curso. Naturalmente que isto é impossível neste exemplo e em muitas situações do cotidiano, mas é bem mais comum isto ser possível na pesquisa, especialmente em estudos experi-mentais.

Na decisão sobre um casamento, só lhe resta uma abordagem sistêmica na qual você recolhe informações relevantes e procura fazer um cál-culo aproximado de probabilidades. Você pode-ria partir das estatísticas de uma taxa recente de divórcios no Brasil de 20% nos 10 anos inici-ais. Entretanto, considerando sua faixa etária e classe social, você verifica na pesquisa que a taxa é de 30%, portanto, esta é uma estimativa mais apropriada. Este é um risco alto, o que te coloca em dúvida. Então, você conversa com amigos que te tranquilizam lembrando que seu (sua) pretendente teve relacionamentos anterio-res estáveis e que não terminaram devido a alguma briga irracional. Portanto, você conside-ra que a probabilidade de divórcio com ele (a) é bem inferior aos 30% e aceita a proposta. Esta probabilidade estimada considerando as infor-mações contextuais não é utilizada apenas no cotidiano, também é bastante usada em pro-blemas aplicados, como no cálculo do valor de apólices de seguros, utilizando uma versão matemática mais precisa de nossa estatística intuitiva chamada Estatística Bayesiana. Esta é a estatística usada para medir a força de evi-dências factuais e sistêmicas Sua utilização na pesquisa tem sido relativamente restrita, mas tem crescido nos últimos anos, à medida que os pesquisadores vão entendendo a sua utilidade

para uma diversidade de situações de tomada de decisão.

A estatística intuitiva mais comum é uma forma complexa válida de pensar, tanto que tem um equivalente formal, que é a estatística Bayesia-na. Entretanto, em condições especiais, quando podemos obter informações de dados com re-petições de unidades amostrais independentes, e dentro de premissas metodológicas bem defi-nidas, temos uma alternativa bem mais objetiva e poderosa para estabelecer relações que é chamada Estatística Frequentista. Vamos explicar o seu funcionamento a partir do capítu-lo 3. Neste livro, como na grande maioria dos cursos básicos de estatística, apenas tratare-mos de cálculos de probabilidades frequentis-tas. Entretanto, a estatística intuitiva também é usada quando utilizamos a frequentista. Não faremos cálculos matemáticos Bayesianos, mas utilizaremos avaliações de premissas qualitati-vas que chamaremos de “Razoabilidade”, como fizemos na seção 1.4 na validação externa por razoabilidade.

Page 22: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

21

Exercícios 1.1- O que é um problema complexo e por que o fato dele ser complexo não implica que seja de difícil solução. 1.2- Algumas pessoas afirmam que os homens não conseguem desenvolver atividades com-plexas como as mulheres. Puro preconceito. Se for dado tempo suficiente e assessoria adequa-da, os homens podem desenvolver atividades igualmente complexas. Explique por que prepa-rar uma festa de criança é um problema com-plexo e quais partes deste problema podemos “terceirizar”. 1.3- O uso da estatística na pesquisa foi compa-rado com o uso de um microscópio. Explique a analogia. 1.4 Reflita sobre os temas abaixo e pense em um estudo (para cada um) na forma de um pro-blema (um aspecto relevante do tema a ser desenvolvido). Com base nisto: a) defina o pro-blema que será abordado; b) levante uma hipó-tese dentro deste problema; c) faça uma previ-são para testar esta hipótese. 1.4- a. Micorrizas: Suponha que você descobriu as Endomicorrizas*, mas ainda não sabe o que são. O que você percebeu foi a existência de muitos esporos de fungos no solo que aparen-temente estão ligados às raízes. (Se não sabe o que são endomicorrizas, comece com uma pes-quisa na internet) 1.4- b. Ninhos de cupins. Você percebe que algumas espécies de cupins fazem seus ninhos no alto de árvores enquanto outras espécies fazem ninhos no solo com uma parte do ninho acima do solo e um terceiro grupo de espécies fazem ninhos completamente subterrâneos. 1.4- c. Lua: Você sabe que a variação nas fases da lua tem efeitos sobre muitos animais. Então você se pergunta, será que a lua também tem efeito sobre plantas? 1.5- Explique o que é uma previsão exclusiva 1.6- Cite problemas originais que envolvam uma evidência: a) factual; b) frequentista simples; c) contextual d) sistêmica. 1.7- Explique um exemplo original de pesquisa em que as conclusões são suspeitas devido a incertezas na validade das medidas.

1.8- Qual é a diferença entre um problema de validação interna e um problema de validação externa? 1.9- O que é paranoia metodológica? 1.10- Por que os problemas de validação da medida e de validação interna normalmente são mais graves do que problemas de validação analítica e de validação externa ao longo de uma pesquisa? 1.11- Por que evoluímos com uma alta capaci-dade de realizar cálculos estatísticos intuitivos e falhamos em algumas questões estatísticas cotidianas banais. 1.12- Cite exemplos originais de decisões: a) de valores; b) de relações; c) de ações. 1.13- Explique a diferença entre a estatística intuitiva e a estatística mais utilizada em pes-quisas científicas (frequentista).

Page 23: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

22

2 Do problema

biológico ao estatístico. Os livros de estatística vêm com exemplos prontos para a análise de dados. Entretanto, uma das maiores dificuldades dos estudantes é a transformação de problemas biológicos (ou de outras ciências, ou cotidianos) em problemas estatísticos. Neste capítulo, descreveremos sucintamente a Abordagem EPR (Entidade, Propriedade e Relação) de Macnaugton (2002) que ajuda a transformar problemas biológicos (e outros) em problemas estatísticos. Mac-naughton mostrou que há alguns conceitos tão básicos que passam despercebidos, e que são chaves para se compreender como se “monta” um problema antes de iniciar o planejamento de coleta de dados e para determinar quais serão os testes mais adequados à análise dos dados obtidos. Vejamos estes conceitos.

2.1 Entidades

Se você prestar atenção aos seus pensamentos cotidianos em um dado momento, provavelmen-te concordará que estamos pensando sobre diversos tipos de “coisas”. Por exemplo, neste minuto você poderia estar pensando em um amigo ou em um compromisso que tem marca-do para a tarde. Estas “coisas” são exemplos de entidades (Fig. 2.1).

Existem muitos tipos de entidades: Objetos físicos reais simples (montanhas, automóveis, lagos, pessoas, árvores) ou coletivos (cadeias de montanhas, florestas, alcateias, turma de alunos; população; conjunto de elementos em um grupo, espécie biológica); Objetos imaginá-rios (fadas, universos paralelos, teorias, concei-tos); Processos/ações (um experimento, uma reação química, uma reunião, um beijo; uma viagem, a força necessária para levantar certo objeto). Cada tipo de entidade é uma categoria que nomeia diversas entidades unitárias (mon-tanha 1, montanha 2, etc.)

As entidades têm um papel fundamental no pensamento. Na gramática são sempre subs-

tantivos, tanto para os tipos de entidades (ga-tos), como para uma entidade particular (gato no23). Trata-se de um conceito tão básico, que raramente é discutido em metodologia e estatís-tica. Entretanto, como veremos, é útil deixá-lo explícito. As entidades também podem ser chamadas de casos, membros de uma popula-ção, indivíduos, itens, espécimes, objetos, ob-servações, unidades amostrais, etc.

Alguma confusão pode surgir quando há uma derivação imprópria de um substantivo para um adjetivo ou vice-versa. Por exemplo, a palavra “burro” designa um animal, mas pode ser usada como adjetivo, referindo-se a uma pessoa, e a palavra “azul” é normalmente um adjetivo, mas na frase “o azul é lindo” ela é um substantivo. Na frase “o pássaro é da cor azul” a expressão “da cor azul” tem a função de adjetivo para pás-saro. Na frase “este pássaro é da espécie Pi-tangus sulphuratus”, estamos qualificando a entidade pássaro com a expressão “da espécie P. sulphuratus”, enquanto na frase “P. sulphura-tus é uma espécie com distribuição ampla”, P. sulphuratus é uma entidade. O que vale em EPR é a classe gramatical no contexto.

Figura 2.1- Entidades são "coisas" em que pensamos, como árvores, beijos e unidades amostrais, às quais podemos atribu-ir propriedades

Page 24: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

23

2.2 Propriedades

Cada tipo de entidade tem associado a ela uma gama de atributos ou propriedades (Fig. 2.2). Carros têm peso, cor, marca e ano de fabrica-ção. Árvores têm altura, nome da espécie, posi-ção em um mapa. Bandos de passarinhos têm um nome da espécie, um número de indivíduos, uma razão sexual. Cada entidade tem um valor para cada propriedade (não existe carro sem peso, podemos até não saber o valor, mas ele existe).

Propriedades também são chamadas de aspec-tos, atributos, características, fatores, qualida-des ou tratamentos. Os nomes das proprieda-des geralmente são substantivos abstratos que nomeiam qualidades ou estados (localização, cor, beleza, idade, velocidade, quantidade, valor de pH) de entidades. As propriedades também podem ser ações realizadas ou sofridas (ou não) por uma entidade. Por exemplo, “tomar chocolate” (sim ou não) é propriedade na frase “fulano tomou chocolate”. Os nomes de proprie-dades também podem ser abreviações de ações. Por exemplo, a propriedade “tomou cho-colate” (s/n) torna-se apenas “Chocolate” (s/n).

Os valores das propriedades são adjetivos (vermelho, velho, rápido, grande, brasileiro, estudioso), advérbios (aqui, agora, longe, mal, sim, não, talvez, muito, pouco), numerais com funções quantitativas, ordinais ou de rótulo- planta no 135 e datas), às vezes símbolos (♂,☺, ♠ ou O+), e até substantivos. Quando os valores são substantivos, eles têm função quali-ficadora, isto é, tem papel de adjetivo. As pro-priedades origem, local de formação e espécie para a entidade pessoa tem os valores Brasil, USP e Homo sapiens que substituem os adjeti-vos brasileiro, “Uspiano” e humano. Como vi-mos na seção anterior, a espécie Pitangus sul-phuratus é um substantivo, mas faz parte da função qualificadora na expressão após o verbo na frase “este pássaro é da espécie P. sulfura-tus”.

Os valores das propriedades podem ou não variar entre as entidades dentro de um estudo.

Por exemplo, em um estudo sobre pessoas, todas as entidades necessariamente possuem as propriedades comuns aos Homo sapiens, como respirar com pulmões e ser incapaz de voar batendo os braços. No seu estudo, todos os indivíduos poderiam compartilhar a mesma nacionalidade e o fato de possuírem sapatos, seja pela contingência da população acessível ao estudo, seja por uma definição prévia esta-belecida por você acerca de que características teriam os indivíduos selecionados para fazer parte da amostra.

Outras propriedades variam entre entidades, como a altura, o sexo e o meio de transporte mais utilizado por pessoas. Estas propriedades são chamadas “Variáveis”. A variação nestas propriedades tem causas e consequências que podem ser investigadas. As propriedades a serem avaliadas precisam variar no banco de dados do estudo. Você não poderia estudar a diferença na utilização de transporte público entre os sexos se apenas entrevistar pessoas de um sexo, nem poderia estudar o efeito de um tratamento se não tiver indivíduos sem o trata-mento (controle).

Figura 2.2- Propriedades são atributos das entidades.

Page 25: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

24

2.3 Tabelas e gráficos EPR

As tabelas ou planilhas EPR são as tabelas com nossos dados organizados em entidades (li-nhas), propriedades (colunas) e valores (células da tabela). Em uma tabela EPR cada entidade aparece apenas uma vez e as propriedades são variáveis que serão relacionadas ou que participarão da análise de outra forma. A tabela EPR é mais que um local para depositar os dados, ela é uma tabela conceitual que sumariza o planeja-mento do nosso pro-jeto, de forma que deve ser planejada preferencialmente antes da coleta de dados, tendo em vista as relações que queremos veri-ficar.

Os gráficos EPR são gráficos cartesianos cujos eixos são propriedades (as variáveis em estudo) e as entidades são representadas, cada uma delas, por um ponto situado no gráfico em fun-ção dos seus valores das propriedades (e. g. diagrama de dispersão e “dot density”). Além dos eixos, as propriedades também podem ser representadas por diferentes cores ou símbolos (e. g. ♀ e ♂). São gráficos mais ricos em informação que muitos gráficos tradicionais utilizados na apresentação de resultados.

2.4 Relações entre variáveis

Uma relação é uma conexão entre dois objetos, fenômenos ou quantidades, tal que a modifica-ção de um deles importa na modificação do outro. Hipóteses são testadas a partir de suas previsões, e as previsões mais comuns na pes-quisa envolvem relações causais entre duas variáveis, a Variável Preditora (ou “Indepen-dente”), cuja variação influi sobre os valores de uma Variável Resposta (ou “Dependente”), se sua hipótese estiver correta. Para determinar quais são estas variáveis em seu estudo, per-gunte a si próprio: pela minha hipótese o quê (qual fator ou variável) influencia sobre o quê (qual variável)? Por exemplo, se estamos tes-tando a capacidade de borboletas distinguirem entre cores semelhantes pela previsão que a cor da armadilha (vermelhas ou amarelas- vari-ável preditora) atrai uma quantidade diferente de borboletas (variável resposta).

Os termos variável preditora e variável resposta se aplicam quando há uma Relação Conse-quente (ou causal fig. 2.5) entre elas, isto é, quando a causa da variação da segunda é, direta ou indiretamente, a primeira. Quando esta as duas variáveis tem uma relação “próxima”, ela é chamada Relação de Causa Proximal, e quando é distante, é chamada Relação de Causa Final. Por exemplo, em anos com pouca chuva, alguns lagos secam causando a mortali-dade generalizada dos peixes. A causa proximal da morte dos peixes é a falta de água para os peixes poderem respirar e não ressecar e a causa distal é a variação climática. Uma pessoa pode perder seu emprego porque a sua produti-vidade foi abaixo da média (causa proximal), mas isto só aconteceu em função da necessi-dade do banco cortar custos devido à crise ban-cária (causa final). Em estudos biológicos, a causa proximal costuma ser fisiológica ou com-portamental e a causa distal costuma ser ecoló-gica ou evolutiva.

Tamanho Sexo12 m10 m11 f11 f

Figura 2-3- Nas tabelas EPR, as linhas são entidades e as colunas são propriedades. A seta indica uma relação.

Tam

anho

Machos Fêmeas

Janeiro ( ) Julho ( )

Figura 2-4- Nos gráficos EPR, as variáveis (propriedades) são os eixos dos gráficos e as entidades são os pontos. Variáveis adicionais podem ser apresentadas na forma de cores ou simbolos.

Page 26: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

25

Algumas previsões envolvem duas variáveis (Covariáveis) que tem uma Relação Inconse-quente (ou correlação), isto é, a variação em uma não influi sobre o valor da outra, mas as duas podem covariar (variar ao mesmo tempo) em resposta a uma terceira variável. Por exem-plo, podemos verificar se existe uma relação entre as cores das roupas que uma pessoa prefere vestir e o seu sucesso em desempenhar tarefas em grupo. A constatação que a relação existe não implica que as cores causam o su-cesso, é mais provável que uma terceira variá-vel, talvez o grau de otimismo da pessoa tenha influência sobre as cores que ela usa e sobre a sua tendência a ter sucesso em tarefas em grupo. Estudos com previsões conscientes so-bre relações inconsequentes são válidos, como no exemplo acima, entretanto, uma falha co-mum é achar que a existência de uma relação implica uma causalidade, isto é, mesmo encon-trando a relação entre roupa e sucesso, não podemos prever que mudando a cor da roupa de uma pessoa haverá mudança no sucesso em atividades em grupo. Uma expressão impor-tante em estatística é “Correlação não implica causalidade”, isto é, cuidado para não confundir relações inconsequentes com relações conse-quentes.

A relação entre duas variáveis pode ser obscu-recida ou confundida pela existência de outros fatores (conhecidos ou não) influenciando nos valores da variável resposta, por isto, um dos desafios em um estudo é conseguir estabelecer

a relação entre as variáveis preditora e resposta “eliminando” ou “controlando” o efeito das ou-tras relações. Em estudos experimentais, nos quais manipulamos o valor da variável preditora (e. g. quantidade de certo elemento químico em vasos) e medimos a velocidade de crescimento de uma planta, é possível ter segurança que a relação encontrada, se houver, é uma relação consequente. Em estudos não experimentais, isto é, naqueles em que não manipulamos a variável preditora, normalmente não podemos ter esta segurança. Por exemplo, se você com-parar a taxa de crescimento de plantas em fun-ção da quantidade de certo elemento químico no solo na natureza, você não pode ter certeza que a relação encontrada, se houver, é causal, pois é possível que as duas variáveis sejam influenciadas por uma terceira variável. Possi-velmente a umidade no solo tenha um efeito sobre o crescimento da planta e sobre a quanti-dade de algum elemento químico, causando uma relação inconsequente entre estas duas variáveis. Embora correlação não implique cau-salidade, ela pode ser uma evidência importante dentro de um estudo sobre relações causais, desde que tenhamos a consciência que as con-clusões em estudos não experimentais depen-dem de cuidados redobrados (cap. 6).

2.5 A estatística para estabelecer relações.

Muitos estudos biológicos envolvem previsões com uma variável preditora e uma resposta ou com duas covariáveis. O conjunto de técnicas utilizadas nesta situação é denominado Estatís-tica Bivariada (Fig. 2.6). Alguns problemas são mais complexos, ou tratados de forma mais complexa, incluindo na análise mais de duas variáveis ao mesmo tempo para uma descrição ou teste. O conjunto de ferramentas para estes problemas é denominado Estatística Multivari-ada. A estatística multivariada inclui análises com uma variável resposta e múltiplas predito-ras e análises com múltiplas variáveis preditoras e respostas (muitas pessoas utilizam a expres-são estatística multivariada exclusivamente no segundo caso). Há ainda a Estatística Univari-ada, que inclui as técnicas para problemas que

Figura 2-5- Esquema representando diferentes tipos de relações (setas) entre variáveis (letras “A” a “F”). As relações R1 a R5 são consequentes e as relações r1 a r4 são inconsequentes. As relações ligadas diretamente por apenas uma seta são de causa proximal e as rela-ções entre “A” e “D” e entre “A” e “F” são de causa final.

Page 27: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

26

envolvem apenas uma variável. Na estatística univariada, a relação avaliada não é com outra variável, mas com um valor único (ou uma dis-tribuição de valores) de referência ou esperado. Por exemplo, quando queremos saber se o número médio de mosquitos da dengue por armadilha em casas de um bairro está acima do padrão que indica risco de epidemia. Neste livro, trabalharemos apenas com técnicas de estatística univariada e bivariada (com ênfase na bivariada).

O primeiro passo no estudo das relações bivari-adas (e multivariadas em geral) é montar uma tabela EPR. Comece com a hipótese (e. g. a ingestão de chocolate causa espinhas), passe para uma previsão com uma variável preditora (“tomou chocolate”- sim/não) e uma variável resposta (“número de espinhas”). A entidade inicialmente é alguém ou algo a quem estas propriedades podem ser atribuídas, no caso, pessoa (pessoa 1, pessoa 2, etc.). Faça uma coluna para numerar as entidades (opcional),

uma coluna para a variável preditora e outra para a variável resposta e entre os valores para cada entidade (Tab. 01). Outras colunas com variáveis adicionais (e. g. idade e sexo da pes-soa) também podem ser incluídas, desde que sejam apropriadas para a entidade em questão. Uma única planilha pode ser utilizada para tes-tar todas as hipóteses que tem a mesma enti-dade em um estudo, basta que as variáveis

envolvidas estejam entre as colunas.

Na tabela EPR, uma entidade não pode aparecer duas vezes. Se a mesma pes-soa tomou chocolate mais de uma vez, então a entidade é ingestão-pessoa-dia (ingestão 1, ingestão 2, etc.), e “pessoa” opcionalmente pode entrar na tabela como mais uma propriedade (quem ingeriu). (Considerando a importância da independência entre unidades amostrais (cap. 6), normalmente se evita incluir a mesma pessoa em uma amostra de várias pessoas; a tabela pode ser mon-tada, mas a análise apropriada pode ser complexa.) Outra possibilidade seria realizar todo o estudo com uma única pessoa, utilizando como entidade “dia” (dia 1, dia 2, etc.). Pode parecer estra-nho que “tomou chocolate” seja proprie-dade de dia, mas pense bem, no dia 3 alguém “tomou chocolate” = sim e no dia

7 alguém “tomou chocolate” = não. Esta abor-dagem de usar apenas uma pessoa tem vanta-gens e desvantagens que serão discutidas de-pois, o ponto a ressaltar aqui é que diferentes

Figura 2-6- A estatística bivariada é a mais utilizada na pesquisa, incluindo apenas uma variável preditora e uma resposta, entretanto, também há análises que lidam com mais variáveis ou com apenas uma variável.

Tabela 2.1- Tabela EPR para avaliar a questão se a ingestão de chocolate causa espinhas

Page 28: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

27

planilhas EPR podem ser utilizadas para anali-sar “a mesma” previsão (embora não seja exa-tamente a mesma quando as entidades são diferentes).

Nem sempre a determinação da entidade é tão fácil como no exemplo do chocolate. Se sua hipótese é que o pH da água onde as larvas de mosquitos se desenvolve afeta a sua sobrevi-vência, a variável preditora é o pH da água e a resposta é a sobrevivência do mosquito, mas qual a entidade? Pode ser frasco, se você tiver vários frascos diferindo no tipo de água e com larvas cuja sobrevivência será calculada ao final do experimento. Há outras possibilidades de-pendendo do que foi sua unidade amostral. Cuidado com o que vai definir como unidade amostral. Se você quer saber se o investimento em merenda escolar por escola influi no rendi-mento acadêmico, sua unidade amostral é es-cola, não é aluno. Portanto, cada linha é uma escola e você vai utilizar a média do rendimento acadêmico por escola.

Algumas hipóteses envolvem apenas uma vari-ável, o que implica em uma coluna na planilha EPR. Considere a hipótese “a resistência de peixes ornamentais ao transporte é influenciada pelo sexo do peixe”. Podemos testa-la com a previsão que partindo de uma população de 50 machos e 50 fêmeas, a proporção de fêmeas ao final será maior. Sobrevivem 25 machos e 40 fêmeas, que é uma diferença estatisticamente significativa. A forma de determinar isto será abordada no capítulo 5, o que nos importa ago-ra é que a conclusão baseia-se apenas na vari-ável “sexo” (a entidade é peixe). Há hipóteses com variável preditora e variável resposta que utilizam testes univariados (testes pareados). Considere a hipótese: “a agilidade de adultos do sexo masculino diminui após a ingestão de apenas uma lata de cerveja”. Sua previsão é que a velocidade na execução de certa tarefa complexa é menor depois da ingestão de uma lata de cerveja. Então você mede a diferença de velocidade antes e depois da cerveja para vá-rias pessoas. Repare que sua análise vai se basear apenas em uma variável, a diferença de velocidade, mas há uma variável preditora im-

plícita (tomou cerveja?- antes/ depois) e uma variável resposta implícita (velocidade).

Para MacNaughton (2002), o papel da pesquisa empírica é descrever relações para predizer e controlar valores de propriedades. A seu ver, as hipóteses são sobre relações (entre variáveis ou em relação a um padrão). O teste de sua hipó-tese é feito com base em predições. Se as evi-dências apoiam uma hipótese, então ela pode ser utilizada como base para outras hipóteses e em na aplicação em problemas práticos, pois nos permite prever valores.

Pense em problemas práticos. Neste lago pega-remos bastante peixe? Este paciente será cura-do? A plantação produzirá mais se plantarmos em abril ou se esperarmos até setembro? Neste local encontraremos cobras venenosas? Se não sabemos as respostas (pois não temos uma máquina de viajar no tempo ou um oráculo) e não podemos esperar o futuro para tomar deci-sões, o que fazer? Se conseguirmos identificar relações entre variáveis, podemos fazer previ-sões. Se soubermos que lagos de água branca sempre tem muito peixe, e que um determinado lago tem água branca, então podemos prever que provavelmente haverá muito peixe nele. Se soubermos que pessoas que têm temperatura alta geralmente estão com infecções, e que uma determinada substância controla infecções, podemos predizer que ela provavelmente terá diminuição na febre e se sentirá melhor se to-mar esta substância. Esta ação aparentemente banal de estabelecer relações é um dos pila-res que sustenta a ciência. A explicação é outro objetivo da ciência, mas se pensarmos bem, ela está intimamente ligada ao estabelecimento de relações.

Page 29: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

28

Exercícios:

2.1- Cite exemplos originais de entidades do tipo objeto físico, do tipo entidade coletiva e do tipo processo, com duas propriedades inerentes a cada tipo de entidade. 2.2- Explique, com um exemplo original, por que algumas palavras podem ter significados com-patíveis com entidades (substantivo) ou com valores de propriedades (e. g. adjetivos) depen-dendo do contexto. 2.3- Monte uma tabela EPR que contenha qua-tro propriedades cujos valores das propriedades sejam respectivamente adjetivos, advérbios, numerais e símbolos. Duas destas propriedades devem ser variáveis e as outras duas não. 2.4- Defina uma hipótese, uma previsão e faça um esquema de uma tabela EPR com duas colunas, a variável preditora na coluna da es-querda e a variável resposta na coluna da direi-ta. Inclua valores para cinco entidades. 2.5- Faça um gráfico EPR para a tabela da questão anterior com os 5 valores da tabela e outros 15 adicionais. 2.6- Qual é a diferença entre variáveis teóricas e operacionais e entre hipóteses de relações e hipóteses existenciais? 2.7- A frase “correlação não implica causalida-de” está relacionada com a diferença entre rela-ções consequentes e inconsequentes? Explique a frase com exemplos originais de relações consequentes e inconsequentes. 2.8- De um exemplo original de uma relação proximal e uma distal para explicar o mesmo fenômeno. 2.9- Qual é a diferença entre as estatísticas bivariada, univariada e multivariada. 2.10) Elabore tabelas e gráficos EPR para a lista de hipóteses/ previsões a seguir:

a) O tamanho de indivíduos da espécie de tar-tarugas Podocnemis expansa influi na taxa reprodutiva.

b) A temperatura durante o desenvolvimento embrionário afeta a razão sexual em ni-nhos artificiais de P. expansa.

c) Motoristas que utilizam insulfilme em seus carros costumam realizar maior número de contravenções em ambiente urbano.

d) A taxa de decomposição da serrapilheira varia em função do ambiente (Campina-rana, Baixio e Platô) na Amazônia Cen-tral.

e) A temperatura na sala de aula influi sobre o desempenho de estudantes em provas.

f) O pH de um local no qual há acúmulo de água de chuva afeta a sobrevivência de mosquitos Aedes aegypti.

g) Há dimorfismo sexual de tamanho nas bor-boletas Capronnieria abretia.

h) A sobrevivência de gafanhotos verdes é maior do que de gafanhotos marrons na época chuvosa na caatinga.

i) Cigarro causa câncer.

j) Passar por baixo de uma escada dá azar.

k) Olho gordo seca pimenteira.

2.11) Construa uma tabela e um gráfico EPR para cada relação entre as variáveis operacio-nais com dados imaginários verossímeis. (Quando necessário, substitua variáveis teóri-cas por operacionais).

2.12) Escolha uma relação para explicar dificul-dades com validação da medida, validação interna e validação externa.

2.13) Construa uma tabela EPR e dois gráficos EPR para avaliar relações em seu campo de pesquisa (preferencialmente um trabalho que esteja desenvolvendo).

Page 30: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

29

3 Confiança na

medida e independência

Neste capítulo abordaremos: a) a incerteza em medidas de valores individuais em função da forma de atribuir uma categoria ou da falta de precisão ou de acurácia em instrumentos ou procedimentos de medida; b) a variação natural em valores quantitativos na forma de distribui-ções de frequências; c) a incerteza na estimati-va de parâmetros populacionais e d) a impor-tância da “independência entre unidades amos-trais” na estimativa de parâmetros populacio-nais. Para discutir estes assuntos serão apre-sentados alguns termos.

3.1 Níveis e escalas de medida

Dizer que uma pessoa é “alta” ou que mede 1,80m são duas formas válidas de falar sobre altura, mas com poder informativo diferente e que recebem tratamentos estatísticos diferen-tes. Nas duas formas, estamos falando de vari-áveis, pois são propriedades que variam entre unidades amostrais. Se você divide as pessoas em dois grupos, altas e baixas, terá dois níveis de medidas; se você dividir em 3 grupos, altas, médias e baixas, terá três níveis. Se medir com uma fita métrica, terá vários níveis de medida (e. g. 1,73 m, 1,82 m).

Níveis efetivos de medida são os diferentes valores de uma variável efetivamente incluídos em uma análise. Para saber o número de níveis efetivos (NE) em variáveis categóricas ou ordinais (veremos a diferença adiante), basta con-tarmos as categorias utilizadas. Em variáveis quantitativas ele é calculado com esta fórmula sim-ples: NE= (max-min+1)/precisão (ou conta-se diretamente do gráfi-co ou da base de dados). Por exemplo, na figura 3.1, a variável “Mês” tem 6 níveis efetivos e a variável “Tamanho da Aranha” tem

19 níveis efetivos. Cuidado, não são todos os 25 do eixo Y, pois a menor medida foi 4 mm, a maior 22 mm, e a precisão da medida foi de 1mm (como pode se ver no gráfico). Se a preci-são fosse de 0,5mm, teríamos aproximadamen-te o dobro de níveis efetivos.

Em função do tipo de valor utilizado, as variá-veis dividem-se em “escalas de medida” da seguinte forma:

Binárias: Possuem apenas dois níveis efetivos. Por exemplo: sim ou não; presença ou ausên-cia; macho ou fêmea; macrofauna ou mesofau-na; “controle” ou “tratamento”. Também são binárias as variáveis quantitativas que assumem apenas dois valores em uma analise (e. g. com-paração entre tratamentos com 1 mg ou 2 mg de um medicamento).

Categóricas: Assumem valores “qualitativos” (não quantitativos) sem uma ordem intrínseca natural entre os níveis, ou possuem uma ordem, mas esta pode ser ignorada na análise. Por exemplo: tipos sanguíneos (A, B, AB e O), mar-cas de fertilizante, habitat e nome do coletor (podem ser ordenadas alfabeticamente, por exemplo, mas esta ordem é irrelevante para a análise). Números podem ser utilizados para “rotular” entidades (e. g. 135= planta # 135), por

Phoneutria reidyi

Ago Out

Jan Abr

Ago

0

5

10

15

20

25

Ta

mn

ho

da

ara

nh

a(m

m)

Jun Mês da coleta 2001/2002

v ♂♀

?

Figura 3.1- Neste gráfico EPR há seis níveis na variável “Mês da coleta”, 19 níveis na variável “Tamanho da aranha” e três níveis na variável “Sexo”.

Page 31: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

30

isto a propriedade “número da planta” é categó-rica, já que não é uma quantidade sujeita a operações matemáticas (a planta #1 não é igual à planta#136 menos a planta#135). Variáveis binárias sempre podem ser tratadas como cate-góricas, mas diferem das categóricas com mais de dois níveis efetivos por possuir uma maior flexibilidade em análises estatísticas, o que justifica uma escala separada. As escalas Biná-ria e Categórica juntas são chamadas de Esca-la Nominal.

Ordinais: Existe uma sequência ordenada rele-vante entre os níveis na análise. A diferença entre um nível e o próximo é de posição ape-nas, não há uma quantificação. Por exemplo, não podemos saber se o segundo lugar em uma corrida chegou mais próximo do primeiro ou do terceiro apenas com a posição da chegada. Outros exemplos: abundância na escala “nula, rara, intermediária, comum ou muito comum”; vento na escala “fraco, moderado, forte, violento e furacão”; notas na escala “A, B, C, D ou re-provado”; idade na escala “filhote, jovem pré reprodutivo, adulto novo, adulto velho”; tipo de solo na escala “arenoso, intermediário arenoso, intermediário argiloso ou argiloso”. Você pode usar números nestas escalas, mas é preciso lembrar que estes números não são quantida-des.

Quantitativas: Variáveis quantitativas possuem valores numéricos que efetivamente represen-tam quantidades. Não são variáveis quantitati-vas aquelas que possuem valores numéricos que representam apenas ordem ou rótulo de uma categoria.

Muitos livros de estatística dividem a escala quantitativa em duas: Razão e Intervalar. Esta separação envolve um detalhe matemático que raramente é relevante para o uso das técnicas estatísticas que abordaremos, de forma que não a utilizaremos. Outra separação comum na escala quantitativa é entre números “contínuos” (números Reais) e “descontínuos” (números Inteiros). A questão da continuidade é relevante porque os “saltos” dos números entre níveis podem exigir ajustes nos cálculos estatísticos. É

como se fossem buracos na estrada de nossos carros estatísticos. Por exemplo, o número de ovos é uma variável quantitativa descontínua, pois não existem “3,5 ovos”, há um “salto” entre os níveis 3 e 4. Segundo estes livros, o peso de um ovo seria uma variável quantitativa contínua, pois há valores intermediários entre 40 e 41 g (como 40,555 g).

A descontinuidade é efetivamente algo que deve ser levado em conta em análises estatísti-cas. Entretanto, o problema não se resolve com esta divisão em dois tipos de números. Esta divisão é inapropriada porque: a) na prática, não existe nenhuma medida continua, tudo é conta-gem, pois todo equipamento ou procedimento tem um limite de precisão. Por exemplo, no caso de pesos nós contamos as microgramas do último dígito de uma balança, com “saltos” de 40,555 para 40,556 mg; b) contagens com muitos níveis (e. g. posturas de peixes com 623, 1.544, etc., em número de ovos) têm proprieda-des matemáticas semelhantes em análises estatísticas às dos números “descontínuos” (equivalem a 0,623 e 1,544, etc., em milhares de ovos); c) mesmo para uma variável conside-rada contínua (números Reais), pode haver problema de descontinuidade até para instru-mentos de precisão se o número de níveis efeti-vos for pequeno. Por exemplo, se você obtiver apenas os três níveis efetivos 0,01; 0,02 e 0,03 g em todas as suas medidas (note que não são números Inteiros) haverá descontinuidade. Ao invés de separar as estradas em “lisas” (contí-nuas) e “esburacadas” (descontínuas), seria melhor classificar as estradas em função dos tamanhos dos buracos, pois microburacos sem-pre existem sem ser necessariamente um pro-blema. Veremos no capítulo 5 que na prática o problema da descontinuidade na variável res-posta é irrelevante acima de 20 níveis efetivos, pequeno até 10 níveis e vai tornando-se gradu-almente grave a muito grave à medida que te-mos menos níveis efetivos, exigindo ajustes na técnica de análise.

Outras escalas. Há três escalas de medida especiais com as quais não trabalharemos, mas que precisam ser conhecidas, uma vez que

Page 32: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

31

requerem métodos estatísticos próprios. Algu-mas vezes estas escalas podem ser tratadas como se fossem uma das escalas apresentadas anteriormente, entretanto, não é o ideal. A Es-cala “Proporção” é para valores do tipo “x de n” (e. g. 15/28 sementes sobreviveram no vaso 1) ou do tipo que varia de 0 a 1 ou de 0 a 100%. Muitas vezes estes valores são tratados como quantitativos, mas há formas mais apropriadas de lidar com eles (Warton & Hui, 2011). Na Es-cala Hierárquica a “ordem” entre os níveis efetivos é hierárquica (grupos dentro de gru-pos). O exemplo mais comum em biologia é a variável “espécies” (pois as espécies se agru-pam de forma hierárquica em gêneros, famílias, etc.). A variável “local”, como em casas em um estudo sobre dengue em vários municípios também é hierárquica, pois as casas podem ser agrupadas em vários níveis espaciais (bairro, município, estado). As técnicas específicas são diversas em função do problema específico (e. g. Anova hierárquica; Regressão Filogenética, Análise de Correspondência Canônica). Na Escala Circular os níveis são cíclicos, isto é seguem uma determinada ordem até chegar a um último nível e retornar ao primeiro. Os exemplos mais comuns envolvem medidas de tempo, como “hora do dia”, “dia da semana”, “mês”. Direções angulares (como a direção do voo indivíduos em migração) também estão em escala circular. Métodos de “Estatística Circular”

(Zar, 1984) são necessários para analisar dados nesta escala. Entretanto, variáveis como meses e horas deixam de ser circulares se há uma referência sequencial adicionada à informação (e. g. fevereiro de 2008, 23 horas do terceiro dia).

As escalas de medida normalmente são trata-das como se fossem excludentes entre si, isto é, que se um valor pertencesse a uma não per-tenceria a outra, mas não é assim (Fig. 3.2). Uma escala quantitativa é também ordinal, pois os números que representam quantidades estão ordenados (mas nem toda sequência ordinal é quantitativa). As escalas quantitativa e ordinal, também são categóricas, pois cada valor numé-rico ou de ordem, pode ser visto como uma categoria. A binária está incluída em todas, pois dois valores podem ser obtidos em qualquer escala. Muitos textos dividem os valores em quantitativos e qualitativos, o que nos induz a pensar que quantidades não são qualidades. Entretanto, dizer que uma pessoa tem 1,80 m é só uma maneira mais precisa de dizer que ela é alta. Portanto, quantidades também são quali-dades. A compreensão que algumas escalas de medida estão “dentro” de outras e que qualquer atribuição de valor é uma atribuição de uma qualidade será importante quando abordarmos lógica e a flexibilidade na escolha de testes estatísticos (capítulo 5).

3.2 Atribuição de níveis nominais e ordinais

Em escalas nominais (binárias ou categóricas) e ordinais não há uma quantificação; os níveis são atribuídos por um reconhecimento ou inter-pretação que determinada unidade amostral pertence a uma categoria ou grupo definido ou que está dentro de uma posição em uma escala ordinal. Muitas vezes isto é simples, como ao registrar o local de uma coleta ou o se um peixe morreu ou está vivo ao final de um experimento de ecotoxicologia. Entretanto, frequentemente a atribuição de níveis nominais ou ordinais é uma das partes mais sensíveis de um estudo.

Figura 3.2-. Do ponto de vista lógico, as escalas de medidanão são auto excludentes, algumas estão contidas em outras, e a Binária (Bi) se encontra dentro de todas.

Page 33: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

32

Imagine que você quer saber se a proporção de meninos que sabe nadar é diferente da propor-ção de meninas que sabem nadar. Você realiza entrevistas e pergunta a muitas crianças se elas sabem nadar. Dos 300 meninos, 66% responde-ram “sim” (sabem nadar), muito mais que os 33% de 300 meninas que responderam “sim”. Embora a diferença seja estatisticamente signi-ficativa, há uma dúvida importante antes de se concluir que mais meninos que meninas sabem nadar. O significado de um “sim” de um menino é realmente comparável ao significado de um “sim” de uma menina? Possivelmente os meni-nos tenham mais vergonha em admitir que não sabem nadar e respondam “sim” mesmo sem saber, enquanto as meninas apenas respondem “sim” se nadam bem. Este exemplo ilustra o tipo de problema que pode acontecer em entrevis-tas, mas o problema não se restringe a entrevis-tas.

Por serem interpretações, as atribuições nomi-nais e ordinais sempre estão sujeitas a erros, como na identificação de uma espécie, na de-terminação de qual doença um paciente teve, ou no sentido de um “sim” no parágrafo anterior. É importante definir cuidadosamente os critérios de atribuição, principalmente quando a subjeti-vidade pode ter um papel importante na decisão de valor. Em muitos estudos de comportamento, é importante se detalhar o significado de cate-gorias de comportamento utilizadas para permi-tir comparações (etograma). Se você chamar de “comportamento agressivo” apenas quando animais efetivamente lutam, vai considerar o comportamento mais raro do que outra pessoa que considere qualquer demonstração de agressividade.

Quando trabalhamos com níveis ordinais os resultados são muito mais confiáveis se sempre forem definidos pela mesma pessoa suficiente-mente treinada, ou se houver uma tabela de referência bem definida (como uma tabela de cores de solo). Mais difícil é interpretar níveis ordinais que variam entre pessoas ou circuns-tâncias envolvidas na coleta dos dados. Se 60% das pessoas entrevistadas de uma cidade gos-tam da qualidade de vida e apenas 30% das

pessoas entrevistadas de outra cidade gostam da qualidade de vida, não podemos saber se a qualidade de vida é melhor na primeira cidade ou se as pessoas são mais exigentes na se-gunda. Uma pessoa pode achar que há “pou-cas” aves em um local quando estiver come-çando a observar aves, e perceber que há “mui-tas” depois de adquirir mais experiência.

Abordamos aqui as incertezas na atribuição de valores nominais e abordaremos na próxima seção incertezas em precisão e acurácia de valores quantitativos. Terminamos esta seção destacando que também os valores quantitati-vos podem ter incertezas de atribuição, por exemplo, o número de ações agressivas por dia dependerá do que se considera um comporta-mento agressivo, como já foi discutido acima. Portanto, é sempre importante refletir bem so-bre a possibilidade de erros de atribuição com-prometendo a interpretação no seu estudo.

3.3 Exatidão, precisão e acurácia.

Uma medida é um valor de uma propriedade de uma entidade obtido com o uso de instrumen-tos, protocolos e procedimentos que podem ser bons ou ruins em diferentes graus e aspectos que serão tratados aqui.

A exatidão de uma medida, na teoria, é a pro-ximidade entre o valor obtido e o valor real. Na prática, uma medida é considerada mais ou menos exata conforme o procedimento (instru-mento, protocolo, etc.) para obtê-la for conside-rado mais ou menos exato. Imagine que você comprou um medidor de pressão arterial digital baratinho na farmácia. Chegando em casa, como qualquer consumidor ávido, a primeira coisa que você faz é medir a tua pressão com o novo brinquedo. O resultado te assusta: pres-são alta, de 140:90 (mmHg sistólica: diastólica), acima do “ideal” de aproximadamente 120:80. Será que você terá que ir ao médico? ...ou será que é a medida que está errada? Para saber se a medida está errada, você teria de saber a medida real. Mas se você soubesse a medida real, não precisaria do aparelho. Se um espe-cialista tiver te recomendado este aparelho por-

Page 34: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

33

que além de barato ele é muito exato, então você aceitaria a medida sem questionar. Do contrário, você mesmo pode avaliar a exatidão instrumental nos seus dois aspectos: sua preci-são e sua acurácia.

A PRECISÃO de um procedimento é o grau em que conseguimos com ele medidas quantitati-vamente próximas entre si em condições está-veis e homogêneas. A primeira coisa que faría-mos com nosso medidor de pressão seria repe-tir a medida várias vezes. É improvável que a tua pressão varie muito em poucos minutos, de forma que podemos desprezar a variação natu-ral, e o esperado seria várias medidas iguais ou muito próximas se o aparelho for muito bom. Para simplificar, vamos considerara apenas os valores da pressão sistólica. Se você obtivesse os valores 140, 139, 140, 140, 141, 140, 140, 139, isto indicaria que o instrumento tem muita precisão. Se os resultados fossem 140, 113, 125, 99, 137, 119, 121, 108, isto estaria mos-trando que a precisão do instrumento é baixa.

A ACURÁCIA de um procedimento é o seu grau de ajustamento médio em relação ao valor “re-al”. Uma balança pode ter alta precisão, porque sempre dá o mesmo resultado, mas pode estar descalibrada e dar um resultado 15 gramas superior ao real em todas as medidas. Um reló-gio de alta precisão atrasado 10 minutos vai apresentar este erro por anos se não for ajusta-do para o horário correto. Alguns equipamentos de medida, como uma trena, não precisam de calibragem, outros, como balanças e pHmetros, precisam de verificações periódicas, por isto, são vendidos juntos com padrões para calibra-ção, como metais com pesos conhecidos. Mas como faríamos no caso do nosso aparelho de medir pressão? O ideal seria comparar uma medida deste aparelho com a medida para a mesma pessoa imediatamente depois com ou-tro aparelho reconhecidamente preciso e cali-brado. Se não houver outro aparelho deste tipo disponível, uma alternativa seria medir a pres-são de outras pessoas ao seu redor. Se todos tiverem pressão normal e você for o único com pressão alta, é provável que o aparelho esteja correto. Se todos tiverem pressão alta, é bem

possível que o aparelho está descalibrado. Nes-te caso, talvez seja bom ir ao hospital e obter uma medida confiável. Se o hospital confirmar a pressão alta, pelo menos você sabe que pode confiar na acurácia do aparelho para as próxi-mas medidas.

Uma forma didática de representar a precisão e a acurácia é através de tiros a um alvo. Quanto maior a precisão menor a dispersão dos valo-res. A precisão nos tiros ao alvo com o instru-mento “espingarda” costuma ser alta compara-da com a baixa precisão com o instrumento “revolver” para o mesmo atirador à mesma dis-tância (Fig. 3.3). O resultado é que os tiros da espingarda ficam mais concentrados que os do revolver (alvos superiores). Entretanto, a espin-garda pode estar desajustada (alvo superior direito), o que significa que a mira precisa ser ajustada para obter maior acurácia. Note que não podemos distinguir se o desvio de um tiro foi por falta de precisão ou por falta de acurácia se não tivermos um conjunto de tiros.

Precisão e a acurácia podem ser medidas. No exemplo da espingarda e do revolver, conside-rando que o número de tiros é semelhante, você pode dizer que a espingarda tem mais precisão porque o tamanho do segmento entre os tiros mais distantes é menor na espingarda que no

Figura 3.3- Ilustração sobre dois conceitos de incerteza instrumental pela analogia com tiros de uma espingarda(acima) e de um revolver (abaixo).

Page 35: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

34

revolver. Você pode dizer que a acurácia da espingarda é maior quanto menor a à distância entre o centro do alvo e o centro dos tiros (fig. 3.4).

A medida da acurácia é útil para corrigir distor-ções pela calibragem. Em equipamentos, como vimos acima, é comum haver padrões para a calibragem, mas ocasionalmente precisamos calibrar procedimentos de outras formas. Imagi-ne que você tivesse que estimar visualmente tamanhos de jacarés à distância. Neste caso, você pode calibrar esta capacidade estimando tamanhos de objetos semelhantes a jacarés (como troncos) à distância e depois verificar como está se saindo medindo os objetos com uma trena. Se tiver tendência a superestimar o tamanho, reduza suas estimativas e se tiver tendência a superestimar, aumente as estimati-vas. Se puder capturar jacarés, é conveniente repetir a avaliação para melhorar a sua capaci-dade de estimar. Ninguém consegue acertar precisamente todas as medidas, mas você pode se considerar “calibrado” quando a quantidade de subestimativas é semelhante à quantidade de superestimativas.

A precisão costuma ser medida pelo seu inver-so, a dispersão dos valores (Fig. 3.4-2). Quan-to menor a precisão, mais dispersos serão os

dados ao redor do valor central. A medida mais simples de dispersão é a amplitude total, isto é, a diferença entre o maior e o menor valor (Fig. 3.5). Podemos comparar a precisão de um aparelho de medir pressão com outro pela am-plitude das medidas tiradas da mesma pessoa em poucos minutos. Um aparelho que apresen-tasse os valores {140, 139, 140, 140, 141, 140, 140, 139 em mmHg} teria uma amplitude total de 2mmHg, enquanto um aparelho com os valo-res {140, 113, 125, 109, 137, 119, 121, 118 mmHg} teria uma amplitude total de 31 mmHg, isto é, o segundo teria uma precisão bem me-nor. Esta medida de dispersão (e precisão) tem alguma utilidade quando há muitos dados, mas é simplista demais e ruim para a maioria das situações, pois a amplitude total não varia ape-nas com a precisão do instrumento, ela também varia (tende a aumentar) com o número de me-didas.

Uma solução para este problema é utilizar uma amplitude parcial central dos dados por exclu-são de uma porcentagem dos extremos. Neste contexto descritivo de precisão, o mais comum costuma ser a amplitude parcial central excluin-do-se ¼ dos menores valores e ¼ dos maiores valores, que é chamada Amplitude do Interva-lo Interquartil (fig. 3.5). Com a exclusão de uma proporção fixa de extremos, a amplitude parcial dos dados não aumenta com o número de dados, como costuma acontecer com a am-

Figura 3.4- Representação de medidas relacionadas à exatidão: 1) desvio de um tiro (ou inexatidão pontual); 2) imprecisão de uma espingarda (dispersão de valores ou imprecisão instrumen-tal); 3) descalibragem ou tendenciosidade instrumental (inacurá-cia instrumental). A imprecisão e a inacurácia são os dois aspec-tos da inexatidão instrumental.

Figura 3.5- Medição da precisão de um aparelho de medir pressão arterial por múltiplas medidas de pressão em con-dições estáveis. A Amplitude do Intervalo Interquartil, obtido pela exclusão de 25% dos valores inferiores e 25% dos valores superiores é uma medida melhor que a Ampli-tude Total porque não tende a aumentar com o número de medidas.

Page 36: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

35

plitude total. Isto é, a amplitude Interquartil não tende a ser maior ou menor se for determinado com oito dados ou com 80; o maior número de dados apenas aumenta a precisão desta medi-da de dispersão. Portanto, a amplitude do inter-valo interquartil é uma forma apropriada de medir a dispersão dos dados. Apesar disto, esta forma de medir a dispersão dos dados é pouco utilizada.

Quanto maior a dispersão dos dados, maior a distância de cada ponto do centro. Com base nisto, foi criado outro índice de dispersão cha-mado de Desvio Absoluto Médio (DAM) (Quadro 3.1). Esta medida é uma forma bastante intuitiva de medir dispersão, mas também é pouco utili-zada. A medida de dispersão mais utilizada é semelhante na essência: a raiz quadrada da média dos desvios ao quadrado, que é chama-da de Desvio Padrão. O desvio padrão é real-mente uma excelente medida de dispersão em muitas situações, inclusive na medida da preci-são de instrumentos e procedimentos, mas é necessário algum cuidado. Primeiro quanto ao número de valores usados em seu cálculo. Bas-tam dois valores para um cálculo de desvio padrão, mas cálculos com menos que cinco dados são muito pouco confiáveis como medida de dispersão. Além disto, ele pode não ser uma boa medida de dispersão dependendo da distri-buição de frequências da variável em questão, como veremos na próxima seção. Na prática, precisamos estar atentos para a acurácia de nossos procedimentos, mas não é tão comum precisarmos avaliar a precisão das medidas que utilizamos. Em algumas situações, como no exemplo das estimativas de tamanhos dos jacarés, a imprecisão da medida pode ser muito importante e merece atenção especial. Entretanto, em muitos estudos, os procedimen-tos e instrumentos são plenamente satisfatórios, isto é, sua imprecisão é irrelevante em compa-ração à variações naturais em estudo. Se sua planta cresce 10cm entre cada medida, a preci-são de 1 mm é mais que suficiente para as tuas análises. Em outros casos, a precisão não é tão boa, mas ela pode ser compensada por um tamanho amostral maior. Embora o conheci-

mento sobre precisão seja importante, ainda mais importante é o conceito de dispersão de valores que serve como base para entendermos o assunto da próxima seção: a variação natural e as distribuições naturais de frequências.

Quadro 3.1- A média aritmética (1) é um parâmetro populaci-onal utilizado em cálculos de muitas medidas paramétricas. Quando estimada com base em uma amostra, ela é geralmente simbolizada com um X ou um Y com uma barra encima. O Desvio Absoluto Médio (2) é uma medida simples e intuitiva de dispersão. O Desvio Padrão (3) é uma medida bem mais utilizada, com a mesma essência do DAM. A fórmula de DP apresentada é utilizada quando o determinamos com base em uma amostra, que é a situação mais comum. N= Tamanho amostral; xi= cada valor registrado na amostra; Ʃ= símbolo matemático de somatório que significa que deve se somar os termos a seguir na fórmula. Curiosidade matemática: a estatís-tica paramétrica utiliza estimativas inicialmente tendenciosas que necessitam ajustes. É o caso do desvio padrão da amostra com seu denominador (N-1). Por que não calculamos a média dos desvios elevados ao quadrado com o denominador N? De fato, no cálculo de um desvio padrão de um conjunto completo de dados o denominador é N. O problema é que para determi-nar o desvio padrão populacional com base em uma amostra estaremos subestimando a dispersão com o denominador N, porque nossa média não é a média real, mas uma estimativa que necessariamente é mais central ao conjunto de dados em questão. Ao dividir por (N-1) temos um valor mais aproxima-do do DP da população.

Page 37: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

36

3.4 Distribuições de frequências

A partir do momento em que temos procedimen-tos calibrados e com precisão conhecida, po-demos nos despreocupar com as medidas indi-viduais e voltar a nossa atenção para a Varia-ção Natural.

Não se deve confundir a variação de medidas em função da precisão de instrumentos com a variação natural. Poucas pessoas têm uma altura que coincide com a média da população, mas isto não significa que a altura da maioria das pessoas esteja errada. Não é uma questão de erro de medida, é algo natural. No exemplo das sementes do início da seção 3.3, estáva-mos realmente nos referindo a uma variação de precisão de medida, ou erro de medida, porque eram medidas da mesma semente. Entretanto, se os alunos estivessem medindo sementes diferentes, a variação encontrada seria também

resultado da variação natural dos tamanhos das sementes. Ocasionalmente esta variação com-binada (erro de medida + variação natural) é chamada de “erro”. Este é um termo infeliz, pois nos induz a pensar que a variação natural é parte de um erro da mesma forma que os erros de instrumentos ou de métodos de medida. Se a precisão de medida for muito baixa, o erro de medida pode prevalecer e obscurecer a varia-ção natural, mas se a precisão de medida for boa, a variação encontrada não é um erro, mas uma característica importante da população em estudo.

O gráfico mais comum para mostrar a variação nos valores de uma variável quantitativa é cha-mado Histograma. Trata-se de um gráfico de distribuição de frequências. Vamos ilustrar com um conjunto de valores de tamanhos de peixes e de salários de uma amostra representativa de funcionários em uma grande corporação (Fig. 3.6). Analise o gráfico com atenção, veja que no eixo X (horizontal) da figura temos valores quantitativos divididos em intervalos iguais e no eixo Y (vertical) temos frequência, que pode ser a contagem das entidades por intervalo (fre-quência absoluta) ou uma percentagem por intervalo do total de entidades (frequência rela-tiva). Na figura 3.5 temos outra forma de apre-sentar dados de uma variável, mas em histo-gramas o eixo Y com a frequência dá melhor visibilidade à forma como os dados se distribu-em, especialmente quando temos muitos dados e intervalos de classes pequenos, geralmente lembrando uma “montanha” (distribuição uni-modal- como nos dois gráficos da figura).

Os histogramas mostram bem os dados de amostras, mas são limitados para fazermos inferências populacionais. Por isto, geralmente se faz inferências modelando a distribuição com curvas matemáticas teóricas ajustadas aos valores obtidos, ou por procedimentos de rea-mostragem (seção 3.6), ou simplesmente as-sumindo um modelo matemático, como vere-mos adiante. Na figura 3.6 as linhas com uma forma de montanha foram construídas a partir de modelos matemáticos ajustados aos valores. Na figura 3.7 são apresentados gráficos de

Figura 3.6- Duas distribuições de frequência com formatos diferentes. Na figura A, a distribuição tem o formato apro-ximado de um sino. Na figura B a distribuição é fortemente assimétrica. As amplitudes com 95% dos dados foram determinadas com cálculo paramétrico em (1) e por exclu-são de extremos em (2).

Page 38: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

37

modelos matemáticos que podem ser ajustados aos dados quantitativos obtidos. Naturalmente, o modelo se aplica bem apenas em uma situa-ção estável, isto é, quando a amostra foi retira-da em uma condição na qual qualquer outra amostra deveria mostrar um resultado bastante similar. Por exemplo, se o tamanho médio dos peixes varia entre anos, não podemos modelar apropriadamente para um ano com base nos dados de outro ano.

As distribuições de frequência tem importância direta e indireta em estudos biológicos. A impor-tância direta está na interpretação de causas e consequências do formato da distribuição. Por exemplo: a) uma distribuição bimodal (fig. 3.7) pode indicar uma seleção natural disruptiva em um caráter biológico; b) pirâmides etárias são uma forma especial de histograma que revelam importantes características de populações, co-mo o grau de desenvolvimento social de um pais. A importância indireta está em permitir a

verificação de premissas para a utilização de determinadas ferramentas de análise estatísti-ca, como veremos a seguir.

É comum que a “montanha” da distribuição de frequência tenha um formato bastante simétrico que lembra um sino, como vemos na figura 3.6 A e na figura 3.7. O modelo matemático que descreve esta forma de curva é chamado mode-lo de Distribuição Normal (ou Gaussiano). Muitas ferramentas estatísticas foram desenvol-vidas para serem utilizadas quando os dados tem “normalidade” (isto é, quando é razoável assumir que a população tem distribuição nor-mal). Na prática, nunca obtemos uma distribui-ção perfeitamente normal com nossos dados, pois um modelo é sempre uma aproximação da realidade. Por exemplo, na natureza há limites para tamanhos, mas na distribuição normal não há. Para uma distribuição de frequência de da-dos ser considerada do tipo “normal” não é ne-cessário uma forma perfeita de sino, basta o “jeitão” (como na figura 3.6 A). Quando os da-dos não são suficientes para definir o “jeitão”, ainda podemos assumir a normalidade com base na razoabilidade, isto é, em motivos teóri-cos ou de experiência anterior com dados da mesma natureza. Mesmo quando é evidente que a distribuição não tem normalidade, mas ela não se afasta muito da distribuição normal, ainda é razoável se utilizar técnicas estatísticas que tem a premissa da distribuição normal. O problema é trabalhar com dados assumindo uma distribuição normal sem verificar a compa-tibilidade dos dados com esta distribuição ou sem uma base na razoabilidade.

Quando temos uma distribuição normal, ou aproximada, o desvio padrão é uma excelente medida de dispersão dos dados. Conhecendo a média e o desvio padrão de uma população, pode-se determinar a proporção aproximada da população a um, dois ou três desvios padrões da média (Fig. 3.8). O desvio padrão é calcula-do a partir da média, que é um parâmetro popu-lacional, por isto, é uma medida chamada de paramétrica.

Figura 3.7- Exemplos gráficos que ilustram modelos de distribuições de probabilidades teóricas. Estes modelos servem como bases para utilização de ferramentas estatís-ticas se podemos assumir que eles realmente são compa-tíveis com a distribuição na população.

Page 39: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

38

A vantagem do desvio padrão (DP) é que é uma excelente medida de dispersão para variáveis que tem normalidade. A desvantagem é que simplesmente não é uma medida apropriada quando a distribuição não é normal. Você pode determinar o intervalo que contém 95% dos dados por exclusão de extremos (seção 3.3) ou de forma paramétrica com base no desvio pa-drão (Amplitude 95%= média±1,96 DP), com resultados semelhantes se a distribuição for normal (Fig. 3.6 A). Entretanto, ao utilizarmos o Desvio Padrão para descrever uma distribuição que não é normal podemos chegar a resultados estranhos, como incluir salários negativos nos limites de uma amplitude parcial central (Fig. 3.6 B), o que nunca acontece com interva-los determinados por exclusão de extremos. Quando não há normalidade, há algumas alter-nativas: a) utilizar a amplitude interquartil como medida de dispersão; b) realizar uma transfor-mação dos dados de forma a obter normalidade (Cap. 5); c) apresentar a distribuição de fre-quência ao invés de uma síntese numérica.

3.5 Parâmetros populacionais

Na Biologia, geralmente estamos mais interes-sados em características de populações ou de conjuntos de observações ou eventos do que em indivíduos ou em eventos singulares. Algu-mas destas características são valores quantita-tivos denominados parâmetros.

Quando temos um conjunto de valores (popula-ção estatística) com distribuição de frequência estatisticamente estável, podemos estimar apropriadamente alguns parâmetros a partir de subconjuntos representativos (amostras). Isto é muito útil, já que raramente temos acesso a toda a população estatística em que estamos interessados em um estudo. Nesta seção serão apresentados os parâmetros populacionais mais importantes. Os parâmetros podem ser univari-ados (de contagem, de proporção, de variáveis ordinais, de variáveis quantitativas) ou multiva-riados (de relação).

Os parâmetros de contagem são totais para toda a população, como número total de indiví-

duos da população estatística (não confunda o número de indivíduos da população com tama-nho de uma amostra desta população).

Os parâmetros de proporção são contagens de unidades amostrais de uma categoria divididos por um total de unidades amostrais, como a razão sexual de adultos e a taxa de sucessos em um estudo sobre aprendizado (sucessos/ tentativas). Em variáveis binárias só se apre-senta um parâmetro de proporção relevante (e. g. razão sexual= machos/ total), pois o parâme-tro da outra categoria (fêmeas/ total) seria re-dundante, de forma que você pode escolher qualquer um. Quando há mais de duas catego-rias em uma variável, pode haver mais de um parâmetro relevante (e. g. “azul/total”, “ver-de/total”, “amarelo/total”). Embora isto possa ser aplicado para categorias ordinais, normalmente é preferível se usar outro parâmetro que será apresentado adiante para esta escala.

Os parâmetros de variáveis quantitativas envol-vem contagens, como o número médio de célu-las brancas por campo em uma lâmina de san-gue, ou medidas “contínuas”, como o desvio padrão no tamanho (em µm) de indivíduos de uma população de Artemia salina. Note que as contagens neste tipo de parâmetro não são de unidades amostrais, mas de algo que está em cada unidade amostral. No exemplo da lâmina

Figura 3.8- Quando temos uma distribuição normal, pode-mos determinar com base na média e no desvio padrão (DP), como os dados se distribuem e a proporção a cada intervalo entre um, dois e três desvios padrões acima e abaixo da média.

Page 40: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

39

de sangue, a unidade amostral era campo e a população eram os campos daquela lâmina.

Os parâmetros de variáveis ordinais e de variá-veis quantitativas mais importantes são de três tipos: de tendência central, de dispersão e ex-tremos. As três medidas de tendência central principais são a média, a mediana e a moda. A média comum (também chamada de média aritmética) é a soma dos valores divididos pelo número de observações (a princípio não deveria ser aplicado para variáveis ordinais). A mediana divide os valores ordenados pela metade. Por exemplo, se colocarmos 25 valores em ordem crescente, a mediana será o 13º valor. A moda é o valor mais frequente quando os dados quan-titativos estão agrupados em intervalos. A me-diana geralmente é considerada uma medida mais apropriada de “centralidade” quando não temos uma distribuição normal ou aproximada-mente normal, entretanto, a média é sempre uma medida significativa para medidas quantita-tivas, mesmo na ausência de normalidade, pois reflete um aspecto de centralidade que a medi-ana não reflete.

Nas seções anteriores vimos medidas de dis-persão como o Desvio Padrão e a Amplitude do Intervalo Interquartil. Se a imprecisão da medida for pouco relevante em relação à variação natu-ral, estas medidas também são parâmetros populacionais (quando toda a população foi amostrada), ou estimativas de parâmetros po-pulacionais (quando o cálculo foi feito por uma amostra), pois a variação é uma característica de uma população.

Parâmetros quantitativos extremos são o máxi-mo e o mínimo populacional para uma variável. Não nos referimos a médias de mínimos ou de máximos, mas a estimativas de mínimos e má-ximos absolutos a partir de amostras. Sua de-terminação é bem mais incerta e complexa do que para medidas de centralidade e de disper-são. Por este motivo, raramente são tratados em cursos básicos, entretanto, são parâmetros extremamente importantes. Por exemplo, preci-samos ter estimativas do valor máximo da en-

chente de um rio para construirmos uma barra-gem segura.

Parâmetros multivariados envolvem mais de uma variável ao mesmo tempo. Por exemplo, a diferença nos tamanhos médios de machos e fêmeas de ratos silvestres em uma população (parâmetro de grau de dimorfismo sexual em tamanho) ou a inclinação (coeficiente angular) da reta que descreve a relação entre o peso de indivíduos uma população de ratos silvestres e a quantidade de recursos alimentares em sua área de vida (parâmetro em um modelo mate-mático). São parâmetros, pois são característi-cas quantitativas relacionadas a estas popula-ções, e são importantes nos estudos de rela-ções. Há análises em que diversos parâmetros são determinados ao mesmo tempo, como em equações que descrevem a relação entre uma variável resposta e diversas variáveis preditoras (regressão múltipla).

3.6 Intervalos de confiança de parâmetros.

Como já vimos, raramente trabalhamos com parâmetros, trabalhamos com estimativas de parâmetros e estas estimativas tem utilidade limitada sem um intervalo de confiança.

Se você está estudando um pequeno bando de girafas de uma reserva, basta contá-las para obter o valor do parâmetro “número de indiví-duos”. Entretanto, se quiser estimar a popula-ção de gafanhotos na mesma área, a contagem de todos provavelmente seria impraticável. Vo-cê poderia dividir a área em muitas partes, sor-tear algumas, realizar contagens apenas nes-tas, tirar uma média e multiplicar pelo número de partes. Neste caso, você não teria o valor do parâmetro, mas uma estimativa. A chance de você acertar exatamente é extremamente baixa, por isto qualquer estimativa de parâmetro é praticamente inútil sem um intervalo de confian-ça.

Um intervalo de confiança é uma extensão da nossa estimativa para uma amplitude ao invés de um valor pontual, tendo um grau de rigor pré-

Page 41: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

40

estabelecido para seu cálculo. Os intervalor de confiança mais utilizados são IC99%, IC95%, IC90% e o erro padrão (ou IC68,27%). Um IC95% de um parâmetro significa que o interva-lo foi calculado de forma a ter 95% de chance do intervalo de conter o parâmetro. Por exem-plo, uma estimativa de média de gafanhotos por 100 m2 de 12,3 com IC95% entre 8,5 e 20,3 nos dá uma ideia bastante precisa de até que ponto nossa estimativa pontual é confiável. A figura 3.9 ilustra uma utilização de intervalos de confi-ança para mostrar mudanças temporais. Os intervalos permitem avaliar as mudanças nas médias de volume de néctar por horário de for-ma objetiva. O aumento entre 5:00 e 6:00 horas é incerto, mas podemos dizer com segurança que houve redução entre 6:00 e 7:00 horas.

Quanto menor o intervalo de confiança obtido para um parâmetro, melhor é a estimativa, isto é maior é a sua precisão. A precisão de um pa-râmetro depende da precisão das medidas indi-viduais, da variação natural entre unidades amostrais e da representatividade numérica. Abordamos precisão das medidas individuais na seção 3.3. É bom termos medidas individuais precisas, mas a im-precisão e a variação natural no cálculo de parâmetros podem ser compensadas por uma maior represen-tatividade numérica. A representativida-de numérica.tem dois elementos prin-cipais, o tamanho da amostra (número de unidades amostrais) e o tamanho da uni-dade amostral (quan-do ela varia em ta-manho). Basicamen-te, quanto maior o tamanho da amostra, maior é a certeza de que a estimativa do parâmetro está pró-xima do valor real da

população. No exemplo dos gafanhotos, quanto mais áreas de certo tamanho você tiver, maior precisão terá. Neste exemplo, também teremos maior precisão quanto maior for cada área, pois isto tende a diminuir a variação nos valores entre áreas e a cobertura da área coletada. (A representatividade em distribuição é um concei-to diferente relacionado com acurácia da esti-mativa que será tratado na próxima seção.)

O conceito de intervalo de confiança é essencial ao usuário de estatística, mas o seu cálculo não é, por isto não entraremos em detalhes sobre a forma de calcular intervalos de confiança de parâmetros de contagens e de parâmetros de proporções. Estes intervalos podem ser facil-mente calculados em sites como www.graphpad.com/quickcalcs/confInterval1 (Motulsky, 2010). Entretanto, entraremos um pouco nos detalhes de como obter intervalos de confiança de parâmetros de variáveis ordinais e quantitativas, pois há conceitos relevantes ao usuário que precisam ser tratados.

Há diferentes formas de se determinar interva-los de confiança. As mais utilizadas para o pa-

05:0

0

06:0

0

07:0

0

08:0

0

09:0

0

10:0

0

Horário da manhã

0

2

4

6

8

10

12

Volu

me d

e N

ect

ar

(µL)

05:0

0

06:0

0

07:0

0

08:0

0

09:0

0

10:0

0

Horário da manhã

0

2

4

6

8

10

12

Volu

me d

e N

ect

ar

(µL)

Figura 3.9- Variação na quantidade de néctar (µL) em flores de Ficus devendus entre as 5:00 e as 10:00 horas da manhã. A barra horizontal representa a medida paramétrica do Intervalo de Confiança de 95% da Média. O IC95% paramétrico é simétrico, mas foram omitidos os valores negativos no gráfico.

Page 42: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

41

râmetro média têm sido o Erro Padrão (Quadro 3.2) e uma estimativa paramétrica do Intervalo de Confiança da Média (ICM) de 95% (ou IC95% da média) calculada a partir do valor do erro padrão. É importante não confundir o erro padrão com o desvio padrão. O desvio padrão é uma medida de dispersão de valores da popu-lação; é uma característica desta população que ganha precisão quanto maior a amostra usada para estimá-lo. O erro padrão é um intervalo de confiança da média (equivale a um IC68%) que diminui quanto maior for o tamanho da amostra utilizada na estimativa. Sempre que usar um ou outro é obrigatório explicitar de qual se trata.

O erro padrão e o intervalo de confiança para-métrico são simétricos acima e abaixo da me-dia. Este é um dos problemas desta forma de calcular intervalos de confiança que fica claro no exemplo da figura 3.8. Note que foi omitida a parte negativa do intervalo de confiança no horário 10:00hs. Isto foi feito porque sabemos que não existe quantidade negativa de néctar. Quando a distribuição de frequências é muito assimétrica, como ocorreu neste exemplo, me-didas paramétricas de intervalos de confiança devem ser evitadas.

A técnica chamada Bootstrap (Quadro 3.3) permite obter uma estimativa não paramétrica

de intervalos de confiança assimétricos ajusta-dos aos dados. A lógica do funcionamento do Bootstrap é bastante intuitiva e é apresentada na legenda do Quadro 3.3. Quando há normali-dade, suas estimativas são tão boas quanto as obtidas por métodos paramétricos e quando não há normalidade suas medidas são sempre me-lhores. Outra vantagem do Bootstrap é que esta técnica não se restringe a avaliações da média, permite a determinação de intervalos de confi-ança para qualquer parâmetro das escalas quantitativa e ordinal.

Embora seja uma técnica antiga, raramente é apresentada em cursos introdutórios de estatís-tica, porque os conteúdos destes cursos foram definidos há uns 30 anos, quando o acesso ao poder de computação era mais restrito, e esta técnica exige este poder. Entretanto, já faz tem-po que isto não é um fator limitante e trata-se de uma técnica valiosa, de forma que lentamente está vencendo o tradicionalismo e começando a ser incorporada aos cursos básicos.

A única premissa do bootstrap é que a amostra tenha uma distribuição semelhante à distribui-ção da população. Por exemplo, você não pode calcular uma velocidade média (e seu intervalo de confiança) de um animal que se desloca raramente se suas observações não incluírem alguns destes deslocamentos (esta premissa também vale para testes paramétricos). Se a distribuição dos dados for normal, podemos determinar intervalos de confiança com boa segurança a partir de 10 valores. Entretanto, se a distribuição dos dados não tiver normalidade, é necessário ampliar a amostra até que tenha distribuição representativa da população de valores. Quando temos tamanhos amostrais menores que 10 e representatividade de distri-buição, o intervalo de confiança pode ser utili-zado, mas é muito importante também apresen-tar os dados brutos, como foi feito na figura 3.9, onde os valores de cada observação são mos-trados. Tamanhos amostrais pequenos não são um pecado acadêmico, mas está errado escon-der do leitor as incertezas nos dados.

Quadro 3.2- Cálculo paramétrico do Intervalo de Confian-ça IC95% da média. O cálculo do Desvio Padrão foi apre-sentado no Quadro 3.1.

Page 43: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

42

Quadro 3.3- Determinação de Intervalos de Confiança pela técnica de Reamostragem chamada Bootstrap. Funciona como se o computador “clonasse” os dados várias vezes, “recriando” algo semelhante à população original (como os números na tabela acima). Tendo esta população, o computador retira uma amostra do mesmo tamanho amostral da amostra inicial (representada em destaque na tabela) e calcula o valor do parâmetro (e. g. a média). Depois repete o processo muitas vezes (e. g. 1000 vezes), obtendo repetições de estimativa do parâmetro. Então retira uma porcentagem dos valores extremos (e. g.. 5% para obter um IC95%) e obtêm os limites do Intervalo de Confiança.

Page 44: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

43

3.7 Independência para parâmetros univariados

Os valores de parâmetros univariados e seus Intervalos de Confiança apenas são válidos se as amostras utilizadas para as estimativas fo-rem baseadas em amostras representativas em distribuição na população em questão.

Uma amostra com representatividade em distri-buição é aquela obtida de forma a se obter uma estimativa não tendenciosa de um parâmetro univariado. A forma mais conhecida de se obter uma amostra representativa em distribuição é pela aleatorização (isto é, pelo sorteio) de quais unidades amostrais de toda a população serão incluídas na amostra. Esta não é a única forma válida de obter amostras representativas em distribuição, uma coleta sistemática apropriada também permite isto (Fig. 3.11). Por que isto é importante? Suponha que você quisesse esti-mar a produtividade vegetal média em uma fazenda e realizasse todas as coletas na mar-gem leste desta fazenda por uma questão de conveniência (proximidade da estrada de aces-so). O problema é que esta produtividade pode-ria ser influenciada pela fertilidade do solo que não é necessariamente homogênea e poderia *variar em gradiente de uma margem a outra da área. Isto não é uma questão de paranoia me-todológica (seção 1.4), é uma possibilidade concreta que não pode ser desprezada. A pos-sibilidade da estimativa do parâmetro ser desvi-ada por qualquer variável de confundimento que possa ter algum padrão espacial ou temporal é anulada se a coleta for feita de uma forma apropriada, como em uma coleta aleatória ou sistemática na área de estudo. Algo semelhante acontece com coletas realizadas ao longo do tempo.

A qualidade de uma estimativa de parâmetro univariado depende, primariamente, das unida-des amostrais terem sido obtidas de uma forma bem distribuída no universo amostral (represen-tatividade em distribuição) e, secundariamente, da porcentagem da população que foi amostra-da (representatividade numérica). Por exemplo, se você conseguir dados de altura de 0,01% da

população masculina adulta do Brasil por sor-teio de toda a população terá uma amostra ex-celente para calcular a média de alturas. Se você utilizar os dados de toda a população masculina adulta de um único estado, como São Paulo, esta medida não será representativa da média nacional, mesmo contendo cerca de 20% da população do Brasil. Quando há repre-sentatividade em distribuição as unidades

Figura 3.11- Três formas de coletar dados. X= unidades amostrais selecionadas para compor a amostra. Neste caso, a amostra sistemática não é representativa da borda da área e a amostra de conveniência só é representativa de uma borda.

Page 45: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

44

amostrais, frequentemente se diz que são “in-dependentes”. O que significa independentes? Independentes umas das outras? Não, nem poderiam, já que estamos falando de uma popu-lação e todas devem pertencer à mesma popu-lação. O termo Independência significa fora da influência de um fator de confundimento.

3.8 Independência em análises de relações

As análises mais comuns em estudos biológicos envolvem a avaliação de relações que implicam causalidade (relações consequentes). Nestas análises são calculados parâmetros multivaria-dos (e seus intervalos de confiança), incluindo diferenças de médias entre grupos, coeficientes de correlação ou coeficientes para cada variável de uma equação em modelos matemáticos mais complexos. Nesta situação, podemos falar em independência quando há representatividade paralela (Fig. 3.12). Na representatividade paralela ideal, os conjuntos de unidades amos-trais de cada nível da variável preditora (ou combinações de níveis das variáveis preditoras, se houver mais de uma) possuem representati-vidade em distribuição válida em relação à po-pulação estatística. Esta situação é rara, como veremos adiante, de forma que geralmente se busca nesta situação uma representatividade paralela parcial e generalizações com base na razoabilidade. Na representatividade paralela parcial, os conjuntos de unidades amostrais de

cada nível da variável preditora possuem a mesma representatividade em distribuição entre si, ainda que nenhum destes níveis seja válido como representatividade em distribuição de toda a população estatística. Esta situação será explicada com exemplos experimentais, pois neles é mais simples se obter esta condição.

Vamos comparar três experimentos para testar a hipótese que a Vermiculita (um mineral seme-lhante à mica usado na agricultura) adicionada ao solo influi sobre a produtividade de soja. Para testar esta hipótese você vai comparar o crescimento de plantas em vasos sem vermicu-lita (controle) com o crescimento de plantas em vasos com 50 g de Vermiculita adicionada ao solo. No primeiro experimento você utiliza ape-nas sementes saudáveis de soja de um pacote que comprou em um supermercado. Ao final, as plantas nos vasos com o tratamento cresceram significativamente mais e a resposta para sua questão, dentro de critérios estatísticos, é sim, pelo menos para este pacote. Note que um pacote não pode ser considerado representativo das plantas de soja do mundo, entretanto o resultado positivo pode ser considerado uma evidência relevante do efeito da vermiculita para além deste pacote. A lógica é que, neste con-texto, costuma ser mais razoável imaginar que a diferença é uma característica genérica da soja do que particular ao pacote. Voltaremos a isto adiante.

Agora imagine que você tem dois pacotes de sementes de soja, um de um lote brasileiro e outro de um lote japonês. Você escolhe (ou sorteia) qual deles vai ser utilizado no controle e o outro vai para o tratamento. Ao final, as plan-tas nos vasos com o tratamento cresceram significativamente mais. O problema é que você não sabe se cresceram mais em função do tratamento ou em função do lote. Não há repre-sentatividade paralela porque os níveis da vari-ável preditora diferem em algo que relevante além da própria variável em estudo. O sorteio foi uma aleatorização irrelevante, pois não foi para cada semente e sim para cada pacote, de forma que não permitiu a homogenização da representatividade entre os níveis. A variável

Figura 3.12- A representatividade paralela ocorre quando os conjuntos de unidades amostrais de cada nível da variável preditora (linhas paralelas) possuem a mesma representatividade universal. Isto ocorre, por exemplo, quando selecionamos aleatoriamente as unidades amos-trais que serão utilizadas em cada tratamento em um experimento.

Page 46: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

45

“lote” neste caso é uma variável de confundi-mento porque gera uma indefinição, já que é uma explicação alternativa ao tratamento com Vermiculita para explicar a diferença entre tra-tamento e controle. Portanto, este segundo experimento é inconclusivo.

Em um terceiro experimento, você sorteia de qual dos dois lotes, do Brasil ou do Japão, sairá cada uma das sementes que irá para o trata-mento e para o controle. Desta forma, terá uma mistura dos dois lotes tanto no controle como no tratamento. Ao final, as plantas nos vasos com o tratamento cresceram significativamente mais e a resposta para sua questão é sim, pelo me-nos para esta mistura de dois pacotes. Assim como o primeiro experimento, este também é válido.

Note que em nenhum desses experimentos temos garantia de representatividade em distri-buição das amostras em relação a todas as plantas de soja do mundo, mas isto não é tão importante quanto a representatividade paralela. Vejamos por quê.

Nos estudos de relações entre uma variável preditora e uma variável resposta não há ape-nas duas variáveis em jogo, há muitas outras variáveis influindo sobre a variável resposta, que podem atrapalhar na avaliação sobre a relação em estudo. O primeiro e o terceiro expe-rimentos são considerados válidos porque a representatividade em distribuição entre os níveis da variável preditora é idêntica. Isto é, ainda que não tenham representatividade em distribuição da população, não diferem de forma potencialmente tendenciosa, pois não existe um fator que afeta o grupo do tratamento de forma diferente da que afeta o grupo controle. Assim, o único fator que influi no sentido de causar uma diferença entre o tratamento e o controle é o próprio efeito do tratamento em estudo.

No segundo experimento o potencial efeito do lote tornou o resultado inconclusivo, mas no terceiro experimento o efeito do lote foi anulado porque o sorteio garantiu a representatividade balanceada, isto é, a distribuição do efeito do

lote igualmente entre tratamento e controle. Tecnicamente dizemos que “realizamos atribui-ção aleatória de qual semente vai para cada nível de tratamento”. Em uma linguagem mais simples, a gente simplesmente mistura bem as sementes e distribui entre os tratamentos. Ape-nas em estudos experimentais temos este po-der de atribuição aleatória de tratamentos. Em estudos não experimentais precisamos encon-trar outras formas de anular ou reduzir o efeito de variáveis de confundimento que trataremos no capítulo 6, mas a essência de se buscar representatividade paralela é a mesma.

Além de anular o efeito de potenciais variáveis de confundimento, há uma segunda preocupa-ção que precisa ser levada em conta em estu-dos de relações: a representatividade. Como já comentamos acima, o experimento 1 com as sementes foi considerado válido, mas baseou-se em apenas um lote de sementes de soja. O ideal não seria que fosse utilizada uma amostra aleatória de todas as sementes de soja do mundo? Isto seria muito difícil, mas pelo menos não deveríamos tentar misturar vários lotes diferentes?

Para responder estas perguntas, precisamos levar em conta conhecimentos biológicos e razoabilidade. A rigor, a conclusão a que che-gamos com um lote aplica-se apenas ao lote de sementes que estudamos. Entretanto, este nível de rigor é exagerado. Podemos e devemos utilizar a validação externa por razoabilidade (seção 1.4). Com base em nossos conhecimen-tos biológicos, devemos ser cautelosos em ge-neralizar o resultado para toda a espécie em qualquer clima e solo, mas é muito razoável generalizar para a variedade e para o mesmo clima e solo. Poderíamos ter feito uma mistura de lotes diferentes, o que realmente aumenta o poder de generalização, entretanto, isto introduz ruído na análise. Ruído é a variação ocasionada por incluir o efeito de outras variáveis, ainda que de forma não tendenciosa, o que leva ao obscu-recimento do efeito em estudo. A decisão de misturar alguns lotes é razoável e precisa ser ponderada pelo pesquisador, levando em conta se irá priorizar o poder do teste ou a generaliza-

Page 47: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

46

ção. Entretanto, considerando que normalmente queremos generalizar nossas conclusões para o futuro, e que não podemos viajar no tempo, a representatividade paralela ideal raramente é possível e geralmente teremos que julgar com base na razoabilidade até onde podemos gene-ralizar as conclusões de um estudo.

Em resumo: em estudos de relações, o aspecto mais importante é proceder de forma a anular todas as potenciais variáveis de confundimento (aquelas que podem causar tendenciosidades). Desta forma, teremos a segurança de que as diferenças significativas nas variáveis respostas apenas possam ser atribuídas às variáveis pre-ditoras estabelecidas no estudo. Adicionalmen-te, é preciso refletir até que ponto as unidades amostrais representam o universo amostral inferido pelo estudo.

3.9 Considerações complementares

3.9.1- Sobre o significado do termo “Indepen-dência”.

Como vimos, o termo “independência” tem sig-nificados diferentes, o que gera confusão. Nesta seção analisaremos o uso do termo e sintetiza-remos o que vimos nas duas seções anteriores. Mesmo nos melhores textos de bioestatística o conceito de independência é apresentado de forma pouco esclarecedora.

Definição 1: “Por independência queremos dizer que as observações coletadas em uma réplica não tem influência sobre as observações cole-tadas em outra” (Gotelli e Elison 2010). Mesmo neste excelente livro, a definição não é clara. É difícil entender como observações coletadas podem influir sobre outras observações coleta-das. Com esta definição, somos induzidos a achar que não haveria problema de indepen-dência no segundo experimento da seção ante-rior, pois não há nenhuma influência de uma semente sobre a outra, cada uma está em um vaso separado. Entretanto, o problema das sementes não estaria na influência presente de uma réplica sobre outra durante o experimento, mas em potenciais diferenças nos “passados

compartilhados” que são fatores comuns a cada lote de sementes (constituição genética, riqueza do solo onde foram geradas, tempo de armaze-namento, qualidade obtida em função da forma de colheita e transporte, etc.).

Definição 2: “Em probabilidade e estatística, independência entre variáveis aleatórias ou eventos significa que a partir do resultado de um deles não é possível inferir nenhuma con-clusão sobre o outro” (Wikipédia). A Wikipédia é uma valiosa fonte para tirar dúvidas de estatísti-ca, mas não ajudou. O que significa “a partir do resultado de um deles”? Com dependência ou sem, nunca podemos inferir um valor a partir de outro. E se considerarmos vários valores, o conceito não se sustenta logicamente nem nos exemplos de jogos de azar. O que significa “não é possível inferir nenhuma conclusão sobre o outro”? Se eu jogar um dado muitas vezes (eventos independentes) posso verificar que há seis números diferentes com frequências seme-lhantes de ocorrência e posso concluir que a chance de cair qualquer um deles na próxima jogada é de 1/6, ao contrário do que propõe a definição.

É surpreendente que um termo tão importante na estatística não seja definido de forma mais apropriada. Estas definições provavelmente refletem uma visão de estatística predominan-temente inspirada em jogos, mas que não se encaixa bem em situações de pesquisa.

A dificuldade existe porque se utiliza um termo para quatro conceitos diferentes: a independên-cia genérica, a independência absoluta, a inde-pendência induzida de amostragens e a inde-pendência induzida de relações.

A Independência (genérica) é um termo que se aplica quando se obtém as condições necessá-rias para análises estatísticas não tendenciosas. Entretanto, o termo normalmente não é utilizado estritamente com este sentido. A expressão “independência entre unidades amostrais” é utilizada com frequência, como se fosse uma característica intrínseca das unidades amos-trais. Mas é importante entendermos que duas

Page 48: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

47

unidades amostrais nunca são independentes sob todos os aspectos imagináveis. Você pode-ria considerar independentes duas unidades amostrais obtidas em lados opostos do mundo, mas elas seriam dependentes em algum outro aspecto, como, por exemplo, por terem sido medidas no mesmo ano. Na realidade, entre as unidades amostrais tem que haver uma depen-dência fundamental: todas devem pertencer à mesma população, que é delimitada por muitas características comuns. Na forma como o termo costuma ser usado, não fica claro que estas condições variam em função do tipo de análise que estamos fazendo.

Dois eventos são “absolutamente independen-tes” se a ocorrência de ambos é aleatória dentro do mesmo universo de possibilidades delimita-do. Depois de tirar uma carta do baralho (e ver o que ela era), o universo de possibilidades da segunda retirada é diferente (uma carta conhe-cida está fora), logo os dois eventos não são absolutamente independentes, pois um influi sobre o outro. Apenas com condições idênticas temos independência absoluta entre eventos. Este conceito de independência é aplicável em jogos e em muitos experimentos em física e química. Algo próximo a isto pode ocorrer em laboratórios de biologia quando é possível con-siderar todas as condições biológicas idênticas (condições climáticas estritamente controladas, ao se utilizar clones, eficiência do manipulador padronizada, etc.). Se houver qualquer dúvida sobre eventuais efeitos de mudanças temporais, espaciais, genéticas, de eficiência, etc., dentro do laboratório, que não seja o tratamento em estudo, é melhor realizar a pesquisa com o conceito de representatividade balanceada.

Existe independência induzida de amostragem quando as unidades amostrais incluídas na amostra foram selecionadas de forma represen-tativa do universo amostral (representatividade em distribuição). O modelo ideal de indepen-dência induzida de amostragem é a amostra aleatória na qual cada unidade amostral tem igual chance de ser escolhida para fazer parte da amostra. Entretanto, há outras formas de se obter independência induzida de amostragem.

Esta forma de independência é necessária para estimativas de medidas coletivas (parâmetros) de uma população.

Existe independência induzida de relação por representatividade balanceada em estudos com variáveis preditoras e variável resposta quando a relação entre cada variável preditora e a vari-ável resposta não é influenciada ou por uma variável de confundimento ou até mesmo pelo efeito de uma variável preditora sobre a outra. A forma ideal de se obter isto é pela aleatorização da atribuição de tratamentos descrita na seção anterior que pode ser obtida em estudos expe-rimentais, mas há outras abordagem que po-dem se aproximar deste ideal. 3.9.2- O preço a pagar pela qualidade.

Alta precisão e acurácia são características desejáveis em medidas, mas não existe medida perfeita e qualidade tem seu preço, sejam elas medidas de propriedades de unidades amos-trais ou medidas de propriedades de popula-ções. Por exemplo, vale a pena gastar metade do dinheiro de um projeto para trocar um ins-trumento de baixa precisão por outro de alta precisão, comprometendo uma verba que per-mitiria mais idas ao campo? É razoável delimi-tarmos o tamanho de um transecto de 200 m usando passos, ou é necessário sempre utili-zarmos da precisão de uma trena? Se uma amostra aleatória é inviável, podemos utilizar uma amostra menos representativa ou é melhor desistir do estudo? Um experimento deve ser cancelado se questões logísticas nos impedem de realizar as medidas do tratamento e do con-trole na mesma semana?

Administrar projetos de pesquisa é uma ativida-de complexa, de forma que não podemos igno-rar custos, tempo, praticidade e questões logís-ticas na determinação da precisão e acurácia que será utilizada. É importante conhecer ideais metodológicos (e. g. medidas precisas e não tendenciosas, tamanhos amostrais grandes, amostragens aleatórias, etc.), mas estes ideais não são leis metodológicas absolutas, são ape-nas diretrizes que devem ser levadas muito a

Page 49: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

48

sério. Acontece que há limites logísticos, físicos e morais que ocasionalmente nos impedem de medir e coletar dados da forma ideal. É essen-cial entender a diferença entre um comporta-mento cuidadoso para evitar interpretações equivocadas e uma paranoia metodológica (se-ção 1.4). Um treinamento metodológico não pode te proibir de agir nestas condições, mas ensinar como redobrar o cuidado quando for necessário. Não existe uma única metodologia correta, existem metodologias apropriadas (ou não) considerando o contexto e as alternativas disponíveis para resolver um problema.

Vamos abordar situações concretas. É necessá-rio diferenciar três situações nas medidas indi-viduais: a) quando há uma decisão importante a cada medida; b) quando há dificuldade em se obter os objetos a serem medidos; c) quando o estudo permite obter várias medidas “indepen-dentes”.

Nas duas primeiras situações, a prioridade na precisão é mais alta que na terceira. Por exem-plo, se estivermos selecionando atletas para uma olimpíada, não é aceitável a exclusão de um atleta por erro de medida (cada medida leva a uma decisão importante). Quando temos difi-culdade em obter os objetos ou encontrar as situações de interesse da pesquisa, cada opor-tunidade deve ser aproveitada ao máximo. O que se ressalta aqui é que apenas nos casos em que cada medida for muito importante ou difícil de ser obtida, a alta precisão justifica alta prioridade de investimento. Naturalmente, não é uma questão de investir ou não na qualidade, mas de quanto investir.

Na terceira situação, temos que separar preci-são de acurácia. Por causar desvios aleatórios (i. e. não tendenciosos), a falta de precisão normalmente não é um problema tão grave na pesquisa. É um problema indesejável, mas fre-quentemente pode ser compensado por uma amostragem maior (com a vantagem de melhor representatividade). Isto ocorre porque nos testes de hipóteses estatísticas, as conclusões são tomadas quando uma tendência (relação em estudo) é tão forte que pode ser distinta de

variações aleatórias, sejam elas naturais ou de medida. A falta de precisão pode contribuir para não termos sucesso em “provar” uma determi-nada relação, em função de uma amostragem insuficiente. Isto é considerado um erro menos sério do que “provar” equivocadamente uma relação que não existe, como veremos no capí-tulo 4. Em outras palavras, a falta de precisão pode atrasar a obtenção de resultados significa-tivos, mas não aumenta a chance de um falso positivo. Por outro lado, a falta de acurácia não pode ser compensada por um aumento no nú-mero de unidades amostrais medidas. Portanto, é uma fonte de preocupações nas três situa-ções.

É importante que o cuidado com a qualidade da medida não se torne obsessivo, isto é, prejudi-cial ao próprio estudo. Por exemplo, digamos que você esteja fazendo um trabalho de ecolo-gia vegetal no Pico da Neblina e seu tempo é muito curto por questões logísticas. É válido medir transectos com passos para economizar o tempo de estender a trena em cada transec-to? Vimos que a falta de precisão não é um problema sério, mas e se neste processo in-conscientemente obtivermos uma medida ten-denciosa que subestima o tamanho do transec-to? Digamos que esta falta de acurácia resulte em transectos com 190 m em média ao invés de 200 m. Qual a gravidade disto? Depende da questão em estudo. Se você estiver querendo comparar a densidade de plantas em diferentes altitudes e cometer o mesmo erro, então a falta de acurácia seria irrelevante, pois todos os tran-sectos serão do mesmo tamanho, que é o que importa para que sejam comparáveis. Entretan-to, se o objetivo for obter medidas precisas de densidade para comparar com outros locais, então quanto maior for o desvio, maior será o problema com o resultado. Provavelmente, uma sub-estimativa de 5% na área de cada transecto não tenha muita relevância, neste exemplo em particular.

Alguns dos problemas mais graves ligados à qualidade dos dados aparecem quando esta-mos tomando uma medida por outra. Um exem-plo clássico é a utilização de provas para medir

Page 50: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

49

coeficientes de inteligência, como se uma prova destas conseguisse captar conjuntamente a complexidade dos diferentes tipos de inteligên-cia. O máximo que estes testes poderiam medir é a capacidade das pessoas de se saírem bem neste tipo de teste. Podemos considerar pro-blemas deste tipo como falta de acurácia por indefinição de um padrão de referência para calibrar as medidas. Na seção 1.4 vimos outros problemas de validação da medida ligados a esta falta de acurácia inclusive um com variável binária. Ao perguntarmos a meninos se eles sabiam nadar, a resposta (sim ou não) era ten-denciosa (muitos não sabiam, mas tinham ver-gonha de responder a verdade), a das meninas também era, mas de forma menos intensa. Des-ta forma, mesmo sem diferença na habilidade de nadar, concluiríamos que os meninos têm mais habilidade. Este exemplo ilustra os riscos da falta da acurácia em medidas em qualquer escala.

Os conceitos de precisão e acurácia aplicam-se melhor a valores quantitativos, mas podem ser generalizados para outras escalas de medida. Quando estamos com uma variável ordinal, podemos obter maior precisão quanto maior for o número de categorias ordinais. Por exemplo, se queremos avaliar a sensação térmica de pessoas, teremos menos precisão com uma escala de três níveis efetivos (quente, agradá-vel, frio) do que uma de cinco níveis efetivos (muito quente, quente, agradável, frio e muito frio). Entretanto, escalas ordinais exigem um cuidado redobrado na análise, pois muitas ve-zes é difícil avaliar acurácia nestas condições (e. g. qual o valor real de “muito frio”?). Quando falamos em escala categórica, temos uma situ-ação similar. Nem sempre os limites de uma categoria são claros. Qual é o limite onde o vermelho deixa de ser vermelho para se tornar laranja? O resultado de um exame de sangue pode ser positivo ou negativo (logo binário) para malária, entretanto, há uma incerteza (pode ser um falso positivo) que diminui em função da quantidade de amostras e da experiência de quem analisa o exame. Por isto, os erros de atribuição de categorias também podem ser considerados erros de precisão (se não forem

tendenciosos) ou de acurácia (se forem tenden-ciosos).

Como vimos na seção 3.6, a acurácia na medi-da de um parâmetro é maximizada quanto me-lhor a representatividade amostral. Se a amos-tragem aleatória não é possível, o que é muito comum, procure o método de coleta que mais se aproxima daquilo que você esperaria obter em uma amostra que fosse aleatória. Há muitas formas sistemáticas de coletar os dados que permitem obter amostras representativas. Tam-bém há formas de analisar os dados para obter resultados mais representativos (e. g. a média ponderada). Se nada disto for possível, procure coletar amostras o mais distante possível dentro da área de estudo. Tente evitar associar alguma variável que poderia dar um viés à coleta. Por exemplo, se quer investigar o interesse de uma população por futebol, o último lugar onde vai obter uma amostra representativa é em um estádio de futebol. Entrevistar pessoas na rua em diferentes bairros não é o ideal, pois exclui grupos de pessoas que andam pouco na rua, como idosos. Telefonar para pessoas também pode excluir pessoas que não tem dinheiro ou interesse em ter um telefone. Entretanto, se você fizer as duas coisas e os resultados forem semelhantes, então tem uma indicação que estas formas de amostrar não foram tão ruins. Outra opção é simplesmente reduzir o universo de estudo ao grupo com o qual se pode traba-lhar e tirar conclusões apenas sobre este grupo. Por exemplo, seu estudo pode ser sobre o inte-resse em futebol das pessoas que andam na rua.

Como vimos na seção 3.8, a questão da inde-pendência no estudo de relações é um proble-ma fácil de resolver em abordagens experimen-tais normais, nas quais podemos escolher alea-toriamente quais entidades receberão quais tratamentos. Entretanto, quando isto não é pos-sível é bem mais complicado analisar causali-dade. Este assunto será aprofundado no capítu-lo 6.

Page 51: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

50

Exercícios:

1) O que são escalas de medida? Apresente um exemplo original de propriedade com alguns valores para cada uma delas.

2) Faça um gráfico EPR com três níveis de me-dida ordinais no eixo x e com cinco níveis quan-titativos no eixo Y. Represente 20 entidades neste gráfico.

3) Explique por que dividir a escala quantitativa em “números contínuos” e “números descontí-nuos” não resolve o problema da descontinui-dade.

4) O fato de um valor pertencer a uma escala não implica que ele não possa pertencer a outra escala ao mesmo tempo. Explique.

5) Explique e exemplifique as incertezas na atribuição de valores nominais e ordinais.

6) Faça uma ilustração representando alvos atingidos por uma espingarda com a) alta preci-são e alta acurácia; b) alta precisão e baixa acurácia; c) baixa precisão e alta acurácia; d) baixa precisão e baixa acurácia.

7) Explique porque o Intervalo Interquartil é uma medida de dispersão (ou imprecisão) melhor que a amplitude total para comparar a dispersão de amostras com número de observações dife-rentes.

8) Em que o desvio padrão é mais conveniente que intervalos interquartis como medida de dispersão e quando a utilização de desvios padrões não é apropriada.

9) Alguns textos usam o termo “erro” para a dispersão de dados em função da imprecisão da medida e para a variação natural. Explique por que isto não é apropriado.

10) Faça um histograma com 24 valores que represente uma distribuição bastante próxima do esperado para uma população com distribui-ção normal e um segundo histograma com 24 valores com uma distribuição muito fora do es-

perado para uma população com distribuição normal. Coloque nomes nos eixos ilustrando um exemplo de um estudo biológico imaginário.

11) Cite usando exemplos de variáveis originais a) um parâmetro populacional para uma variável binária; b) dois parâmetros populacionais para uma variável ordinal; c) três parâmetros popula-cionais para uma variável quantitativa; d) um parâmetro multivariado.

12) Quando a mediana e a moda são medidas mais úteis?

13) Para que utilizamos intervalos de confiança em estudos biológicos?

14) Qual a diferença na utilidade do desvio pa-drão e do erro padrão.

15) No “Bootstrap”, o computador “cria” “pseu-dopopulações” pela clonagem dos dados. Expli-que como isto permite determinar intervalos de confiança pela exclusão de extremos.

16) Explique por que acurácia é mais importante que a precisão quando estamos estimando parâmetros populacionais?

17) Explique as diferenças de definição e uso da representatividade numérica, representativi-dade universal e da representatividade paralela.

18) Explique a dificuldade que existe na defini-ção do termo “independência” em contextos estatísticos.

19) O que é “paranoia metodológica” e por que nem sempre podemos seguir ideais metodológi-cos?

20) Podemos falar em precisão e acurácia em escalas de medidas ordinal, categóricas e biná-rias?

Page 52: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

51

4 A lógica dos testes

de hipóteses

Uma das funções mais importantes da estatísti-ca é fornecer ferramentas que ajudem a testar hipóteses. O assunto é tão central em livros e cursos de estatística que algumas pessoas acham que se trata de um assunto dentro da estatística (Fig. 4.1-A). Em função disto, é con-veniente esclarecer que o teste de hipótese é algo mais amplo que o teste estatístico (Fig. 4.1-B). Um julgamento da hipótese que um cri-me foi cometido por determinada pessoa ilustra melhor a complexidade do que é um teste de hipóteses do que a comparação dos tamanhos de plantas que cresceram sob dois tratamentos diferentes. Neste capítulo abordaremos a lógica dos testes estatísticos dentro do contexto mais amplo dos testes de hipóteses.

Outro esclarecimento para evitar mais um mal entendido comum. Testes são processos para provar empiricamente uma hipótese, se ela for verdadeira. Quando dizemos que provamos alguma coisa na pesquisa, estamos nos referin-do a provas empíricas. Provas “lógicas puras” existem em campos como a geometria e o cál-culo, onde há raciocínios inteiramente deduti-vos. Uma prova empírica é diferente, ela usa lógica, mas ela não é inteiramente dedutiva, mesmo no método hipotético-dedutivo, pois ela não é logicamente necessária (Diez e Moulines, 2007). A prova empírica é uma prova conside-rada satisfatória dentro de critérios rígidos, e pode ser extremamente convincente, mas a ciência é sempre questionável, pois não é de-dução pura. Se fosse dedução pura, a observa-ção não seria necessária. É comum lermos frases como “é impossível você provar uma hipótese na ciência”. A frase só está correta se a palavra “provar” estiver com o significado de “prova lógica pura”. Entretanto, não há nada de errado em se dizer que se provou empiricamen-te uma hipótese se seguirmos os critérios de validação que a comunidade científica da área do assunto em questão tiver determinado. A palavra provar na pesquisa tem o mesmo senti-

do do cotidiano e do tribunal, onde todos são inocentes até a prova do contrário.

4.1 O método hipotético dedutivo

Chamaremos a hipótese empírica que quere-mos testar de hipótese de trabalho. Como vimos na seção 1.2, uma hipótese (de trabalho) empí-rica é uma afirmação que tem consequências empíricas constatáveis. O teste de uma hipóte-se baseia-se justamente na dedução de previ-sões desta hipótese e na verificação que as previsões realmente ocorrem. Parece fácil, mas tem dois problemas.

O primeiro problema é que observar qualquer coisa que a hipótese prevê não é evidência suficiente para provar que a hipótese está corre-ta. As previsões para testes precisam definir condições especiais para reduzir incertezas ao mínimo. A fase dedutiva do método hipotético dedutivo termina na previsão; mas o que vem depois? A prova empírica baseia-se na coerên-cia entre previsão e evidência e na confiança que podemos considerar excluídas todas as outras possibilidades de se obter este mesmo resultado.

Figura 4.1- O assunto teste de hipóteses não é algo que está dentro da estatística como simbolizado na figura A. O teste de hipóteses é algo mais amplo que pode utilizar importan-tes ferramentas estatísticas (área de sobreposição na figura B).

Page 53: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

52

O segundo problema é que não observar o que a hipótese prevê também não prova que a hipó-tese esteja errada. O que fazemos quando não conseguimos provar a hipótese de trabalho? Devemos abandona-la? A decisão ao final do teste de hipótese nem sempre é um “sim” ou um “não” claros, e temos que refletir sobre o que fazer com o “talvez”. Este segundo problema será tratado ao final do capítulo.

Vamos ilustrar um pouco da complexidade dos testes de hipótese com dois exemplos. Você sabe que estudar ajuda a tirar notas mais altas, mas imagine que este fosse um fato desconhe-cido e vamos tratar esta afirmação como uma hipótese de trabalho. Como mostrar que ela é verdadeira? Uma previsão é que alguém que estude muito terá uma nota mais alta que al-guém que estude pouco. Então imagine que João estudou muito e tirou 9,0 e José não estu-dou e tirou 4,0, como seria esperado pela hipó-tese de trabalho. Entretanto, podemos imaginar muitas outras razões que poderiam explicar o sucesso de João e o fracasso de José. Logo, não podemos afirmar com base nestes dados que estudar faz diferença. Por isto, a sua previ-são não pode se restringir a duas pessoas, sua previsão tem que ser que várias pessoas que estudarem muito terão em média notas maiores que várias pessoas que estudarem pouco. Você ainda precisa eliminar outras possibilidades: “desde que as provas dos dois grupos compa-rados sejam controladas para prevenir cola”; “desde que o grupo dos que estudaram seja equivalente ao grupo dos que não estudaram (por exemplo, por escolha aleatória dos mem-bros de cada grupo)”; “desde que a prova seja sobre o assunto estudado”, etc. Veja que há uma série de condicionais para a sua previsão ser considerada uma previsão válida para teste, isto é, uma previsão exclusiva da hipótese de trabalho. Alguém poderia invalidar a conclusão do teu estudo se mostrasse que o grupo que estudou mais fez a prova em uma sala ar condi-cionado e o grupo que não estudou fez a prova em uma sala quente. A diferença poderia ter sido pelo desconforto do segundo grupo, e você não prova empiricamente uma hipótese enquan-

to não mostrar que não há nenhuma outra hipó-tese razoável para explicar a evidência obtida.

Segundo exemplo. Um biólogo estudava uma espécie de formiga que caça em grupos de cerca de 20 indivíduos, captura cupins a até 200 m de distância do ninho e depois retorna ao ninho. Ele se perguntou: como elas acham o caminho de volta? (Questão). Ele sabia que as formigas utilizam pistas químicas, mas há um risco alto delas acidentalmente perderem a trilha, por isto achou que elas poderiam estar utilizando outras pistas para encontrar seus ninhos. Então, ele levantou a hipótese que elas usavam também referenciais espaciais (árvores e arbustos ao redor) para achar o caminho de volta. Para testar a hipótese, ele esperou as formigas se afastarem 100 m do ninho e pren-deu-as sob um balde, retirou toda a camada superficial de solo da área ao redor do ninho, marcou as formigas com uma tinta não tóxica e soltou-as. No dia seguinte, ele voltou ao formi-gueiro e encontrou as formigas marcadas lá. Desta forma, ele concluiu que as formigas são capazes de encontrar o ninho mesmo sem as pistas químicas e devem possuir uma capaci-dade de orientação com base em referências espaciais. Veja como este procedimento envol-ve contrastes de previsões.

A previsão da hipótese era que as formigas conseguiriam retornar ao ninho (pois podem utilizar referenciais espaciais). Entretanto, a mera observação das formigas de volta no ni-nho não teria nenhum valor sem a eliminação dos rastos com a remoção do solo, pois elas poderiam ter retornado utilizando apenas as pistas químicas. O biólogo ainda marcou as formigas para eliminar a possibilidade de estar confundindo os indivíduos do estudo com outras formigas do ninho, ou até com formigas de outro ninho que tivessem aproveitado a oportunidade do ninho vazio. Alguém poderia questionar a validade de um experimento que prendeu formi-gas sob um balde, trocou o solo e as marcou com tinta, o que certamente poderia ter afetado o comportamento delas. Entretanto, estas criti-cas não comprometem a interpretação do resul-tado, pois o que poderíamos prever desta per-

Page 54: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

53

turbações é que elas apenas poderiam atrapa-lhar as formigas, de nenhuma forma poderiam ajudá-las. O fato é que mesmo com estas per-turbações, elas conseguiram chegar ao formi-gueiro. Outra pessoa poderia questionar a inter-pretação dizendo que as formigas poderiam ter se orientado com base no eixo magnético da terra, utilizando uma “bússola” interna. Ele po-deria ter respondido que esta possibilidade não pode ser excluída, mas que não parece razoá-vel, pois já foi demonstrada a capacidade de orientação por referenciais espaciais em outros himenópteros, mas nunca foi demonstrada a capacidade de orientação magnética em inse-tos. Algumas descobertas incríveis, como a capacidade de ecolocação em morcegos demo-raram a ser aceitas. Entretanto, geralmente é uma boa decisão não começar seriamente com ideias muito radicais sem ter bons motivos para isto, especialmente quando sua hipótese de trabalho parece muito mais provável.

Ainda há uma hipótese a considerar: as formi-gas poderiam ter conseguido retornar por sorte. Poderiam ter andado a esmo pela área e por acaso encontrado a pequena abertura do formi-gueiro. Entretanto, procure imaginar a situação, não eram 2m ou 10 m, eram 100 m. É uma distância enorme para as formigas andarem ao acaso e encontrarem o formigueiro apenas por sorte. Seria muito mais provável que elas simplesmente se perdessem se não tivessem orientação. A hipótese de terem encontrado ao acaso é tão improvável que pode ser tranquilamente descartada.

Para aprofundar a ideia do método hipoté-tico dedutivo, vamos representa-la de for-ma mais visual (fig. 4.2) e vamos ver as partes envolvidas. A hipótese de trabalho tem uma posição central no processo, o que é natural, porque é ela que está sendo testada e é dela que partem as previsões que serão utilizadas. Vemos no esquema que existem várias “hipóteses” que poderi-am competir com ela como explicações alternativas para o que se encontrou como evidências. Não são hipóteses de interesse próprio de pesquisa, por isto utilizamos as

aspas, são antes possibilidades que precisam ser consideradas no processo, por isto utiliza-mos as aspas. Por outro lado, não está errado chamá-las de hipóteses, já que são afirmação que tem consequências empíricas constatáveis.

Na realidade, o processo completo de teste de hipóteses começa antes da hipótese de traba-lho. A escolha de uma hipótese não é algo alea-tório, e é importante que não seja. A seleção preliminar de hipóteses relevantes e objetivas é parte essencial do processo de pesquisa.

4.2 Estabelecendo hipóteses de trabalho relevantes

Uma diretriz da pesquisa é testar hipóteses relevantes, no valor e na “chance” de serem verdadeiras. Podemos exercitar estatística com testes irrelevantes, mas ai não é pesquisa para valer. Podemos considerar como válido um método de investigar muitas possibilidades em uma fase preliminar de um estudo, mas não devemos chamar a cada uma destas investiga-ções de teste. O motivo é que realizar inúmeros testes irrelevantes causa inflação de testes, que é uma ampliação exagerada na chance de falsos positivos.

Figura 4.2- Uma prova empírica no método hipotético dedutivo tem a hipótese de trabalho como centro e outras “hipóteses” que precisam ser eliminadas por procedimentos, cálculos e/ou razoabilidade. Na realida-de, o procedimento de escolher hipóteses relevantes já faz parte do processo, pois diminui a chance de falsos positivos.

Page 55: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

54

Pense no processo utilizado na solução de cri-mes. A princípio, quando ainda não temos ne-nhuma informação, qualquer habitante da terra poderia ser o culpado de um determinado as-sassinato (= bilhões de hipóteses). Não pode-mos julgar o mundo inteiro, por isto precisamos de uma investigação para chegar a um suspeito ou a um grupo de suspeitos que trabalhou junto para realizar o crime (= 1 hipótese de trabalho). Depois, há uma busca de evidências que apoi-em a hipótese e então o caso é levado a julga-mento. No momento do julgamento nós nos concentramos em uma única pessoa ou grupo de pessoas que poderia ter trabalhado junto para realizar o crime. Reduzimos bilhões de hipóteses a apenas duas: os réus são culpados ou os réus são inocentes.

A fase da determinação de qual é o principal suspeito de cometer um crime pode ser tão simples que acontece inconscientemente ou tão complexa que nem conseguimos chegar a um suspeito qualificado. Certamente nossa primeira opção recairá sobre uma pessoa agressiva do convívio da vítima e com motivo que na possibi-lidade de ter sido uma simpática velhinha des-conhecida da vítima. Nesta fase, é difícil colocar regras, pois até descobertas casuais podem ser vitais. Entretanto, certamente há diretrizes de ações, como entrevistar conhecidos da vítima, recolher materiais da cena do crime, etc., jun-tando peças até começar a se formar um qua-dro. Em situações complexas, é importante começar com a mente aberta para qualquer possibilidade razoável e submetê-las a o pro-cesso de competição de hipóteses, como em um campeonato para ver o melhor time, fre-quentemente com diferentes etapas até chegar ao suspeito qualificado (ou grupo suspeito que trabalhou junto). Se não houver base suficiente, ninguém irá a julgamento.

Parece um processo restritivo demais. Compre-ensível para tribunais, mas não podemos ser mais complacentes na ciência? Pode ser em grau, mas não em princípio. Um exemplo ilus-trativo de hipótese do capítulo 1 era que passar sob uma escada dava azar. Foi apenas um recurso didático de usar humor para fixar bem

um conceito importante, mas esta hipótese não seria testada seriamente porque nossos refe-renciais teóricos científicos nos levam a consi-derar este teste como irrelevante. Este teste apenas se justificaria se realmente considerás-semos esta hipótese como possível, ainda que muito improvável.

Vamos tomar dois exemplos para entendermos o poder dos múltiplos testes irrelevantes em distorcer a realidade. Suponha que você consi-derasse possível que capacidades extra-sensoriais pudessem ajudar na solução de cri-mes? Isto pode ser testado? Claro que sim. Chame a pessoa que diz ter estes poderes, escolha um crime não resolvido aleatoriamente e peça para ela predizer com precisão onde está um corpo desaparecido. Se ela conseguir prever que o corpo está enterrado do lado do terceiro pinheiro à esquerda da caverna do ur-so, pode contratá-la. Alguém dirá: “Por que perder tempo com este teste se já há vários registros ‘confiáveis’ de pessoas que previram coisas que resolveram crimes; estes registros não bastam para provar a existência da mediu-nidade?” O problema é que estes registros não teriam se tornado notícia se a adivinhação não tivesse sido correta, teriam caído no esqueci-mento, de forma que não sabemos a taxa de fracasso. Imagine que milhares de pessoas fazem centenas de previsões ousadas. Fatal-mente algumas destas previsões serão corretas eventualmente. Por isto, não basta te mostra-rem alguns registros impressionantes, isto não prova nada. Nossa estatística intuitiva é fraca para lidar com alguns tipos de cálculos de pro-babilidade e há coisas em que queremos acre-ditar ignorando o razoável. Por que pessoas com alegadas capacidades extra-sensoriais nunca decidem quebrar a banca dos cassinos ao invés de tentar nos convencer dos seus po-deres? Tomamos decisões com base em pro-babilidades isoladas, mas tudo muda quando temos muitos testes. As observações do passa-do são úteis para levantar hipóteses (e. g. de possíveis médiuns), mas devem ser vistas com muita desconfiança como provas se não tiver-mos informações adicionais suficientes.

Page 56: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

55

Na bolsa de valores há corretores que são con-siderados geniais com base na proporção das ações que eles recomendaram e que tiveram lucros excepcionais, e eles são contratados com salários milionários. Será que eles valem estes salários ou são simplesmente os ganhadores na loteria das bolsas? Estudos mostraram que, depois dos sucessos excepcionais, estes corre-tores “brilhantes” não tinham mais sucesso que corretores medianos. Não percebemos isto porque nossas convicções que o sucesso está ligado à competência são tão fortes que nos cegam para perceber que muitas vezes o su-cesso é fortemente influenciado pelo acaso. Resultados extremamente positivos são evidên-cia de competência, mas a evidência torna-se fraca se o número de tentativas for elevado. Achamos que alguns corretores são brilhantes com base em seus resultados extremamente positivos porque esquecemos que há milhares de corretores realizando milhões de operações durante anos.

Erros assim também ocorrem na ciência. A inflação de testes certamente é a principal cau-sa de falsas evidências não intencionais publi-cadas em artigos científicos. Trata-se de um problema real que não recebe a atenção devida em cursos de metodologia. A principal forma de minimizamos a hipótese da inflação de testes é evitar o uso exagerado de teste de hipó-teses. A “hipótese” da inflação de teses é um complemento da hipótese do acaso. Se você ficar testando muitas possibilida-des, você vai distorcer no conjunto o significado de cada teste individual. Uma pesquisa não precisa se restringir a uma hipótese de trabalho. Pode haver várias questões e hipóteses envolvendo o tema em estudo, mas é importante restringir os testes a hipóteses relevantes para não escolher apenas os resultados significati-vos. Voltaremos a este assunto quando abordarmos testes múltiplos no capítu-lo 7.

4.3 Descartando “hipóteses” com procedimentos

A primeira preocupação de um avaliador exter-no sobre os resultados de um trabalho é se os procedimentos foram válidos. Se houver dúvida sobre algo importante nos procedimentos, o resultado favorável à hipótese de trabalho perde seu valor. A diferença de nota entre dois grupos de alunos deixa de ser uma boa evidência do efeito de uma técnica de ensino sobre o apren-dizado se a correção de cada grupo for feita por um avaliador diferente (considerando uma prova com perguntas subjetivas). O avaliador pensa assim: “De fato, houve uma diferença de nota, o que apoia a hipótese de trabalho. Entretanto, imaginando que esta hipótese fosse falsa, seria possível chegar-se a este resultado por um erro de procedimento?” Note que neste momento deixamos a hipótese de trabalho de lado e diri-gimos nossa atenção para outra hipótese que explicaria o mesmo resultado. A “hipótese” de erro procedimental é uma possibilidade que precisa ser eliminada testando instrumentos e avaliando procedimentos. Nem sempre um ava-liador externo consegue perceber um erro, mas lendo os métodos, ele pode imaginar onde um erro poderia estar escondido, como ao verificar que não se detalhou como foi feita a correção

Figura 4.3- Evidências favoráveis à hipótese de trabalho não tem validade se não houve procedimentos apropriados.

Page 57: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

56

da prova, e pedir para o autor reescrever com mais detalhes para eliminar esta potencial vari-ável de confundimento. Se o erro de fato ocor-reu, o pesquisador provavelmente teria de refa-zer a coleta. O pesquisador competente descar-ta estas hipóteses de erro procedimental plane-jando bem seu estudo e o conduzindo com seri-edade e depois defende o que fez explicando tudo que for relevante para o avaliador poder concluir que realmente o procedimento foi váli-do.

As validações da medida, interna e externa são as formas de se prevenir contra estas hipóteses de erros. Vamos recordá-las: A validação da medida envolve problemas de atribuição de níveis nominais e ordinais, calibragem de ins-trumentos e procedimentos e variáveis operaci-onais não apropriadas como medidas das variá-veis teóricas respectivas. A validação interna é o conjunto de procedimentos para evitar pro-blemas com a hipótese das outras causas (vari-áveis de confundimento). Este tipo de problema pode ser facilmente eliminado em estudos expe-rimentais, pela aleatorização da atribuição de tratamentos por unidade amostral (seção 3.8) e por cuidados posteriores à aleatorização para manutenção da representatividade paralela. Em estudos amostrais o problema das potenciais variáveis de confundimento é bem mais com-plexo e será tratado no Capítulo 6. No que se refere a procedimentos, a validação exter-na lida com a representatividade universal. A amostra obtida no estabelecimento de um parâmetro precisa ser bem distribuída (idealmente de forma aleatória) no Univer-so Amostral. Normalmente, isto se torna um problema com amostras com unidades amostrais agrupadas em uma situação de variações nos valores da variável em es-tudo não distribuídas homogeneamente no espaço e/ou no tempo. A melhor forma de lidar com isto é a busca de unidades amostrais escolhidas aleatoriamente em toda a população estatística em conside-ração, mas ainda há outras técnicas váli-das conforme a situação (seção 3.7). Fre-quentemente, isto não é possível, e muitas vezes não é feito por razões técnicas (re-

dução de ruído). Há situações em que se pode descartar esta hipótese por razoabilidade, mas, principalmente em estudos com hipóteses uni-variadas, é necessário levar esta hipótese muito a sério.

A hipótese do acaso ocasionalmente é descar-tada por procedimentos, criando uma situação que dificilmente poderia ocorrer por acaso, co-mo no exemplo das formigas. Entretanto, sem-pre que for possível se obter várias observa-ções de um mesmo fenômeno, é recomendável se utilizar uma abordagem estatística para lidar com ela. Na próxima seção veremos como a hipótese do acaso pode ser descartada estatis-ticamente.

Antes de entrarmos no principal assunto do capítulo, que é o descarte da “hipótese do aca-so”, é importante apontarmos outra possibilida-de incomum no nosso esquema: sempre pode haver um erro no paradigma, isto é, na base conceitual. Isto é especialmente difícil de perce-ber se a evidência coincide com a previsão da hipótese de trabalho. Por exemplo, confiamos muito em provas de amostras de DNA, ainda mais se a vitima do crime tiver reconhecido o suspeito. A chance de coincidência de DNA é quase nula, mas a chance de troca de amostras não é tão baixa e a vítima pode estar influencia-da se souber que o exame foi feito e ser psico-

Figura 4.4- Algumas vezes uma pesquisa leva a descobertas que extrapo-lam o paradigma (concepção do mundo) vigente. Trata-se de algo raro, mas este esquema não estaria completo sem incluir esta possibilidade. Evidência favoráveis à Hipótese de trabalho não tem validade se não

Page 58: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

57

logicamente influenciada reconhecer a vítima por uma vaga semelhança.

No exemplo das formigas, você inicialmente pode achar que a única explicação para as for-migas acharem o caminho de volta seria a ca-pacidade delas de reconhecer referenciais es-paciais. Entretanto, novos experimentos poderi-am demonstrar que elas não têm realmente esta capacidade. Surge um paradoxo. Então como elas acharam o caminho? E então, você começa a considerar o inesperado, que as for-migas possivelmente possam se orientar por campos eletromagnéticos da terra. Normalmen-te, nossas pesquisas são feitas dentro de um paradigma, isto é, dentro de uma concepção de mundo. Entretanto, há momentos em que as pesquisas mostram que o paradigma estava errado e que ele precisa ser reformulado. Por ser uma situação rara, não entraremos em mais detalhes sobre esta possibilidade.

4.4 Descartando a hipótese do acaso

Quando sua pesquisa permite a observação de vários casos (entidades, unidades amostrais) de um mesmo tipo de fenômeno, a forma mais tradicional de derrubar estatisticamente a hipó-tese do acaso é chamada de Teste de Signifi-cância de Hipótese Nula. (TSHN- Wood, 2012). A abordagem parte do princípio que os proble-mas na obtenção de dados discutidos anterior-mente foram todos eliminados por procedimento (a amostra é representativa, a medida foi apro-priada, não houve inflação de testes e o dese-nho amostral exclui a possibilidade de variáveis de confundimento). Portanto, se o observado coincide com o previsto pela hipótese de traba-lho, restam apenas duas opções: a hipótese de trabalho está certa ou foi uma coincidência (me-ro acaso). Neste ponto entra a característica marcante do TSHN: o cálculo da probabilidade do obtido ter ocorrido por acaso e a compara-ção desta probabilidade com um valor limite pré-definido.

A Hipótese Nula, geralmente simbolizada como Ho, é a negação de uma hipótese de trabalho afirmativa prevendo diferenças ou prevendo

resultados inferiores ou superiores a algum valor ou entre grupos. Por exemplo, se sua hipótese de trabalho é que certo remédio tem um efeito melhor do que outro em determinado sintoma, e você prevê uma a cura mais frequen-te ou rápida com ele, então a hipótese nula será que o remédio não é melhor (ele é igual ou pi-or). Problemas que envolvem hipóteses de tra-balho sobre semelhanças são menos comuns e um pouco mais complexos. Não dá para provar uma hipótese de trabalho de igualdade (e. g. “o efeito deste remédio é exatamente igual ao outro”), o que pode ser feito nesta direção é provar uma hipótese de trabalho de semelhan-ça, desde que uma diferença máxima seja esta-belecida (e. g. “o efeito deste remédio não é mais que 5% melhor do que o outro”). Esta não é uma situação comum, de forma que não cos-tuma estar em cursos mais básicos de estatísti-ca.

A hipótese nula é uma ideia que se transforma em um modelo matemático de frequências es-peradas (probabilidades). Você faz de conta que ela é verdadeira, considera as característi-cas dos dados da sua amostra e calcula a pro-babilidade associada àquela situação. Podemos calcular a probabilidade esperada de 8 de 10 plantas terem alto crescimento no tratamento contra 2 de 10 no controle quando não há efeito de tratamento (hipótese nula de proporções iguais; P<0.01- para diferenças iguais ou mais extremas; teste de 2 proporções de duas cau-

Figura 4.5- Depois de escolher bem a hipótese e de tomar cuidados com procedimentos, o processo de teste costuma terminar pela exclusão da hipótese do acaso, mais conhecida pelos estatísticos como Hipótese Nula.

Page 59: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

58

das). Não se preocupe agora como se chega a estas probabilidades, o que importa é entender que a previsão da hipótese nula são valores de frequência esperados para cada resultado pos-sível. Uma probabilidade bastante baixa serve como justificativa para você rejeitar a hipótese nula. Você entende por quê? Se ainda não en-tendeu, não se preocupe, isto não é tão intuiti-vo, procure entender acompanhando os próxi-mos exemplos.

A abordagem TSHN é poderosa a ponto de “provar o improvável”. Se uma pessoa disser que desenvolveu a habilidade de controlar a forma de jogar a moeda para cair cara, você desconfia. Qual é a probabilidade dela realmen-te ter a habilidade? Posso achar improvável porque nunca ouvi falar que alguém pudesse fazer isto e porque imagino que a precisão ne-cessária ao jogar uma moeda e obter uma face escolhida esteja além da capacidade humana. Por outro lado, sei que a pessoa que disse isto é hábil. Ainda assim, acho extremamente im-provável e presto atenção na demonstração. Esta probabilidade intuitiva não deve ser subes-timada, como discutimos na seção 1.5. Entre-tanto, a intuição pode ser muito subjetiva e in-certa. Há outra forma melhor de saber se é verdade: pedir para ela jogar a moeda. Tudo bem, mas como avaliamos?

A pessoa te mostra que a moeda tem “cara” e coroa (descartando a hipótese de moeda com duas caras). A moeda dá várias voltas no ar e cai com a face “cara” para cima. Você sorri, mas não se convence. Você sorri porque pensa que deve ser uma coincidência, mas não se con-vence porque não é uma coincidência tão im-provável para te impressionar. Você não acredi-ta que uma pessoa possa ter tanta habilidade para contar o número de voltas e parar a moeda do lado escolhido. Trata-se de uma hipótese que parece muito improvável com base no seu conhecimento cotidiano. Entretanto, ela lança a moeda mais vezes e continua acertando. Você para de sorrir e começa a ficar cada vez mais impressionado (a) a cada novo acerto. E depois de 10 lances você mudou de ideia, abandonou a hipótese do acaso completamente e está intei-

ramente convencido que a pessoa possui a tal habilidade. É verdade que não se pode descar-tar totalmente a hipótese do acaso, mas a chance de acertar 10 vezes seguidas por acaso é menor que uma em 1.000 (Tab. 4.1). Embora a habilidade de controlar o lance de moeda seja impressionante, é menos impressionante do que acertar um número em mil na primeira ten-tativa. Se uma hipótese de trabalho estiver cer-ta, quanto mais informação obtiver, maior será o acúmulo de informação contrária à hipótese do acaso. É importante entender este conceito, que é a base do processo de rejeição do TSHN. (Não se preocupe com as fórmulas matemáticas que eventualmente apareçam no texto, como na Tab. 4.1 e no Quadro 4.1, mais importante é entender o processo.). Repare que não esta-mos calculando a probabilidade dela ter a habilidade, mas dos dados apoiarem a hipó-tese que ela tem quando na realidade não tem.

A situação foi colocada de forma muito rigorosa na Tabela 4.1, a pessoa teria de acertar todas as vezes. Mas e se ela errar de vez em quan-do? Digamos que acerte 19 de 20 jogadas.

Tabela 4.1 Sabemos intuitivamente que a probabilidade de acertar ao acaso vários lances seguidos de moeda diminui com o número de lances, mas normalmente subestimamos o quanto um resultado é improvável. A matemática é uma ferramenta essencial para avaliações precisas e objetivas. Neste caso, a probabilidade é calcu-lada pela fórmula P= 1/(2)n..

Número de acertos

seguidos Probabilidade

1 0.5

2 0.25

3 0.125

4 0.0625

5 0.03125

6 0.015625

7 0.0078125

8 0.00390625

9 0.001953125

10 0.000976563

Page 60: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

59

Ainda é convincente que ela tem a habilidade. Mas e se ela acertar 70%? E se ela acertar 55%? Certamente seria algo bem menos con-vincente, mas pelo menos serve como evidên-cia de algum efeito de habilidade? Chega de moedas, passemos para um exemplo biológico. Não é muito diferente, mas imagine agora que sua hipótese é que as formigas rainha jovens ao fundar uma colônia preferem solo argiloso ao solo arenoso. Para testar isto, você pega rai-nhas recém fertilizadas e coloca-as em arenas que possuem solo argiloso de um lado e solo arenoso do outro, e ai você registra qual solo elas escavaram para iniciar seus ninhos. Vamos imaginar possíveis resultados.

Suponha que tenhamos realizado o experimen-to com 8 rainhas jovens e tenhamos obtido 5 (62,5%) que escavaram em solo argiloso e 3 (37,5%) que escavaram em solo arenoso. O esperado, supondo que não haja preferência por solos, seria que 50% das formigas escava-riam em solo arenoso e a outra metade em solo argiloso. O resultado obtido foi na direção da previsão da hipótese de trabalho. O problema é que esta diferença também é compatível com a hipótese nula. No quadro 4.1 realizamos o cál-culo de probabilidade para a mesma diferença percentual com tamanhos amostrais diferentes. O que vemos é que a probabilidade de se obter a mesma proporção de formigas escavando em

solo argiloso sem ter escolhido este solo (isto é, ao acaso) vai diminuindo até valores absurda-mente improváveis. E quando a probabilidade do resultado ocorrer ao acaso é muito pequena, ela é descartada.

4.5 Nível de significância e tipos de erros.

Vimos que a hipótese nula é rejeitada quando obtemos um valor baixo de probabilidade com base nos dados obtidos. Isto naturalmente nos leva a uma questão prática: qual é o valor de referência abaixo do qual podemos rejeitar a hipótese nula?

Não existe um valor mágico universal que sepa-re meros indícios de evidência segura, a ideia de definir um valor é que regras objetivas preci-sam ser definidas “antes do jogo” (o termo téc-nico é “a priori”). O valor limite pré-determinado de probabilidade abaixo do qual se rejeita a hipótese nula é chamado Nível de Significân-cia, e é representado pela letra grega α (alfa). Os valores mais utilizados são 0,05; 0,01 e (ra-ramente) 0,001, dependendo do grau de rigor que se quer assumir. Algo parecido acontece quando determinamos a nota mínima abaixo da qual reprovamos o aluno, que pode ser 5, 6 ou 7. Ao escolher um nível de significância você está definindo sua chance de errar, ou melhor,

você está definindo qual tipo de erro você está mais disposto a aceitar. É isto que será explicado adiante.

Ao tomar uma decisão estatística, os dois tipos de erro que podemos co-meter são o Erro Tipo I, que consis-te em rejeitar a hipótese nula quando ela é verdadeira, e o Erro Tipo II, que consiste em aceitar a hipótese nula quando ela é falsa. Como a rejeição errada da hipótese nula leva a uma decisão errada favorável à hipótese de trabalho, o Erro Tipo I também é chamado de Falso Positi-vo e o Erro Tipo II também é chama-do de Falso Negativo. Quadro 4.1 Probabilidade calculada pelo método χ2com base no obtido (O)–

o esperado central (E). .

Page 61: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

60

Nas situações em que a prudência exige não aceitar uma mudança de posição sem forte evidência favorável à decisão, a prioridade é evitar o Erro Tipo I, como em tribunais e na maioria das situações de pesquisa. Nas situa-ções em que a prudência exige uma ação pre-ventiva, ainda que a evidência favorável seja fraca, a prioridade é evitar o Erro Tipo II, como quando vigias ouvem um barulho estranho, ou quando uma criança chega ao hospital com suspeita de intoxicação. E há situações em que os dois tipos de erro seriam graves, como ao se decidir sobre o resultado de um exame sobre uma doença muito séria quando há indícios de positividade. Podemos ver na tabela 4.2 como a análise e a ação de processos decisórios de-pendem da importância de cada tipo de erro e do tempo (etapas, oportunidades) que temos para obter mais dados. As situações mais co-muns na pesquisa estão em destaque na tabe-la. Abordaremos unicamente estas situações neste livro, mas é importante termos consciên-cia que estes métodos não são os mais apropri-ados em outras situações, inclusive de pesqui-sa. Vamos analisar mais profundamente os dois tipos de erro com ênfase na situação mais co-mum na pesquisa, mas ilustrando com o funcio-namento do processo decisório em um tribunal.

Um assassino solto é algo ruim e deve ser evi-tado. Entretanto, um inocente preso por assas-sinato é algo mais grave. Por que assumir que a inocência de uma pessoa tem prioridade sobre o risco para resto da população? Parece estra-nho, mas esta foi a conclusão de um longo pro-

cesso civilizatório. Acontece que crimes costu-mam deixar pistas e é bom lembrar que um dia poderíamos ser nós mesmos em um banco de réus. Enfim, a regra é que toda pessoa deve ser considerada inocente até que haja uma evidên-cia realmente convincente de que ela é culpada. Entretanto, por melhor que seja a justiça, ela nunca será perfeita e há quatro resultados pos-síveis em um julgamento: 1) podemos mandar prender uma pessoa inocente (injustiça); 2) Podemos mandar prender um assassino; 3) Podemos libertar uma pessoa inocente e 4) podemos libertar um assassino (impunidade). A tabela 4.3 resume estas possibilidades.

Basicamente, queremos evitar erros. Uma for-ma de evitar erros de decisão é obter mais in-formação relevante. Há técnicas (subutilizadas) de amostragem até atingir critérios de decisão (e. g. amostragem sequencial). Entretanto, o mais comum é que a informação seja limitada (por tempo, dinheiro ou porque todas as pistas foram exaustivamente exploradas). A forma de agir neste caso depende da prioridade que da-mos em evitar o Erro Tipo I e em evitar o Erro Tipo II. Ao assumir como premissa a inocência do réu, estamos dando prioridade em evitar o Erro Tipo I. A única forma de evitar o Erro Tipo I de forma absoluta seria decidir pela inocência sem julgamento e independente de provas, o que não é aceitável. Existe sempre o risco de inocentes serem presos, mas podemos e de-vemos reduzir esta probabilidade a uma possibi-lidade remota, e isto é feito ao dar ampla chan-ce de defesa e conservadorismo em aceitar apenas provas muito fortes e claras. A chance

Realidade � Inocente Culpado

Decisão �

Culpado Injustiça Decisão Correta

Inocente Decisão Correta Impunidade

Realidade � H0 Verdadeira H0 Falsa

Decisão�

Rejeita H0 Erro tipo I Decisão Correta

Aceita H0 Decisão Correta Erro tipo II

Tabela 4.3 Decisões e tipos de erros em um tribunal..

Tabela 4.4 Decisões e tipos de erros na pesquisa..

Page 62: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

61

de Erro Tipo I é limitada a priori pelo princípio da inocência, e quanto mais rigorosos formos em evitar a chance de erro tipo I, maior a chan-ce de um erro do tipo II. É como se no jogo entre defesa e promotoria a defesa tivesse a vantagem do empate. Cabe ao promotor a res-ponsabilidade de mostrar informação suficiente para virar o jogo, de forma a evitar o Erro Tipo II.

Ao propor uma hipótese de trabalho, fazemos previsões que algo acontecerá de certa forma. Entretanto, o fato disto acontecer não significa nada se o previsto puder acontecer por outras razões ou ao acaso. Vimos nas primeiras se-ções do capítulo que precisamos tomar algumas atitudes preventivas para excluir hipóteses con-correntes, mas ainda resta avaliar se as previ-sões poderiam ser obtidas por mero acaso. Na analogia com o tribunal, é como se a hipótese nula fosse o réu. A princípio, a hipótese nula deve ser considerada verdadeira até a prova do contrário, de forma a evitar o Erro Tipo I. Cabe ao pesquisador obter informações suficientes para derrubar a hipótese nula.

Uma diferença entre o tribunal e a pesquisa é que nesta muitas vezes podemos definir a chance de Erro Tipo I de forma quantitativa. O Nível de Significância (ou “alfa”) é a chance de Erro Tipo I que estamos dispostos a aceitar, um grau de rigor que se estabelece a priori. Na pesquisa, o mais comum é se utilizar um α=0,05, que significa que aceitamos cometer um Erro do Tipo I para cada 20 testes em que a hipótese nula era verdadeira. É como aceitar mandar uma pessoa inocente de cada 20 ino-centes que a gente julgar. Se utilizarmos um α=0,01, é como se estivéssemos mandando um inocente para cadeia de cada 100 inocentes julgados. Este nível é aceitável para a pesqui-sas, mas não é aceitável na justiça. As provas em um tribunal devem ser mais contundentes, a chance de mandar um inocente para cadeia deveria ser inferior a 1:1000. Não confunda, um α=0,01 não significa que vamos cometer um erro a cada 100 julgamentos, pois em muitos julgamentos o réu era realmente culpado. O fato de muitos julgamentos terminarem em conde-

nação reflete principalmente a obrigatoriedade de indícios fortes de culpa antes de se levar um réu a julgamento.

4.6 Considerações complementares

Nas seções anteriores vimos o essencial sobre testes de hipóteses que precisa ser entendido por todos os usuários de estatística. Entretanto, há vários aspectos adicionais importantes para uma compreensão mais profunda do tema que serão tratados nesta seção.

a) adequando “alfa” à hipótese

Vimos na seção anterior e na tabela 4.2 que em alguns contextos a prioridade não é evitar os falsos positivos, mas em tribunais e na maioria das pesquisas é. Por isto usamos valores bem baixos de “alfa” (Nível de Significância) em nos-sos testes. O valor mais tradicional é 0,05 (aqui estamos falando de testes isolados, a questão do nível de significância de testes múltiplos será discutida no capítulo 7). Raramente se discute em que situações devem ser utilizados os níveis mais baixos de 0,01 ou 0,001. Testes com hipó-teses de trabalho tidas como quase certas nor-malmente tem uma função de apenas compro-var algo, podemos dizer que a hipótese nula está em um grupo de “alto risco” de ser rejeita-da. Uma hipótese de trabalho ousada é bem mais incerta, e está em um grupo de “risco in-termediário” e uma hipótese muito ousada tem um “risco muito baixo” de ser rejeitada. Com base nisto, deveríamos utilizar respectivamente 0,05; 0,01 e 0,001 como Níveis de Significância para cada um destes casos. Para entender por que, veja como devemos interpretar resultados de exames considerando o grupo de risco (Mlo-dinov 2008).

Suponha que a probabilidade de um falso posi-tivo em um exame de AIDS tenha sido estabe-lecida em 0,7%. O que significa isto? Significa que a chance dela ter Aids é de 99.3%. Com base no resultado do exame qualquer pessoa tem a mesma chance de receber um falso posi-tivo? As respostas são não e não. Muitos se surpreendem ao saber que a chance de ser um

Page 63: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

62

falso positivo depende de quem é a pessoa que fez o exame.

Acompanhe este raciocínio. Duas pessoas re-cebam um resultado positivo em um exame de AIDS, a primeira pertence a um grupo de risco (usuário de drogas que não pratica sexo seguro em uma metrópole com alta incidência de AIDS), e a segunda não pertence ao grupo de risco. Imagine que no grupo de risco a incidên-cia de AIDS seja de 1/10, enquanto no grupo de baixo risco ela seja de 1/10.000.

Milhares de pessoas fazem exames de AIDS. Quantos são os falsos positivos de cada grupo? Considere 10.000 pessoas no caso do grupo com incidência 1/10 (Quadro 4.2), teremos 1000 positivos e 9000 negativos. Dos 9.000 negati-vos, 0.7% (63) terão falsos positivos. Portanto, a chance deste “positivo” ser realmente um positi-vo é de 1000/(1000+63) isto é, 94%. Agora con-sidere 10.000 pessoas no grupo com incidência 1/10.000. Teremos um positivo e 9.999 negati-vos. Destes, 0,7% terão falsos positivos (70 pessoas). Portanto, a chance deste “positivo” ser realmente um positivo é de 1/(1+70), isto é 1,41%. Portanto, a probabilidade da primeira pessoa ter AIDS é quase 70 vezes maior!

O problema é que confundimos o que chama-

mos de falso positivo para um teste isolado com a chance de um positivo no meio a muitos tes-tes ser realmente um positivo. Um positivo ver-dadeiro pode ser muito mais raro que o número de negativos multiplicado pela chance de falsos positivos isolados.

Uma situação análoga pode ser considerada para a pesquisa. Uma hipótese razoável, como uma formiga preferir um tipo de solo (arenoso ou argiloso) para fundar uma colônia cai no grupo de risco das hipóteses razoáveis, das quais boa parte deve ser realmente verdadeira, digamos em uma proporção entre 1/2 a 1/10. Entretanto, uma hipótese que testasse se o comportamento da formiga é influenciado por pequenas diferenças nos teores de cobre ou por um leve campo magnético próximo das arenas experimentais no solo soa estranho com base no que se sabe sobre formigas. Estas hipóteses parecem muito improváveis, talvez 1/50 a 1/1000 possam ser realmente ser corretas. Co-mo as situações são análogas, a chance de um falso positivo em hipóteses ousadas ou bizarras é muitas vezes maior para o mesmo alfa.

Não é fácil medir o quanto nossas hipóteses são razoáveis ou bizarras, entretanto, podemos chegar a uma diretriz aproximada. Se sua hipó-tese de trabalho tratar de uma tendência que

você considera intuitivamente muito razoável, pode usar um alfa de 0,05. Se for uma ideia um pouco mais ousada, mas não extraordi-nária, use 0,01. Se for uma hipótese extrava-gante que abala conceitos estabelecidos dentro da sua área de pesquisa, melhor utili-zar 0,001. Hipóteses ousadas não devem ser evitadas, pois muitas vezes marcam revolu-ções na ciência, entretanto, devem ser trata-das com maior rigor para não criar falsos mitos. A estatística não é só um jogo, nossas expectativas precisam ser levadas em conta.

Quadro 4.2 Cálculos mostrando que a chance de um falso positivo é muito maior em um grupo de alto risco que em um grupo de baixo risco para o mesmo teste. A chance de falso positivo neste exemplo foi quase 70 vezes maior no grupo de baixo risco. A mesma lógica pode ser aplica-da para testes estatísticos.

Page 64: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

63

b) O valor de P é uma medida de certeza?

Ao definir um nível de significância qualquer, digamos 0,05, existe uma diferença se nosso teste apresentar uma probabilidade P=0,04 ou uma probabilidade P=0,0004? A resposta é não em termos do teste, a hipótese nula foi reprova-da em ambos, mas há uma diferença. Uma nota 4,5 significa reprovação, mas é interessante saber que o aluno não estava longe do limite. Uma nota Dez significa aprovação, mas é uma aprovação bem mais segura do que um “5,0”. Em síntese, devemos utilizar critérios definidos antecipadamente para decidir pelo sim ou pelo não, mas não devemos ignorar o valor da pro-babilidade calculada no teste. Como interpretar o valor da probabilidade calculada (P) em um teste de significância da hipótese nula? Vimos que um valor baixo de “P” é uma evidência con-trária à hipótese nula. Podemos ir mais longe, quanto mais próximo de zero for o valor de “P”, mais forte é a evidência contra a hipótese nula (Fig. 4.3). Para entender esta relação, faremos uma analogia com uma prova de alternativas.

Como nos testes de hipóteses nulas, em uma prova com alternativas sempre existe um com-ponente de “sorte” (aleatoriedade). Uma pessoa que acertou a metade das perguntas em uma prova do tipo “verdadeiro ou falso” não demons-tra nenhum conhecimento, pois este é o espe-rado de acertos por mero acaso. Portanto, só temos indícios de conhecimento acima de 50% de acerto. Mesmo um acerto de 60 a 80% pode acontecer só por acaso em uma prova com poucas questões. Uma pessoa até poderia acertar 100% das questões por pura sorte em uma prova com 5 questões, mas isto seria prati-camente impossível em uma prova com 50 questões.

P é uma medida de certeza, mas deve ser vista com cuidado. P=0,04 não significa que a chan-ce da hipótese de trabalho estar correta é de 96%. É bem mais complicado que isto. Entre-tanto, podemos dizer que a chance da hipótese de trabalho estar correta é maior em P=0,0004 que em P=0,04.

0.5 1

Probabilidade calculada (“P”)

Negativa?

0

Média

Forte

Evi

dên

cia

co

ntr

a H

o

a) Peso da evidência contra a Hipótese Nula

0.05

Muito Forte

0.001 0.01

0

b) Analogia(prova de 100 questões de

“Verdadeiro ou Falso”)

50% 100%Erros

Negativo?

0

Médio

Alto

Nív

el d

e

apre

ndiz

ado

Muito Alto

0

Figura 4.3 A probabilidade calculada em um teste estatístico serve como medida do peso da evidência contrá-ria à Hipótese Nula. Quanto menor o valor de “P”, maior a evidência contrária à Hipótese Nula. Valores in-termediários de “P” indicam situação indefinida e valores muito altos são “estranhos”. Ver a explicação no texto com uma analogia com uma prova com alternativas do tipo “verdadeiro ou falso”.

Page 65: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

64

c) O que significam valores altos de P?

E quanto aos valores altos de “P”? Voltando à analogia, qual seria a interpretação para a prova de uma pessoa que errou mais que 50% das questões? A princípio, significa duas coisas: a pessoa não tem nenhum conhecimento e ainda teve algum azar. Considerando que qualquer um pode ter azar, até quem tem algum conhe-cimento e acertou 50%, uma nota abaixo de 50% é um indício mais forte de ausência de conhecimento que exatamente 50% de acerto, entretanto, não é indício de conhecimento nega-tivo, pois isto não existe. Agora uma nota pró-xima de 100% de erro seria algo muito estra-nho. Se o número de questões for grande, po-demos até suspeitar que a pessoa sabia tudo e errou propositalmente. É interessante verificar a possibilidade de alguma anomalia deste tipo quando temos valores muito altos de P (como P>0,95). Entretanto, em geral, simplesmente é um acaso que acontece quando estamos fa-zendo muitos testes.

d) abordagens alternativas ao Teste de Sig-nificância de Hipótese Nula

O teste de significância de hipótese nula é uma abordagem tão preponderante na análise esta-tística de dados que muita gente acha que é a única. É por isto que tanto espaço foi dedicado a esta abordagem neste capítulo. Entretanto há outras duas abordagens que estão crescendo e possivelmente vão superá-la em importância em testes de hipóteses do acaso.

A primeira alternativa é a utilização de intervalos de confiança de parâmetros ao invés de cálcu-los de probabilidades associados a hipóteses nulas (van Belle, 2008; Wood 2012). Uma van-tagem é a riqueza da informação fornecida. Ao invés de dizermos “Houve um efeito significativo do tratamento em relação ao controle (F1,20=6,53; p<0.05)”, diríamos “Houve um efei-to significativo do tratamento em relação ao controle (Diferença= 1,25; IC95%= 0.90 a 1,60)”. A segunda vantagem é que esta é tam-

bém a forma mais natural para apresentar resul-tados que utilizam técnicas de reamostragem, como o “Bootstrap” (seção 3.6). A terceira van-tagem é que é mais fácil se realizar um teste de hipóteses de trabalho de semelhança.

Outra abordagem alternativa em crescimento é a utilização de Análises Bayesianas (Gotelli & Ellison, 2011), que é uma forma bem diferente de calcular probabilidade. No TSHN calculamos a probabilidade de obter uma diferença obser-vada se a hipótese nula for verdadeira, isto é simbolizado como P (dados│hipótese nula). Na análise Bayesiana, calculamos a probabilidade da hipótese aplicando os dados fornecidos, o que é simbolizado P (hipótese de traba-lho│dados). É uma estatística mais semelhante à nossa forma intuitiva de pensar. Na seção 4.1 comentamos que a escolha da hipótese de tra-balho baseia-se na nossa intuição. A escolha de uma hipótese que formigas usam referenciais espaciais baseou-se em um “cálculo”. Parece improvável que formigas usem apenas pistas químicas, aqui chove muito, a chance de perde-rem a trilha é grande, além disto, podem passar por um tronco e ele cair. Já li que outros hime-nópteros (vespas) são capazes de usar referen-cias espaciais, etc. Por outro lado, a hipótese que as formigas utilizam o magnetismo terrestre lhe parece muito improváveis. Você junta infor-mações e pode tomar decisões sobre a “proba-bilidade” de uma hipótese estar correta. Esta abordagem também é mais apropriada quando estamos comparando duas hipóteses de traba-lho concorrentes, para ver qual delas se ajusta melhor aos dados.

e) entre o sim e o não existe um vão

Quando tomamos decisões, informações com-plexas podem ser transformadas em “Sim ou Não”, que levarão a duas diferentes possibilida-des de ação. Ocasionalmente, temos três op-ções: “Sim”, “Talvez” ou “Não”. Podemos ainda decidir em mais categorias: o “sim forte”, o “sim fraco”, o “Talvez”, o “não fraco” e o “não forte”. Eventualmente, há decisões em que se utiliza uma escala quantitativa entre os extremos (e.g. custo de apólices de seguro em função do ris-

Page 66: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

65

co). Nesta seção, vamos nos concentrar em decisões com três possibilidades.

No caso da pesquisa, vamos chamar de “Sim” a rejeição da hipótese nula (Sim, a evidência é suficiente para rejeitarmos a hipótese nula). No tribunal, “Sim” significa “Sim, temos evidência suficiente para declará-lo culpado”. É importante ressaltar que o “Sim” não significa “Definitiva-mente sim”, significa “Tenho convicção que sim”, e os graus de convicção dependem da situação, como vimos na seção anterior. Note que no sistema de decisão que descrevemos para tribunais e para a maioria das pesquisas o “Talvez” é tratado como um “Não” (em caso de dúvida prevalece a inocência/ aceitamos a hipó-tese nula). Como nesta abordagem apenas levamos em conta o “Alfa” (Nível de Significân-cia), podemos denominá-la Abordagem “Alfa-cêntrica”. A abordagem alfacêntrica é apropriada quando temos prioridade em evitar o Erro Tipo I e va-mos tomar uma decisão com a informação que foi coletada em uma única etapa anterior ao Julgamento Centrado. Estas condições ocorrem em tribunais e em projetos de pesquisa ou dis-sertações ou teses em que temos um tempo determinado para coletar os dados. A desvan-tagem da abordagem alfacêntrica é que aceitar a hipótese nula é um resultado de pouco valor, pois não sabemos se temos um “Não” ou “Tal-vez”, e um “Talvez” pode ser um “Sim”. Entre-tanto, vimos na Tabela 4.2 que há outras abor-dagens. Vejamos agora uma situação em que precisa-mos separar o “Não” do “Talvez”. Imagine que você trabalha em um laboratório de análises clínicas e tem em mãos um resultado com ní-veis elevados de uma substância que indica

uma doença muito grave, como Câncer ou AIDS, mas os níveis não são tão elevados a ponto de ter certeza. Se você apresentar o re-sultado como positivo e for um falso positivo, a pessoa passará por uma angustia profunda para depois descobrir que não tinha a doença. Por outro lado, se apresentar o resultado como negativo, pode estar adiando a chance da pes-soa se tratar e ter uma sobrevida mais longa e melhor ou até uma cura. O que fazer? Nesta situação, a ação em caso de “Sim” (iniciar o tratamento) é diferente da ação no caso de “Não” (liberar o paciente), que também difere no caso de “Talvez” (realizar mais exames). Também há situações em que o Erro Tipo II é um risco de gravidade muito maior que do Erro Tipo I. Imagine que tenha havido um caso de Doença de Chagas aparentemente adquirida pelo consumo de açaí em um bairro de Manaus. Em casos deste tipo, é comum que a ação an-teceda a coleta de dados, com a proibição ime-diata da venda de açai. Em uma análise preli-minar, o órgão responsável pela vigilância sani-tária recolhe amostras de açaí de 10 vendedo-res e não encontra nenhuma amostra infectada. Portanto, não há evidência que a doença tenha sido transmitida desta forma. Entretanto, se este resultado for um falso negativo (Erro Tipo II), há risco de transmissão de uma doença grave para outras pessoas, portanto, o consumo não é liberado até o término de uma investigação exaustiva. Lidar com alto custo de Erro Tipo II é sempre muito complicado. É difícil se definir quanto esforço de investigação será suficiente para uma conclusão segura, e temos que lem-brar que a suspensão da venda também está prejudicando pessoas. Para separar o “Não” do “Talvez”, normalmente precisamos de múltiplas etapas de coleta de

dados, como mais exames no exemplo da suspeita de doença ou continuação exaus-tiva da coleta de dados no exemplo do açai. A nova coleta de dados não precisa ser da mesma natureza dos dados anteriores. No caso de exames sobre doenças, muitas vezes se realiza repete exames de outra natureza para avaliar um sintoma comple-mentar da mesma doença. No caso do açaí, é importante investigar outras possibi-

Page 67: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

66

lidades de contágio. Se a coleta de dados for da mesma natureza, a hipótese nula pode acabar sendo aceita após uma coleta exaustiva, consi-derando que já deveria ter sido rejeitada se fosse falsa. Só é possível se definir quantos dados precisa-mos coletar para considerar uma coleta “sufici-entemente exaustiva” para dar um veredito “Não” se tivermos um valor de “efeito mínimo” de referência. Por exemplo, digamos que você queira saber o efeito de uma substância sobre a pressão sanguínea de ratos. Se a substância aumentar a pressão da grande maioria dos ratos, terá rejeitado a hipótese nula. Se não obtiver nenhuma diferença significativa (isto é, além do que esperamos ao acaso), aceitará a hipótese nula. No entanto, não pode dizer que não haja efeito, pois ele pode ser tão sutil que não pôde ser detectado com o tamanho amos-tral do experimento. Por outro lado, se você perguntar se existe um efeito de aumentar pelo menos 10% a pressão sanguínea, e tiver algu-mas informações sobre os dados, então poderá calcular o tamanho amostral necessário a partir de uma probabilidade de Erro Tipo II (ou “Beta”, β) pré definida por você. Não entraremos nos detalhes de como se reali-zam as abordagens da Tabela 4.2. Entretanto, é bom ter consciência que a abordagem alfacên-trica não se aplica a todas as situações, até mesmo na pesquisa podemos ter que utilizar outra abordagem.

f) Significativo é sinônimo de relevante?

O uso da estatística cresceu e as revistas cientí-ficas e bancas de avaliação acadêmica passa-ram a exigir que testes fossem utilizados para mostrar que tendências tinham relevância esta-tística. Esta pressão pelo uso da estatística contribuiu para a qualidade da pesquisa, mas também levou a alguns desvios, como a busca pelo resultado significativo independente da questão. Alguns acreditam que o “melhor” teste dentro de um estudo é aquele que foi mais sig-nificativo.

Um aspecto psicologicamente forte no teste de previsão de hipóteses é que ele responde cate-

goricamente (com sim ou não) se evidências para a existência de uma relação são significati-vas. Não temos um critério semelhante para atribuirmos o valor biológico para um teste. É uma questão de bom senso. A relação entre tamanho de qualquer espécie e seu peso é sempre fortemente significativa, mesmo com poucos dados, de forma que não é nada sur-preendente obter-se um P<0,001 para esta relação. Um efeito significativo obtido apenas com um tamanho amostral imenso pode signifi-car variáveis de ruído interferindo muito ou sim-plesmente um efeito biologicamente irrelevante de uma variável sobre outra. O valor calculado de “P” tem relação com a “força” da evidência, não tem relação com a relevância da questão.

g) Efeitos colaterais

Em algumas situações, particularmente no de-senvolvimento de remédios, alimentos ou pro-dutos que possam oferecer riscos ambientais ou à saúde humana, temos de ir além das conside-rações sobre o erro tipo I e tipo II. Imagine uma substância com potencial para diminuir os enjô-os durante a gravidez. Podemos testar estatisti-camente se o remédio é efetivo fixando o erro tipo I e até o erro tipo II, definindo um tamanho amostral apropriado com base em coletas pre-liminares. Esta análise permitirá que se defina dentro dos critérios discutidos neste capítulo se o remédio é efetivo ou não para reduzir o enjôo. Entretanto, este teste só avalia o enjôo, não garante que este remédio não tenha contra indicações. Um remédio chamado Talidomida foi usado na década de 1960 contra enjôo na gravidez e causou malformações em muitos bebês.

Ignorar efeitos colaterais não é cometer um erro tipo I ou tipo II, é cometer um erro que extrapola o teste. Pelo princípio da prudência, temos até que considerar provas circunstanciais, como uma acusação improvável de uma pessoa que consumiu um remédio ou indícios de algum impacto ambiental, como uma evidência que a atenção deve ser redobrada. A análise de efei-tos colaterais pode ser complexa. Embora haja ferramentas estatísticas para ajudar nesta tare-

Page 68: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

67

fa, cada potencial efeito (podemos mesmo listar todos?) deveria ser analisado separadamente e, como vimos anteriormente, é difícil separar o “talvez” do “não”. Não é possível se obter uma garantia que nenhum efeito colateral vá ocorrer, mas é essencial que se considere qualquer indício de problema e se faça um levantamento exaustivo de todas as possibilidades razoáveis de efeitos colaterais. Novas tecnologias, como a transgenia, já provaram que funcionam, entre-tanto, um acompanhamento é necessário pois ainda não sabemos quais são os riscos ambien-tais e para a saúde. Os farmacêuticos têm muito mais trabalho com a análise de cada possível efeito colateral do que da comprovação dos efeitos positivos. É importante não se confundir o poder da estatística em avaliar efeitos especí-ficos com uma garantia sobre aspectos que extrapolam cada teste particular.

Exercícios

4.1- A lógica dos testes de hipóteses é um as-sunto mais amplo do que a utilização de cálcu-los estatísticos em testes de hipóteses. Expli-que.

4.2- Qual é o risco da inflação de testes e como ele pode ser evitado?

4.3- Quais “hipóteses” costumam ser descarta-das por procedimentos preventivos durante um planejamento experimental? Explique.

4.4- Como é “descartada” a “hipótese do aca-so”? Utilize na sua resposta os conceitos de a) Hipótese Nula; b) Probabilidade calculada; c) Nível de significância (α).

4.5- Por que precisamos de um nível de signifi-cância em um processo de decisão.

4.6- Explique a relação entre o valor calculado de probabilidade em um teste (“P”) e seu peso como evidência contra a hipótese nula.

4.7- Explique a diferença entre Erro Tipo I (falso positivo) e Erro Tipo II (falso negativo) em pro-cessos decisórios em tribunais e na pesquisa científica.

4.8- Como devemos ajustar o Nível de Signifi-cância em função da “ousadia” de uma hipótese de trabalho.

4.9- Como devemos proceder quando o custo do Erro Tipo II é elevado?

4.10- O que são efeitos colaterais e como de-vemos lidar com eles?

Page 69: A Conduta Na Análise

A Condução da Análise 2014/2

© Thierry R. Gasnier/ Universidade Federal do Amazonas

68

Custo

Falso

Positivo

Custo

Falso

Negativo

Tempo Exemplo Análise e Ação

Único

Tratamento de grave intoxicação sem

causa bem definida (usar remédio

forte que tem com contra

indicações?)

Análise de risco emergencial; Priorizar a velocidade

da conclusão mas com o máximo de certeza possível.

Sobre o diagnóstico. Importante haver preparo

antecipado para decisões rápidas e corretas.

Poucas Etapas

Paciente com sintomas de possível

doença grave de tratamento

agressivo;

Avaliação em etapas (poucas). Indícios fracos de

positivo justificam exames complementares.

Continuar os testes até ter segurança suficiente sobre

o diaqgnóstico.

Muitas Etapas

Pesquisa de um remédio promissor

com potenciais efeitos colaterais

graves.

Avaliação em etapas (muitas); Descobrir um remédio

é algo importante, mas a certeza da ausência de

efeitos colaterais tem prioridade.

Único

Julgamento em tribunais criminais.

Estudos acadêmicos com propostas

polêmicas. O tempo único refere-se à

análise única (não dividida em etapas

decisórias) e à defesa única.

Assumir postura fortemente conservadora em

relação ao falso positivo (e.g. princípio da inocência a

priori) ; Estatística com Alfa rigoroso (0,01) ou muito

rigoroso (0,001). Tamanhos amostrais e testes

geralmente definidos a priori .

Poucas Etapas

Exames complexos para possíveis

doenças de gravidade intermediária

em estágios iniciais.

Avaliação em etapas (poucas). Indícios de positivo

justificam exames complementares. Continuar os

testes até ter segurança suficiente sobre o

diaqgnóstico.

Muitas Etapas

Pesquisa de mercado para lançar um

novo produto. Pesquisa sobre

intenções de votos durante processo

eleitoral.

Avaliação em etapas. Amostragem sequencial e

Métodos de controle de processos estatísticos

(detecção de anormalidades) podem ser úteis

conforme o problema.

Único

Maior parte dos trabalhos

acadêmicos; Problemas cotidianos

que exigem nível mediano de certeza

antes de afirmar algo.

Conservadorismo para prevenir falsos positivos, mas

não tão extremo a ponto de frear muito a pesquisa.

Estatística com Alfa Rigoroso (0,01) ou comum (0,05).

Em Etapas

Problemas cotidianos que exigem

nível mediano de certeza com

evidência acumulada gradualmente.

Avaliação em etapas. Coletas preliminares +

Estatística alfacêntrica (duas etapas); Amostragem

sequencial (testando uma questão); Métodos de

controle de processos estatísticos (detecção de

anormalidades); etc.

Único

Relatório de avaliação de impacto

ambiental e ecotoxicologica; Evento

suspeito durante vigilia policial

(bandido ou só gato?). Emitir alarme

contra catástrofes (e.g. terremoto).

Assumir postura mais conservadora contra falsos

negativos. Análise de Risco rigorosa; Valorizar toda

informação relevante disponível. Considerar uso de

Estatística Bayesiana; Medidas preventivas rigorosas;

Em Etapas

Monitoramento ambiental e

sanitário. Monitoramento de

qualidade de processos de alto risco

(e.g. funcionamento de usína

atômica)

Avaliação em etapas. Métodos de Controle de

Processos Estatísticos; Análise de Riscos; Medidas

preventivas rigorosas para falsos negativos;

Considerar uso de Estatística Bayesiana.

ÚnicoDecisão de realizar um evento com

base em previsão de tempo.

Análise de riscos simples; Medidas preventivas para

falsos negativos.

Em Etapas

Monitoramentos cotidianos de

qualidade de processos de médio ou

baixo risco (e.g. eficiência em linha

de produção e satisfação de

clientes).

Avaliação em etapas. Testes múltiplos em etapas.

Amostragem sequencial; Métodos de Controle de

Processos Estatísticos. Monitoramento simples.

Bai

xo o

u m

édio

Mu

ito

Alt

o o

u

Alt

o

Bai

xo

Méd

io

Mu

ito

Alt

o

Mu

ito

Alt

o o

u A

lto

Mu

ito

Alt

o o

u A

lto

dio

Alt

o o

u M

édio

Bai

xo

Tabela 4.2 Análise e ação em diferentes situações em função do custo do Erro Tipo I (falso positivo) e do Erro Tipo II (falso negativo) e do número de etapas de coleta de dados. As formas de analisar os dados mais comuns na pesquisa estão em destaque.