Ciências da Saúde - silabo.pt · Ciências da Saúde MERCÊS DE MELLO ... Capítulo 11 Testes t-Student 11.1. Teste t-Student para uma amostra 177 11.2. Teste t-Student para comparação

Atualmente a estatística é uma ferramenta indispensável para os profissionais na área dasciências da saúde. Conhecer, interpretar e aplicar a teoria e as técnicas estatísticas é funda-mental para uma boa investigação, estudo e práticas esclarecidas.

Este livro, com evidente cuidado pedagógico, e recorrendo permanentemente a exemplospráticos, apresenta em 21 capítulos e vários anexos todo o instrumental teórico e prático paradotar o leitor de tudo o que necessita para enfrentar os obstáculos que poderá encontrar no seuestudo ou profissão.

Nos primeiros capítulos apresenta os conceitos básicos da Estatística e o ambiente e utili-zação do software SPSS. Depois aborda a noção de probabilidade, as distribuições amostrais eos vários tipos de amostragem. Seguidamente trata da comparação de dados categóricos edados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui--quadrado, o teste -Student (também para variáveis emparelhadas) e o teste da análise devariância (ANOVA). Discute o modelo de regressão e a correlação e os diferentes testes nãoparamétricos. Nos capítulos seguintes apresenta as medidas de força da associação ou efeito,através dos , risco relativo e da diferença de risco. Nos capítulos finais apresenta aparte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivên-cia, regressão de Cox e regressão de Poisson e aborda a meta-análise, principalmente no quediz respeito à sua representação gráfica ( ).

Este livro destina-se pois a todos os estudantes e profissionais que, na sua atividade profis-sional ou nos seus estudos necessitem de aprender ou consolidar os conceitos teóricos estatís-ticos e a sua respetiva transposição para a prática.

t F

odds ratio

forest plot

O presente trabalho escrito com a clareza, que só quem viveu explicando consegueimprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver nainvestigação biomédica, mas também para quem necessita de compreender a linguagemda maioria dos trabalhos publicados. (...) O recurso aos exemplos reais é sem sombra dedúvida, mais um dos argumentos que pode justificar a recomendação deste livro aosprofissionais de saúde.

A publicação desta obra teve o apoio:

Prof. Alexandre Castro CaldasProfessor Catedrático

Diretor do Instituto de Ciências da Saúde – Universidade Católica Portuguesa

FRANCISCO MERCÊS DE MELLO • RITA CABRAL GUIMARÃESFrancisco Mercês de Mello

Curso de Engenheiro Agrónomoem 1961 (UTL). Bacharelato emMatemática Aplicada em 1974(ULM). Doutoramento emEngenharia Agrícola em 1987(U. Évora). Professor associado(aposentado) da Universidadede Évora.

Rita Cabral Guimarães

Licenciatura em EngenhariaAgrícola em 1993 (U. Évora).Mestrado em Engenharia do Soloe da Água em 1997 (U. Évora).Doutoramento em Engenharia dosRecursos Hídricos em 2005 (U. Évora).Licenciatura em Engenharia Civilem 2013 (U. Évora). Professora auxiliarna Universidade de Évora.

Métodos Estatísticospara o Ensino e a Investigação nas

Ciências da Saúde

– 1.00 0.00 1.00 2.00 3.00

FavortratamentoFavortratamento

Favorplacebo

Favorplacebo

Com exemplos extraídos de revistase publicações médicas

Apresentação e utilização do SPSS

Méto

do

s Estatístico

sp

ara o E

nsin

o e a Investig

ação n

as

Ciên

cias da S

aúd

e

MERCÊSDE MELLO

•RITA

GUIMARÃES

EDIÇÕES SÍLABO

Prefácio

Prof. Alexandre Castro Caldas

ISBN 978-972-618-805-6

9 188056789726

506

Métodos Estatísticos para o Ensino

e a Investigação nas Ciências da Saúde

Com Utilização do SPSS

FRANCISCO MERCÊS DE MELLO

RITA CABRAL GUIMARÃES

EDIÇÕES SÍLABO

É expressamente proibido reproduzir, no todo ou em parte, sob qualquer

forma ou meio, NOMEADAMENTE FOTOCÓPIA, esta obra. As transgressões serão passíveis das penalizações previstas na legislação em vigor.

Visite a Sílabo na rede

www.si labo.pt

Editor: Manuel Robalo

FICHA TÉCNICA:

Título: Métodos Estatísticos para o Ensino e a Investigação nas Ciências da Saúde – Com utilização do SPSS Autores: Francisco Mercês de Mello, Rita Cabral Guimarães © Edições Sílabo, Lda. Capa: Pedro Mota

1ª Edição – Lisboa, julho de 2015 Impressão e acabamentos: Europress, Lda. Depósito Legal: 395231/15 ISBN: 978-972-618-805-6

EDIÇÕES SÍLABO, LDA.

R. Cidade de Manchester, 2 1170-100 Lisboa Tel.: 218130345 Fax: 218166719 e-mail: [email protected] www.silabo.pt

Índice

Agradecimentos 13 Palavras prévias 15 Prefácios 17 Introdução 19

Capítulo 1 Conceitos básicos da estatística e da análise exploratória dos dados

1.1. Introdução 21 1.2. Conceitos básicos 21 1.3. Medição e escalas de medição 22 1.4. Ordenação dos dados 23 1.5. Dados agrupados: distribuição de frequências 23 1.6. Estatística descritiva 28

1.6.1. Medidas de localização 28 1.6.2. Medidas de dispersão 31 1.6.3. Medidas de forma 33

Capítulo 2 Princípios básicos de utilização do SPSS

2.1. Introdução 37 2.2. Como iniciar o SPSS 37 2.3. Como criar um ficheiro de dados no SPSS 39 2.4. Tratamento e apresentação dos dados 44

2.4.1. Tabela de frequências 44 2.4.2. Estatística descritiva 48

2.5. Como calcular uma nova variável a partir de outra existente 51 2.6. Como calcular variáveis a partir de datas 55

Capítulo 3 Exemplos de aplicação do SPSS a casos concretos de estatística descritiva

3.1. Introdução 61 3.2. Exemplos de aplicação 61

Capítulo 4 Probabilidade

4.1. Introdução 79 4.2. Conceitos de probabilidade 79 4.3. Algumas propriedades e teoremas 80 4.4. Distribuições discretas 82 4.5. Distribuições contínuas 86

Capítulo 5 Distribuições amostrais

5.1. Introdução 93 5.2. Teorema do limite central 94 5.3. Parâmetros de uma população 94

5.3.1. Distribuição amostral da média, x 94 5.3.2. Distribuição amostral de uma proporção 96 5.3.3. Distribuição amostral da variância 97

5.4. Parâmetros de duas populações 97 5.4.1. Distribuição da diferença entre duas médias amostrais 97 5.4.2. Distribuição amostral para a diferença

entre duas proporções populacionais 101 5.4.3. Distribuição amostral para o quociente entre variâncias 102

Capítulo 6 Estimação pontual e intervalar

6.1. Introdução 105 6.2. Estimação pontual 105 6.3. Estimação intervalar 105

Capítulo 7 Testes de hipóteses

7.1. Introdução 115 7.2. Hipóteses estatísticas 115 7.3. Estatística de teste 117 7.4. Nível de significância 117 7.5. Valores críticos e região de rejeição de um teste de hipótese 117 7.6. Erro associado a uma decisão estatística 121 7.7. Probabilidade de significância (p-value) 121 7.8. Cálculo das probabilidades de cometer um erro tipo I e tipo II.

Função potência 126 7.9. Comparação conjunta dos erros tipo II e potência para testes

de hipóteses bilaterais e unilaterais 129 7.10. Testes de hipóteses vs. intervalos de confiança 130 7.11. Como calcular o valor-p com o SPSS 131

Capítulo 8 Amostragem

8.1. Introdução 133 8.2. Dimensão da amostra 133

8.2.1. Nomograma de Altman para cálculo da dimensão da amostra 136 8.2.2. Fórmula rápida de Lehr 137

8.3. Métodos de seleção de amostras 138

Capítulo 9 Comparação de dados categóricos em amostras independentes

9.1. Introdução 141 9.2. Teste do qui-quadrado 141 9.3. Teste de Fisher 146 9.4. Medidas de força da associação/efeito: risco relativo e odds ratio 147

Capítulo 10 Testes para analisar a normalidade dos dados e a homogeneidade das variâncias

10.1. Introdução 167

10.2. Análise da normalidade 167

10.3. Análise da homogeneidade das variâncias 173

Capítulo 11 Testes t-Student

11.1. Teste t-Student para uma amostra 177

11.2. Teste t-Student para comparação de dados numéricos em duas amostras 180 11.2.1. Teste t-Student para duas amostras independentes 180 11.2.2. Teste t-Student para duas amostras emparelhadas 184

Capítulo 12 Comparação de dados numéricos em mais de duas amostras independentes. Análise de variância


12.2. Os diferentes tipos de ANOVA 190

12.3. Delineamentos completamente casualizados 190

12.4. Delineamentos em blocos completamente casualizados 197

12.5. Delineamentos com medições repetidas (one way ANOVA) 207

12.6. Experiências fatoriais 213 12.6.1. Classificação dupla cruzada 214

12.6.2. Esquema de dois fatores completamente casualizados 214

12.7. Modelo a dois fatores misto 225

Capítulo 13 Regressão linear. Correlação


13.2. O modelo de regressão linear simples 233

13.3. Pressupostos do modelo de regressão linear simples 234

13.4. Correlação paramétrica 234

13.5. Correlação não paramétrica 238

13.6. Coeficiente de correlação bisserial por pontos 240

13.7. O Modelo de regressão linear múltipla 250 13.7.1. Coeficientes de regressão parciais 251

13.7.2. Coeficiente de determinação múltipla 251

13.7.3. Coeficiente de correlação parcial 251

13.7.4. Testes de hipóteses 252

13.7.5. Escolha do processo de seleção de variáveis 253

13.8. Variáveis independentes categóricas 261

Capítulo 14 Testes não paramétricos


14.2. Teste de Kolmogorov-Smirnov 263

14.3. Teste binomial 264

14.4. Teste do qui-quadrado 267

14.5. Teste de Fisher 267

14.6. Teste de Mann-Whitney 267

14.7. Teste de Kruskall-Wallis 271

14.8. Teste dos sinais 273

14.9. Teste de Wilcoxon 276 14.10. Teste de McNemar 278 14.11. Teste de Cochran 280 14.12. Teste de Friedman 282

Capítulo 15 Testes de diagnóstico. Curva ROC


15.2. Definições. Cálculos 286 15.2.1. Probabilidade condicional e testes de diagnóstico 289

15.3. Curva ROC 291

Capítulo 16 Regressão logística simples e múltipla


16.2. Categorização das variáveis independentes 303

16.3. Esquema geral de procedimento para efetuar uma análise de regressão logística com SPSS 306

16.4. Regressão logística politómica 323 16.4.1. Testes de significância 325

16.4.2. Interpretação dos parâmetros 325

16.5. Regressão ordinal 330 16.5.1. Avaliação da qualidade do modelo 331

16.5.2. Classificação com o modelo de regressão ordinal 332

Capítulo 17 Confundimento e modificação de efeitos


17.2. Estatísticas de Mantel-Haenszel 339

17.3. Como analisar confundimento e modificação de efeito 342 17.3.1. Inexistência de confundimento e de interação 343

17.3.2. Existência de confundimento sem interação 347

17.3.3. Existência de interação sem confundimento 350

17.3.4. Existência de confundimento e de interação 352

17.4. Comparação da regressão logística com a análise estratificada em tabelas 2 × 2 354

Capítulo 18 Análise de sobrevivência


18.2. Método actuarial 357

18.3. Método de Kaplan-Meier 362

18.4. Comparação de curvas de sobrevivência 364 18.4.1. Comparação pontual 364

18.4.2. Comparação global 365

18.5. Taxas de incidência cumulativa 374

Capítulo 19 Análise de regressão de Cox


19.2. Coeficientes de regressão parciais 378

19.3. Testes de hipóteses a efetuar 380

19.4. Validação dos pressupostos do modelo 382

19.5. Modelos paramétricos 403

Capítulo 20 Análise de regressão de Poisson


20.2. Razão de taxas de incidência 408

Capítulo 21 Meta-análise


21.2. Modelos de efeitos fixos e modelos de efeitos aleatórios 426

21.3. Heterogeneidade estatística 426

21.4. Gráfico dos resultados (forest plot) 427

Anexo 1 – Tabelas para a distribuição normal 431

Anexo 2 – Tabelas para a distribuição t-Student 437

Anexo 3 – Tabelas para a distribuição de qui-quadrado 441

Anexo 4 – Tabelas para a distribuição de F-Snedecor 443

Referências bibliográficas 451 Índice remissivo 457

Agradecimentos

Os autores vêm expressar o seu agradecimento ao Sr. Dr. Luís Santos, Chefe de Serviço de Patologia Clínica, Diretor Técnico do Serviço de Patologia Clínica do Hospital de Cascais Dr. José de Almeida, pelo incentivo constante que lhes deu para a concreti-zação deste livro, juntamente com o esclarecimento que lhes foi prestando quanto a variados termos médicos e à revisão final que se dignou a fazer a esta obra.

Ao Professor Doutor Pedro Aguiar, do Instituto Nacional de Saúde Pública, os auto-res agradecem os esclarecimentos que deu às varias questões que lhe apresentaram e à forma amável como para tal se disponibilizou.

Ao Sr. Dr. António Paula Brito Pina, da ARS do Algarve – IP, agradecemos a pronta autorização que nos concedeu para usar os seus textos e dados de obras por si publi-cadas.

Ao Sr. Dr. Frederico do Rosário, do Centro de Saúde de Tondela, agradecemos a forma amável como acolheu as nossas dúvidas, ao ponto de nos deixar utilizar os seus dados e trabalhar connosco no SPSS a regressão de Poisson.

Ao Professor Doutor Paulo Margotto os autores querem agradecer a amabilidade com que nos autorizou a usar os deus dados e os seus textos publicados na World Wide Web.

Não podíamos deixar de agradecer o acolhimento que tivemos na excelente Biblio-teca do Hospital de S. José, na pessoa da sua assistente-técnica Sra. D. Mónica Tei-xeira. Trata-se de uma funcionária sempre disposta a resolver os nossos inúmeros pro-blemas, de uma forma que consideramos exemplar e com um zelo inexcedível.

Palavras prévias

A estatística desempenha um importante papel na pesquisa médica. Odd O. Aalem, da Secção de Estatística Médica da Universidade de Oslo, no ano 2000, escreveu na revista Statistical Methods in Medical Research, um artigo intitulado «Medical Statistics – No Time for Complacency». Neste excelente artigo, para além de chamar a atenção para a incerteza, como essência da estatística, aponta um conjunto de fatores que res-pondem à pergunta do presente capítulo. São eles:

A prática médica e a pesquisa médica geram grande quantidade de dados, cheios de incerteza e variabilidade, impondo uma análise apropriada ao tratamento destes dados – a análise estatística;

Os testes aos tratamentos ou medidas preventivas, na prática apoiam-se na estatís-tica. Isto é verdadeiro para ambos, quer no delineamento, quer na análise. A casualiza-ção foi entusiasticamente implementada nas experiências clínicas e a chamada medi-cina baseada em evidências tem a sua base nos ensaios clínicos e em estudos epide-miológicos.

O panorama médico mundial tem fortes aspetos estatísticos. Medidas estatísticas respondem a questões do tipo: «Quão comum é a doença?»; «Qual o fator responsá-vel?»; «Qual a probabilidade de melhorar a sobrevivência?».

Por outro lado é importante deixar bem expresso que uma diferença entre compor-tamentos, estatisticamente significantes, pode não ser clinicamente «importante». A importância em termos biológicos não deve ser julgada pelos estatísticos, mas sim pelos profissionais da área em que a pesquisa está sendo feita.

Prefácios

Os métodos quantitativos de investigação dominam hoje a literatura biomédica. Ao longo dos anos a metodologia estatística tem vindo a refinar a sua capacidade de valori-zação dos resultados obtidos na experimentação, enriquecendo assim a oferta das opções e das aplicações.

Os cálculos estatísticos deixaram há muito de ser realizados com papel e lápis ou com o recurso à regra de cálculo, passaram a integrar programas complexos de que os utilizadores desconhecem as regras matemáticas que os suportam.

Desta forma, os profissionais não acompanharam a evolução das metodologias estatísticas e recorrem à aparente simplicidade do teclado de um computador para rea-lizar os seus estudos. Nada mais passível de erro do que fazê-lo desta forma. A estatís-tica é um componente da metodologia da investigação que deve ser ponderada com conhecimento das suas regras de utilização, no mesmo momento em que se planeia um estudo. Não é qualquer coisa que se aplica aos resultados para lhes dar uma tonalidade de verdade. Por outro lado, mesmo quando bem utilizada a metodologia, muitos leitores dos trabalhos publicados se confundem na leitura e interpretação dos resultados.

O presente trabalho escrito com a clareza, que só quem viveu explicando consegue imprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver na investigação biomédica, mas também para quem necessita de compreender a lingua-gem da maioria dos trabalhos publicados.

É certo que não é o único livro sobre o assunto disponível nas livrarias mas é, decerto, dos que melhor conjugam o rigor que a metodologia requer, com a simplicidade do texto. O recurso aos exemplos reais é sem sombra de dúvida, mais um dos argu-mentos que pode justificar a recomendação deste livro aos profissionais de saúde.

Prof. Doutor Alexandre Castro Caldas

Professor Catedrático Diretor do Instituto de Ciências da Saúde

Universidade Católica Portuguesa

O trabalho que agora se publica materializa a difícil tarefa de disponibilizar aos investigadores em Ciências da Saúde os indispensáveis instrumentos de análise esta-tística, não ignorando que a maioria dos interessados não possui conhecimentos apro-fundados de métodos de análise matemática, mas sem descurar o rigor teórico exigido a qualquer texto de carácter científico.

Para tanto, os autores começam por apresentar os conceitos fundamentais da aná-lise estatística servindo-se de exemplos retirados de casos clínicos descritos nas princi-pais revistas médicas. Em simultâneo mostram como pode ser utilizado o programa informático SPSS para implementação dos métodos de análise.

Para além dos testes estatísticos mais habitualmente utilizados neste tipo de investi-gação, os autores alargam o seu trabalho aos mais recentes modelos de regressão logística, de Cox e de Poisson e à meta-análise, na sua formulação gráfica «forest plot».

A riquesa e a variedade da centena de casos apresentados no livro fazem dele um singular instrumento de trabalho que merecerá sem dúvida o interesse dos profissionais do sector das Ciências da Saúde.

E para aqueles que quiserem ir mais longe no estudo destas questões, a extensa lista de Referências Bibliográficas e obras consultadas constitui uma preciosa orienta-ção.

Prof. Doutor Fernando Brito Soares

Professor Catedrático da Faculdade de Economia da Universidade Nova de Lisboa

Introdução

Qualquer projeto de investigação em Ciências da Saúde, tem necessariamente de se complementar com estudos bioestatísticos. Os autores possuem uma formação no âmbito da Biologia e da Estatística, tendo até o primeiro autor regido uma disciplina de Bioestatística no Instituto Superior das Ciências da Saúde, a convite do seu Presidente, Professor Manuel Halpern, nos anos letivos de 1994/95 e 1995/96.

Talvez por este facto, e incentivados por médicos amigos, começaram há 3 anos a «construir» este livro, vendo hoje com regozijo, que valeu a pena o trabalho destes anos, já que esta ambição se concretizou.

Para melhor entenderem o largo espectro da aplicação da Estatística na investiga-ção nas Ciências da Saúde e tomarem contacto com a terminologia, testes e modelos mais utilizados, os autores consultaram cerca de uma centena de revistas médicas cientificas (vários volumes e números) que estão identificadas em Anexo, e que lhes permitiram dispor de uma vasta coleção de dados.

O package estatístico utilizado foi o SPSS 21, versão para Windows. Procurou-se não sobrecarregar o leitor com cálculos manuais extensos e matematicamente pesados, nos cerca de 100 exemplos resolvidos, partindo quase sempre de dados reais e recor-rendo ao SPSS. Procurou-se, em síntese, fazer com que o leitor olhe amigavelmente para este programa, que resolve em poucos segundos aquilo que, manualmente, pode-ria levar horas.

O livro contém 21 capítulos e vários anexos. Nos primeiros capítulos, faz-se uma revisão dos conceitos básicos da Estatística, uma descrição do ambiente SPSS e incluem-se exemplos resolvidos neste Software, sobre estatística descritiva. Segue-se depois uma abordagem à noção de probabilidade, às distribuições amostrais e aos tipos de amostragem. Posteriormente, trata-se da comparação de dados categóricos e dados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui- -quadrado, o teste t-Student (também para variáveis emparelhadas) e o teste F da aná-lise de variância (ANOVA). Estudaram-se o modelo de regressão e a correlação e os diferentes testes não paramétricos. Tratam-se a seguir as medidas de força da associa-ção ou efeito, através dos odds ratios, risco relativo e da diferença de risco. Nos capítulos finais, aborda-se a parte mais complexa constituída pelos modelos de regressão logís-tica, análise de sobrevivência, de regressão de Cox e regressão de Poisson.

O livro termina com uma referência à meta-análise, principalmente no que toca à sua representação gráfica (forest plot).

Capítulo 1

Conceitos básicos da estatística e da análise exploratória

dos dados

1.1. Introdução

O objetivo deste capítulo é tratar da organização, condensação e apresentação da informação extraída de um conjunto de dados, de forma a caracterizar quantitativamente o objetivo do estudo. Nisto consiste a estatística descritiva, etapa indispensável à infe-rência estatística, que, como veremos adiante, integra um conjunto de técnicas que permitem tirar ilações acerca das características da população.

1.2. Conceitos básicos

Variável, é uma característica que muda de pessoa para pessoa, de local para local,

de instante para instante. Como exemplo, podemos referir a pressão sanguínea diastó-lica.

Variáveis quantitativas, são aquelas que podem ser medidas no sentido usual do termo. Por exemplo, podemos medir as alturas de crianças numa escola, conhecer as idades de doentes numa clínica, avaliar o teor em ácido úrico, etc.

Variáveis qualitativas, são aquelas que são identificadas apenas pela atribuição de um nome que designa uma classe, podendo estas classes ser ou não ordenáveis. Como exemplo podemos referir a cor dos olhos das pessoas, as classificações de muito bom,

22 M É T O D O S E S T A T Í S T I C O S P A R A O E N S I N O E A I N V E S T I G A Ç Ã O N A S C I Ê N C I A S D A S A Ú D E

bom, suficiente, medíocre e mau, obtidas por alunos em testes. Evidentemente será depois possível fazer contagens nas diferentes categorias.

Variável aleatória, é aquela que, antecipadamente, não pode ser exatamente pre-dita. É o caso, por exemplo, da altura de um adulto.

Variável aleatória discreta, é aquela que apresenta interrupções nos valores que

pode assumir. Por exemplo, o número de doentes que deram entrada na urgência de um hospital é traduzido por números inteiros como 0, 1, 2, etc., mas nunca poderá ser, por exemplo, 1,2 ou 3,8, etc.

Variável aleatória contínua, é aquela que, ao contrário da anterior, não apresenta

interrupções nos seus valores, podendo assumir qualquer valor dentro de determinado intervalo. É o caso, por exemplo, da altura de um indivíduo, já que podemos teorica-mente encontrar outra pessoa com altura inferior ou superior à dada.

População, é uma coleção de entidades para as quais estamos interessados num

determinado tempo. Por exemplo, a população estudantil que frequentou em 2009 o ensino básico na cidade de Lisboa. As populações podem ser finitas ou infinitas.

Amostra, é um subconjunto de uma população, selecionada com o objetivo de estu-dar propriedades particulares da população de interesse.

1.3. Medição e escalas de medição

Quando dispomos dos valores de uma variável usa-se uma escala de medição apro-priada. A escala de medição permite atribuir números com significado, de acordo com regras específicas, aos elementos em estudo. Deve analisar-se cuidadosamente o tipo de escala a utilizar, pois as operações aritméticas não são válidas para todas as esca-las.

Na Escala nominal, incluem-se as variáveis cujas modalidades ou categorias quan-

titativas são mutuamente exclusivas e não hierarquizáveis. Quando se atribuem núme-ros às diferentes classes, estes são utilizados como se fossem simples nomes, não gozam de qualquer tipo de propriedade aritmética. Apenas se podem fazer contagens dentro do mesmo código da categoria.

Na Escala ordinal, as diferentes modalidades da variável podem ser ordenadas de

acordo com determinado critério. Não é igualmente possível efetuar, com os números de uma escala ordinal, qualquer operação aritmética.

Na Escala intervalar, são válidas relações de ordem e as operações de soma e subtração. Como a origem da escala é arbitrária, não são legítimas as operações de multiplicação e divisão. A temperatura é um exemplo de variável de escala intervalar.

C O N C E I T O S B Á S I C O S D A E S T A T Í S T I C A E D A A N Á L I S E E X P L O R A T Ó R I A D O S D A D O S 23

Na Escala de razão, são possíveis todas as operações aritméticas, já que a origem

é fixa correspondendo sempre ao valor zero, que representa a ausência total da variável medida. São exemplo de escalas de razão, o tempo, o peso, etc.

1.4. Ordenação dos dados

O primeiro passo na organização dos dados é a preparação de um quadro orde-nado, isto é, uma lista de valores da coleção (população ou amostra) ordenados por ordem de grandeza, do mais baixo ao mais elevado, tarefa facilitada pelo uso de um computador.

1.5. Dados agrupados: distribuição de frequências

A principal finalidade de agrupamento dos dados é a sua sumarização, tornando mais fácil determinar a natureza da informação.

Para agrupar um conjunto de observações, devemos selecionar um conjunto de intervalos contíguos e não sobrepostos, de forna a que cada valor do conjunto das observações possa ser colocado apenas num só intervalo. Estes intervalos são desig-nados por intervalos de classe.

O número de intervalos de classe deve, em princípio, oscilar entre 5 e 15. A fórmula de Sturges deve guiar-nos na escolha do número K de classes. Esta fórmula diz-nos

que 101 3, 322 logK n= + × sendo n o número total de valores observados.

Outra grandeza a calcular é a amplitude da classe, que designamos por a, e se aconselha ser constante para todas as classes. A amplitude da classe pode ser deter-

minada dividindo a amplitude total da variação pelo número de classes: R

aK

= , onde

a é a amplitude da classe, R é a amplitude total da variação (diferença entre o maior e o menor valor dos dados) e K o número de classes.


EXEMPLO 1.1

Suponhamos conhecida a pressão arterial sistólica de 40 indivíduos apresentada no Quadro 1.1. Agrupar os dados em classes e construir a tabela de distribuição de frequências.

Quadro 1.1. Pressão arterial sistólica de 40 indivíduos

Indivíduo Pressão arterial (mmHg)

Indivíduo Pressão arterial (mmHg)

1 122 21 107

2 119 22 112

3 107 23 123

4 118 24 108

5 111 25 102

6 120 26 107

7 133 27 110

8 129 28 118

9 118 29 115

10 121 30 119

11 124 31 118

12 116 32 113

13 119 33 108

14 119 34 105

15 117 35 112

16 111 36 116

17 116 37 109

18 104 38 116

19 122 39 104

20 111 40 113

Resolução

Para termos uma ideia sobre o número de classes a usar, podemos aplicar a regra de Sturges:

101 3, 322 log 6, 3K n= + × = . Como a amplitude total dos dados é 133 102 31− = , temos,

315,17

6a = = . Podemos optar por 7 classes com uma amplitude de classe de 5, como se apre-

senta no Quadro 1.2.


Quadro 1.2. Distribuição dos indivíduos pelas classes

Número da classe Classe Frequência

1 [100; 105[ 3

2 [105; 110[ 7

3 [110; 115[ 8

4 [115; 120[ 14

5 [120; 125[ 6

6 [125; 130[ 1

7 [130; 135[ 1

Total 40

F I M D E E X E M P L O

Frequência relativa. Por vezes, é útil conhecer, não o número de valores que per-

tencem a cada classe, mas sim a sua proporção. Para tal, dividimos o número de valo-res de cada classe (chamado frequência absoluta) pelo número total de valores. Assim,

para a primeira classe teríamos 3 40 ou seja 0,075 (ou em percentagem 7,5%). Este

valor é designado frequência relativa.

Podemos agora construir a tabela, apresentada no Quadro 1.3, com as frequências absolutas acumuladas, frequências relativas e frequências relativas acumuladas, res-peitantes ao Exemplo 1.1.

Histograma. No caso de variáveis contínuas, as distribuições de frequências são

representadas através de histogramas, que são gráficos constituídos por retângulos adjacentes, cujas bases e áreas representam, respetivamente as amplitudes e as fre-quências das classes.

O centro das classes ou ponto médio da classe determina-se calculando a média

aritmética dos limites das classes, ou seja limite inferior limite superior

2C

+= . Para

a primeira classe teríamos, portanto, 1100 105

102, 52

C+= = .


Quadro 1.3. Frequências referentes ao Exemplo 1.1

Número da classe

Classe Frequências

absolutas

Frequências absolutas

acumuladas

Frequências relativas

Frequências relativas

acumuladas

1 [100; 105[ 3 3 0,075 0,075

2 [105; 110[ 7 10 0,175 0,250

3 [110; 115[ 8 18 0,200 0,450

4 [115; 120[ 14 32 0,350 0,800

5 [120; 125[ 6 38 0,150 0,950

6 [125; 130[ 1 39 0,025 0,975

7 [130; 135[ 1 40 0,025 1,000

Total 40 1,000

Na Figura 1.1 indicamos o histograma relativo aos dados do Exemplo 1.1.

Figura 1.1. Histograma relativo aos dados do Exemplo 1.1

Histograma

Freq

uênc

ia

Classes de pressão arterial sistólica (mmHg)

1 2 3 4 5 6 7

12,5

10,0

7,5

5,0

2,5

0,0


Polígono de Frequências. A distribuição de frequências pode ser representada graficamente dum outro modo, pelo polígono de frequências. Para a sua construção devem criar-se duas classes adicionais com a mesma amplitude e de frequência nula, uma em cada extremo do histograma. O polígono de frequências obtém-se unindo os pontos médios dos topos dos retângulos através de segmentos de reta. Na Figura 1.2 apresenta-se o polígono de frequências relativo aos dados do Exemplo 1.1. A área total sob o polígono de frequências é igual à área total correspondente ao histograma.

Figura 1.2. Polígono de frequências relativo aos dados do Exemplo 1.1

Polígono de frequências

Freq

uênc

ia

Classes de pressão arterial sistólica (mmHg)

15

10

5

095 100 105 110 115 120 125 130 135 140

Diagrama de caule e folhas. É também frequente utilizar-se o diagrama de «caule e folhas» composto por duas colunas designadas por «caule» e «folhas». Normalmente, no caule representam-se os algarismos das unidades de cada observação e, à frente de cada valor, inscrevem-se nas folhas os algarismos representativos da primeira casa decimal de cada observação.

Para os dados do Exemplo 1.1, optámos por tomar para a unidade do caule o número 10 e para a unidade das folhas o número 1. Assim, o 10 que se lê na primeira linha do caule significa 100, o 11 que se lê na segunda linha significa 110, etc.

Uma vantagem do diagrama de «caule e folhas» sobre o histograma consiste no facto de ele preservar a informação contida nas medidas individuais.

Na Figura 1.3 indicamos o diagrama de «caule e folhas» relativo aos dados do Exemplo 1.1.


Figura 1.3. Diagrama de «caule e folhas» relativo aos dados do Exemplo 1.1

Caule Folhas

10

11

12

13

2 4 4 5 7 7 7 8 8 9

0 1 1 1 2 2 3 3 5 6 6 6 6 7 8 8 8 8 9 9 9 9

0 1 2 2 3 4 9

3

Unidade do caule: 10

Unidade da folha: 1

1.6. Estatística descritiva

1.6.1. Medidas de localização

1.6.1.1. Medidas de Tendência Central

A distribuição de frequências e a sua representação gráfica são, sem dúvida, uma importante etapa na análise de dados. Contudo, situações há em que se requerem outros tipos de sumarização dos dados, por meio de medidas descritivas. Estas medi-das podem ser calculadas a partir dos dados de uma amostra ou de uma população.

Quando a medida descritiva é calculada a partir da amostra chama-se estatística.

Se é calculada a partir dos dados de uma população designa-se parâmetro. As medi-das de localização podem ser medidas de tendência central ou medidas de tendência não central. Vamos estudar as três medidas de tendência central: média, mediana e moda.

Média aritmética ou simplesmente média, representada por X , para a amostra, e

igual a 1

n

ii

X

Xn

==

ou, sendo para a população, representada por 1

N

ii

X

N=μ =

.

O símbolo 1

n

i = indica a soma de todos os valores desde primeiro (1) até ao último

(n), e designa-se por somatório.


Média harmónica. É o inverso da média aritmética dos inversos dos valores das

observações e é igual a

1

1h n

ii

nX

X=

=

.

Média aparada. É uma média aritmética que é calculada após a eliminação de uma certa percentagem de valores extremos inferiores e superiores. A média aparada a 5% é calculada eliminando 2,5% das observações em cada extremidade da distribuição. É vantajoso utilizá-la quando a distribuição da variável contém valores extremos aberran-tes.

Mediana. Representa-se por Me e é o centro de posição da distribuição. Corres-ponde ao valor abaixo e acima do qual se registaram metade das observações. Após a ordenação das observações por ordem crescente a mediana calcula-se do seguinte modo:

12

12 2

se é impar

se é par2

n

n n

X n

Me X X

n

+

+

= +

Considerando os valores ordenados: 0; 2; 8; 14; 30. Como n = 5 é impar, vem que

5 1 32

Me X X+= = , significando que o valor central é o terceiro e a mediana é 8.

Quando o conjunto tiver um número par de dados, a mediana é a média dos dois valores centrais. É o caso da série de 4 valores: 1; 4; 8; 100, onde a mediana está na

posição

4 41

2 2

2

X X+

+

, ou seja, na posição intermédia entre o 2º e o 3º valores. Cal-

cula-se a média entre estes dois valores e a mediana da série é, portanto, 4 8

62+ = .

Repare-se que a mediana pode ser um valor observado ou não, como neste caso.

Moda. Representa-se por Mo, é o valor que ocorre com mais frequência. Se todos os valores são diferentes não existe moda. Por outro lado, pode também existir mais do que uma moda.

1.6.1.2. Medidas de Tendência Não Central

Quantis. Chamam-se quantis de ordem K aos K – 1 valores que dividem o conjunto

das observações ordenadas em K partes. Se 4K = , tomam o nome de quartis. Se 10K = , temos os decis e se 100K = designam-se percentis, pois dividem o conjunto

de observações em 100 partes iguais. Para variáveis de escala de razão ou intervalar,

define-se o percentil de ordem p, pP , como:


[ ]

1

1

se é inteiro2 100

se não é inteiro100

K K

p

K

npX XK

Pnp

X K

+

+

+ == =

,

onde p representa a ordem do percentil e [ ]1K + representa a parte inteira de 1K + .

Para variáveis ordinais,

[ ]1

se é inteiro100

se não é inteiro100

K

p

K

npX K

Pnp

X K+

== =

.

Note-se que a mediana é também um quantil de ordem 2.

EXEMPLO 1.2

Suponhamos a seguinte distribuição de frequências das idades (anos) de 90 indivíduos apresenta-

das no Quadro 1.4. Calcule 25P e 70P .

Quadro 1.4. Idades (anos) numa amostra de 90 indivíduos do sexo masculino

Idade Frequência

14 17

15 13

19 20

20 22

30 18

Resolução

Para

25P , 90 25

22, 5100 100np

K×= = = .

Como K não é inteiro, o [ ] [ ]25 231 23,5 15KP X X X+= = = = .

Para 70P ,

90 7063

100 100np

K×= = = .

Como K é inteiro, o 63 6470

22 2222

2 2X X

P+ += = = .



Cálculo de quantis para dados contínuos. Se a variável é contínua, estando os

dados agrupados em classes de frequência, podemos determinar o quantil i, iQ , pela

expressão, 1 i ii ci ci

i

n cum FQ l a

F−−= + , onde cil é o limite inferior da classe que

contém o quantil correspondente, in é o número de observações, 1 icum F − são as fre-

quências acumuladas até à classe anterior à do quantil, iF é a frequência da classe do

quantil e cia é a amplitude desta classe.

EXEMPLO 1.3

Calcular o 4º decil e o 70º percentil da seguinte distribuição das 40 observações apresentadas no Quadro 1.5.

Quadro 1.5. Distribuição de frequências de 40 observações

Classe iF 1 icum F −

[5; 10[ 8 8

[10; 15[ 12 20

[15; 20[ 17 37

[20; 25[ 3 40

Resolução

O 4º decil deve corresponder àquele que acumula 4

40 1610

× = observações. A classe que contém o

4º decil é [ [10;15 . Assim o 4º decil é calculado por 416 8

Decil 10 5 13, 3312

− = + × = .

O cálculo do 70º percentil faz-se de modo idêntico. Ele acumula 70

40 28100

× = observações. Ora a

acumulação das 28 observações cai na classe [ [15; 20 , portanto, 70

28 20Percentil 15 5

17− = + × =

17, 35= .


1.6.2. Medidas de dispersão

As medidas de localização não são suficientes, por si só, para bem caracterizar a distribuição de frequências de uma variável, devendo ser complementadas por medidas que deem uma indicação da dispersão dos valores da variável.


Amplitude. Também chamada de intervalo de variação, R, é dada pela diferença entre os valores extremos, isto é, R = Xmáximo – Xmínimo.

Amplitude interquartílica. Uma desvantagem da amplitude, R, é o facto de ser cal-culada apenas com dois valores, o menor e o maior valor observado. Ora a amplitude interquartílica não tendo esta desvantagem reflete a variabilidade das 50% observações centrais e define-se como sendo a diferença entre o terceiro e o primeiro quartil,

3 1AIQ Q Q= − .

Dispondo do conjunto de observações { }9;10;11;18;19; 23; 30 vê-se que 1 10Q = e

3 23Q = , então, 3 1 23 10 13AIQ Q Q= − = − = .

Variância. Representada por 2S , é a soma dos quadrados das diferenças entre os valores observados e a sua média divididos pela dimensão da amostra, ou seja,

( )2

2 1

n

ii

X X

Sn

=−

=

. Esta fórmula só é válida para amostras grandes. Assim, a

variância é usualmente calculada pela expressão,

( )2

2 1

1

n

ii

X X

Sn

=−

′ =−

, designando-

-se por variância corrigida. A (n – 1) chamamos número de graus de liberdade. Se a variância é calculada para uma população finita de N elementos, então é designada por

2σ e o seu valor é dado por,

( )2

2 1

1

N

ii

X

N=

− μσ =

−

.

Desvio padrão. A variância tem o inconveniente de ser expressa no quadrado das unidades respetivas. O desvio padrão, S, pelo contrário, exprime-se na mesma unidade de medida das observações e é dado pela raiz quadrada positiva da variância.

O desvio padrão de uma população finita, σ , é obtido extraindo a raiz quadrada à expressão que fornece

2σ .

Coeficiente de variação. O desvio padrão é uma medida de variação muito útil quando nos limitamos a observar um determinado conjunto de dados. Porém, quando desejamos comparar a dispersão em dois conjuntos de dados, deve-se expressar o desvio padrão em valor relativo à média das observações, numa forma adimensional e

geralmente expresso em percentagem, por, 100S

CVX

= × .

Atualmente a estatística é uma ferramenta indispensável para os profissionais na área dasciências da saúde. Conhecer, interpretar e aplicar a teoria e as técnicas estatísticas é funda-mental para uma boa investigação, estudo e práticas esclarecidas.

Este livro, com evidente cuidado pedagógico, e recorrendo permanentemente a exemplospráticos, apresenta em 21 capítulos e vários anexos todo o instrumental teórico e prático paradotar o leitor de tudo o que necessita para enfrentar os obstáculos que poderá encontrar no seuestudo ou profissão.

Nos primeiros capítulos apresenta os conceitos básicos da Estatística e o ambiente e utili-zação do software SPSS. Depois aborda a noção de probabilidade, as distribuições amostrais eos vários tipos de amostragem. Seguidamente trata da comparação de dados categóricos edados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui--quadrado, o teste -Student (também para variáveis emparelhadas) e o teste da análise devariância (ANOVA). Discute o modelo de regressão e a correlação e os diferentes testes nãoparamétricos. Nos capítulos seguintes apresenta as medidas de força da associação ou efeito,através dos , risco relativo e da diferença de risco. Nos capítulos finais apresenta aparte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivên-cia, regressão de Cox e regressão de Poisson e aborda a meta-análise, principalmente no quediz respeito à sua representação gráfica ( ).

Este livro destina-se pois a todos os estudantes e profissionais que, na sua atividade profis-sional ou nos seus estudos necessitem de aprender ou consolidar os conceitos teóricos estatís-ticos e a sua respetiva transposição para a prática.

t F

odds ratio

forest plot

O presente trabalho escrito com a clareza, que só quem viveu explicando consegueimprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver nainvestigação biomédica, mas também para quem necessita de compreender a linguagemda maioria dos trabalhos publicados. (...) O recurso aos exemplos reais é sem sombra dedúvida, mais um dos argumentos que pode justificar a recomendação deste livro aosprofissionais de saúde.

A publicação desta obra teve o apoio:

Prof. Alexandre Castro CaldasProfessor Catedrático

Diretor do Instituto de Ciências da Saúde – Universidade Católica Portuguesa

FRANCISCO MERCÊS DE MELLO • RITA CABRAL GUIMARÃESFrancisco Mercês de Mello

Curso de Engenheiro Agrónomoem 1961 (UTL). Bacharelato emMatemática Aplicada em 1974(ULM). Doutoramento emEngenharia Agrícola em 1987(U. Évora). Professor associado(aposentado) da Universidadede Évora.

Rita Cabral Guimarães

Licenciatura em EngenhariaAgrícola em 1993 (U. Évora).Mestrado em Engenharia do Soloe da Água em 1997 (U. Évora).Doutoramento em Engenharia dosRecursos Hídricos em 2005 (U. Évora).Licenciatura em Engenharia Civilem 2013 (U. Évora). Professora auxiliarna Universidade de Évora.

Métodos Estatísticospara o Ensino e a Investigação nas

Ciências da Saúde

– 1.00 0.00 1.00 2.00 3.00

FavortratamentoFavortratamento

Favorplacebo

Favorplacebo

Com exemplos extraídos de revistase publicações médicas

Apresentação e utilização do SPSS

Méto

do

s Estatístico

sp

ara o E

nsin

o e a Investig

ação n

as

Ciên

cias da S

aúd

eMERCÊS

DE MELLO•

RITAGUIMARÃES

EDIÇÕES SÍLABO

Prefácio

Prof. Alexandre Castro Caldas

ISBN 978-972-618-805-6

9 188056789726

506

Documents

Ciências da Saúde - silabo.pt · Ciências da Saúde MERCÊS DE MELLO ... Capítulo 11 Testes t-Student 11.1. Teste t-Student para uma amostra 177 11.2. Teste t-Student para comparação