Fundamentos da bioestatística

Preview:

Citation preview

Fundamentos da Bioestatística

Prof. Dr. Juliano van Melis

Objetivos• Aprender que a estatística ajuda a responder as

suas perguntas;• Entender o que são parâmetros a serem

utilizados nos testes estatísticos;• Ser apresentado às distribuições de

probabilidade e suas inferências;• Conhecer as 3 formas de trabalhos estatísticos:

– Exploração– Teste de Hipóteses– Predição

Experimentação científica

http:

//w

ww

.spa

ceel

evat

orbl

og.c

om/m

edia

/Gal

ileos

Balls

.jpg

Ciência no Séc. XVI

↓ Ciência a partir do Séc. XX

Amostragem?Repetições?Modelo nulo?Significância?

Conceitos básicosEstatística- Em Deus nós confiamos. Para o todo resto são necessários

dados. W. E. Deming

- Todos os modelos são errados, mas alguns são úteis. George Box

- Existem três tipos de mentiras: as boas mentiras, as más mentiras e as estatísticas. Benjamin Disraeli

- Estatísticas são como bikinis. O que eles relevam é sugestivo, mas o que eles escondem é vital. Aaron Levenstein

- Estatística é usada da mesma maneira que um poste por um bêbado: para suporte, não como iluminação. Vin Scully

https://virtualschooling.files.wordpress.com/2010/02/statistics-education-research-day1.jpg

Objetivos da Estatística

TESTE DE HIPÓTESESEXPLORAÇÃO

PREDIÇÃO

PROBABILID

ADE

S

PAR

ÂM

ETRO

S

Distribuições de ProbabilidadesUm aspecto constante no estudo da Natureza é a inconstância das formas existentes.

(John Smith)

Distribuições de Probabilidades

•A representação da variabilidade e diversidade é um aspecto fundamental nas ciências da vida

x

8 10 12 14 16 18 20

0.00

0.05

0.10

0.15

0.20

8 10 12 14 16 18 20

x s

78 %

x

-2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

0.5

-2 -1 0 1 2 3

x s

66 %

x

0 2 4 6 8 10 12 14

0.00

0.05

0.10

0.15

0.20

0 2 4 6 8 10 12 14

x s

78 %

Imagens:Bioestadística. U. Málaga.

Distribuições de Probabilidadeshttps://ecomaths.files.wordpress.com/2011/12/pcture2.png

Distribuições de Probabilidades mais utilizadas

Variáveis discretas (contagens/finito)•Poisson (λ)•Binomial (p, n)Variáveis contínuas (infinito)•Normal (μ,σ)Distribuições dependentes de graus de liberdade•t de Student•Qui-quadrado

ProbabilidadesTransformações

Poisson

ProbabilidadesTransformações

Poisson

ProbabilidadesTransformaçõesQui-Quadrado

ProbabilidadesTransformações

Parâmetros

• Média/Esperança• Desvio padrão e Variância

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

dens

idad

-3 -2 -1 0 1 2 3

xs

66 %

x 2s

95 %

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

dens

idad

-3 -2 -1 0 1 2 3

xs71 %

x2s94 %

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

dens

idad

-3 -2 -1 0 1 2 3

xs68 %

x 2s94 %

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

dens

idad

-3 -2 -1 0 1 2 3

xs

70 %

x2s

94 %

Bioestadística. U. Málaga.

Bioestadística. U. Málaga.

Aplanada

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

0.0 0.2 0.4 0.6 0.8 1.0

xs

57 % Apuntada como la normal

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

-3 -2 -1 0 1 2 3

xs

68 %

Apuntada

-2 -1 0 1 2

0.0

0.2

0.4

0.6

0.8

-2 -1 0 1 2

xs

82 %

Conceitos básicos

POPULAÇÃO: conjunto absoluto do seu objeto de estudo, que apresenta ao menos uma característica em comum. Dela se obterá um PARÂMETRO.

PARÂMETRO:Quantidade numérica que caracteriza uma população.

PARÂMETRO ESTATÍSTICO:É referente à AMOSTRA

Conceitos básicos

AMOSTRA:Subconjunto de sua população.

Obs: ArredondamentoA última casa refere-se a um valor não “certo”

Testes

ParamétricosUtilizam parâmetros das distribuições de probabilidade. Por exemplo: Distribuição normal (μ,σ)

Não-ParamétricosNão utilizam parâmetros, então são testes que não precisam seguir a normalidade dos dados.

ORGANIZAÇÃO

CONCLUSÕES

Como são os seus dados?

Qualitativos?•Ordinais•Nominais

Quantitativos?•Discretas•Contínuas

QUAL É O SEU OBJETIVO?

Conceitos básicosMétodo Científico

DEFINIÇÃO DO TEMA - OBJETIVO

PLANEJAMENTO DA PESQUISA

EXECUÇÃO DA PESQUISA – Coleta dos dados

ANÁLISE e INTERPRETAÇÃO DOS DADOS

CONCLUSÃO

RESULTADOSApresentação dos dados e

testes

Métodos de Amostragem

Estatística Descritiva e

Analítica

Background teórico

Exploração de dados

• Construção de tabelas– Dados Brutos– Parâmetros

• Construção de gráficos– Observação– Explicação

TABELASAspectos básicos

- Toda tabela deve ser simples, clara e objetiva ;

- Toda tabela deve ser autoexplicativa;

- Nenhuma célula deve ficar em branco;

- Deve ser mantida a uniformidade de casas decimais.

• Qualquer tipo de variável (qualitativa/quantitativa)

• Conceitos: Linhas e Colunas• Fundamental para se criar os gráficos

TABELASAspectos básicos

Tabulação dos dadosOrganização dos dados

OpenOfficeMS OfficeGoogle Sheets

Exemplo

Tabela Dinâmica

Tabela Dinâmica

Tabela Dinâmica

Tabela Dinâmica

Tabela Dinâmica

Tabela Dinâmica

Tabela Dinâmica

Medidas de Tendência Central - Resumo

• Média: Valores razoavelmente homogêneos

• Mediana: Valores heterogêneos

• Moda: Quando ocorrem muitas repetições

Análise e Interpretação dos dados

Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10

VariânciaB = (3-6,5)+(9-6,5)+(4-6,5)+(10-6,5) = 0

Medidas de Dispersão

VariânciaA = (6-6,5)+(7-6,5)+(6-6,5)+(7-6,5) = 0

Análise e Interpretação dos dados

Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10

VariânciaB = (3-6,5)²+(9-6,5)²+(4-6,5)²+(10-6,5)²

Medidas de Dispersão

VariânciaA = (6-6,5)²+(7-6,5)²+(6-6,5)²+(7-6,5)²

Análise e Interpretação dos dados

Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10

VariânciaB = 37

Medidas de Dispersão

VariânciaA = 1

Análise e Interpretação dos dados

Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10

VariânciaB = 37

Medidas de Dispersão

VariânciaA = 1 /4

/4

Análise e Interpretação dos dados

Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10

Análise e Interpretação dos dados

Medidas de Dispersão

Análise e Interpretação dos dados

Medidas de Dispersão

Variância (S² ou σ2) e Desvio Padrão (S ou σ)

Populacional:

Amostral:

σ2

Regras– Estética

• Eixos semelhantes.– Ordem

• Abscissas (Horizontal): valores aumentam da esquerda pra direita

• Ordenadas (Vertical): valores aumentam de baixo para cima

– Informação• Nomes dos eixos e variáveis (com escala)

– Autoria• Fonte dos dados

Gráficos

Representações Gráficas – Sugestões

O que você gostaria mostrar?Composição

Representações Gráficas – Sugestões

O que você gostaria mostrar?Comparação

Comparações múltiplas no R, entre as variáveis x, y e z

> plot(data.frame(x,y,z))

Representações Gráficas – Sugestões

O que você gostaria mostrar?Distribuição

Fonte: Rodrigo A.S. Pereira (USP-Ribeirão Preto)

Fonte: Rodrigo A.S. Pereira (USP-Ribeirão Preto)

> qqnorm(x)Meus dados são normais?

Teste de Hipóteses

• Baseada no método hipotético-dedutivo• “Hipóteses falseáveis”• Erro tipo-I e tipo-II

Teste de Hipóteses

Hipótese: afirmação ou asserção sobre uma propriedade da população.

Teste de Hipóteses (ou teste de significância): testar uma afirmação sobre uma propriedade da população

Teste de Hipóteses

“Todos os cisnes são brancos”

Método hipotético-dedutivo

Evidência de presença contrária HIPÓTESE FALSEADA

Teste de HipótesesMétodo hipotético-dedutivo

• Hipótese Nula (H0): valor do parâmetro que se assume como verdadeiro para a população.

Tem que ser uma afirmação escrita na forma de uma igualdade (=)

Conclusão: Rejeita-se ou não H0

Teste de Hipóteses

“É penalty para o SCCP”

Herrar é umano

Teste de Hipóteses

H0 é verdadeira

H0 é falsa

Rejeita-se H0

Erro Tipo I(α)

DECISÃO CORRETA

Aceita-se H0

DECISÃO CORRETA

Erro Tipo II(β)

falso negativo

falso positivo

Teste de Hipóteses

Fonte: Alexandre A. Oliveira (IB-USP)

Teste de Hipóteses

Fonte: Alexandre A. Oliveira (IB-USP)

Distribuição t de Student

Curva de densidade de Probabilidade

• Simétrica em relação à média;

• Depende do grau de liberdade, gl;

• Quanto mais gl aumenta, mais a distribuição t tende à Normal padrão.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00

NormalT1glT5glT30gl

SimDist. Normal

(População)Não

“Amostra Grande”

Sim Não

Teste z Teste t

Sim Não

Testes não- paramétricos

conhecido?

COMPARAÇÃO DE DOIS GRUPOS

Teste de Hipóteses

Fonte: Alexandre A. Oliveira (IB-USP)

Amostra é de um Macho ou de uma Fêmea?

??

Fonte: Alexandre A. Oliveira (IB-USP)

H0: Mandíbulas de Chacais machos e fêmeas são iguais (mesmo tamanho)

Região crítica (ou região de rejeição ou zona de rejeição): Conjunto de valores da estatística de teste que nos levam a rejeitar a hipótese nula.

P-value (ou p-value ou valor da probabilidade):Probabilidade de obter um valor da estatística de teste que seja pelo menos tão extremo quanto o representado pelos dados, admitindo que a hipótese nula é verdadeira.

A hipótese nula é rejeitada se o P-value for muito pequeno, digamos 0.05 (5%) ou inferior.

Análise de Variância(ANOVA)

Fonte: Alexandre A. Oliveira (IB-USP)

Análise de Variância(ANOVA)

Fonte: Alexandre A. Oliveira (IB-USP)

Análise de Variância(ANOVA)

Fonte: Alexandre A. Oliveira (IB-USP)

Variação Total

Variação Entre GruposVariação Intra Grupos

Análise de Variância(ANOVA)

Fonte: Alexandre A. Oliveira (IB-USP)

Análise de Variância(ANOVA)

Fonte: Alexandre A. Oliveira (IB-USP)

Análise de Variância(ANOVA)

Fonte: Alexandre A. Oliveira (IB-USP)

Análise de Variância(ANOVA)

Conclusão: Como a probabilidade de erro Tipo I é considerada baixa (2,5%), assumimos que há diferença entre os grupos de solo quanto a variável estudada.

H0 da ANOVA

Não rejeitada(α>0,05)

Rejeitada(α<0,05)

Teste HSD (Tukey)encontrar médias diferentes

entre os grupos

ANOVA e Tukey’s HSD

Exemplo: http://www.scielo.br/img/revistas/aseb/v28n2/2a03f1.jpg

ANOVA e Tukey’s HSD

Análise de Variância(ANOVA)

OBSERVAÇÕES:- Cada observação é independente das demais;

- Cada tratamento tem distribuição normal;

- Todas as distribuições têm a mesma variância; e

- ANOVA com 2 tratamentos (r = 2) é similar a um

teste t bilateral (homocedástico).

Teste t

1) Identificar H0 e H1.2) Decidir o nível de significância, 3) Escolher uma estatística de teste

apropriada.4) Identificar a região de rejeição.5) Efectuar os cálculos para determinar o valor

da estatística de teste.6) Concluir pela rejeição ou não de H0.

Teste de HipótesesEtapas

PrediçãoGráfico de Dispersão

Gráfico de Dispersão

Gráfico de Dispersão

Gráfico de Dispersão

Fonte: João L.F. Batista (ESALQ-USP)

A variável resposta é uma variável normal (Gaussiana) sendo que: Sua média é uma função linear das variáveis preditoras; Seu desvio-padrão é constante; LOGO: resíduos com média zero e variância

y = a.x + b + ε

GLM: pode utilizar outras distribuições de Probabilidade

Predição x ExplicaçãoModelo estatístico ou algoritmo de seleção de dados com o objetivo de predizer novas e futuras observações

•“Aplicada”

Modelo estatístico para testar hipóteses causais•“Básica”

É diferente de Exploração (correlação dos dados)

http://arxiv.org/pdf/1101.0891.pdf

Shmueli, G. 2010.To Explain or to Predict? Statistical Science 25(3): 289-310

Predição http://cantareira.github.io/

Artigo: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0138278

Explicação

Artigo: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0138278

Cantareira sofreu transição catastrófica, diz revista científica

Predição

• Seleção de variáveis• Seleção de Métodos• Avaliação do Modelo

Etapas

Explicação

• Seleção de variáveis• Avaliação do Modelo• Validação dos Modelos• Seleção do Modelo• Uso do Modelo e Relatório

Etapas

CONCLUSÕES

Análise dos dados Muito fácil de usar (e em pt-br):Bioestat

http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/

Restrições:-Análises mais avançadas;-Lembrar quais “botões apertar”

Análise dos dados TODA e QUALQUER ANÁLISE ESTATÍSTICA

(de graça, código aberto)

Rhttps://cran.r-project.org

Análise dos dados Facilidades do R

Use R!http://www.springer.com/series/6991?detailsPage=titles

Análise dos dados Facilidades do R

Novas formas analíticas, ou correções, são feitas na linguagem R

Livros tem tutoriais para aprender a programar E melhor entender as análises

Se não encontrar um livro, procure na internet

Sites interessantes (mas tem muitos outros):http://www.statmethods.net/index.htmlhttp://zoonek2.free.fr/UNIX/48_R/all.htmlhttp://ecologia.ib.usp.br/bie5782/doku.php?id=starthttp://www.estatisticanor.xpg.com.br/

Análise dos dadosPara fácil leitura e escrita:

R Studiowww.rstudio.com

Objetivos foram cumpridos?

• Consegue diferenciar entre testes paramétricos e não-paramétricos?

• Entendeu o que é o p-valor e o que significa 5%?• Entendeu que não há fórmulas prontas para

construção de gráficos, mas existem as melhores sugestões?

Cursos disponíveis na internethttps://www.coursera.org/course/introstatshttps://www.coursera.org/course/exdata

http://cmq.esalq.usp.br/BIE5781/doku.php?id=00-modelagem:00-modelagem

http://cmq.esalq.usp.br/wiki/doku.php?id=publico:tutoriais:r-relampago:start