40
1 UNIVERSIDADE DE SÃO PAULO FACULDADE DE SAÚDE PÚBLICA DEPARTAMENTO DE EPIDEMIOLOGIA HEP 5800 - BIOESTATÍSTICA REGINA T. I. BERNAL NILZA NUNES DA SILVA MARÇO/2012

HEP 5800 - BIOESTATÍSTICA

Embed Size (px)

Citation preview

Page 1: HEP 5800 - BIOESTATÍSTICA

1

UNIVERSIDADE DE SÃO PAULO

FACULDADE DE SAÚDE PÚBLICA

DEPARTAMENTO DE EPIDEMIOLOGIA

HEP 5800 - BIOESTATÍSTICA

REGINA T. I. BERNAL

NILZA NUNES DA SILVA

MARÇO/2012

Page 2: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

2

1. NOTAS HISTÓRICAS ........................................................................................................................................ 3

2. DEFINIÇÃO ......................................................................................................................................................... 5

3. ANÁLISE EXPLORATÓRIA DE DADOS ....................................................................................................... 7

4. LEVANTAMENTO DE DADOS ........................................................................................................................ 7

4.1. DEFINIÇÃO ........................................................................................................................................................... 7 4.2. FONTE DE DADOS E TEMPO ................................................................................................................................ 12

5. APRESENTAÇÃO TABULAR DE DADOS ................................................................................................... 13

5.1. TABELA DE FREQUÊNCIA ............................................................................................................................... 13 5.2. APRESENTAÇÃO ................................................................................................................................................. 15

EXERCÍCIOS ....................................................................................................................................................... 16

6. APRESENTAÇÃO GRÁFICA DE DADOS .................................................................................................... 17

6.1. VARIÁVEIS QUALITATIVAS OU QUANTITATIVA DISCRETA .................................................................................... 18 Diagrama de Superfícies em Colunas ou Barras ......................................................................................... 18 Diagramas por Superfícies em Colunas Superpostas ou Porcentagens Complementares........................... 18 Diagramas por Superfícies em Setores ........................................................................................................ 18 Diagrama por Pontos ................................................................................................................................... 18

6.2. VARIÁVEIS QUANTITATIVAS CONTÍNUAS ............................................................................................................ 19 Diagramas por Superfícies em Histogramas ............................................................................................... 19

6.3. VARIÁVEIS QUALITATIVAS ORDINAIS OU QUANTITATIVA DISCRETA .................................................................... 24 6.3. SÉRIES TEMPORAIS ............................................................................................................................................. 25 6.4. ESCALAS ARITMÉTICAS E LOGARÍTMICAS ........................................................................................................... 26 6.5 BOX PLOT ........................................................................................................................................................... 27

EXERCÍCIOS ....................................................................................................................................................... 28

7. MEDIDAS RESUMO ........................................................................................................................................ 29

7.1. MEDIDAS DE TENDÊNCIA CENTRAL ................................................................................................................... 29 Definição .............................................................................................................................................................. 29 Finalidade ............................................................................................................................................................ 29 Média aritmética .................................................................................................................................................. 29 Média Geométrica ................................................................................................................................................ 31 Média Harmônica ................................................................................................................................................ 31 Mediana ............................................................................................................................................................... 32 Quartis ................................................................................................................................................................. 33 Percentis .............................................................................................................................................................. 34 Moda .................................................................................................................................................................... 34

7.2. MEDIDAS DE DISPERSÃO .................................................................................................................................... 36 X-MEDIA ............................................................................................................................................................. 36 Interquartil ........................................................................................................................................................... 37

8. REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................................................... 40

Page 3: HEP 5800 - BIOESTATÍSTICA

3

1. NOTAS HISTÓRICAS

As primeiras aplicações da estatística estava voltadas para as necessidades de Estado, na

formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração

pública. A abrangência da estatística aumentou no começo do século XIX para incluir a

acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas

ciências naturais, e sociais, inclusive na administração pública e privada. Seus fundamentos

matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades

por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos

quadrados foi descrito pela primeira vez por Carl Friedrich Gauss cerca de 1794. O uso de

computadores modernos tem permitido a computação de dados estatísticos em larga escala e

também tornaram possível novos métodos antes impraticáveis.1

A primeira tentativa para se tirar conclusões a partir de dados numéricos foi feita somente

no século 17, na Inglaterra, com o que foi denominado Aritmética Política de William Petty, que

evoluiu para o que se chama hoje de demografia. A análise de Graunt foi baseada sobre razões e

proporções de fatos vitais, nos quais ele observou uma regularidade estatística num grande

número de dados. Os dados usados por ele compreendiam uma serie anual de 1604 a 1660,

coletados nas paróquias de Londres, de onde ele tirou as seguintes conclusões: que havia maior

nascimento de crianças do sexo masculino, mas havia distribuição aproximadamente igual de

ambos os sexos na população geral; alta mortalidade nos primeiros anos de vida; maior

mortalidade nas zonas urbanas em relação às zonas rurais.2

No passado, tratar uma quantidade grande de dados era uma tarefa custosa e cansativa,

que exigia horas de trabalho tedioso. O computador contribui, positivamente, na difusão e uso

dos métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar

um Indivíduo sem preparo específico a utilizar técnicas inadequadas para resolver um dado

problema. 3

A Estatística é área da ciência que trata da organização, descrição, análise e interpretação

dos dados resultantes da observação de fenômenos coletivos. Para cada tipo de variável existe

uma técnica adequada para análise dos dados. Devido à facilidade computacional na execução das

análises estatísticas, o pesquisador deve ter bom senso no uso das ferramentas estatísticas e nas

interpretações dos resultados. Em grandes ou pequenas amostras podem ocorrer resultados

estatísticos espúrios devido ao tamanho da amostra.

O importante é entender a Estatística como um meio; um instrumento e não um fim.

1 História da Estatística. Disponível <http://pt.wikipedia.org/wiki/Hist%C3%B3ria_da_estat%C3%ADstica>

2 Memória, J.M.Breve História da Estatística.

3 Magalhães, M.N. Noções de Probabilidade e Estatística. Sexta edição. Edusp, 2008

Page 4: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

4

Recursos computacionais

Atualmente existem vários programas voltados para o processamento e análises

estatísticas, entre os mais usados comercialmente são: SPSS e SAS. Os pacotes estatísticos

utilizam algoritmos para analise de dados provenientes de amostras aleatórias simples. Com o

avanço tecnológico os pacotes SAS, SPSS e STATA têm o módulo específico para análise de

dados provenientes de planos complexos de amostragem. As técnicas estatísticas implantadas

consideram as variáveis de planejamento da amostra.

O Departamento de Epidemiologia da FSP adotou o programa STATA como ferramenta

de processamento e análises estatísticas. O STATA 10.0 está disponível nos computadores do

Laboratório de Informática da Epidemiologia (LIE). Esse programa será usado como ferramenta

de processamento e análises estatística no curso de Bioestatística.

Page 5: HEP 5800 - BIOESTATÍSTICA

5

2. DEFINIÇÃO

PROPRIEDADES

- VARIAÇÕES ALEATÓRIAS

NATURAIS E NÃO EXPLICADAS

-VARIAÇÕES ENTRE INDIVÍDUOS

-VARIAÇÕES ENTRE OBSERVAÇÕES

EM UM MESMO INDIVÍDUO.

ORGANIZAÇÃO, DESCRIÇÃO, APRESENTAÇÃO

ANÁLISE E INTERPRETAÇÃO DE DADOS RESULTANTES DA

OBSERVAÇÃO DE FENÔMENOS COLETIVOS.

É A CIÊNCIA QUE TRATA DADOS NÚMERICOS

PROVENIENTES DE MENSURAÇAO EM

GRUPOS DE INDIVÍDUOS.

Page 6: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

6

Ramos da Estatística

“Estatística aplicada às ciências da vida”

epidemiologi

a

Biometria

Veterinária

Econometria

Demografia

Administração

ORGANIZAR

DESCREVER

APRESENTAR

ESTATÍSTICA

DESCRITIVA

ANÁLISE

INTERPRETAÇÃO

INFERÊNCIA ESTÁTISTICA

AMOSTRAGEM

EXPERIMENTOS

MODELAGEM

DISTRIBUIÇÕES

TABELAS

GRÁFICOS

MEDIDAS

probabilidade

Page 7: HEP 5800 - BIOESTATÍSTICA

7

3. ANÁLISE EXPLORATÓRIA DE DADOS

A estatística descritiva tem como objetivos: organizar, descrever, apresentar, analisar e

interpretar o conjunto de dados resultantes da observação de fenômenos coletivos.

4. LEVANTAMENTO DE DADOS

4.1. Definição

“ É a operação de coleta para descrição e/ou análise das características de

uma população.”

Usaremos como exemplo a pesquisa que descreve a experiência de acesso da população

de baixa renda do município de São Paulo a medicamentos, em 2005. A população de estudo é

composta por adultos com 40 anos ou mais de idade, residente no município de São Paulo, cuja

renda seja inferior ou igual a R$700,00. Essa pesquisa explora a contribuição do genérico como

estratégia facilitadora dessa experiência. Um dos principais objetivos é responder se a população

de estudo conhece e usa os medicamentos genéricos no mercado brasileiro.

Para cada elemento pesquisado existe um conjunto de características levantadas. Na

estatística essas características são chamadas de variáveis. Considerando a natureza numérica

dos possíveis resultados observados ou as ocorrências possíveis para as variáveis, citadas no

quadro 1, podemos agrupá-las em duas grandes categorias: Variáveis qualitativas e

quantitativas (Figura 1).

Os resultados quantitativos, obtidos por operação de contagem e estão inseridos no

conjunto dos números inteiros (0, 1, 2,...) correspondem às Variáveis Quantitativas Discretas.

Enquanto, os obtidos por uso de instrumentos de mensuração, projetados no conjunto dos

números reais, definem as Variáveis Quantitativas Contínuas.

Também os resultados resultantes de classificação denominados de qualitativos são

subdivididos em dois grupos: Variáveis Qualitativas Nominais cujos resultados de observação

são expressos por termos da linguagem natural; e as Variáveis Qualitativas Ordinais que usam

algum critério de ordenação para expressar os resultados.

Em geral, os possíveis resultados observados nas variáveis qualitativas são representados

por números, o que não altera sua natureza qualitativa.

Figura 1 – Classificação das variáveis quanto a natureza numérica

Tipos de Variáveis

Resultantes de

Classificação

Resultantes de contagem ou

mensuração

Qualitativas

Nominal Ordinal

Quantitativas

Contínua Discreta

Ex: Sexo

Estado civil

Classe social

Faixa etária

Renda

Idade

N de filhos

N de medicamentos

Page 8: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

8

Quadro 1 – Dicionário de variáveis da pesquisa

Variável Descrição Tipo Descrição

nm número sequencial

0 Não Favela

1 Favela

peso Peso da amostra

upa Unidade primária de amostragem

1 Masculino

2 Feminino

idade Qual a sua idade?(anos) 40 a 95

0 Sem escolaridade

1 Primeiro grau

2 Segundo grau

3 Terceiro grau

1 aposentado/pensionista

2 desempregado

3 dona de casa

4 trabalho com registro em carteira

5 trabalho sem registro em carteira

6 servidor público

1 Não

2 Sim

rendaQuanto o (a) Sr (a) ganhou no mês

passado? (salário bruto)0 a 7000

1 Não

2 Sim

1 Não

2 Sim

1 rádio

2 televisão

3 jornal/revista

4 outros

12 rádio/televisão

14 rádio/outros

23 televisão/jornal/revista

24 televisão/outros

34 jornal/revista/outros

123 rádio/televisão/jornal/revista

124 rádio/televisão/outros

234 televisão/jornal/revista/outros

1234rádio/televisão/jornal/revista/outros

1 igual

2 menor

3 maior

9 NR/NS

1 Não (especificar)

2 Sim (especificar)

9 NR/NS

1 Não (especificar)

2 Sim

9 NR/NS

1 Não

2 Sim

9 NR/NS

0

1

2

9

Questão Categoria

sexo Sexo

escolaridade (B1c)Até que ano da escola o (a) se. (a)

completou?

ativeconomica (B1d) Atividade econômica

trabalha O (a) Sr. (a) trabalha?

b2bO (a) Sr. (a) tem matrícula em algum

posto de saúde?

b3g Qual desse remédios é genérico?

Estratodominio

b3dO (a) Sr (a) confia no remédio

genérico?

b3eO (a) Sr (a) já comprou um remédio

genérico?

b3f

O (a) Sr (a) já recebeu algum

genérico em posto de saúde ou

hospital que atende pelo SUS?

b3aO (a) Sr. (a) já ouviu falar em

remédio genérico?

b3bComo o (a) Sr (a) ficou conhecendo o

remédio genérico?

b3c

O remédio genérico em relação ao

de marca mais conhecida, tem

preço:

Page 9: HEP 5800 - BIOESTATÍSTICA

9

Pensando ...

Classifique as variáveis levantadas na pesquisa de medicamentos quanto a sua natureza numérica:

Variável

Natureza numérica

nm

dominio

peso

upa

sexo

idade

escolaridade (B1c)

ativeconomica (B1d)

trabalha

renda

b2b

b3a

b3b

b3c

b3d

b3e

b3g

Page 10: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

10

Transformando variáveis

O recurso muito utilizado na estatística é transformar variáveis quantitativas em

qualitativas. Quando a variável quantitativa é transformada em 0 ou 1, essa nova variável é

resultante de uma classificação e conhecida como variável dicotômica, onde o valor 1 representa

o sucesso e 0 o fracasso. Para fazer essa passagem de quantitativa para qualitativa é necessário

definir um critério de classificação ou definir o número de intervalos para a nova variável. Para

exemplificar usaremos a variável anos de estudo que é de natureza quantitativa contínua.

Adotando o critério de classificação de 0, 1 a 8 anos, 9 a 11 anos e 12 anos ou mais, construímos

a nova variável denominada grau de instrução, cujos valores possíveis podem ser representados

por 1, 2, 3 e 4. A categoria 1 representa os indivíduos analfabetos, a categoria 2 representa os

indivíduos com 1 a 8 anos de estudo e assim sucessivamente (Figura 2). Os valores possíveis da

variável grau de instrução são representados por números e a eles são atribuídos nomes para cada

categoria da variável.

Figura 2 – Construção da variável Grau de instrução

Quantitativas Critério Qualitativa

Anos de estudo

Critério

0

[1 - 8]

[9 – 11]

>= 12

Grau instrução

1 (Analfabeto)

2 (Fundamental)

3 (Médio)

4 (Superior)

Exemplo:

Outros exemplos:

Alguns critérios para determinação do número de classes:

Se for muito pequeno o número de classes, é comum acontecer que características

importantes de distribuição fiquem ocultas. Por outro lado classes demais fornecerão maior

número de detalhes, mas resumirão de forma menos precisa a distribuição. A fórmula de Sturges

é usada para representar os possíveis valores de uma variável quantitativa em intervalos de

números reais.

Variáveis Critérios

Peso ao nascer

baixo peso : menos de 2.500g

inadequado: 2.500 |-- 3.000g

normal : 3.000g e mais

Duração da gestação

pré-termo : até 258 dias

a termo : 259 |-- 294 dias

pós-termo : 294 dias e mais

n° de gestações prévias

primigesta : zero gestações anteriores

secundigesta : uma gestação anterior

multigesta : duas e mais gestações

anteriores

Idade da mãe

adolescente : 10 |-- 20 anos

adulta : 20 |-- 35 anos

idosa : 35 anos e mais

Page 11: HEP 5800 - BIOESTATÍSTICA

11

O procedimento da fórmula de Sturges:

1) Encontrar o número de intervalos (k):

k=1+ 3,3*log(n), onde n é o número de registros válidos ou elementos observados com

informação.

2) Encontrar a amplitude de cada intervalo (h):

, valor máximo e mínino do conjunto de valores possíveis.

Usando como exemplo a variável renda levantada na pesquisa de medicamentos:

k=1+3,3*log(2921) = 12,43 aproximar para 12 intervalos

Podemos aproximar o valor para R$585

Assim, podemos representar os possíveis valores da variável renda em 12 intervalos com

amplitude de R$585,00.

Intervalos Valores

[ 0,00 ; 585,00] 1

[ 585,01; 1170,00] 2

[1170,01 ; 1755,00] 3

[1755,01 ; 2340,00] 4

[2340,01 ; 2925,00] 5

[2925,01 ; 3510,00] 6

[3510,01 ; 4095,00] 7

[4095,01 ; 4680,00] 8

[4680,01 ; 5265,00] 9

[5265,00 ; 5850,00] 10

[5850,01 ; 6435,00] 11

[6435,01 ; 7020,00] 12

Nota: É importante observar que o valor máximo da variável está dentro do último intervalo.

Representações dos intervalos:

[x1 ; x2] ou .x1|-| x2... maior ou igual a x1 e menor ou igual a x2

[x1 ; x2) ou x1 |- x2 maior ou igual a x1 e menor que x2

(x1 ; x2) ou x1 – x2 maior que x1 e menor que x2

Dica informe o valor mínimo e máximo de cada intervalo. Principalmente no primeiro e

no último intervalo. Assim, o leitor terá o conhecimento da amplitude do conjunto de

valores possíveis da variável.

k

imoimoh

minmax

33,58312

07000minmax

k

imoimoh

Page 12: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

12

4.2. Fonte de dados e Tempo

Os levantamentos de dados são classificados em fonte de dados primários ou secundários e no

tempo (contínuo, periódico ou ocasional). A fonte de dados primária ocorre no levantamento da

investigação, enquanto os dados secundários, já analisados anteriormente, são disponibilizados

para disseminação da informação. Todas as pesquisas levantadas pelo IBGE são de domínio

público e estão disponíveis no site.

No Brasil existem importantes fontes oficiais de dados secundários que devem ser aproveitados

para investigações da área da saúde.

O IBGE além de dispor dados socioeconômicos do Censo Demográfico, realizado a cada 10 anos,

também oferece dados específicos sobre saúde, levantados quinquenalmente pela PNAD.

Dados específicos sobre populações e condições de saúde podem ser encontrados no site do

DATASUS-MS. Encontram-se informações demográficas e epidemiológicas já classificadas

segundo sexo, faixa etária, municípios ou regiões geográficas. Importantes estudos

epidemiológicos podem ser elaborados, com economia de custo e tempo, a partir do uso dessas

bases de dados.

Ainda o SEADE, CVE, e a Prefeitura Municipal de São Paulo dispõem, respectivamente,

importantes arquivos de dados sobre doenças de notificação compulsória, mortalidade e

morbidade para todos os municípios do Estado de São Paulo.

Page 13: HEP 5800 - BIOESTATÍSTICA

13

5. APRESENTAÇÃO TABULAR DE DADOS

Nessa etapa inicial queremos conhecer os dados levantados, e para isso os valores das

variáveis são resumidos e apresentados no formato de tabela. A primeira análise a ser feita é a

consistência das informações coletadas. É nessa fase que identificaremos os problemas de

digitação e ausência de resposta ou “missing”. Após a validação dos dados iniciaremos a análise

descritiva das variáveis com objetivo de identificar o comportamento de cada variável de análise.

5.1. Tabela de frequência

O resultado de contagem dos valores possíveis de uma variável organizado em tabela informa o

comportamento da variável.

Se a variável é qualitativa ou quantitativa discreta simplesmente os valores possíveis são

listados e contados.

CONTAGEM, APURAÇÃO.

VARIAVEL RESULTADOS CONTAGEM FREQUENCIA TOTAL

SEXO

Variável qualitativa

MASCULINO ##### ##### ##### ##### #####

# 26

50

FEMININO

##### ##### ##### ##### ####

24

Quando a variável é quantitativa contínua os resultados são apresentados em intervalos de valores

e contados.

Intervalos de Renda frequência

[ 0,00 ; 585,00] 2223

[ 585,01; 1170,00] 563

[1170,01 ; 1755,00] 99

[1755,01 ; 2340,00] 22

[2340,01 ; 2925,00] 8

[2925,01 ; 3510,00] 3

[3510,01 ; 4095,00] 2

[4095,01 ; 4680,00] 0

[4680,01 ; 5265,00] 0

[5265,00 ; 5850,00] 0

[5850,01 ; 6435,00] 0

[6435,01 ; 7020,00] 1

Além do resultado de contagem (frequência absoluta) é apresentada a frequência relativa e a

acumulada.

A frequência relativa informa a proporção de cada ocorrência em relação ao total ( ) e a

soma é igual a 1. A frequência relativa permite a comparação com outras fontes de dados, desde

que os valores listados apresentem os mesmos intervalos de valores, no caso de uma variável

quantitativa contínua, ou as mesmas ocorrências quando se trata de uma variável qualitativa ou

quantitativa discreta. Na prática a frequência relativa é expressa em porcentagem e seus

resultados apresentam a distribuição de frequência da variável.

n

ni i

f

Page 14: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

14

Intervalos de Renda Frequência (ni ) fi

[ 0,00 ; 585,00] 2223 0,7610

[ 585,01; 1170,00] 563 0,1927

[1170,01 ; 1755,00] 99 0,0339

[1755,01 ; 2340,00] 22 0,0075

[2340,01 ; 2925,00] 8 0.0027

[2925,01 ; 3510,00] 3 0,0010

[3510,01 ; 4095,00] 2 0,0007

[4095,01 ; 4680,00] 0 0,0000

[4680,01 ; 5265,00] 0 0,0000

[5265,00 ; 5850,00] 0 0,0000

[5850,01 ; 6435,00] 0 0,0000

[6435,01 ; 7020,00] 1 0,0004

Total 2921 0,9999

A frequência acumulada representa as frequências relativas acumuladas de uma variável

que apresente uma ordenação (qualitativa ordinal, quantitativa discreta ou contínua). Seus

resultados facilitam a visualização de informações relevantes do comportamento da variável, e

podem ser usados para estabelecer ponto de corte em um determinado valor da variável. E ainda

informa o ponto ou o intervalo que divide a distribuição em duas partes iguais. No exemplo da

variável renda nota-se que 95% dos adultos ganham até R$1170,00.

Intervalos de Renda frequência % %acumulada

[ 0,00 ; 585,00] 2223 76.10 76.10

[ 585,01; 1170,00] 563 19.27 95.38

[1170,01 ; 1755,00] 99 3.39 98.77

[1755,01 ; 2340,00] 22 0.75 99.52

[2340,01 ; 2925,00] 8 0.27 99.79

[2925,01 ; 3510,00] 3 0.10 99.90

[3510,01 ; 4095,00] 2 0.07 99.97

[4095,01 ; 4680,00] 0 0.00 99.97

[4680,01 ; 5265,00] 0 0.00 99.97

[5265,00 ; 5850,00] 0 0.00 99.97

[5850,01 ; 6435,00] 0 0.00 99.97

[6435,01 ; 7020,00] 1 0.04 100.00

Total 2921 99.99

Page 15: HEP 5800 - BIOESTATÍSTICA

15

5.2. Apresentação

Seguiremos as normas definidas pelo IBGE com o objetivo de padronizar a apresentação tabular

dos dados. As normas estão disponíveis no arquivo Normas_de_apresentação_tabular.pdf.

A seguir são apresentadas as principais informações necessárias para elaboração de uma tabela.

APRESENTAÇÃO

TABELAS (apresenta distribuições de freqüências)

NORMAS IBGE

Tabela 1

Título – Distribuição de recém-nascidos segundo sexo.

Brasília, 1999.

SEXO N %

MASCULINO

TOTAL 50 100,0

Fonte: Lista de exercícios, curso HEP 5732, FSP, 2005.

Tabela 2 – Recém-nascidos segundo peso ao nascer (gramas) Brasília, 1999.

PESO NASCER N %

1950 |---- 2400 4 8,0

2400 |---- 2850 7 14,0

2850 |---- 3300 21 42,0

3300 |---- 3750 12 24,0

3750 |----|4200 6 12,0

TOTAL 50 100,0

Fonte: Ruiz F.M Saude,Brasília, 1999.

MODELO GERAL

Titulo:

Recém-nascidos segundo peso ao nascer (gramas)

Local A, 1999.

VARIÁVEL Freq.

Absoluta

Freq.

Relativa

Classes

Ou

Valores

TOTAL 50 100,0

Fonte:

Page 16: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

16

EXERCÍCIOS

Apresente a análise descritiva dos dados da pesquisa de medicamentos usando o programa

STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.xls e siga o roteiro:

1) Use o programa Stat Transf para conversão do arquivo no formato Excel para STATA/SE

version 9.

2) Abra o arquivo no programa.

3) Converter as variáveis no formato texto para numérica. Use o comando decode.

4) Criar a variável faixa de renda usando a fórmula de Sturges.

5) Atribuir os nomes das variáveis e das categorias.

6) Construir as tabelas de frequências para todas as variáveis de investigação.

7) Comente os resultados encontrados.

Page 17: HEP 5800 - BIOESTATÍSTICA

17

6. APRESENTAÇÃO GRÁFICA DE DADOS

Apesar da apresentação dos dados através de tabela ser mais precisa, a representação

gráfica tem a vantagem de transmitir os dados de uma maneira mais rápida e viva, oferecendo

uma visão imediata sobre o comportamento do fenômeno que estamos descrevendo.

Elaborar mapas e gráficos é uma arte que somente pode ser adquirida através de prática,

com os cuidados necessários para evitar posições tendenciosas, permitindo a visão clara dos

pontos essenciais a serem notados.

Portanto as regras básicas de elaboração de um gráfico são:

simplicidade

clareza

veracidade

A representação gráfica tem inúmeras aplicações na Estatística. Ela nos permite, por

exemplo, fazer uma análise exploratória dos dados, verificando seu comportamento, detectando

tendências e pontos atípicos ("outliers"), ou seja, observações demasiadamente distantes da massa

do conjunto de dados.

APRESENTAÇÃO GRÁFICA DE DADOS

- REPRESENTAM TABELAS (distribuições, coeficientes, series)

-EIXOS CARTESIANOS

MEDIDAS GEOMÉTRICAS

. Altura ou comprimento, área, ângulos

linhas, retângulos, círculos

- FIGURAS GEOMÉTRICAS

Bioestatística-aula 3

21/03/2006

- REPRESENTAM TABELAS (distribuições, coeficientes, series)

-EIXOS CARTESIANOS

X

zero

Frequencias

Ou outros

valores

(Y)

Resultados ou

valores

escalas

Page 18: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

18

6.1. Variáveis qualitativas ou quantitativa discreta

Diagrama de Superfícies em Colunas ou Barras

Simples: representação de uma única variável por meio de retângulos dispostos

verticalmente ou horizontalmente. Utiliza-se este tipo de gráfico para comparações de

uma só variável.

Múltiplas: permite a comparação de várias variáveis ao mesmo tempo.

Essas barras são construídas com o mesmo tamanho de base, de forma a permitir a

comparabilidade entre classes seja feita sempre de acordo com a altura (forma

vertical) ou comprimento (horizontal).

Diagramas por Superfícies em Colunas Superpostas ou Porcentagens

Complementares

Nesta representação as barras estarão superpostas, com uso para o caso de duas ou

mais variáveis.

No caso de porcentagens complementares, perde-se a comparabilidade de grandeza

entre as barras, naturalmente, sendo utilizada para comparação de estrutura.

Diagramas por Superfícies em Setores

A representação setorial tem seu uso intenso por possibilitar uma distinção clara entre os

setores envolvidos e favorecer a comparação com o total.

Diagrama por Pontos

Consiste na representação gráfica de uma informação por meio de pontos. Este gráfico

tem seu uso quando representamos fatos na sua distribuição espacial ou regional.

Exemplo:

xxx

xx

xx

xxx

xx

xxxx

x

xxxx

1 2 2 4 5

Tamanho da família

Núm

ero

de p

essoas

3

6

9

xxx

xx

xx

xxx

xx

xxxx

x

xxxx

1 2 2 4 5

Tamanho da família

Núm

ero

de p

essoas

3

6

9

Page 19: HEP 5800 - BIOESTATÍSTICA

19

6.2. Variáveis quantitativas contínuas

Diagramas por Superfícies em Histogramas

O histograma é formado por retângulos cujas áreas representam as frequências dos

intervalos de suas classes. Esta apresentação é indicada para variáveis contínuas, e,

portanto não há espaço entre as barras.

IDADE NUM. %

0 |– 5 50

5 |– 10 75

10 |– 15 100

15 |– 20 75

20|– 25 50

TOTAL 350

Fonte : IBGE, 17/03/2006 .

Número de residentes segundo idade . Muribeca, 2006.

100,0

14,3

21,4

28,6

14,3

21,4

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50

Page 20: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

20

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50

|

| |

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50

Construção de um polígono de frequência

Page 21: HEP 5800 - BIOESTATÍSTICA

21

0

| | | | | |5 10 15 20 25

idade

Num.

-

-100

50 |

||

|

|

|

| |

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50 |

||

|

|

|

| |

0

| | | | | | 5 10 15 20 25

idade

Num.

-

-100

50

Fonte : IBGE, 2006 .

Contra exemplo

Histograma com Intervalos de Classes Desiguais

É comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas

de frequências. Alguns cuidados especiais devem ser tomados quanto à análise e

construção de histograma.

A tabela seguinte fornece a distribuição de atendimentos em serviços de urgências de um

hospital X. Um primeiro cuidado é construir a coluna que indica as amplitudes de cada

classe. Um segundo passo é a construção da coluna da amplitude de cada classe, e o

terceiro passo é a construção das densidades de frequências em cada classe, ou seja, a

medida que indica qual a concentração por unidade da variável (ajuste na frequência em

relação a amplitude). De modo análogo, pode-se construir a densidade da proporção (ou

porcentagem) por unidade da variável.

Page 22: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

22

Para a construção do histograma, usa-se no eixo X o número de atendimentos e no eixo Y

o valor da densidade 1 ou 2.

Distribuição de atendimentos em serviço de urgência do hospital X Número de

atendimentos

Frequência

Absoluta

(A)

Amplitude Densidade1 Frequência Densidade

2

(B) (A)/(B) Relativa

(D)

(D)/(B)

0 |---- 10 5 10 0,5 0,02 0,002

10 |---- 20 20 10 2,0 0,08 0,008

20 |---- 30 35 10 3,5 0,14 0,014

30 |---- 40 40 10 4,0 0,16 0,016

40 |---- 60 50 20 2,5 0,20 0,010

60 |---- 80 30 20 1,5 0,12 0,006

80 |---- 100 20 20 1,0 0,08 0,004

100 |---- 140 20 40 0,5 0,08 0,002

140 |---- 180 15 40 0,38 0,06 0,0015

180 |---- 260 15 80 0,19 0,06 0,0008

Total 250

1) Construa o gráfico de barra usando no eixo da ordena os valores da freqüência absoluta

0

10

20

30

40

50

60

0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 60 60 |- 80 80 |- 100 100 |- 140 140 |- 180 180 |- 260

Número de empregados

Fre

qu

ên

cia

ab

so

luta

2) Construa o gráfico de barra usando no eixo da ordena os valores da densidade 1

3) Compare o gráfico 1 e 2. Qual a conclusão?

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260

3,0

2,5

2,0

1,5

1,0

0,5

3,5

4,0

Número de empregados

Densid

ade 1

(nú

mero

de e

mpre

sas p

or

em

pre

gados)

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260

3,0

2,5

2,0

1,5

1,0

0,5

3,5

4,0

Número de empregados

Densid

ade 1

(nú

mero

de e

mpre

sas p

or

em

pre

gados)

Page 23: HEP 5800 - BIOESTATÍSTICA

23

Pensando ...

Represente graficamente a variável renda levantada na pesquisa de medicamentos no espaço

quadriculado abaixo.

Faixa Renda n % %ac

[ 0 ; 400] 1957 67.0 67.0

[401; 800] 675 23.1 90.1

[800;7000] 289 9.9 100.0

Total 2921 100.0

Compare o gráfico anterior com a saída do histograma executado no programa STATA. Quais

são as diferenças?

0

5.0

e-0

4

.00

1.0

015

.00

2

Den

sity

0 2000 4000 6000 8000renda

Page 24: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

24

6.3. Variáveis qualitativas ordinais ou quantitativa discreta

Ogiva

É a representação gráfica de uma distribuição de frequências acumuladas, cujos segmentos

perpendiculares são traçados a partir do limite superior de cada classe. As frequências (absolutas

ou percentuais) são somadas conforme procedimento na ultima coluna da tabela abaixo, e

marcadas como no gráfico a seguir.

Tabela 2.8 - Distribuição do número de pacientes segundo idade.

Programa A. Centro de Saúde X, primeiro semestre de 1999.

Idade (anos) .f .f(acumulada)

10 15 10 10

15 20 15 25

20 25 60 85

25 30 65 150

30 35 40 190

35 40 50 240

40 45 30 270

Total 270

FONTE: Centro de Saúde X

Figura 2.9 - Distribuição do número acumulado de pacientes segundo

idade. Programa A. Centro de Saúde X, primeiro semestre de 1999.

10 15 20 25 30 35 40 45

idade (anos)

0

50

100

150

200

250

freqüência acumulada

0

10

20

30

40

50

60

70

80

90

100%

Fonte: Centro de Saúde X

Esse gráfico permite localizar o MEIO da distribuição (idade mediana 29 anos ) no

eixo horizontal. Também possibilita visualizar, de modo aproximado, os percentis

da distribuição, tais como:

a) percentagem de pacientes com idade até 30 anos 56%

b) percentagem de pacientes com idade igual a 25 anos ou mais 68,0%

c) o valor da variável que divide a distribuição em 2 partes iguais 29 anos

d) 70% dos pacientes apresentam idade igual ou inferior a 35 anos

e) a percentagem de pacientes cuja idade está compreendida entre 15 e 34 anos completos

68,0 %

Page 25: HEP 5800 - BIOESTATÍSTICA

25

6.3. Séries temporais

Consiste na representação gráfica de uma informação por meio de uma linha poligonal. O

gráfico de linhas é muito utilizado para acompanhar a evolução de uma variável ou também

para comparação entre duas ou mais variáveis. Nesse último caso, às vezes encontramos

dificuldades quando as séries em questão possuem unidades de medida ou grandeza diferentes. O

que se faz, em geral, é adotar uma escala adequada ou converter os dados para uma outra base, ou

ainda se utilizar de eixo suplementar.

Definição: Uma série temporal é qualquer conjunto de observações ordenadas no tempo.

Exemplo extraído do DATASUS: Evolução das Condições de Nascimento em São Paulo

0

5

10

15

20

25

0

10

20

30

40

50

60

1999 2000 2001 2002 2003 2004 2005 2006 2007 2008

Taxa B

ruta

de N

ata

lid

ad

e

%

Ano

Evolução das Condições de Nascimento

% com prematuridade

% de partos cesáreos

% baixo peso - geral

% de mães de 10-19 anos

% de mães de 10-14 anos

Taxa Bruta de Natalidade

Fonte: SINASC. Situação da base de dados nacional em 14/12/2009.

Nota: Dados de 2008 são preliminares.

Coeficiente de Mortalidade para algumas causas selecionadas (por 100.000 habitantes) Causa do Óbito 2002 2003 2004 2005 2006 2007 2008

Aids 11.4 10.7 9.5 9.4 9.4 8.5 9.3

Neoplasia maligna da mama (/100.000 mulheres) 18.8 19.2 18.6 19.7 20.4 20.0 20.8

Neoplasia maligna do colo do útero (/100.000 mulh) 5.2 4.8 4.4 5.5 4.5 4.6 4.2

Infarto agudo do miocardio 56.0 56.6 53.8 47.9 49.9 52.0 52.9

Doenças cerebrovasculares 54.5 52.0 53.8 49.6 50.8 50.1 52.6

Diabetes mellitus 21.2 21.2 21.5 18.6 19.5 20.5 20.7

Acidentes de transporte 9.5 13.8 13.4 14.2 14.9 15.7 14.3

Agressões 50.2 47.0 36.8 25.8 23.0 17.4 14.9

Fonte: SIM. Situação da base de dados nacional em 14/12/2009.

Nota: Dados de 2008 são preliminares.

Page 26: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

26

6.4. Escalas aritméticas e logarítmicas

Com relação a escala, em geral utilizamos a escala aritmética, porém em várias situações a

escala logarítmica se torna imprescindível. A denominação para esses gráficos é logarítmico ou

semi-logaritmico.

Os gráficos semi-logarítmicos são úteis quando as razões relativas de crescimento têm

significado ou quando são necessárias comparações entre razões de crescimento de duas séries ou

mais. Da mesma forma estes gráficos são úteis quando comparamos duas séries cujas magnitudes

são bastante diferenciadas.

BIOESTATISTICA 1 - 2006 (Aula 4)

ESCALA SEMILOG PARA DIAGRAMAS

LINEARES

ano total junho

1968 1,4 0,13

1969 1,5 0,12

1970 2,1 0,22

1971 6,6 0,37

1972 15,6 1,49

1973 26,5 2,24

1974 17 6,26

a) escala aritmética Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período de

1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano

0

5

10

15

20

25

30

1968 1969 1970 1971 1972 1973 1974

Ano

Coefic

iente

total junho

Fonte: Ver. Saúde Pública, 10:1-16, 1976

b) escala logarítmica

Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período

de 1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano

0,1

1

10

100

1968 1969 1970 1971 1972 1973 1974

Ano

Cefic

iente

total junho

Fonte: Ver. Saúde Pública, 10:1-16, 1976

Page 27: HEP 5800 - BIOESTATÍSTICA

27

6.5 Box Plot

O Box Plot (desenho esquemático ou esquema de cinco números) informa medidas de posição,

dispersão, assimetria, caudas e dados atípicos (outliers). A posição central é dada pela mediana e

a dispersão pela amplitude interquartílica. As medidas de posição q1, q2 e q3 informam a

assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do

retângulo aos valores distantes e pelos valores atípicos.

Uma definição intuitiva de um "outlier" poderia ser: "uma observação que se desvia tanto das

demais, que nos faz suspeitar que fosse gerada por um mecanismo diferente".

Um conjunto de dados pode possuir uma ou mais observações que "parecem não pertencer ao

conjunto" e, portanto, para evitar distorções, deveriam ser descartadas antes da análise dos dados.

Escolher ou descartar tais observações é um processo subjetivo e, quando executado

inescrupulosamente pode levar a resultados indesejáveis. Para resolver este problema, foram

construídos testes que poderão ser utilizados para determinar se um "outlier aparente" está

realmente além do padrão exibido pelas outras observações.Este assunto será abordado no ítem

"Teste de Hipóteses".

No entanto uma representação gráfica pode nos auxiliar na detecção dos "outliers".

É importante lembrar que, muitas vezes, um "outlier" é uma observação pertinente, ou seja, um

"outlier" pode ser uma indicação de que o fenômeno que estamos estudando é, na realidade,

diferente daquele que pensamos ser.

Exemplos disso ocorrem frequentemente no campo da astronomia. "Outliers", muitas vezes,

indicaram a presença de astros que ainda não haviam sido descobertos pelo homem. A presença

(desconhecida) destes astros pode modificar o conjunto de observações do cientista, gerando

assim as "observações suspeitas".

Enfim, a eliminação ou não de um "outlier" é um problema que, independentemente de análise

matemática, deve ser resolvido pelo "bom senso" e crítica do especialista que está fazendo a

análise.

Exemplo: Saída do SPSS

Gráfico Box-Plot

Exemplo: Preço médio do produto A

90N =

LIGA_MIN

3,4

3,2

3,0

2,8

2,6

2,4

2,2

2,0

43

82

10

N 90

Range 1,2

Mean 2,99

Median 2,98

Percentil 25 2,94

Percentil 75 3,05

Interquartile Range 0,11

Variance 0,02

Skewness -2,92

Kurtosis 19,64

Outliers

Pontos Extremos

Mediana

3o. Quartil

1o. Quartil

Preço médio do produto A

Page 28: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

28

Cálculo do Box Plot

q3

q2

q1

Inter-quartil (IQ)

Q3+1.5*IQ

Q3+3*IQ

Q1-1.5*IQ

Q1-3*IQ

“outlier”

ponto extremo

*

*

*

*

“outlier”

ponto extremo

EXERCÍCIOS

Represente graficamente as variáveis levantadas na pesquisa de medicamentos usando o

programa STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.dta e siga o

roteiro:

1) Construir os gráficos para cada variável de investigação. Escolha o gráfico adequado para

cada tipo de variável.

2) Existe outlier na variável renda?

Page 29: HEP 5800 - BIOESTATÍSTICA

29

7. MEDIDAS RESUMO

A sintetização dos dados sob a forma de distribuição de frequência é uma primeira etapa no

estudo dos fenômenos estatísticos.

Necessitamos, além disso, de medidas que resumam as características peculiares do fenômeno.

Isso permite, entre outras coisas, comparar entre si, séries de dados, através do confronto desses

parâmetros.

As características que essas medidas devem possuir são relativas ao:

seu valor central

seu grau de dispersão em torno do valor central

seu grau de assimetria, se existir

7.1. Medidas de Tendência Central

Definição

O conceito de medida de tendência, diz respeito à medida de um valor que possa melhor

representar a tendência de um conjunto de números de uma variável. As três medidas mais

utilizadas são a média, a mediana e a moda.

Finalidade

As medidas de Tendência Central indicam o centro da distribuição de frequências ou a região

de maior concentração de frequência na distribuição.

Média aritmética

A média aritmética é a primeira idéia que ocorre quando se fala em “média” de alguma variável

numérica e é calculada dividindo-se a soma dos números do conjunto pelo tamanho do mesmo.

Assim a média entre 2, 4 e 6 é:

(2+4+6)/3 = 4.

A média populacional é convencionalmente denominada µ, e é calculada da forma genérica

como:

N

i

N XiNN

XXXX

1

321 1......., onde, N é o tamanho da população e “i” assume

valores de 1 até N e representa cada um dos indivíduos da população.

Já a média de uma amostra, ou média amostral, é designada por X e assume a forma:

n

x

n

xxxxX

n

i

i

n 1321 ......., onde n é o tamanho total da amostra e “i” assume valores de

1 até n e representa cada um dos indivíduos da amostra.

Observa-se que, dada uma amostra de tamanho n retirada de uma população de tamanho N, X é

apenas uma estimativa de µ, ou seja, a média amostral é uma estimativa da média populacional.

Page 30: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

30

Propriedades da média aritmética

1. A média de qualquer conjunto pode ser sempre calculada.

2. Para um dado conjunto de números a média é única.

3. A média é afetada por todos os valores do conjunto.

4. Somando-se, subtraindo-se, multiplicando ou dividindo cada elemento do conjunto por uma

constante a média também será acrescida, diminuída, multiplicada ou dividida por esta constante,

respectivamente.

Calculando a média de dados agrupados

Considere o número de internações (X) de um hospital, observado para os trinta dias do mês de

abril de 2003. Os dados são listados abaixo, por ordem cronológica. A tabela 1 apresenta sua

distribuição de frequências e demais colunas para calculo da média e da mediana

N = 30 dias amplitude : ( 0 =< X <=9 )

DIA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

X = Número de

internações

3 0 5 2 0 1 7 4 0 0 1 9 1 3 2

DIA 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

X = Número de

internações

5 2 7 5 1 0 4 6 4 0 3 5 8 5 6

Tabela 1 – Distribuição de freqüências de X

X F

0 6

1 4

2 3

3 3

4 3

5 5

6 2

7 2

8 1

9 1

total 30

Tabela 2 - Procedimento para cálculo. X F X . f

0 6 0

1 4 4

2 3 6

3 3 9

4 3 12

5 5 25

6 2 12

7 2 14

8 1 8

9 1 9

Total 30 99

Usando dados da terceira coluna ,…….. diaporernaçõesN

fXX ...........int...3,3

30

99.

Page 31: HEP 5800 - BIOESTATÍSTICA

31

Média Geométrica

É calculada através de raiz n-ésima do produto das N observações da variável.

N FN

FFg

NX...XXM 21

21

onde Fi é frequência

Esta média é utilizada quando variável em estudo apresenta um comportamento

exponencial ou segue uma progressão geométrica.

Exemplos: Índice Médio Mensal da Inflação, Crescimento Populacional.

Exemplo: Calcular a média geométrica dos valores 3, 6, 12, 24, 28

12282412635gM

obs: F1= F2 = F3 = F4 = F5 =1

Média Harmônica

É calculada através do recíproco da média aritmética dos recíprocos das observações da variável

aleatória.

N

i i

i

N

N

X

F

N

X

F...

X

F

X

F

NMh

12

2

1

1

Obs: NfN

i

i

1

Exemplo: Calcular a média harmônica para 2, 5, 8.

643

8

1

5

1

3

1

3,Mh

Page 32: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

32

Mediana

A mediana divide um conjunto ordenado de dados em dois grupos de quantidades iguais. A

metade do grupo estará abaixo e, a outra metade, acima da mediana. Isto significa que para um

conjunto de dados, se os mesmos forem ordenados, a mediana ocupará o centro deste conjunto.

Ex: Dada a variável x = {1, 3, 0, 2,4}, a mediana é 2, pois ordenando, temos {0,1,2,3,4}

Para se calcular a mediana de um conjunto de dados deve-se:

1) ordenar o conjunto;

2) verificar se há um número par ou ímpar de valores no conjunto;

3) verificar que, se o conjunto tiver um número ímpar de elementos, a mediana será o valor que

ocupa a posição central, ou seja, posição 2

1nneste conjunto, mas se o conjunto tiver um número

par de elementos, a mediana será a média entre as duas posições centrais, ou seja, a média das

posições 2

n e

2

2n (lembrando que n é o número de elementos do conjunto, ou da amostra).

Calculando a mediana em dados agrupados de uma variável discreta

Usando os dados da internação calcule a mediana dos dados apresentados na tabela 3.

Tabela 3– calculo da mediana em dados agrupados(frequências) X F % %

acumulada

0 6 20,0 20,0

1 4 13,3 33,3

2 3 10,0 43,3

3 3 10,0 53,3

4 3 10,0 63,3

5 5 16,7 80,0

6 2 6,7 86,7

7 2 6,7 93,4

8 1 3,3 96,7

9 1 3,3 100,0

total 30 100,0

N=30 (par).....Mediana = média dos dois valores de X que estão nas posições centrais.

Note que os dois valores localizados nos postos décimo quinto (N/2) e décimo sexto (N/2)+1

são iguais a 3..Portanto......mediana = 3 internações por dia

Observação : Se N for impar , o valor mediano ocupará o posto de ordem (N+1)/2 . Ou seja, a

mediana é expressa pelo valor de X que se localiza exatamente no meio da distribuição de

frequências .

Page 33: HEP 5800 - BIOESTATÍSTICA

33

Calculando a mediana de dados agregados em intervalos de valores

Os valores da variável estão agrupados em classes. O ponto médio de cada classe será tomado

como valor de X para calcular a média .

Tabela 4 - Média e Mediana para valores de X agrupados em classes

(1)

Numero

de internações

(2)

.f

(3)

Ponto

Médio (X)

(4)

X . f

(5)

f acumulada

(6)

%

(7)

%

acumulada

0 |------ 3 13 1,5 19,5 13 43,3 43,3

3 |------ 6 11 4,5 49,5 24 36,7 80,0

6 |------| 9 6 7,5 45,0 30 20,0 100,0

Total 30 114 100,0

O valor mediano ,que está no décimo quinto posto (30/2), situa-se na segunda classe. Ou seja, é

maior ou igual a 3 e menor que 6 . Usando calculo proporcional>>>poderemos seguir o seguinte

raciocínio .

A – vemos na coluna 5 da tabela 4 que faltam apenas (15 – 13=2) 2 dias para localizar o valor

mediano.

B - Mediana = 3 internações + (k)int?...... k int./2 dias = 3int / 11 dias

C - K interações = (3x2)/11 = 6/11 = 0,54 internações por dia

B - Mediana = 3 + 0,54 = 3,54 internações por dia .

Ou poderemos optar pelo uso da expressão abaixo:

Mediana será calculada pela expressão medhmedf

acfNiLMd .

)2/(,

Onde : Li = é o limite inferior da classe que contém a mediana ( 3 |---- 6 )

N = 30

.fac = frequencia acumulada até a classe anterior à que contém a mediana (13)

.fmed = frequência da classe que contem a mediana (11)

.hmed = amplitude da classe que contem a mediana (3)

Md = 3 + [(15 – 13) / 11] . 3 = 3 + 0,54 = 3,54 internações

Quartis

Os quartis dividem o conjunto de dados em quatro partes iguais e os percentis em 100 partes

iguais.

Quadro 1– Apresentação e explicação dos quartis.

Estatística Notação Definição, propriedades

1º quartil Q1

É o valor que ocupa a posição tal que um quarto dos dados (25%)

tomam valores menores ou iguais ao valor do primeiro quartil.

2º quartil

(Mediana)

Q2

Me

Coincide com o valor da mediana, ou seja 50% dos dados tomam

valores menores ou iguais aos da mediana. Entre o primeiro

quartil (Q1) e a mediana (Me) ficam 25% dos dados.

3º quartil Q3 É o valor que ocupa a posição tal que um quarto dos dados (25%)

tomam valores maiores ou iguais ao valor do terceiro quartil.

Entre a mediana (Me) e o terceiro quartil (Q3) ficam 25%

Page 34: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

34

Percentis

Os percentis dividem o conjunto de dados em 100 partes iguais.

Quadro 2 – Percentis.

Percentil Notação Definição, propriedades

1º P1 1% dos dados tomam valores menores ou iguais

5º P5 5% dos dados tomam valores menores ou iguais

10º P10 10% dos dados tomam valores menores ou iguais

25º P25 25% dos dados tomam valores menores ou iguais (Q1)

50º P50 50% dos dados tomam valores menores ou iguais (Q2 = Me)

75º P75 25% dos dados tomam valores maiores ou iguais (Q3)

90º P90 10% dos dados tomam valores maiores ou iguais

95º P95 5% dos dados tomam valores maiores ou iguais

99º P99 1% dos dados tomam valores maiores ou iguais

Moda

A moda é o valor que aparece com maior freqüência. É a medida menos usada.

Ex: Seja x = {0, 1, 0, 2, 3, 4, 4, 0, 3, 2, 5, 6}, a moda é 0.

Seja x= {3; 1; 2; 3; 3; 4; 5; 1,5; 2; 1,5; 0; 4; 1,5; 1,5; 6} a moda é 1,5.

A moda (valor da variável que ocorreu com maior frequência) é igual a 0 para a variável tratada

como discreta na Tabela 2. Na tabela 4, com os valores agrupados em classe, a classe ( 3 – 6 )

contém a moda.

A expressão abaixo pode ser usada para calcular a moda em valores agrupados em classe, quando

a classe modal for única e não estiver situada nos extremos da distribuição.

calcula-se a moda pela expressão: hdd

diLModa .

21

1

onde:

( L1 ) é o limite inferior da classe modal

(.d1 ) a diferença entre a frequência da classe modal e a da classe imediatamente anterior .

(.d2 ) a diferença entre a frequência da classe modal e da classe imediatamente seguinte, e

( h ) é a amplitude da classe modal

Page 35: HEP 5800 - BIOESTATÍSTICA

35

Comparação entre Média, Mediana e Moda

Muitas vezes é necessário decidir qual a medida de tendência central que mais se adequada aos

objetivos. A seguir, segue uma tabela que apresenta vantagens e limitações de cada uma delas.

Quadro 3 – Vantagens e desvantagens de cada uma das medidas de tendência central.

Vantagens Limitações Tipo de Variáveis

Reflete todos os valores

da amostra

Menos sensível à valores

extremos que a média

Média

Mediana

ModaRepresenta um valor

típico

É influenciada por valores

extremosContínua e Discreta

Mais difícil de ser determinada

para grande quantidade de dadosContínua e Discreta

Não tem função em certos

conjunto de dados

Contínua, Discreta,

Nominal e Ordinal

Pensando ....

Durante uma verificação de qualidade no conteúdo de seis recipientes de café instantâneo,

foram obtidas as seguintes as seguintes notas:

6,03 5,59 6,40 6,00 5,99 6,02

Qual a quantidade média e mediana encontrada?

Suponha que o terceiro valor tenha sido incorretamente medido e que na verdade seja de

6,04. Determine novamente a nota média e mediana.

Qual a conclusão?

Page 36: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

36

7.2. Medidas de Dispersão

As medidas de tendência central nos dão uma idéia da concentração dos dados em torno de um

valor. Entretanto, é preciso também conhecer suas características de espalhamento ou dispersão.

Para avaliar quantitativamente o grau de variabilidade ou dispersão dos valores de um conjunto

de números em torno de um valor médio, faz-se uso das denominadas medidas de dispersão:

Variância e Desvio padrão

Amplitude

Interquartil

Variância e Desvio padrão

A variância e o desvio padrão é a medida de dispersão universalmente usada em variáveis

discretas e contínuas. Informa a distância média de todos os valores observados de X em torno da

sua média aritmética .

Cálculo da Variância e do Desvio padrão:

1

)(

1

2

n

xx

Varância

n

i

i

1

)(

. 1

2

n

xx

padrãoDesvio

n

i

i

Cálculo do desvio padrão quando os dados estão agrupados:

Voltando à tabela 1, desenvolve-se o seguinte procedimento:

X F X-MEDIA (X-MEDIA)2 (X-MEDIA)

2 . F

0 6 0 - 3,3= - 3,3 10,89 10,89 X 6=65,34

1 4 1 - 3,3= - 2,3 5,29 5,29 X 4 = 21,16

2 3 2 - 3,3= - 1,3 1,69 1,69 X 3 = 5,07

3 3 3 - 3,3= - 0,3 0,O9 0,O9 X 3 = 0,27

4 3 4 - 3,3= 0,7 0,49 0,49 X 3 = 1,47

5 5 5 - 3,3= 1,7 2,89 2,89 X 5 = 14,45

6 2 6 - 3,3= 2,7 7,29 7,29 X 2 = 14,58

7 2 7 - 3,3= 3,7 13,69 13,69 X 2 = 27,38

8 1 8 - 3,3= 4,7 22,09 22,09 X 1 = 22,09

9 1 9 - 3,3= 5,7 32,49 32,49 X 1 = 32,49

30 204,30

Variância = 204,30 / 30 = 6,81 internações 2

Desvio padrão = 81,6 = 2,61 internações

Note que a variância é igual a media dos desvios ao quadrado. Isto decorre da propriedade da

média, cuja soma dos desvios simples é sempre igual a zero.

Page 37: HEP 5800 - BIOESTATÍSTICA

37

Coeficiente de variação = 2,61/3,3= 0,791 ou 79,1% . significa que a dispersão da distribuição

em torno da média de internações é alta (muito próximo de 100%) . Ou seja, o desvio padrão é

quase igual a média , o que indica que há valores muito distantes da média .

Síntese:

1 - Informações descritivas

Variável : numero de internações ; N = 30

Amplitude = 9 internações ( 0 – 9 );

média = 3,3 internações; dp = 2,61 internações

2 – Os cálculos serão iguais para variáveis continuas. Apenas observe que os valores de X serão

expressos pelos pontos médios das classes.

3 – Observe a formula da Variância: média dos quadrados dos desvios em relação à média da

distribuição.

Amplitude

Uma medida de dispersão é a da amplitude total do conjunto de dados calculada pela diferença

entre o valor máximo menos o valor mínimo.

Exemplo: x={-1, 2, 0, 3, 2, 1}, amplitude é 3 – (-1) = 4.

A amplitude pode levar a erros de avaliação, pois não representa o conjunto dos dados. Muitas

vezes reflete muito mal a dispersão dos mesmos.

Aplicações: Controle de qualidade, Temperatura entre outras.

Interquartil

É uma medida de dispersão definida como a diferença entre o terceiro e o primeiro quartis. Essa

medida de dispersão é usada para expressar a variabilidade em torno da mediana.

Aplicações: Na construção do Box Plot e para expressar a variabilidade em torno da mediana.

Page 38: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

38

EXERCICIO

1)

Numero Fuma Pressão sistólica Pressão diastólica IMC

1 0 152 71 1

2 0 124 77 1

3 0 105 61 1

4 1 146 96 1

5 1 167 120 2

6 0 156 94 0

7 0 133 89 0

8 0 144 81 2

9 0 186 138 1

10 1 103 75 0

11 0 98 67 1

12 0 131 87 1

13 1 155 99 1

14 0 163 90 1

15 1 136 74 1

16 1 129 66 1

17 0 170 112 1

18 0 160 85 2

19 0 142 86 1

20 11 142 82 1

21 0 115 76 1

22 1 201 119 1

23 0 129 83 1

24 0 158 92 1

25 0 113 70 2

26 1 149 84 0

27 1 157 98 0

28 1 132 78 2

29 0 146 88 2

30 0 175 103 1

31 1 142 79 1

32 0 118 68 0

a) Calcule média, mediana e moda para a pressão sistólica.

b) Repita calculo das medidas anteriores para os dados separados (estratos) fumantes e não

fumantes.

c) Compare os resultados. Tente uma conclusão.

Page 39: HEP 5800 - BIOESTATÍSTICA

39

2) Ambos os conjuntos de dados representados na figura a seguir têm média igual a 50. Um

deles tem desvio padrão de 3,8 e outro, de 5,8. Qual é qual? Calcule o coeficiente de variação e

justifique sua resposta.

0

5

10

15

20

25

30

35

39 42 45 48 51 54 57 60

0

5

10

15

20

25

30

35

39 42 45 48 51 54 57 60valor valor

% %

(a) (b)

3) Dado três conjuntos de dados A, B e C. Calcule a média e desvio padrão. Comente os

resultados. Qual a conclusão?

A: 4, 4, 4, 4, 4, 4, 4, 4

B: 3, 3, 3, 3, 5, 5, 5, 5

C: 1, 1, 3, 3, 5, 5, 7, 7

4) Associe as distribuições (4.1) com as medidas de posição (4.2):

(4.1)

UniformeSimétrico

Assimétrico à direita Assimétrico à esquerda

(a) (b)

(c) (d)

(4.2) Medidas de posição:

1) Média = Mediana = Moda

2) Média > Mediana

3) Média < Mediana

Respostas:

5) É importante informar a média e desvio padrão de uma variável quantitativa? Justifique.

Page 40: HEP 5800 - BIOESTATÍSTICA

HEP 5732 - BIOESTATÍSTICA

40

8. Referências bibliográficas

BUSSAB, W.O.; MORETTIN, P. A., Estatística Básica, 5a. ed., São Paulo: Saraiva, 2006.

MORETIM, P.A.; TOLOI, C.M.C. Análise de Séries Temporais, 2ª ed., São Paulo: Edgard

Blücher, 2006.

SILVA, NN. Amostragem Probabilística. 2ª ed., São Paulo: Editora da Universidade de São

Paulo, 2001.