3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: .3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos:

  • View
    212

  • Download
    0

Embed Size (px)

Text of 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: .3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos:

  • 3. ANLISE DESCRITIVA DE DADOS

    3.1. Conceitos:

    Parmetro Populacional: normalmente denotado por , uma

    caracterstica populacional de interesse, que pode ser expressa

    atravs de uma quantidade numrica. Normalmente desconhecido

    e fixo.

    Estatstica: uma medida numrica, que descreve uma

    caracterstica da amostra.

    A Estatstica uma funo da amostra: S = f(X1, X2, . . . , Xn)

    X1, X2, . . . , Xn representam as n observaes da amostra

    Exemplos de estatsticas mdia amostral:

    n

    XX

    n

    ii

    1

    varincia amostral:

    1

    1

    2

    2

    n

    XX

    s

    n

    ii

    min = valor mnimo da amostra

    denotado por X(1)

    max = valor mximo da amostra

    denotado por X(n)

    PARMETROS E ESTATSTICAS

    Nome ESTATSTICA

    (Amostra)

    PARMETRO

    (Populao)

    Mdia X Varincia s

    2

    2

    Correlao rX,Y X,Y Proporo p p

  • Varivel: caracterstica desconhecida, que pode variar de um indivduo para outro da populao e que, ao ser observada ou

    mensurada, gera uma nica resposta.

    Tipos de variveis:

    a) Variveis qualitativas: variveis cujos possveis resultados so atributos ou qualidades. So NO NUMRICAS.

    Podem ser classificadas em:

    i) ORDINAIS, quando obedecem a uma ordem natural ou ii) NOMINAIS, quando no obedecem nenhuma ordem.

    b) Variveis quantitativas: variveis cujos possveis resultados so valores numricos resultantes de mensurao ou contagem.

    Podem ser classificadas em:

    i) DISCRETAS, quando assumem valores inteiros, ou ii) CONTNUAS, quando assumem valores reais.

  • 3.2. Representao de variveis quantitativas em tabelas e

    grficos

    O grfico de pontos a primeira representao da amostra,

    fornecendo um aspecto visual da concentrao e distribuio dos

    pontos na nossa escala de medidas.

    No exemplo abaixo, percebemos o conjunto de dados

    concentrado na primeira metade da escala, com uma grande

    concentrao entre os valores 2,5 e 7,5, e uma disperso mais

    acentuada no lado superior (direito) da distribuio, com valores

    chegando a 17,5. Esta disperso indica uma forte assimetria na

    cauda superior da distribuio (assimetria direita).

    Figura 1: Grfico de pontos.

  • Uma forma prtica de representao grfica para dados

    quantitativos (em especial dados contnuos) dada pelo

    histograma, no qual, representamos as frequncias de uma tabela por barras adjacentes em intervalos de classes.

    Tabela 1: Tabela de frequncias com k = 7 classes:

    Classe (Xi) ni fi

    0,0 |--- 2,5 34 0,136

    2.5 |--- 5,0 74 0,296

    5,0 |--- 7,5 86 0,344

    7,5 |--- 10,0 30 0,120

    10,0 |--- 12,5 16 0,064

    12,5 |--- 15,0 5 0,020

    15,0 |--- 17,5 5 0,020

    Total 250 1,000

    Figura 2: Histograma sobre o grfico de pontos.

  • O Polgono de Frequncias

    Marcando o ponto mdio de cada retngulo do histograma na sua

    na parte superior e ligando esses pontos, teremos uma figura que

    chamaremos de Polgono de Frequncias (Figura 3).

    Figura 3: Polgono de frequncias.

    As linhas retas que compem o polgono de frequncias so

    uma aproximao rudimentar para uma curva que representa uma

    Distribuio de Frequncias. Essa distribuio descrita por uma

    funo f(x), contnua e diferencivel, definida num intervalo dos

    reais, a qual ser denotada por funo distribuio de

    probabilidades ou fdp (Figura 4).

  • Figura 4: Funo de distribuio de probabilidades sobre o histograma.

  • 3.2.1. Tabelas de frequncias de variveis quantitativas

    Para a representao de dados quantitativos em tabelas utiliza-se a

    mesma notao usada para dados qualitativos, porm, nesse caso os

    dados so agrupados em intervalos de classes:

    n = tamanho da amostra ou frequncia absoluta total;

    k = nmero de classes;

    ni = frequncia absoluta da i-sima classe, i = 1, 2, ..., k;

    nnk

    ii

    1

    fi = frequncia relativa da i-sima classe, i = 1, 2, ..., k;

    n

    nf ii , tal que: 1

    11

    k

    i

    ik

    ii

    n

    nf

    Representao das frequncias das categorias da varivel

    qualitativa numa tabela com as frequncias absolutas e relativas.

    Classes Freq. absolutas Freq. relativas

    Classe 1 n1 f1 = n1 / n

    Classe i ni fi = ni / n

    Classe k nk fk = nk / n

    Totais n 1

    Um fato importante agora a determinao do nmero de classes

    k, que deve ser feita levando-se em conta a quantidade total de informao ou frequncia absoluta n.

  • i) Regras para o nmero de classes k

    Diversos autores indicam regras diferentes para a determinao

    do nmero de classes para uma distribuio de frequncias e,

    consequentemente, o histograma. Na tabela abaixo, so

    apresentados as principais regras encontradas na literatura que

    levem em conta apenas o tamanho da amostra n.

    Tabela 2: Regras para o nmero de classes de uma distribuio

    de frequncias.

    Regra Propriedades

    Raiz quadrada de n

    nk

    Apropriado como valor inicial, fornece

    valores baixos para n pequeno (n < 50).

    Pode ser indicado para valores de n entre

    80 e 120.

    Raiz quadrada de 2n

    nk 2

    Apropriado para valores baixos de n,

    cresce muito rpido para valores

    moderados (n > 50).

    No indicado para n > 80.

    Regra do Logaritmo natural

    nk ln3

    Muito parecido com o mtodo de Sturges,

    fornece valores ligeiramente maiores para

    n pequeno, porm a situao se inverte

    para n >120.

    Indicado para valores elevados de n.

    Sturges

    nk 10log32.31

    O mtodo mais consagrado fornece valores

    baixos para n pequeno, e cresce muito

    devagar.

    Indicado para valores elevados de n.

  • De maneira geral, indicado bom senso na determinao do

    nmero de classes de um histograma.

    O nmero de classes deve ser moderado.

    Como h um agrupamento de valores nas classes, h perda de informao.

    Se o nmero de classes for muito grande ocorre uma perda menor de informao, mas a eficincia do resumo fica

    prejudicada;

    Um nmero muito pequeno de classes resume demais e ocorre perda excessiva de informao.

    Tabela 3: Nmero indicado de classes num histograma.

    n classes

    at 50 5 a 10

    50 a 100 8 a 16

    100 a 200 10 a 20

    200 a 300 12 a 24

    300 a 500 15 a 30

    500 ou mais 20 a 40 Fonte: Sistema Galileu, ESALQ/USP

  • 3.2.2. Histograma para dados Contnuos

    Exemplo 1: Altura (em metros) dos alunos da turma B de

    Bioestatstica no primeiro semestre de 2015.

    X = altura dos alunos (em metros).

    1,62 1,60 1,60 1,65 1,60 1,73 1,78 1,72 1,62 1,58 1,65

    1,81 1,62 1,63 1,67 1,65 1,80 1,75 1,80 1,70 1,65 1,80

    1,76 1,60 1,57 1,65 1,70 1,73 1,75 1,65 1,70 1,66 1,74

    1,51 1,63 1,55 1,58 1,56 1,80 1,75 1,67 1,58 1,77

    Dados ordenados 1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60

    1,62 1,62 1,62 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65

    1,66 1,67 1,67 1,70 1,70 1,70 1,72 1,73 1,73 1,74 1,75

    1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81

    Construindo a tabela de frequncias:

    a) Nmero de classes (frmula de Sturges):

    k = 1 + 3,32log10(n)

    k = 1 + 3,32log10(43) = 6,43 = 7 classes (6 ou 7)

    b) Amplitude da classe:

    A = 1,51 1,81 = 0,30 0428,07

    30,0h

    Podemos arredondar h para 0,043 ou para um valor mais

    apropriado, no caso 0,05.

  • c) Tabela de frequncias:

    Classe (m) ni fi Fac 1,50 [--- 1,55 1 0,0233 1

    1,55 [--- 1,60 6 0,1395 7

    1,60 [--- 1,65 9 0,2093 16

    1,65 [--- 1,70 9 0,2093 25

    1,70 [--- 1,75 7 0,1628 32

    1,75 [--- 1,80 6 0,1395 38

    1,80 [--- 1,85 5 0,1163 43

    Total 43 1,0000 -

    Figura 5: Histograma feito no Excel

  • Histograma feito no R.

    Comandos do R para histograma:

    # inserindo os dados

    altura

  • # definindo os intervalos para o histograma

    # 1. Caso:

    h1

  • Exemplo 2: Medidas do pH em precipitao pluviomtrica durante

    o perodo de 20/12/1973 a 23/05/1974 no nordeste dos Estados

    Unidos.

    X = medida do pH em amostras de chuva.

    Dados ordenados 4,12 4,12 4,26 4,26 4,29 4,30 4,31 4,39 4,39 4,40

    4,41 4,45 4,52 4,56 4,57 4,60 4,63 4,64 4,73 4,82

    5,08 5,29 5,51 5,62 5,67 5,78

    a) Nmero de classes (frmula de Sturges):

    k = 1 + 3,322log10(26) = 5,70 = 6 classes (5 ou 6)

    b) Amplitude da classe:

    A = 5,78 4,12 = 1,66 28,06

    66,1h

    c) Tabela de frequncias:

    Classe - pH ni fi Fac

    4,12 [--- 4,40 9 0,346 0,346

    4,40 [--- 4,68 9 0,346 0,692

    4,68 [--- 4,96 2 0,077 0,769

    4,96 [--- 5,24 1 0,038 0,807

    5,24 [--- 5,52 2 0,077 0,884

    5,52 [--- 5,80 3 0,115 0,999

    Total 26 0,999 * -

    * o valor 0.999 ocorreu devido ao arredondamento na preciso considerada (3 casas).

  • 5.805.525.244.964.684.404.12

    9

    8

    7

    6

    5

    4

    3

    2

    1

    0

    pH

    Fre

    qu

    en

    cia

    Histograma do pH da chuva

    Comandos do R para histograma:

    # i