Unidade 2 - Estatística descritiva (Tabelas Dist Frequência) I

Preview:

Citation preview

Aula 2Estatística Descritiva

Parte IOrganização dos dados

Dsitribuição de frequências

1. Introdução

Considere a seguinte situação.Você desenvolveu um experimento em 20 pés de milho cultivados em casa de vegetação, para testar o efeito de um inseticida orgânico sobre pulgões.

2. Organização dos dados

45, 41, 42, 41, 42, 43, 44, 41 , 50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51

Após quatro dias de aplicação do inseticida você anotou o número de pulgões mortos em cada planta.

Qual a variável em análise?

Relembrando a aula passada ...

Qual a unidade de observação?

Qual a natureza da variável em análise?

Retornando à aula de hoje ...

A coleta de dados é o início da análise estatística, pois fornece o material bruto que se quer estudar.

É função do pesquisador transformar os dados brutos em um conjunto organizado de informações.

Ao anotar o número de pulgões mortos em cada pé de milho você realizou uma coleta de dados.

Como organizar e apresentar os dados obtidos no seu

experimento?A organização e apresentação dos dados pode ocorrer, basicamente, de duas maneiras:

apresentação tabular: é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de Estatística.

apresentação gráfica: constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.

3. Tabela de distribuição de frequências

Um procedimento inicial para organizar e agrupar os dados dispersos referentes a uma variável é através de uma : TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS

Tabela de distribuição de frequências é um instrumento que resume a informação contida na amostra, referente a uma dada variável, ordenando os valores e agrupando-os em classes. A tabela de distribuição de frequências pode ser utilizada para organizar dados referentes a variáveis quantitativas ou qualitativas.

3.1 Tabela de distribuição de frequências – variável qualitativa

Para construir uma distribuição de frequências dos dados de uma variável qualitativa basta contar a quantidade de resultados observados em cada categoria.

Como exemplo admita uma pesquisa que tem por objetivo descrever como os produtores de mamona realizam a adubação ou trato nutricional do solo antes do plantio dessa oleaginosa.

Para tanto, o pesquisador perguntou a 118 produtores:

Que tipo de adubação realiza antes do plantio da mamona?

As opções de resposta foram: ( ) sem adubação ( ) adubação química ( ) adubação orgânica

As respostas obtidas encontram-se resumidas na tabela de distribuição de frequências abaixo

Distribuição de freqüência dos produtores de mamona em relação ao trato nutricional da terra.

 Freqüência Absoluta Freqüência

Relativa (%)Sem adubação

110 93,22

Orgânica 7 5,93Química 1 0,84Total 118 100,00Fonte: Dados da pesquisa.

3.2 Tabela de distribuição de frequências – variável quantitativa

Tabela de frequências para dados não agrupados em classes com intervalos.

Tabela de frequências para dados agrupados em classes com intervalos

A Tabela de distribuição de frequências associada a uma variável quantitativa pode ser classificada de duas formas

3.2.1 Tabela de distribuição de frequências para dados agrupados SEM intervalos de classes.

É a simples condensação dos dados conforme as repetições de seu valores.

Retornado ao seu experimento com insetida orgânico para combater pulgões em pés de milho, a organização dos 20 dados - referentes à variável número de pulgões mortos - em uma tabela de distribuição de frequências com dados não agrupados em intervalos de classes segue o seguinte procedimento:

No exemplo dado anteriormente

45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51

1) ROL: É a ordenação dos dados (crescente ou decrescente).

ROLEx : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60

Valores observados Freqüência

41 342 243 144 145 146 250 251 152 154 157 158 260 2

2) Contagem do número de ocorrências ou frequência de cada valor observado

Existem situações em que organizar os dados em uma tabela de distribuição de frequências para dados não agrupados em intervalos torna-se inviável, simplesmente porque o banco de dados é composto por um grande número de dados distintos.Isto é muito comum em variáveis quantitativas contínuas: Altura Peso TemperaturaAssim, para facilitar a análise dos dados, convém organizá-los em um tabela de distribuição de frequências para dados agrupados em classes com intervalos.

3.2.2 Tabela de distribuição de frequências para dados agrupados EM intervalos de classes.

a) Elementos de uma distribuição de frequências com intervalos de classe: i) CLASSES São os intervalos de variação da variável.

Cada classe é simbolizada por i e o número total de classes simbolizado por k.

Intervalos de Classe

Frequências

41 — 45 7 45 — 49 3 49 — 53 4 53 — 57 1 57 — 61 5 Total 20

Ex: na tabela abaixo k = 5 e 49 |------- 53 é a 3ª classe, onde i = 3

b) Como definir o número de classes?

i) REGRA DE STURGES para determinação do número de classes:Essa regra estabelece que o número de classes é igual a:k = 1 + 3,3 log nsendo k = número de classes e n = nº total de observações Exemplo: a) Se o número de observações for 500: n = 500 k = 1 + 3,3 log(500) = 1 + 3,3(2,699) = 9,907 k = 9,907 ou arredondando k = 10

ii) Regra do Quadrado:

K = √nK = √500 > 20

Os valores encontrados por meio dos métodos sugeridos não são próximos. Qual a melhor regra?Na prática, o pesquisador deve utilizar o bom senso. As regras apenas auxiliam na decisão.

“ Uma regra de bolso diz que as tabelas de distribuição de freqüências devem ter de 5 a 20 classes, pois abaixo de 5 está se perdendo informação preciosa diluída nas classes e acima de 30 o nível de detalhamento torna-se exagerado e pouco eficaz. Alguns autores sugerem que a distribuição intervalar tenha de 5 até 16 classes .”

c) Limites das classes

São os extremos de cada classe. O menor número é o limite inferior de classe (l) e o maior número, limite superior de classe(L).

Ex: em 49 |------- 53... l3= 49 e L3= 53.

O símbolo |------- representa um intervalo fechado à esquerda e aberto à direita.

O dado 53 do ROL não pertence à classe 3 e sim à classe 4 representada por 53 |------- 57.

Classes Frequências 41 — 45 7 45 — 49 3 49 — 53 4 53 — 57 1 57 — 61 5 Total 20

d) Amplitude do intervalo de classe (hi)

É a diferença entre o limite superior e o limite inferior de uma classe

é simbolizada por hi = Li - li. Ex: na tabela anterior hi= 53 - 49 = 4. Obs: Na distribuição de freqüência c/ classes hi será igual em todas as classes.

e) Amplitude total da distribuição

É a diferença entre o limite superior da última classe e o limite inferior da primeira classe.

AT = L(max) - l(min). Ex: na tabela AT = 61 - 41= 20.

Classes Frequências 41 — 45 7 45 — 49 3 49 — 53 4 53 — 57 1 57 — 61 5 Total 20

f) Amplitude total da amostra

É a diferença entre o valor máximo e o valor mínimo da amostra (ROL). Onde AA =

Xmax - Xmin. Ex: AA = 60 - 41 = 19. Obs: AT sempre será maior que AA.

g) Ponto médio de classe

É o ponto que divide o intervalo de classe em duas partes iguais. Ex: em 49 |------- 53 o ponto médio x3 = (53+49)/2 = 51, ou seja, x3 = (l3+L3)/2.

4 Método prático para construção de uma dist. De frequências c/ classe

1º - Organize os dados brutos em um ROL.

2º - Calcule a amplitude amostral AA.No nosso exemplo: AA =60 - 41 =19

3º - Calcule o número de classes (k) {k = n1/2}

4º - Decidido o nº de classes calcule a amplitude do intervalo de classe h > AA/k.No exemplo: AA/k= 19/5 = 3,8 . Obs1: Como h > AA/i é um valor ligeiramente superior para haver folga na última classe. Utiliza-se h = 4

Obs2: Relembrando, qualquer regra para determinação do nº de classes da tabela não nos leva a uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza dos dados.

No exemplo: n = 20 dados, então , em princípio, a regra sugere a adoção de 5 classes.

5º - Temos então o menor nº da amostra, o nº de classes e a amplitude do intervalo. Podemos montar a tabela, com o cuidado para não aparecer classes com freqüência = 0 (zero).

No nosso exemplo: o menor dado da amostra = 41, h = 4 Logo a primeira classe será representada por 41 |------- 45. As classes seguintes respeitarão o mesmo procedimento.

Definidas as classes da tabela as colunas seguintes serão representadas pelas seguintes frequências:

1.Frequência absoluta2.Frequência relativa3.Frequencia acumulada absoluta4.Frequência acumulada relativa

5 Tipos de frequências

Frequência simples ou absoluta (fi): é o número de observações de um valor individual (ou de uma classe).

A soma das freqüências simples é igual ao número total dos dados da distribuição.

ClassesFrequência absoluta (fi)

Frequência relativa

(fr)

Frequência acumulada

(fac)

Frequência acumulada

relativa (facr)

41 — 45 7 35 7 3545 — 49 3 15 10 5049 — 53 4 20 14 7053 — 57 1 5 15 7557 — 61 5 25 20 100Total 20 100

Frequência relativa (fr): representa a proporção de observações de um valor (ou de uma classe) em relação ao número total de observações.

Fr = fi/∑fi *100A soma das freqüências relativas é igual a 1 (100 %).

ClassesFrequência absoluta (fi)

Frequência relativa

(fr)

Frequência acumulada

(fac)

Frequência acumulada

relativa (facr)

41 — 45 7 35 7 3545 — 49 3 15 10 5049 — 53 4 20 14 7053 — 57 1 5 15 7557 — 61 5 25 20 100Total 20 100

Frequência acumulada absoluta (faci): é a soma de todas as frequências absolutas abaixo do limite superior de uma classe considerada.

ClassesFrequência absoluta (fi)

Frequência relativa

(fr)

Frequência acumulada

(fac)

Frequência acumulada

relativa (facr)

41 — 45 7 35 7 3545 — 49 3 15 10 5049 — 53 4 20 14 7053 — 57 1 5 15 7557 — 61 5 25 20 100Total 20 100

F4 = f1 + f2 + f3 + f4 = 7 + 3 + 4 + 1 = 15

Freqüência acumulada relativa de um classe (Fri):é a freqüência acumulada da classe, dividida pela freqüência total da distribuição.

Fri = Fi/∑Fi *100

ClassesFrequência absoluta (fi)

Frequência relativa

(fr)

Frequência acumulada

(fac)

Frequência acumulada

relativa (facr)

41 — 45 7 35 7 3545 — 49 3 15 10 5049 — 53 4 20 14 7053 — 57 1 5 15 7557 — 61 5 25 20 100Total 20 100

Concluindo, uma distribuição de frequencias permite diferentes análises. No exemplo do número de pulgões mortos em cada pé de milho:O total de plantas com o maior número de pulgões mortos;Quantas plantas estão em determinado intervalo; O percentual de plantas contidas em determinado intervalo;

O percentual acumulado de plantas até um determinado número de pulgões mortos.

6 Representação gráfica de uma distribuição de frequências

Histograma

Polígono de freqüência

Ogiva

.

Em todos os gráficos citados utilizamos o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas) colocamos os valores da variável e na linha vertical (eixo das ordenadas), as freqüências.

Histograma

É formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe.

A área de um histograma é proporcional à soma das freqüências simples ou absolutas.

Polígono de freqüência

É um gráfico em linha, sendo as freqüências marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. Para realmente obtermos um polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da distribuição.

Ogiva

É o gráfico usado na representação gráfica da distribuição de freqüências acumuladas de uma variável contínua.

Para a construção da ogiva, são usadas as freqüências acumuladas (absolutas ou relativas) no eixo vertical e os limites superiores de classe no eixo horizontal.

Resolva exercícios referentes a esta unidade.

Recommended