Aná lise T T – esumo - SEstatNet . Ensino-Aprendizagem ... · ... [email protected] ... Mas olhando da maneira como deve ser olhada, vamos calcular o desvio padrão nesse

Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013

Aná lise QTQT – Resumo

Diferentemente da análise quali-quali, a análise quanti-quanti não trabalha com categorias e

sim com variáveis numéricas. Por exemplo, as notas de cada aluno de uma turma podem ser

consideradas um exemplo de varíavel Quanti.

Para relacionarmos duas variáveis QT (como as notas de um aluno na primeira prova com a

nota do aluno na segunda prova), não basta fazermos apenas uma tabela de contingência, já

que agora há muitas respostas diferentes e elas têm um valor numérico.

Porém, como nós trabalhamos com números em matemática? Construindo gráficos e vai ser

seguindo esse raciocínio que trabalharemos com essa análise (sim, aquelas coisinhas chatinhas

de física experimental retornarão aqui com tudo).

Exemplos de variáveis quanti

Exemplo 1

Família Renda mensal Número de filhos

1 R$50.000 1 2 R$35.000 1 3 R$10.000 2 4 R$5.000 3 … … … 100 R$650 8

Nesse caso, ao contrário do que se possa imaginar, nota-se que, quanto menor a renda, maior

o número de filhos, havendo, possivelmente, uma relação de dependência negativa, isto é,

inversamente proporcional.

Exemplo 2

Time Ingles Títulos Nacionais Títulos internacionais

Manchester United 21 3 Liverpool 18 5 Arsenal 13 0 Everton 9 0 Aston Villa 7 1 Chelsea 4 1 Nottingham Forest 1 2

Nota-se que, na Inglaterra, parece que não há praticamente nenhuma correlação entre a

quantidade de títulos nacionais com a de internacionais. Pode-se supor que os maiores

campeões detêm mais títulos, mas isso se quebra com a quantidade de Chelsea e Nottingham

Forest.


Exemplo 3

Aluno Média no Terceirão Pontos no vestibular

1 8,5 66,7 2 4,7 40,3 3 6,2 54,8 4 9,8 45,3 5 3,4 41,8 6 10,0 81,2 … … … 1000 5,6 Rodou na redação

Nota-se que há certa correlação entre os valores, mas não muito forte, o que pode indicar

algumas interferências externas.

Tipos de Variáveis Quanti Lembram que na análise QLQL havia dois tipos (nominal e ordinal)? Não importa, apenas saiba

que na variável QT QT também tem dois tipos. Seguem eles:

Variável Quanti Contínua O que a palavra contínua te lembra? Olhe para as duas retas abaixo e pense em qual será

contínua.

Intuitivamente, e isso está certo, vem a variável laranja na cabeça. Agora passando pela análise

estatística, uma QT contínua é aquela que assume qualquer valor dentro de um intervalo

proposto, não apresentando buracos entre eles.

O exemplo disso é o peso de uma pessoa, pode ser 62 kg; 53,4 kg; 39,57 kg, etc… Dentro de

um limite de precisão numérica, isso pode variar em qualquer valor.

Dentre as variáveis quanti dos exemplos, são contínuas:

A renda mensal (com o mundo dos cartões de crédito, até frações de centavos podem

estar inclusas)

A média no terceirão (claro que tem algum arredondamento, mas não há restrição de

valores)

Os pontos no vestibular (idem à média)

Variável Quanti Discreta Ainda olhando para as retas, a discreta corresponde à azul. Ou seja, uma QT será discreta

quando há valores que ela não pode assumir. Normalmente uma QT contínua apresenta

números inteiros.


Um exemplo que não é de inteiros é a média final na UFSC. Os valores vão de meio em meio,

não podendo assumir valores entre eles.

Dentre os meus exemplos, são discretas:

O número de filhos (não existe 3,5 filhos; pense na hora que fizer a média, sempre

haverá restrições)

O números de títulos nacionais e internacionais (idem aos filhos, ninguém tem meio

título).

Gráfico entre as variáveis Como eu citei antes, para relacionar duas variáveis QTQT, primeiro devemos fazer um gráfico

relacionando todas elas.

Mas como podemos fazer isso? Primeiro devemos avaliar a dependência:

Dependência entre variáveis Primeiro precisamos relembrar o conceito de variável dependente e independente que eu

passei em QLQL:

Colei direto do PDF.

Agora vamos verificar a dependência em cada uma dos exemplos:

Na primeira, gostaríamos de saber se o número de filhos depende da renda. Assim,

filhos é a DEPENDENTE e renda é a INDEPENDENTE

Na segunda, depende do que se quer saber, pode ser tanto uma quanto outra.


Na terceira, queremos saber se os pontos no vestibular dependem da nota do

terceirão. Assim, pontos é DEPENDENTE e notas INDEPENDENTE.

Construção do Gráfico Agora vamos para a matemática do Gráfico: O eixo x corresponde às variáveis independentes e

o eixo y às dependentes. Assim, é só marcar cada ponto ligando o x com o y até formar uma

malha.

Em seguida, via ajuste linear (calculadora ou SESTAT), basta traçar a melhor reta entre eles:

Note que, no primeiro, há uma aderência muito mais forte à melhor reta do que no segundo.

Intuitivamente, percebe-se que há uma correlação maior no primeiro do que no segundo. Esta

correlação também pode ser negativa.

Alguns conceitos

Mediana Divide os valores em dois, é o valor central da análise, o centro geométrico da estrutura. Como

vemos isso?

O primeiro passo é colocar todos os termos de cada variável em ordem crescente ou

decrescente de valor. Depois se pode fazer uma análise visual ou calculada. Vamos pegar como

exemplo os títulos nacionais lá de trás:


Time Ingles Títulos Nacionais

Manchester United 21 1

Liverpool 18 2

Arsenal 13 3

Everton 9 MEDIANA

Aston Villa 7 3

Chelsea 4 2

Nottingham Forest 1 1

Ou também veja esse:

Cidade Renda Per capita

Florianópolis 10.000 1

Criciúma 6.400 2

Rio do Sul 5.600 2

Alfredo Wagner 150 1

Nesse caso, a mediana é a média das duas centrais (Criciúma e Rio do Sul) = (6.400 + 5.600)/2

= 6.000

Note que a mediana é um centro GEOMÉTRICO, independente dos outros valores, só valendo

o valor (ou valores) centrais.

Como cálculo, a posição da mediana será assim:

Ímpar: POSIÇÃO DA MEDIANA = (n+1)/2

o Vamos conferir ali em cima, tem 7 times ingleses, então (7+1)/2 = 4. Fechou, o

Everton é o quarto

Par: POSIÇÃO DA MEDIANA = Média entre os valores (n+2)/2 e n/2

o Conferindo, tem 4 cidades, então (4+2)/2 = 3 e 4/2 = 2. Assim, a mediana é a

média entre esses dois (no caso Criciúma e Rio do Sul). Fechou.

Moda É o valor que mais se repete dentro de uma análise. Pode haver somente uma moda

(unimodal), nenhuma moda (amodal) e mais de uma moda (multimodal).

Exemplo 1

Família Renda mensal Número de filhos

1 R$50.000 1 2 R$35.000 1 3 R$10.000 2 4 R$5.000 3 5 R$650 8

Mediana


Olhando para esse exemplo, verifica-se que a Renda é amodal (nenhum valor se repete) e o

número de filhos é unimodal (o 1 se repete).

Média É o ponto de equilíbrio de um conjunto, algo que pode ser considerado como um centro de

massa. É um número representativo e depende dos valores em si e não só da sua ordem.

Vamos para um exemplo:

Time Ingles Títulos Nacionais

Manchester United 21 1

Liverpool 18 2

Arsenal 13 3

Everton 9 MEDIANA

Aston Villa 7 3

Chelsea 4 2

Nottingham Forest 1 1

A média é a média entre os valores (darrrr).

Então vamos lá, calculando na calculadora pelo modo estatístico (se lembram?) ou

simplesmente somando e dividindo, temos:

Média = (21+18+13+9+7+4+1)/7 = 73/7 = 10,43 ~~ 10

Já a Mediana foi 9, mostrando que elas não são iguais, apesar de aparentemente próximas.

Desvio padrão e Variância O variância é a dispersão dos valores, isto é, o quanto eles se afastam da média. O desvio

padrão é a sua raiz quadrada. Quanto maior esses valores, naturalmente, maior a

variabilidade.

Intuitivamente, pense assim:

Variável 1: 5-6-7-8-9

Variável 2 : 3-5-7-9-11

Observe que a média das duas é 7, mas a variável dois tem valores que destoam muito mais da

média, tendo, portanto, um maior desvio padrão e uma maior variância.

Mas como calculamos isso? Simples, use a calculadora no modo estatístico que ele calcula para

ti (lembra de Física experimental), abra o manual e olhe.

Mas olhando da maneira como deve ser olhada, vamos calcular o desvio padrão nesse

exemplo com a tabelona:


Refeições diárias Desvio Local (valor – média)

Desvio ao quadrado

2 -1 1

5 +2 4 2 -1 1

MÉDIA = 3 SOMA DOS DESVIOS AO QUADRADO = 5

Usamos o quadrado para evitar os cancelamentos dos desvios, para atenuar as pequenas

diferenças e acentuar as grandes (Dá-lhe Peters!)

Assim, a variância é a soma dos desvios ao quadrado dividido por n-1 (no caso 2). Assim, a

variância é 2,5. Como o desvio padrão é sua raiz quadrada, ele é 1,58.

Coeficiente de Variação É simplesmente o desvio padrão pela média. É uma maneira mais concreta de avaliarmos a

variabilidade, quando comparamos duas variáveis diferentes, já que valores pequenos

naturalmente terão um desvio muito menor.

Valores discrepantes É o famoso ponto fora da reta, que pode puxar toda a correlação para baixo, devendo tira-lo

ou não da relação, conforme os nossos desejos de análise. Valores discrepantes podem

aumentar o desvio padrão, prejudicando todos os conceitos.

Veja o exemplo:

Cidade Renda Per capita

Florianópolis 10.000 Criciúma 6.400 Rio do Sul 5.600 Alfredo Wagner 150

Nota-se que Alfredo Wagner apresenta um valor muito diferente dos outros (naturalmente),

podendo ser considerado, visualmente, um valor discrepante. Porém, precisamos de um

cálculo mais específico, que será visto mais tarde.

Variáveis pareadas Um conjunto de variáveis é pareado quando elas representam uma mesma medição, mas em

tempos diferentes. Por exemplo, se eu medir o meu peso hoje e daqui a 1 mês, será uma

variável pareada. Para variáveis pareadas, não se pode aplicar os testes QTQT de Pearson e

Sperman e sim fazer a diferença entre os dois valores e aplicando um teste de média.

Diagrama de Caixas Outra maneira de organizar uma variável QTQT (isoladamente), é através do diagrama de

caixas. E será ele que guiará praticamente toda a análise.


Ele é um diagrama que mostra a distribuição entre os valores mínimos, máximos, dividindo

todas as variáveis em quatro. Aqui está um desenho de um deles.

Quartis Os quartis são as divisões geométricas de uma variável quanti, separando todos os valores em

QUATRO blocos, independente dos seus valores.

Abaixo do primeiro quartil está um quarto dos valores. Acima do terceiro quartil está outro

quarto e entre eles a metade restante, sendo dividida ao meio pela mediana (o segundo

quartil)

Muito abstrato e confuso? Vamos ver num exemplo básico para verificarmos:

5 8 9 11 12 19

Qual a mediana? É o valor central. Como é par, é a média entre 9 e 11, portanto 10:

5 8 9 11 12 19

Agora vamos dividir os outros quartis, que são a ‘metade da metade’

5 8 9 11 12 19

Assim, o primeiro quartil será 8 e o terceiro quartil será 12.

Note que a distância do início a cada quartil e entre os quartis é sempre de uma casa. Assim,

conseguimos dividir a estrutura exatamente em quatro.

Mediana = 10 (segundo quartil)



Discrepantes em um diagrama de caixa Chegou o momento. Para avaliarmos aos valores discrepantes usando o diagrama de caixas,

precisamos fazer a diferença entre o primeiro e o terceiro quartil, obtendo um número dq, isto

é, uma distância entre eles. Em seguida, multiplicamos o valor por 1,5 (1,5dq), somando esse

valor ao terceiro quartil e subtraindo do primeiro. O que estiver acima dessa soma e abaixo

dessa diferença será um valor discrepante.

CALMA! VAMOS RESPIRAR!

Pronto, agora façamos tudo com o exemplo acima, devagarinho:

Qual a distância dq entre o primeiro e o terceiro quartil?

o PQ = 8

o TQ = 12

o Assim, a diferença é 12-8 = 4

o Assim, dq = 4

Multiplica-se esse valor por 1,5

o 4*1,5 = 6

o Assim, 1,5dq = 6

Soma-se isso ao terceiro quartil e subtrai do primeiro

o TQ + 1,5dq = 12+6 = 18 (limite superior)

o PQ – 1,5dq = 8-6 = 2 (limite inferior)

Verifiquemos se há discrepâncias

o Valores acima de 18 = 19 [portanto 19 é um valor discrepante]

o Valores abaixo de 2 = nenhuma (não há valores discrepantes para baixo)

Ficou mais claro? Espero que sim. O SESTAT calcula para ti esses discrepantes.

Montando um diagrama de Caixas Para montar o diagrama de caixas, nós vamos utilizar a divisão dos quartis que estabelecemos

e verificar as discrepâncias. Ele segue o seguinte:

Discrepante inferior = limite inferior de discrepância (calculado em 2)

Valor mínimo = pé do gráfico, é o menor valor apresentado experimentalmente (no

caso 5)

Primeiro Quartil = representa o início da caixa = (no caso 8)

Mediana = uma barra lateral (calculada em 10)

Média = uma cruzinha (avalia-se os números = 10,6667)

Terceiro quartil = o Fim da Caixa (calculada em 12)

Valor máximo = topo do gráfico, é o máximo valor apresentado experimentalmente

(no caso 19)

Discrepante superior = limite superior de discrepância (calculado em 18)

Agora observem o diagrama de caixas abaixo (se quiserem ver melhor é só ampliar o

Word)


Porém, nota-se que, nesse caso, resolvemos MANTER os valores discrepantes na análise, para

ficar mais didático. Porém, numa análise mais correta, dever-se-ia eliminar o 19 e fazer toda

aquela análise dos quartis de novo, naturalmente, sem precisar calcular o dq.

Vamos lá então

5 8 9 11 12

Assim, o primeiro quartil deve dividir os valores da mediana para baixo em dois (incluindo ela

mesma). Como temos 5, 8 e 9, o primeiro quartil é 8.

Da mesma maneira, o terceiro quartil é os valores da mediana para cima (incluindo ela). Como

temos 9, 11 e 12, o terceiro quartil é 11

5 8 9 11 12

PQ TQ

Assim:

Valor mínimo experimental = 5

Primeiro Quartil = 8

Mediana = 9

Média = 9

Terceiro quartil = 11

Valor máximo = 12

Observe que, nesse caso, a mediana deu igual à média, isso é uma das características de uma

distribuição normal, que estudaremos a seguir.




Modos de distribuição Caso plotemos todos os valores num eixo horizontal, eles podem se comportar de maneira

simétrica ou assimétrica; denotando uma maior ou menor variabilidade (se estiverem

aglutinados em torno da média tem menor variabilidade).

Assim há várias funções que podem revelar o comportamento de uma variável. Há funções

com o caráter triangular, trapezoide. Aplicando-se, portanto, várias f(x) nos valores

apresentados, poderemos ver em qual eles apresentam maiores aderências.

Distribuição Normal O modelo de distribuição normal corresponde a uma f(x) complicada na qual os valores são

simétricos (isto é, a mediana é igual à moda), e ela apresenta o formato de um sino. Também é

conhecida como distribuição gaussiana.

Para verificar se uma distribuição é ou não normal, faz-se necessário aplicar o teste Qui2 de

aderência, isto é, verificar se o modelo de distribuição encaixa ou não no modelo normal.

Probabilidade em QTQT A probabilidade de ocorrência de uma frequência na distribuição normal, ou em qualquer

outro gráfico de distribuição de uma quantitativa corresponde à área em baixo do gráfico.

Assim, quando maior for a área, maior a chance de um evento ocorrer.

Dando um exemplo, suponha um mundo onde existe distribuição normal de altura, onde a

média é 1,65 e o desvio padrão é 0,0; pede-se a chance de uma mulher ter a altura superior a

1,70.

Assim, sendo bem simples, basta calcular a integral dessa função, variando de 1,70 a infinito

SOOONHA!

Como vamos remediar isso? Temos uma tabela para isso e precisamos do conceito da Variável

Z.


Variável Z A variável z indica ‘quantos desvios padrões’ tal valor se afasta da média. Como assim?

Olhe no exemplo, a média é 1,65 e o desvio padrão é 0,05. Assim, em uma regra de 3 simples,

verificamos que:

0,05 - ------------------------------ 1 desvio padrão

(1,70-1,65) = 0,05-------------- z desvios padrões

Z = 1 desvio padrão (naturalmente)

Ou melhor, aplique a fórmula direta:

OBS! Se a média é zero e o desvio padrão um, o z é igual ao x, caracterizando uma distribuição normal padrão

Assim, é só verificar a tabela e conferir a probabilidade

O Z deu quanto?

1,00, pegue a 11ª linha preenchida e a 1ª coluna preenchida. Pronto, a probabilidade é 0,1587.

Graus de liberdade Segue o mesmo conceito da QL-QL, sendo a quantidade de medidas livres uma decisão

estatística. Para análise QTQT, é sempre n-1 para avaliarmos uma variável e n-2 para

avaliarmos duas.

Veja o exemplo:


Nota

9 LIVRE

10 LIVRE

8 NÃO LIVRE (= depende das outras duas)

TOTAL = 27

Como o total é sempre fixo, podemos alterar livremente os dois primeiros valores, mas o

último sempre tem que ser igual a 27 menos a soma dos outros dois. Assim, o gL = 3-1 = 2.

Quando se tem duas variáveis, ocorre a mesma coisa, só que teremos duas colunas ao invés de

uma. Assim, exclui-se uma célula de cada coluna.

Teste Qui2 de normalidade O teste qui2 é um teste de hipóteses, fazendo-se necessário supô-las primeiro:

Lembrando que a fórmula do Qui-quadrado continua sendo calculada pela anterior

O (Oi) observado corresponde às frequências que obtivemos (calculadas numericamente),

enquanto o (Ei) esperado é a própria distribuição normal, sendo suas frequências e

probabilidades calculadas pela área, utilizando a variável z. Assim, quanto maior a diferença

entre o observado e o esperado, MENOR é a aderência, entenderam?

Assim, finalmente supondo, já que eu deixei os dois pontos ali atrás ao léu:

H0 = Não há diferença entre a distribuição dos dados (Oi) e o Modelo Normal (Ei)= Há

aderência e, portanto, há normalidade.

H1 = Há diferença = Não Há aderência, portanto, NÃO há normalidade.

Assim, olha-se na tabela do Qui Quadrado (a mesma da QLQL) e descobre o pvalor:


Por fim, verifica-se o teste clássico:

Se pvalor > nível de significância (α), então é H0

Se pvalor < nível de significância (α), então é H1

Teste de Correlação de Pearson Se for confirmada a aderência, deve-se aplicar o teste de correlação de Pearson. Ele avalia o

quanto o coeficiente de correlação (o r da equação da melhor reta) se aproxima de 1 ou -1.

Assim, têm-se as seguintes hipóteses:

1. Temos ideia se a relação é positiva ou negativa

H0 = não há associação entre as variáveis

H1 = há associação entre as variáveis e ela é positiva (ou negativa)

2. Não temos ideia disso

H0 = não há associação entre as variáveis

H1 = há alguma associação entre as variáveis ( mas não sei se é positiva ou

negativa)

Assim, aplicar-se-á o teste de hipóteses da seguinte maneira:

1. Para a primeira, se pvalor > (α), então é H0, caso contrário, H1 (pois só há uma cauda).

2. Para a segunda, se pvalor > (α/2), então é H0, caso contrário, H1 (pois há duas caudas e,

portanto duas áreas, precisando dividi-la por dois).

Mas como chegamos ao pvalor? Simples, utilizamos a medida estatística t, de STUDENT (chega

de nomes, socorro!).

Medida estatística t de Student Sendo uma função absurda e, resumidamente pode ser calculado por


r = coeficiente de correlação (calculadora)

Assim, avaliamos o pvalor também por uma tabela (que está na próxima página).

Teste de Correlação de Spearman Enfim, chegamos ao nosso último ponto. O teste de Spearman só cairá conceitualmente na

prova, mas provavelmente será cobrado nos trabalhos, já que é muito difícil obter um modelo

de aderência normal.

Assim, um modelo de Spearman é feito quando não há um modelo normal de aderência, isto

é, o teste qui-quadrado de normalidade resultou em H1 (não há aderência entre a distribuição

dos dados e o modelo Normal).


Assim, deve-se transformar as variáveis em forma de ranks (ou postos) Como assim? Ao invés

de pegar seu valor absoluto, vamos linkando-as em forma crescentar. Veremos então tal

exemplo:

IDH PIB

0,91 9 bilhões 0,76 8 milhões 0,53 30 pila

Assim, ranqueando-os, temos:

IDH PIB

0,91 3º 9 bilhões 3º

0,76 2º 8 milhões 2º

0,53 1º 30 pila 1º

Para calcular o Rs temos:

Sendo d1 a distância entre os ranks. Note que, quanto menor a diferença, mais o r se aproxima

de 1 e, quanto maior a diferença, mais se aproxima de zero.

Sabendo o rs, utiliza-se os mesmos procedimentos que Pearson para descobrir se há ou não

relação.

Uma equação muito louca

Documents

Aná lise T T – esumo - SEstatNet . Ensino-Aprendizagem ... · ... [email protected] ... Mas olhando da maneira como deve ser olhada, vamos calcular o desvio padrão nesse