Upload
vubao
View
216
Download
0
Embed Size (px)
Citation preview
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Aná lise QTQT – Resumo
Diferentemente da análise quali-quali, a análise quanti-quanti não trabalha com categorias e
sim com variáveis numéricas. Por exemplo, as notas de cada aluno de uma turma podem ser
consideradas um exemplo de varíavel Quanti.
Para relacionarmos duas variáveis QT (como as notas de um aluno na primeira prova com a
nota do aluno na segunda prova), não basta fazermos apenas uma tabela de contingência, já
que agora há muitas respostas diferentes e elas têm um valor numérico.
Porém, como nós trabalhamos com números em matemática? Construindo gráficos e vai ser
seguindo esse raciocínio que trabalharemos com essa análise (sim, aquelas coisinhas chatinhas
de física experimental retornarão aqui com tudo).
Exemplos de variáveis quanti
Exemplo 1
Família Renda mensal Número de filhos
1 R$50.000 1 2 R$35.000 1 3 R$10.000 2 4 R$5.000 3 … … … 100 R$650 8
Nesse caso, ao contrário do que se possa imaginar, nota-se que, quanto menor a renda, maior
o número de filhos, havendo, possivelmente, uma relação de dependência negativa, isto é,
inversamente proporcional.
Exemplo 2
Time Ingles Títulos Nacionais Títulos internacionais
Manchester United 21 3 Liverpool 18 5 Arsenal 13 0 Everton 9 0 Aston Villa 7 1 Chelsea 4 1 Nottingham Forest 1 2
Nota-se que, na Inglaterra, parece que não há praticamente nenhuma correlação entre a
quantidade de títulos nacionais com a de internacionais. Pode-se supor que os maiores
campeões detêm mais títulos, mas isso se quebra com a quantidade de Chelsea e Nottingham
Forest.
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Exemplo 3
Aluno Média no Terceirão Pontos no vestibular
1 8,5 66,7 2 4,7 40,3 3 6,2 54,8 4 9,8 45,3 5 3,4 41,8 6 10,0 81,2 … … … 1000 5,6 Rodou na redação
Nota-se que há certa correlação entre os valores, mas não muito forte, o que pode indicar
algumas interferências externas.
Tipos de Variáveis Quanti Lembram que na análise QLQL havia dois tipos (nominal e ordinal)? Não importa, apenas saiba
que na variável QT QT também tem dois tipos. Seguem eles:
Variável Quanti Contínua O que a palavra contínua te lembra? Olhe para as duas retas abaixo e pense em qual será
contínua.
Intuitivamente, e isso está certo, vem a variável laranja na cabeça. Agora passando pela análise
estatística, uma QT contínua é aquela que assume qualquer valor dentro de um intervalo
proposto, não apresentando buracos entre eles.
O exemplo disso é o peso de uma pessoa, pode ser 62 kg; 53,4 kg; 39,57 kg, etc… Dentro de
um limite de precisão numérica, isso pode variar em qualquer valor.
Dentre as variáveis quanti dos exemplos, são contínuas:
A renda mensal (com o mundo dos cartões de crédito, até frações de centavos podem
estar inclusas)
A média no terceirão (claro que tem algum arredondamento, mas não há restrição de
valores)
Os pontos no vestibular (idem à média)
Variável Quanti Discreta Ainda olhando para as retas, a discreta corresponde à azul. Ou seja, uma QT será discreta
quando há valores que ela não pode assumir. Normalmente uma QT contínua apresenta
números inteiros.
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Um exemplo que não é de inteiros é a média final na UFSC. Os valores vão de meio em meio,
não podendo assumir valores entre eles.
Dentre os meus exemplos, são discretas:
O número de filhos (não existe 3,5 filhos; pense na hora que fizer a média, sempre
haverá restrições)
O números de títulos nacionais e internacionais (idem aos filhos, ninguém tem meio
título).
Gráfico entre as variáveis Como eu citei antes, para relacionar duas variáveis QTQT, primeiro devemos fazer um gráfico
relacionando todas elas.
Mas como podemos fazer isso? Primeiro devemos avaliar a dependência:
Dependência entre variáveis Primeiro precisamos relembrar o conceito de variável dependente e independente que eu
passei em QLQL:
Colei direto do PDF.
Agora vamos verificar a dependência em cada uma dos exemplos:
Na primeira, gostaríamos de saber se o número de filhos depende da renda. Assim,
filhos é a DEPENDENTE e renda é a INDEPENDENTE
Na segunda, depende do que se quer saber, pode ser tanto uma quanto outra.
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Na terceira, queremos saber se os pontos no vestibular dependem da nota do
terceirão. Assim, pontos é DEPENDENTE e notas INDEPENDENTE.
Construção do Gráfico Agora vamos para a matemática do Gráfico: O eixo x corresponde às variáveis independentes e
o eixo y às dependentes. Assim, é só marcar cada ponto ligando o x com o y até formar uma
malha.
Em seguida, via ajuste linear (calculadora ou SESTAT), basta traçar a melhor reta entre eles:
Note que, no primeiro, há uma aderência muito mais forte à melhor reta do que no segundo.
Intuitivamente, percebe-se que há uma correlação maior no primeiro do que no segundo. Esta
correlação também pode ser negativa.
Alguns conceitos
Mediana Divide os valores em dois, é o valor central da análise, o centro geométrico da estrutura. Como
vemos isso?
O primeiro passo é colocar todos os termos de cada variável em ordem crescente ou
decrescente de valor. Depois se pode fazer uma análise visual ou calculada. Vamos pegar como
exemplo os títulos nacionais lá de trás:
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Time Ingles Títulos Nacionais
Manchester United 21 1
Liverpool 18 2
Arsenal 13 3
Everton 9 MEDIANA
Aston Villa 7 3
Chelsea 4 2
Nottingham Forest 1 1
Ou também veja esse:
Cidade Renda Per capita
Florianópolis 10.000 1
Criciúma 6.400 2
Rio do Sul 5.600 2
Alfredo Wagner 150 1
Nesse caso, a mediana é a média das duas centrais (Criciúma e Rio do Sul) = (6.400 + 5.600)/2
= 6.000
Note que a mediana é um centro GEOMÉTRICO, independente dos outros valores, só valendo
o valor (ou valores) centrais.
Como cálculo, a posição da mediana será assim:
Ímpar: POSIÇÃO DA MEDIANA = (n+1)/2
o Vamos conferir ali em cima, tem 7 times ingleses, então (7+1)/2 = 4. Fechou, o
Everton é o quarto
Par: POSIÇÃO DA MEDIANA = Média entre os valores (n+2)/2 e n/2
o Conferindo, tem 4 cidades, então (4+2)/2 = 3 e 4/2 = 2. Assim, a mediana é a
média entre esses dois (no caso Criciúma e Rio do Sul). Fechou.
Moda É o valor que mais se repete dentro de uma análise. Pode haver somente uma moda
(unimodal), nenhuma moda (amodal) e mais de uma moda (multimodal).
Exemplo 1
Família Renda mensal Número de filhos
1 R$50.000 1 2 R$35.000 1 3 R$10.000 2 4 R$5.000 3 5 R$650 8
Mediana
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Olhando para esse exemplo, verifica-se que a Renda é amodal (nenhum valor se repete) e o
número de filhos é unimodal (o 1 se repete).
Média É o ponto de equilíbrio de um conjunto, algo que pode ser considerado como um centro de
massa. É um número representativo e depende dos valores em si e não só da sua ordem.
Vamos para um exemplo:
Time Ingles Títulos Nacionais
Manchester United 21 1
Liverpool 18 2
Arsenal 13 3
Everton 9 MEDIANA
Aston Villa 7 3
Chelsea 4 2
Nottingham Forest 1 1
A média é a média entre os valores (darrrr).
Então vamos lá, calculando na calculadora pelo modo estatístico (se lembram?) ou
simplesmente somando e dividindo, temos:
Média = (21+18+13+9+7+4+1)/7 = 73/7 = 10,43 ~~ 10
Já a Mediana foi 9, mostrando que elas não são iguais, apesar de aparentemente próximas.
Desvio padrão e Variância O variância é a dispersão dos valores, isto é, o quanto eles se afastam da média. O desvio
padrão é a sua raiz quadrada. Quanto maior esses valores, naturalmente, maior a
variabilidade.
Intuitivamente, pense assim:
Variável 1: 5-6-7-8-9
Variável 2 : 3-5-7-9-11
Observe que a média das duas é 7, mas a variável dois tem valores que destoam muito mais da
média, tendo, portanto, um maior desvio padrão e uma maior variância.
Mas como calculamos isso? Simples, use a calculadora no modo estatístico que ele calcula para
ti (lembra de Física experimental), abra o manual e olhe.
Mas olhando da maneira como deve ser olhada, vamos calcular o desvio padrão nesse
exemplo com a tabelona:
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Refeições diárias Desvio Local (valor – média)
Desvio ao quadrado
2 -1 1
5 +2 4 2 -1 1
MÉDIA = 3 SOMA DOS DESVIOS AO QUADRADO = 5
Usamos o quadrado para evitar os cancelamentos dos desvios, para atenuar as pequenas
diferenças e acentuar as grandes (Dá-lhe Peters!)
Assim, a variância é a soma dos desvios ao quadrado dividido por n-1 (no caso 2). Assim, a
variância é 2,5. Como o desvio padrão é sua raiz quadrada, ele é 1,58.
Coeficiente de Variação É simplesmente o desvio padrão pela média. É uma maneira mais concreta de avaliarmos a
variabilidade, quando comparamos duas variáveis diferentes, já que valores pequenos
naturalmente terão um desvio muito menor.
Valores discrepantes É o famoso ponto fora da reta, que pode puxar toda a correlação para baixo, devendo tira-lo
ou não da relação, conforme os nossos desejos de análise. Valores discrepantes podem
aumentar o desvio padrão, prejudicando todos os conceitos.
Veja o exemplo:
Cidade Renda Per capita
Florianópolis 10.000 Criciúma 6.400 Rio do Sul 5.600 Alfredo Wagner 150
Nota-se que Alfredo Wagner apresenta um valor muito diferente dos outros (naturalmente),
podendo ser considerado, visualmente, um valor discrepante. Porém, precisamos de um
cálculo mais específico, que será visto mais tarde.
Variáveis pareadas Um conjunto de variáveis é pareado quando elas representam uma mesma medição, mas em
tempos diferentes. Por exemplo, se eu medir o meu peso hoje e daqui a 1 mês, será uma
variável pareada. Para variáveis pareadas, não se pode aplicar os testes QTQT de Pearson e
Sperman e sim fazer a diferença entre os dois valores e aplicando um teste de média.
Diagrama de Caixas Outra maneira de organizar uma variável QTQT (isoladamente), é através do diagrama de
caixas. E será ele que guiará praticamente toda a análise.
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Ele é um diagrama que mostra a distribuição entre os valores mínimos, máximos, dividindo
todas as variáveis em quatro. Aqui está um desenho de um deles.
Quartis Os quartis são as divisões geométricas de uma variável quanti, separando todos os valores em
QUATRO blocos, independente dos seus valores.
Abaixo do primeiro quartil está um quarto dos valores. Acima do terceiro quartil está outro
quarto e entre eles a metade restante, sendo dividida ao meio pela mediana (o segundo
quartil)
Muito abstrato e confuso? Vamos ver num exemplo básico para verificarmos:
5 8 9 11 12 19
Qual a mediana? É o valor central. Como é par, é a média entre 9 e 11, portanto 10:
5 8 9 11 12 19
Agora vamos dividir os outros quartis, que são a ‘metade da metade’
5 8 9 11 12 19
Assim, o primeiro quartil será 8 e o terceiro quartil será 12.
Note que a distância do início a cada quartil e entre os quartis é sempre de uma casa. Assim,
conseguimos dividir a estrutura exatamente em quatro.
Mediana = 10 (segundo quartil)
Mediana = 10 (segundo quartil)
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Discrepantes em um diagrama de caixa Chegou o momento. Para avaliarmos aos valores discrepantes usando o diagrama de caixas,
precisamos fazer a diferença entre o primeiro e o terceiro quartil, obtendo um número dq, isto
é, uma distância entre eles. Em seguida, multiplicamos o valor por 1,5 (1,5dq), somando esse
valor ao terceiro quartil e subtraindo do primeiro. O que estiver acima dessa soma e abaixo
dessa diferença será um valor discrepante.
CALMA! VAMOS RESPIRAR!
Pronto, agora façamos tudo com o exemplo acima, devagarinho:
Qual a distância dq entre o primeiro e o terceiro quartil?
o PQ = 8
o TQ = 12
o Assim, a diferença é 12-8 = 4
o Assim, dq = 4
Multiplica-se esse valor por 1,5
o 4*1,5 = 6
o Assim, 1,5dq = 6
Soma-se isso ao terceiro quartil e subtrai do primeiro
o TQ + 1,5dq = 12+6 = 18 (limite superior)
o PQ – 1,5dq = 8-6 = 2 (limite inferior)
Verifiquemos se há discrepâncias
o Valores acima de 18 = 19 [portanto 19 é um valor discrepante]
o Valores abaixo de 2 = nenhuma (não há valores discrepantes para baixo)
Ficou mais claro? Espero que sim. O SESTAT calcula para ti esses discrepantes.
Montando um diagrama de Caixas Para montar o diagrama de caixas, nós vamos utilizar a divisão dos quartis que estabelecemos
e verificar as discrepâncias. Ele segue o seguinte:
Discrepante inferior = limite inferior de discrepância (calculado em 2)
Valor mínimo = pé do gráfico, é o menor valor apresentado experimentalmente (no
caso 5)
Primeiro Quartil = representa o início da caixa = (no caso 8)
Mediana = uma barra lateral (calculada em 10)
Média = uma cruzinha (avalia-se os números = 10,6667)
Terceiro quartil = o Fim da Caixa (calculada em 12)
Valor máximo = topo do gráfico, é o máximo valor apresentado experimentalmente
(no caso 19)
Discrepante superior = limite superior de discrepância (calculado em 18)
Agora observem o diagrama de caixas abaixo (se quiserem ver melhor é só ampliar o
Word)
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Porém, nota-se que, nesse caso, resolvemos MANTER os valores discrepantes na análise, para
ficar mais didático. Porém, numa análise mais correta, dever-se-ia eliminar o 19 e fazer toda
aquela análise dos quartis de novo, naturalmente, sem precisar calcular o dq.
Vamos lá então
5 8 9 11 12
Assim, o primeiro quartil deve dividir os valores da mediana para baixo em dois (incluindo ela
mesma). Como temos 5, 8 e 9, o primeiro quartil é 8.
Da mesma maneira, o terceiro quartil é os valores da mediana para cima (incluindo ela). Como
temos 9, 11 e 12, o terceiro quartil é 11
5 8 9 11 12
PQ TQ
Assim:
Valor mínimo experimental = 5
Primeiro Quartil = 8
Mediana = 9
Média = 9
Terceiro quartil = 11
Valor máximo = 12
Observe que, nesse caso, a mediana deu igual à média, isso é uma das características de uma
distribuição normal, que estudaremos a seguir.
Mediana = 9 (segundo quartil)
Mediana = 9 (segundo quartil)
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Modos de distribuição Caso plotemos todos os valores num eixo horizontal, eles podem se comportar de maneira
simétrica ou assimétrica; denotando uma maior ou menor variabilidade (se estiverem
aglutinados em torno da média tem menor variabilidade).
Assim há várias funções que podem revelar o comportamento de uma variável. Há funções
com o caráter triangular, trapezoide. Aplicando-se, portanto, várias f(x) nos valores
apresentados, poderemos ver em qual eles apresentam maiores aderências.
Distribuição Normal O modelo de distribuição normal corresponde a uma f(x) complicada na qual os valores são
simétricos (isto é, a mediana é igual à moda), e ela apresenta o formato de um sino. Também é
conhecida como distribuição gaussiana.
Para verificar se uma distribuição é ou não normal, faz-se necessário aplicar o teste Qui2 de
aderência, isto é, verificar se o modelo de distribuição encaixa ou não no modelo normal.
Probabilidade em QTQT A probabilidade de ocorrência de uma frequência na distribuição normal, ou em qualquer
outro gráfico de distribuição de uma quantitativa corresponde à área em baixo do gráfico.
Assim, quando maior for a área, maior a chance de um evento ocorrer.
Dando um exemplo, suponha um mundo onde existe distribuição normal de altura, onde a
média é 1,65 e o desvio padrão é 0,0; pede-se a chance de uma mulher ter a altura superior a
1,70.
Assim, sendo bem simples, basta calcular a integral dessa função, variando de 1,70 a infinito
SOOONHA!
Como vamos remediar isso? Temos uma tabela para isso e precisamos do conceito da Variável
Z.
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Variável Z A variável z indica ‘quantos desvios padrões’ tal valor se afasta da média. Como assim?
Olhe no exemplo, a média é 1,65 e o desvio padrão é 0,05. Assim, em uma regra de 3 simples,
verificamos que:
0,05 - ------------------------------ 1 desvio padrão
(1,70-1,65) = 0,05-------------- z desvios padrões
Z = 1 desvio padrão (naturalmente)
Ou melhor, aplique a fórmula direta:
OBS! Se a média é zero e o desvio padrão um, o z é igual ao x, caracterizando uma distribuição normal padrão
Assim, é só verificar a tabela e conferir a probabilidade
O Z deu quanto?
1,00, pegue a 11ª linha preenchida e a 1ª coluna preenchida. Pronto, a probabilidade é 0,1587.
Graus de liberdade Segue o mesmo conceito da QL-QL, sendo a quantidade de medidas livres uma decisão
estatística. Para análise QTQT, é sempre n-1 para avaliarmos uma variável e n-2 para
avaliarmos duas.
Veja o exemplo:
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Nota
9 LIVRE
10 LIVRE
8 NÃO LIVRE (= depende das outras duas)
TOTAL = 27
Como o total é sempre fixo, podemos alterar livremente os dois primeiros valores, mas o
último sempre tem que ser igual a 27 menos a soma dos outros dois. Assim, o gL = 3-1 = 2.
Quando se tem duas variáveis, ocorre a mesma coisa, só que teremos duas colunas ao invés de
uma. Assim, exclui-se uma célula de cada coluna.
Teste Qui2 de normalidade O teste qui2 é um teste de hipóteses, fazendo-se necessário supô-las primeiro:
Lembrando que a fórmula do Qui-quadrado continua sendo calculada pela anterior
O (Oi) observado corresponde às frequências que obtivemos (calculadas numericamente),
enquanto o (Ei) esperado é a própria distribuição normal, sendo suas frequências e
probabilidades calculadas pela área, utilizando a variável z. Assim, quanto maior a diferença
entre o observado e o esperado, MENOR é a aderência, entenderam?
Assim, finalmente supondo, já que eu deixei os dois pontos ali atrás ao léu:
H0 = Não há diferença entre a distribuição dos dados (Oi) e o Modelo Normal (Ei)= Há
aderência e, portanto, há normalidade.
H1 = Há diferença = Não Há aderência, portanto, NÃO há normalidade.
Assim, olha-se na tabela do Qui Quadrado (a mesma da QLQL) e descobre o pvalor:
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Por fim, verifica-se o teste clássico:
Se pvalor > nível de significância (α), então é H0
Se pvalor < nível de significância (α), então é H1
Teste de Correlação de Pearson Se for confirmada a aderência, deve-se aplicar o teste de correlação de Pearson. Ele avalia o
quanto o coeficiente de correlação (o r da equação da melhor reta) se aproxima de 1 ou -1.
Assim, têm-se as seguintes hipóteses:
1. Temos ideia se a relação é positiva ou negativa
H0 = não há associação entre as variáveis
H1 = há associação entre as variáveis e ela é positiva (ou negativa)
2. Não temos ideia disso
H0 = não há associação entre as variáveis
H1 = há alguma associação entre as variáveis ( mas não sei se é positiva ou
negativa)
Assim, aplicar-se-á o teste de hipóteses da seguinte maneira:
1. Para a primeira, se pvalor > (α), então é H0, caso contrário, H1 (pois só há uma cauda).
2. Para a segunda, se pvalor > (α/2), então é H0, caso contrário, H1 (pois há duas caudas e,
portanto duas áreas, precisando dividi-la por dois).
Mas como chegamos ao pvalor? Simples, utilizamos a medida estatística t, de STUDENT (chega
de nomes, socorro!).
Medida estatística t de Student Sendo uma função absurda e, resumidamente pode ser calculado por
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
r = coeficiente de correlação (calculadora)
Assim, avaliamos o pvalor também por uma tabela (que está na próxima página).
Teste de Correlação de Spearman Enfim, chegamos ao nosso último ponto. O teste de Spearman só cairá conceitualmente na
prova, mas provavelmente será cobrado nos trabalhos, já que é muito difícil obter um modelo
de aderência normal.
Assim, um modelo de Spearman é feito quando não há um modelo normal de aderência, isto
é, o teste qui-quadrado de normalidade resultou em H1 (não há aderência entre a distribuição
dos dados e o modelo Normal).
Guilherme Augusto de Matheucci e Silva – [email protected] – Engenharia Sanitária e Ambiental – 13/11/2013
Assim, deve-se transformar as variáveis em forma de ranks (ou postos) Como assim? Ao invés
de pegar seu valor absoluto, vamos linkando-as em forma crescentar. Veremos então tal
exemplo:
IDH PIB
0,91 9 bilhões 0,76 8 milhões 0,53 30 pila
Assim, ranqueando-os, temos:
IDH PIB
0,91 3º 9 bilhões 3º
0,76 2º 8 milhões 2º
0,53 1º 30 pila 1º
Para calcular o Rs temos:
Sendo d1 a distância entre os ranks. Note que, quanto menor a diferença, mais o r se aproxima
de 1 e, quanto maior a diferença, mais se aproxima de zero.
Sabendo o rs, utiliza-se os mesmos procedimentos que Pearson para descobrir se há ou não
relação.
Uma equação muito louca