46
1 Aula 03 Estatística, Correlação e Regressão BIS0005-15 Bases Computacionais da Ciência Prof. Rodrigo de Alencar Hausen [email protected] Prof. Rodrigo de Alencar Hausen [email protected] http://bcc.compscinet.org

Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

Embed Size (px)

Citation preview

1

Aula 03 Estatística, Correlação e Regressão

BIS0005-15Bases Computacionais da Ciência

Prof. Rodrigo de Alencar [email protected]. Rodrigo de Alencar [email protected]

http://bcc.compscinet.org

2

Medidas de tendência central:Média, mediana, moda.

3

Medidas de tendência central

⚫ Média: valor esperado de uma variável (também chamada esperança ou expectância)

⚫ Mediana: valor intermediário quando listado em ordem (se número de amostras é par, então média aritmética dos dois valores intermediários)

⚫ Moda ou modo: valor que mais ocorre (pode ser mais de um)

Exemplo 1: Abaixo temos as alturas das jogadoras de um time de futebol. Use o LibreOffice para calcular as três medidas acima:

1,60 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62

4

Medidas de tendência central

No LibreOffice em português:

⚫ Média: MÉDIA(...)

⚫ Mediana: MED(...)

⚫ Moda: MODO(...)

Obs.: → se não há números repetidos, MODO retorna erro (#VALOR! ou #N/A!) → se há mais de uma moda, MODO retorna apenas a menor delas

5

Medidas de variabilidade:Variância, desvio padrão.

6

Medidas de variabilidade

Para valores que se distribuem em torno da média, duas medidas indicam o quão concentrados esses valores estão em relação à média (menores = valores mais próx. média)

⚫ Variância (de população): VAR.P(...) O valor esperado entre o quadrado do desvio de cada valor e a média.

⚫ Desvio padrão: DESVPAD(...) Raiz quadrada da variância. Vantagem: está na mesma unidade da variável sendo analisada.

Ex: se X é medida em m (metros), a unidade de var.p(X) é m², mas desvpad(X) está em m, assim como X.

7

Medidas de variabilidade

Outras medidas de variabilidade úteis:

⚫ MÍNIMO(...) : menor valor de uma variável

⚫ MÁXIMO(...) : maior valor

Volte ao exemplo 1 e calcule variância, desvio padrão, mínimo e máximo da altura.

8

Visualizando a distribuição de valores:Histogramas.

9

Histograma

⚫ Diagrama que mostra a distribuição de valores de uma variável

Faixa de valores da variável dividida em classes.

Qtde. de vezes que um valor da faixa aparece

10

Histograma

Voltando ao exemplo 1, vamos construir o histograma

1. Em algum lugar da planilha, coloque numa coluna os nomes das classes e na coluna adjacente os seus limites superio- res. Selecione a célula à direita do primeiro limite superior.

2. Inserir → Função → Matriciais → FREQUÊNCIA Clique no botão “Próximo >>”

3. Clique na caixa de texto ao lado de “Dados” e selecione as alturas

4. Clique na caixa de texto ao lado de “Classes”, selecione os limites superiores das classes e clique OK

5. Selecione a coluna com os nomes das classes a a coluna com as frequências (use Ctrl) e insira um gráfico de colunas

11

Variáveis dependentes

12

Variáveis dependentes

Até agora, analisamos indepententemente apenas 1 variável.

É comum analisar mais de uma variável para tentar identificar uma relação de dependência entre elas:

A análise visual de tais dependências é feita por meio de gráficos de dispersão.

Variável Independente Variável Depentente

Horas de treinamento Número de acidentes

Número do sapato Altura da pessoa

Cigarros por dia Capacidade pulmonar

Faltas de um aluno Nota do aluno no curso

Peso da pessoa QI

13

Gráfico de dispersão(scatter plot)

14

Gráfico de dispersão

Índice de sucesso financeiro

Razão indicador/anular independente:

contínua

dependente:contínua Pontos de dados

Linha de tendência:opcional

John M. Coates, Mark Gurnell, and Aldo RustichiniSecond-to-fourth digit ratio predicts success among high-frequency financial tradersPNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106

15

Gráfico de dispersão

Exemplo 2:Análise da dependência entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina.

⚫ Copie os dados do exemplo 2 para uma planilha

⚫ Construa o gráfico de dispersão: 1. Selecione as colunas “faltas” e “nota” (com cabeçalhos) 2. Inserir → Gráfico ou Inserir → Objeto → Gráfico 3. Escolha o tipo “XY (Dispersão)” 4. Em elementos do gráfico, coloque título, nomes dos eixos e desmarque “exibir legenda” 5. (opcional) Clique sobre o eixo Y e ajuste o seu intervalo

⚫ Interprete o gráfico

16

Gráfico de dispersão

17

Correlação e regressão

18

Correlação e regressão

As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas (ou mais) variáveis estão relacionadas umas com as outras.

Variável Independente Variável Depentente

Horas de treinamento Número de acidentes

Número do sapato Altura da pessoa

Cigarros por dia Capacidade pulmonar

Faltas de um aluno Nota do aluno no curso

Peso da pessoa QI

19

Correlação e regressão

A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis.

A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento.

Ambas análises geralmente são utilizadas em pesquisas exploratórias.

20

Correlação

Variável independente

Var

iáve

l dep

ende

nte

A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce

O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica

21

Correlação

A análise gráfica do comportamento entre as variáveis mostra a existência de correlação positiva, pois à medida que X cresce, Y também cresce.

O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta.

22

Correlação

23

Correlação

Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I.

24

Exemplos

25

Correlação: tipos

Podemos ter dois tipos de correlação entre as variáveis:

Correlação linear: a relação entre as duas variáveis é expressa adequadamente por uma reta.

Correlação não-linear: apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta.

26

Determinando correlações

Interpretando correlação entre duas variáveis.

● Subjetivamente: visualmente, pelo gráfico

● Objetivamente: usando uma medida de correlação→ Coeficiente de correlação

27

Coeficiente de correlação(de Pearson)

28

Coeficiente de correlação

O intervalo de variação do coeficiente de correlação r ou coeficiente de correlação de Pearson está entre -1 e 1.

Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva

Valor de r próximo de -1: as variáveis X e Y têm forte

correlação linear negativa

Valor de r próximo de zero: se não existir, ou se existir pouca correlação

linear entre as variáveis X e Y

29

Coeficiente de correlação

r (X ,Y )=cov (X ,Y )

√var (X )var (Y )

Onde:● var(X) : variância de X = valor esperado de [X – média(X)]²

● cov(X,Y) : covariância entre X e Y = valor esperado de [X – média(X)] [Y – média(Y)]

Note que r(X,X) é sempre 1 (uma variável é semprediretamente correlacionada com ela mesma)

30

Coeficiente de correlação

Continuação exemplo 2:Análise da correlação entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina.

⚫ Use a função CORREL ou PEARSON para obter o coeficiente de correlação.

31

Coeficiente de correlação

32

Coeficiente de correlação

33

Coeficiente de correlação

34

Coeficiente de correlação

35

Coeficiente de correlação

r = -0,975 (forte correlação linear negativa)

36

Coeficiente de correlação

37

Coeficiente de correlação

38

Interpretando o coeficiente r

O significado dado a um valor de r depende de cada contexto em particular.

Na falta de contexto ou melhores informações, podemos usar um guia simples:

Valor absoluto de r Interpretação da correlação

0 a 0,199... bem fraca

0,20 a 0,399... fraca

0,40 a 0,699... moderada

0,70 a 0,899... forte

0,90 e acima muito forte

Fonte: http://leg.ufpr.br/~silvia/CE003/node74.html

39

Coeficiente de correlação

Atenção:

⚫ O coeficiente de correlação de Pearson só funciona para variáveis cuja correlação é linear (ou próxima disso)

⚫ Para outros tipos de correlação (quadrática, exponencial, logarítmica, etc.) é necessário transformar uma das variáveis.

⚫ Correlação, por si só, não implica causa! http://tylervigen.com/page

40

Coeficiente de determinação

41

Coeficiente de determinação

⚫ Coeficiente de determinação = r² (= quadrado do coeficiente r) r² está sempre no intervalo [0,1]

⚫ Medida da proporção da variabilidade em uma variável em relação à outra.

⚫ No exemplo anterior: r² = –0,975, logo r² = 0,95 Ou seja, 95% da variação nas notas é devida ao número de faltas.

⚫ Na prática, raramente teremos uma determinação perfeita r²=1 pois existem inúmeros fatores que influenciam as relações entre variáveis na vida real.

42

Regressão

43

Regressão

Encontrada uma correlação significante entre duas variáveis, geralmente é necessário prever de que forma uma alteração na variável independente se reflete em alteração na variável dependente.

1. De acordo com a correlação, escolha uma curva: reta, parábola, exponencial, etc.

2. Trace a curva que melhor aproxima os pontos dados

3. Determine a equação dessa curva

O LibreOffice faz isso automaticamente.

44

Regressão no LibreOffice

1. Clique duas vezes sobre o gráfico para permitir edição

2. Clique sobre um dos pontos do gráfico de dispersão e escolha “inserir linha de tendência...”

3. Escolha o tipo e marque “mostrar equação”

f(x) = – 0,39 + 10,57

45

Mais exercícios para a aula

Vamos fazer as atividades 2 e 3 do livro de bases.(pp. 100 a 106)

46

Para casa

Estudar os capítulos 2 e 3 e fazer os exercícios desses capítulos.

Ler o capítulo 4 para a próxima aula

Para entregar no Tidia: Atividade 03

Faça os exercícios 3 e 4 do capítulo 3(págs. 108 e 109 do livro de Bases Computacionais)e entregue um mini-relatório em PDF com duas seções, cada uma versando sobre a solução de um dos exercícios. Explique bem a sua solução!