14
Modelos de Regressão em Saúde Rejane Sobrino Pinheiro Tânia Zdenka Guillén de Torres Modelos de Regressão Família de técnicas estatísticas vários fatores medidos (preditor, covariável, variável independente) relacionados a um único desfecho (variável resposta ou dependente). Supondo que se deseja analiar a relação: custo x tipo tratamento análise de variância (média dos grupos) Nível de dor (leve, moderada, severa) x tipo tratamento χ 2 Essa análise simples poderia induzir ao erro Dor lombar Tipo tratamento (mais vs menos agressivo): Medicação forte + repouso prolongado Retorno rápido atividade + manejo dor com medicação obtida em farmácia Modelos de Regressão Será que os médicos que usam técnicas + agressivas tratam mais idosos que os médicos que usam técnicas menos agressivas? Idosos se recuperam mais lentamente que jovens? Diferenças no tratamento poderiam ser função de grupos diferentes. Diferença na distribuição da idade pode implicar nas diferenças de resultados. Dor lombar Tipo tratamento (mais e menos agressivo): Medicação forte + repouso prolongado Retorno rápiso atividade + manejo dor com medicação obtida em farmácia idade sexo Fonte das diferenças: Grupos Tratamentos Acaso Modelos de Regressão Interesse: ver efeito do tratamento, considerando, corrigindo o efeito da idade controle de confundimento. Vários fatores ou confundidores podem estar envolvidos na relação múltiplas análises/tabelas, estratificação dificuldade síntese e pulverização de observações nos subgrupos. Variável resposta ou dependente: logística Categórica binária dor severa-dor moderada/leve linear Numérica Escala de dor (0-10) Multinomial Extensão da logística Ordinal Escala de dor (0-10) Sobrevida Harzards proporcionais Cox Numérica Tempo até retorno atividade (censura-alguns retornam depois tempo acompanhamento)

Modelos de Regressão - IESC/UFRJ · Modelos de Regressão Pode ser ferramenta poderosa para abordar 3 questões importantes: predição, explicação (isolar efeito de um determinado

Embed Size (px)

Citation preview

Modelos de Regressão em Saúde

Rejane Sobrino Pinheiro

Tânia Zdenka Guillén de Torres

Modelos de Regressão� Família de técnicas estatísticas � vários fatores medidos (preditor,

covariável, variável independente) relacionados a um único desfecho (variável resposta ou dependente).

� Supondo que se deseja analiar a relação:� custo x tipo tratamento � análise de variância (média dos grupos)� Nível de dor (leve, moderada, severa) x tipo tratamento � χ 2

� Essa análise simples poderia induzir ao erro

Dor lombar

Tipo tratamento (mais vsmenos agressivo):

Medicação forte + repouso prolongado

Retorno rápido atividade + manejo dor com medicação

obtida em farmácia

Modelos de Regressão� Será que os médicos que usam técnicas + agressivas tratam mais idosos

que os médicos que usam técnicas menos agressivas?

� Idosos se recuperam mais lentamente que jovens?

� Diferenças no tratamento poderiam ser função de grupos diferentes.

� Diferença na distribuição da idade pode implicar nas diferenças de resultados.

Dor lombar

Tipo tratamento (mais e menos agressivo):

Medicação forte + repouso prolongado

Retorno rápiso atividade + manejo dor com medicação

obtida em farmácia

idadesexo

Fonte das diferenças:

� Grupos ≠

� Tratamentos ≠

� Acaso

Modelos de Regressão� Interesse: ver efeito do tratamento, considerando, corrigindo o efeito da

idade � controle de confundimento.

� Vários fatores ou confundidores podem estar envolvidos na relação �múltiplas análises/tabelas, estratificação � dificuldade síntese e pulverização de observações nos ≠ subgrupos.

� Variável resposta ou dependente:

logística

Categórica binária

dor severa-dor moderada/leve

linear

Numérica

Escala de dor (0-10)

MultinomialExtensão da

logística

Ordinal

Escala de dor (0-10)

SobrevidaHarzards

proporcionais Cox

NuméricaTempo até retorno

atividade(censura-alguns

retornam depois tempo acompanhamento)

Modelos de Regressão� Pode ser ferramenta poderosa para abordar 3 questões importantes:

predição, explicação (isolar efeito de um determinado preditor) e entender comportamento de variáveis preditoras.

� Predição:

� Quais pacientes com dor lombar terão limitação moderada/grave?

� Categórica binária: moderada/grave vs leve � idade, sexo, tipo tratamento, tempo tratamento etc.

� Probabilidade de perfis de indivíduos terem moderada/grave limitação de atividades

� Numérica: custos � idade, sexo, tipo tratamento, tempo tratamento.

Modelos de Regressão� Conhecer efeito isolado de determinada variável:

� Moderada/grave-leve � controlar pelos confundidores para conhecer efeito isolado do tipo de tratamento

� Entendendo múltiplos preditores:

� Identificar múltiplos preditores que independentemente influenciam o resultado.

� Necessário considerar complexidade � como preditores influenciam conjuntamente os resultados

� Suponha que o efeito da dor lombar na limitação seja diferente para diferentes grupos etários:

� Para pacientes com dor leve/moderada, ser jovem prediz recuperação rápida

� Para pacientes com dor severa, pouca diferença a idade faz.

� Efeito de idade e nível de dor serão subrepresentados se a interação não for levada em consideração.

-1.5

-1

-0.5

0

0.5

1

1.5

0 5 10 15 20 25

-1.5

-1

-0.5

0

0.5

1

1.5

0 5 10 15 20 25

O que é um modelo?

0

0,1

0,2

0,3

0,4

0 1 2 3 4

x-4 -3 -2 -1 0 1 2 3 4

0

.1

.2

.3

.4

( )f x xe( ) = −−1

2

1

22

2

σ π σ µ)1(

)(

)!(!

!)( pp

knk

knk

nkXP − −

−==

Nº de novos atendimentos de síndrome de Down por mes

Distribuição do ácido úrico

Modelos de Regressão

� Regressão Linear

� Análise de variância

� Análise de Covariância

� Regressão Logística

� Análise de sobrevida (Modelos de Hazard

Proporcional)

� Regressão de Poisson (Taxas de Incidência

baseadas em pessoa-tempo)

Modelos de Regressão freqüentemente usados

Regressão Lineare/ou

Correlação

contínuas

ANOVA

categóricas

ANCOVA

contínuas+

categóricas

variáveis independentes

contínua

Análise de Sobrevida

dependente do tempocategóricas

oucontínuas

Regressão Logística

não dependente do tempo

variáveis independentes

categórica

Variável dependente

Modelos de Regressão segundo os tipos de variável dependente e independente

1. Olhar a tendência – Caracterizar a relação entre a variável dependente Y e as variáveis independentes X1, X2, ...,Xk olhando a direção, a extensão, e a força da associação.

2. Ajuste de uma curva – Determinar o melhor modelo matemático (equação ou fórmula matemática) que descreva a relação da variável dependente Y como função das variáveis independentes X1, X2, ...,Xk.

3. Determinar qual ou quais variáveis independentes X1, X2, ...,Xk, são importantes para descrever o comportamento da variável Y.

4. Fazer ajuste para controlar o efeito de variáveis de confundimento ou de interação

5. Predição do comportamento de Y a partir das variáveis X1, X2, ...,Xk.6. Obter curvas padronizadas para usar como referência (pediatria – alt x peso)

Análise de RegressãoIntrodução

Análise de Regressão é uma técnica estatística para avaliar a relação de uma ou mais variáveis independentes X1, X2, ..., Xk, com uma única variável dependente contínua Y.

É uma análise apropriada para diferentes situações que podem se sobrepor:

� Muitos fenômenos biológicos podem ser explicados por meio de modelos matemáticos.

� Em um experimento, é útil pensar as observações como medidas compostas de um sinal e um ruído e construir modelos matemáticos que incorporam ambos os componentes. O sinal é considerado como o componente determinístico e o ruído é o componente aleatório.

� Assim, um modelo matemáticode dados que combina sinale ruído é probabilístico e é chamado de modelo estatístico.

� Outra maneira de pensar um modelo estatístico é considerar o sinal como a descrição matemática das principaiscaracterísticas dos dados e o ruído como todas as características não explicadas pelo modelo, isto é, pelo seu componente determinístico.

Regressão linear

O problema� Dada uma amostra de n indivíduos, foi observado para cada um

os valores das variáveis X (explicativa) e Y (dependente). � Temos, então, n pares de observações (X1, Y1), (X2 Y2), ..., (Xn,

Yn), onde os subscritos referem-se a cada indivíduo.� Cada par de valores pode ser representado em um espaço

bidimensional, em um gráfico denominado diagrama de espalhamento ou de dispersão (scatter plot).

� A figura ilustra uma relação quase perfeitamente linear entre nº. de cigarros por dia e Ca. de laringe.

� A linha que representa os pontos é uma reta de regressão, significando que ela estima os valores médios para a variável Y (escala vertical) de acordo com valores da variável X (nas abscissas).

� Raramente os dados em pesquisas epidemiológicas seguem um padrão tão evidente.

� Neste caso, é uma regressão simples, porque pode ser descrita por uma única variável independente, cuja equação é:

Y = α + βX + ε.α → intercepto (valor de Y quando X = 0).β → coeficiente de X e descreve a inclinação da reta → representa a

quantidade de aumento médio em Y para um aumento de 1 unidade de X.

ε � componente de ruído

� Na figura, Y é a taxa de mortalidade padronizada por idade para Ca. de laringe e X é o N°. de cigarros fumados por dia. A equação para a reta de regressão da figura é :

Y = 1,15 + 0,282 X.

� Estes valores (Y) referem-se a mortes por 10000 pessoas-ano.

� O intercepto (1,15) representa o N°. de mortes por 10000 pessoas-ano que são estimadas ocorrerem na ausência de fumo.

� Existe uma observação direta para taxa para o nível 0 de fumo, que é 0,6 mortes por 10000 pessoas-ano. A reta de regressão estimou um valor um pouco maior (1,15) do que é observado. Esta estimativa é baseada não somente no ponto relativo a um não fumante, mas nos 5 pontos do conjunto.

� A inclinação da reta de regressão de 0,282 indica que o nº. de mortes por 10000 pessoas-ano é estimado aumentar em 0,282 a cada cigarro a mais fumado diariamente.

Supondo que todos os confundimentos e vieses tenham sido administrados apropriadamente, a inclinação 0,282 quantifica o efeito do cigarro na morte por Ca. de laringe. A reta de regressão também nos permite estimar as razões de taxas de mortalidade para diferentes níveis de fumo.

Exemplo:

a taxa de mortalidade pode ser estimada para 50 cigarros por dia (equivalente a 2,5 maços por dia) → 15,2. Comparado com a taxa estimada entre os não fumantes de 1,15, a razão de taxas para os que fumam 2,5 maços por dia é 15,2 / 1,15 = 13,1.

O coeficiente de regressão indica um forte efeito do fumo na mortalidade por Ca. de laringe.

� Outro exemplo: Idade e pressão arterial sistólica (PAS) de 30 indivíduos.

Duas questões básicas devem ser consideradas em qualquer análise de regressão:

� Qual é o modelo matemático mais apropriado a ser utilizado → linha reta, parábola, função log etc.?

� Dado um modelo específico, como será determinado o melhor ajuste do modelo aos dados? Ou seja, se o modelo for uma reta, como encontraremos a melhor reta que se ajusta aos pontos?

PAS x idade

100

120

140

160

180

10 30 50 70

idade (anos)

PA

S (

mm

Hg)

PAS x idade

100

120

140

160

180

10 30 50 70

idade (anos)

PA

S (

mm

Hg)

� A PAS "depende" da idade do indivíduo.

� Podemos dizer que a PAS é a variável dependentee a idade éa variável independente.

� O gráfico, chamado de diagrama de dispersão, ajuda a entender a relação.

� O gráfico mostra que os dados se distribuem em torno de uma linha reta. Podemos encontrar qual a reta que melhor se adequaaos dados e descrever sua equação, que seria o modelo para os dados.

� Este método chama-se de ajustar uma regressão linear simples ao conjunto de dados.

� Se a reta ajustada captar bem o padrão dos dados, poderemos tê-la como o modelo da relação entre PAS e idade.

� Podemos, então, predizer diferentes valores de PAS para diferentes idades.

Ajuste de uma regressão linear simples

� Qual é a melhor reta que descreve a relação?

� Se os pontos estivessem alinhados, não haveria dúvidas quanto à melhor reta.

� Na prática, temos uma nuvem de pontos, onde caberiam uma infinidade de retas.

� Como a reta será ajustada usando os dados de uma amostra e não de toda a população, temos que nos haver com a questão estatística de estimação de parâmetros. Quais são eles?

� Equação da reta:

Y = α + β X

Equação da reta:

Y = α + β X

� Se Y é uma variável aleatória, pode-se descrever Y em função de X , por meio de um modelo, onde α e β são parâmetros e ε é o erro aleatório.

Y = α + β X + ε� Erro aleatório � é a distância ou diferença entre o valor

observado (resposta) para o indivíduo e o valor obtido pela reta de regressão

� Os valores ou ( a e b ) são estimadores dos parâmetros α e β da reta.

βα ˆeˆ

{),0(~, 2

.mindet.

11 σεεβα Ni

aleatóriacomp

i

ísticaercomp

i xy ++=44 344 21

Regressão Linear Simples y = 2x+1

-3

-1

1

3

5

7

9

11

13

-3 -2 -1 0 1 2 3 4 5 6

x

y

Taxa/variação� a cada aumento de 1 unidade em x, tenho variação de ββββ unidades em y.

1 unid

2 unid444 3444 21ísticaercomp

i xymindet.

1*25 +=

-15

-10

-5

0

5

10

15

20

-3 -1 1 3 5 x

y

Propriedades Matemáticas da Reta

Coeficiente angular inclinação

y = f(x) = -2x + 1

y = f(x) = -x + 1

y = f(x) = 0,5x + 1

y = f(x) = x + 1

y = f(x) = 2x + 1

y = f(x) = 3x + 1

Quanto maior o valor de ββββ ���� maior a inclinaçãoda reta

Coef. Linear/deslocamento/intercepto:

y = f(x) = x - 2y = f(x) = x - 1y = f(x) = xy = f(x) = x + 0,5y = f(x) = x + 1y = f(x) = x + 2

-6

-4

-2

0

2

4

6

8

-4 -2 0 2 4 6

x

y

A (inclinação) é a mesma. Quanto maior o coeficiente linear (αααα), maior é o deslocamento vertical (intercepto / patamar inicial) em y.

Pressupostos básicos

Para o ajuste de uma regressão linear simples a um conjunto de dados é necessário fazer algumas pressuposições.

1. A relação entre as duas variáveis é linear• Só deve ser usada a reta para descrever um fenômeno se, no

intervalo estudado, a relação entre as duas variáveis puder ser expressa por uma reta.

• Para estabelecer o modelo que descreve o fenômeno, existem 2 procedimentos alternativos: ou existe uma teoria que fornece a equação ou "procura-se" a equação, olhando os dados (ou gráfico).

• Não existe um modelo teórico que explique como a PAS aumenta com a idade. A relação linear parece perfeitamente aceitável.

2. Os valores de X são fixos, isto é, não é variável aleatória

Para cada valor de X teremos uma distribuição de valores de Y

Pressupostos básicos (cont...)

3. A variabilidade de Y, para qualquer valor dado de X, é sempre a mesma � homocedasticidade.

Quantidade de procaína hidrolisada (moles/l) no plasma sangüíneo em determinados instantes de tempo

Tempo de corrida (s) em função do percurso em metros � variância crescente

Pressupostos básicos (cont...)

4. O erro de uma observação não está correlacionado com o erro de

outra observação.

• Ou seja, as observações são independentes

• Mais de uma observação de um mesmo indivíduo �

dependência

5. Para qualquer dado valor de X, os valores de Y têm distribuição

normal.

• Os desvios ( ) têm distribuição normal

6. As observações representam uma amostra aleatória

^

ii YY −

Determinando a reta de melhor ajuste

Estimativas dos parâmetros O método mais simples é ajustar "no olho", porém é extremamente subjetivo e impreciso. Existem soluções analíticas para o ajuste.

Método dos mínimos quadradosA melhor reta é a que minimiza a soma dos quadrados das distâncias verticais (diag. espalhamento) entre a observação e a reta ajustada.

Métodos de Estimação dos parâmetros

Método de Mínimos QuadradosEscolhea e b de modo a minimisar a soma dos quadrados dasdiferenças entre o valor observado e o valor estimado pela reta

Y = a + bX

As distâncias verticais correspondem à diferença entre o valor observado para Y e o valor estimado, segundo o modelo da reta.

Matematicamente, o método dos mínimos quadrados é descrito como a seguir:

estimativa da resposta (Y) para o valor Xi, baseadono modelo, ou seja, na reta de regressão.

Na reta de regressão, ou modelo:

� são o interceptoe a inclinaçãoda reta ajustada.

(X i, Yi) � ponto observado

XY iiβα ˆˆˆ +=

βα ˆeˆ

A distância vertical entre o ponto observado (Yi) e o ponto correspondente (ao valor de Xi) na reta de regressão ( ) é chamado de erroεi, e é dado por:

)( ^^^

iiiiiXYYY βαε +−=−=

Yiˆ

A soma dos quadrados dos erros ou resíduos (distâncias entre o observado e o estimado) é dado por:

A solução via o método dos mínimos quadrados éa escolha de para os quais a soma dos quadrados descritos acima seja mínima.

No jargão estatístico, são ditos estimadores de mínimos quadrados para os parâmetros α e β da população.

O valor mínimo da soma dos quadrados dos erros SSE → é uma medida de grande importância para avaliação da qualidade do ajuste da reta.

∑∑==

−−=−=n

iii

n

iii XYYY

1

2^^

2

1

^)()(SSE βα

βα ˆeˆ

βα ˆeˆ

Solução para o problema do melhor ajuste

Dados:: a média dos valores observados da variável dependente Y: a média dos valores observados da variável independente XX

Y

=

=

−−= n

ii

n

iii

XX

YYXX

1

2_

1

__

^

)(

))((β

_^_^

XY βα −=

)(ˆˆ__XXYY −+= βxY ii

βα ˆˆˆ +=

A equação da reta pode ser generalizada como:

XY 97,071,98^

+=

XY 95,008,98^

+=

Existe um ponto distoante, cuja retirada deve ser bem avaliada. Retirando o ponto distoante:

Utilizando os dados da tabela de PAS e idade, podemos calcular areta que melhor se ajusta aos dados, ou seja a reta estimada.

PAS x idade

100120140160180200220240

10 30 50 70

idade (anos)

PA

S (

mm

Hg)

Inferência sobre a inclinação da reta (β) e sobre o intercepto (α)

�A força da relação entre duas variáveis (uma resposta e uma variável independente) é medida pela inclinação ou β.

�Para avaliar se a reta ajustada auxilia na predição de Y a partir de X, e para levar em consideração as incertezas devidas a estar-se utilizando um conjunto de observações (amostra) para estimarmos a reta → é uma prática padrão calcularmos o intervalo de confiança ou o teste estatístico de hipóteses sobre os parâmetros desconhecidos do modelo linear proposto (população).

�Considerando que Y tenha distribuição normal, α e β também terão distribuição normal.

♦ Se há relação de X e Y, então β é diferente de zero.

♦ O teste T testa a hipótese alternativa H1 de que a inclinação β é significativamente diferente de zero.

H1: β ≠ 0♦ A hipótese mais conservadora é de que a inclinação seja zero,

ou seja, não há associação entre X e Y, H0: β = 0:

♦ A estatística do teste é definida como:

♦ Similarmente, para o intercepto, H0: α = 0 vs H1: α ≠ 0 :

^^

^^

ββ

β βµβSESE

T =−

=

^^

^^

αα

α αµαSESE

T =−=

0

♦ O teste T utiliza n - 2 graus de liberdade, pois envolve S2, que possui n - 2 graus de liberdade e é o único componente randômico no denominador.

♦ Testando a hipótese, a um nível de significância α, rejeita-se H0quando:

|T| ≥ tn-2,1-α/2 para um teste bilateral → H1: β ≠ 0 ou H1: α ≠ 0

♦ Onde tn-2,1-α/2 é o percentil 100(1-α/2)% da distribuição t com n-2 graus de liberdade

♦ Podemos, alternativamente, calcular os p valores baseados no cálculo da estatística T → resultado de pacotes computacionais.

α/2

Região de rejeição de Ho Região de rejeição de Ho

H0: β = 0

H1: β ≠ 0

Região de “não rejeição” de Ho

^

^

β

βSE

T =

Pouca chance de acontecer pelo acaso

Pouca chance de acontecer pelo acaso

Grande chance de acontecer pelo acaso

α/2

� Se H0: β = 0 NÃO é rejeitada → a inclinação é zero (ou melhor, não é significativamente diferente de zero); duas interpretações são possíveis:

� Supondo que o modelo seja linear, X não ajuda a predizer Y (não há relação de X e Y).

� Há uma relação entre X e Y (X ajuda a predizer Y), porém esta relação não segue uma reta. O fato da reta ajustada ser zero nãosignifica necessariamente que não exista relação entre X e Y. O modelo linear pode não ser apropriado.

Interpretação do teste para inclinação e intercepto

Teste para inclinação zero →→→→ Ho: ββββ = 0.

� Se H0: β = 0 é rejeitada → a inclinação é diferente de zero, duas interpretações são possíveis:

� X ajuda e muito a predizer Y. Há relação entre X e Y.� Pode ser que exista um modelo melhor, por exemplo, um

curvilíneo. Porém, há um componente linear que não deve ser desprezado e deve ser incluído no modelo final.

♦ Combinando as interpretações acima, pode-se dizer que um modelo que inclua a variável X é melhor do que um modelo que não inclua, porém não necessariamente o modelo deverá incluir X somente como uma componente linear.

Teste para intercepto zero

♦Ho: α = 0

♦É uma hipótese de menor interesse.

♦De um modo geral, não possui correspondência com a realidade (idade = 0, PAS = 0).

♦Caso a hipótese NÃO seja rejeitada (α = 0) pode ser apropriado remover a constante do modelo � discutível.

♦Remover induz a que o modelo passe no ponto (0,0) � saber se faz sentido.

Inferência sobre a reta de regressão - Intervalo de confiança para a reta de regressão

� Como a reta foi obtida a partir de uma amostra de pontos, ela será a estimativa pontual da relação das variáveis na população.

� Pode ser do interesse considerar a incerteza desta estimativa, com o cálculo do intervalo de confiança para a reta de regressão propriamente dita.

� O IC de 95% da reta de regressão quer dizer que, para as possíveis amostras de pontos, 95% dos intervalos calculados conterão a verdadeira reta de regressão.

� Ou seja, para um determinado valor de X = X0, pode-se querer calcular o intervalo de confiança para o resultado estimado, ou seja, para o valor médio de Y dado o valor X0.

^

00 2/1,2

^

XYnX StY α−−±

Intervalo de confiança para a reta de regressão� A forma mais conveniente de se representar o IC da reta é calcular os

limites superior e inferior de Y para diferentes valores de X, erepresentar no mesmo gráfico dos limites de confiança para a reta de regressão.

� Por exemplo, usar e usar um valor de k que permita que o intervalo de dados de X seja coberto uniformemente.

.0,1,2,..i ,_

0 =±= ikXX

Dados:: a média dos valores observados da variável dependente Y: a média dos valores observados da variável independente XX

Y

=

=

−−= n

ii

n

iii

XX

YYXX

1

2_

1

__

^

)(

))((β

_^_^

XY βα −=

)(ˆˆ__XXYY −+= βxY ii

βα ˆˆˆ +=

A equação da reta pode ser generalizada como:

Substituindo α

Interpretação + “real” centrando X na média �

PAS para as pessoas com idade

Intervalo de confiança para a reta de regressão

�Para um determinado X = X0, o valor estimado de Y ( ) corresponde ao valor médio de Y para X0.

^

00 2/1,2

^

XYnX StY α−−±

^

0XY

)(_

0

^_

0

^^^

0XXYXYX −+=+= ββα � Valor predito de Y para X0

2

2_

0| )1(

)(1^

0 XXY

Y Sn

XX

nSS

X −−+=

� estimativa do erro padrão de ^

0XY

^

0

00 |

^

XY

XYX

S

YT

µ−=

� intervalo de confiança para X = X0

48.6783

)13.45(033.045.29)13.45)(97.0(53.142

20

0

−+±−+ XX

Para o cálculo do intervalo de confiança de 90%, para os dados de PAS e idade, a fórmula fica simplificada para:

Dif. aumenta nas bordas

�Para o cálculo do intervalo de confiança para α e β. �O IC de 100(1-α)% de confiança é dado por:

IC da reta - média

“fx ref.” para indivíduos

Medindo a qualidade do ajuste

♦Uma vez que a reta dos mínimos quadrados é obtida, é de interesse saber se esta reta ajustada consegue predizer Y e, em conseguindo, em que medida.

♦A medida que auxilia na resposta a esta questão é o SSE (soma dos quadrados dos erros ou soma dos quadrados dos resíduos)

♦Se SSE = 0, a reta está perfeitamente ajustada aos pontos, ou seja,

para cada i (observação). Cada ponto cai exatamentesobre a

reta de regressão.

♦À medida que o ajuste fica pior, SSE aumenta, uma vez que os

desvios entre os pontos observados e a reta ficam grandes.

2

1

^)( SSE ∑

=−=

n

iii YY

^ii YY =

Coeficiente de Correlação e a Análise de Regressão Linear

♦É uma estatística bastante utilizada que fornece uma medida da relação linear entre duas variáveis.

♦Possui propriedades semelhantes às da regressão linear.

♦O coeficiente de correlação entre Y e X é o mesmo que o coeficiente de correlação entre X e Y, para o mesmo conjunto de observações.

♦Existem vários tipos de coeficientes de correlação (Pearson,Spearman, phi, etc.). Depende do tipo de variável.♦O usado com maior freqüência é o coeficiente de correlação dePearson. Ele é denotado por ρρρρXY (ρρρρ = rho) quando calculado a partir de uma populaçãode observações X, Y, e porrXY quando calculado a partir de uma amostrade observações X,Y.rXY é um estimador de ρρρρXY.

O coeficiente de correlação amostral r é definido como:

A fórmula equivalente para r , que o relaciona com a inclinação da reta de regressão é dada por:

( )( )( ) ( )∑ ∑ −−∑ −−

=

YYXX

YXrii

YXii

XY 22

SSXY

SSX SSY

SSYSSX

SSXY

.=

SSX

SSXY

XX

YYXX

n

ii

n

iii

=

−−

=

=

=

1

2_

1

__

^

)(

))((

β

SY

SXr

SY

SX

SSY

SSX

SSYSSX

SSX

SSX

SSXYSSYSSX

SSXY

r ^

21

21

21

^2

12

1

.

).( ββ

=⇒====

Propriedades do Coeficiente de Correlação

♦É um índice sem unidades de medida - adimensional.

♦Varia entre –1 e 1 � [-1 ≤ rXY ≤ 1]

♦Uma correlação igual a 0 significa falta de relação linearentre X e Y.

♦Uma correlação positiva indica que X e Y estão relacionadas diretamente, quer dizer que as duas medidas tendem a crescer oudecrescer juntas

♦Uma correlação negativa indica que X e Y estão relacionadas inversamente, quer dizer que, à medida que uma variável cresce, a outra tende a decrescer

♦r = 1 ou r = -1 indicam uma relação linear perfeitaentre X e Y

♦De certo modo, é uma medida do grau de dispersão dos pontos em torno de uma reta: quanto maior a dispersão, menor r