Analíse de Regressão e Correlação - estgv.ipv.pt .ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quando

  • View
    215

  • Download
    0

Embed Size (px)

Text of Analíse de Regressão e Correlação - estgv.ipv.pt .ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quando

  • 1

    ANLISE DE REGRESSO E CORRELAO

    Quando se consideram observaes de 2 ou mais variveis surge

    um ponto novo:

    O estudo das relaes porventura existentes entre as variveis.

    A anlise de regresso e correlao compreendem a anlise de

    dados amostrais para saber se e como um certo conjunto de variveis

    est relacionado com outra varivel.

    Anlise de regresso: estuda o relacionamento entre uma varivel

    chamada a varivel dependente e outras variveis chamadas variveis

    independentes. Este relacionamento representado por um modelo

    matemtico , isto , por uma equao que associa a varivel dependente

    com as variveis independentes. Este modelo designado por modelo

    de regresso linear simples se define uma relao linear entre a

    varivel dependente e uma varivel independente. Se em vez de uma,

    forem incorporadas vrias variveis independentes, o modelo passa a

    denominar-se modelo de regresso linear mltipla.

  • 2

    Anlise de correlao: dedica-se a inferncias estatsticas das

    medidas de associao linear que se seguem:

    coeficiente de correlao simples: mede a fora ou grau de

    relacionamento linear entre 2 variveis.

    coeficiente de correlao mltiplo: mede a fora ou grau de

    relacionamento linear entre uma varivel e um conjunto de outras

    variveis.

    As tcnicas de anlise de correlao e regresso esto intimamente

    ligadas.

  • 3

    REGRESSO LINEAR SIMPLES

    Vamos considerar a situao em que duas variveis esto ligadas

    por um relacionamento linear. A relao entre elas pode ser descrita

    matematicamente atravs do seguinte modelo:

    Y X E= + + 0 1

    sendo,

    X a varivel explicativa ou independente medida sem erro (no

    aleatria);

    E a varivel aleatria residual na qual se procuram incluir todas as

    influncias no comportamento da varivel Y que no podem ser

    explicadas linearmente pelo comportamento da varivel X;

    0 e 1 parmetros desconhecidos do modelo (a estimar).

    Y a varivel explicada ou dependente (aleatria);

    Exemplo:

    Suponhamos que estamos interessados em desenvolver um modelo

    para descrever a temperatura da gua do mar. A temperatura (Y)

    depende em parte da profundidade da gua (X).

    No estamos interessados em fazer inferncias acerca da

    profundidade da gua, mas sim, em descrever o comportamento da

    temperatura da gua sabendo partida o valor exacto da sua

    profundidade.

  • 4

    Se fixarmos a profundidade da gua em xi , a temperatura vai variar

    devido a outras influncias aleatrias. Assim, para cada xi fixo estamos

    a lidar com uma varivel aleatria Yi de mdia Yi (Yi depende de xi,

    pois a temperatura mdia da gua profundidade xi , deve de ser

    diferente da temperatura mdia profundidade xj xi ).

    Num estudo de regresso temos n observaes da varivel X:

    x1,x2,,xn (assume-se que estas observaes so medidas sem erro).

    Temos ento n variveis aleatrias Y1, Y2, ..., Yn tais que:

    ii10i ExY ++= i=1,...,n .

    Admite-se que E1, E2,..., En so variveis aleatrias independentes

    de mdia zero e varincia 2.

    Ento, para qualquer valor xi de X, Yi uma varivel aleatria

    de mdia i10Y xi += e varincia 2.

    Isto significa que para um dado xi podemos calcular a mdia de Yi,

    i10Y xi += , que depende de xi , e o desvio padro que no

    depende do valor xi fixado. uma medida da disperso dos valores de

    Yi volta da sua mdia iY .

    Os dados para a anlise de regresso e correlao simples so da

    forma:

  • 5

    (x1, y1), (x2, y2),..., (xn, yn)

    onde xi o valor da varivel X e yi a correspondente observao da

    varivel aleatria Yi (i=1,...,n).

    Cada observao obedece seguinte relao:

    ii10i

    iY

    xy ++= i=1,...,n .

    De facto, o valor observado de uma varivel aleatria (yi),

    usualmente difere da sua mdia (iY ) por uma quantidade aleatria i.

    Com os dados constroi-se o DIAGRAMA DE DISPERSO, este deve

    exibir uma tendncia linear para que se possa usar a regresso linear.

    Portanto este diagrama permite decidir empiricamente se um

    relacionamento linear entre X e Y deve ser assumido.

    Por anlise do Diagrama de Disperso pode-se tambm concluir

    (empiricamente) se o grau de relacionamento linear entre as variveis

    forte ou fraco, conforme o modo como se situam os pontos em redor de

    uma recta imaginria que passa atravs do enxame de pontos. A

    correlao tanto maior quanto mais os pontos se concentram, com

    pequenos desvios, em relao a essa recta.

    A partir dos dados disponveis estimamos 0 e 1 e substitumos

    estes parmetros tericos pelas suas estimativas b0 e b1 para obter a

    equao de regresso estimada:

    Realizao da v.a. Ei

  • 6

    xbby 10x/Y +==

    Esta equao estima o valor mdio de Y para um dado valor x de X,

    mas usada para estimar o prprio valor de Y. De facto, o senso comum

    diz-nos que uma escolha razovel para predizer o valor de Y para um

    dado x de X, o valor mdio estimado x/Y . Por exemplo, se

    quisssemos predizer a temperatura da gua do mar a uma profundidade

    de 1000 metros uma escolha lgica a temperatura mdia a esta

    profundidade:

    1000bby 101000x/Y +== =

    Estimao pelo mtodo dos mnimos quadrados

    Cada par (xi,yi) satisfaz a

    ii10i dxbby ++=

    onde )xbb(yyyd i10iiii +==

    o i-simo resduo, isto , a distncia vertical do ponto (xi,yi) recta de

    regresso estimada.

    Este mtodo consiste em escolher b0 e b1 de modo a minimizar a

    soma dos quadrados dos resduos di. Desta forma estamos

  • 7

    essencialmente a escolher a recta que se aproxima o mais possvel de

    todos os pontos dos dados simultaneamente.

    Soma dos quadrados

    dos resduos

    = = =

    ==n

    1i

    n

    1i

    2i10i

    2i )xbby(dSSE

    Para determinar b0 e b1 de modo a minimizar SSE:

    =

    =

    =

    =

    =

    =

    =

    =

    =

    =

    xbyb

    x nx

    y x nyxb

    0x)xbby(2

    0)xbby(2

    0b

    SSE

    0b

    SSE

    10

    n

    1i

    22i

    n

    1iii

    1n

    1iii10i

    n

    1ii10i

    1

    0

    x mdia dos valores observados de X

    y mdia dos valores observados de Y

  • 8

    REGRESSO LINEAR MLTIPLA

    O modelo de regresso linear mltipla postula a existncia de uma

    relao linear entre uma varivel dependente ou explicada Y e k

    variveis independentes ou explicativas X1,...,Xk a qual pode ser

    traduzida pela seguinte expresso:

    EXXY kk110 ++++=

    sendo,

    X1,...,Xk as variveis explicativas ou independentes medidas sem erro

    (no aleatrias);

    E a varivel aleatria residual na qual se procuram incluir todas as

    influncias no comportamento da varivel Y que no podem ser

    explicadas linearmente pelo comportamento das variveis X1,...,Xk e

    os possveis erros de medio;

    0 ,1,..., k os parmetros desconhecidos do modelo (a estimar).

    Y a varivel explicada ou dependente (aleatria);

    Exemplo:

  • 9

    Consideremos as seguintes variveis:

    Y Volume de vendas efectuadas durante um dado perodo de tempo

    por um vendedor;

    X1 Anos de experincia como vendedor;

    X2 Score no teste de inteligncia.

    Se fixarmos o valor x1i para os anos de experincia X1 (por

    exemplo x1i=4 anos) e outro valor x2i para o score no teste de

    inteligncia X2 (por exemplo x2i=3), o volume de vendas vai variar

    devido a outras influncias aleatrias. Isto , vendedores com 4 anos de

    experincia e score 3 no teste de inteligncia, podem apresentar volumes

    de vendas diferentes.

    Assim, para x1i e x2i fixos Yi uma varivel aleatria de mdia Yi .

    Temos n valores de cada varivel independente:

    i=1 i=2 ... i=n

    X1 x11 x12 ... x1n

    X2 x21 x22 ... x2n

    Xk xk1 xk2 ... xkn

  • 10

    Temos ento n variveis aleatrias,

    11kk11101 ExxY ++++=

    22kk12102 ExxY ++++=

    nknkn110n ExxY ++++=

    Em notao matricial,

    EXYn

    2

    1

    k

    1

    0

    knn2n1

    2k2212

    1k2111

    n

    2

    1

    E

    EE

    xxx1

    xxx1xxx1

    Y

    YY

    +

    =

    Y vector das respostas aleatrias

    X Matriz significativa do modelo

    Vector dos parmetros do modelo

    E Vector dos erros aleatrios

    Outra forma de escrever o modelo ento,

    Y=X+E

  • 11

    Admite-se que E1, E2,..., En so variveis aleatrias independentes

    de mdia zero e varincia 2.

    Ento, para quaisquer valores x1i, x2i,...,xki fixos, Yi uma

    varivel aleatria de mdia kiki110Y x...xi +++= e varincia

    2.

    Isto significa que para um conjunto de valores fixos x1i, x2i,...,xki de

    X1,...,Xk , podemos calcular a mdia de Yi,

    kiki110Y x...xi +++= , que depende de x1i, x2i,...,xki . O desvio

    padro uma medida da disperso dos valores de Yi volta da sua

    mdia iY e sempre o mesmo quaisquer que sejam os valores das

    variveis independentes que fixemos.

    Os dados para a anlise de regresso e correlao mltipla so da

    forma:

    (y1, x11, x21,...,xk1), (y2, x12, x22,...,xk2) ,..., (yn, x1n, x2n,...,xkn).

    Cada observao obedece seguinte relao:

    ikiki22i110i

    iY

    x...xxy +

    ++++= i=1,...,n .

    Realizao da v.a. Ei

  • 12

    Temos ento o seguinte sistema de equaes,

    ++++=

    ++++=++++=

Recommended

View more >