Cap.4- Regressão Linear

Embed Size (px)

Citation preview

  • 7/25/2019 Cap.4- Regresso Linear

    1/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    1

    4 . R E G R E S S O E C O R R E L A O

    4.1- DADOS BIVARIADOS

    Por vezes os investigadores realizam experincias em que mais do que uma varivel

    observada.

    Por exemplo, um economista pode estar interessado em observar a quantia dispendida

    por famlia em artigos de mercearia e tambm o nmero de pessoas dessa famlia. Um

    agente imobilirio pode observar o preo das casas e a sua rea, um mdico mede a

    presso sistlica e diastlica de um paciente, etc.

    Quando duas variveis so observadas para a mesma unidade experimental o resultadoda experincia uma varivel bivariada. Como se devem representar estas variveis?

    Estas variveis so importantes quando estudadas separadamente, mas tambm

    podemos estar interessados em explorar a relao entre as duas. H representaes

    grficas que permitem o estudo em conjunto das duas variveis. Tal como no caso

    univariado h diferentes representaes grficas para diferentes tipos de variveis.

    4.1.1- GRFICOS PARA VARIVEIS QUALITATIVAS

    Quando pelo menos um das variveis qualitativa, podemos usar representaes em

    grficos circulares e diagramas de barras. Por vezes temos uma varivel quantitativa e

    outra qualitativa, medidas em duas populaes ou grupos diferentes. Neste caso,

    podemos representar os dados por diagramas circulares colocados lado a lado ou por

    grficos de barras nos quais estas so colocadas lado a lado para as duas populaes que

    podem assim ser comparadas. Uma outra maneira colocar as barras referentes a cada

    populao em cima uma da outra. Iremos exemplificar estes procedimentos.

    EXEMPLOS: 1-Sero os professores das universidades privadas mais bem pagos do

    que os das universidades pblicas?

    Os dados da tabela seguinte referem-se a uma amostra de 400 professores de

    universidades Americanas para os quais foram registados a categoria, o tipo de

    universidade e o salrio mdio auferido em milhares de dlares.

  • 7/25/2019 Cap.4- Regresso Linear

    2/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    2

    Professor

    Catedrtico

    Professor

    Associado

    Professor

    Auxiliar

    Pblica 8 7,5 6,8

    Privada 8,5 7,8 7

    Para representar graficamente estes dados podemos usar digramas de barras colocados

    lado a lado:

    Privada

    Pblica

    Tipo

    Bars show Means

    Ass Aux Cat

    Categoria

    2,0

    4,0

    6,0

    8,0

    Salrio

    Figura-4.1

    2- Ser que as escolas privadas empregam tantos professores qualificados como as

    pblicas?

    Para responder a esta questo registaram-se duas variveis qualitativas para cada

    professor: categoria na carreira e tipo de universidade, obtendo-se os seguintes

    resultados:

    ProfessorCatedrtico

    ProfessorAssociado

    ProfessorAuxiliar

    Total

    Pblica 24 57 69 150Privada 60 78 112 250

    Note-se que os valores da tabela no representam os valores de uma varivel

    quantitativa observada para cada professor, mas a frequncia absoluta ou nmero de

    professores que caem em cada categoria. Para comparar estes nmeros entre escolas

    pblicas e privadas, vamos fazer a sua representao em dois diagramas circulares e

    coloc-los lado a lado.

  • 7/25/2019 Cap.4- Regresso Linear

    3/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    3

    Ass

    Aux

    Cat

    Categoria

    Pies show Sums of nmeroPbli ca

    Figura-4.2

    Ass

    Aux

    Cat

    Categoria

    Pi es show Sums ofnmeroPrivada

    Tambm podemos calcular medidas numricas para ajudar a comparar a distribuio

    dos professores nas escolas pblicas e privadas.

    ProfessorCatedrtico

    ProfessorAssociado

    ProfessorAuxiliar

    Total

    Pblica 0,16150

    24 0,38

    150

    57 0,46

    150

    69 1,00

    Privada 0,24250

    60 0,31

    250

    78 0,45

    250

    112 1,00

    Podemos ainda fazer uma representao grfica em diagrama de barras empilhadas.

    Privada

    Pblica

    Tipo

    Bars show Means

    Ass Aux Cat

    Categoria

    0,00

    0,20

    0,40

    0,60

    0,80

    percentagemProf

    Figura-4.3

  • 7/25/2019 Cap.4- Regresso Linear

    4/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    4

    Chegamos concluso de que as escolas pblicas tm menos professores catedrticos e

    mais professores associados do que as privadas. No sabemos as razes para estas

    diferenas. Talvez que as escolas privadas atraiam os professores mais graduados por

    lhes pagarem melhor ou as escolas pblicas no abram lugares para promover os

    professores associados?

    4.1.2- DIAGRAMAS PARA DUAS VARIVEIS QUANTITATIVAS

    Quando duas variveis so quantitativas podemos represent-las graficamente, uma no

    eixo dos x e a outra no eixo dos y (num sistema de eixos cartesiano). A um grfico

    destes chama-se diagrama de dispersoou em inglsscatterplot.

    Podemos descrever a relao existente entre as variveis x e y atravs do aspecto

    (padro) exibido pela nuvem de pontos do grfico.

    Que tipo de padro se v? H alguma tendncia ascendente ou descendente que siga

    um padro linear nas observaes? No existe qualquer tipo de padro, mas somente

    uma distribuio aleatria dos pontos?

    Quo acentuado o padro? Todas as observaes seguem exactamente o mesmo

    padro ou a relao visvel fraca?

    Existem observaes aberrantes? Um outlier uma observao que se afasta dasoutras. As observaes distribuem-se por grupos? H alguma razo para que isto

    acontea?

    4.1.3- O C O E F I C I E N T E D E C O R R E L A O

    Exemplo 1: nveis de enzima no sangue

    Para efeitos de um estudo mdico sobre nveis de concentrao de diferentes tipos de

    enzimas no sangue, recolheram-se amostras de sangue de mulheres com idadescompreendidas entre os 40 e os 60 anos de idade. Gostaramos de saber se h ligaes

    entre os nveis destas enzimas, cuja existncia poderia ajudar a identificar reaces

    biomdicas que poderiam estar a ocorrer com estes doentes.

    Consideremos ento os valores observados e que se encontram na tabela seguinte:

  • 7/25/2019 Cap.4- Regresso Linear

    5/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    5

    Tabela-1Testosterona

    (A)SHBG AND

    5.85

    5.916.206.396.636.636.326.306.206.416.405.896.43

    6.485.836.126.236.396.206.495.96

    3.50

    3.813.893.143.143.092.643.373.403.262.943.303.00

    3.003.813.473.583.533.333.563.54

    0.92

    0.881.161.220.881.101.131.031.130.830.690.741.36

    1.061.160.790.691.161.131.160.96

    Cientificamente no h indicao precisa de que a ocorrncia de um determinado nvel

    de enzima influencie o nvel de outro enzima e o procedimento experimental tambm

    nada sugere neste sentido, dado que todas as observaes so provenientes de amostras

    aleatrias. Nestas circunstncias as variveis desempenham papis idnticos. O nosso

    objectivo definir uma grandeza que nos permita saber se estas duas variveis esto ou

    no relacionadas ou associadas. O termo correlao usualmente utilizado neste

    contexto. Esta associao pode ocorrer, por exemplo, da seguinte forma: uma varivel

    tende a aumentar quando a outra tambm aumenta, fenmeno que se denomina

    correlao positiva, ou uma varivel aumenta quando a outra diminui, tendo-se ento

    uma correlao negativa.

    A representao grfica dos dados til para visualizarmos uma possvel relao entre

    as variveis, e motiva a construo de uma medida numrica da correlao presente nos

    dados.

  • 7/25/2019 Cap.4- Regresso Linear

    6/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    6

    Figura 4.4 Figura 4.5

    Figura-4.6

    Transformemos as variveis iniciaisx(SHBG) ey(Test) nas novas variveis definidas

    por: x' =xxsx

    y' =yysy

    Esta transformao remove o efeito de localizao e escala de cada varivel, assim uma

    medida de associao baseada nas variveis x' e y' independente das unidades de

    medida de x e y

    Vimos que uma correlao positiva entre as variveis significa que estas tendem a

    aumentar ou a decrescer simultneamente e uma correlao negativa significa que elas

    variam em sentidos opostos. Assim, os pontos do grfico tendem a apresentar-se no 1 e

    3quadrantes se houver correlao positivaentre as variveis e no 2 e 4quadrantes

    quando a correlao negativa.

    O quadro seguinte indica o sinal de x' e y' em cada caso.

  • 7/25/2019 Cap.4- Regresso Linear

    7/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    7

    2 Quadrante

    x' < 0

    y' > 0

    1 Quadrante

    x' > 0

    y' > 0

    3 Quadrante

    x' < 0

    y' < 0

    4 Quadrante

    x' > 0

    y' < 0

    Donde se a correlao positiva o produto x'y' tender a ser positivo, e pelo contrrio se

    a correlao negativa o produto x'y' tender a ser negativo. Se no h associao entre

    as variveis este produto tomar valores prximos de zero. A soma d uma medida da

    correlao. Valores positivos indicam correlao positiva, valores negativos indicam

    correlao negativa, e valores perto de zero sugerem ausncia de correlao. Costuma

    designar-se

    n

    1i

    'i

    'iyx

    1n

    1por re chama-se coeficiente de correlao emprico, isto ,

    22

    yyxx

    yyxxr

    ii

    ii

    (1)

    Pode mostrar-se que rs toma valores entre -1 e +1. Estes ltimos valores s podem ser

    atingidos por observaes que caiam exactamente numa linha recta, com declivepositivo e negativo respectivamente.O coeficinte de correlao emprico estima o valor

    do coeficiente de correlao linearda populao que mede a relao linear existente

    entre as variveis X e Y. Para as variveis do exemplo anterior temos correlaes

    respectivamente iguais a: -0.591, -0.066 e 0.235 como os grficos sugerem.

    Exemplo 2: Recolheram-se amostras de solo do esturio do rio Tejo a 8 profundidades

    distintas e mediram-se os respectivos graus de humidade (gramas de gua/ 100g solo)

    obtendo-se os seguintes resultados:

  • 7/25/2019 Cap.4- Regresso Linear

    8/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    8

    Tabela-2

    Profundidade (ps) Humidade(gr. gua/100g solo)

    0

    5101520253035

    124

    78543530212218

    Representando os dados graficamente obtm-se:

    Figura4.7

    e tem-se ainda o valor da estatstica r = - 0.891, sugerindo uma relao linear entre asvariveis X e Y, profundidade e humidade respectivamente.

    Observaes:1- Uma correlao elevada indica apenas a existncia de uma associao

    estatstica e no mais do que isso, isto , no estabelece uma relao de causa e efeito.

    Quando se observa uma correlao em valor absoluto perto de 1, convm investigar se a

    associao entre as variveis no espria.

    Em Inglaterra uma publicao anticlerical mostrava claramente que o aumento de

    crimes nas cidades inglesas tinha crescido com o aumento do nmero de pastoresanglicanos, durante o sculo XIX. Ainda que os dados fossem correctos tirar tal

    concluso um disparate. Devido revoluo industrial houve um aumento

    populacional importante que levou muita gente para as cidades. Portanto razovel

    considerar que o nmero de crimes aumentou com a concentrao populacional, assim

    como o nmero de padres (de mdicos, advogados, polcias, etc.)

    2- Como j referimos anteriormente a correlao s indica a existncia de relao linear

    entre as variveisX e Y. Por outro lado, 0r no significa mais do que a ausncia de

  • 7/25/2019 Cap.4- Regresso Linear

    9/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    9

    um padro linear. No exemplo que se segue, r = 0 e, no entanto, as variveis X e Y

    esto relacionadas pela relao determinstica no linear X2 Y2 4

    -.25

    0

    .25

    .5

    .75

    1

    1.25

    1.5

    1.75

    2

    2.25

    -2.5 -2 -1.5 -1 -.5 0 .5 1 1.5 2 2.5x

    y

    Scattergram for colu mns: X 1Y1 R-squared: 0

    Figura-4.8

    4 . 2 REGRESSO LINEAR SIMPLES

    4.2.1 INTRODUO

    Por vezes as duas variveisx ey esto relacionadas de uma forma particular. A varivel

    x explica de alguma forma a varivel y. Por exemplo o preo de uma casa (y) pode

    depender da rea desta (x), o peso de uma pessoa (y) pode depender da altura (x), no

    exemplo 2 da seco anterior, a humidade (y) pode depender da profundidade (x), etc.

    Vejamos mais alguns exemplos que nos ilustram este tipo de relaes:

    Exemplo 1: Protena na gravidez

    Um grupo de investigadores est interessado em saber se (e no caso afirmativo, de que

    modo) o nvel de uma protena se altera, nas futuras mes, ao longo da gravidez.

    Seleccionou-se para o estudo 19 mulheres, todas em estado diferente de gravidez

    (gestao), e mediu-se o nvel de protena em cada uma delas, tendo-se obtido os

    seguintes resultados:

    Tabela-1nvel de protena

    (mg ml-1),y

    Gestao(semanas), x

    nvel de protena

    (mgml-1),y

    Gestao(semanas), x

    0.38 11 0.65 270.58 12 0.74 280.51 13 0.83 290.38 15 0.99 300.58 17 0.84 310.67 18 1.04 330.84 19 0.92 340.56 21 1.18 35

    0.78 22 0.92 360.86 25

  • 7/25/2019 Cap.4- Regresso Linear

    10/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    10

    O objectivo desta experincia averiguar como que uma varivel (nvel de protena)

    afectada por uma outra varivel (gestao).

    Exemplo 2: Apanha automtica de uvas

    As vinhas esto geralmente dispostas de uma maneira muito regular, com longas filas

    de videiras dispostas paralelamente e separadas por um estreito arruamento. Isto permite

    que mquinas automticas passem pelos arruamentos para a apanha da uva. A apanha

    feita por um brao rotativo. De modo a estudar a eficincia da mquina, registou-se o n

    de cachos no retirados, fazendo variar a velocidade de rotao do brao, enquanto a

    mquina viajava atravs do arruamento a uma velocidade constante. O resultado

    daexperincia encontra-se na

    Tabela -2prop. de cachosno apanhados

    y

    velocidade domotor(r.p.m.),

    x0.100 3.160.067 3.160.168 3.160.132 3.160.051 3.660.093 3.660.027 3.66

    0.025 3.660.034 4.160.026 4.160.016 4.160.008 4.160.009 4.660.014 4.660.002 4.660.003 4.66

    O objectivo averiguar como que a velocidade do motor afecta a proporo de cachos

    no apanhados, para poder decidir, por exemplo, qual a velocidade adequada.

    Exemplo 3: O uso de radiocarbono na atribuio de datas

    Pode-se estimar a idade de materiais orgnicos atravs da medio de um elemento

    radioactivo (o radiocarbono). Contudo, verificou-se atravs da amostragem de madeiras

    de idades conhecidas, que a idade por radiocarbono no equivalente idade

    verdadeira e portanto necessrio fazer-se um ajustamento. A tabela 3 d a idade de

    radiocarbono de amostras de sub-fsseis de carvalhos juntamente com a informao da

    idade relativaverdadeira obtida atravs da informao dada pelos anis das rvores.

  • 7/25/2019 Cap.4- Regresso Linear

    11/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    11

    Tabela-3Idade por

    radiocarbono,(anos antes 1950)

    y

    Idade por anisda rvore, (anos

    numa escala flutuante)

    x3604 03731 603714 1203792 1803856 2403878 3003883 3604007 4204017 4804107 5404125 600

    4133 6604179 7204203 7804304 8204390 9004456 9604541 1120

    O nosso objectivo averiguar como podemos converter a data por radiocarbono de

    modo a encontrarmos a data verdadeira. Por exemplo, se obtivermos uma data por

    radiocarbono de 4300, qual a data verdadeira?

    Exemplo 4: Capacidade fsica de estudantes

    Mediu-se a distncia atingida no salto por cada um de 11 estudantes de educao fsica.

    Os resultados encontram-se na tabela 4 juntamente com medies da altura, peso do

    corpo, e gordura

    Tabela-4Altura(cm)

    x1Gordura(kg),

    x2Peso (kg)

    x3Dist.salto(cm),

    y

    173.1 12.9 46.7 187.5182.5 17.9 51.3 182.5166.7 13.8 48.0 214.0167.7 19.0 48.0 147.0165.2 15.5 44.1 167.0166.0 11.6 42.4 157.5148.9 9.4 33.3 170.0181.4 14.3 53.7 198.5164.3 20.7 46.2 145.0172.0 17.1 48.7 166.5160.9 16.1 48.4 189.0

  • 7/25/2019 Cap.4- Regresso Linear

    12/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    12

    O objectivo do estudo saber se (e em caso afirmativo como) que a distncia do salto

    afectada pelo peso, gordura e altura do estudante.

    Resumindo temos:

    Experincia Resultado Condio

    experincia clnica nvel de protena tempo de gestao

    experincia agrcola proporo de cachos no

    apanhados

    velocidade do motor

    experincia histrica data por radiocarbono data por anis

    experincia desportiva distncia de salto altura, peso dos estudantes

    Recapitulando estes exemplos podemos verificar que h algo de comum entre eles. Com

    efeito, em todos pretendemos averiguar como que o resultado de uma experincia

    afectado pelas condies sob as quais a experincia efectuada. No 1 exemplo,

    queremos saber como que o tempo de gestao afecta o nvel de uma protena nas

    futuras mes. No 2 exemplo, o conhecimento de como que a velocidade do motor

    afecta a proporo de cachos no apanhados, pode permitir a seleco da velocidade

    adequada. No exemplo do radiocarbono, a compreenso da relao existente entre a

    idade por radiocarbono e a idade verdadeira (medida por um outro processo) permite-

    nos usar aquele mtodo em situaes futuras para datar novos elementos. Por fim a

    existncia de uma possvel relao entre a distncia do salto e outras caractersticas dos

    estudantes, pode permitir ao professor uma seleco mais adequada de desportistas.

    Continuando esta anlise podemos avanar mais formalmente e dizer que temos em

    questo, essencialmente, dois tipos de variveis consoante o papel que desempenham na

    experincia. Uma varivel resposta (nvel da protena no exemplo 1, proporo de

    cachos no apanhados no exemplo 2, idade por radiocarbono no exemplo 3 e distncia

    de salto no exemplo 4) e uma (ou mais) variveis explicativas (tempo de gesta o noexemplo 1, velocidade do motor no exemplo 2, idade por anis no exemplo 3 e no

    exemplo 4 altura e dois tipos de peso). O objectivo a descrio de um tipo de relao

    particular entre estes dois tipos de variveis. [Reparemos nos grficos que se seguem e

    pensemos um pouco se conseguimos descobrir alguma relao especial].

  • 7/25/2019 Cap.4- Regresso Linear

    13/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    13

    .3

    .4

    .5

    .6

    .7

    .8

    .9

    1

    1.1

    1.2

    10 15 20 25 30 35 40gestao

    proteina

    Scattergram for columns: X 1Y1

    Figura 4.9Nuvem de pontos para os dados de protena

    Figura 4.10Nuvem de pontos para os dados da apanha da uva

  • 7/25/2019 Cap.4- Regresso Linear

    14/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    14

    3500

    3600

    3700

    3800

    3900

    4000

    4100

    4200

    4300

    4400

    4500

    4600

    -200 0 200 400 600 800 1000 1200

    anis

    radiocarbono

    Scattergram for col umns: X 1Y1

    Figura 4.11Nuvem de pontos para os dados da atribuio de idade por radiocarbono

    140

    150

    160

    170

    180

    190

    200

    210

    220

    145 150 155 160 165 170 175 180 185altura

    distncia

    Scattergram for columns: X 1Y1

    Figura 4.12Nuvem de pontos para os dados de desporto relacionando distncia e altura

  • 7/25/2019 Cap.4- Regresso Linear

    15/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    15

    140

    150

    160

    170

    180

    190

    200

    210

    220

    32.5 35 37.5 40 42.5 45 47.5 50 52.5 55peso

    distncia

    Scattergram for columns: X 1Y1

    Figura 4.13Nuvem de pontos para os dados de desporto relacionando peso e distncia

    140

    150

    160

    170

    180

    190

    200

    210

    220

    8 10 12 14 16 18 20 22gordura

    distncia

    Scattergram for columns: X 1Y1

    Figura 4.14Nuvem de pontos para os dados de desporto relacionando gordura e

    distncia

  • 7/25/2019 Cap.4- Regresso Linear

    16/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    16

    32.5

    35

    37.5

    40

    42.5

    45

    47.5

    50

    52.5

    55

    8 10 12 14 16 18 20 22gordura

    peso

    Scattergram for columns: X 1Y1

    Figura 4.15Nuvem de pontos para os dados de desporto relacionando gordura e peso

    D-se o nome de REGRESSO tcnica estatstica que serve para explorar a relao

    entre uma varivel resposta e uma ou mais variveis explicativas. Um modelo uma

    descrio de um tipo de relao particular entre diferentes variveis.

    Um exemplo bem conhecido de um modelo, aquele que descreve a relao entre a

    distnciaspercorrida por uma partcula e o tempo tque leva a percorrer, nomeadamente

    s = t, em que a posio inicial da particula no instante t= 0 e a velocidade

    mdia. Se e forem desconhecidos, basta observarspara dois valores distintos de te

    resolver as equaes resultantes para obter e Se por qualquer razo a distncia no

    puder ser medida exactamente, havendo um erro de medio (e) de natureza aleatria,

    ento o que observamos uma quantidade y(e nos) que podemos no entanto admitir

    ser tal quey=s+ e. A relao entreye tno ento exacta, mas apenas aproximada.

    Sendo agora e desconhecidos no podemos obter estes valores observando apenas

    dois valores de te respectivos y, pois no h uma relao funcionalexacta entreye t,

    mas apenas uma relao funcional com erro de medio(desconhecido). Observando

    no entanto vrios valores de y para diferentes valores de t, mtodos estatsticos

    permitem-nos obter valores aproximados (estimativas) para os verdadeiros valores de

    e

  • 7/25/2019 Cap.4- Regresso Linear

    17/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    17

    As situaes que nos interessam so exactamente deste tipo. Os modelos que ns vamos

    estudar no pretendem pois descrever a realidade exactamente, mas apenas

    aproximadamente. O objectivo procurar, para cada situao, os modelos mais simples

    que melhor descrevem a realidade. Damos o nome de modelos de regressoa modelos

    estocsticos (por oposio a determinsticos) que exprimem relaes entre uma varivel

    resposta e uma ou mais variveis explicativas. Esta relao pode ser linear ou no

    linear. O modelo de regresso simplesse houver apenas uma varivel explicativa e

    mltiplose houver mais do que uma varivel explicativa. Ns vamos aqui iniciar apenas

    o estudo do modelo de regresso linear simples.

    4 . 2 . 2 O M O D E L O D E R E G R E S S O L I N E A R S I M P L E S

    Suponhamos que temos dados da forma (y i , x i ), i = 1,..., n, e que queremos explorar a

    relao entre a varivel explicativa x e a varivel resposta y . Um modelo de regresso

    linear simples pode ser escrito na forma:

    yi xi i (1)

    onde i representa o erro associado i-sima observao. Admite-se que os erros tm

    uma mdia 0 e uma varincia constante desconhecida.

    Vrias questes se podem pr:

    1 Como obter os valores de e (parmetros desconhecidos)?

    2 Como se pode decidir se o modelo descreve bem a realidade?

    3 Como obter outro modelo que a descreva melhor?

    4 Como utilizar o modelo para responder a questes sobre o problema em

    causa?

    Um primeiro passo, informal mas extremamente til, para tentar descobrir a relaoexistente entre duas variveis fazer uma representao grfica. Consideremos ento o

    exemplo 1. Faamos um grfico em que indicamos em ordenadas os valores da varivel

    resposta (nvel da protena) e em abcissas o valor da varivel explicativa (tempo de

    gestao). Podemos comear por observar que quando o tempo de gestao aumenta,

    tambm aumenta o nvel da protena.

    Esta relao no est, no entanto, muito bem determinada. H grande quantidade de

    rudo (erro), ou variabilidade nas medies. Adaptar o modelo (1) a estes dados

  • 7/25/2019 Cap.4- Regresso Linear

    18/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    18

    significa que admitimos que o nvel de protena exacto, digamos y* tal que

    y* x . No entanto ns observamos y e no y*, mas admitimos que yy * .

    Se conseguirmos determinar valores adequados para e , ento podemos deduzir qual

    a relao linear que exprime y* o nvel da protena em funo do tempo de gestao.

    Adaptemos ento vrias rectas ( y x) a estes dados e para cada recta adaptada

    calculemos o valor da expresso:

    SS yi yi 2

    i1

    n

    (2)

    Analisemos os grficos que se seguem:

    Fig. 4.16Vrias rectas adaptadas aos dados da protena

    y1 0.202 0.023x SS1 0.225

    y2 0.056 0.029x SS2 0.27

    y3 0.325 0.020x SS3 0.284

    y4 0.093 0.027x SS4 0.251

    y = 0,023x + 0,202

    y = 0,029x + 0,056

    y = 0,02x + 0,325

    y = 0,027x + 0,093

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    1,4

    0 10 20 30 40

    gestao (semanas)

    protena(mg/ml)

  • 7/25/2019 Cap.4- Regresso Linear

    19/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    19

    Observamos que de todas as rectas calculadas a "melhor" parece ser aquela para a qual

    SS tem menor valor. Com efeito ao calcular SS estamos a calcular a soma dos

    quadrados dos valores estimados dos erros i , isto , a soma dos quadrados dos

    resduos eiyi yi , e assim pois natural escolher a que tem menor SS. Sob esta

    perspectiva, a recta ptima ser a que tiver menor valor de SS entre todas as rectas

    possveis. A este mtodo de obter a recta ptima chama-se mtodo dos mnimos

    quadrados.

    4.2.3 MTODO DE MNIMOS QUADRADOS

    Seja

    SS, yi xi 2

    i1

    n

    (1)

    a soma dos quadrados dos resduos que vamos minimizar como funo de

    e Temos um problema de estimao pontual e o mtodo que vamos utilizar , como

    sugerido, oMtodo de Mnimos Quadrados.

    Definio 1: Sejam xi ,yi , i 1,...,n , n pares de observaes satisfazendo a condio:

    I)para cada xi, valor de uma varivel no aleatria, as v.a.'s yiso iguais a

    yi xi i , onde i so v.a.'s com Ei 0,Vari 2 . Ento, aos valores

    de e que minimizam a soma de quadrados (1)

    SS, yi xi 2

    i1

    n

    chamam-se estimadores de mnimos quadrados de e , e a este mtodo de estimao

    chama-seMtodo de Mnimos Quadrados.

    Para obter estes estimadores vamos derivar a soma de quadrados (1) em ordem a cada

    um dos parmetros, obtendo as seguintes equaes

    SS,

    yi xi 0i1

    n

    SS,

    xi yi xi 0i1

    n

    (2)

  • 7/25/2019 Cap.4- Regresso Linear

    20/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    0

    a que se chamam Equaes Normais. E resolvendo o sistema de equaes anteriores

    em ordem a e obtm-se

    y x

    xi x yi y i1

    n

    xi x 2i1

    n

    (3)

    Efectuando alguns clculos, obtemos ainda uma expresso simplificada para

    yi xix i1

    n

    xix 2i1

    n

    xiyi nxyi1

    n

    xix 2i1

    n

    (4)

    A recta dos mnimos quadrados ento:

    y x (5)

    s diferenas entre os valores observados e os valores adaptados,

    eiyi yi , i1,...,n , d-se o nome de resduos e quantidade

    SS, yi yi 2i1

    n ei2

    i1

    n , soma dos quadrados dos resduos e costuma designar-

    se mais vulgarmente por SSe.

    Aplicando este mtodo aos exemplos propostos:

    Exemplo 1:

    x 24.0,y 0.75, 0.2018, 0.02284, ento

    y = 0.2018+ 0.02284x (6)

  • 7/25/2019 Cap.4- Regresso Linear

    21/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    1

    .3

    .4

    .5

    .6

    .7

    .8

    .9

    1

    1.1

    1.2

    10 15 20 25 30 35 40gestao

    proteina

    y = .023x + .202, R-squared: .739

    Fig. 4.17Recta dos minimos quadrados para os dados de gestao.

    Se quisermos saber, por exemplo, qual o valor esperado do nvel da protena em uma

    mulher com 24 semanas de gestao, basta substituir o valor de x por 24 em (6) e

    obtemos 0.75. Podemos perguntar: Qual a confiana que temos nesse valor? Mtodos

    estatsticos adequados permitem-nos responder a essa e outras questes relevantes

    relativamente ao modelo. Neste momento a nica coisa que podemos fazer obter a

    "melhor" recta. Uma anlise apropriada dos resduos tambm nos permite averiguar da

    validade da hiptese da linearidade.

    Como j foi dito, os resduos so as diferenas entre os valores observados da varivelresposta e os correspondentes valores sobre a recta de regresso. So, estimativas dos

    erros i associados a cada observao.

    Fig 4.18. Recta dos mnimos quadrados e resduos para os dados de gestao

    y = 0,023x + 0,202

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    1,4

    0 10 20 30 40

    gestao (semanas)

    protena

    (mg/ml)

  • 7/25/2019 Cap.4- Regresso Linear

    22/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    2

    Os segmentos de rectas verticais que ligam cada ponto recta de regresso adaptada

    representam os resduos (alguns). Pela observao do grfico o que se pode concluir?

    Exemplo 2

    x 3.91,y 0.048, 0.328, 0.071, e a recta de regresso

    y = 0.328- 0.071x (7)

    -.02

    0

    .02

    .04

    .06

    .08

    .1

    .12

    .14

    .16

    .18

    3 3.2 3.4 3.6 3.8 4 4.2 4.4 4.6 4.8velocidade

    proporo

    de

    cachos

    y = -.071x + .328, R-squared: .678

    Fig 4.19. Recta dos mnimos quadrados para o exemplo da apanha da uva

    Note-se agora que a recta j no parece adaptar-se to bem. Poderemos pr dvidas

    inclusivamente sobre a linearidade da relao entre as variveis em questo. Alis a

    utilizao desta recta ia-nos sugerir para uma velocidade de 4.6 uma proporo negativa

    de cachos no apanhados! Ora isto manifestamente impossvel. Consideremos a

    seguinte transformao da proporo: h y ln y1 y

    faamos gora o estudo

    considerando como varivel resposta z = h(y) e varivel explicativa a velocidade.

    Tabela -5dados transformados da apanha de uvas

    ln(y/(1-y)) velocidade-2.197 3.16-2.634 3.16

    -1.6 3.16-1.883 3.16-2.924 3.66-2.278 3.66-3.585 3.66-3.664 3.66-3.347 4.16-3.623 4.16-4.119 4.16-4.82 4.16

    -4.701 4.66-4.225 4.66-6.213 4.66

    -5.806 4.66

  • 7/25/2019 Cap.4- Regresso Linear

    23/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    3

    -6.5

    -6

    -5.5

    -5

    -4.5

    -4

    -3.5

    -3

    -2.5

    -2

    -1.5

    3 3.2 3.4 3.6 3.8 4 4.2 4.4 4.6 4.8v elocidade

    proporo

    de

    cachos

    y = -2.068x + 4.483, R-squared: .786

    Fig 4.20.Recta de mnimos quadrados para os dados transformados da apanha de uvas

    A rectaz

    z

    zx=4.483-2.068x, adapta-se agora bastante bem. Note-se que

    z h y ln y1 y

    y

    1 y e z y

    ez

    1 e z

    finalmente a relao entre x e y da forma

    y e4.4832.068x

    1 e4.4832.068x (8)Da

    relao (8) infere-se para uma velocidade de 4.66 uma proporo de cachos noapanhados igual a 0.0057.

    Exemplo 3:

    x 514.44,y 4051.11, 3636, 0.808, e y = 3636+ 0.808x (9)

    3500

    3600

    3700

    3800

    3900

    4000

    4100

    4200

    4300

    4400

    4500

    4600

    -200 0 200 400 600 800 1000 1200anis

    radiocarbono

    y = .808x + 3635.666, R-squared: .985

    Fig 4.21.Recta dos mnimos quadrados relativa aos dados de atribuio de idade por

    radiocarbono.

  • 7/25/2019 Cap.4- Regresso Linear

    24/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    4

    Vemos como se adapta to bem uma recta. Lembremo-nos que o objectivo aqui era o de

    encontrar a relao entre a atribuio de idade por radiocarbono e idade real, para poder,

    com base na idade obtida pelo mtodo de radiocarbono, inferir a idade real. Este um

    problema de "regresso inversa" ou "calibrao". Suponhamos ento que observvamos

    uma data por radiocarbono de 4300 num objecto de interesse. Usando a relao obtida

    obteramos uma idade real, na escala flutuante, de 822.

    O exemplo 4difere dos apresentados at agora pois temos mais do que uma varivel

    explicativa. O mtodo adequado para tratar de problemas desta natureza utilizar a

    tcnica de regresso mltipla. Embora tenhamos apresentado os grficos 4.12, 4.13,

    4.14 isto no significa que seja adequada uma anlise separada da relao de y com

    cada uma das variveis explicativas. Apenas como exerccio didtico podemos fazer

    essa anlise, mas no com o propsito de tirar quaisquer concluses sobre as possveis

    relaes existentes.

    Uma vez apresentado este mtodo tem interesse indagar sobre a qualidade dos

    estimadores que obtivemos. Juntemos s hipteses feitas sobre o modelo linear

    sintetizadas na condio da definio do mtodo de MQ, ainda outra

    II) As v.a.'s i so no correlacionadas duas a duas, isto ,

    Covi ,j 0, i j, i,j 1,..., n .As boas propriedades destes estimadores so enunciadas no seguinte resultado que

    apresentamos sem demonstrao.

    Teorema de Gauss-Markov:Consideremos o modelo linear definido pelas condies

    I) e II). Ento, os estimadores de mnimos quadrados de e dados pelas equaes (3)

    so lineares centrados de varincia mnima (BLUE- best linear unbiased estimator).

    O mtodo de mnimos quadrados no d um estimador do parmetro mas um

    estimador deste parmetro baseado nos estimadores de MQ de e

    n

    iii MSe

    n

    SSexy

    n

    1

    22

    22

    1 (10)

    Observaes: 1. Voltemos aos dados do exemplo 2 da seco 4.1.3 (Tabela-2), e

    consideremos o modelo de regresso linearsimplesque designaremos por modelo 1

  • 7/25/2019 Cap.4- Regresso Linear

    25/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    5

    xy modelo 1

    Adaptemos a estes dados a recta de mnimos quadrados:

    y = -2,681x + 94,667

    R2= 0,7936

    0

    20

    40

    60

    80

    100

    120

    140

    0 10 20 30 40

    profundidade

    humidad

    Figura-4.22

    Note-se que a figura 4.7 j sugeria uma certa curvatura na relao entre X e Y, o que

    mais patente depois da adaptao da recta de mnimos quadrados. A figura seguinte

    mostra que os resduos so predominantemente positivos para valores pequenos de X,

    negativos para valores intermdios de X e de novo positivos para valores grandes de X.

    -30

    -20

    -10

    0

    10

    20

    30

    40

    -5 0 5 10 15 20 25 30 35 40prof

    resduos

    Scattergram for col umns: X 1Y1

    Figura-4.23- Grfico dos resduos do modelo 1

    A relao linear existente entre estas duas variveis deve ser de tipo mais geral do que a

    regresso linear simples estudada at aqui.

  • 7/25/2019 Cap.4- Regresso Linear

    26/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    6

    Tal como as figuras anteriores sugerem tentemos adaptar a estes dados uma curva do 2

    grau, isto , consideremos o modelo com as variveis explicativas X e X2 da forma:

    Y = 0

    1X

    2X

    2 + modelo 2

    tendo-se ainda a varivel resposta Y como funolinear nos parmetros ii = 0, 1, 2.

    Este um exemplo de modelo de regresso linear mais geral (regresso polinomial).

    y = 0,1295x2- 7,2143x + 117,33

    R2= 0,9789

    0

    20

    40

    6080

    100

    120

    140

    0 10 20 30 40

    profundidade

    humid

    ad

    Figura-4.24

    A representao grfica dos resduos versus a varivel profundidade mostra que sedistribuem agora aleatriamente em torno do ponto zero e numa banda horizontal.

    -8

    -6

    -4

    -2

    0

    2

    4

    6

    8

    -5 0 5 10 15 20 25 30 35 40prof

    resduos

    Scattergram for columns: X 1Y1

    Figura-4.25- Grfico dos resduos do modelo 2

    O modelo linear que estudmos um caso particular do modelo linear mais geral

  • 7/25/2019 Cap.4- Regresso Linear

    27/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    7

    ipix

    p...

    i2x2i1

    x10i

    y (11)

    Onde 1p,p

    ...,,1

    ,0

    so parmetros desconhecidos e

    2i

    Var0i

    Ei

    ecomsv.a.' . No caso de p> 1 temos mais do que uma varivel

    explicativa, e ao modelo (5) chama-se um modelo de regresso mlti pla.

    A denominao de modelo linear deve-se ao facto da parte determinstica do modelo

    ser uma funo linear nos parmetros 1p,p

    ...,,1

    ,0

    . O modelo

    2Var,0E,xey que relaciona a varivel explicativa x com

    a v.a. (resposta) y, no linear como funo da varivel explicativa, mas linear nos

    parmetros, logo um modelo linear. As variveis explicativas podem ser potncias de

    uma varivel, pxp

    ...2x2

    x10

    y , a este modelo de regresso

    mltipla chama-se regresso polinomial.

    2. Em muitas situaes reais a componente determinstica do modelo no linear.

    Vejamos por exemplo:

    i) Certas populaes de animais e plantas tendem a crescer exponencialmente. Se Yrepresenta a dimenso da populao no instante t, podemos utilizar o modelo

    tetYE 10

    (12)

    embora esta expresso no seja linear nos parmetros podemos lineariz-la. Aplicando

    logaritmos a ambos os membros da igualdade obtemos o modelo

    tlntYln 10 (13)

    cuja parte determinstica j linear nos parmetros que agora se podem estimar pelo

    mtodo dos MQ 10 eln .

    ii)Outro modelo que ocorre nas cincias biolgicas aquele que relaciona o peso (ou

    volume) de um organismo com alguma medida linear, como o comprimento (ou peso).

    SeP o peso e c o comprimento, o modelo

    10 cPE (14)

  • 7/25/2019 Cap.4- Regresso Linear

    28/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    8

    muitas vezes utilizado (equao alomtrica). Se quisermos relacionar o peso de

    organismos seleccionados aleatoriamente para comprimentos fixos observados,

    podemos aplicar logaritmos s observaes e obter o modelo

    ln P=ln0

    +1

    ln c+ (15)

    que do tipo ln P= x+ com =ln0

    , 1

    e x=ln c.

    4.2.4 TESTES DE HIPTESES

    Outro problema com interesse o dos testes de hipteses. Consideremos a seguinte

    situao:

    Exemplo 1: Para estudar o efeito da temperatura (x) na velocidade (y) de certa reacoqumica, foram efectuadas 8 experincias laboratoriais, que conduziram seguinte

    relao linear:

    y^

    2.14 0.79x com 2.91 e 0.296 H evidncia suficiente nos dados de que o aumento de temperatura faa com que a

    reaco estudada se processe mais rapidamente? Justifique. Tome =0.05.

    O que pretendemos saber com esta pergunta pode ser respondido atravs de um teste

    das hipteses: 0:1versus0:0 HH .

    Exemplo 2:Efectuou-se um estudo em 9 pases africanos em vias de desenvolvimento,

    para averiguar da possvel relao entre o nmero de habitantes por mdico e a

    esperana de vida (em anos), tendo-se obtido os seguintes resultados:

    Tabela-6N hab./mdico E.mdia

    vida(anos)

    1 907 63.0026 447 48.30

    815 52.70

    6 411 53.50

    10 136 49.05

    7 306 38.30

    22 291 50.00

    18 657 47.35

    7 378 52.50

  • 7/25/2019 Cap.4- Regresso Linear

    29/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    9

    H evidncia suficiente nos dados que mostre que o nmero de habitantes/mdico est

    linearmente relacionado com a esperana mdia de vida? Como responder agora a esta

    questo? O modelo que supostamente se adapta aos dados :

    Esp. Mdia Vida=+(n hab./mdico)+ (1)

    Ser que a varivel n hab./mdico (x), tem uma contribuio significativa na

    explicao da varivel resposta Esp. Mdia de Vida (y)? Com base na amostra

    observada vamos construir um teste para a hiptese 0:1

    versus0:0

    HH .

    Exemplos como estes ilustram bem as situaes em que pode ter interesse construir um

    teste para uma hiptese sobre o parmetro .

    Noutros casos o parmetro de interesse pode ser a ordenada na origem .Retomemos

    ento o modelo linear fazendo agora uma hiptese suplementar sobre a distribuio das

    v.a.si

    , isto ,

    iixiy com iGau 0, , i =1,..., n independentes (2)Estimando os parmetros e obtm-se os valores

    nixixyixiy ,...,1

    (3)Desta relao conclui-se que

    n

    i

    n

    i

    xi

    xyi

    yn

    ii

    yi

    yn

    iie

    1

    0

    1

    1

    1

    (4)

    Por outro lado pode provar-se que:

    n

    ixix,Gau

    1

    2 (5)

    E que o estimador de 2 tem distribuio qui-quadrado,

    222

    22

    n

    n

    (6)

    Alm disso as variveis (5) e (6) so independentes. Logo

  • 7/25/2019 Cap.4- Regresso Linear

    30/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    0

    21

    2

    n

    n

    ii txx

    (7)

    Ento o Intervalo de Confiana de nvel (1-) para o parmetro o seguinte:

    n

    ii

    n;n

    ii

    n;

    xx

    t,

    xx

    t

    1

    222

    1

    1

    222

    1

    (8)

    No caso do exemplo anterior obtm-se as seguintes estimativas dos parmetros e os

    respectivos intervalos de confiana.

    CoefficientsUnstandardizedCoefficients

    StandardizedCoefficients 95% Confidence Interval for B

    B Std. Error Beta Lower Bound Upper Bound(Constant)

    53,505 3,569 45,066 61,944

    habitantesmedico

    -,0003 ,0003 -,369 -,001 ,0003

    Dependent Variable: esperana de vida

    Concluso: O I.C. de 95% para esta amostra (-0,001, 0,0003), contm o zero levando NO rejeio da hiptese nula ao nvel de 5%.

    NOTA:

    Pode mostrar-se facilmente que o estimador do parmetro est relacionado com r da

    seguinte forma

    2

    2

    yiy

    xixr (9)

    Assim, 0 implica r=0 e vice-versa e consequentemente a hiptese nula 0:0

    H

    equivalente a 0:0

    H . No entanto, o declive d-nos informao adicional na

    quantidade de aumento (decrscimo) em y por cada unidade de aumento em x.

  • 7/25/2019 Cap.4- Regresso Linear

    31/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    1

    4.2.5 Anlise de resduos e Observaes influentes

    Depois de adaptarmos a retcta de MQ e antes de fazermos testes nos parmetros da

    regresso devemos fazer uma representao grfica dos resduos para ver se alguma das

    hipteses do modelo linear foi seriamente violada.

    Audincias de Programas de Televiso

    O sucesso de um programa de uma certa televiso comercial em parte determinado

    por um sistema de classificao que indica a capacidade do programa atrair e manter os

    espectadores atentos. O director de programas est preocupado com a audincia dos

    noticirios e pretende encontrar os factores que a influenciam. Alm das variveis

    (factores) bvias tais como o formato, efeitos especiais, apresentador/a, foi sugerido que

    poderia existir um efeito de arrastamento do programa exibido imediatamente antes

    das notcias. A classificao do noticirio dependia em parte da classificao do

    programa anterior, isto , do programa indutor. Para quantificar este efeito, foi

    observada uma amostra aleatria das classificaes precedentes para vrias regies e em

    vrios perodos de tempo ao longo dos 2 ltimos anos. Os dados consistem de

    observaes na varively, classificao do noticirio, e na varivel x, que representa as

    classificaes do programa indutor.

    Tabela-1

    x y x y

    2,502,702,903,103,303,50

    3,703,904,104,304,504,704,905,105,30

    3,804,105,804,805,704,40

    4,803,605,504,155,803,804,753,906,20

    5,505,705,906,106,306,50

    6,706,907,107,307,502,502,707,307,50

    4,354,154,856,203,807,00

    5,406,106,506,104,751,001,209,509,00

  • 7/25/2019 Cap.4- Regresso Linear

    32/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    2

    Ajustando aos dados um modelo linear obtm-se:

    1.707e 6650. ; MSE 1.402 e coeficiente de determinao R2=0.396

    televiso

    y^ = 0,6654x + 1,7065

    R2= 0,3963

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    2 3 4 5 6 7 8

    "indutor"

    y

    Figura- 1

    Ao observar o diagrama de disperso verificamos que existem 4 observaes bastante

    afastadas das restantes. Representemos agora graficamente os resduos:

    X Variable 1 Residual Plot

    -3

    -2

    -1

    0

    1

    2

    3

    4

    2 4 6 8

    X Variable 1

    Residuals

    Figura- 2

    A Figura-2 mostra que para valores intermdios da varivel x (indutor) os resduos

    parecem distribuir-se aleatoriamente em torno da recta e=0; no entanto, para valores

    pequenos de x a maior parte dos resduos so positivos indicando que o modelo

    subestima as respostas, mas h dois grandes resduos negativos sugerindo

    sobrestimao pelo modelo, a situao inverte-se para valores grandes de x.

  • 7/25/2019 Cap.4- Regresso Linear

    33/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    3

    Olhando para a Figura-1 verificamos que estes 4 pontos inflacionaram o declive da recta

    de regresso. Parece que se retirssemos estas 4 observaes a recta de MQ deveria ter

    um declive perto de zero, indicando que provavelmente a varivel x no afecta a

    resposta. Estes pontos vo ser encarados como outliers e devem ser investigados.

    Ser que estas observaes influenciam o modelo?

    Analisemos os dados sem estas observaes (27, 28, 29 e 30) e vejamos se as

    estimativas dos coeficientes da recta de MQ vm muito alteradas.

    Sem estas 4 observaes obtm-se:

    26007133 .. e R2=0,161

    Para melhor podermos comparar os resultados vamos escrever a tabela:

    Quadro ResumoAmostra completa Amostra reduzida

    0,665 ,260 1,707 3,713

    2R ,396 ,161s 1,402 ,925n 30 26

    Tal como espervamos o declive da recta diminuiu consideravelmente, houve uma

    reduo de cerca de 61%.

    O que nos leva a concluir que as observaes com resduos grandes devem ser sujeitas a

    investigao, pois podem indicar erros de digitalizao ou tambm evidenciar a

    existncia de algum comportamento dos dados que pode passar despercebido numa

    primeira anlise do problema em estudo.

    4.3* PREDIO

    Temos ainda a considerar o problema da predio. Assim, suponhamos que seobtiveram os seguintes pares de observaes

    nn y,x,...,y,x

    11 com base nas quais

    desejamos predizer uma observao futura Y0para um determinado valor da varivel

    controlada x0. Note-se que Y0 uma v.a. e no um parmetro, no se trata pois de um

    problema de inferncia sobre parmetros de uma distribuio como at aqui temos feito.

    No modelo linear que estamos a estudar assumimos que

    ,0,00 GauxY , i.e., a distribuio de Y0est centrada no valor

  • 7/25/2019 Cap.4- Regresso Linear

    34/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    4

    mdio desta, 00

    xYE , e assim natural usar00

    xY como predictor de

    Y0e que simultaneamente o estimador de 0YE .

    Voltemos aos exemplos apresentados no incio do captulo e suponhamos, por exemplo,que pretendamos predizer o nvel de protena Y0que uma futura me deve ter ao fim de

    x0=24 semanas de gestao, o que ns pretendemos predizer um valor particular da

    v.a. Y0. Ento usando (6) da seco 4.2.2, temos que

    0.75240.02280.2018 0

    Y , ao tomar este valor como predictor de Y0

    estamos a cometer um erro de predio que dado pela diferena Errop= 00 YY . Este

    erro uma v.a. cuja distribuio ainda gaussiana de parmetros

    e0YEYEYYE 0000

    2xVar

    0YVarYVar

    Y,YCov22xYE2

    xYE

    2YxxYE

    2YYEYYVar

    0

    00

    000000

    00000000

    1

    2xix

    2xx

    n

    12 0

    (1)

    Note-se ainda que as v.a.'s 0YeY0 so independentes, por isso 0Y,YCov 00 uma

    vez que o predictor Y0

    s depende das observaes0n1

    YdetesindependenY,...,Y ,

    atravs de e . Alm disso, poderamos provar que a v.a.00

    YY tem

    distribuio gaussiana por ser uma combinao linear de gaussianas independentes, de

    valor mdio zero e varincia dada por (1) o que nos leva a concluir que a v.a.

    2

    2

    2

    21

    1 0

    00

    00

    xi

    xxxscomnt

    n

    n

    xxs

    xx

    n

    YYY,YT

    (2)

  • 7/25/2019 Cap.4- Regresso Linear

    35/35

    H. Iglsias Pereira (DEIO) Licenciatura em Fsica

    Esta v.a. pode ser utilizada na construo de um intervalo de predio para Y0 (Y0

    uma v.a. e no um parmetro, mas o princpio para a construo deste intervalo de

    predio o mesmo do utilizado nos I.C. para um parmetro) de nvel (1-. Vamos

    optar pelo intervalo de amplitude mdia mnima o que corresponde a considerar

    1221221 n;n; tTtP (3)

    O intervalo de predio ser ento,

    )(xxsxx

    nnntY,

    xxsxx

    nnntY 411

    2

    112

    2

    0

    210

    2

    0

    210

    Nota:A varincia do erro de predio00

    YY tanto menor quanto mais prximo de

    x estiver o valor x0no observado da varivel explicativa, para o qual queremos fazer

    a predio. Logo, a preciso do predictor aumentar com a proximidade de x0a x , e o

    mesmo acontece com a preciso do intervalo de predio (em termos de amplitude)

    como seria de esperar. portanto arriscado fazer previses para um futuro longnquo ou

    relativamente a um passado remoto, para o qual o modelo at pode no ser o "correcto".

    NOTA: As secesque tm asterisco no foram dadas este ano.