Diagnostico Na Analise de Regressao (1)

Embed Size (px)

Citation preview

  • *Diagnstico na anlise de regresso O modelo que estamos usando adequado? Os erros tem distribuio normal? Os erros so independentes? Os erros tem varincia constante? existem valores discrepantes (outliers ) ? uma ou mais variveis preditoras importantes foram omitidas do modelo? Qualidade do modeloMtodos grficosTestes estatsticosDiagnstico para a varivel preditora Verificar se existe algum valor de X discrepante que possa influenciar o ajuste da funo de regresso*. til para verificar a faixa de validade da anlise de regresso.*Ponto influente (Captulo 9 do livro texto).Seja o exemplo dado em SNEDECOR AND COCHRAN (1976), no livro Statistical methods.Obs: recomenda-se a leitura do captulo 9 do livro texto.

  • *Y=produo de milho;X1=concentrao de fsforo inorgnicoX2=concentrao de fsforo orgnico1=Amostras de solos.O box-plot no indica que existe algum valor de X1 muito distante dos demais, isto , que foge da distribuio dos demais. A distribuio um pouco assimtrica. Outros mtodos:diagrama de pontosgrfico seqencial(tempo)ramo-e-folhasExerccio: fazer o box-plot para X2. Interpretar

  • *Exemplo: 26 programas foram monitoradas para estudar a demanda por recursos.Y=cpu time;X1=disk I/OX2=memory size

  • *ResduosDiagnstico para a varivel resposta realizado atravs de uma anlise de resduos. Os resduos so definidos como:Os resduos podem ser considerados como erros observados, para distingui-los do erro verdadeiro desconhecido i no modelo de regresso:pressuposioSe o modelo adequado para os dados, os resduos observados devem refletir essas propriedades.Propriedades dos resduosMdia Varincia Se o modelo est adequado, o QME um estimador no tendencioso da varincia do erro (2).Para o modelo de regresso, temos:

  • *Dependncia: os resduos no so variveis aleatrias independentes pois eles envolvem os valores Y(chapu)i os quais so baseados na mesma equao de regresso.

    Quando o tamanho da amostra grande em comparao com o nmero de parmetros no modelo de regresso, o efeito de dependncia entre os resduos ei relativamente sem importncia e pode ser ignorado.

  • *Resduos semistudentizadosDiagnstico:1. Grfico dos resduos versus variveis preditoras.2. Grfico dos resduos absolutos ou quadrticos versus variveis preditoras.3. Grficos dos resduos versus valores ajustados (estimados).4. Grficos dos resduos versus tempo ou outra sequncia.5. Grfico dos resduos versus variveis preditoras omitidas do modelo.6. Box-plot dos resduos.7. Grfico normal de probabilidades dos resduos. importante para detectar valores discrepantes.Grficos utilizados:

  • *No linearidade da funo de regresso:A verificao de que a funo de regresso adequada aos dados pode ser feita atravs do grfico dos resduos versus valores ajustados ou dos resduos versus variveis preditoras.Exemplo: Uma pesquisadora estava interessada em estudar o comportamento do pH de tomates Chronos, inteiros minimamente processados, submetidos ao tratamento vcuo, durante 22 dias de estocagem, a uma temperatura mdia de 8oC e umidade relativa de 62,78%.A figura apresenta o grfico dos resduos versus a varivel preditora Dias. Note que os desvios a partir de resduo=zero apresenta um padro sistemtico; eles so positivos para valores baixos de dias de estocagem, negativos para valores mdios e, novamente, positivos para valores altos. PHDIAS15,7001,00025,8001,00035,6001,00044,8008,00054,7008,00064,6008,00074,60015,00084,50015,00094,50015,000104,40022,000114,30022,000124,20022,000Caso verificar-se um comportamento sistemtico, termos adicionais ou alternativos devem ser includos no modelo.

  • *Nesta figura temos um prottipo da situao em que um modelo de regresso linear adequado. Observe que os resduos se distribuem aleatoriamente em torno da mdia zero.Pode-se usar, como neste grfico, os resduos versus valores ajustados.

  • *Exemplo: a pesquisadora deseja encontrar o modelo de regresso da porcentagem de acertos sobre o tamanho da cache. Foi usado um modelo RLS.Este grfico de resduos mostra que o modelo de regresso linear simples est adequado.

  • *Heterogeneidade de varinciasO grfico dos resduos versus variveis preditoras ou versus os valores ajustados so apropriados para examinar a suposio de varincia constante. Geralmente, a falta de homogeneidade de varincias tende a produzir um grfico com forma de megafone, como na figura a seguir:Exemplo: uma pesquisadora est estudando o comportamento da perda de peso de tomates Chronos, inteiros minimamente processados, do tratamento controle durante 22 dias de experimento, estocado a uma temperatura mdia de 8oC e umidade relativa de 62,78%.Menor dispersoMaior disperso

  • *O grfico dos resduos versus valores preditos (ajustados) mostra que quanto maiores so os valores preditos maior a disperso dos resduos. Isto sugere que a varincia maior para os tempos de estocagem maiores.DIAS PERDAPES1 1,000,7002 1,000,8003 1,000,3004 1,000,4005 1,000,9006 1,0001,0007 8,0002,5008 8,0002,6009 8,0002,70010 8,0002,80011 8,0002,90012 8,0003,00013 8,0003,2001415,0002,9001515,0005,7001615,0007,1001715,0007,5001815,0007,8001915,0008,7002022,0004,6002122,0005,5002222,0007,7002322,0008,3002422,0009,3002522,0009,5002622,00010,8002722,00011,600

  • *Presena de outliersOutliers so valores extremos, atpicos, ou seja, so observaes que no so bem ajustadas pelo modelo. Resduos que so outliers podem ser identificados a partir de um grfico dos resduos versus a varivel preditora ou valores ajustados. Pode-se usar tambm o box-plot ou ramo-e-folhas. O uso dos resduos semi-studentizados so particularmente teis, pois fcil identificar resduos que esto muitos desvios padres a partir de zero. Regra: considera-se outliers os resduos que esto 4 ou mais desvios padres a partir de zero.O grfico ao lado apresenta os resduos semi-studentizados e no contm outliers. Outliers podem introduzir grandes dificuldades na anlise estatstica. Deve-se descartar um outlier se ele representa um erro de registro, erro de medida, falha de equipamento ou algum outro problema similar.

  • *Falta de independncia dos errosSempre que os dados so obtidos ao longo do tempo (srie temporal), ou de algum outro tipo de seqncia (p.e., a seqncia em que os dados foram coletados, reas geogrficas adjacentes), deve-se fazer um grfico dos resduos versus seqncia.0Resduos (ei)tempo0Resduos (ei)tempoQuando os resduos so independentes, eles devem se distribuir aleatoriamente em torno de zero. Deve alternar os pontos em torno de zero. Algumas vezes, o problema de falta de independncia, devido a alguma varivel importante (p.e. tempo) que foi omitida do modelo. No grfico (b) um problema de falta de ajuste da funo de regresso (ajuste pobre).(a)(b)

  • *Para os dados de populao de Staphilococcus observa-se que os resduos se distribuem aleatoriamente em torno de zero.Falta de normalidade dos errosGrfico normal de probabilidades (Normal Probability Plot)Cada resduo grafado com o seu valor esperado sob normalidade. Se o padro de distribuio linear assume-se que a distribuio dos erros normal, caso contrrio, a distribuio no normal. Mostra-se que para uma varivel aleatria normal com mdia 0 (zero) e varincia 2 ( quadrado mdio residual), o valor esperado da k-sima menor observao (observaes ordenadas crescentemente) numa amostra aleatria de tamanho n :z(A) denota o (A)100 percentil da distribuio normal padro. Qual o valor de z para uma rea acumulada igual a A?

  • *Exemplo: vamos calcular os valores esperados para os dados de populao de StaphilococcusObservamos no grfico que os pontos caem prximos da reta, sugerindo que a amostra segue aproximadamente uma distribuio normal. A falta de normalidade pode ser devida a heterogeneidade de varincias e falta de ajuste do modelo, portanto, inicialmente verificar essas suposies.Obs.: resduos com o mesmo valor: calcular a mdia dos ranks.Exerccio: obtenha o valor esperado para a observao 1. Seja z(0,26)=-0,6433. 2. QME=0,0659

    Resduos e valores esperados sob normalidade - pop. Staphilococcus

    Observaes

    Resduos

    Posto (Rank) - k

    Valor esperado sob normalidade

    1

    -0,211

    2

    -0,1657

    2

    0,375

    6

    0,3288

    3

    -0,216

    1

    -0,3288

    4

    0,150

    5

    0,1657

    5

    -0,097

    3

    -0,0527

    6

    -0,001

    4

    0,0527

  • *Omisso de importantes variveis preditorasFazer um grfico dos resduos versus variveis preditoras omitidas do modelo que podem ter um efeito importante na resposta.Exemplo: objetivo: estimar o volume da rvore em p a partir de medidas mais facilmente obtidas. Y=volume da rvore em ps cbicos; X1=dimetro da rvore em polegadas a 4 ps e 6 polegadas acima do solo; X2=altura da rvore em ps. Foi realizada uma regresso do volume sobre a altura.Mostra uma relao linear forte entre os resduos e a varivel X1 (DAP) ainda no includa no modelo. Mostra tambm heterogeneidade de varincias.

  • * DAP ALTURA VOLUME 18,30070,00010,30028,60065,00010,30038,80063,00010,200410,50072,00016,400510,70081,00018,800610,80083,00019,700711,00066,00015,600811,00075,00018,200911,10080,00022,6001011,20075,00019,9001111,30079,00024,2001211,40076,00021,0001311,40076,00021,4001411,70069,00021,3001512,00075,00019,1001612,90074,00022,2001712,90085,00033,8001813,30086,00027,4001913,70071,00025,7002013,80064,00024,9002114,00078,00034,5002214,20080,00031,7002314,50074,00036,3002416,00072,00038,3002516,30077,00042,6002617,30081,00055,4002717,50082,00055,7002817,90080,00058,3002918,00080,00051,5003018,00080,00051,0003120,60087,00077,000 A inclinao sugere a incluso de log dap no modelo. Eliminou-se a heterocedasticidade.

  • *Teste F para falta de ajuste do modelo(Lack of fit)Iremos desenvolver um teste formal para verificar se uma especfica funo de regresso linear simples representa um bom ajuste para os dados.Suposies:O teste de ajuste do modelo assume que as observaes Y para um dado X so:1) independentes2) normalmente distribudos3) as distribuies de Y tem a mesma varincia 2O teste para falta de ajuste necessita de repeties em um ou mais nveis de X. Exemplo: num estudo observacional da produtividade de trabalhadores e suas idades, diversos trabalhadores de mesma idade so includos no estudo; num estudo experimental para verificar o efeito de seis diferentes porcentagens sobre as vendas oferecidas aos vendedores (as), pode-se tomar 3 vendedores (as) para cada porcentagem.

  • *Exemplo (Neter et al.) : num experimento envolvendo 12 filiais suburbanas similares, mas distribudas, de um banco comercial, aos possuidores de conta bancria nas filiais foram oferecidos presentes para aplicao de dinheiro no mercado. Um valor mnimo de aplicao foi estabelecido para se qualificar a receber o presente. O valor do presente foi diretamente proporcional ao valor mnimo depositado.Vrios nveis de depsitos mnimos iniciais e valores de presentes foram usados no experimento para se estabelecer a relao entre o depsito mnimo e o valor do presente, de um lado, e o nmero de contas abertas nas filiais , de outro. Foram usados seis nveis de depsitos iniciais e os valores dos presentes, com duas filiais atribudas aleatoriamente para cada nvel. Uma filial foi eliminada do estudo. Os resultados foram:

    Nmero de novas contas abertas nas filiais (Y)

    Repeties

    Tamanho mnimo de depsitos

    j=1

    j=2

    j=3

    j=4

    j=5

    j=6

    X1=75

    X2=100

    X3=125

    X4=150

    X5=175

    X6=200

    i=1

    28

    112

    160

    152

    156

    124

    i=2

    42

    136

    150

    124

    104

    Mdia

    35

    124

    155

    152

    140

    114

    _1028206766.unknown

  • *A funo de regresso ajustada aos dados dada por:Regression Summary for Dependent Variable: CONTASR= ,50850840 R= ,25858079 Adjusted R= ,17620088F(1,9)=3,1389 p
  • *Existe uma forte evidncia de que o modelo de regresso linear simples no est bem ajustado aos dados.Notao:Xj com j=1,2,...,c indica os nveis da varivel preditora. Para o exemplo, o valor de c 6. O nmero de repeties para o nvel j de X representado por nj; para o exemplo temos: n1=n2=n3 =n5=n6=2 e n4=1. Vamos representar o valor observado da varivel resposta da i-sima repetio e j-simo nvel de X por Yij, onde i=1,2,...,nj e j=1,2,...,c.

  • *Objetivo: Vamos particionar o soma de quadrados do erro em dois componentes: soma de quadrados do erro puro (modelo completo) e soma de quadrados da falta de ajuste (modelo reduzido). Vamos fazer o teste para a falta de ajuste do modelo. Modelo completoO modelo completo dado por:Onde j so os parmetros, j=1,2,...,c; ij so independentes N(0,2).Como a E(ij )=0, segue-se que: Assim, o parmetro j (j=1,2,...,c) a resposta mdia quando X=Xj.O modelo completo (4) da mesma forma que o modelo de regresso (3) no sentido que cada resposta Y o resultado de dois componentes: a resposta mdia quando X=Xj e o termo do erro aleatrio. A diferena entre eles que no modelo completo (4) no existem restries sobre as mdias j, ao passo que no modelo de regresso (3) as respostas mdias so linearmente dependentes com X, ou seja, E(Y)= 0+1X.

  • *Demonstra-se que os estimadores de mnimos quadrados ou mxima verossimilhana de j so simplesmente as mdias amostrais no j-simo nvel: Assim o valor esperado estimado de Yij :E a soma de quadrados do erro do modelo completo dada por:A soma de quadrados do erro puro atribudo essencialmente ao acaso (2). entre os valores de ys observados. No importa qual a funo de regresso adequada. Para o exemplo temos:

  • *Os graus de liberdade associados com a soma de quadrados do erro puro dado por:Para o exemplo, temos: 11-6=5 graus de liberdade.Modelo reduzido ( modelo sob hiptese, em estudo)Devemos levar em considerao o modelo que est sob estudo, isto , sob hiptese. Neste caso, estamos considerando um modelo de regresso linear simples, portanto, as hipteses so:Pela hiptese nula, j no modelo completo (4) est linearmente relacionada com Xj, do seguinte modo:Dessa forma, o modelo em estudo, sob H0, dado por:

  • *Este modelo justamente o modelo de regresso linear simples (3), com os ndices para reconhecer as repeties e os nveis da varivel preditora.Sabemos que:Portanto, a soma de quadrados do erro do modelo em estudo, exatamente a soma de quadrados do erro usualmente calculado:Da tabela da anlise de varincia obtemos:O clculo dos graus de liberdade dado por:n-2. No exemplo, temos: 11-2=9.

  • *Teste para falta de ajuste (lack of fit)Vimos que o teste dado por:A soma de quadrados para falta de ajuste calculada por:SQFA=SQER-SQEP(Veja grfico adiante)Podemos escrever o teste F* como:Aqui fica:

  • *Rejeitamos H0 se F* > F(; (c-2),(n-c)) o modelo no est bem ajustado aos dados. ** Usar o valor p.Exerccio: faa o este F* para o exemplo e conclua.

  • *Tabela da anlise de varinciaA decomposio da soma de quadrados do erro em soma de quadrados do erro puro e falta de ajuste, segue da seguinte identidade:Desvios da regressoErro puroFalta de ajusteA figura a seguir ilustra esta partio com o exemplo do banco comercial para a observao Y13=136, X3 =100.

  • *

  • *Como todos os Yij, num mesmo nvel Xj, tem o mesmo valor ajustado, representados por Yj (chapu), podemos escrever a soma de quadrados para falta de ajuste como:Observe, na frmula, que se a funo de regresso linear simples est bem ajustada aos dados, ento as mdias das observaes vo estar prximas dos valores estimados e a soma de quadrados para falta de ajuste ser pequenaPor outro lado, se a funo no est bem ajustada aos dados, a SQFA ser maior. Como temos c mdias na soma de quadrados para falta de ajuste e 2 graus de liberdade so perdidos para estimarmos os parmetros 0 e 1 do modelo de regresso, o nmero de graus de liberdade associados a soma de quadrados c-2.A soma de quadrados do erro puro dada por:

  • *A seguir apresentamos a tabela da ANOVA geral e para o exemplo do banco comercial.R2=SQR/(SQTOTAL-SQEP)=5141,3/(19882,9-1148,0)=0,2744

    Tabela geral da ANOVA

    Causas de variao

    Soma de quadrados

    Graus de liberdade

    Quadrados mdios

    F

    Regresso

    SQR=

    1

    QMR=SQR/1

    QMR/QME

    Erro

    SQE=

    n-2

    QME=SQE/(N-2)

    Falta de ajuste

    SQFA=

    (c-2)

    QMFA=SQFA/(C-2)

    QMFA/QMEP

    Erro puro

    SQEP=

    (n-c)

    QMEP=SQEP/(N-C)

    Total

    SQT=

    n-1

    _1028372508.unknown

    _1028372614.unknown

    _1028372681.unknown

    _1028372557.unknown

    _1028372448.unknown

    Tabela da ANOVA para o exemplo do banco comercial

    Causas de variao

    Soma de quadrados

    Graus de liberdade

    Quadrados mdios

    F

    Regresso

    5.141,3

    1

    5.141,3

    3,14NS

    Erro

    14.741,6

    9

    1.638,0

    Falta de ajuste

    13.593,6

    (4)

    3.398,4

    14,80**

    Erro puro

    1.148,0

    (5)

    229,6

    Total

    19.882,9

    10

  • *Pode-se mostrar que as esperanas dos quadrados mdios so dadas por:O QMEP um estimador no tendencioso da varincia 2 , seja qual for o modelo de regresso.O valor esperado do QMFA tambm 2 se a funo de regresso linear, pois j=0+1Xj, ento o segundo termo nulo. Por outro lado, se a funo de regresso no linear, j0+1Xj, e a E(QMFA) ser maior do que 2 . Ento:Valor p: 0 ,110158 (com 1 e 9 gl e F=3,14)Valor p: 0,005595 (com 4 e 5 gl F=14,80)Concluso: o modelo de regresso linear simples no adequado para os dados.

  • *Os termos SQE e QME no so precisos quando o modelo de regresso sob hiptese em H0 no a funo verdadeira pois a SQE e o QME refletem os efeitos da falta de ajuste e a variabilidade do termo dos erros. Continuaremos usando a mesma terminologia para que se tenha coerncia e agora usar o termo erro puro para identificar a variabilidade associada apenas com o termo do erro.

    O teste aqui aplicado pode ser usado para testar o ajuste de outras funes de regresso.

    Quando aceitamos que o modelo em estudo apropriado, na prtica usual usar o quadrado mdio do erro, QME, como um estimador de 2, em preferncia ao quadrado mdio do erro puro, pois o QME contm mais graus de liberdade.

  • *Admite-se que as variveis X e Y esto relacionadas de acordo com modelo Yij=0+1Xj+ij, onde os ij so variveis aleatrias independentes com distribuio normal de mdia zero e varincia 2.a) determine as estimativas dos parmetros da regresso linear;b) faa a anlise de varincia e interprete o valor de F;c) verifique se h razes para rejeitar o modelo linear inicialmente proposto.d) fazer um grfico dos valores ajustados versus resduos.e) Calcule o coeficiente de determinao (r2)Exerccio: dada uma amostra de 12 valores

    Xj

    Yij

    Xj

    Yij

    Xj

    Yij

    1

    2

    2

    8

    5

    11

    1

    4

    2

    6

    5

    10

    1

    3

    4

    9

    5

    16

    1

    5

    4

    13

    5

    9

  • *Analysis of Variance; DV: Y (dozepare.sta)Sums of Mean Squares df Squares F p-level Regress.144,00001144,000028,80000,000316Residual50,0000105,0000Total194,0000Regression Summary for Dependent Variable: YR= ,86154979 R= ,74226804 Adjusted R= ,71649485F(1,10)=28,800 p
  • *A soma de quadrados do erro do modelo reduzido (ou soma de quadrados do erro) vale:A soma de quadrados de falta de ajuste vale:O teste F fica:

  • *Algumas medidas para contornar problemas do modelo de regresso Modelo de regresso linear simples no adequadoUsar um modelo apropriadoUsar transformaesNo linearidade do modelo de regressoMudar o modeloUsar transformao (ser visto na prxima seo)Varincias heterogneasUsar o mtodo de mnimos quadrados ponderados para estimar os parmetrosUsar transformao (ser visto na prxima seo)

  • *Erros correlacionadosUsar modelos que levam em considerao a dependncia entre os erros (modelos de sries temporais, modelar a matriz de covarincias)Usar transformaoFalta de normalidadeA falta de normalidade geralmente vem junto com falta de homogeneidade de varincias. Frequentemente, a mesma transformao estabiliza a varincia e aproxima para normalidade, portanto, primeiro usar uma transformao para estabilizar a varincia (ser visto na prxima seo).Omisso de varivel preditora importanteModificar o modelo (Regresso linear mltipla)OutliersUsar procedimentos de estimao robustos (mtodo dos mnimos quadrados reponderados iterativamente), pois os mtodos de mnimos quadrados e mxima verossimilhana produzem estimativas distorcidas.

  • *TransformaesTransformao da varivel Y ou da varivel preditora X, ou de ambas, frequentemente suficiente para tornar o modelo de regresso linear simples apropriado para os dados transformados.Transformaes para no linearidade do modeloVamos considerar algumas transformaes quando a distribuio dos erros aproximadamente normal e com varincia constante. Deve-se realizar uma transformao apenas na varivel X.Padres de relao entre X e Y

  • *Exemplo: Uma pesquisadora estava interessada em estudar o comportamento do pH de tomates Chronos (Y), inteiros minimamente processados, submetidos ao tratamento vcuo, durante 22 dias de estocagem (X), a uma temperatura mdia de 8oC e umidade relativa de 62,78%.O diagrama de disperso indica uma relao curvilnea. A variabilidade nos diferentes nveis de X parece constante, portanto, vamos considerar a transformao X=1/X.

  • *Valores originais e os valores transformados (1/X). PH DIAS 1/DIAS15,7001,0001,00025,8001,0001,00035,6001,0001,00044,8008,000,12554,7008,000,12564,6008,000,12574,60015,000,06784,50015,000,06794,50015,000,067104,40022,000,045114,30022,000,045124,20022,000,045Os dados continuam mostrando um comportamento curvilneo. A variabilidade nos diferentes nveis de X continua constante (pois no foi feita a transformao em Y).Exerccio: usar a transformao X=log10(X). Fazer a anlise de resduos para ver se a transformao foi efetiva.* Nota: fazer anlise de resduos para verificar a transformao mais efetiva.

  • *Transformaes para no normalidade e heterocedasticidadeA transformao log10 (dias) linearizou a funo de regresso. A variabilidade permanece constante.

  • *A figura ilustra algumas formas de relacionamento onde a assimetria e as varincias aumentam com a reposta mdia E(Y).Transformaes sobre Y:Nota: uma transformao em X pode ser til ou necessrio. Fazer anlise de resduosVarincias heterogneas e no normalidade dos erros frequentemente aparecem juntas. Necessita-se fazer uma transformao em Y, pois a forma e a disperso em Y precisam ser modificadas. A transformao em Y pode tambm eliminar o problema de no linearidade do modelo. Outras vezes uma transformao tambm em X necessria para manter ou obter uma relao linear.

  • *Exemplo: objetivo: estimar o volume da rvore em p a partir de medidas mais facilmente obtidas. Y=volume da rvore em ps cbicos; X1=dimetro da rvore em polegadas a 4 ps e 6 polegadas acima do solo; X2=altura da rvore em ps.Observamos maior variabilidade para valores maiores de altura. A relao entre volume e altura linear. ALTURAVOLUME UM_VOLUM70,00010,300,09765,00010,300,09763,00010,200,09872,00016,400,06181,00018,800,05383,00019,700,05166,00015,600,06475,00018,200,05580,00022,600,04475,00019,900,05079,00024,200,04176,00021,000,04876,00021,400,04769,00021,300,04775,00019,100,05274,00022,200,04585,00033,800,03086,00027,400,03671,00025,700,03964,00024,900,04078,00034,500,02980,00031,700,03274,00036,300,02872,00038,300,02677,00042,600,02381,00055,400,01882,00055,700,01880,00058,300,01780,00051,500,01980,00051,000,02087,00077,000,013

  • *Transformao: valores inverso de Y (1/Y).Note que a transformao tornou a varincia razoavelmente constante para os diferentes nveis de X.O modelo de regresso linear simples ajustado aos dados com a transformao Y=1/Y dado por:Exerccio: fazer o grfico normal de probabilidades dos resduos. Interpretar.

  • *Indica que o modelo apropriado para os dados transformadosSe desejamos estimar os valores de Y, na unidade original, fazemos:Transformao Box-CoxA transformao Box-Cox automaticamente identifica uma transformao a partir de uma famlia de transformaes potncia de Y. A famlia de transformaes potncia dada por:Onde um parmetro a ser determinado a partir dos dados da amostra. Esta famlia inclui, por exemplo,

  • *O modelo de regresso com erros normais com a varivel resposta pertencente a famlia de transformao potncia fica:O procedimento Box-Cox usa o mtodo de mxima verossimilhana para estimar , 0, 1e 2. A funo de verossimilhana dada por:Desta forma, o procedimento de Box-Cox encontra a estimativa de mxima verossimilhana de para usar na transformao potncia.

  • *Procedimento (simples) para obter uma estimativa de Vamos usar a anlise de regresso padro do modelo de regresso linear simplesVamos fazer uma busca numrica (menor SQE) para uma faixa de valores de lambda, por exemplo:Para cada valor de , as observaes Yi so padronizadas do seguinte modo: Faz-se a regresso das observaes Wi sobre X e obtm-se as SQE.. Pode-se mostrar que a estimativa de mxima verossimilhana de o valor de para a qual a SQE mnima.

  • *Exemplo: continuamos com o exemplo das rvores (X=altura e Y=volume). Vamos tomar os seguintes valores para lambda Observe na tabela acima que a transformao Box-Cox indica prximo de -0,20. Entretanto, a SQE aproximadamente estvel na faixa de -0,30 a 0,00, portanto, vamos usar a transformao logartmica por ser a preferida dos pesquisadores ( uma transformao que os pesquisadores entendem melhor). A transformao Box-Cox d um direo no sentido da escolha da melhor transformao.Observe que a transformao usada anteriormente, 1/Y, no foi razovel de acordo com transformao de Box-Cox. (compare os dois grficos de resduos).Quando a transformao Box-Cox produz um prximo de 1, no necessrio transformar os dados.

    -0,30

    K2

    26,3833

    26,3833

    26,3833

    26,3833

    26,3833

    26,3833

    26,3833

    26,3833

    26,3833

    K1

    -696,0792

    -34,0792

    -253,8430

    -365,9841

    190,1938

    68,5541

    32,9465

    1

    SQE

    4201,9

    3324,5

    3310,3

    3319,8

    3352,9

    3409,7

    3490,5

    3596,3

    5204,9

    _1018415619.unknown

    _1018415639.unknown

    _1018415657.unknown

    _1018415665.unknown

    _1018415672.unknown

    _1018415648.unknown

    _1018415629.unknown

    _1018415598.unknown

    _1018415609.unknown

    _1018415573.unknown

  • *Indica a adequao do modelo de regresso para os dados transformados (transformao logartmica)

  • *Estudo da forma da funo de regressoMtodo Loess (Locally weighted regression scatterplot smoothing) um mtodo no paramtrico de ajuste de curvas. Fornece uma curva alisada (suavizada) atravs do ajuste de vrias funes de regresso linear em pontos vizinhos. indicada em casos de difcil deciso sobre a aplicao de uma curva paramtrica. Tambm em presena de valores discrepantes.** Fazer lista de exerccios nmero 3.

  • *Este grfico foi feito no SAS (Interactive Data Analysis), arquivo: sasuser.custdet1.