Download pdf - Regressao No Minitab

Transcript

Universidade Federal de Minas GeraisInstituto de Cincias ExatasDepartamento de Estatstica Exerccios resolvidos em Anlise deRegresso utilizando o MINITAB Giselle Silva de Carvalho Ilka Afonso Reis Relatrio Tcnico RTE-01/2004 Srie Ensino 2Sumrio Introduo _____________________________________________________________________ 3 1 Parte -Exerccios prticos______________________________________________________ 4 Questes: ________________________________________________________________ 4 Regresso linear simples:__________________________________________________ 4 Exerccios de Reviso de Regresso Linear Simples____________________________ 10 Regresso Mltipla _____________________________________________________ 11 Exerccios de Reviso de Regresso Mltipla _________________________________ 17 Respostas: ______________________________________________________________ 19 Regresso linear simples:_________________________________________________ 19 Exerccios de Reviso de Regresso Linear Simples____________________________ 45 Regresso Mltipla _____________________________________________________ 48 Exerccios de Reviso de Regresso Mltipla _________________________________ 83 2 Parte Exerccios Tericos ____________________________________________________ 87 Regresso Simples ______________________________________________________ 87 Regresso Mltipla _____________________________________________________ 87 Anlise de Regresso no Minitab_________________________________________________ 89 Regresso Simples _______________________________________________________ 89 Transformao das variveis ______________________________________________ 96 Regresso Mltipla ______________________________________________________ 97 Modelo Ponderado______________________________________________________ 101 Modelo com Interao ___________________________________________________ 101 Seleo de variveis _____________________________________________________ 102 Validao do modelo ____________________________________________________ 106 Bibliografia __________________________________________________________________ 107 Anexos ______________________________________________________________________ 108 3Introduo Este relatrio consiste de listas de exerccios de Anlise de Regresso elaboradas pelaprofessoraIlkaAfonsoReiseresolvidaspelaaluna,entono4perodode Graduao em Estatstica, Giselle Silva de Carvalho.As listas esto divididas em tericas (1parte) e prticas (2 parte), sendo que as listas tericas no esto resolvidas. H tambm uma parte na qual se ensina de maneira resumidacomousarosoftwareMinitabparasefazeranlisederegresso.Osdados utilizados nos exerccios esto nas tabelas em anexo.A inteno deste relatrio fazer com que alunos, no s da Estatstica e Cincias Atuariais,masoutraspessoasinteressadasnestarea,tenhamummaterial(em portugus) para consultar. 41 Parte -Exerccios prticos Questes: Regresso linear simples: -Parte 1 1)Utilizando os dados da Tabela A.1 (pgina 51, Draper & Smith, 3 ed.) : a)Faa o diagrama de disperso. b)Ajuste o modelo de regresso 0 1YX + = + , encontrando a reta estimada. c)Construa a Tabela de Anlise de Varincia e calcule o R2. d)Retire o par de observaes no. 16 (Y=5.9 ; X = 6.7) e refaa os itens de a) a c).e)Comparando somente os valores de R2, quais dos dois modelos o melhor? O par de observaes n 16 influencia a qualidade do ajuste ? 2)Os dados deste exerccio so do exerccio K (Captulo 3) do livro de Draper & Smith e esto na Tabela A.2 no Anexo. A varivel resposta (Y.3K) representa a porcentagem de amendoins no-contaminados por certo fungo em um lotee a varivel explicativa (X.3K) representa a quantidade mdia de uma substncia qumica para evitar contaminao em cada 60 gramas de amendoins. a)Faa o diagrama de disperso. b)Ajuste o modelo de regresso 0 1YX + = + , encontrando a reta estimada. c)Construa a Tabela de Anlise de Varincia e calcule o R2. d)Este conjunto de dados possui dois nveis de X com medidas repetidas (X = 18,8 e X = 46,8). Entretanto, alguns nveis de X tem valores muito prximos que, na prtica, poderiam ser considerados iguais e, assim, os valores de Y nestes nveis poderiam ser considerados medidas repetidas. So eles: X = 9,3 ; 9,9 X = 12,3 ; 12,5 e 12,6 X = 18,8 ; 18,8 ; 18,9 X = 21,7 ; 21,9 X = 46,8 ; 46,8 (estes so realmente medidas repetidas) X = 70,6 ; 71,1 ; 71,3 X = 83,2 ; 83,6 . e)Considere os valores de Y nestes nveis como sendo medidas repetidas e calcule a soma de quadrados do erro puro (SSErroPuro). Este valor , claro, uma aproximao. 5Encontre tambm os graus de liberdade desta soma. f)Construa a nova Tabela de Anlise de Varincia, agora com a SSResidual desmembrada em SSErroPuro e o SSL (SS da falta-de-ajuste). Faa o teste F da falta-de-ajuste. g)Caso o teste F da falta-de-ajuste seja no-significante, faa o teste F geral. h)Interprete os coeficientes da reta de regresso. -Parte 2 1)Utilizando os dados da Tabela A.3. (exerccio V, captulo 3, Draper & Smith, 3 ed., pgina 105) : Varivel Resposta: Y = tamanho da linha da vida da mo esquerda (em cm) ; Varivel Explicativa: X = idade da pessoa ao morrer (em anos); a)Faa o diagrama de disperso. b)Ajuste o modelo de regresso 0 1YX + = + , encontrando a reta estimada. c)Construa a Tabela de Anlise de Varincia com a SSResidual desmembrada em SSErroPuro e o SSL (SS da falta-de-ajuste). Faa o teste F da falta-de-ajuste. d)FaaotesteFdaregresso(Escrevahiptesesnulaealternativa,faaotestee conclua). e)Calcule o valor de R2 e o valor de max(R2) e faa a interpretao de R2.f)Verifique a suposio de normalidade dos resduos atravs do grfico de probabilidade Normal. g)Faa o teste da homogeneidade do erro puro (Bartllet e Levene). h)Analise os grficos de resduos apropriados. i)Reporte os possveis problemas encontrados na anlise dos resduos (itens f, g e h) . j)Faa o teste H0: 0 = 0contraHa: 0 0 . k)A partir de suas anlises nos itens anteriores, conclua sobre a relao entre Y e X. 6-Parte 3 Regresso simples e regresso inversa 1)Num estudo retrospectivo sobre a possvel relao entre o tempo de utilizao de um plano de previdncia e o tempo de contribuio do beneficirio , ambos medidos em meses,umaamostrade100beneficiriosdeumplanodeprevidnciativeramessas duas variveis registradas.Os dados esto na Tabela A.4 em anexo. Varivel resposta: Y = tempo de contribuio, em meses. Varivel explicativa: X = tempo de utilizao do benefcio, em meses (tempo entre a data da aposentadoria e a data do falecimento do beneficirio). a)Faa o diagrama de disperso. b)Ajuste o modelo de regresso linear adequado, encontrando a reta estimada. c)ConstruaatabeladeanlisedevarinciacomaSSresidualdesmembradaem Sserropuro e o SSL (SS da falta de ajuste). E faa o teste da falta de ajuste. d)FaaotesteFdaregresso(escrevaahiptesenulaealternativa,faaotestee conclua). e)Calcule o valor de R2 e do max(R2) e faa a interpretao do R2. f)Verifique a suposio de normalidade dos resduos atravs do grfico de probabilidade Normal. g)Faa o teste da homogeneidade do erro puro (Bartlet e Levene). h)Analise os grficos de resduos apropriados. i)Reporte os possveis problemas encontrados na anlise de resduos. j)Faa o teste Ho: o = 0 contra Ha : o . k)A partir das suas anlises anteriores conclua sobre a relao entre Y e X. l)Regressoinversa:comooestudofoiretrospectivo,apartirdofalecimentodo beneficirio foi possvel estabelecer o valor da varivel explicativa e, ento o valor da respostaparaaquelenveladvarivelexplicativa.Porm,naprtica,gostaramosde estudararelaoinversa,ouseja,apartirdotempodecontribuiogostaramosde predizer o tempo de uso do benefcio. Deste modo, usaremos a regresso inversa. l.1) A partir da reta estimada em (b), estabelea a equao da regresso inversa, Isto , X como funo de Y. l.2)Dadoovalordotempodecontribuioiguala348meses,estimeovalormdiodo tempo de uso do benefcio. l.3)Estabeleaointervaloa95%deconfianaparaotempodeusodobeneficirio quando o tempo de contribuio for igual a 355 meses. 7-Parte 4 1)Uminvestigadordesejaestudarapossvelrelaoentreossalrioseotempode experincianocargodegerentedeagnciasbancriasdeumagrandeempresa.Alm disto,gostariadesabersehdiferenasquandosolevadosemcontahomense mulheresseparadamente.OsdadoscoletadosestodisponveisnaTabelaA.5em anexo, e a descrio do banco de dados segue abaixo. Varivel Resposta Y: Salrio, em mil reais ; Variveis Explicativas X: Experincia=tempodetrabalhonocargo,emanos completos ; Sexo = sexo do empregado (0 feminino ; 1 masculino) a)Faaodiagramadedispersodosalrioversusexperinciaeavalieapossibilidade do ajuste de um modelo de regresso linear. b)Ajuste o modelo de regresso 0 1YX + = + , sendo X a varivel experincia , encontrando a reta estimada. c)Construa a Tabela de Anlise de Varincia e calcule o valor de R2.d)Verifique a suposio de normalidade dos resduos atravs do grfico de probabilidade Normal. e)Analise o grfico resduos versus ajustados (preditos). Os resduos parecem se distribuir aleatoriamente em torno do valor zero? f)Analisando as respostas aos itens d) e e), o modelo ajustado em b) parece ser adequado? g)Analise o grfico resduos versus sexo. O que se pode concluir? h)Para cada sexo separadamente, repita os itens de b) a e).i)Para cada sexo separadamente, faa o teste F da regresso (escreva hipteses nula e alternativa, faa o teste e conclua). j)Compare os valores de R2 dos modelos em separado com o valor calculado em c). O que se pode concluir? k)FaaamesmacomparaousandoovalordoMSResidualdastabelasANOVA.Lembre-sedequeoMSResidualaestimativadavarinciadaresposta(Utilizeo conceito de desvio-padro, se achar mais fcil sua anlise). l)Interprete a reta de regresso estimada para cada sexo e tire suas concluses sobre a relao entre salrio e experinciapara os gerentes de banco desta empresa. 8-Parte 5 Modelo sem intercepto e variveis Dummy 1)Considere o conjunto de dados da Tabela A.6 no Anexo. a)Ajuste o modelo de regresso 20 2Y= + + X. b)Construa a Tabela de Anlise de Varincia, calcule o valor de R2, faao teste de falta de ajuste (se possvel)1.c)Caso no haja problemas com o teste da falta de ajuste , faa o teste F da regresso (escreva hipteses nula e alternativa, faa o teste e conclua). d)Teste a significncia do intercepto do modelo (teste t-Student ou intervalo de confiana. Escreva hipteses nula e alternativa, faa o teste e conclua). e)Ajuste o modelo de regresso sem o intercepto. 22Y= + X . f)Note que o MINITAB no calcula o R2 para o modelo sem intercepto. Use ento o valor do MSResidual para escolher entre os dois modelos (com intercepto e sem intercepto). 2)Variveis DummySuponha que desejssemos estudar a renda (em R$) dos empregados de certo setor em funo de sua experincia no cargo em que ocupa (anos) e de seu local de trabalho. Se tivssemos 4 cidades (A, B , C e D),as variveis dummies a serem criadas seriam : Local 1Local 2Local 3 Cidade A000 Cidade B100 Cidade C010 Cidade D001 a)Suponhaqueexistaumaquintacidade(CidadeE).Comoficariaatabelade codificao das cidades com a introduo da Cidade E? b)Considere agora a seguinte codificao: Local 1Local 2Local 3 Cidade A001 Cidade B010 Cidade C100 Cidade D000 1 Por questes didticas, estamos omitindo a etapa de anlise dos resduos, que viria antes da utilizao de qualquer teste. 9 o modelo : Salrio= + experincia + 21 local1 + 22 local2 + 23 local3 + erro e seguinte equao de regresso estimada : Salrio = 2,50 + 0,099 experincia + 0,55 local1 + 0,69 local2 + 0,75 local3 Considerandoamesmaexperincia,qualadiferenamdiaentreossalriosdas pessoas da: b.1) cidade A e B b.2) cidade A e Cb.3) cidade A e Db.4) cidade B e C b.5) cidade B e D b.6) cidade C e D c)Considere a primeira codificao.Suponha que, ao fazermos o teste t-Student para os parmetros do modelo: A categoria de referncia a cidade A .O parmetro 21 refere cidade B (local1). O parmetro 22 refere cidade C (local2). O parmetro 23 refere cidade D (local3). c.1)ahiptese21 = 0nosejarejeitada.Oqueistosignificaemtermosdacomparao entre as cidades? c.2) a hiptese 22 = 0 no seja rejeitada. O que isto significa em termos da comparao entre as cidades? c.3) a hiptese 23 = 0 no seja rejeitada. O que isto significa em termos da comparao entre as cidades? d)Pense na primeira tabela de codificao (local 1, local 2 e local 3). Para representar a cidadeE,umaalternativarespostaema)seriafazerlocal1=1;local2=1e local 3 =1 . Considerando os testes de hipteses para os parmetros descritos em c) , pense em por que este procedimento no pode ser adotado (pense na comparao entre as cidades quando apenas um parmetro no for considerado significativo) 212223 Local 1Local 2Local 3 Cidade A000 Cidade B100 Cidade C010 Cidade D001 Cidade E111 10Exerccios de Reviso de Regresso Linear Simples Considere o modelo de regresso linear simples, + + = X Y1 0 . 1)Qualavariveldependente?Equalavarivelindependente?Queoutros nomes so usados para se referir a estas variveis?2)Qualomtodoutilizadoparaestimar0e1?Parautilizaressemtodo necessriosuporalgumadistribuioparaavarivelrespostaY?Emcasopositivo, qual a distribuio? 3)Quais as suposies feitas pelo modelo de erros normais? O que estas suposies acarretam para Y? 4)O que significa fazer extrapolao no contexto de um modelo de regresso linear simples? Cite pelo menos dois riscos desta prtica. 5)Definaocoeficientededeterminao(R2)eexpliquequaisvaloreselepode assumir. 6)Em que situao possvel realizar um teste de falta de ajuste (Lack-of-fit) e qual o objetivo deste teste? 7)Quaisosprocedimentosgrficospodemserusadosparaverificarassuposies enumeradas no item (2)? 8)Emquesituaopodemosutilizarumtesteparaasuposiodenoauto-correlao entre os erros? Cito dois possveis testes a serem usados nesta situao.9)Quando indicado o uso de transformao da varivel resposta? 10) Que tipo de transformao feita na varivel resposta no mtodo analtico de Box-Cox? Exemplifique. 11) Em que situao usada a regresso inversa? 12) PorqueotesteFdatabelaANOVAequivalenteaotestet-studentparaas hiptesesHo:1=0contraHa:10?(Mostreaequivalnciaentreasduas estatsticas de teste) 13) Naanlisederesduos,porqueutilizamosogrficoresduosxvalores ajustados e no o grfico dos resduosx valores observados? 11Regresso Mltipla -Parte 1 1)(Adaptaodosexerccios3.LLe6.H,DraperandSmith)Ogerentedeum pequenoserviodeentregascontratapessoaladicionalsemprequeovolumede servio excede a carga de trabalho de seus usuaistrsempregados.Paraverificara eficcia desta idia, ele registrou durante 13 dias seguidos as seguintes variveis: Varivel Resposta:Y - Nmero de Entregas ; Variveis Explicativas: X - Nmero de Empregados (atuais mais extras) ; Z-NmerodeEmpregadosquenoestavamtrabalhandoem algum perodo do dia; OsdadoscoletadosestodisponveisemnaTabelaA.7noanexo.Obs:nostrs primeiros dias de coleta, alguns dos empregados usuais estavam de frias ou de licena mdica. a)Faa o diagrama de disperso de Y versus X,Y versus Z e avalie a possibilidade do ajuste de um modelo de regresso linear. b)Faa o grfico em 3 dimenses de Y versus X e Z. (MINITAB: Graph> 3-D plot) c)Ajuste o modelo de regresso 0 1YX + = + , encontrando a reta estimada. d)Construa a Tabela de Anlise de Varincia. e)FaaAnlisedosResduos(considereodiacomoordemdecoletaefaatambmo grfico dos resduos versus a varivel Z). Se existem problemas com as suposies do modelo de erros normais, quais so eles? f)Casonohajaproblemascomassuposiesdomodelodeerrosnormais,faaos testes F (Falta de Ajuste e Regresso) da Tabela Anova em (d). g)Ajusteomodeloderegresso 0 1 2YX Z + = + + ,encontrandoaequao estimada. h)Construa a Tabela de Anlise de Varincia, separando as SS seqenciais. i)Faa Anlise dos Resduos do modelo em (g) . H algum problema? j)Caso no haja problemas em (i), faa o teste da Falta de Ajuste da Tabela Anova em (h). k)Caso no haja problemas no teste de falta de ajuste, faa os testes F seqenciais da regresso (escreva as hiptesesnula e alternativa de cada teste). l)Utilizandootestet-Student,testeasignificnciadecadaparmetroindividualmente. Os resultados concordam com os resultados dos testes F seqenciais de (k)? 12m) Interprete a equao de regresso estimada em (g). n)IntervalodeConfianaparaE[Y]dadasnovasobservaesdeXeZ:amatriz ( )-1'X X podeserarmazenadanoMINITAB(najanelaRegression,botoStorage, marque a opo XX inverse ). Esta matriz ser armazenada num objeto chamado m1. Para imprimir este objeto na janela Session , basta ir no menuEdit > Command Line Editor,digitarprintm1epressionarSubmitCommands.Estaamatrizqueser usada no clculo do erro de estimao no intervalo de confiana para E[Y|(x,z)].Considerando um nmero de empregados (X) igual a 5 etodos eles trabalhando todo o tempo(ouseja,Z=0),construaumintervalode95%deconfianaparaE[Y],onmero mdio de entregas realizadas quando h 5 empregados trabalhando todo o tempo . -Parte 2 Deteco de pontos de influncia 1)Detectandopontosdeinfluncia-Considereosseguintesexercciosdaslistas anteriores : 2 - parte 1; 1 parte2; 1 parte 3; 1 parte 4; 2 parte 5 e 1 parte 6. a)Faa a anlise de resduos procura de pontos de influncia. Use as medidas Hi, D-cook, resduos studentizados.b)Casoseja(m)detectado(s)ponto(s)deinfluncia,ajusteomodelosemeste(s) ponto(s)ecomparesuaequaoestimadacomaequaoestimadacomtodosos pontos para verificar o tamanho da influncia deste(s) ponto(s). -Parte 3 modelo com ponderao 1)(AdaptaodosdadosdaTabela3.8,MontgomeryandPeck)Arendamensal mdiadevendasderefeies(Y),assimcomoosgastosmensaiscompropaganda (X),foramregistradaspara30restaurantes.Umanalistadevendasgostariade encontrar uma relao entre as vendas e os gastos com propagandas. Os dados coletados esto disponveis em na Tabela A.8 no Anexo. (Os valores de Y e X foram arredondados para facilitar a resoluo do problema) a)Faa o diagrama de disperso de Y versus X e avalie a possibilidade do ajuste de um modelo de regresso linear. b)Ajuste o modelo de regresso 0 1YX + = + , encontrando a reta estimada c)FaaAnlisedosResduosdomodeloemb).Seexistemproblemascomas suposies do modelo de erros normais, quais so eles? d)Paracorrigiroproblemadaheterocedasticidade,vamosprocedercomatcnicados 13mnimos quadrados ponderados: d.1)CalculeaestimativadoErroPuroparacadanveldeXcommedidasrepetidas (No MINITAB, use o comando Stat > Basics Statistics > Display Descriptived.2)FaaumgrficodeVar(Y|X),asestimativasdoErroPuroencontradasemd.1), versusnveldeX.Existerelacionamentoentreestasduasvariveis?Sesim,deque tipo? d.3)CrieumacolunadepesosecoloqueoinversodacolunaX.Porqueusaro inverso de X como peso? (Pense no relacionamento encontrado em d.2) e nos exemplos utilizados em sala). d.4)Useospesosconstrudosemf)paraajustaromodeloemb).(NoMINITAB,na janela Regression, boto Options, selecionar a coluna com pesos no espao weights. No se esquea de guardar os resduos e os preditos). e)AnlisedosResduos:Crieumacolunacomamultiplicaodacolunaderesduos pela coluna da raiz quadrada dos pesos. Faa o mesmo com a coluna dospreditose com a coluna dos valores de X . f)Faa o grfico de resduos transformados versus preditos transformados. O problema da homocedasticidade foi resolvido?g)Casonohajaproblemasemi),construaaTabelaAnovaefaaotestedaFaltade Ajuste da Tabela Anova. h)Casonohajaproblemasnotestedefaltadeajuste,faaotesteFdaregresso (escreva as hiptesesnula e alternativa de cada teste). i)UtilizeagoraatransformaoraizquadradaemYeajusteomodeloderegresso linear,fazendoaanlisederesduos.Estatransformaoresolveoproblemada heterocedasticidade?j)AnalisandoovalordoR2,compareoajustedomodeloemb)feitoviamnimos quadradosponderadoscomoajustefeitoviatransformaoraizquadradaemY.Por que no podemos comparar os valores do MSResidual? -Parte 4 Multicolinearidade e Anlise de Varincia viaAnlise de Regresso 1)(Multicolinearidade) Um grupo de estudantes participou de um experimento simples: cada estudante teve anotado sua altura (height), peso (weight), sexo (sex) , hbito de fumo(smokes),nveldeatividadeusual(activity)epulsoemrepouso.Depois,eles correramnolugarduranteumminutoeopulsofoinovamentemedido.Oobjetivo sabercomopredizeramediodopulsodepoisdacorridaatravsdasvariveis medidas. Os dados esto na Tabela A.9 no Anexo. 14Pulse1-pulso antes da corrida (em batidas por minuto) Pulse2-pulso depois da corrida (em batidas por minuto) Smokes- 1= fuma regularmente ;2 = no fuma regularmenteSex -1 = homem2 = mulher Height-altura (em polegadas) Weight-Peso (em libras)Activity - Nvel de atividade fsica : 1 = leve 2= moderado 3 = intenso a)Ajusteummodeloderegressolinear,entrandoseqencialmentecomasvariveis: pulse1, Sex, height, weight, smokes, activity.A cada entrada de varivel, faa o teste Fseqencial,avaliandoaSomadeQuadradosExtradevidavarivelqueest entrando.AvalieosVIFs(fatoresdeinflaodavarincia).(NoMINITAB,janela Regression, boto Options).b)Ajusteomodeloderegressosomentecomasvariveisquederamcontribuio significativaparaaSomadeQuadradosdeRegresso,avaliandotambmosVIFs. H indicao de problemas de multicolinearidade das variveis explicativas?c)Interprete o modelo ajustado em b). 2)(Anlise de Varincia via Anlise de Regresso) Pulse1pulso antes da corrida (em batidas por minuto) ActivityNvel de atividade fsica : 1 = leve 2= moderado 3 = intenso Comosdadosdoexerccio1,vamosverificarseopulsomdiovariaconformeo nveldeatividade.Ouseja,devemoscompararamdiadopulsoemtrsgruposde indivduos. A hiptese nula a de que o pulso mdio igual nos trs grupos , e a hiptese alternativa a de quepelo menos um dos grupos tem mdia diferente.Estas so as hipteses usadas na tcnica de Anlise de Varincia, que pode ser realizada atravs de um modelo de regresso. Vejamos como: a)Ajusteummodeloderegresso(comintercepto)davarivelpulse1emfunoda varivelactivity.Lembre-sedequeavarivelactivityqualitativaetemtrsnveis. ConstruaaTabelaAnovaetesteasignificnciadestaregresso,atravsdotesteF. EmcasoderejeiodeHo,testeasignificnciadecadacoeficienteemseparado atravs do teste t. b)Interpreteo modelo ajustado.Qual a diferena mdia entre o pulso de indivduos do grupodeatividadefsicaleveeopulsodeindivduosdogrupodeatividadefsica moderada?Eentreindivduosdogrupodeatividadefsicaleveeosdeatividade intensa?Eentreosdosgruposmoderadaeintensa?(searegressonofor considerada significante, essa interpretao servir como prtica). c)Com o teste F em a), existem evidncias estatsticas suficientes contra a hiptese de igualdade entre o pulso mdio dos trs grupos? d)Utilizando a tcnica da Anlise de Varincia, responda novamente a questoc). 15e)Compare a tabela ANOVA de d) com a tabela ANOVA de a). O que se pode concluir? -Parte 5 Regresso Polinomial 1)(AdaptaodeMontgomeryandPeck,2 Edio:ModelosPolinomiais)Onvelde carbonao(gs)deumrefrigeranteafetadopelatemperaturadoprodutoepela pressodamquinaqueencheasgarrafas.Paraestudaresteprocesso,foram coletados dados em 12 situaes, que esto disponveis na Tabela A.10 no Anexo Y - carbonao da bebidaX - temperatura da bebida Z - Presso da mquina que enche a garrafa a)Centralizeasvariveisexplicativas(XeZ)emtornodesuasmdias(NoMINITAB, use o menu Calc ou o menu Edit > Command Line Editor com os seguintes comandos letc4=c2-mean(c2)eletc5=c3-mean(c3),ondec2ec3soascolunasquem contm X e Z, respectivamente). b)FaaumdiagramadedispersodeYeXeoutroparaYeZ,usandoasvariveis centralizadascriadasema).Comqualdasduasvariveis(XouZ)orelacionamento de Y parece ser mais forte? De que tipo parece ser este relacionamento? c)Comavarivelexplicativaescolhidaemb),ajusteummodeloderegressolinear simples.Faaogrficoderesduosversuspreditos.Halgumproblemacomeste grfico? d)Acrescenteotermoquadrticoaomodeloajustadoemc),guardeosresduosefaa novamenteogrficoderesduosversuspreditos.Oaspectodogrficomelhoraem relao ao do grficoem c)? e)Testeacontribuiodotermoquadrticoparaasomadequadradosderegresso atravs do teste F seqencial.f)Faaumgrficodosresduosdomodeloemd)versusavarivelexplicativa (centralizada) que ficou de fora (X ou Z). H algum padro neste grfico? g)Acrescenteavarivelutilizadaemf)(centralizada)aomodeloemd).Testea contribuio desta varivel para a soma de quadrados de regresso atravs do teste F seqencial. Ela significante? Em caso negativo, retire-a do modelo. h)Aomodeloescolhidoemg),acrescenteotermodeinteraoentreXeZ (centralizado)(comando: let c10 = c4*c5, onde c4 e c5 so as colunas quem contm X e Z centralizadas, respectivamente). A contribuio do termo de interao para a soma dequadradosderegressosignificante(useotesteFseqencial)?Emcaso negativo, retire-o do modelo. i)Paraomodeloescolhidoemh),faaaanlisederesduoscompleta(grficosde resduos,probabilidadenormal,testes,sepossvel,pontosdeinfluncia, 16multicolinearidade (VIFs) ).j)Faa o teste de falta de ajuste, se possvel. k)Casoomodelopassepelotesteemj),faaotesteFdaregressoe,emcasode significncia estatstica, faa o teste t individuais. l) (Utilizando a equao escolhida) Para uma mquina operando a uma presso de 23,5 e um produto temperatura de 30, qual o nvel de carbonao esperado? (Lembre-se de que o modelo utiliza as variveis centralizadas) m) Construa um intervalo de 95% de confiana para o valor de Y, quando X e Z possuem os valores de l). Para calcular o erro de estimao, lembre-se de que ser necessria a matriz (XX)-1. Para o modelo em h), ela pode ser armazenada em Storage, na janela Regression. Ela ser armazenada no objeto m1. Para imprim-lo, v ate o menu Edit > Command Line Editor com o seguinte comando: print m1. OBS: O MINITAB possui a janela do PROJECT MANAGER (gerenciador do projeto) onde estoasinformaessobretodooprojeto:planilhas,colunas,objetos(constantese matrizes). Alm disto, nesta janela onde podemos escrever informaes sobre o projeto, descriesdascolunaseobjetos.Estajanelaestsempreativanomodominimizado. Para v-la, uma opo minimizar todas as outras janelas, localiz-la e maximiz-la. 17Exerccios de Reviso de Regresso Mltipla Considere o modelo de regresso linear mltipla, Y = X + , onde Y, X, e so vetores ou matrizes. 1)Sedispomosde100indivduoscomobservaesem5variveisconsideradas explicativas, mais a varivel resposta, quais so as dimenses de Y, X, e ? 2)Qualomtodoutilizadoparaestimarovetor?Parautilizarestemtodo, necessriosuporalgumadistribuioparaavarivelrespostaY?Emcasopositivo, qual distribuio? 3)Quaissoassuposiesfeitaspelomodelodeerrosnormais?Oqueestas suposies acarretam para Y?4)Considerandoomodeloderegressolinearmltipla,emquesituaopossvel realizar um teste de falta de ajuste (lack-of-fit) e qual objetivo deste teste? 5)Quaisosprocedimentosgrficospodemserusadosparaverificarassuposies enumeradasnoitem(3)?Queoutrosgrficospodemserfeitosnaanlisede resduos? 6)Quais so as hipteses nula e alternativa do teste F da tabela ANOVA ? 7) (SomadeQuadradosExtras;TestesFseqenciais).Pensandonummodelode regresso linear com trs variveis explicativas (X1, X2 e X3) e n observaes, como montaratabelaANOVAcomadecomposiodasomadequadradosdaregresso (SSReg) abaixo? ExpliquecomoobterasSSRegsdatabela,quaisseriamosrespectivosgrausde liberdade (g.l.), como obter os MS (quadrados mdios) eas respectivas estatsticas F. FonteSSg.lMSF Regresso(X1, X2, X3) X1 X2 | X1 X3 | X1, X2 Resduo (Erro) Total 8)Quais as hipteses nula e alternativa decada um dos testes F da tabela ANOVA em (7)? 9)Oquemulticolinearidadeeoqueesteproblemapodecausarnaanlisede regresso? 1810) Quais so os tipos de pontos de influncia e como detect-los? 11) Emqual(is)situao(es)indicadoousodoMtododosMnimosQuadrados Ponderados (MQP) ao invs do Mtodo dos Mnimos Quadrados Ordinrios (MQO) na estimaodaequaoderegresso?Qualadiferenaentreosdoismtodos? QuaissoasconseqnciasdeseusaroMQOquandooMQPseriaomtodo indicado? 12) Compare a transformao de Box-Coxe o MQP como alternativas para estabilizar a varincia dos erros, citando vantagens e desvantagens.13) Quaissoasvantagensdacentralizaodasvariveisexplicativasemsuasmdiaspara a estimao dos parmetros da regresso ? (Pense em termos da matriz (XX) ) 19 Respostas: Regresso linear simples: -Parte 1 1)Utilizando os dados da Tabela A.1 no Anexo. (pgina 51, Draper & Smith, 3 ed.) : a)Faa o diagrama de disperso. b)Ajuste o modelo de regresso 0 1YX + = + , encontrando a reta estimada. 7 6 5 4 3 2 1654321X2.1Y2.1plot x2.1 vs y2.17 6 5 4 3 2 165432X2.1Y2.1S = 0,852955R-Sq = 26,5 %R-Sq(adj) = 23,0 %Y2.1 = 1,42564 + 0,315786 X2.1Regression Plot 20c)Construa a Tabela de Anlise de Varincia e calcule o R2. Analysis of Variance SourceDFSSMS FP Regression 15,49925,49927,560,012 Residual Error21 15,27820,7275 Total 22 20,7774 O valor de R2 : 26,5% . d)Retire o par de observaes no. 16 (Y=5.9 ; X = 6.7) e refaa os itens de a) a c). a) b) 6 5 4 3 2 13,52,51,5X2.1Y2.1plot x2.1 vs y2.16 5 4 3 2 13,52,51,5X2.1Y2.1S = 0,658459R-Sq = 16,5 %R-Sq(adj) = 12,4 %Y2.1 = 1,83833 + 0,188134 X2.1Regression Plot 21100 50 01,00,90,80,70,6X.3KY.3Kc) Analysis of Variance SourceDF SS MS FP Regression 1 1,71821,71818 3,962880,060 Error 20 8,67140,43357Total 2110,3895 R2 = 16,5% . e)Comparando somente os valores de R2, quais dos dois modelos o melhor? O par de observaes n 16 influencia a qualidade do ajuste ? Observando-seapenasosvaloresdoscoeficientesdedeterminaodosdois modelos, v-se que o modelo relativo questo (b) melhor, pois esteapresentamaior R2(26,5%).Pode-senotaraindaque,pelofatodehaverocorridomudanas significativas na regresso como um todo, a observao que foi retirada foi modelo estava influenciandoomesmo.Notequeestainfluencianegativa,poishouveumdecrscimo no valor do R2 e um aumento no valor P da regresso. Neste caso seria melhor estudar a possibilidade de se retirar a observao influente do modelo. 2)Os dados deste exerccio so do exerccio K (Captulo 3) do livro de Draper & Smith e esto na tabela A.2 no Anexo. A varivel resposta (Y.3K) representa a porcentagem de amendoinsno-contaminadosporcertofungoemumloteeavarivelexplicativa (X.3K)representaaquantidademdiadeumasubstnciaqumicaparaevitar contaminao em cada 60 gramas de amendoins. a)Faa o diagrama de disperso. b)Ajuste o modelo de regressoY = 0 + 1X + , encontrando a reta estimada. A reta estimada : Y.3K = 1,00 - 0,00290 X.3K 22100 5001,00,90,80,7X.3KY.3KS = 0,0393282R-Sq = 82,9 %R-Sq(adj) = 82,3 %Y.3K = 1,00210 - 0,0029035 X.3KRegression Plot c)Construa a Tabela de Anlise de Varincia e calcule o R2. Analysis of Variance SourceDFSSMS FP Regression 1 0,23915 0,23915154,620,000 Residual Error32 0,04949 0,00155 Total 33 0,28864 O valor do R2 : 82,9% d)Este conjunto de dados possui dois nveis de X com medidas repetidas (X = 18,8 e X = 46,8).Entretanto,algunsnveisdeXtemvaloresmuitoprximosque,naprtica, poderiamserconsideradosiguaise,assim,osvaloresdeYnestesnveispoderiam ser considerados medidas repetidas. So eles: X = 9,3 ; 9,9 X = 12,3 ; 12,5 e 12,6 X = 18,8 ; 18,8 ; 18,9 X = 21,7 ; 21,9 X = 46,8 ; 46,8 (estes so realmente medidas repetidas) X = 70,6 ; 71,1 ; 71,3 X = 83,2 ; 83,6 . e)ConsidereosvaloresdeYnestesnveiscomosendomedidasrepetidasecalculea soma de quadrados do erro puro (SSErroPuro). Este valor , claro, uma aproximao. Encontre tambm os graus de liberdade desta soma SSErroPuro = 0,01678 Graus de liberdade = 10 23f)ConstruaanovaTabeladeAnlisedeVarincia,agoracomaSSResidual desmembrada em SSErroPuro e o SSL (SS da falta-de-ajuste). Faa o teste F da falta-de-ajuste. Analysis of Variance SourceDFSSMS FP Regression 1 0,23897 0,23897153,950,000 Residual Error32 0,04967 0,00155 Lack of Fit 22 0,03289 0,001500,890,610 Pure Error10 0,01678 0,00168 Total 33 0,28864 Teste de Falta de Ajuste: Ho: No h falta de ajuste Ha: H falta de ajuste O valor observado de F foi de 0,89. Regio Crtica = {F: F > 2,7740} , Nvel de significncia = 0,05. Como 0,89 no est na regio crtica, ento pode-se afirmar que o modelo no apresenta falta de ajuste. g)Caso o teste F da falta-de-ajuste seja no-significante, faa o teste F geral. Ho: 1 = 0, isto , o modelo no razovelHa: 1 0, ou seja o modelo razovel . O valor observado de F foi de 153,95. Regio Crtica = {F: F > 4,1709} , Nvel de significncia = 0,05. Como no est na regio crtica, ento se pode afirmar que o 1 diferente de zero, logo o modelo parece descrever bem os dados. h)Interprete os coeficientes da reta de regresso. Casoaquantidademdiadeumasubstnciaqumicaparaevitarcontaminaoem cada60gramasdeamendoinssejaigualazero,teremos100%deamendoins contaminados. Eparacadaaumentodeumaunidadenaquantidademdiadasubstnciaqumica paraevitarcontaminaohaverumdecrscimode0,00290naporcentagemde amendoins no contaminados em um lote. 24100 90 80 70 60 50 40 30 2013121110 9 8 7 6XYS = 1,26846R-Sq = 1,5 %R-Sq(adj) = 0,0 %Y = 9,93042 - 0,0109873 XRegression Plot-Parte 2 1)Utilizando os dados da Tabela A.3 do Anexo. (Exerccio V, captulo 3,Draper & Smith, 3 ed., pgina 105) : Varivel Resposta: Y = tamanho da linha da vida da mo esquerda (em cm) ; Varivel Explicativa: X = idade da pessoa ao morrer (em anos); a)Faa o diagrama de disperso. b)Ajuste o modelo de regressoY = 0 + 1X + , encontrando a reta estimada. 100 90 80 70 60 50 40 30 20131211109876XYGrfico de disperso: Y vs. X 25c)ConstruaaTabeladeAnlisedeVarinciacomaSSResidualdesmembradaem SSErroPuro e o SSL (SS da falta-de-ajuste). Faa o teste F da falta-de-ajuste. Analysis of Variance SourceDFSSMS FP Regression 1 1,178 1,1780,730,397 Residual Error4877,232 1,609 Lack of Fit 2945,777 1,5790,950,557 Pure Error1931,455 1,656 Total 4978,410 Teste de Falta de Ajuste: Ho: No h falta de ajuste Ha: H falta de ajuste Observando que o P-valor da falta de ajuste demaior que 0,05 (0,557), conclui-se que o modelo no apresenta falta de ajuste. d)FaaotesteFdaregresso(Escrevahiptesesnulaealternativa,faaotestee conclua). Ho: 1 = 0, isto , o modelo no razovelHa: 1 0, ou seja o modelo razovel . SendooP-valordaregressoiguala0,397,isto,maiorque0,05,verifica-sequeo modelo no razovel, pois 1, que o parmetro mais importante do modelo, igual a zero. e)Calcule o valor de R2 e o valor de max(R2) e faa a interpretao de R2. R2 = 1,5% Max(R2) = 1 SSerropuro= 0,4012 SStotal R2/Max(R2) = 0,03739 Atravsdovalordocoeficientededeterminaov-sequeavariaodeYque explicada pela reta de regresso muito pequena. 26Average: 0,0000000StDev: 1,25545N: 50Anderson-Darling Normality TestA-Squared: 0,613P-Value: 0,105-3 -2 -1 0 1 2 3 4,001,01,05,20,50,80,95,99,999ProbabilityRESI1Normal Probability Plotf)Verifique a suposio de normalidade dos resduos atravs do grfico de probabilidade Normal. Teste de Normalidade: Ho: Os resduos seguem a distribuio normal Ha: Os resduos no seguem a distribuio normal Como o P-valor do teste de Anderson Darling foi maior que 0,05 pode-se admitir que os resduos so normalmente distribudos. g)Faa o teste da homogeneidade do erro puro (Bartllet e Levene). Como fazer o teste: 1) Ir em : STAT > ANOVA> TEST FOR EQUAL VARIANCES 2) em seguida aparecer a Janela: 278,9 9,0 9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8-3-2-101234Fitted ValueResidualResduos vs. valores ajustados(response is Y)Na qual basta colocar a coluna dos resduos no local escrito Response e selecionar a coluna com a varivel X onde est escrito Factors. A sada ser parecida com a abaixo, porm com alguns detalhes a mais. Ho: Os resduos tm varincia constante. Ha: Os resduos no tm varincia constante. Bartlett's Test Test Statistic: 16,228 P-Value :0,181

Levene's Test Test Statistic: 1,239 P-Value : 0,328 Como nos dois testes a probabilidade de significncia foi maior que 0,05 a hiptese de que os erros possuem varincia constante no foi rejeitada. h)Analise os grficos de resduos apropriados. -4 -3 -2 -1 0 1 2 3 4 50510ResidualFrequencyHistogram of the Residuals(response is Y) 289,8 9,7 9,6 9,5 9,4 9,3 9,2 9,1 9,0 8,943210-1-2-3Fitted ValueStandardized ResidualResduos padronizados vs. valores ajustados(response is Y) Obs.: os asteriscosrepresentam ospontos que esto fora do intervalo (-2, 2). Analisando-seogrficodosresduosversusos,v-sequepareceexistirumdado atpico,oquepodeestarinfluenciandoavarinciadosresduos,fazendocomqueesta parea no ser constante. Ainda atravs da anlise deste grfico nota-se que existe uma tendncianolineardosresduos.Pelogrficodosresduospadronizadoscontraos percebe-se que existem 4 pontos (ou seja, 8% dos dados) que esto fora do intervalo (-2, 2),comoestaporcentagemmaiorque5%istopoderiaestarcomprometendoa normalidadedosresduos.Oquenoacontece,comopodeseraveriguadopelo histogramadosresduos(queestdeacordocomotestedenormalidaderealizadono item(f)).Sendoassimestasobservaespodemseratpicasouapresentaremalgum outro problema. i)Reporte os possveis problemas encontrados na anlise dos resduos (itens f, g e h) . Os resduos no apresentaram grandes problemas, porm existem algumas observaes que podem estar prejudicando o modelo, principalmente no que se trata varincia, como foi destacado no item anterior. j)Faa o teste H0: 0 = 0contraHa: 0 0 . H0: 0 = 0 Ha: 0 0 The regression equation is Y = 9,93 - 0,0110 X PredictorCoef SE CoefTP Constant 9,9304 0,8747 11,35 0,000 X-0,01099 0,01284-0,86 0,397 ComooP-valorde0aproximadamentezeropode-sedizerqueesseparmetro significante para o modelo. 2990 100 110 120 130 140 150345350355XY 90 100 110 120 130 140 150344349354XYY = 361,246 - 0,111900 XS = 1,90148R-Sq = 28,8 %R-Sq(adj) = 28,1 %Regression Plotf)A partir de suas anlises nos itens anteriores, conclua sobre a relao entre Y e X. ArelaoentreXeYnoclaramentelinearcomopodeservistonogrficode disperso.Istopodeserexplicadopelofatodehaveralgunsdadosmuitoafastadosda nuvemdepontos.Oqueatrapalhatambmnadetecodeumarelaoclaraentreas variveis em questo.Na verdade, no parece existir relacionamento algum entre Y e X. -Parte 3 Regresso Simples e Regresso Inversa 1)Num estudo retrospectivo sobre a possvel relao entre o tempo de utilizao de um plano de previdncia e o tempo de contribuio do beneficirio , ambos medidos em meses,umaamostrade100beneficiriosdeumplanodeprevidnciativeramessas duas variveis registradas. Varivel resposta: Y = tempo de contribuio, em meses. Varivel explicativa: X = tempo de utilizao do benefcio, em meses (tempo entre a data da aposentadoria e a data do falecimento do beneficirio). a)Faa o diagrama de disperso. b)Ajuste o modelo de regresso linear adequado, encontrando a reta estimada. 30c)ConstruaatabeladeanlisedevarinciacomaSSresidualdesmembradaem Sserropuro e o SSL (SS da falta de ajuste). E faa o teste da falta de ajuste. Analysis of Variance SourceDFSSMS FP Regression 1143,46143,46 39,680,000 Residual Error98354,333,62 Lack of Fit 40 89,032,230,490,991 Pure Error58265,304,57 Total 99497,79 Teste de Falta de Ajuste: Ho: No h falta de ajuste Ha: H falta de ajuste ComooValorPdotestemaiorque0,05pode-sedizerqueomodelono apresenta falta de ajuste. d)FaaotesteFdaregresso(escrevaahiptesenulaealternativa,faaotestee conclua). Ho: 1 = 0Ha: 1 0 Observa-sequeaprobabilidadedesignificnciadestetesteinferiora0,05,oque nos possibilita afirmar que o modelo ajustado razovel, pois a hiptese de que 1 = 0 foi rejeitada. e)Calcule o valor de R2 e do max(R2) e faa a interpretao do R2. max(R2) = 0,4670. R2 = 28,8%. R2/max(R2) = 0,288/0,4670 = 0,6166 Apesardomodelonoapresentarfaltadeajusteovalordocoeficientede determinao razovel, pois a porcentagem da variabilidade de Y que possvel de ser explicada por X vale 61,66%. 31Average: -0,0000000StDev: 1,89185N: 100Anderson-Darling Normality TestA-Squared: 0,218P-Value: 0,836-5 0 5,001,01,05,20,50,80,95,99,999ProbabilityRESI1Normal Probability Plot344 345 346 347 348 349 350 351-5-4-3-2-1012345Fitted ValueResidualResiduals Versus the Fitted Values(response is Y)f)Verifique a suposio de normalidade dos resduos atravs do grfico de probabilidade Normal. g)Faa o teste da homogeneidade do erro puro (Bartlet e Levene). Ho: Os resduos tm varincia constante. Ha: Os resduos no tm varincia constante. Bartlett's Test

Test Statistic: 19,981 P-Value :0,832 Levene's Test

Test Statistic: 0,631 P-Value : 0,904 possvelafirmarqueosresduospossuemhomocedasticidade,poisambosP-valores, do teste de Bartlet e do teste de Levene, so maiores que 0,05. h)Analise os grficos de resduos apropriados. 32-5 -4 -3 -2 -1 0 1 2 3 4 501020ResidualFrequencyHistogram of the Residuals(response is Y) Atravsdohistogramaacimaverifica-sequeosresduossonormalmente distribudos. Pelo primeiro grfico apresentado nesta questo pode-se considerar que os resduos possuem uma varincia razoavelmente constante. i)Reporte os possveis problemas encontrados na anlise de resduos. Osresduosnoapresentaramproblemas,poisasanlisesanteriormentefeitas mostraramqueelessonormalmentedistribudos,razoavelmentehomocedsticose aleatrios. j)Faa o teste Ho: o = 0 contra Ha : o . H0: 0 = 0 Ha: 0 0 Ao analisar-se o P-valor de 0 v-se que esse aproximadamente zero, logo a hiptese de que 0 igual a zero pode ser refutada. 351 350 349 348 347 346 345 3443210-1-2-3Fitted ValueStandardized ResidualResiduals Versus the Fitted Values(response is Y) 33k)A partir das suas anlises anteriores conclua sobre a relao entre Y e X. ArelaoentreXeYparecerealmenteserlinear,comopodeserverificadopelo grfico de disperso, porm no uma relao muito forte. l)Regressoinversa:comooestudofoiretrospectivo,apartirdofalecimentodo beneficirio foi possvel estabelecer o valor da varivel explicativa e, ento o valor da respostaparaaquelenveladvarivelexplicativa.Porm,naprtica,gostaramosde estudararelaoinversa,ouseja,apartirdotempodecontribuiogostaramosde predizer o tempo de uso do benefcio. Deste modo, usaremos a regresso inversa. l.1) A partir da reta estimada em (b), estabelea a equao da regresso inversa, Isto , X como funo de Y. A equao de regresso inversa : l.2)Dadoovalordotempodecontribuioiguala348meses,estimeovalormdiodo tempo de uso do benefcio. O valor mdio do tempo de uso do benefcio ( X) :118,268 l.3)Estabeleaointervaloa95%deconfianaparaotempodeusodobeneficirio quando o tempo de contribuio for igual a 355 meses. IC =

||.|

\|+ + 2120212 ,20)( 11SxxX XnQMRt Xn Sendo 0X= 55,7678 , Sxx = 11457,04 e t/2 , n-2 = 1,96 , temos que: IC95% = [16,8285; 94,7071] -Parte 4 1)Uminvestigadordesejaestudarapossvelrelaoentreossalrioseotempode experincia no cargo de gerente de agncias bancrias de uma grande empresa. Alm disto,gostariadesabersehdiferenasquandosolevadosemcontahomense mulheresseparadamente.OsdadoscoletadosestodisponveisnaTabelaA.5no Anexo e a descrio do banco de dados segue abaixo. Varivel Resposta:- Salrio, em mil reais ; Variveis Explicativas:- Experincia = tempo de trabalho no cargo, em anos completos ; - Sexo = sexo do empregado (0 feminino ; 1 masculino) . 112 , 0246 , 36100YX= 3430 20 10 05432experienciasalarioa)Faa o diagrama de disperso do salrio versus experincia e avalie a possibilidade do ajuste de um modelo de regresso linear. b)Ajuste o modelo de regresso Y = 0 + 1X + , sendo X a varivel experincia , encontrando a reta estimada. The regression equation is salrio = 1,83 + 0,0998 experincia c)Construa a Tabela de Anlise de Varincia e calcule o valor de R2. Analysis of Variance SourceDFSSMS FP Regression 118,15418,154453,770,000 Residual Error25 1,000 0,040 Lack of Fit 18 0,560 0,0310,490,892 Pure Error 7 0,440 0,063 Total 2619,154 S = 0,2000R-Sq = 94,8% R-Sq(adj) = 94,6% Max(R2) = 1 (0,440/19,154)= 1 0,0229 = 0,977 0,948/0,977 = 0,97 (a varivel experincia explica 97% da variabilidade dos salrios que pode ser explicada). 355 4 3 20,30,20,10,0-0,1-0,2-0,3-0,4-0,5-0,6Fitted ValueResidualResiduals Versus the Fitted Values(response is salario)P-Value: 0,035A-Squared: 0,790Anderson-Darling Normality TestN: 27StDev: 0,196133Average: -0,00000000,3 0,2 0,1 0,0 -0,1 -0,2 -0,3 -0,4 -0,5 -0,6,999,99,95,80,50,20,05,01,001ProbabilityRESI1Teste de Normalidaded)Verifique a suposio de normalidade dos resduos atravs do grfico de probabilidade Normal. P-valor do teste Anderson-Darling = 0,035(a hiptese de normalidade dos resduos rejeitada a 5%) e)Analise o grfico resduos versus ajustados (preditos). Os resduos parecem se distribuir aleatoriamente em torno do valor zero? No, h agrupamentos de resduos, ora acima de zero, ora abaixo de zero. f)Analisando as respostas aos itens d) e e), o modelo ajustado em b) parece ser adequado? No, pois a suposies de normalidade foi violada e h indcios de que os resduos no se distribuem aleatoriamente em torno do valor zero, existindo relao entre eles e os valores ajustados.

361,0 0,5 0,00,30,20,10,0-0,1-0,2-0,3-0,4-0,5-0,6sexoResidualResiduals Versus sexo(response is salario)g)Analise o grfico resduos versus sexo. O que se pode concluir? Existe clara correlao entre os resduos e a informao sobre o sexo do empregado. h)Para cada sexo separadamente, repita os itens de b) a e). Sexo feminino: The regression equation is salario_0 = 1,97 + 0,0722 experiencia_0 PredictorCoef SE CoefTP Constant1,96844 0,0587733,490,000 experien 0,0721990,00519913,890,000 S = 0,1114R-Sq = 94,6% R-Sq(adj) = 94,1% Max(R2) = 1 (0,0022/2,5296) = 0,999 0,946 / 0,999 = 0,9469 Analysis of Variance SourceDFSSMS FP Regression 12,39312,3931192,820,000 Residual Error110,13650,0124 Lack of Fit90,13430,0149 13,630,070 Pure Error 20,00220,0011 Total 122,5296 Comentrios:oproblemadanormalidadedosresduosfoicorrigido,masaindah problemascomadistribuiodosresduosemtornodozero,quenopareceser aleatria. 373,5 3,0 2,5 2,00,20,10,0-0,1-0,2Fitted ValueResidualResiduals Versus the Fitted Values(response is salario_0) Sexo masculino : The regression equation is salario_1 = 1,98 + 0,0983 experiencia_1 PredictorCoef SE CoefTP Constant1,97753 0,0612232,300,000 experien 0,0982610,00310231,680,000 S = 0,09206 R-Sq = 98,8% R-Sq(adj) = 98,7% Max(R2) = 1 (0,0061/8,6073) = 0,999 0,988 / 0,999 = 0,9887 Analysis of Variance SourceDFSSMS FP Regression 18,50568,5056 1003,540,000 Residual Error120,10170,0085 Lack of Fit 100,09560,00963,150,265 Pure Error 20,00610,0030 Total 138,6073 P-Value: 0,856A-Squared: 0,198Anderson-Darling Normality TestN: 13StDev: 0,106661Average: -0,00000000,15 0,00 -0,15,999,99,95,80,50,20,05,01,001ProbabilityRESI1Teste de Normalidade p/ mulheres 38P-Value: 0,677A-Squared: 0,254Anderson-Darling Normality TestN: 14StDev: 0,0884515Average: -0,00000000,1 0,0 -0,1,999,99,95,80,50,20,05,01,001ProbabilityRESI2Teste de Normalidade p/ homens5 4 30,150,100,050,00-0,05-0,10-0,15Fitted ValueResidualResiduals Versus the Fitted Values(response is salario_1) Comentrios:oproblemadanormalidadedosresduosfoicorrigido,masaindah problemascomadistribuiodosresduosemtornodozero,quenopareceser aleatria. i)Para cada sexo separadamente, faa o teste F da regresso (escreva hipteses nula e alternativa, faa o teste e conclua). Sexo feminino : Ho: 1 = 0 (A varivel experincia no explica uma parte significativa da variabilidade dos salrios entreas mulheres ) Ha:10(Avarivelexperinciaexplicaumapartesignificativadavariabilidadedos salrios entreas mulheres ) Estatstica F da ANOVA = 192,82 .Comparar com o percentil 95 da F 1 ; 11 = 4,8443 RejeitaraH0,ouseja,existemevidnciasestatsticasdequearegressodos salrios na varivel experincia significante a 5% no grupo das mulheres. 39Sexo masculino : Ho: 1 = 0 (A varivel experincia no explica uma parte significativa da variabilidade dos salrios entreos homens ) Ha:10(Avarivelexperinciaexplicaumapartesignificativadavariabilidadedos salrios entreos homens ) Estatstica F da ANOVA = 1003,54 .Comparar com o percentil 95 da F 1 ; 12 =4,7472 Rejeitar a H0, ou seja, existem evidncias estatsticas de que a regresso dos salrios na varivel experincia significante a 5% no grupo dos homens. j)Compare os valores de R2 dos modelos em separado com o valor calculado em c) O que se pode concluir? ModeloR2 / max(R2) Geral0,977 Homens0,989 Mulheres0,947 Em termos de R2, houve um pequeno ganho no grupo de homens em relao ao modelo geral, mas uma pequena perda no grupo de mulheres. k)Faa a mesma comparao usando o valor do MSResidual das tabelas ANOVA.Lembre-se de que o MSResidual a estimativa da varincia da resposta(Utilize o conceito de desvio-padro, se achar mais fcil sua anlise). ModeloMSResidual ( s) Geral0,040 (0,200) Homens0,0085 (0,092) Mulheres0,0124 (0,111) Os dois modelos, tanto para homens, quanto para mulheres, conseguiram uma reduo na varincia, evidenciando que uma parte da varincia dos salrios pode ser explicado pelo sexo do empregado. A reduo foi maior entre os homens. l)Interprete a reta de regresso estimada para cada sexo e tire suas concluses sobre a relao entre salrio e experinciapara os gerentes de banco desta empresa. As retas so Sexo feminino salario_0 = 1,97 + 0,0722 experiencia_0 Sexo masculino salario_1 = 1,98 + 0,0983 experiencia_1 Ointerceptopraticamenteomesmoparaambososgrupos,indicandoqueum empregadocommenosdeum1anodeexperinciaganha,emmdia,1,97milreais (mulheres) e 1,98 mil (homens) . 400 1 2 3 4 5 601020x2yy = 1,01599 + 2,62345 x2S = 3,57791R-Sq = 71,6 %R-Sq(adj) = 68,8 %Regression PlotJocoeficienteangularmostraumamaiorinclinaodaretaparaogrupode homens,indicandoque,paraummesmoganhonaexperincia,oaumentomdiono salrio doshomens maior do que das mulheres. No grupo de mulheres, a cada ano de experincia,humaumentomdionosalriodeR$72,20.Nogrupodehomens,este aumento R$98,30. Obs:aindahproblemasnosmodelosseparados,comovimosnaanlisederesduos. Uma das maneiras de solucionar tentar um modelo de regresso mltipla, onde iremos considerar a interao entre a experincia e o sexo do empregado. Y = 0 + 1(experincia) + 2(sexo) + 12(sexo*experincia) + erro -Parte 5 Modelo sem Intercepto e Variveis Dummy 1)Considere o conjunto de dados da Tabela A.6 no Anexo. Para se estudar a influncia das variveis capital investido e gasto em publicidade no lucro anual de empresas, foram observadas essas variveis em doze empresas em um mesmo ano. Os seguintes resultados foram registrados, na unidade de 100 mil reais. Variveis: Y Lucro anual X1 Capital X2 Publicidade a)Ajuste o modelo de regresso Y = 0 + 2X2 + . 41b)Construa a Tabela de Anlise de Varincia, calcule o valor de R2, faao teste de falta de ajuste (se possvel)2. R2= 71,6% Analysis of Variance SourceDFSSMS FP Regression 1322,90322,90 25,220,001 Residual Error10128,01 12,80 Lack of Fit57,511,500,060,996 Pure Error 5120,50 24,10 Total 11450,92 Teste de Falta de Ajuste: Ho: No h falta de ajuste Ha: H falta de ajuste Como o P-valor da falta de ajuste maior que 0,05 pode-se dizer que o modelo no apresenta falta de ajuste. c)Caso no haja problemas com o teste da falta de ajuste , faa o teste F da regresso (escreva hipteses nula e alternativa, faa o teste e conclua). Ho: 1 = 0Ha: 1 0 Sendo a probabilidade de significncia da regresso maior que 0,05, possvel afirmar que 1 no zero, isto , o modelo de regresso ajustado razovel. d)Teste a significncia do intercepto do modelo (teste t-Student ou intervalo de confiana. Escreva hipteses nula e alternativa, faa o teste e conclua). Ho: 0 = 0Ha: 0 0 Estatstica t-student = 0,48 Regio Crtica = {t R: t 2,228 ou t -2,228} 5% de significncia, pode-se afirmar queo intercepto do modelo igual zero, ou seja, o mesmo no importante para o modelo. e)Ajuste o modelo de regresso sem o intercepto. 22Y= + X . The regression equation is: y = 2,84 x2 2 Por questes didticas, estamos omitindo a etapa de anlise dos resduos, que viria antes da utilizao de qualquer teste. 42f)Note que o MINITAB no calcula o R2 para o modelo sem intercepto. Use ento o valor do MSResidual para escolher entre os dois modelos (com intercepto e sem intercepto). Analysis of Variance SourceDFSSMS FP Regression 11622,11622,1136,300,000 Residual Error11 130,911,9 Total 121753,0 Nota-se que o MSResidual do modelo sem intercepto menor que este mesmo valor para o modelo com intercepto. Isto mostra que realmente foi melhor, neste caso, retirar 0 do modelo. 2)Variveis Dummy Suponha que desejssemos estudar a renda (em R$) dos empregados de certo setor em funo de sua experincia no cargo em que ocupa (anos) e de seu local de trabalho. No exemplo utilizado em sala, lidamos com 4 cidades (A, B , C e D) e as variveis dummies criadas foram : Local 1Local 2Local 3 Cidade A000 Cidade B100 Cidade C010 Cidade D001 a)Suponhaqueexistaumaquintacidade(CidadeE).Comoficariaatabelade codificao das cidades com a introduo da Cidade E? Local 1Local 2Local 3Local 4 Cidade A0000 Cidade B1000 Cidade C0100 Cidade D0010 Cidade E0001 b)Considere agora a seguinte codificao:

Local 1Local 2Local 3 Cidade A001 Cidade B010 Cidade C100 Cidade D000 43o modelo : Salrio = 0 + 1 experincia + 21 local1 + 22 local2 + 23 local3 + erro e seguinte equao de regresso estimada : Salrio = 2,50 + 0,099 experincia + 0,55 local1 + 0,69 local2 + 0,75 local3 Considerandoamesmaexperincia,qualadiferenamdiaentreossalriosdas pessoas da: b.1) cidade A e B=0,06(0,75 0,69) =0,06 (R$6,00 a mais) b.2) cidade A e C = 0,20(0,75 0,55) = 0,20 (R$20,00 a mais) b.3) cidade A e D = 0,75(0,75 0,00) = 0,75 (R$75,00 a mais) b.4) cidade B e C = 0,14 (0,69 0,55) = 0,14 (R$14,00 a mais) b.5) cidade B e D= 0,69(0,69 0,00) = 0,69 (R$69,00 a mais) b.6) cidade C e D = 0,55 (0,55 0,00) = 0,55 (R$55,00 a mais) c)Considere a primeira codificao.Suponha que, ao fazermos o teste t-Student para os parmetros do modelo: A categoria de referncia a cidade A .O parmetro 21 refere cidade B (local1). O parmetro 22refere cidade C (local2). O parmetro 23refere cidade D (local3). c.1)ahiptese21 = 0nosejarejeitada.Oqueistosignificaemtermosdacomparao entre as cidades? Significa que uma pessoa que mora na cidade B tem o mesmo salrio de uma que mora na cidade A, com o mesmo tempo de experincia. c.2)ahiptese22 = 0nosejarejeitada.Oqueistosignificaemtermosdacomparao entre as cidades? Significaqueaspessoas,comomesmotempodeexperincia,queresidemnas cidades A e C ganham o mesmo salrio. c.3)ahiptese23 = 0nosejarejeitada.Oqueistosignificaemtermosdacomparao entre as cidades? IndivduosqueresidemnascidadesAeDequepossuemomesmotempode experincia tem salrios iguais. d)Pense na primeira tabela de codificao (local 1, local 2 e local 3). Para representar a cidadeE,umaalternativarespostaema)seriafazerlocal1=1;local2=1e local 3 =1 . Considerando os testes de hipteses para os parmetros descritos em c) ,penseemporqueesteprocedimentonopodeseradotado(pensenacomparao entre as cidades quando apenas um parmetro no for considerado significativo) 44 212223 Local 1Local 2Local 3 Cidade A000 Cidade B100 Cidade C010 Cidade D001 Cidade E111 Por que no conseguimos comparar as cidades A e E. E ainda cada varivel Local representa duas cidades, a cidade E e alguma outra. 45Exerccios de Reviso de Regresso Linear Simples Considere o modelo de regresso linear simples, + + = X Y1 0 . 1)Qualavariveldependente?Equalavarivelindependente?Queoutrosnomes so usados para se referir a estas variveis? -Varivel independente ou varivel resposta = Y -Varivel dependente ou explicativa ou preditora= X 2)Qualomtodoutilizadoparaestimar0e1?Parautilizaressemtodo necessriosuporalgumadistribuioparaavarivelrespostaY?Emcasopositivo, qual a distribuio? Omtodoutilizadoparaestimar0e1chamadodemtodosdosmnimos quadrados.Na verdade, para se usar o mtodo de mnimos quadrados no necessrio supordistribuioparaY.Adistribuionecessriaquandoqueremosfazertestese construir intervalos. 3)Quaisassuposiesfeitaspelomodelodeerrosnormais?Oqueestassuposies acarretam para Y? necessriosuporqueoserrossoindependentes,aleatriosenormalmente distribudoscommdiazeroevarincia2.IstoimplicaqueosYistenhamdistribuio normal com mdias iX1 0 +e varincia constante 2. 4)Oquesignificafazerextrapolaonocontextodeummodeloderegressolinear simples? Cite pelo menos dois riscos desta prtica. Fazer extrapolao significa inferir acerca de valores de X no contidos na amostra usada para ajustar o modelo de regresso. Ao se fazer extrapolao pode acontecerdo valor estudado estar muito afastado dos valores da amostra e, desta maneira, ser descrito poroutromodelo,isto,teroutrocomportamentodiferentedosdadosdaamostra. Acontecetambmqueavarinciadovalorpreditoficagrandemedidaquenos afastamentodovalormdiodeX,ficandoointervalodeconfianamuitolargoesem utilidade prtica. 5)Defina o coeficiente de determinao (R2) e explique quais valores ele pode assumir. R2 = SQReg; 0 R2 1 SQT O coeficiente de determinao representa a porcentagem da variabilidade de Y que explicada pelo modelo de regresso ajustado. Emcasodeexistnciademedidasrepetidas,ovalormximodeR21 (SSErroPuro/SQT). 466)Em que situao possvel realizar um teste de falta de ajuste (Lack-of-fit) e qual o objetivo deste teste? possvelrealizarotestedefaltadeajustequandoexistemmedidasdeX repetidas. Este teste nos permite verificar se a reta de regresso ajustada se ajusta aos dados, ou seja, se o modelo bom. 7)Quaisosprocedimentosgrficospodemserusadosparaverificarassuposies enumeradas no item (2)? -ogrficodeprobabilidadenormal(p/oserros)paraaverificaode normalidade dos resduos (e assim dos Yis) -Grficodosresduosvs.aordem(tempo)decoleta,quandodisponvel para se constatar a aleatoriedade dos erros ; -Grficodosresduosvs.varivelexplicativaparaverificarsuposiode varincia constante (homocedasticidade)e aleatoriedade dos resduos; -Grficodosresduosvs.Preditosparaverificarsuposiodevarincia constante (homocedasticidade)e aleatoriedade dos resduos; 8)Emquesituaopodemosutilizarumtesteparaasuposiodenoauto-correlao entre os erros? Cito dois possveis testes a serem usados nesta situao. Quando a ordem de coleta est disponvel utiliza-se os seguintes testes: -Teste de Durbin-Watson-Teste de corridas 9)Quando indicado o uso de transformao da varivel resposta? Atransformaonecessrianoscasosemoserrosnopossuemvarincia constante e/ou no so normalmente distribudos. E ainda quando a relao entre X e Y no linear. 10) QuetipodetransformaofeitanavarivelrespostanomtodoanalticodeBox-Cox? Exemplifique. A transformao a seguinte: Y= =0 ln011se Y YseYY&& Caso o valor de seja igual a , por exemplo, a transformao serY . 11) Em que situao usada a regresso inversa? A regresso inversa feita quando surge a necessidade (por algum motivo) de se estimar valores para X a partir de em Y conhecido, alm de saber os possveis valores de 47uma varivel Y a partir dos valores de X. 12) Por que o teste F da tabela ANOVA equivalente ao teste t-student para as hipteses Ho:1=0contraHa:10?(Mostreaequivalnciaentreasduasestatsticasde teste)

QMRg SQQMRSxxQMRSxxSxxQMRtRe2111= = = =Elevando-se ambos lados ao quadrado temos:FQMRg QMQMRg SQt = = =Re Re2,sendoqueumavarivelquepossuidistribuiot-student com n graus de liberdade, quando elevada ao quadrado, passa a ter distribuio F com 1 grau de liberdade no numerador e n no denominador. 13) Na anlise de resduos, porque utilizamos o grfico resduos x valores ajustados e no o grfico dos resduosx valores observados? PorqueacorrelaoentreosresduoseosvaloresajustadosparaYzero,mas existe correlao entre os resduos e os valores observados para Y, mesmo que o modelo esteja bem ajustado. Assim, se o modelo foi bem ajustado, no podemos observar padres no grfico resduos vs valores ajustados. 4810 9 8 7 6 5 4 3 2 1 0400300200100X.7Y.7654301Z.7100220032300440056178Y.79010 X.76 5 4 3 2 1 0400300200100Z.7Y.7Regresso Mltipla -Parte 1 1)(Adaptaodosexerccios3.LLe6.H,DraperandSmith)Ogerentedeum pequenoserviodeentregascontratapessoaladicionalsemprequeovolumede servioexcedeacargadetrabalhodeseususuaistrsempregados.Paraverificara eficcia desta idia, ele registrou durante 13 dias seguidos as seguintes variveis: Varivel Resposta:Y -Nmero de Entregas ; Variveis Explicativas: X -Nmero de Empregados (atuais mais extras) ; Z -NmerodeEmpregadosquenoestavamtrabalhando em algum perodo do dia; Os dados coletados esto disponveis na Tabela A.7 em Anexo.Obs: nos trs primeiros dias de coleta, alguns dos empregados usuais estavam de frias ou de licena mdica. a)Faa o diagrama de disperso de Y versus X,Y versus Z e avalie a possibilidade do ajuste de um modelo de regresso linear. Aoseanalisarosgrficosacimav-sequehumrelacionamentoclaroentreas variveis Y e X, o que no o corre com a varivel Z. Por isso o ajuste de um modelo de regresso linear seria mais aconselhvel para as variveis Y e X. b)Faa o grfico em 3 dimenses de Y versus X e Z. (MINITAB: Graph> 3-D plot) 4910 9 8 7 6 5 4 3 2 1 04003002001000X.7Y.7S = 36,3593R-Sq = 91,4 %R-Sq(adj) = 90,7 %Y.7 = 43,8393 + 37,2321 X.7Regression PlotNestegrficov-sequequandoseanalisaastrsvariveisjuntaso relacionamento entre elas fica evidente. c)Ajuste o modelo de regresso Y = 0 + 1X + , encontrando a reta estimada. d)Construa a Tabela de Anlise de Varincia. Analysis of Variance SourceDFSSMS FP Regression 1155258155258117,440,000 Residual Error11 145421322 Lack of Fit6 1307521797,430,022 Pure Error 51467 293 Total 12169800 e)FaaAnlisedosResduos(considereodiacomoordemdecoletaefaatambmo grfico dos resduos versus a varivel Z). Se existem problemas com as suposies do modelo de erros normais, quais so eles? 400 300 200 100500-50Fitted ValueResidualResiduals Versus the Fitted Values(response is Y.7/modelo simples) 50 Teste de Durbin-Watson Ho: Os resduos no so correlacionados Ha: Os resduos so correlacionados D = 0,744 D = 3,26 (Como D mais prximo de zero, trabalhar com D) dl = 0.95du = 1.23 ComoD F1;11;0,05} , ondeF1;11;0,05 = 4,8443 Ho: A contribuio de 2, dado 1 e 0, no significante (2 = 0) Ha: A contribuio de 2, dado 1 e 0, significante (2 0) Estatstica F =) (1) | ( Re2 11 2X X QMRX X g SQ=12773 /177=72,164 Regio Crtica = {F : F > F1;10;0,05} , ondeF1;10;0,05 = 4,9646 Em ambos os testes os valores de F esto na regio crtica o que significa que os dois parmetros so significativos. 54l)Utilizandootestet-Student,testeasignificnciadecadaparmetroindividualmente. Os resultados concordam com os resultados dos testes F seqenciais de (k)? Ho: 1 = 0Ha: 1 0 Estatstica t = 22,89 Regio Crtica = {t : t -2,201 ou t 2,201} Ho: 2 = 0Ha: 2 0 Estatstica t = -8,50 Regio Crtica = {t : t -2,201 ou t 2,201} Nosdoistestesahiptesenulafoirejeitada,oquequerdizerqueosdois parmetros so importantes para o modelo. m) Interprete a equao de regresso estimada em (g). Para um nmero fixo de empregados que no estavam trabalhando em algum perodo dodia,acadaaumentodeumaunidadenonmerodeempregadoshumaumentode 54,4nonumerodeentregas.Jparaumnumerodeempregadosfixo,onmerode entregasdecrescede27,4acadaumaunidadeaumentadanonmerodeempregados que no estavam trabalhando em algum perodo do dia.

n)IntervalodeConfianaparaE[Y]dadasnovasobservaesdeXeZ:amatriz ( )-1'X X pode ser armazenada no MINITAB (na janelaRegression, botoStorage, marque a opoXX inverse ). Esta matriz ser armazenada num objeto chamado m1. Para imprimir este objeto na janela Session , basta ir no menuEdit > Command Line Editor, digitar print m1 e pressionar Submit Commands . Esta a matriz que ser usada no clculo do erro de estimao no intervalo de confiana para E[Y|(x,z)].Considerandoumnmerodeempregados(X)iguala5etodoselestrabalhando todootempo(ouseja,Z=0),construaumintervalode95%deconfianaparaE[Y],o nmero mdio de entregas realizadas quando h 5 empregados trabalhando todo o tempo . (XX)-1= QMR[x0(XX)-1x0]=177 * 0,174 = 30,798 t/2 ; (n p 1) = 2,201 Logo, IC95% ==(253,83 ; 278,26) Onmeromdiodeentregasrealizadasquandoh5empregadostrabalhando todo o tempoest entre 253 e 278 casos, com 95% de confiana. ) ] ) ' ( ' [ (010) 1 ( ,2x X X x QMR t Yp n )0,494189 -0,11138 0,10678-0,11138 0,031881 -0,036720,10678 -0,03672 0,058757 55-Parte 2 Deteco de Pontos de Influncia 1)Detectandopontosdeinfluncia-Considereosseguintesexercciosdaslistas anteriores : 2 - parte 1; 1 parte2; 1 parte 3; 1 parte 4; 2 parte 5 e 1 parte 6.a)Faa a anlise de resduos procura de pontos de influncia. Use as medidas Hi, D-cook, resduos studentizados.b)Casoseja(m)detectado(s)ponto(s)deinfluncia,ajusteomodelosemeste(s) ponto(s)ecomparesuaequaoestimadacomaequaoestimadacomtodosos pontos para verificar o tamanho da influncia deste(s) ponto(s). 2 parte 1) Anlise de resduos 1,0 0,9 0,8 0,70,080,060,040,020,00-0,02-0,04-0,06-0,08Fitted ValueResidualResiduals Versus the Fitted Values(response is Y.3K)30 25 20 15 10 50,080,060,040,020,00-0,02-0,04-0,06-0,08Observation OrderResidualResiduals Versus the Order of the Data(response is Y.3K)0,08 0,06 0,04 0,02 0,00 -0,02 -0,04 -0,06 -0,081050ResidualFrequencyHistogram of the Residuals(response is Y.3K)P-Value: 0,364A-Squared: 0,390Anderson-Darling Normality TestN: 34StDev: 0,0387278Average: -0,00000000,08 0,06 0,04 0,02 0,00 -0,02 -0,04 -0,06 -0,08,999,99,95,80,50,20,05,01,001ProbabilityRESI1Teste de normalidade 561,0 0,9 0,8 0,7210-1-2Fitted ValueStandardized ResidualResduos padronizados vs. valores ajustados(response is Y.3K) ObsSRES1HI1COOK1ObsSRES1HI1COOK1 1-0,590100,0692160,012947180,030140,0348350,000016 2-0,248640,0652910,00215919-1,789550,0335260,055545 30,104740,0576500,000336201,904610,0306820,057412 4-0,107230,0556900,000339211,574550,0294170,037571 5-0,427710,0545480,005277230,579770,0297720,005157 6-0,239330,0525190,00158824-0,373990,0315000,002275 7-0,271010,0502320,00194225-0,083170,0330770,000118 80,161560,0498910,00068526-1,427800,0330770,034869 9-1,995830,0497220,104211271,134680,0457020,030830 100,131760,0445210,00040428-0,606400,0526900,010226 110,738010,0433760,012348291,526420,0701550,087896 120,713500,0405850,01076730-0,202140,0713630,001570 13-0,143150,0405850,000433310,684100,0718500,018114 14-0,395180,0404590,003292321,868190,1059530,206807 15-0,805780,0372410,01255833-1,113250,1072720,074460 160,815850,0370320,01279934-1,985860,1688680,400629 171,271640,0361280,03030535-0,613420,2255760,054803 Pela anlise da tabela acima percebe-se que as observaes n 32 e 34 possuem valoresdeCOOKsumpoucomaioresqueasdemais,pormosvaloresdosHisedos resduosstudentizadosnosomuitodiscrepantes.Tambmpelaanlisegrficados resduosv-sequeospontoscitadosenenhumoutropontoconsistemnumponto influente. 571 parte 2)Anlise de resduos ObsSRES1HI1COOK1ObsSRES1HI1COOK1 10,025850,2528470,00011326-0,145970,0201840,000219 2-0,406350,0928590,00845127-1,093150,0205610,012543 30,107850,0823370,000522280,699170,0205610,005131 40,231300,0823370,002400291,066710,0211440,012289 51,492590,0596210,07062430-0,000250,0219310,000000 60,046930,0519700,000060310,238890,0219310,000640 71,510440,0484520,058084320,238890,0219310,000640 8-0,270730,0364300,001386330,247780,0229230,000720 9-1,093650,0316490,01954634-0,820650,0241200,008323 102,150940,0316490,07560535-0,213510,0255230,000597 11-0,963640,0295660,014146360,385450,0255230,001946 120,716930,0295660,00783037-2,123160,0271300,062854 13-0,594150,0276880,005026380,514440,0271300,003690 14-1,643400,0232840,032192390,874110,0271300,010654 15-1,035810,0222260,01219440-2,476350,0289420,091387 16-0,318270,0222260,00115141-0,187710,0309600,000563 17-0,769580,0202820,00613142-0,041340,0382420,000034 9,8 9,7 9,6 9,5 9,4 9,3 9,2 9,1 9,0 8,943210-1-2-3Fitted ValueResidualResiduals Versus the Fitted Values(response is Y)8,9 9,0 9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8-3-2-101234Fitted ValueStandardized ResidualResduos padronizados vs. valores ajustados(response is Y)5 4 3 2 1 0 -1 -2 -3 -41050ResidualFrequencyHistogram of the Residuals(response is Y)P-Value: 0,105A-Squared: 0,613Anderson-Darling Normality TestN: 50StDev: 1,25545Average: 0,00000004 3 2 1 0 -1 -2 -3,999,99,95,80,50,20,05,01,001ProbabilityRESI1Normal Probability Plot 5818-0,291700,0202820,000881430,581010,0441220,007791 190,425130,0202820,001871441,306720,0441220,039408 20-0,282910,0200450,000819453,362890,0441220,261005 21-0,044000,0200450,00002046-0,863020,0473700,018518 220,792190,0200450,00641847-0,841250,0583420,021924 23-0,035250,0200120,000013480,152170,0666820,000827 24-0,982220,0201840,009937490,641780,0666820,014714 25-0,265430,0201840,000726500,084930,0966230,000386 Atravsdaanlisedosgrficosnota-sequeexistemalgunspontosquepodem estarinfluenciandoomodelo.Estasuposioconfirmadapelatabelaacima,que apresentacincopontoscujosvaloresdosCOOKssediferemdasdemaisobservaes.Paraavaliarseestespontosrealmentesopontosinfluentesvamosajustarummodelo sem estes valores. A equao estimada com todas as observaes : Y = 9,93042 - 0,0109873 XEquao sem as observaes influentes: Y = 9,48 - 0,00516 X Com relao s retas estimadas a diferena entre elas no foi muito grande, entretanto, no que diz respeito aos resduos, a melhora foi significativa, como pode ser verificado atravs dos grficos abaixo: 9,4 9,3 9,2 9,1 9,0210-1-2Fitted ValueResidualResiduals Versus the Fitted Values(response is Y/sem obs)9,4 9,3 9,2 9,1 9,0210-1-2Fitted ValueStandardized ResidualResiduals Versus the Fitted Values(response is Y/sem obs)2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,01050ResidualFrequencyHistogram of the Residuals(response is Y/sem obs)P-Value: 0,480A-Squared: 0,341Anderson-Darling Normality TestN: 45StDev: 0,854518Average: -0,00000002 1 0 -1 -2,999,99,95,80,50,20,05,01,001ProbabilityRESI1Teste de normalidade p/ o modelo sem as Obs 591 -parte 3) Anlise de Resduos ObsSRES1HI1COOK1ObsSRES1HI1COOK1 10,624560,01003580,0019772511,153130,01003580,0067399 20,451750,01384830,0014329520,860430,02557900,0097170 30,683780,01023480,0024174530,089690,03630430,0001515 40,329100,01165920,000638854-0,725230,01187920,0031615 50,360090,09737770,006994255-2,212040,02126380,0531533 344 345 346 347 348 349 350 351-5-4-3-2-1012345Fitted ValueResidualResiduals Versus the Fitted Values(response is Y)351 350 349 348 347 346 345 3443210-1-2-3Fitted ValueStandardized ResidualResiduals Versus the Fitted Values(response is Y)-5 -4 -3 -2 -1 0 1 2 3 4 501020ResidualFrequencyHistogram of the Residuals(response is Y)10 20 30 40 50 60 70 80 90 100-5-4-3-2-1012345Observation OrderResidualResiduals Versus the Order of the Data(response is Y)Average: -0,0000000StDev: 1,89185N: 100Anderson-Darling Normality TestA-Squared: 0,218P-Value: 0,836-5 0 5,001,01,05,20,50,80,95,99,999ProbabilityRESI1Normal Probability Plot 6060,932890,02870720,012860856-0,489570,01651560,0020125 71,161630,01811110,0124448570,861950,01187920,0044659 80,504900,01936800,002517558-0,920400,03336110,0146184 90,100160,01811110,000092559-0,726770,02623890,0071164 100,332890,01187920,0006661601,799410,01353050,0222057 111,652850,03715970,052717661-2,077390,01001130,0218206 121,034900,01016140,005497462-0,788430,01250760,0039368 13-0,902740,01988120,0082653631,102970,03942200,0249635 14-0,085680,02126380,000079764-0,961140,01003580,0046824 150,210910,01353050,000305165-0,902080,01023480,0042073 16-0,196170,01187920,0002313661,153130,01003580,0067399 171,120310,07533710,051129267-0,607430,01384830,0025907 18-0,490990,03715970,004651968-1,430700,01023480,0105831 191,328480,01250760,0111768690,451750,01384830,0014329 20-0,859320,03059250,0116516701,937960,02623890,0506001 210,681570,01472810,0034720711,405010,02623890,0265964 22-0,318590,01353050,000696172-0,137030,01277640,0001215 23-0,961140,01003580,0046824730,683780,01023480,0024174 24-0,968570,04032630,019710374-0,373460,01023480,0007211 25-0,967860,01610010,007664375-1,195630,01277640,0092503 260,975910,01048610,005046476-0,607430,01384830,0025907 27-1,558600,01764680,0218192771,271790,01060830,0086712 28-0,026170,01936800,0000068782,213300,01610010,0400801 291,094450,01764680,010758679-0,265050,02799850,0010118 30-1,079500,01016140,005981480-2,553520,01811110,0601356 310,386830,02333410,0017876811,094450,01764680,0107586 32-0,140660,01098540,0001099820,327660,02557900,0014091 330,159690,01988120,000258683-0,018590,01509460,0000026 34-0,081460,01048610,000035284-0,325170,03059250,0016684 35-0,788430,01250760,0039368850,279150,02394510,0009559 36-0,314370,01060830,0005298860,802460,01115650,0036325 370,622720,01610010,0031727870,270020,01250760,0004617 38-0,607430,01384830,002590788-0,014980,03416760,0000040 39-0,550900,01016140,001557889-1,078440,01509460,0089123 40-0,617270,02126380,0041390901,842390,04718320,0840447 410,447220,01048610,0010598911,622530,01001130,0133111 42-1,741780,02333410,0362411920,916980,01098540,0046699 43-0,134360,02870720,000266893-0,253160,02394510,0007862 44-0,848090,01353050,004932794-0,371520,01988120,0013999 45-0,690680,04982260,012506895-0,610150,01048610,0019726 46-1,257900,01165920,009333196-0,373460,01023480,0007211 47-1,620360,03416760,0464417972,572260,02126380,0718747 48-0,312390,02182590,0010887980,327660,02557900,0014091 49-0,259210,01250760,0004255990,329100,01165920,0006388 50-1,741780,02333410,0362411100-0,372300,04366750,0031645 Apesardeexistiremcincopontosque,nogrficodosresduospadronizadosvs. Valores ajustados, esto fora do intervalo (-2 ; 2), os mesmos parecem no serem pontos 612 3 4 5-0,6-0,5-0,4-0,3-0,2-0,10,00,10,20,3Fitted ValueResidualResiduals Versus the Fitted Values(response is salario)5 4 3 210-1-2-3Fitted ValueStandardized ResidualResiduals Versus the Fitted Values(response is salario)de grande influencia no modelo. Apenas dois pontos de destacam um pouco dos demais, so eles: obs. n 80 e n 90. Ajustado o modelo com todas as observaes temos: Y = 361,246 - 0,111900 XA equao estimada sem os pontos influentes : Y = 362 - 0,114 X No houveram diferenas significantes entres os dois modelos tanto quanto reta estimada quanto aos resduos. 1 parte 4) Anlise de Resduos 25 20 15 10 50,30,20,10,0-0,1-0,2-0,3-0,4-0,5-0,6Observation OrderResidualResiduals Versus the Order of the Data(response is salario)Average: -0,0000000StDev: 0,196133N: 27Anderson-Darling Normality TestA-Squared: 0,790P-Value: 0,035-0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3,001,01,05,20,50,80,95,99,999ProbabilityRESI1Teste de Normalidade351 350 349 348 347 346 345 344543210-1-2-3-4-5Fitted ValueResidualResiduals Versus the Fitted Values(response is Y/ sem obs)90 80 70 60 50 40 30 20 10543210-1-2-3-4-5Observation OrderResidualResiduals Versus the Order of the Data(response is Y/ sem obs) 62 ObsSRES1HI1COOK1ObsSRES1HI1COOK1 10,540590,1446110,024703150,503290,0814940,011237 2-1,791400,0419770,070305161,365390,0567960,056130 3-0,275900,0814940,00337717-0,140390,0458190,000473 4-1,005360,0375860,019737180,974370,1297920,070801 50,245480,0507580,001611191,110460,0419770,027015 6-1,201050,0375860,028168200,836410,0458190,016796 70,126410,0567960,000481210,112770,1605280,001216 8-0,557080,0814940,01376722-0,058540,0814940,000152 9-1,399110,0375860,038224230,690070,0919220,024102 10-3,070030,0567960,283768240,340470,0721630,004508 11-0,539910,0419770,006386250,958030,1034480,052951 12-0,122810,1297920,001125260,916160,0507580,022441 130,564670,0721630,012400270,836580,1034480,040377 140,205530,0639310,001443 Nota-sequeapenasumponto,obs.10,estmuitoafastadadosdemaispontos (maior valor de resduos studentizados) e pode estar influenciando o modelo de regresso (valor alto de COOK).Para verificar esta influencia interessante ajustar um modelo sem esta observao. Equao estimada com todas observaes: salrio = 1,83070 + 0,0998186 experinciaReta estimada sem a observao 10: salrio = 1,82 + 0,102 experincia Nestecaso,assimcomonosanteriores,nohouvemuitasdiferenasentreosdois modelos ( com e sem a obs. 10). 2 parte 5) Anlise de Resduos 15 10 5 050-5Fitted ValueResidualResiduals Versus the Fitted Values(response is y)15 10 5 0210-1-2Fitted ValueStandardized ResidualResiduals Versus the Fitted Values(response is y) 63P-Value: 0,891A-Squared: 0,181Anderson-Darling Normality TestN: 12StDev: 3,44081Average: 0,2371485 0 -5,999,99,95,80,50,20,05,01,001ProbabilityRESI1Normal Probability Plot ObsSRES2HI2COOK2ObsSRES2HI2COOK2 10,192420,0796020,0032027-1,370810,0199000,038154 2-0,372970,1243780,01976081,624640,0447760,123724 3-1,637920,0447760,1257559-0,654210,1791040,093381 40,869640,0000000,00000010-0,014330,1791040,000045 51,557270,0199000,04924011-0,244340,0049750,000299 60,625560,1791040,085380120,246590,1243780,008638 Tantopelaanlisegrficaquantoanalisando-seosvaloresdatabelaacimav-se que parece no existir nenhum ponto influente. 1 - parte 6) Anlise de Resduos 12 10 8 6 4 250-5Observation OrderResidualResiduals Versus the Order of the Data(response is y)100 200 300 400-50050Fitted ValueResidualResiduals Versus the Fitted Values(response is Y.7/modelo simples)400 300 200 100210-1-2Fitted ValueStandardized ResidualResiduals Versus the Fitted Values(response is Y.7/modelo simples) 64 . obsSRES1HI1COOK1obsSRES1HI1COOK1 1-0,967470,2197800,13183181,230250,0858520,071071 2-0,248780,1572800,00577591,805570,0858520,153084 3-0,847980,1572800,067101101,037530,1126370,068320 4-0,161620,1126370,001658110,548380,1572800,028062 5-0,453590,1126370,01305812-1,188820,3001370,303046 60,714280,1126370,03238113-1,846340,3001370,730970 7-0,079620,0858520,000298 Tanto pela anlise grfica quanto pla tabela acima possvel notar que os pontos 12 e13 so os de maior influencia no modelo. Para verificar esta influencia ser ajustado o modelo sem estas observaes. A reta estimada com todas observaes : Y.7 = 43,8393 + 37,2321 X.7 A reta estimada sem as observaes 12 e 13 : Y.7 = 10,1 + 47,5 X.7 Nestecasofoiverificadoquerealmenteestasobservaesestavaminfluenciando muito o modelo, pois as duas retas estimadas acima so bastante diferentes. -60 -40 -20 0 20 40 600123ResidualFrequencyHistogram of the Residuals(response is Y.7/modelo simples)2 4 6 8 10 12-50050Observation OrderResidualResiduals Versus the Order of the Data(response is Y.7/modelo simples)Average: -0,0000000StDev: 34,8114N: 13Anderson-Darling Normality TestA-Squared: 0,190P-Value: 0,876-50 0 50,001,01,05,20,50,80,95,99,999ProbabilityRESI1teste de normalidade - modelo simples 6520 15 10 5200150100X.9Y.9 -Parte 3 Modelo com Ponderao 1)(AdaptaodosdadosdaTabela3.8,MontgomeryandPeck)Arendamensal mdia de vendas de refeies (Y), assim como os gastos mensais com propaganda (X), foram registradas para 30 restaurantes. Um analista de vendas gostaria de encontrar uma relao entre as vendas e os gastos com propagandas. Os dados coletados esto disponveis em na Tabela A.8 em Anexo. (Os valore de Y e X foram arredondados para facilitar a resoluo do problema) a)FaaodiagramadedispersodeYversusXavalieapossibilidadedoajustedeum modelo de regresso linear. 400 300 200 100403020100-10-20-30Fitted ValueResidualResiduals Versus the Fitted Values(response is Y.7/ sem obs)10 8 6 4 2403020100-10-20-30Observation OrderResidualResiduals Versus the Order of the Data(response is Y.7/ sem obs) 6620 15 10 5200150100X.9Y.9S = 8,44624R-Sq = 96,0 %R-Sq(adj) = 95,9 %Y.9 = 49,4911 + 8,20729 X.9Regression Plot200 150 100100-10-20Fitted ValueResidualResiduals Versus the Fitted Values(response is Y.9-modelo s/ ponderao)15 10 5 -0 -5 -10 -1576543210ResidualFrequencyHistogram of the Residuals(response is Y.9-modelo s/ ponderao)b)Ajuste o modelo de regressoY = 0 + 1X + , encontrando a reta estimada. c)FaaAnlisedosResduosdomodeloemb).Seexistemproblemascomas suposies do modelo de erros normais, quais so eles? Atravsdosgrficosacimav-sequeapesardosresduosseremnormalmente distribudos, os mesmos no possuem varincia constante. P-Value: 0,405A-Squared: 0,369Anderson-Darling Normality TestN: 29StDev : 8,29404Av erage: -0,000000010 0 -10,999,99,95,80,50,20,05,01,001ProbabilityRESI1modelo sem ponderaoTeste de normalidade - 6720 15 10 515010050xvar(x)d)Paracorrigiroproblemadaheterocedasticidade,vamosprocedercomatcnicados mnimos quadrados ponderados: d.1)CalculeaestimativadoErroPuroparacadanveldeXcommedidasrepetidas (NoMINITAB,useocomandoStat>BasicsStatistics>Display Descriptive). Variable X.9NMean Median TrMeanStDev Y.9 3 3 75,3373,0075,33 4,93 5 2 95,0095,0095,00 5,66 9 5122,20 123,00 122,20 7,19 11 1141,00 141,00 141,00 * 12 4143,50 146,00 143,50 8,70 13 1147,00 147,00 147,00 * 15 6174,17 178,50 174,1710,94 16 2181,00 181,00 181,0011,31 17 1192,00 192,00 192,00 * 19 4207,00 208,50 207,0012,03 d.2)FaaumgrficodeVar(Y|X),asestimativasdoErroPuroencontradasem d.1), versus nvel de X . Existe relacionamento entre estas duas variveis? Se sim, de que tipo? xvar(x) 324,305 532,036 951,696 1275,690 15119,684 16127,916 19144,721 Existe relacionamento entre as variveis, e este linear positivo (tipo Y = X). d.3)CrieumacolunadepesosecoloqueoinversodacolunaX.Porqueusaro inverso de X como peso? (Pense no relacionamento encontrado em d.2) e nos exemplos utilizados em sala). PesosPesosPesosPesos 0,3333330,076923 0,062500 0,0909090,3333330,066667 0,058824 0,0833330,3333330,066667 0,052632 0,0833330,2000000,066667 0,052632 0,0833330,2000000,066667 0,052632 0,0833330,1111110,066667 0,0526320,1111110,066667 0,1111110,1111110,062500 0,111111 6847 46 45 44 43 42 4143210-1-2-3-4-5fits-transresi/transDevidoaorelacionamentolinearentreavarinciaeX.Fazendoestaponderao estamos dando um peso pequeno aos pontos com resduos maiores e pesos maiores aos pontoscomresduospequenos.Assimtornamosospontosmaishomogneos,isto, concentrados em torno de um s valor. d.4)Useospesosconstrudosemf)paraajustaromodeloemb).(NoMINiTAB,na janela Regression, boto Options, selecionar a coluna com pesos no espao weights. No se esquea de guardar os resduos e os preditos. The regression equation is Y.9 = 51,2 + 8,07 X.9 PredictorCoef SE CoefTP Constant 51,170 2,62019,530,000 X.98,06860,252132,000,000 S = 2,422 R-Sq = 97,4% R-Sq(adj) = 97,3% e)AnlisedosResduos:Crieumacolunacomamultiplicaodacolunaderesduos pela coluna da raiz quadrada dos pesos. Faa o mesmo com a coluna dospreditose com a coluna dos valores de X . f)Faa o grfico de resduos transformados versus preditos transformados. O problema da heterocesdasticidade foi resolvido? O problema da heterocedasticidade foi resolvido. resi/transx-transfits-transresi/trans x-transfits-trans resi/trans x-transfits-trans3,247091,7320543,51830,324323,3166242,18883,305313,8729844,4615 -1,371711,7320543,51830,868073,4641042,7219-4,182463,8729844,4615 -1,949061,7320543,5183-0,286633,4641042,7219-1,816794,0000045,0668 -0,229422,2360740,9259-4,905433,4641042,72192,183214,0000045,0668 3,348292,2360740,9259-0,863983,4641042,72190,888724,1231145,6781 1,070923,0000041,2624-2,513203,6055543,2837-0,337894,3589046,9093 -3,262413,0000041,26241,756123,8729844,4615-2,861464,3589046,9093 -2,595743,0000041,2624-1,600473,8729844,46153,332764,3589046,9093 -0,262413,0000041,26242,272523,8729844,46152,185694,3589046,9093 2,404263,0000041,26241,497923,8729844,4615 69g)Casonohajaproblemasemi),construaaTabelaAnovaefaaotestedaFaltade Ajuste da Tabela Anova. Analysis of Variance SourceDFSSMS FP Regression 16009,96009,9 1024,110,000 Residual Error27 158,4 5,9 Lack of Fit823,2 2,90,410,903 Pure Error19 135,3 7,1 Total 286168,4 H0 : o modelo no apresenta falta de ajuste Ha: o modelo apresenta falta de ajuste ComooP-valordafaltaeajustemaiorque 0,05, pode-se afirmarqueomodelode regresso ajustado no apresenta falta ajuste. h)Casonohajaproblemasnotestedefaltadeajuste,faaotesteFdaregresso (escreva as hiptesesnula e alternativa de cada teste). H0: 1 = 0Ha: 1 0 Sendo a probabilidade de significncia desteteste aproximadamente zero, possvel dizer que 1 diferente de zero, ou seja, o modelo ajustado razovel. i)UtilizeagoraatransformaoraizquadradaemYeajusteomodeloderegresso linear,fazendoaanlisederesduos.Estatransformaoresolveoproblemada heterocedasticidade? The regression equation is sqrt(Y) = 7,81 + 0,352 X.9 PredictorCoef SE CoefTP Constant 7,81040,167646,600,000 X.9 0,35216 0,0128427,430,000 S = 0,3384R-Sq = 96,5% R-Sq(adj) = 96,4% Analysis of Variance SourceDFSSMS FP Regression 186,15286,152752,330,000 Residual Error27 3,092 0,115 Lack of Fit8 0,433 0,0540,390,914 Pure Error19 2,658 0,140 Total 2889,244 7015 14 13 12 11 10 90,50,0-0,5Fitted ValueResidualResiduals Versus the Fitted Values(response is sqrt(Y)) Aoanalisar-seogrficoacimanota-sequeoproblemadeheterocedasticidadedos resduos foi resolvido. j)AnalisandoovalordoR2,compareoajustedomodeloemb)feitoviamnimos quadrados ponderados com o ajuste feito via transformao raiz quadrada em Y.Por que no podemos comparar os valores do MSResidual? Modelo ponderado: R2 = 97,4% Modelo transformado: R2 = 96,5% Apesar dos dois valores estarem prximos, o R2 do modelo ponderado maior, sendo assim este modelo parece ser o melhor. Nopode-secompararosMSResidualporqueestamostratandodeescalas diferentes. -Parte4MulticolinearidadeeAnlisedeVarinciaviaAnlisede Regresso 2)(Multicolinearidade) Um grupo de estudantes participou de um experimento simples: cada estudante teve anotado sua altura (height), peso (weight), sexo (sex) , hbito de fumo(smokes),nveldeatividadeusual(activity)epulsoemrepouso.Depois,eles correramnolugarduranteumminutoeopulsofoinovamentemedido.Oobjetivo sabercomopredizeramediodopulsodepoisdacorridaatravsdasvariveis medidas . Pulse1pulso antes da corrida (em batidas por minuto) Pulse2pulso depois da corrida (em batidas por minuto) Smokes1= fuma regularmente ; 2 = no fuma regularmenteSex1 = homem2 = mulher Heightaltura (em polegadas) WeightPeso (em libras)ActivityNvel de atividade fsica : 1 = leve 2= moderado 3 = intenso 71a)Ajusteummodeloderegressolinear,entrandoseqencialmentecomasvariveis: pulse1, Sex, height, weight, smokes, activity.A cada entrada de varivel, faa o teste Fseqencial,avaliandoaSomadeQuadradosExtradevidavarivelqueest entrando.AvalieosVIFs(fatoresdeinflaodavarincia).(NoMINITAB,janela Regression, boto Options). Tabela ANOVA para os testes F seqenciais : Fonte de Variaog.l. SSMSMSResi (g.l)F Regresso (X1,...X6)78972,91281,8119,6 (27)10,72 * X1 (pulse1)14500,2 4500,2233,4 (33)19,28 * X2 (Sex) | X1 13332,93332,9136,5 (32)24,41 * X3 (height) | X1, X2162,262,2138,9 (31)0,45 X4 (weight) | X3, X2, X11156,0156,0138,3 (30)1,13 X5 (smokes) | X4,X3,X2,X11201,6201,6136,1 (29)1,48 X6 (activity) | X5,X4,X3,X2,X12720,1360,1119,6 (27)3,01 Resduo (Erro) (X1,...,X6)273227,9119,6 -------------- Total3412200,7 --------------------- OBS: as somas de quadrados no somam exatamente a SSTotal devido a erros de arredondamento, dado que cada SS veio do ajuste de modelos diferentes. F0.05 ; 1; 30 =4,1709F0.05 ; 1; 29 =4,1830F0.05 ; 2; 27 = 3,3541 PredictorCoef SE CoefP VIF Constant30,21 62,880,635 Pulse1 0,65420,19060,002 1,4 Sex14,353 6,4170,034 2,6 Height 0,15650,85560,856 2,4 Weight-0,15020,13630,280 2,7 Smokes3,690 4,2210,390 1,2 Act13,923 7,5480,607 3,4 Act2 -8,806 7,8610,273 2,9 72b)Ajusteomodeloderegressosomentecomasvariveisquederamcontribuio significativaparaaSomadeQuadradosdeRegresso,avaliandotambmosVIFs. H indicao de problemas de multicolinearidade das variveis explicativas? Modelo com Pulse1 e Sex como explicativas: The regression equation is Pulse2 = 18,9 + 0,583 Pulse1 + 23,4 Sex PredictorCoef SE CoefTP VIF Constant18,86 13,05 1,450,158 Pulse1 0,58300,1950 2,990,005 1,2 Sex23,396 4,735 4,940,000 1,2 S = 11,68 R-Sq = 64,2% R-Sq(adj) = 62,0% Analysis of Variance SourceDFSSMS FP Regression 27833,13916,5 28,690,000 Residual Error324367,7 136,5 Total 34 12200,7 Problemas coma normalidade dos resduos 73Tentativas para corrigir a normalidade: 9Transformao raiz quadrada : (pulso so contagens, bpm) Modelo :raiz(pulse2) = b0 +b1 * raiz(pulse1) + b2* Sex + erro Sem sucesso. Modelo :raiz(pulse2) = b0 +b1 * raiz(pulse1) + b2* Sex + b31*act1 +b32*act2 + erro Corrige o problema da normalidade sem causar outros problemas. The regression equation is Sqrt(pulse2) = 4,02 + 0,596 Sqrt(pulse1) + 0,907 Sex2 + + 0,332 Act1 - 0,368 Act2 Sex 20 , se masculino 1 , se feminino 74Predictor Coef SE CoefTP VIF Constant4,022 1,4982,680,012 Sqrt(pul 0,59610,16743,560,001 1,3 Sex2 0,90690,25463,560,001 1,6 Act1 0,33230,36370,910,368 3,0 Act2-0,36790,3875 -0,950,350 2,7 S = 0,5570R-Sq = 71,0% R-Sq(adj) = 67,1% Analysis of Variance Source DF SSMS FP Regression 4 22,79805,6995 18,370,000 Residual Error 30 9,30640,3102 Total3432,1043 c)Interprete o modelo ajustado em b). The regression equation is Sqrt(pulse2) = 4,02 + 0,596 Sqrt(pulse1) + 0,907 Sex2 + + 0,332 Act1 - 0,368 Act2 Considerandopessoasdemesmosexoemesmonveldeatividadefsica,um aumento de 1 unidade na raiz quadrada do pulso em repouso leva a um aumento mdiode 0,596 unidades na raiz quadrada do pulso aps a corrida. Considerandopessoasdemesmopulsoemrepousoemesmonveldeatividade fsica,araizquadradadopulsomdiodeumindivduodosexofemininotem0,907 unidades a mais do que o pulso mdio de um indivduo do sexo masculino. Considerandopessoasdemesmopulsoemrepousoemesmosexo,araiz quadradadopulsomdiodeumindivduocomnveldeatividadefsicamoderadatem 0,332unidadesamaisdoqueopulsomdiodeumindivduocomnveldeatividade fsica leve. Considerandopessoasdemesmopulsoemrepousoemesmosexo,araiz quadradadopulsomdiodeumindivduocomnveldeatividadefsicamoderadatem 0,332unidadesamaisdoqueopulsomdiodeumindivduocomnveldeatividade fsica leve. Considerandopessoasdemesmopulsoemrepousoemesmosexo,araizquadrada do pulso mdio de um indivduo com nvel de atividade fsica intensa tem 0,368 unidades a mais do que o pulso mdio de um indivduo com nvel de atividade fsica leve. 3)(Anlise de Varincia via Anlise de Regresso) Pulse1 - pulso antes da corrida (em batidas por minuto) Activity - Nvel de atividade fsica : 1 = leve 2= moderado 3 = intenso Comosdadosdoexerccio1,vamosverificarseopulsomdiovariaconformeo nveldeatividade.Ouseja,devemoscompararamdiadopulsoemtrsgruposde 75indivduos. Ahiptesenulaadequeopulsomdioigualnostrsgrupos,eahiptese alternativa a de quepelo menos um dos grupos tem mdia diferente.EstassoashiptesesusadasnatcnicadeAnlisedeVarincia,quepodeser realizada atravs de um modelo de regresso. Vejamos como: a)Ajusteummodeloderegresso(comintercepto)davarivelpulse1emfunoda varivelactivity.Lembre-sedequeavarivelactivityqualitativaetemtrsnveis. ConstruaaTabelaAnovaetesteasignificnciadestaregresso,atravsdotesteF. Emcasoderejeiode