Análise Logistica

  • Upload
    campus

  • View
    239

  • Download
    0

Embed Size (px)

Citation preview

  • 7/22/2019 Anlise Logistica

    1/40

    5Regresso Logstica

    Sumrio do captulo Introduo. A lgica da Regresso Logstica. Modelo matemtico da Regresso Logstica. Interpretando os coeficientes da Regresso. A Curva da Regresso Logstica. Suposies do modelo logstico. Vantagens operacionais do modelo logstico. Medidas de avaliao do modelo logstico. Exemplo prtico. Consideraes finais. Resumo.

    Objetivos de aprendizagemO estudo deste captulo permitir ao leitor: Compreender os objetivos gerais da Regresso Logstica e id

    ficar as circunstncias em que essa tcnica pode ser utilizada; Compreender as razes pelas quais o modelo logstico

    recomendvel para realizar predies e classificar indivduosobjetos quando a varivel dependente dicotmica;

  • 7/22/2019 Anlise Logistica

    2/40

    Regresso Logfstica 281

    Estimar e interpretar os coeficientes da Regresso Logstica, especialmente no que se refere aos efeitos que eles exercem sobrea probabilidade associada ocorrncia de determinado evento; Realizar testes de significncia para o modelo logstico, em sentido

    geral, e para cada coeficiente da regresso em particular; Estimar probabilidades e realizar classificaes de indivduos eobjetos em grupos, utilizando o modelo logstico; Solucionar casos prticos utilizando ferramentas computacionaisque contemplem a tcnica da Regresso Logstica (nfase na gerao e interpretao dos relatrios).

    5.1 IntroduoVimos que a Regresso Linear Mltipla uma tcnica estatstica aplicvel a si-tuaes em que se deseja predizer ou explicar valores de uma varivel dependente

    em funo de valores conhecidos das variveis independentes. A ttulo de exemplo,lembramos que esse recurso pode ser utilizado para explicar uma possvel relaomatemtica existente entre resultado operacional lquido e outras variveis, taiscomo crescimento das vendas e gastos com publicidade. Caso se identifique umarelao significativa entre elas, obtm-se um modelo que pode servir para estimaro referido resultado em funo de futuras observaes das variveis independentes. claro que em tais circunstncias a varivel dependente pode assumir qualquervalor, inclusive negativo. E se estivssemos diante de uma situao em que ela spudesse assumir um entre dois resultados e, alm disso, de natureza qualitativa?Ser que, ainda assim, seria vivel utilizar o modelo linear?

    De fato, h de se considerar que em muitas situaes a varivel dependente de natureza binria ou dicotmica. Por exemplo, um aluno pode ser aprovado oureprovado num exame, um paciente pode vir a bito ou sobreviver a um enfarte,um candidato a um posto de trabalho pode ser contratado ou no, um produtopode ser aceito ou barrado pelo controle de qualidade, um cliente pode cancelarou confirmar um pedido, um gerente pode obter xito ou fracassar numa negociao, um fornecedor pode aceitar ou rejeitar uma proposta, um cliente podese tornar inadimplente ou no, e assim por diante. Obviamente, esse raciocniotambm se aplica s entidades mais amplas, como grupos, empresas, pases etc.Determinada cidade pode sofrer um ataque terrorista, passar por problemas deabastecimento, enfrentar rebelies e outros fenmenos do gnero. De igual forma,uma empresa pode ingressar em estado de falncia, sofrer restries ao crdito,enfrentar greves, problemas na obteno de insumos e muitos outros. Como prever fenmenos que, como estes, s admitem uma entre duas alternativas do tipoocorre ou no ocorre, sim ou no?

  • 7/22/2019 Anlise Logistica

    3/40

    282 Anlise Multivariada Corrar, Paulo e Dias Filho

    Por tais exemplos, j se pode deduzir que a soluo desse problemade perto a praticamente todas as reas do conhecimento. No mbito dasno difcil encontrar algum interessado em saber se um cliente tende a seinadimplente, se uma empresa tende falncia, se um contrato poder ser 1V111vse um empregado tende a se envolver em acidente de trabalho, tudo isso emde um conjunto de variveis econmicas, ambientais etc. Na rea mdica, porvez, um profissional pode estar interessado em estimar o risco de algumum ataque cardaco em funo de certas variveis, tais como taxa de -.v'""'"''--idade, sexo, peso, hbitos alimentares e outras. Note-se que, em todos oso objetivo sempre explicar ou predizer a ocorrncia de determinado eventofuno de um conjunto de variveis, que podem ser categricas ou no. Deforma, importante observar que a varivel dependente de naturezae exige resultados que possam ser interpretados em termos deexatamente para resolver problemas desse tipo que se desenvolveu aestatstica denominada Regresso Logstica.

    Breve histricoA tcnica da Regresso Logstica foi desenvolvida por volta de 1960

    resposta ao desafio de realizar predi{jes ou explicar a ocorrncia deminados fenmenos quando a varivel dependente fosse de natureza vu u ~ -Um dos primeiros estudos que mais contriburam para conferira esse recurso da estatstica multivariada foi o famoso FraminghamStudy, realizado com a colaborao da Universidade de Boston. O priobjetivo dessa pesquisa foi identificar fatores que concorrem para "'"""'' .........dear doenas cardiovasculares. Em sua primeira etapa, foram recrutados S.indivduos na faixa etria de 30 a 60 anos, residentes na cidade degham, em Massachusetts. Com o apoio da Regresso Logstica, ummonitoramento dessa amostra acabou identificando diversos fatores detais como: hipertenso arterial, taxas de colesterol elevadas, tabagismo,sidade, diabetes e vida sedentria.

    Alm disso, a referida tcnica ajudou a mensurar a influncia que cadadesses fatores exerce no desenvolvimento de doenas cardiovasculares, dualmente, e quando associados a algumas caractersticas pessoais, tais """rTV1....cor, sexo, idade, elementos psicossociais etc. Segundo Hosmer e(1989), desde ento a Regresso Logstica tem se tornado ona anlise multivariada de dados em muitos ramos do conhecimento, especialmente na rea mdica, quando a varivel dependente dicotmica. De fato,uma rpida incurso em peridicos especializados, tais como o American Jour-nal ofPublic Health, The International Journal ofEpidemiology, The Journal of

  • 7/22/2019 Anlise Logistica

    4/40

    Regresso l.ogfstica 283

    Di.seases e outros do gnero, j nos permite comprovar o quanto essatem contribudo para a evoluo do conhecimento.a Regresso Logstica tenha surgido e se desenvolvido na medieisua aplicao no ficou restrita a essa rea. Pelo contrrio, expandiu-sepor outros campos para modelar relacionamentos entre uma vadependente dicotmica e um conjunto de variveis preditoras. Em ecopor exemplo, o modelo logstico se revelou de grande utilidade paraproblemas que implicam a escolha de uma entre duas alternativas eestimao de probabilidades. Quando se deseja explicar por que

    . . . . . . . 1"" ' prefere este quele produto, por que determinados projetes econ-fracassam e outros no, por que certas empresas conseguem angariarcom mais facilidade do que outras, por que um empregado conseguemetas e outro no, a Regresso Logstica pode prestar relevantes con:oes. Mais recentemente, vem sendo muito aplicada no desenvolvimento

    ~ - u u J t l c . - ~ u . , Credit Scoring, inclusive no Brasil.

    lgica da Regresso Logsticavimos anteriormentera Regresso Logstica tambm busca explicar ouvalores de uma varivel em funo de valores conhecidos de outras va-Porm, existem algumas particularidades que a distinguem dos demaisde regresso. A principal delas o fato de a varivel dependente ser diIsso exige que o resultado da anlise possibilite associaes a certas catais como positivo ou negativo, aceitar ou rejeitar, morrer ou sobreviverpor diante. Em princpio, nada obsta que semanticamente cada uma delas

    . , . . , . ,v._1aua a qualquer nmero. Por exemplo, o nmero 3 poderia ser interpre-como algo negativo e o 8 como uma situao positiva. Ocorre que, alm dea classificao de fenmenos ou indivduos em categorias especficas,so Logstica tem ainda por objetivo estimar a probabilidade de ocorrndeterminado evento ou de que um fenmeno venha a se enquadrar nessacategoria. Em outras palavras, os resultados da varivel dependentepermitir interpretaes em termos de probabilidade e no apenas classifi-

    Como se pode deduzir, em tais circunstncias a sada circunscrever todos os_ . , . c ....u ., que se possam atribuir varivel dependente ao intervalo compreenentre zero e um. Assim, pode-se atender a dois objetivos, simultaneamente:a probabilidade de ocorrncia de determinado evento e classific-lo emPor exemplo, admitamos que algum esteja interessado em saber seempresa se classifica no grupo de insolventes ou de solventes. Obtendo-se um

  • 7/22/2019 Anlise Logistica

    5/40

    284 Anlise Multivariada Corrar, Paulo e Dias Filho

    ela se enquadra no grupo de provveis insolventes e, ao mesmo tempo, a probabilidade de ela realmente assumir esse status. No caso, essa prode seria de 70%. Obviamente, isso pressupe a definio prvia de umadeciso. Baseando-se em dados histricos, algum pode estabelecer queresultado superior a 0,5 deve ser interpretado como de provvel inacia. Nessa hiptese, a categoria INSOLVENTE seria associada ao nmeroSOLVENTE, ao nmero zero. Esclarecemos que se trata de uma mera conPortanto, uma associao em sentido oposto tambm . vivel, ou seja, zerosignificar insolvente e o nmero um, solvente. Esse aspecto deve ser corlSIClt!llquando da interpretao dos resultados.Como o uso do modelo linear poderia nos conduzir a predies denores que zero e maiores que um para a varivel dependente, t o r n a - s e u ' - ~ ~ ~converter as observaes em razo de chance (odd.s ratio) e submet-las atransformao logartmica, conforme ser demonstrado na prxima seo.de utilizar o mtodo dos mnimos quadrados, opta-se pelo da mximalhana. Com isso, o modelo passa a evidenciar mudanas nas inter-relaeslogs da varivel dependente, e no na prpria varivel. Da o adjetivo ...v . .. ., . .. .Alis, cabe salientar que a adoo do modelo linear tambm se tornariadada a impossibilidade de atender a algumas suposies bsicas, tais comomalidade e homoscedasticidade, alm de a probabilidade da ocorrncia doto crescer ou diminuir linearmente em relao funo estatstica. Rediramos que a Regresso Logstica se caracteriza como uma tcnicaque nos permite estimar a probabilidade de ocorrncia de determinado eventoface de um conjunto de variveis explanatrias, alm de auxiliar nade objetos ou casos. particularmente recomendada para as situaes emvarivel dependente de natureza dicotmica ou binria. Quanto stes, tanto podem ser categricas como mtricas.Na verdade, o modelo logstico tambm pode ser utilizado em problemasenvolvem classificao de fenmenos em mais de um grupo. Porm, aespecializada sugere que ele se mostra mais adequado para os casos emvarivel dependente de natureza binria. Salientamos que nos limites desteptulo no se pretende apurar tais questes e muito menos descer a detalheselevada complexidade, j que esse tipo de abordagem se distanciaria dosvos da obra e das expectativas do pblico para o qual est orientada. Aosres eventualmente interessados em explicaes tericas de maior profundsugerimos consulta s fontes bibliogrficas relacionadas no final deste ' - " - 1 ~ . . . . . . . .especialmente se pesquisadores da rea mdica e farmacolgica.5.3 Modelo matemtico da Regresso Logstica

  • 7/22/2019 Anlise Logistica

    6/40

    Regresso Logstica 285

    valor menor que zero e maior que um. Isso no se coaduna com urna re- natureza logstica, j que uma mesma mudana nos valores da varivel- ~ d e 1 n t e pode produzir efeitos diferentes sobre a varivel dependente. Tudo

    nder de sua posio relativa. Quanto mais prxima a probabilidade estixu limite superior, menor o efeito dos fatores que concorrem para aumen:ice-versa. certo que outros modelos de natureza no linear poderiam

    - - ~ .......,,., para representar esse tipo de relao. Contudo, salientamos que otem sido preferido, em funo de suas propriedades e da relativa simoperacional.contornar as dificuldades inerentes ao modelo linear, efetua-se umalogstica na varivel dependente. Esse processo constitudo baside duas etapas. A primeira consiste em convert-la numa razo de chan-

    segunda, em transform-la numa varivel de base logartmica. Com isso,a predio de valores menores que zero e maiores que um. Para facilitar a_ . - r : > . - n ~ : : : ~ o , vamos explicar cada fase em separado. Considere-se, inicialmente,a fenmeno tem uma probabilidade de ocorrer ou de assumir determinaAssim, fica claro que, embora a varivel dependente s possaduas posies, zero e um, toma-se necessrio obter valores que possam

    . , . . . , , . . - ~ r n r < > t < > r i o s em termos de probabilidade. Para tanto, em primeiro lugar cana probabilidade a s ~ o c i a d a a cada observao em razo de chance (oddsque representa a probabilidade de sucesso comparada com a de fracasso.~ a o pode ser expressa da seguinte forma:

    P (sucesso)Razo de chance=---- - ' - - ---'--1 - P (sucesso)r motivos de ordem operacional e principalmente para facilitar a interpredos resultados, o segundo passo rumo construo do modelo consiste emo logaritmo natural da razo de chance, conforme segue:

    ro JffiO se observa, no lado esquerdo da equao anterior tem-se o logaritmo31 da razo de chance. No direito, as variveis independentes (categricas

    -crricas) e os coeficientes estimados (b0 + b1+ ...+ bk), que expressam mu--'-"r"..., no log da razo de chance. Alis, esse ponto deve ser observado com muita, - ~ ~ ~ o quando da interpretao dos coeficientes. Ou seja, preciso considerara Regresso Logstica calcula mudanas nas inter-relaes dos logs da varivel

    dente e no na prpria varivel, como acontece com a linear. Voltaremos aaspecto quando da interpretao dos resultados da regresso, por meio deplos prticos.

  • 7/22/2019 Anlise Logistica

    7/40

    286 Anlise Multivariada Corrar, Paulo e Dias Filho

    Uma vez que o modelo logstico tenha sido ajustado a um conjunto de da razo de chance estimada pode ser obtida com relativa facilidade. Parabasta elevar a constante matemtica e ao expoente composto dos coeficientestimados, como se observa a seguir:

    ( P (sucesso) ) = e tbu+htX1 ...1%,x . J1 - P (sucesso)Ora, se a razo de chance estiver devidamente estimada, chega-se ao o

    vo final, que identificar a probabilidade associada ocorrncia deevento. Valendo-se do prprio conceito de chance e baseando-se na frmulama, obtm-se a seguinte equao:

    e (b0 +b,x ,+b1X2+ ..h,x"')P (evento) = ----:-:----:-:,..---;--:-:----:-::--:-1 + e (b0 +b1X1+b2X2 + .. X k j )Simplificando-se um pouco mais, a equao logstica assumiria o ~ ~ " . ~ -

    formato:

    Identificada a equao que nos permite calcular a probabilidade relativaocorrncia de determinado evento, agora s nos resta estimar os seus coeficienteS.Como se sabe, se o modelo fosse linear, poderamos utilizar o mtodo dos mni.rnc:squadrados, cujo objetivo minimizar a soma dos quadrados das diferenas envalores previstos e observados para a varivel dependente. Porm, a transforma -logstica da qual resulta a equao anterior exige que se utilize um procedimcdiferente, que o mtodo da mxima verossimilhana. Trata-se de um recurso irativo que facilita a identificao dos coeficientes necessrios ao clculo da prot .bilidade mxima associada a determinado evento. Resumidamente, diramos queuma forma de estimar parmetros de distribuio de probabilidades que maxirm-zem a funo verossimilhana. Geralmente, tal procedimento executado comapoio de recursos computacionais e, por isso, evitamos descer a detalhes de cunoperacional. Neste captulo, utilizaremos o software SPss para realizar tais esomativas. Alis, cabe salientar que todos os clculos envolvidos em cada etapa acimareferida normalmente so executados com apoio de ferramentas computacionais.Por isso, at aqui estamos privilegiando aspectos conceituais do modelo para quo leitor possa compreender o significado da Regresso Logstica e identificar, porprprio, oportunidades de aplicao em sua rea de interesse. Ademais, sem essabase conceituai, torna-se bem menos confortvel a interpretao dos resultados de-correntes de uma aplicao prtica.

  • 7/22/2019 Anlise Logistica

    8/40

    Regresso Logstica 28 7

    5.4 Interpretando os coeficientes da RegressoNo modelo linear, vimos que cada coeficiente estimado mede a mudana queno valor da varivel dependente para cada unidade de variao ocorridavarivel explicativa. Em se tratando de Regresso Mltipla, obviamente, h deconsiderar que isso incorpora o pressuposto de que as demais variveis perma

    wcein constantes. Em sntese, diramos que cada coeficiente descreve a reaopela varivel dependente a uma variao unitria ocorrida na varivelPor exemplo, se Y = 200 + 8X expressa a relao entre custo totaldependente) e quantidade produzida (varivel independente), pode-seque para cada variao unitria que se verifique em X, o custo total seificar em oito unidades.

    No modelo logstico, pelo contrrio, o coeficiente de cada varivel indepenest sujeito a diversas interpretaes, j que ele exerce efeitos sobre a quan-u ...... de logit (logaritmo natural da razo de chance), sobre a prpria razo dee, finalmente, sobre as probabilidades. Voltemos ao modelo geral da ReLogstica para examinarmos os diversos significados que podem ser atri:-.JIOC>s aos coeficientes:

    (P(sucesso) )ln =b0 + b1x1, + b2x 2, + + bkxk,1 - P (sucesso)

    Em relao ao logaritmo natural da razo de chance, o efeito de cada coe.,_,;.,nt semelhante ao que se verifica no modelo linear. Ou seja, o parmetroo mede a mudana que ocorrer na varivel dependente por unidade deocorrida na independente. Por exemplo, supondo-se que as demais varise mantenham inalteradas e que o coeficiente b1 seja igual a 2, a quantidadelogit sofrer um acrscimo de duas unidades sempre que x1 evoluir em umaaidade. Independentemente do nvel em que se encontre a varivel x1 ou qualoutra independente, uma variao unitria em x1 produzir o mesmo efeitoa varivel dependente, mantendo-se os demais fatores constantes. Como exatamente o que acontece no modelo linear.

    Porm, apesar da simplicidade com que pode ser interpretado, nesse casocoeficiente da regresso no possui nenhum significado intuitivo. Dizer que a,.. . au.uuade de logit sofreu um aumento de duas unidades, por exemplo, expres

    muito pouco a respeito do impacto que essa variao poder exercer sobre aprobabilidade associada a determinado evento. Para sermos mais realistas, somosa reconhecer que esse dado apenas indica que a probabilidade aumentou. Isso porque um coeficiente positivo assinala um aumento de probabilidadee o negativo, uma diminuio. Em termos prticos, claro que isso no melhoramuito a qualidade da informao disponvel. Afinal de contas, mais do que saberflUe a probabilidade aumentou ou diminuiu, o pesquisador ou qualquer outro profissional responsvel por decises precisa identificar em quanto ela poder aumen-

  • 7/22/2019 Anlise Logistica

    9/40

    288 Anlise Muhivariada Corrar, Paulo e Dias !'ilho

    tarou diminuir, dada uma certa variao ocorrida na varivel independente. PGrexemplo, suponha que a probabilidade de um indivduo contratar um segurovida pode ser estimada por variveis, tais como quantidade de filhos, renda, n\de instruo e idade do chefe de famlia. Nesse caso, para um economista, cen .mente muito mais interessante saber que uma variao positiva de R$ SOO.na renda do indivduo aumentar em 8% a probabilidade de ele adquirir o segumantendo-se as demais variveis constantes, do que obter uma informao de queessa variao provocar um aumento de 3 unidades no log da razo de chanceAssim, necessrio encontrar significados mais simples e intuitivos para 01coeficientes. Uma segunda interpretao possvel, e talvez bem mais til, a qurse relaciona com o impacto de cada coeficiente sobre a prpria razo de c h a n ~e no mais sobre a quantidade de logit, como explicamos anteriormente. Ora, ~servando-se a estrutura do modelo logstico, no difcil concluir que basta elevara constante matemtica e (2,7182 .. ) ao coeficiente da varivel independenrr

    para identificar o impacto que ele exerce sobre a razo de chance. Como se v,procedimento consiste simplesmente em obter o antilogaritmo do prprio coefi-ciente. Por exemplo, se o coeficiente b1 for 0,3, a razo de chance ser impactadaem e03 = ,35. Isso significa que para cada unidade de variao que se registre navarivel independente, as chances de que o evento ocorra sero aumentadas 35em relao posio anterior, supondo-se que as demais variveis se mantenhamconstantes, claro. de se admitir, portanto, que sob o ponto de vista pragmnco prefervel afirmar que as chances de um evento se concretizar evoluram em35% a dizer que o logit sofreu um aumento de 0,3, a menos que o indivduo sesinta muito confortvel com a terminologia matemtica.Do exposto, observa-se que o efeito dos coeficientes sobre a razo de chancr sempre de natureza multiplicativa, e no aditiva, como ocorre no modelo lineat.Por essa razo, quando se obtm um coeficiente igual a Oo efeito sobre a variveldependente tambm nulo. De fato, no poderia ser diferente, j que o antilogaritmo desse coeficiente 1 (e0 ) . Nesse caso, claro que no se verifica nenhumefeito sobre a probabilidade. Alm disso, importante observar que como a constante matemtica e elevada a qualquer nmero positivo produz um resultado superior a um, fica claro por que qualquer coeficiente positivo contribui para elevara razo de chance e, conseqentemente, a probabilidade. Logicamente, o inverso

    tambm verdadeiro, ou seja, como e elevado a qualquer nmero negativo resulta em nmero inferior a 1, coeficientes negativos contribuem para reduzir arazo de chance e, novamente, a probabilidade. Vale observar que quando o coeficiente negativo, obtm-se um resultado inferior a um, porm sempre superiora O, j que a base da potncia positiva. exatamente por isso que se recorreu transformao logartmica. Com isso, preserva-se o limite mnimo do espao dasprobabilidades (zero). verdade que a interpretao dos coeficientes em termos do efeito que elesexercem sobre a chance de um evento ocorrer j tem algum significado intuitivo.

  • 7/22/2019 Anlise Logistica

    10/40

    Regresso Logsttca 289

    Entrelanto, como estamos mais habituados a raciocinar pensando em probabilidades, seria interessante considerarmos ainda essa terceira alternativa de interpreta~ o . Para determinar o impacto que um parmetro estimado pode exercer sobre arobabilidade de um determinado evento, antes de tudo preciso identificar emque nvel ela j se encontra. Consideremos, por exemplo, que a probabilidade deam cliente alugar um apartamento de trs quartos em determinado bairro variaem funo da renda familiar (X1) e do nmero de filhos (X2) , conforme segue:

    1 ( P(sucesso) ) _ 0 25 0 4- , x 1 + , x 21 - P(sucesso)Partindo do pressuposto de que a probabilidade de um indivduo alugar um

    nvel desse tipo j era de 30% e que no ltimo ms o casal ganhou mais um fi-o, para quanto cla evoluiu se considerarmos que no houve nenhuma alterao83 renda familiar? Em primeiro lugar, precisamos verificar qual era a chance dealugar o imvel nas circunstncias anteriores . Pelo prprio conceito de chance,-se que ela era de aproximadamente 0,43, ou seja, 0,3/ 0,7 (probabilidade desobre a de no alugar). O segundo passo consiste em verificar em quantoas chances por unidade de variao ocorrida na varivel Xz (nmero de. Pelo que vimos h pouco, essa variao de e0'4 = ,49. Isso significa querazo de chance ser aumentada por um fator de 1,49. Com isso, ela passa de

    para 0,64. Ora, se a chance representada pela razo entre a probabilidadesucesso e a de insucesso [p/ (1- p)], conclui-se que a probabilidade evolui parade 39% pelo fato de o casal ter ganho mais um filho.

    E se a probabilidade inicial de se alugar o imvel fosse de 80%, em vez deBem, o raciocnio rigorosamente o mesmo! Como se pode perceber, nessea chance inicial seria de 4 (0,8/02). Aplicando-se o fator 1,49, que obviamen-permanece o mesmo, a chance evolui para 5,96. Se a nova chance de 5,96,-.u::-' '" concluir que a probabilidade de se alugar o imvel em tais circunstncias

    a ser de 85,6%. muito importante observar que agora a mesma variaoem X2 produziu um efeito um pouco menor sobre a probabilidade. Note-que na hiptese anterior ela evolui de 30 para 39%, ao passo que nesta ltimade 80 para 85,5%. Portanto, verifica-se um efeito marginal decrescente.exemplo contribui para reforar o entendimento acerca da relao que sebelece entre variveis dependente e independentes no modelo logstico, denstrando que a variao de probabilidade no linear. Esse aspecto ser abor

    tklo em maiores detalhes na seo seguinte, quando examinaremos a Curva da~ e s s o Logstica.

  • 7/22/2019 Anlise Logistica

    11/40

    290 Anlise Multivariada Corra r, Paulo e D1as Filho

    5.5 A Curva da Regresso LogsticaPraticamente tudo o que foi dito sobre o modelo logstico at aqui podevisualizado na chamada Curva da Regresso Logstica. Como se pode nr> l r r , .

    ela descreve a relao existente entre a probabilidade associada ocorrnciadeterminado evento e um conjunto de variveis preditoras. A ttulo de e x 1 ~ m 1 1diramos que ela poderia estar evidenciando o efeito de determinado essobre a probabilidade de um empregado atingir metas, o efeito de certas dsobre a probabilidade de morte prematura, o efeito de pequenos desviosa probabilidade de algum cometer uma fraude mais grave e assim porPortanto, a referida curva expressa a natureza da relao que se estabelecevariveis desse tipo.

    P(y)1,0

    oL - - - - - ---------- -+xFigura 5.1 Curva logstica.

    Sob o ponto de vista conceituai, perfeitamente admissvel que a curva descrita pelo modelo logstico se assemelhe mais a um S do que a uma reta. Como aestimao de probabilidades pressupe um limite mnimo e mximo (O e 1), realmente de se esperar que as mudanas ocorridas na varivel estatstica produzamefeitos cada vez menores sobre a varivel dependente medida que ela assumavalores mais prximos dos extremos. Isso significa que quanto mais a probabilidade se aproxima de Oou de 1, tornam-se necessrias mudanas cada vez maisexpressivas na funo logstica para se obter o mesmo efeito que seria obtido nomeio da curva. Em outras palavras, para que a probabilidade se desloque de 97para 98%, por exemplo, o incremento que deve ocorrer nas variveis independen-

  • 7/22/2019 Anlise Logistica

    12/40

    Hegresso Logstica 291

    es muito maior do que o que se faz necessrio para alcanar uma evoluo de47% para 48%. Da essa inclinao bem mais suave nas extremidades.Na prtica, pode-se observar esse tipo de relao em diversas situaes. Consi

    ~ e r e , por exemplo, que possvel estimar a probabilidade de vendas de automveiswos em determinada populao usando a renda como varivel preditora. Parndo dessa premissa, razovel admitir que uma variao de R$ 40.000,00 paraS 60.000,00 na renda anual de cada indivduo produzir um efeito muito maiorsobre a probabilidade do que uma evoluo R$ 90.000,00 para R$ 110.000,00.so porque pessoas que j possuem renda mais elevada tm maior probabilidadee adquirir certos bens de consumo durvel, como automveis. Ou seja, ao atingiris patamares e permanecendo nessa condio, a taxa de crescimentoda probailidade de algum adquirir outro veculo da mesma categoria tende a diminuir::or unidade de renda.

    Assim como um incremento de R$ 20.000,00 para indivduos mais aquinhoaos certamente exerceria pouco efeito sobre a probabilidade de se adquirir autoovei novo em determinado perodo, o raciocnio inverso tambm verdadeiro.seja, um aumento de R$ 20.000,00 na renda de quem ainda no conseguiumnimo necessrio ao seu bem-estar, certamente no exercer grande impactobre a probabilidade de vir a adquirir bens dessa natureza. Portanto, uma mes-J mudana na varivel preditora pode gerar impactos diferentes sobre a proba

    idade. Para quem j tem uma boa chance de comprar um automvel novo, o:.1mento de R$ 20.000,00 na renda anual tende a aument-la substancialmente.rm, para os que se encontram em nveis de renda mais elevados ou extremaente reduzidos, o efeito tende a ser bem menor. O resultado, portanto, uma.:or\'a em formato de S, muito utilizada cm estudos econmicos e em medicinara modelar certas relaes.

    5.6 Suposies do Modelo LogsticoUm dos motivos pelos quais a Regresso Logstica tem sido muito utilizada

    a realizar predies quanto varivel dependente dicotmica o pequenomero de suposies. Com essa tcnica, o pesquisador consegue contornar certasrries encontradas em outros modelos multivariados, entre as quais se desam a homogeneidade de varincia e a normalidade na distribuio dos erros.~ - ; m o assim, necessrio observar os seguintes requisitos:

    incluir todas as variveis preditoras no modelo para que ele obtenhamaior estabilidade; o valor esperado do erro deve ser zero; inexistncia de autocorrelao entre os erros;

  • 7/22/2019 Anlise Logistica

    13/40

    292 Anlise Multivariada Corrar, Paulo e Dias Filho

    inexistncia de correlao entre os erros e as variveis independen ausncia de multicolinearidade perfeita entre as variveis

    tes.Como se pode observar, se comparado aos demais modelos de res!ressjio_,

    logstico realmente possui poucas restries. Felizmente, pois do contrriomais difcil operar com variveis categricas. Nesse particular, um dos promais srios seria a violao de aiguns preceitos bsicos, tais como o cartenormalidade na distribuio das variveis independentes. Entretanto, umem relao ao qual a literatura ainda no apresenta consenso a quantidadeobservaes necessrias realizao de inferncias de boa qualidade. Dada abustez do modelo, alguns autores consideram que na maioria dos casos esseto no chega a preocupar. Na dvida, entende-se que uma regra razovel um nmero de observaes equivalente a pelo menos trinta vezes ade parmetros que se deseja estimar. Em geral, h um certo consenso node que o modelo logstico requer amostras mais amplas do que os linearesalguns experimentos, temos observado que realmente as predies tendem atanto mais acuradas quanto mais ampla for a amostra. Assim, ao menos portes de cautela, julgamos conveniente considerar esse limite, ou seja, umade pelo menos 30 observaes para cada parmetro estimado.

    S. 7 Vantagens operacionais do modelo logsticoNo restam dvidas de que uma das principais vantagens associadas ao

    da Regresso Logstica est na relativa facilidade com que ela podepredizer a ocorrncia de determinados fenmenos em diversas reas domento, tais como economia, administrao, contabilidade, sociologia e luc:UI"-Genericamente, pode-se afirmar que o modelo logstico se presta consde dois grandes objetivos: identificar a que grupo certos objetos, pessoas onmenos pertencem e estimar a probabilidade de que eles possam se enqnesta ou naquela categoria. Mas, sob o ponto de vista operacional, o queficaria a popularidade que essa tcnica vem alcanando em to curtotempo? Afinal de contas, ela foi desenvolvida h apenas quatro dcadas eento vem ganhando espao em praticamente todas as reas, principalmentede biologia e economia.

    Para explicar o xito e a grande popularidade que essa tcnica tem an. .cu 'o . -a literatura especializada no assunto costuma mencionar os seguintes fatores:

    comparada a outras tcnicas de dependncia, a Regresso Logsticalhe com mais facilidade variveis categricas. Alis, esta uma daspelas quais ela se torna uma boa alternativa anlise discriminante.

  • 7/22/2019 Anlise Logistica

    14/40

    Regresso Logstica 293

    bretudo quando o pesquisador se defronta com problemas relacionados homogeneidade da varincia;

    mostra-se mais adequada soluo de problemas que envolvem estimao de probabilidades, pois trabalha com uma escala de resultados quevai de Oa 1;

    requer um menor nmero de suposies iniciais, se comparada com outras tcnicas utilizadas para discriminar grupos; admite variveis independentes mtricas e no mtricas, simultaneamente; facilita a construo de modelos destinados previso de riscos em diversas reas do conhecimento. Os chamados Credit Scoring e tantos outros que so utilizados no contexto da anlise de sobrevivncia ilustram

    essa realidade; tendo em vista que o referido modelo mais flexvel quanto s suposiesiniciais, tende a ser mais til e a apresentar resultados mais confiveis; os resultados da anlise podem ser interpretados com relativa facilidade,

    j que a lgica do modelo se assemelha em muito de outras tcnicasbem conhecidas, como a regresso linear; apresenta facilidade computacional, tendo sido includa em vrios pacotes estatsticos amplamente difundidos em todo o mundo.

    No mbito das organizaes, em particular o fato de a Regresso Logstica-se notabilizado como uma tcnica muito apropriada para gerenciar riscos deedito, explicar certas tendncias, prever riscos de falncia e outros semelhan. tem sido atribudo principalmente aos seguintes fatores: fcil compreenso:. resultados da anlise de dados, pequeno grau de complexidade operacional_usncia de restries mais rgidas, ao contrrio do que se verifica em relao"...nlise Discriminante, que pressupe distribuio normal para as variveis in-pendentes. Estas e outras vantagens podero ser percebidas pelo leitor quando:Jvermos aplicando a tcnica a um caso prtico, ainda neste captulo

    .5.8 Medidas de avaliao do modelo logsticoPode-se questionar se as classificaes e predies baseadas na equao lo

    ..:>tica so melhores do que as que poderiam ser realizadas tomando-se como'erncia o grupo em que se enquadra a maioria dos componentes da amostra.

    ~ n a l de contas, se o modelo no proporcionar informaes mais acuradas do quedisponveis no poder contribuir para melhorar a compreenso da realidadepor conseguinte, a qualidade das decises. Em relao ao modelo linear, isso

  • 7/22/2019 Anlise Logistica

    15/40

    294 Anlise Multivariada Corrar, Paulo e Dias Filho

    equivale a perguntar se as predies orientadas pela equao da reta realmenteso melhores do que as baseadas no valor mdio da varivel dependente. Parasanar tais dvidas, diversos testes estatsticos podem ser utilizados, inclusive paracomparar a performance de modelos alternativos. Sabe-se que na regresso linearpoderamos lanar mo de diversas medidas, tais como a distribuio F, que testaa significncia global de um modelo, a distribuio t, que testa a significncia deum coeficiente estimado, o R-Quadrado, e assim por diante. No contexto daRegresso Logstica, ser que podemos nos valer desses mesmos mecanismos?

    Adiantamos que no possvel utilizar as mesmas estratgias de avaliaopara o modelo logstico, uma vez que os seus parmetros so estimados comapoio do mtodo da mxima verossimilhana e no com o dos mnimos quadrados.Com a mxima verossimilhana buscam-se coeficientes que nos permitam estimara maior probabilidade possvel de um evento acontecer ou de certase fazer presente.

    5.8.1 O Likelihood ValueUma das principais medidas de avaliao geral da Regresso Logstica

    Log Likelihood Value. Trata-se de um indicador que busca aferir a capacidadeo modelo estimar a probabilidade associada ocorrncia de determinado evento.Como veremos, seu papel um pouco parecido com o da estatstica F, u ............_na avaliao do modelo linear. De forma geral, o Likelihood Value tem sidosentado pela expresso- 2LL, que nada mais do que o logaritmo natural dokelihood Value multiplicado por -2, seguindo-se uma distribuioOra, se a probabilidade mxima de um evento ocorrer representada no .... u ...-logstico pelo nmero 1, pode-se deduzir que o nvel ideal para o Likelihood zero. Em outras palavras, quanto mais prximo de zero, maior o poder preddo modelo como um todo.

    Apesar da facilidade com que se pode interpretar o -211, devemosque ele no tem um significado intrnseco, isto , considerado de forma ............,_oferece pouca informao sobre o grau de adequao do modelo. Paraesse problema, costuma-se estabelecer uma base de comparao e verificaresse indicador aumenta ou diminui. Com apoio de ferramentas computaciobtm-se o Likelihood Value, incluindo-se apenas a constante no modelo, oupartindo-se do pressuposto de que todos os coeficientes das variveis intes so iguais a zero. Em seguida, calcula-se o Likelihood Value com a inclusotodas as variveis independentes no modelo. Quanto mais elevada for aentre os dois valores, maior o potencial dos coeficientes para estimar probades associadas ocorrncia de determinado evento ou manifestao decaractersticas. Essa diferena serve para testar a hiptese de que todos oscientes da equao logstica so iguais a zero, tal como se verifica na d

  • 7/22/2019 Anlise Logistica

    16/40

    Regrt>ssao Logstica 295

    F. O Likelihood Value serve tambm para verificar se o modelo melhora com a incluso ou excluso de alguma varivel independente, particularmente quando seopta pelo mtodo stepwise. Lembramos que esse mtodo (stepwise) um processoterativo que tem por finalidade identificar as variveis que apresentam maior poder preditivo. Em sntese, pode-se afirmar que o principal objetivo do Likelihoodalue (-211) verificar se a regresso como um todo estatisticamente significante e facilitar comparaes entre modelos alternativos.

    5.8.2 O R-Quadrado do modelo logsticoA esta altura, provvel que voc esteja esperando uma medida equivalenteao famoso Coeficiente de Determinao da Regresso Linear, cujo objetivo iden

    tificar a proporo da variao total ocorrida na varivel dependente em funodas independentes. Embora no se disponha de uma medida rigorosamente idntica ao R2 no modelo logstico, existem alguns indicadores que cumprem um papel semelhante ao que ele desempenha. So os chamados Pseudos- R-Quadrado.Cm deles o McFadden's-R2 ou o R2logit, como mais conhecido. Este coeficienteexpressa a variao percentual entre o Likelihood Value do modelo, que consideraapenas a constante, e o Likelihood Value, que incorpora as variveis explicativas,conforme segue: R2logit= [-2LLnulo- (-2LLmodelo)]/-2LLnulo.

    Como se observa, o numerador evidencia a melhoria que se espera ocorrer noikelihood Value como efeito da incluso das variveis independentes no modelo. O denominador, pelo contrrio, tende a apresentar um Likelihood Value maiselevado, j que ele reflete apenas a constante. Assim, se todos os coeficientes das

    ~ r i v e i s includas no modelo forem O, o R2logit tambm ser O. Seu valor mximo se aproxima de 1. Contudo, bom lembrar que esse R-Quadrado tem umsignificado um pouco diferente daquele que se atribui ao coeficiente de determinao do modelo linear. Na verdade, ele apenas nos permite avaliar se o modelomelhora ou no a qualidade das predies, quando comparado a um outro quegnore as variveis independentes. No pode, por exemplo, ser interpretado comotaXa de variao na probabilidade de ocorrer o evento por unidade de variaoda varivel independente.

    Outra espcie de pseudo- R2 que se assemelha ao coeficiente de determinao utilizado no modelo linear o teste Cox-Snell R2 . Como o anterior, este tambm no serve propriamente para indicar a proporo da variao experimentadapela varivel dependente em funo de variaes ocorridas nas independentes,uma vez que funes de probabilidade no lidam com variaes desse tipo. Alis,e exatamente por isso que tais medidas so geralmente denominadas pseudosR-Quadrado. Entretanto, trata-se de um mecanismo que pode ser utilizado paracomparar o desempenho de modelos concorrentes. A princpio, entre duas equaes logsticas igualmente vlidas, deve-se preferir a que apresente o Cox-Snell R2

  • 7/22/2019 Anlise Logistica

    17/40

    296 Anlise Multivariada Corrar, Paulo e Dias Filho

    mais elevado. Esse indicador baseia-se no Likelihood Value e situa-se numaque comea em O, mas no chega a 1 em seu limite superior. Por isso, Nu""'-'"''.(1991) props um ajuste nesse ndice para que ele pudesse chegar aolimite mximo. Da a existncia do chamado teste Nagelkerke R2 . Situadoescala que vai de zero a um, sua finalidade a mesma do Cox-Snell R2 . Naa nica diferena est em se fazer mais compreensvel que o Cox-Snell.Vale salientar que no existe consenso quanto superioridade deste ouquele ndice enquanto medida de adequao do modelo logstico. Como noconflitantes entre si, recomenda-se utiliz-los em conjunto, com a devidacia. A literatura especializada no assunto sugere que os pesquisadorespseudos R-Quadrado apenas como uma medida aproximada do poder H ! d i 1 t l V < ) ~cada modelo. Entende-se que no se deve atribuir uma importncia muitoa cada um deles isoladamente. De qualquer forma, a opinio geral a deindicadores que vo de Oa 1 podem ser muito teis no processo de avaliao

    modelos, principalmente se considerados de forma conjugada .n.""'"''v"'"" .." '-h de se considerar que tais medidas incorporam a vantagem de sea alguns mecanismos de avaliao utilizados nos modelos lineares, o quea sua interpretao.

    5.8.3 O Teste Hosmer e LemeshowOutro mecanismo que pode facilitar o julgamento do grau de acurcia

    modelo logstico o Teste Hosmer e Lemeshow. De enorme simplicidadetual, esse indicador nada mais do que um teste Qui-quadrado que consistedividir o nmero de observaes em cerca de dez classes e, em seguida, -----.--.as freqncias preditas com as observadas. Como se pode deduzir, a .... ..._desse teste verificar se existem diferenas significativas entre as ....u,..,.., ........realizadas pelo modelo e a realidade observada. A certo nvel de S;>;uuLcu"'busca-se aceitar a hiptese de que no existem diferenas entre os valorestos e observados. A lgica a seguinte: se houver diferenas significativasas classificaes preditas pelo modelo e as observadas, ento ele no reprerealidade de forma satisfatria. Ou seja, em tais circunstncias o modelo nocapaz de produzir estimativas e classificaes muito confiveis.

    5.8.4 O Teste WaldAlm dos testes que se propem a avaliar o modelo logstico como umtemos ainda a estatstica Wald. Sua finalidade aferir o grau de significnciacada coeficiente da equao logstica, inclusive a constante. Mais precisamente,ramos que esse mecanismo tem por objetivo verificar se cada parmetro

    significativamente diferente de O. Como se observa, seu papel semelhante

  • 7/22/2019 Anlise Logistica

    18/40

    Regresso Logstica 297

    .este T, utilizado na avaliao dos modelos lineares. Isto , testa a hiptese de um determinado coeficiente nulo. A estatstica Wald segue uma distribuio-quadrado e quando a varivel dependente tem um nico grau de liberdade-e ser calculada elevando-se ao quadrado a razo entre o coeficiente que estdo testado e o respectivo erro-padro, conforme segue:

    Wald = (b/S. E) 2e:b = coeficiente de uma varivel independente includa no modeloS. E.= erro-padro (standard errar).H uma particularidade que deve ser considerada no uso da estatstica Wald.

    111do o valor absoluto dos coeficientes muito expressivo, o erro-padro a eledado pode ficar um pouco distorcido. Conseqentemente, o teste da hipteseue o coeficiente no significativamente diferente de O ficaria prejudicado. contornar essa dificuldade, recomenda-se calcular o Likelihood Value com aavel a que se refere o coeficiente sob anlise e, depois, renovar esse mesmo::-edimento sem essa varivel. Comparando-se os dois valores, ou seja, o Like---.d Value com e sem a varivel, pode-se verificar se o coeficiente em apreoce impactos significativos sobre as probabilidades. Isso vem reforar a idiaue sempre recomendvel avaliar o modelo logstico com o apoio de vrioscadores.'Jota-se, portanto, que a maioria dos indicadores utilizados para avaliar o. mpenho do modelo logstico pode ser interpretada com relativa facilidade.- decorre do fato de que existe uma certa semelhana entre eles e os mecanis' de avaliao do modelo linear. Naturalmente, essa facilidade ser tanto mais

    cebida quando maior for o grau de familiaridade do leitor com as nuanas:-egresso linear. Por isso, em caso de dvidas mais profundas recomendamos_ar a esse assunto, principalmente se persistirem aps a apresentao do casouco. Com a resoluo de exerccios, ainda teremos oportunidade de explorar_ tos conceitos e ampliar a viso sobre o significado de cada um dos indicadoapresentados.

    o Exemplo prticoDo exposto, parece-nos claro que a Regresso Logstica realmente uma tc

    ., muito apropriada a situaes em que se deseja predizer ou explicar valoresJma varivel binria em funo de valores conhecidos de outras variveis,

    ::: como afirmamos, podem ser categricas ou no. Mostra-se muito til na sode problemas que implicam a escolha de uma entre duas alternativas e na

  • 7/22/2019 Anlise Logistica

    19/40

    298 Anlise Mult ivariada Corrar, Paulo c Dias Fi lho

    estimao de probabilidades associadas ocorrncia de determinado evento.rea econmica, tem larga aplicao em Credit Scoring, na previso defalncia, em controle de custos, em marketing etc. Vimos tambm que,razes que explicam o sucesso dessa tcnica em diversas reas dodestacam-se: a capacidade de operar com variveis categricas e mtricastaneamente, a facilidade com que se podem interpretar os resultados dae o pequeno nmero de suposies iniciais, especialmente quando l"f"Ymr\r,....outras ferramentas estatsticas como a anlise discriminante, por exemplo.

    Agora, desejamos lanar mo de um exemplo prtico para consolidaros conceitos apresentados nas sees anteriores. O objetivo oferecer aourna oportunidade de sedimentar os conhecimentos hauridos em torno dagresso Logstica e descobrir conosco oportunidades de aplicao dessaem seu campo de ao. Para tanto, valemo-nos do pacote estatstico dSPSS, seguindo a mesma sistemtica adorada em captulos anteriores. Ade ento, daremos prioridade aos aspectos operacionais e interpretaosultados da anlise.

    5. 9.1 Descrio do casoSuponha que uma concessionria esteja interessada em aprimorar suade vendas para minimizar perdas com clientes. Uma das medidas que se ....... .. .

    em cogitao exigir garantias adicionais de indivduos que no possuemfixa, especialmente quando responsveis pelas despesas da famlia. Por " " ' ' " " ~que as exigncias devem variar em funo do risco de inadimplncia a.,.,IJ,\..lCll\1cada operao, o controller solicitou um estudo baseado no histrico dos12 meses. Para tanto, tomou-se uma amostra aleatria de 92 clientes, emaos quais foram consideradas as seguintes variveis: renda mensal,dependentes e, finalmente, se o elemento possui ou no algum vnculogatcio. De acordo com o comportamento apresentado no perodo, cada umclassificado como adimplente ou inadimplente.

    Com esse estudo, o que se pretende mesmo verificar o risco de umcliente assumir a condio de inadimplente, dadas certas caractersticas a elesaciadas. A depender do grupo em que ele se classifique, a administraodefinir de forma mais racional as condies sob as quais a venda de umpoder se concretizar. Aps o levantamento, os dados foram resumidos ccados do seguinte modo:

  • 7/22/2019 Anlise Logistica

    20/40

    Regresso Logstica 299

    ST R ND VE ST R ND VE ST R ND VE- o 2,5 3 1 1 1,6 3 1 o 3,2 3 o1 1,7 3 1 1 2,0 1 1 1 1,2 2 1o 4 2 1 1 2,5 3 1 o 3,5 3 o1 2,3 2 1 o 3,8 1 o o 4,0 1 o1 3,7 4 o o 4,3 2 o 1 2,3 3 1o 4,8 1 o 1 2,0 2 1 o 2,9 4 o1 1,9 3 o o 5,2 2 o 1 2,4 2 1o 5,3 2 1 1 2,4 3 o o 5,0 3 o1 3,1 4 1 o 2,6 4 o 1 2,2 3 o1 1,9 3 1 o 1,3 2 1 1 1,3 3 11 2,3 4 1 o 3,8 1 1 1 1,7 3 1o 3,6 1 o o 4,5 o 1 o 3,0 2 oo 4,7 2 1 o 3,0 o 1 o 3,0 2 1o 5,8 2 o 1 2,1 2 1 o 3,5 2 1o 6 4 o 1 1,9 2 1 o 5,8 2 1o 3,9 3 1 o 1 7 4 o o 4,8 1 o. 2,4 4 1 1 1 7 2 1 1 2,3 3 11 1,7 4 1 1 1,3 3 1 1 2,6 2 1o 3,7 2 o o 2,5 1 1 1 1,8 2 1o 4,8 1 o o 3,5 2 o 1 2,9 2 1o 3,2 2 1 o 5,6 3 o o 3,2 1 o1 2,7 3 1 o 3,8 2 o o 4,2 1 o1 1,2 3 1 o 4,0 o o o 2,6 1 oo 8,2 5 o 1 2,5 1 1 o 6,0 1 o1 1,8 1 1 1 1,2 2 o 1 4,5 3 11 2,5 1 1 o 3,0 1 o 1 1,3 2 11 2,2 3 1 o 3,0 1 o 1 2,4 2 1o 4,0 1 o 1 2,1 2 1 o 4,3 2 oo 4,2 1 o o 2,5 1 o 1 1,8 o 1o 3,7 1 o o 2,9 1 o o 2,4 2 o1 2,4 2 1 o 4,0 3 o

    Codificao das variveis:- STATUS)- se inadimplente, rotula-se com o nmero 1; adimplente, com zero;

    -renda mensal (mdia dos ltimos 12 meses, em milhares de reais);:::J - nmero de dependentes;: : - atividade profissional com vnculo empregatcio (1 ); sem vnculo (O)

  • 7/22/2019 Anlise Logistica

    21/40

    300 Anlise Multivariada Corrar, Paulo e Dias Filho

    Recapitulando, diramos que o objetivo final estimar a probabilidadecliente assumir o status de inadimplente, em funo das variveis Renda,rode Dependentes e Tipo de Atividade Profissional (existncia ou vnculo empregatcio). Fica claro, assim, que a varivel dependente oo cliente poder assumir em certas circunstncias (adimplncia ou inadimpComo se observa, trata-se de um problema que realmente pode ser resolvidoo apoio da Regresso Logstica, pois a varivel dependente de natureza d.mica, isto , s admite um entre dois resultados. Alm disso, tal resultadoapresentar de forma que possa ser interpretado em termos de probabilidade.

    5.9.2 Procedimentos para executar a regresso utilizando o S P S S ~Seguindo a sistemtica adorada em captulos anteriores, o problema ser

    vido com o apoio do software SPSS. Embora se trate de um pacote autivo e de fcil manipulao, apresentaremos alguns passos de carter orumo obteno dos outputs. Salientamos que isso ser feito de formapara no sacrificar o foco da abordagem, que a interpretao dos resAssim, j passaremos a um dos primeiros procedimentos, que transpor oscoletados para as colunas relativas a cada varivel, conforme segue:

    Figura 5.2 Caixa de dilogo Imposio das Variveis.

  • 7/22/2019 Anlise Logistica

    22/40

    Regresso Logstica 301

    Como se pode notar, a planilha recepciona facilmente os dados amostrais. Nacoluna, tem-se o nmero de identificao de cada observao. Nas sub

    relacionam-se todos os dados referentes a cada indivduo: o status queassumiu no perodo observado (st); a sua renda mensal mdia (r); o nmero de.-.. ...uL'-" (nd); e existncia ou no de vnculo empregatcio (ve). Lembramos

    uma vez que a existncia de vnculo empregatcio referenciada com o nme-1 e a inexistncia com o O. Selecionando-se a opo Binary Logistic Regression,menu analyze, o prximo passo consiste em separar a varivel dependente das. . penaentes (covariates), como evidencia a seguinte caixa de dilogo:

    5.3 Caixa de dilogo Seleo da Varivel Dependente.

    Selecionada a varivel dependente, transferem-se as demais para o campocovariates. Neste exemplo, optamos por incluir todas as variveis preditoras

    te. Por isso, selecionamos o mtodo enter. Esclarecemos que, emdisso, poderamos selecion-las de forma gradual. Nesse caso, seria necessrio

    o mtodo stepwise. Como se sabe, trata-se de um procedimento em que asindependentes so escolhidas de forma seqencial de acordo com seuexplicativo ou preditivo.

    Como temos uma varivel de natureza categrica no conjunto das indepen necessrio distingui-la das demais. Para tanto, basta acionar o comando

    rat,eS!:

  • 7/22/2019 Anlise Logistica

    23/40

    302 An;lise Multivariada Corra r, Paulo e Dias Filho

    Figura 5.4 Caixa de dilogo Seleo da Varivel Categrica.

    Clicando em continue, voc poder salvar as estatsticas que lheEm seguida, dever clicar sobre a guia options e selecionar os recursos maisquados ao tipo de anlise que pretende realizar. Geralmente, selecionam-semenos o classification plots, o Hosmer-Lemeshow goodness-of-fit e o CI forComo tivemos oportunidade de explicar, o Hosmer-Lemeshow um teste muitopara verificar at que ponto existe correspondncia entre a classificaopelo modelo e a realidade observada. Seu objetivo, portanto, verificar sediferenas significativas entre os valores preditos e os observados. CI fornada mais do que o intervalo de confiana de cada coeficiente estimado.indicador especialmente til nas situaes em que se utiliza a equaopara estimar probabilidades associadas ocorrncia de determinado evento.

    Na mesma caixa de dilogo, temos outros recursos de grande significadoa realizao da anlise. Um deles o classification cgtoff, que, como onome sugere, nos permite selecionar um ponto de corte para a classificaoindivduos neste ou naquele grupo. Como se pode observar, aqui estamoslhando com 0,5, mas a depender das circunstncias o pesquisador poderoutro ponto de corte. Finalmente, temos os critrios para incluso oude variveis no modelo e o nmero de iteraes que dever ser realizadasoftware, caso se deseje trabalhar com o mtodo stepwise. Como se pode notar,planilha auto-explicativa.

  • 7/22/2019 Anlise Logistica

    24/40

    Regresso Logstica 303

    5.5 Caixa de dilogo Opes.

    A partir de ento, acionando-se o comando continue e logo em seguida "OK",-se diversos relatrios evidenciando os resultados da Regresso. Talvez seja1eS11ec:es:sar salientar que "rodar" a Regresso um ato to simples que est aode qualquer indivduo medianamente instrudo. Entretanto, interpretarrelatrios e extrair deles as informaes necessrias ao processo decisrio, isto uma tarefa que demanda conhecimentos mais avanados.

    Com o apoio dos conceitos expostos na primeira parte deste captulo, espeque o leitor consiga lidar com tais relatrios de forma confortvel e, finalencontrar neles instrumentos que contribuam para melhorar a qualidadesuas decises. Lembramos que, no presente caso, nosso interesse concebermodelo que nos permita prever o nvel de risco a que se expe a concessionem uma deciso de venda, dadas certas caractersticas do cliente. Baseando-sedados histricos, a anlise nos permitir tambm compreender por que esteaquele cliente assumiu a condio de inadimplente.

    9.3 Interpretando os outputs da RegressoCase Processing Summary

    Unweighted CasesaSelected Cases lncluded in Analysis

    Missing CasesUnselected CasesTotal

    Total

    N92o92o92

    Percent100,0

    0,0100,0

    0,0100,0

    a. l f weight is in effect, see classification table for the total number of cases .

  • 7/22/2019 Anlise Logistica

    25/40

    304 Anlise Multivariada Corrar, Paulo c Dias Filho

    O primeiro relatrio fornecido pelo SPSS uma espcie de quadrotivo de casos includos na anlise. Como a nossa amostra composta de 92vaes, conclui-se que todas foram aproveitadas. Alis, o prprio quadroesse aspecto ao indicar que nenhum caso deixou de ser selecionado. o queteceria, por exemplo, com algum cliente em relao ao qual no d i s p u s e ~ s s ~ ~ D I Ide dados para todas as variveis independentes. Supondo-se 95 casos, massem dados relativos a alguma varivel independente (renda mensal, nmerodependentes ou vnculo empregatcio), apenas 93 participariam da anlise. Omonstrativo acusaria a existncia de dois missing cases. A propsito, cabeque, sob esse aspecto, a tcnica denominada Redes Neurais leva certa vasobre a Regresso Logstica, j que aproveitaria todas as observaes, mesmono se dispusesse de dados para algumas variveis preditoras.Codificao da varivel dependente

    Dependent Variable EncodingOriginal Value Internal Value

    ADIMPLENTE oINADIMPLENTE 1

    O quadro acima apresenta o cdigo que o software atribuiu variveldente. No presente caso, observa-se que foi mantida a codificao inicial, ou1 para representar o estado de inadimplncia e O para o de adimplncia.os resultados da anlise devem permitir interpretao em termos dede, no houve necessidade de alterar a codificao original. Ela j seadequada consecuo desse objetivo, pois as probabilidades esto contidasintervalo de O a 1. Se tivssemos atribudo uma codificao diferente, para eoperacionais, ela teria sido modificada pelo SPSS:iY. No prximo quadro,uma codificao paramtrica atribuda varivel categrica. Isso somentefins operacionais. Portanto, no precisamos nos preocupar com esse detalhe.

    Possui Vnculo Em-pregatcio ou no

    Categorical Variables Codings

    No Possui Vnculo EmpregatcioPossui Vnculo Empregatcio

    Frequency4250

    Parameter(1)

    1,0000,000

  • 7/22/2019 Anlise Logistica

    26/40

    Regresso Logstica 305

    de classificao anterior anliseClassification Tablea,b

    Predicted

    Percentagebserved Situao do ClienteADIMPLENTE INADIM- CorrectPLENTE

    Situao do ADIMPLENTE 51 o 100,0Cliente INADIMPLENTE 41 o 0,0

    55,4is included in the model.

    Antes de apresentar os resultados da anlise propriamente dita, o SPSS noscomo seriam classificados os indivduos caso o modelo se deixasse guiar

    pela situao em que se enquadra a maioria dos casos observados. Assimcomo a amostra composta de 51 adimplentes e 41 inadimplentes, todos

    seriam classificados a priori como adimplentes. Isso significa que oclassificaria corretamente aqueles que de fato honraram com suas obriga-mas incorretamente os que assumiram a condio de inadimplentes. Nesse

    o percentual geral de acerto nas classificaes seria de apenas 55,4%. Essede classificao anterior anlise atua, portanto, como uma referncia

    avaliar a eficcia do modelo quando ele passa a operar com as variveis inpara predizer a que grupo pertence certo indivduo.

    Em seguida, o software fornece a estatstica Wald, que, nesse primeiro moest avaliando apenas a significncia da constante includa no modelo.

    que este mesmo recurso ser utilizado mais tarde para avaliar tama significncia dos coeficientes de cada varivel independente. Sua finalida

    verificar se cada um deles significativamente diferente de zero, conformeanteriormente.

    Variables in the equationB S.E. Wald df Sig. Exp(B)

    Step OConstant -0,218 0,210 1,083 0,298 0,804

  • 7/22/2019 Anlise Logistica

    27/40

    306 Anlise .'>1ultivanada Corrar, Paulo c Dias Filho

    Do exposto conclui-se que realmente no seria conveniente formular . - ~ . , ....em funo desse critrio de classificao. Fica cada vez mais claro que o seuobjetivo, de fato, fornecer uma base de comparao que nos permitase as variveis independentes vm melhorar a qualidade das predies. tante considerar que sem inclu-las no modelo j se alcana um nvel de acc55,4% na classificao dos casos. Com elas, espera-se um percentual maisdo. A relao dessas variveis com os respectivos scores apresentada peloao final do chamado Step O, tal como se observa a seguir:

    Step VariablesoOverall statistics

    Variables not in the equation

    RND

    VE(1)

    Seore39,1127,768

    33,36854,573

    Testando a capacidade preditiva do modelo

    df

    3

    Sig.0,0000,0050,0000,000

    No se pode perder de vista que o objetivo final de nossa anlise se realmente as variveis renda, nmero de dependentes e vnculopodem explicar o fato de determinado cliente assumir a condio de inadte. Caso se observe uma relao significativa entre o fenmeno inadimplnciavariveis supracitadas, pode-se aproveit-las na construo de um modelopara identificar a probabilidade de um futuro cliente se tornar inadimplentecertas condies. Mas notem que estamos nos referindo a uma relaova, ou seja, algo que estatisticamente possa explicar a ocorrncia deevento. Por isso, a primeira preocupao do SPSS CiV, aps fornecer algunsiniciais para comparao, apresentar os chamados testes de significncia.eles, pode-se verificar se o modelo capaz de realizar predies com adesejada.

    Como evidencia o prximo quadro, uma das primeiras providncias a validade do modelo como um todo. Lembramos que na Regresso Linearprocedimento realizado por meio da estatstica F, cujo objetivo testar ade que todos os coeficientes da equao so nulos. Como se sabe, adessa hiptese sugere que o modelo no serve para a estimao de valoresa varivel dependente em funo de valores conhecidos das independentes.porque nesse caso nenhum dos coeficientes seria significativamente diferentezero. E no modelo logstico? Bem, como explicamos na parte introdutria,

  • 7/22/2019 Anlise Logistica

    28/40

    Regresso Logstica 307

    logstico temos um conjunto de testes que cumprem um papel bastanteComo consta a seguir, um deles o chamado Model Chi-square.Omnibus Tests of Model Coefficients

    Chi-square df Sig.Step1 Step 76,143 3 0,000

    Block 76,143 3 0,000Model 76,143 3 0,000

    O Model Chi-square testa a hiptese de que todos os coeficientes da equaoso nulos. Como se v, realmente trata-se de um teste Qui-quadrado muiparecido com a estatstica E No presente caso, nota-se que o valor do Model foi76,143. A esta altura, natural que voc esteja querendo saber qual o signifidesse nmero. Lembra-se do Likelihood Value (- 211) e de que a diferenaos valores inicial e final desse indicador expressa a capacidade preditiva doelo? isso mesmo! Esse nmero corresponde diferena entre o valor de2LL obtido quando se inclui apenas a constante no modelo e o - 2LL calculadoa incluso de todas as variveis independentes. Com a incluso das vari

    predicaras, espera-se que o Likelihood Value sofra uma reduo estatsticasignificativa. E exatamente o que se verifica no presente caso. Com trsde liberdade, que correspondem diferena entre o nmero de parmetros

    - . .uu . - .n , i3 nos modelos inicial e final (o que considera somente a constante e oinclui as variveis independentes), pode-se concluir que pelo menos um dosda Regresso diferente de zero. Portanto, pode-se rejeitar a hiptede que todos os parmetros estimados so nulos. Em outras palavras, pode-seque eles contribuem para melhorar a qualidade das predies. Um ponto

    para o nosso modelo!No mesmo quadro, nota-se ainda a presena de mais dois testes: o Step e oEsclarecemos que se trata do mesmo indicador. Ambos tm significado riigual ao do Model. Portanto, podem ser interpretados de forma anloga. Como nossa anlise est sendo realizada sob o mtodo Enter, ou seja, com amcluso simultnea de todas as variveis independentes, est explicado por queseus valores so coincidentes. Porm, se estivssemos trabalhando com o mtodoStepwise, seja de se esperar alguma diferena no Likelihood Value. Essa distinopoder ser percebida quando estivermos utilizando o mtodo Stepwise.Em seguida, o software nos fornece outros indicadores que tambm contribuempara avaliar o desempenho geral do modelo. Como consta no quadro a seguir, destafeita temos o -2 Log likelihood, o Cox & Snell e, finalmente, o Nagelkerke.

  • 7/22/2019 Anlise Logistica

    29/40

    308 Anlise Multivariada Corrar, Paulo e Dias Filho

    Model Summary

    Step - 2Log Cox& Snell Nagelkerkelikelihood R Square R Square1 50,307 0,563 0,754

    Se voc vem acompanhando nossas explicaes, certamente j se deuque o Likelihood Value C2LL) no passvel de interpretao isoladamente.precisamente, deve se lembrar de que esse indicador s adquire significadodo confrontado com uma base de referncia. Como mencionamosum de seus principais objetivos facilitar a comparao do desempenho dedelos alternativos. Por exemplo, um que considere apenas a constante e outroincorpore algumas variveis independentes ou todas, obviamente. Aproveia oportunidade para alert-lo para alguns problemas de interpretao. Nocostuma-se afirmar que quanto menor o Likelihood Value, melhor. Esque s faz sentido uma afirmao desse tipo se o indivduo estiver tomandoreferncia outro Likelihood Value relativo ao mesmo caso. Apesar de noser interpretado diretamente, a manuteno do Likelihood Value no quadroma deve-se ao fato de ele participar do clculo de outros indicadores, taiso Model, o Step e o Block Qui-quadrado.

    E o que dizer dos testes Cox & Snell e Nagelkerke, que no presentesumem os valores de 0,563 e 0,754, respectivamente? A que concluso sechegar a partir de tais indicadores? Se voc se recorda de que ambos sorados Pseudos-R-Quadrado, certamente compreender que eles procurama proporo das variaes ocorridas no log da razo de chance que pelas variaes ocorridas nas variveis independentes. De certa forma, vv._. ...._comparados ao R-Quadrado da Regresso Linear. Assim, o Cox & Snell estcando que cerca de 56,3% das variaes ocorridas no log da razo deexplicadas pelo conjunto das variveis independentes (renda, nmero dedentes e vnculo empregatcio). O Nagelkerke, corno explicamos uma verso do Cox & Snell adaptada para fornecer resultados entre O e 1.essa medida, somos levados a considerar que o modelo capaz de explicarde 75,4% das variaes registradas na varivel dependente. Como se v, retem significado muito semelhante ao do coeficiente de determinao.Teste Hosmer e Lemeshow

    No prximo quadro, temos o indicador denominado Teste Hosmer eLembramos que se trata de um teste Qui-quadrado, cujo objetivo testar ade que no h diferenas significativas entre os resultados preditos pelo"'" .., os observados. Para tanto, dividem-se os casos em dez grupos aproximad

  • 7/22/2019 Anlise Logistica

    30/40

    Regresso Logstica 309

    e comparam-se os valores observados com os esperados, tal como se aprena tabela de contingncia.

    Hosmer and Lemeshow TestStep Chi-square df Sig.

    8,169 8 0,417Contingency Table for Hosmer and Lemeshow Test

    Situao do Cliente "" Situao do Cliente "" IADIMPLENTE INADIMPLENTE TotalObserved Expected Observed Expected

    Step 1 9 8,991 o 0,009 91 2 9 8,952 o 0,048 9

    3 9 8,841 o O, 159 94 9 8,488 o 0,512 95 7 7,148 2 1,852 96 5 4,318 4 4,682 97 o 2,305 9 6,695 98 2 1 155 7 7,845 99 o 0,578 9 8,422 9

    10 1 0,223 10 10,777 11

    Seguindo uma distribuio Qui-quadrado, o clculo nos leva a uma estatstide 8,169 e um nvel de significncia de 0,417. Isso indica que os valores preno so significativamente diferentes dos observados. Portanto, tem-se aum indcio de que o modelo pode ser utilizado para estimar a probabilidadeum determinado cliente se tornar inadimplente em funo das variveis inde-

    possvel que voc esteja a nos questionar se esse resultado realmente fauma vez que o nvel de significncia encontrado foi bem superior a 0,05.l l e l l a n e c e ~ m < ) S que sim, porque se o resultado estivesse em um patamar igual oua 0,05 teramos que rejeitar a hiptese de que no existem diferenas sig

    entre os valores esperados e observados. O que se pretende no isso,sim aceitar a hiptese de que no existem diferenas entre valores preditose observados. Portanto, sempre desejvel que se obtenham resultados superio-

  • 7/22/2019 Anlise Logistica

    31/40

    310 Anlise Multivanada Corrar, Paulo e Oias Filho

    res a 0,05, como ocorreu na presente situao. Alis, diramos que quantoelevado melhor. claro que existem algumas limitaes associadas ao usoteste, conforme comentamos anteriormente. Uma delas diz respeito aoda amostra. Quanto mais ampla, maior o risco de rejeitarmos a hiptese nuladevidamente. Para contornar esse problema, recomendamos utilizar vriossimultaneamente, como estamos fazendo nessa oportunidade.Quadro de classificao final

    Como se observa, at aqui tudo se mostra favorvel ao uso das variveispendentes como estimadores do status que o cliente poder assumir emnadas circunstncias. Certamente, voc se lembra de que sem incluirmos taisriveis no modelo, o percentual de acerto nas classificaes era de apenas 5Muito bem! E se considerarmos tais variveis, qual seria o percentual deComo nos mostra o quadro a seguir, ele se eleva para 89,1%. Nota-se,urna melhoria considervel.Classification Tablea

    Observed

    Step1 Situao doClienteOverall Percentage

    a. The cut value is 0,500.

    ADIMPLENTEINADIMPLENTE

    PredictedSituao do Cliente

    ADIMPLENTE

    454

    INADIM-PLENTE

    637

    PercentageCorrect88,290,289,1

    Embora se verifique urna reduo no nvel de acerto em relao ..............." ...o dos clientes que assumiram a condio de adimplente, j que antesem 100 e agora declinou para 88,2%, no cmputo geral o modelo alcanadesempenho. Isso porque ele apresentou uma sensvel melhoria nados indivduos que assumiram o status de inadimplente. Como eles soforam classificados inicialmente na categoria de adimplentes. Por isso, ema tais clientes o nvel de acerto do modelo era zero. Note-se que com a u 1 ~ . 1 u . ; o - .das variveis independentes esse percentual sobe para 90,2%. Portanto, emdia, obtm-se 89,1% de acurcia nas predies. Considerando-se mais essecador, estamos convencidos de que estatisticamente vivel incluir asindependentes no modelo. No conjunto, parecem explicar o status assumidocada cliente no perodo observado (ADIMPLNCIA ou INADIMPLNCIA).

  • 7/22/2019 Anlise Logistica

    32/40

    Regresso Logstica 311

    incorporadas ao modeloComo vimos, at aqui todos os testes sugerem que, de forma geral, o modeloser utilizado para estimar a probabilidade de um cliente assumir a condioinadimplente em funo do conjunto de variveis independentes (renda, nmede dependentes e vnculo empregatcio). Sendo assim, ser que j poderamosmo dos coeficientes abaixo relacionados e esboar a equao da regressoa para fazer estimativas? A resposta no! Isso porque at ento s realia avaliao do modelo como um todo. Comparando-se regresso linear, se tivssemos apenas submetido a equao ao teste E Resta-nos ainda avaliarsignificncia de cada coeficiente em particular. Afinal, necessrio verificar seum deles realmente pode ser utilizado como estimador de probabilidades.ra tanto, recorremos estatstica Wald. Trata-se de um mecanismo equivalenteteste t, cujo objetivo testar a hiptese nula de que um determinado coeficienno significativamente diferente de zero.Como a varivel independente tem apenas um grau de liberdade, para cadacoeficiente procede-se ao seguinte clculo: Wald = (b/S.E.)2, onde b simboliza ocoeficiente de uma varivel includa no modelo e S.E., o erro-padro a ele associado. Como se observa, o quadro seguinte sugere que todas as variveis podemser aproveitadas na composio do modelo, j que seus coeficientes no so nuEm outras palavras, pode-se afirmar que cada um deles exerce efeito sobre

    probabilidade de um cliente assumir o status de adimplente ou inadimplente,lo menos a um nvel de significncia de 0,05. Os coeficientes das variveis renda (R) e vnculo empregatcio (VE) so negativos. Isso significa que uma variaopositiva em tais variveis contribui para diminuir a probabilidade de um clientese tomar inadimplente. Nmero de dependentes (ND), pelo contrrio, tem sinalpositivo. Portanto, uma variao positiva nessa varivel concorre para aumentara probabilidade de o cliente se tornar inadimplente.Variables in the equation

    95,0% C.l.forB S.E . Wald df Sig. Exp(B) EXP(B)

    lower UpperStep R -1,882 0,489 14,845 1 0,000 0,152 0,058 0,3971a ND 0,860 0,386 4,965 1 0,026 2,362 11 09 5,031

    VE(1) -2,822 0,852 10,969 1 0,001 0,059 0,011 0,316Constant 4,300 1,489 8,341 1 0,004 73,679

    Vanable(s) entered on step 1: R, ND, VE.

  • 7/22/2019 Anlise Logistica

    33/40

    312 Anlise Multivariada Corrar, Paulo" Dias Filho

    Alm da estatstica Wald, temos o intervalo de confiana, que tambmser utilizado para verificar se realmente o coeficiente significativamente drente de zero. Lembra-se de que no modelo logstico cada coeficiente daindependente elevado constante matemtica e? Pois bem! O relatrio indque cada um deles elevado a essa constante est contido no intervalo dea acima referido. Por exemplo, nota-se claramente que o coeficiente daND (0,860) elevado constante e resulta em 2,362 (indicado na coluna Expe est contido no intervalo cujo limite mnimo 1,109 e o mximo, 5 ,031.se a mais um indicador de que cada varivel pode ser utilizada na estimaoprobabilidades.

    Submetido a todos os testes, verifica-se que o modelo estapto a ser utilizado na soluo do problema. Agora, sim, podemos esboar ao da Regresso Logstica com boa margem de segurana. Dados os rnTu . .tes acima referidos, essa equao pode ser exposta da seguinte forma: Z =- 1,882 R + 0,860 ND- 2,822 VE. Lembramos, mais uma vez que, R simbolizarenda mensal mdia do cliente; ND, o nmero de dependentes e VE, ade vnculo empregatcio.Interpretando os coeficientes da equao

    A exemplo do que se verifica na Regresso Linear, cada coeficiente deveinterpretado como estimativa do efeito que uma varivel independentesobre a dependente quando as demais se mantm inalteradas. Entretanto,se pode esquecer de que o modelo logstico expresso em termos deda razo de chance ou logit. Assim, cada coeficiente deve ser interpretadoo efeito que uma variao unitria sofrida pela varivel independente tendeproduzir sobre o logaritmo da razo de chance. No presente caso, se umpossuir vnculo empregatcio com a(s) fonte(s) de onde extrai sua renda, o efeitodessa caracterstica sobre o logaritmo da razo de chance (logit) ser da ordem de-2,822, tendo em vista que em tal circunstncia essa varivel codificada com onmero 1. De forma semelhante, pode-se afirmar que a quantidade de logit sofreruma variao de 0,860 para cada variao unitria que se verifique no nmero dedependentes. O sinal do coeficiente que vai determinar a direo da mudana,que pode ser aumentativa ou diminutiva.

    J o efeito de cada coeficiente sobre a probabilidade de natureza multiplicativa e vai depender do nvel em que ela se encontrar. Digamos que em determinado perodo um cliente tenha sido classificado na faixa de risco de 20% em funode sua renda, do nmero de dependentes e do vnculo empregatcio. Nesse caso,para quanto vai a probabilidade de ele assumir a condio de inadimplente se noperodo subseqente ele incorporar mais um dependente e no apresentar nenhuma alterao quanto s demais variveis? J tivemos oportunidade de demonstrarque esse clculo muito simples! Em primeiro lugar, preciso identificar o fator

  • 7/22/2019 Anlise Logistica

    34/40

    Regresso Logstica 31 3

    pelo qual a razo de chance se altera em funo de uma variao unitria na varivel considerada, no caso "nmero de dependentes". O relatrio fornecido peloSPSS indica que esse fator da ordem de 2,362, que corresponde constantematemtica e elevada ao coeficiente da varivel em apreo (0,860). Agora, tudoo que nos falta identificar a razo de chance a que corresponde a probabilidadede 20% e multiplic-la por esse fator. Ora, como a razo de chance correspondeao quociente entre a probabilidade de um evento ocorrer e a de ele no ocorrer,a partir desse ajuste pode-se identificar a mudana na probabilidade de o clientese tornar inadimplente. Acompanhemos o clculo, portanto.

    Probabilidade inicial: 20%.Razo de chance a que corresponde a probabilidade de 20%: 0,2/ 0,8::: 0,25.Razo de chance ajustada: (0,25) * (2,362) = 0,59.Probabilidade a que corresponde a razo de chance ajustada:

    [p/ (1 - p)] = 0,59 :. p = 37%Como se observa, se o cliente incorporar mais um dependente e mantiver os

    demais fatores inalterados (renda e vnculo empregatcio), a probabilidade de setomar inadimplente evolui de 20 para 37%. Importa salientar mais uma vez queessa variao depende sempre do patamar de risco em que se encontre o clienteem determinado instante. A ttulo de exemplo, destaque-se que se a probabilidadeinicial fosse de 35%, agora ela teria evoludo para quase 56%. Em termos relativos, uma variao bem menor. Em caso de dvida, recomendamos voltar parteintrodutria deste captulo, mais precisamente seo que trata da interpretao dos coeficientes. Salientamos que esse ponto assume grande significado naanlise da Regresso, pois nos permite observar o efeito de cada varivel sobre aprobabilidade associada ocorrncia de determinado evento ou manifestaode certa caracterstica.Realizando predies com o modelo

    Como vimos, chegamos ao modelo capaz de descrever a relao existenteentre o fenmeno inadimplncia e as variveis renda, nmero de dependentes evnculo empregatcio, tomando-se como referncia um conjunto de dados histricos pertencentes a uma concessionria de automveis. Agora, podemos utiliz-lopara estimar a probabilidade de um determinado cliente se tornar inadimplentesob certas condies. Para tanto, devemos esboar a equao logstica a partir doscoeficientes estimados, conforme segue:

    1P(evento) = 1+ e C4 ,:l- J,BB2RO,B60ND - 2,B22VEl

  • 7/22/2019 Anlise Logistica

    35/40

    31 4 Anlise Multivariada Corrar, Paulo e Dias Filho

    Lembramos que, nesta equao, R representa a renda do cliente em milharesde reais; ND, o nmero de dependentes; e VE, vnculo empregatcio. Utilizamosessa simbologia para efeitos didticos, mas claro que cada varivel independentepoderia ser representada por outros cdigos, tais como Xl' X2 e X3, por exemplo.Por fim, salientamos mais uma vez que VE s poder assumir um entre dois valores: 1 quando o cliente possuir vnculo empregatcio, e zero, em caso contrrio.Com tais esclarecimentos, passaremos a alguns exemplos prticos.

    Suponha que o gestor da rea de vendas da concessionria em apreo estejainteressado em conhecer o risco de um cliente se tornar inadimpfente nas seguin-tes circunstncias:

    renda mensal (mdia dos ltimos doze meses): 4 mil; nmero de dependentes: 3; no possui vnculo empregatcio.

    Valendo-nos da equao acima, temos:1P(evento)= 06 5 = 34,3%1 + e

    Portanto, um cliente que rena tais caractersticas apresenta um risco deinadimplncia da ordem de 34,3%. Com essa informao, certamente a empresapoder escolher medidas preventivas mais adequadas para minimizar expectativas de perdas. Em tais circunstncias, provavelmente as exigncias no seriamas mesmas impostas para um cliente que se encontrasse classificado na faixa derisco de 70%, por exemplo. Alis, nesse caso talvez fosse mais prudente evitar avenda! Obviamente, est longe de nossos propsitos prescrever esta ou aquelamedida para tais situaes. Com esse exemplo, queremos apenas demonstrar queum instrumento dessa natureza pode contribuir em muito para melhorar a qualidade das decises no ambiente empresarial.

    No caso especfico, estamos nos referindo probabilidade de um cliente assumir o status de inadimplente. Porm, esse mesmo raciocnio pode se estendera diversas situaes, conforme mencionamos no incio do captulo. Entre as maisfrcqentes, destacam-se: a necessidade de es timar a probabilidade de um clientepreferir um produto a outro, de abandonar a empresa cm cartcr definitivo, dereagir a determinados estmulos, de apresentar uma denncia fiscal contra a empresa, de se manter fiel a determinada marca, de acionar uma garantia etc. Ummodelo desse tipo pode servir tambm para estimar a probabilidade de a empresa obter um emprstimo, de ingressar em estado de insolvncia, de atingir certasmetas, e assim por diante.

  • 7/22/2019 Anlise Logistica

    36/40

    R e g r e ~ ~ a o Logstica 315

    5. 10 Consideraes finaisComo vimos, tanto sob o ponto de vista conceituai como operacional, a Re-gresso Logstica se caracteriza como uma tcnica de fcil aplicao. Em relao Anlise Discriminante, por exemplo, ela leva certa vantagem na medida cmque, alm de facilitar a identificao do grupo a que pertence um objeto ou indivduo, facilita a estimao de probabilidades associadas ocorrncia de determinados eventos. Outra vantagem relativa diz respeito ao nmero de suposiesiniciais. Basta considerar que a logstica no exige a normalidade conjunta ou nodas variveis independentes. Se esse tipo de teste j assume certa complexidadequando se lida com mltiplas variveis, muito mais ainda quando algumas sode natureza categrica. Somando-se a isso a facilidade computacional, temos auma explicao bastante plausvel para o fato de essa tcnica ter se expandido

    com tanta rapidez.Pensando na diversidade de profissionais que podem se interessar por esserecurso estatstico, procuramos conferir ao texto uma entonao didtica quefacilitasse a assimilao dos principais conceitos, a interpretao dos resultadosda anlise e principalmente a percepo das circunstncias em que ele pode serutilizado. Essa preocupao com aspectos didticos exigiu uma certa resistncia

    tentao de nos alongar em explicaes tericas de maior complexidade. Porexemplo, como as ferramentas computacionais disponveis nos permitem estimaros parmetros da equao logstica sem conhecimentos mais profundos do mtodo da mxima verossimilhana, evitamos maiores digresses sobre esse assunto.De igual forma, procuramos deixar em segundo plano discusses de ordem doutrinria sobre uma ou outra particularidade. Se, por um lado, isso pode frustrara expectativa de alunos mais vidos por elucubraes tericas, por outro, temosa compensao de tornar mais acessvel mdia dos leitores um conhecimentode grande significado para o exerccio de suas atividades. Aos demais, resta-nosaconselhar uma consulta complementar a fontes que se detm em tpicos maisespecficos.

    5.11 ResumoRegresso Logstica uma tcnica de anlise da estatstica multivariada aplicvel a situaes em que se deseja predizer ou explicar valores de uma varivelbinria em funo de valores conhecidos de outras variveis, que podem ser categricas ou no. O fato de a varivel dependente s poder assumir um entre doisvalores a principal diferena entre o modelo logstico e o linear. Esse tambm um dos motivos pelos quais no se pode utilizar o mtodo dos mnimos quadradospara estimar os parmetros da equao logstica. Em lugar dele, adota-se o mtodo da mxima verossimilhana, um processo iterativo que nos permite estimar

  • 7/22/2019 Anlise Logistica

    37/40

    316 Anlise Multiv ariada Corrar, Paulo c Dias Filho

    a probabilidade mxima associada ocorrncia de determinado evento ou presena de certas caractersticas. Com esse recurso, todos os resultados atribuveis varivel dependente ficam contidos no intervalo de O a 1.

    Em praticamente todas as reas do conhecimento, o modelo logstico tem serevelado muito eficaz na soluo de problemas que envolvem a escolha de urnaentre duas alternativas ou a estimao de probabilidades. No ambiente de negcios, por exemplo, pode ser utilizado na previso de falncia, na avaliao de projetas econrnicos, na anlise de riscos de crdito etc. De igual forma, pode facilitara identificao de variveis que contribuem para explicar diversosde interesse das organizaes, tais corno o sucesso ou o fracasso deproduto, atitudes pessoais frente ao processo decisrio, o desempenho de umpartarnento, a reao de alguns segmentos da sociedade a polticas empresariais,o comportamento de certos agentes econrnicos, e assim por diante.

    A popularidade que essa tcnica vem alcanando em todo o mundo atribuda, em parte, semelhana que ela conserva em relao a algumasda Regresso Linear e principalmente ao fato de permitir que se contornemrestries encontradas em outros modelos, tais corno homogeneidade dee normalidade na distribuio de erros. Sorna-se a isso o fato de acolherindependentes mtricas e no mtricas, simultaneamente, e de facilitar a "vu._. .. .de problemas que envolvem no apenas a discriminao de grupos, mas ccuuu"-UIIIIa estimao de probabilidades. Alis, o simples fato de ser menos exigente qto s suposies iniciais j confere ao modelo logstico urna certa vantagemtocante confiabilidade dos resultados da anlise. Na rea mdica, por x ~ ~ r n J J I O Iconsidera-se que esta urna das razes pelas quais ele ganhou o status dementa-padro na avaliao de riscos.

    5.12 Questes propostas1. Qual o principal objetivo da Regresso Logstica e em quais

    recomenda-se utilizar essa tcnica de anlise de dados?2. Por que no se pode utilizar a Regresso Linear para descrever um

    relacionamento entre urna varivel independente binria e um conjuntovariveis independentes de natureza mtrica e no mtrica?

    3. Regresso Logstica e Anlise Discriminante so tcnicas substitutas?que.

    4. Em relao a outras tcnicas de classificao, corno a Anlisequais as principais vantagens da Regresso Logstica?

  • 7/22/2019 Anlise Logistica

    38/40

    Regresso Logstica 317

    No modelo linear, cada parmetro estimado expressa a mudana que ocorrerna varivel dependente por unidade de variao ocorrida na varivel preditora, quando as demais permanecem constantes. E no modelo logstico?Mencione as principais suposies requeridas pelo modelo logstico para que seobtenham predies e classificaes vlidas sob o ponto de vista estatstico.Para efeitos de avaliao do modelo logstico, como deve ser interpretado o-2LL?No modelo linear, para testar a hiptese de que um determinado coeficienteda regresso nulo, pode-se utilizar a estatstica t. E no modelo logstico?Qual a finalidade do teste denominado Hosmer e Lemeshow? Descreva sucintamente em que consiste esse mecanismo de avaliao do modelo logstico ecomo deve ser interpretado. Identifique oportunidades de aplicao da Regresso Logstica em sua reade atuao profissional.

    Exerccios resolvidosO Controller de uma transportadora tem observado que menos de 40% dosfuncionrios submetidos a um programa de treinamento voltado para reduo

    de custos reagem positivamente. Interessado em aprimorar a poltica de pessoal,solicitou um estudo para identificar as causas desse baixo desempenho, inclusiveporque o prprio treinamento j estava sob uma relao custo/benefcio desvantajosa. Para tanto, extraiu-se uma amostra aleatria constituda de 36 empregados em relao aos quais foram consideradas as seguintes variveis: nmero deanos de escolaridade, idade e sexo (1 = masculino; O = feminino). O fenmenoque est sob anlise a reao de cada componente da amostra e ser codificada como 1, quando positiva, e como zero, quando negativa, conforme consta noseguinte quadro:

  • 7/22/2019 Anlise Logistica

    39/40

    322 An

  • 7/22/2019 Anlise Logistica

    40/40

    1989.

    Regresso Logstica 323

    d) Se as chances de um empregado atingir a meta forem estimadas em0,85 somente em funo de seu salrio, para quanto vai a probabilidadeassociada ocorrncia desse mesmo evento quando ele atingir o nvelsuperior?e) Sabendo-se que um empregado possui nvel superior e que as suas chances de atingir a meta correspondem a 0,60, qual deve ser o seu salrio?

    D. R.; SNELL, E. J. Analysis of binary data. 2. ed. London: Champman and Hall,JR., Joseph E et al. Multivariate analyses data. New Jersey: Princeton University1998.ER, David W; LEMESHOW, Stanley. Applied logistic regression. Ncw York: Wiley,

    JOHNSON, Richard A.; WICHERN, Dean W Applied multivariate statistical analysis. NewJersey: Prentice Hall, 1998.KAUFMAN, R. L. Comparing effects in dichotomous logistic regression: a variety of standardized coefficients. Social Science, 77, 1996.MENARD, Scott W Applied logistic regression analysis. Thousands Oaks, Calif.: Sage Publications, n. 7, 1995.NAGELKERKE, N. J. D. A note on a general definition of the coefficient of determination.Biometrika, 78, p. 691-692, 1991.