12
Universidade Potiguar Mestrado Profissional em Administração Felipe de Souza Ferrucio da Rocha Marcelo Santos Arcanjo Cíntia Regina Galo MÉTODOS QUANTITATIVOS Exercício 4 – Regressão Linear e Correlação

Atividade 4

Embed Size (px)

DESCRIPTION

Estatistica

Citation preview

Page 1: Atividade 4

Universidade PotiguarMestrado Profissional em Administração

Felipe de Souza Ferrucio da RochaMarcelo Santos Arcanjo

Cíntia Regina Galo

MÉTODOS QUANTITATIVOSExercício 4 – Regressão Linear e Correlação

Natal

2015

Page 2: Atividade 4

1. O que significa correlação espúria? Nesse contexto, explique a importância de

entender a correlação como uma análise confirmatória e não como uma análise

exploratória.

Segundo Marconi e Lakatos (2003) a primeira e mais importante pergunta do pesquisador é

“trata-se de uma relação real?”. Ou seja, a relação é inerente entre as duas variáveis ou é uma

relação acidental. Os autores ainda afirmam que espúria é a interpretação e não a relação em

si. A relação espúria significa que nenhuma das variáveis exerce influência sobre a outra.

Correlação espúria se refere à correlação de dois fenômenos distintos, que não possuem

qualquer relação entre si, porém, por uma questão do acaso, demonstram um forte vínculo

estatístico. Ou seja, há uma forte correlação entre os eventos, muito embora, não é possível

estabelecer qualquer relação de causa e efeito aos mesmos.

Nesse sentido, a correlação é utilizada como uma análise confirmatória, partindo-se da

hipótese levantada no problema de pesquisa e não uma análise exploratória, haja vista a

possibilidade de se identificar correlações estatisticamente relevantes, porém sem nenhuma

explicação de relação entre os eventos ou fenômenos evidenciados.

2. O que fazer no caso do coeficiente de correlação linear encontrado ficar próximo

de zero? O que pode ter acontecido?

Ao se deparar com um caso do coeficiente de correlação linear próximo a zero, deve-se

buscar a verificação do comportamento dos coeficientes através de um gráfico, de modo

avaliar se o mesmo pode ser aplicado a outro tipo de correlação, como é o caso da correlação

exponencial, por exemplo.

Corrêa (2010) afirma que uma boa maneira de detectar a correlação entre as variáveis é a

plotagem do gráfico de dispersão. No gráfico fica mais claro a tendência entre as variáveis,

ficando mais fácil identificar se existe uma relação forte ou uma dispersão mais acentuada,

não configurando correlação.

3. Por que é imprescindível para a gestão (controle, previsão) de uma variável

exógena que a correlação seja avaliada entre essa variável e uma variável sob controle

da gestão?

Partindo-se da afirmação de que há uma das variáveis sob o controle da gestão, pode-se

observar e prever o comportamento da variável exógena quando da existência de correlação

Page 3: Atividade 4

entre ambas, podendo haver um tendência de uma subir/crescer ao passo que a outra também

sobe/cresce, cair/decrescer ao passo que a outra cai/decresce ou mesmo de uma subir/crescer

enquanto que a outra cai/decresce e vice-versa.

4. Um modelo pretende entender o comportamento da variável Z a partir do

comportamento das variáveis X e Y. Explique por que essa estratégia não é interessante

se X e Y estiverem fortemente correlacionados.

Caso exista uma forte correlação entre as variáveis independentes, o poder de explicação, ou

seja a determinação (R²) diminuirá, pois as variáveis estão explicando a mesma porção do

fenômeno. A fraca correlação entre as variáveis independentes acabará por explicar melhor a

relação causa-efeito da variável dependente, bem como será mais fácil identificar a

intensidade de mudança de comportamento que as variáveis produzem.

Segundo Naghettini e Pinto (2007) em situações onde as variáveis explicativas possuem

correlação forte as mesmas não fornecem novas informações e dados, dificultando e

empobrecendo a interpretação dos dados obtidos na regressão linear múltipla. Os autores

indicam a necessidade de criar uma matriz de correlação com as variáveis a serem inseridas

no modelo de regressão de modo a encontrar as variáveis explicativas que se correlacionam,

excluindo em seguida aquelas que apresentarem uma correlação superior à 0,85.

5. Comente a frase: “Mesmo que não haja uma forte correlação linear entre as duas

variáveis estudadas, sempre será possível traçar a reta que melhor aproxima o

comportamento conjunto dessas duas variáveis.”

De acordo com a afirmação, percebe-se que é possível traçar uma reta para demonstrar um

comportamento conjunto de duas variáveis, ainda que não seja evidenciada uma forte

correlação linear. Entretanto, isso é possível apenas quando aumenta-se consideravelmente a

escala do gráfico observado de modo a tentar “forçar” a existência da linearidade da

correlação entre as variáveis analisadas.

6. Por que é importante proceder aos testes de hipóteses sobre os coeficientes da

regressão para garantir o sucesso dessa análise?

O teste de hipótese, neste caso, ganha importância no sentido de poder dar

garantia de que o modelo utilizado na análise da regressão é, de fato, adequado.

Page 4: Atividade 4

7. Parte 1:

A partir de um levantamento minucioso dos dados disponíveis, chegamos à conclusão

que o fator catalisador para as oscilações no Custo de Mão de Obra Direto foi a variação

presente na quantidade de horas extras trabalhadas pelos funcionários da produção. Ficou

evidente que houve um descontrole produtivo, gerando uma grande variação nas horas extras

executadas, afetando assim diretamente e proporcionalmente o CMOD.

A variação nas Horas extras teve impacto direto no custo do CMOD devido à alta

correlação entre as duas variáveis. O coeficiente de Pearson para as duas variáveis chegou a

0,924. O alto valor do coeficiente, que se aproxima do máximo, faz com que exista uma

intensidade maior na correlação, acentuando as oscilações no CMOD quando da variação nas

horas extras. Vale salientar, que o motivo do aumento só é explicado pois é claro e evidente

que o impacto causado no CMOD pelas horas extras será real e justificará a correlação uma

vez que os custos de mão de obra estarão inclusos dentro do custo de mão de obra direto.

Após teste de hipóteses ficou observado, com margem de erro menor que 1%, que de fato, a

correlação encontrada de 0,924 pode ser atestada com válida para a amostra.

De acordo com os dados fornecidos, podemos tentar prever que as oscilações de horas

extras realizados pelos funcionários da produção podem ter sido causadas pela necessidade de

a produção se equiparar a alta eficiência da cadeia logística da empresa. Excluindo-se

eventuais problemas externos, podemos deduzir que existe um “gargalo” entre a produção e

distribuição da empresa, fazendo com que seja mais difícil controlar os custos de mão de obra

direta.

Podemos extrair do gráfico abaixo a correlação existente, e como fica evidente a relação

linear entre as variáveis, fazendo com que seja inclusive possível prever os valores de CMOD

para cada valor de horas extras trabalhadas.

Gráfico 1

Page 5: Atividade 4

Parte 2:

Para análise e previsão dos valores de CMOD para o futuro, foi utilizado o modelo de

Regressão Linear que tem por finalidade explicar uma variação numa variável, nesse caso o

CMOD, usando as variações de outras variáveis. No nosso modelo, a variável independente é

a quantidade de horas extras realizadas pelos funcionários. Analisaremos a quantidade de

horas extras executadas de modo a tentar prever e controlar o CMOD, que será nossa variável

dependente.

O primeiro passo foi a proposição de um modelo teórico, que concluiu que o impacto das

horas extras seria exatamente no custo de mão de obra na produção da empresa, uma vez que

as horas extras são custos que estão relacionados com a mão de obra. São os funcionários que

recebem e trabalham nas horas extras. Iniciou-se a análise dos dados fornecidos de modo a

confirmar a teoria proposta. Conforme resultado demonstrado no exemplo anterior, a

correlação entre as variáveis foi forte e positiva, determinando uma correlação diretamente

proporcional. Ou seja, cada vez que se aumentasse o número de horas extras, o custo de mão

de obra direto iria se aumentar em mesma proporção.

A ferramenta utilizada para a análise dos dados foi o Excel 2010. Utilizamos a ferramenta de

análise de dados presente no próprio software para a realização da regressão linear. Alguns

valores são importantes para a melhor compreensão do modelo proposto. A correlação

encontrada entre as duas variáveis, que aqui chamaremos de x e y, foi de 0,924. A

determinação, que é o coeficiente que determina o grau de explicação das variáveis pelo

modelo proposto foi de 0,854, ou seja, o modelo consegue explicar o fenômeno em 85,4% dos

casos.

Procedeu-se então para a determinação da equação da linha de regressão, de modo a

possibilitar a previsão dos valores futuros quando da alteração da variável independente. A

equação da linha de tendência encontrada foi a seguinte:

Y = ax + c

Y = 7,1069 x X + 125840

Onde:

Y = Variável dependente;

X= Variável independente;

a = Coeficiente Angular

c = Coeficiente Linear

Page 6: Atividade 4

Com a equação acima já é possível prever os valores para o CMOD (variável Y) quando

existir variações nas horas extras (variável X). Vale salientar que existe uma margem de erro

atrelada ao modelo e a equação proposta. É interessante então se trabalhar com um intervalo

de previsão que tenha uma maior confiança, no qual chamaremos de intervalo de confiança.

Para determinação do intervalo de confiança, para cada valor de Y será necessário adicionar o

erro padrão uma vez, que determinará o limite superior do intervalo; será necessário subtrair o

erro padrão uma vez, que resultará no limite inferior do intervalo.

O erro padrão da regressão ou erro padrão do resíduo é o desvio padrão dos valores previstos

da variável dependente ao redor da linha de regressão estimada. O erro padrão para a amostra

foi de: 7.385,56.

Y = 7,1069 x X + 125840

Procedemos então para o teste de hipóteses, de modo a confirmar se o modelo elaborado

poderia ser utilizado com confiança ou não. No nosso modelo, testamos se a inclinação da reta

de tendência existe na prática e pode ser usada. As hipóteses propostas foram:

H0 b1 = 0

H1 b1 ≠ 0

Onde: b1 é a inclinação da reta de regressão.

O valor-p encontrado para o modelo de regressão proposto foi de 1,80x10 -9 e 5,985x10-9.

Conforme segue:

valor-P1,80082E-095,98573E-09

Foi possível então rejeitar a hipótese nula com um erro menor que 0,1% de precisão. Para o

modelo proposto, o erro foi aceito e acatado, validando assim o modelo e a equação de

regressão apresentados.

Limite Inferior:

Y= 7,1069 x X + 125.840 - 7385,56

Limite Superior:

Y= 7,1069 x X + 125.840 + 7385,56

Page 7: Atividade 4

Vale ressaltar, que o modelo proposto possui limitações próprias. Fica claro que as margens de

erro, erro padrão, e intervalo de confiança são maneiras de se tentar aplicar o modelo como

maior precisão e segurança. Portanto o modelo deverá ser usado como estimativa e mais

observações devem ser realizadas de modo a corroborar com os dados já coletados.

Outra limitação presente no modelo é o intervalo de relevância do modelo. Só foram

observados no modelo quantidades de horas extras que variaram de 12000 até 20000. Isso

implica que no modelo proposto, a previsão de valores futuros deverá estar dentro deste

intervalo, pois não houveram dados de valores acima ou abaixo destes limites, invalidando

assim o modelo para valores não previamente testados.

Jacobi e Souza (2002) alertam para algumas limitações e ressalvas quando da utilização de

modelos de regressão para previsão de valores futuros para a variável dependente.

Qualquer previsão utilizando-se o modelo de regressão será condicional, pois

dependerá da influência da variável independente na variável dependente.

A reta de regressão é estimada usando dados passados. Se a relação entre X e Y

se modificar, a reta não poderá predizer valores futuros.

Muitas previsões de regressão procuram prever valores para a variável

dependente em situações em que o valor da variável independente está fora do

interalo de relevancia do modelo. Essas previsões são conhecidas como

extrapolações, e são muito menos confiáveis e precisas que previsões feitas dentro

do intervalo de relevância da amostra.

A simples correlação entre as duas variáveis não necessariamente explica uma

relação causal entre as duas. Quando da análise da reta de regressão, quatro

situações podem surgir:

Os valores são realmente dependentes, como prevíamos.

A relação pode ser completamente aleatória e casual.

Pode haver uma variável exógena afetando X e Y.

Pode realmente existir a relação causal entre as variáveis, mas Y

influencia em X e não o contrário. Ou seja, foram adotados variáveis

dependentes e independentes erroneamente.

Page 8: Atividade 4

JACOBI, Luciane Flores; SOUZA, Adriano Mendonça  and  PEREIRA, João Eduardo da

Silva. Gráfico de controle de regressão aplicado na monitoração de

processos.Prod. [online]. 2002, vol.12, n.1, pp. 46-59. ISSN 0103-6513.