Upload
paulo-mota
View
4
Download
3
Embed Size (px)
DESCRIPTION
Apresentação Da Disciplina e Introdução Aos Conceitos Fundamentais de Marketing.
Citation preview
3.1 CORRELAO LINEAR SIMPLES
Constata-se, freqentemente, a existncia de uma relao entre duas (ou
mais) variveis. Se tal relao de natureza quantitativa, a correlao o instrumento adequado para descobrir e medir essa relao.
Dizemos que duas variveis, X e Y, esto positivamente correlacionadas
quando elas caminham num mesmo sentido, ou seja, elementos com valores
pequenos de X tendem a ter pequenos valores de Y e elementos com valores
grandes de X tendem a ter valores grandes de Y. Esto negativamente
correlacionados quando elas caminham em sentidos opostos, ou seja, elementos
com valores pequenos de X tendem a ter valores grandes de Y e elementos com
valores grandes de X tendem a ter valores pequenos de Y.
As variveis peso e altura, por exemplo, apresentam-se, em geral,
correlacionadas positivamente, pois a maioria dos indivduos altos tambm so
pesados, enquanto que a maioria dos indivduos baixos so leves. Por outro lado, no
Brasil, as variveis renda familiar e nmero de elementos da famlia costumam se
apresentar correlacionados negativamente, pois, as famlias de baixa renda, em
geral, tendem a ter mais filhos do que as de alta renda.
Quando esto em jogo somente duas variveis, fala-se em correlao e
regresso simples. Quando se trata de mais de duas variveis, fala-se de correlao
e regresso mltipla.
Uma correlao linear simples uma relao entre duas variveis
quantitativas. Os dados podem ser representados por pares ordenados (X, Y), onde
X a varivel independente (explicativa) e Y a varivel dependente (resposta).
Coletam-se dados exibindo os valores correspondentes das variveis. Faz-se
o grfico dos pontos em sistema de coordenadas retangulares. O conjunto resultante
chamado Diagrama de Disperso.
2
3.2 DIAGRAMA DE DISPERSO
Uma maneira de visualizarmos se duas variveis apresentam-se
correlacionadas por meio do diagrama de disperso, no qual os valores das
variveis so representados por pontos, num sistema cartesiano.
Suponha que X e Y representam, respectivamente, a altura e o peso de
adultos do sexo masculino. Uma amostra de n indivduos acusaria alturas X1, X2, ..., Xn, e os correspondentes pesos Y1, Y2, ..., Yn,. Os pontos a serem marcados no
grfico seriam ento (X1, Y1), (X2, Y2),..., (Xn, Yn). Os diagramas de disperso destas
variveis podem apresentar as seguintes caractersticas:
Grfico de Disperso
X (altura)
Y (peso)
Grfico de disperso
X (altura)
Y (p
eso)
Fig.01- Correlao perfeita positiva Fig. 02- Correlao imperfeita positiva
Grfico de Disperso
X (altura)
Y (peso)
Grfico de disperso
X (altura)
Y (p
eso)
Fig.03- Correlao perfeita negativa Fig.04- Correlao imperfeita negativa
3
Grfico de disperso
X (altura)
Y (p
eso)
Grfico de disperso
X (altura)
Y (P
eso)
Fig.05- No h correlao linear Fig.06-No h correlao linear
Pelo diagrama de disperso, muitas vezes, se pode visualizar uma curva
aproximativa dos dados. Inicialmente devemos observar a inclinao ou declive, se
presente de um agrupamento de pontos. Um agrupamento de pontos que possui
uma inclinao partindo do canto esquerdo inferior at o canto direito superior, como
nas Figuras 1 e 2, reflete uma relao positiva. Por outro lado, um agrupamento de
pontos que possui uma inclinao partindo do canto esquerdo superior at o canto
direito inferior como mostra as Figuras 3 e 4, reflete uma relao negativa.
Finalmente, um agrupamento de pontos onde h ausncia de qualquer
inclinao aparente, como mostra a Figura 6, reflete pouca ou nenhuma relao.
Algumas vezes, um agrupamento de pontos se aproxima de uma linha flexionada ou
curvada, conforme mostra a Figura 5, dessa maneira reflete uma relao curvilnea.
As descries dessas relaes so mais complexas do que aquelas para relaes
lineares.
Tendo estabelecido que a relao seja positiva ou negativa, observe, a
seguir, o quanto o agrupamento de pontos se aproxima de uma reta. Quanto mais o
grupo de pontos se aproximarem de uma linha reta, mais forte (e regular) ser a
relao. Um agrupamento de pontos que seja igual (mais do que meramente
aproximado) a uma linha reta reflete uma relao perfeita (ver Figuras 1 e 3) entre
duas variveis. Na prtica, as relaes perfeitas so muito improvveis.
4
3.3 COEFICIENTE DE CORRELAO LINEAR DE PEARSON
Embora seja til verificar a existncia de correlao por intermdio do
diagrama de disperso, ele no nos fornece, com preciso, o grau de aderncia
entre as sries, ou seja, quo prximos esto os pontos em torno da reta.
Pode ser utilizado o coeficiente de correlao de Pearson (em homenagem ao
estatstico ingls Karl Pearson (1857-1936)). O smbolo r representa o coeficiente de correlao amostral.
Seja (X1, Y1), (X2, Y2),..., (Xn, Yn) uma amostra aleatria das variveis (X, Y), o
clculo do Coeficiente de Correlao entre X e Y dado por:
( ) ( )2 22 2.
. . .
i i i iXY
i i i i
n X Y X Yr r
n X X n Y Y
= =
onde n o nmero de observaes. O coeficiente de correlao de Pearson, r, pode ser igual a qualquer valor
entre -1,00 e +1,00. Alm disso, se aplicam a duas propriedades a seguir:
1 O sinal de r indica o tipo de relao linear, se positiva ou negativa. 2 O valor de r, sem considerar o sinal, indica a fora (intensidade) da relao
linear.
Quanto mais prximo um valor de r se torna em relao a -1,00 ou +1,00, mais forte (mais regular) torna-se a relao. Reciprocamente, quanto mais prximo o
valor de r fica em relao a 0 (zero), mais fraca (menos regular) torna-se a relao. Por exemplo, um r igual a -0,90 indica uma relao mais forte do que um r igual a -0,70, e um r correspondente -0,70 indicam uma relao mais forte do que um r igual a 0,5, lembre-se de que, se nenhum sinal aparece, est subtendido ser positivo.
Se no existir correlao linear ou ainda se a correlao linear for fraca, r estar prximo de zero.
Assim:
a) Se a correlao entre duas variveis perfeita e positiva, ento
r = 1 (ver Figura 1);
5
b) Se a correlao perfeita e negativa, ento r = -1 (ver Figura 3); c) Se no h correlao entre as variveis, r = 0 (ver Figura 6).
Partindo de uma perspectiva um pouco diferente, o valor de r corresponde a uma medida de quo bem uma linha reta (representando a relao linear) descreve
o grupo de pontos no grfico de disperso. Em outras palavras, o valor de r representa a medida de quo bem uma linha reta se ajusta aos dados.
Tome cuidado ao interpretar o valor numrico real de r. Um r de 0,70 para estatura e peso no significa que a fora desta relao seja igual a 0,70, ou
represente 70 por cento da fora de uma relao perfeita. Em outras palavras, o
valor de r no pode ser interpretado como uma proporo ou percentagem de alguma relao perfeita.
Ao interpretar um r novinho em folha, voc ir descobrir que uma boa prtica o valor numrico de r em uma descrio verbal da relao. Um r igual a 0,70 para estatura e peso dos alunos de uma faculdade poderia ser traduzido em:
Alunos altos tendem a pesar mais (ou alguma outra igualmente vlida, tal como:
Alunos mais leves tendem a ser mais baixos); um r igual a -0,42 para o tempo gasto estudado para fazer um exame e o subseqente resultado do resultado do
exame poderia ser traduzido em Alunos que gastam menos tempo estudando
tendem a pontuar mais alto; e um r na vizinhana de 0 (zero) para tamanho de sapatos e Q.I. poderia ser traduzido em Pequena, ou nenhuma, relao existe entre
tamanho de sapato e Q.I..
Exemplo:
Um administrador de marketing conduz um estudo para determinar se existe
uma relao linear entre o dinheiro gasto em propaganda e as vendas de uma
companhia. Os dados esto dispostos na tabela a seguir.
6
Tabela 1 - Relao linear entre o dinheiro gasto em propaganda e as vendas de
uma companhia.
Empresas
Gasto com
Propaganda
(U$ 1000,00)
(X)
Vendas da
empresa
(U$
1000,00)
(Y)
X.Y X2 Y2
1 540,00 5,80 3132,00 291600,00 33,64
2 294,00 2,60 764,40 86436,00 6,76
3 440,00 4,00 1760,00 193600,00 16,00
4 624,00 6,80 4243,20 389376,00 46,24
5 252,00 2,00 504,00 63504,00 4,00
6 295,00 2,70 796,50 87025,00 7,29
7 372,00 4,00 1488,00 138384,00 16,00
8 473,00 4,90 2317,70 223729,00 24,01
Total iX =3290,00 iY =32,80 .i iX Y =15005,80 2iX =1473654,00 2iY =153,94
Grfico de disperso dos dados
Grafico de disperso
0
1
2
3
4
5
6
7
8
200 250 300 350 400 450 500 550 600 650Gastos com Propaganda (em US$1,000.00)
Vend
as d
a Em
pres
a (e
m U
S$1,
000.
00)
Fig.07- Grfico de disperso dos dados
7
Clculo do coeficiente de correlao
( ) ( )( ) ( )
[ ] [ ]
2 22 2
2 2
8 15.005,80-3290,00 32,80
8 1.473.654,00- 3290,00 8 153,94- 32,80
120046,4-107912,0011789232,00-10824100,00 1231,52-1075,84
i i i iXY
i i i i
XY
XY
n X Y X Yr r
n X X n Y Y
r r
r r
= = =
= = =
= =
12134,40 12134,40 12134,4012257,722965132,00 155,68 150251749,76
0,9899
XY
XY
r r
r r
=
= = = = == =
Existe uma forte correlao positiva entre as variveis gastos com
propaganda e vendas. Ou seja, empresas que investem em propaganda tendem a
aumentar suas vendas.
3.4 CORRELAO E CAUSALIDADE
Se considerar uma correlao entre a prevalncia da pobreza e crime em
cidades do Brasil, voc pode especular que a pobreza causa o crime; ou seja, que a
pobreza gera crime com o mesmo grau de inevitabilidade que o apertar de um
interruptor ilumina um aposento. De acordo com essa viso, qualquer reduo
substancial na pobreza deveria causar um correspondente decrscimo no crime.
Voc pode especular que uma causa comum como educao inadequada,
superpopulao, discriminao racial e assim por diante, ou alguma combinao
desses fatores gera tanto pobreza quanto o crime. Logo, de acordo com essa
viso, uma reduo substancial na pobreza no deveria causar qualquer efeito no
crime. Qual das especulaes correta? Infelizmente, essa pergunta no pode ser
resolvida meramente com correlao observada.
O fato de duas variveis estarem fortemente relacionadas por si s, no
implica em uma relao de causa e efeito entre as variveis.
8
Por exemplo: possvel que a relao das variveis tenha sido causada por
uma terceira varivel, ou, ainda, por uma combinao de muitas outras variveis.
Existem muitos outros tipos de coeficiente de correlao, mas iremos discutir
somente o coeficiente de correlao de Pearson.
Ento, caracterizada a relao, procuramos descrev-la por intermdio de
uma funo matemtica. A regresso o instrumento adequado para a
determinao dos parmetros dessa funo.
3.5 REGRESSO LINEAR SIMPLES
O termo regresso surgiu com os trabalhos de Galton (18221911), ao final
do sculo passado. Estes trabalhos procuravam explicar certas caractersticas de
um indivduo, a partir das caractersticas de seus pais. Galton acreditava que os
filhos de pais excepcionais com respeito determinada caracterstica, tambm
possuam esta caracterstica, porm, numa intensidade, em mdia, menor do que a
mdia de seus pais.
Os estudos de Galton baseavam-se em observaes derivadas de
experimentos ou de observaes da realidade. Em um destes trabalhos, ele
relacionou centenas de alturas de indivduos, com as respectivas alturas mdias de
seus pais.
Vamos considerar uma parte do problema que gerou o primeiro estudo de
regresso, realizado por Galton, por volta 1885. A tabela a seguir apresenta algumas
das observaes coletadas por Galton, onde X representa as alturas mdias de seus
pais e Y, alturas dos indivduos, medidas em centmetros.
Tabela 2 - Alturas mdias de seus pais e Y, alturas dos indivduos, medidas em centmetros.
X Y X Y X Y X Y
164 166 164 168 166 166 166 168
166 171 166 173 169 166 169 168
169 171 169 173 171 166 171 168
171 171 171 173 171 176 173 168
173 171 173 176 173 178 176 171
176 173 176 176 178 176 178 178
Fonte: Spiegel (1970, p.286), com adaptaes.
9
O diagrama de disperso a seguir representa as observaes da tabela
anterior. Indica uma correlao positiva, como era de se esperar que exista uma
tendncia de que filhos de pais altos tenham alturas inferiores s alturas mdias de
seus pais, enquanto os filhos de pais baixos tenham alturas superiores s alturas
mdias de seus pais.
Grfico de Disperso
164
166
168
170
172
174
176
178
180
162 164 166 168 170 172 174 176 178 180
Altura mdia dos pais (X)
Altu
ra d
o fil
ho (Y
)
Fig.08- Grfico de correlao positiva.
3.6 MODELO DA REGRESSO LINEAR SIMPLES
O problema de se determinar equaes de curvas que se ajuste a
determinados conjuntos de dados observados chamado ajustamento de curvas.
Na prtica, o prprio diagrama de disperso geralmente sugere o tipo de curva a ser
adotada. Assim, para as Figuras 1 e 2 poderamos usar a reta (Y = aX + b) enquanto
que para a Figura 3, tentaramos uma parbola (Y = aX2 + bX + c).
Um dos principais objetivos do ajustamento estimar uma das variveis (a
varivel dependente) em funo da outra (varivel independente). Tal processo de
estimativa denominado regresso. Diremos que um dado valor de Y depende, em
parte, do correspondente valor X. Por exemplo: a altura de um indivduo (Y)
depende, em parte, da altura mdia de seus pais (X). Simplificaremos est
dependncia por uma relao linear entre X e Y, tal como: Y X = + . Fixando valores para e , a equao Y X = + a equao de uma reta. Por exemplo, se 1 = e 2 = , a equao 1 2Y X= + representa uma reta, num par de eixos cartesianos. Para desenharmos esta reta, basta atribuir dois valores para X
10
e calcular os correspondentes Y. Digamos: X=0 Y=1+2(0) =1 e X=1 Y=1+2(1)=3 com estes dois pontos, podemos traar a reta:
Representao grfica da equao Y=1+2X
0; 1
1; 3y = 2x + 1
0
0,5
1
1,5
2
2,5
3
3,5
0 0,2 0,4 0,6 0,8 1 1,2
X
Y
Ao observamos um conjunto de observaes (X, Y), verificaremos que, em
geral, os pontos no esto exatamente sobre uma reta, mas flutuam em torno de
alguma reta imaginria. Ento, um modelo mais adequado para um par de
observaes Y X = + + , onde representa o efeito aleatrio, isto , o efeito de uma infinidade de fatores que afetam a observao Y de forma aleatria.
Por exemplo: a altura de um indivduo (Y) no depende somente da altura
mdia de seus pais (X), mas tambm, de sua alimentao, do gentipo de seus
ancestrais e de uma infinidade de outros fatores, representados no modelo por . No modelo Y X = + + , chamaremos de parte estrutural a parcela de Y determinada por X, isto , X + . O procedimento inicial da anlise de regresso produzir uma estimativa para esta parte, a partir de uma amostra de observaes
(X,Y).
3.7 ESTIMATIVAS DOS PARMETROS E A idia bsica da construo da parte estrutural do modelo, supostamente
linear, encontrar a reta que passa mais prxima possvel dos pontos observados.
Representaremos esta reta por Y a bX= + e a chamaremos de reta de regresso, equao de regresso ou reta do ajuste timo.
11
A obteno da equao de regresso, pelo mtodo dos mnimos quadrados,
consiste em fazer com que a soma quadrtica dos efeitos aleatrios, 2 , seja a menor possvel. O chamado mtodo dos mnimos quadrados fornece as seguintes
expresses para a equao de regresso.
( )22.
.i i i i
i i
n X Y X Yb
n X X
=
e
i iY b Xan=
Onde:
n : nmero de pares (x, y) observados (tamanho da amostra);
.i iX Y : Somatrio dos produtos x.y (primeiramente fazem-se os produtos x.y, relativos a todos os pares observados e, depois, efetua-se a soma dos
resultados destes produtos);
iX : soma dos valores observados da varivel X; iY : soma dos valores observados da varivel Y;
2iX : soma dos quadrados dos valores X (primeiro elevam-se os valores de
X ao quadrado e, depois, efetua-se a soma).
Outra forma de se calcular o a por meio da frmula: xayb = sendo _x a
mdia aritmtica dos X; e _
y a mdia aritmtica dos Y.
Exemplo 1:
Ilustraremos a obteno da equao de regresso, com parte das
observaes da altura mdia dos pais (X) e altura do filho (Y), extradas da do
exemplo anterior. A tabela a seguir mostra os clculos dos somatrios.
12
Tabela 3 - Clculos dos somatrios DADOS CLCULOS INTERMEDIRIOS
X Y X2 X.Y
164 166 26.896 27.224
166 166 27.556 27.556
169 171 28.561 28.899
169 166 28.561 28.054
171 171 29.241 29.241
173 171 29.929 29.583
173 178 29.929 30.794
176 173 30.976 30.448
178 178 31.684 31.684
iX =1.539 iY =1.540 2iX =263.333 .i iX Y =263.483 Estimativa dos parmetros
( )( ) ( ) ( )
( ) ( )2 22. 9. 263483 1539 . 1540 1287 0,872
14769. 263333 1539.i i i i
i i
n X Y X Yb
n X X
= = = =
( ) ( )1540 0,872 . 1539 22,009
i iY b Xan = = =
Onde temos a reta de regresso 22 0,872Y X= + , para traar a reta no plano formado pelos eixos X e Y, basta atribuir dois valores para X e calcular os
correspondentes valores de Y , pois por dois pontos passa uma, e apenas uma, reta.
Observe a figura a seguir.
Grfico de disperso
164
166
168
170
172
174
176
178
180
160 165 170 175 180 185
Altura mdia dos pais (X)
Altu
ra d
o fil
ho (Y
)
Fig.09 Reta de regresso.
Y a bX= +
13
Interpretao:
Com respeito aos nove indivduos observados, podemos predizer a altura de
um filho ( Y ), a partir de uma dada altura mdia de seus pais, X, por meio da
equao 22 0,872Y X= + . Por exemplo: para uma altura mdia dos pais de x=175 cm, temos uma estimativa para a altura do filho de
( ) ( ) 22 0,872 22 0,872 . 175 174 .Y X cm= + = + = O coeficiente b, que no caso 0,872, fornece uma estimativa da variao
esperada de Y, a partir da variao de uma unidade em X. O sinal deste coeficiente
indica o sentido do relacionamento, como positivo, indica uma correlao positiva
entre as variveis X e Y, para os nove indivduos em estudo.
Exemplo 2:
Um executivo de publicidade pode prever as vendas da companhia baseado
nos gastos de propaganda. Um administrador de marketing conduz um estudo para
prever as vendas da companhia por meio da relao com dinheiro gasto em
propaganda. Os dados esto dispostos na tabela a seguir.
Tabela 4 - Vendas da companhia por meio da relao com dinheiro gasto em propaganda
Empresas
Gasto com Propaganda
(em U$ 1000,00) (X)
Vendas da empresa (em U$
1000,00) (Y)
X.Y X2
1 540,00 5,80 3132,00 291600,00
2 294,00 2,60 764,40 86436,00
3 440,00 4,00 1760,00 193600,00
4 624,00 6,80 4243,20 389376,00
5 252,00 2,00 504,00 63504,00
6 295,00 2,70 796,50 87025,00
7 372,00 4,00 1488,00 138384,00
8 473,00 4,90 2317,70 223729,00
Total iX =3290,00 iY =32,80 .i iX Y =15005,80 2iX =1473654,00
14
Grfico de disperso dos dados
Grafico de disperso
0
1
2
3
4
5
6
7
8
200 250 300 350 400 450 500 550 600 650Gastos com Propaganda (em US$1,000.00)
Vend
as d
a Em
pres
a (e
m U
S$1,
000.
00)
Fig.10 Grfico de disperso dos dados.
Estimativa dos parmetros
( )( ) ( ) ( )
( ) ( )2 22. 8. 15005,80 3290,00 . 32,80 12134,4 0,013
9651328. 1473654,00 3290,00.i i i i
i i
n X Y X Yb
n X X
= = = =
( ) ( )32,80 0,013 . 3290 1,2468
i iY b Xan = = =
Onde temos a reta de regresso 1,246 0,013Y X= + . Para traar a reta no plano formado pelos eixos X e Y, basta atribuir dois valores para X e calcular os
correspondentes valores de Y , pois, por dois pontos passa uma, e apenas uma,
reta. Veja o grfico anterior.
Interpretao:
Com respeito s oito empresas observadas, podemos predizer as vendas de
uma empresa ( Y ), a partir de um dado gasto com propaganda, X, por meio da
equao 1,246 0,013Y X= + .
1,246 0,013Y X= +
15
Por exemplo: para um gasto com propaganda de x=US$2500, temos uma
estimativa para as vendas de ( ) 1,246 0,13 1,246 0,013. 2500 $31,254Y X US= + = + = (em US$ 1000).
Observe que quando no se gasta nenhum dlar com propaganda (x=0),
prevemos uma queda nas vendas de US$1,246 (US$1000), valor de a. Tambm observe que, para cada U$1000 de dlar investido em propaganda vamos ter um
acrscimo de 0,013 nas vendas, valor de b. O fato de b ter um valor menor que 1,00, indica que os incrementos na previso de vendas tm uma defasagem (0,013 ou
1,3%) em relao aos incrementos com gastos em propaganda. Se o valor de b tivesse sido maior que 1,00, ento, os incrementos na previso de vendas teriam
excedido os incrementos com gastos em propaganda, se o valor de b tivesse sido negativo, em razo de uma correlao negativa subjacente, ento incrementos em
gastos com propaganda teriam acarretado redues, e no acrscimos, na previso
de vendas da empresa.
3.8 COEFICIENTE DE DETERMINAO (r2)
O coeficiente de determinao o quadrado do coeficiente de correlao
[Coeficiente de determinao = (coeficiente de correlao)2]. uma medida descritiva da proporo da variao de Y que pode ser explicada por X, segundo o
modelo especificado.
No exemplo em que estudamos a relao linear dinheiro gasto em
propaganda e as vendas de uma companhia, obtemos um coeficiente de correlao
de r=0,9899. Ento r2 = 0,9799 ou 97,99%.
Interpretao:
Dentre as empresas estudadas, 97,99% da variao nas vendas da
companhia so explicadas pela variao nos gastos com propaganda. Os 2,01% (1-
0,9799 ou 100-97,99) restantes so inexplicados e se devem ao acaso ou a outras
variveis.
Acesse a Ferramenta Atividades e realize a Atividade 1.