28
Capítulo 2 Noções de Álgebra Linear e Teoria de Matrizes Neste Capítulo procede-se a uma breve revisão dos conceitos fundamentais em Álgebra Linear e Teoria de Matrizes que serão necessários para a compreensão dos aspectos geométricos associados ao estudo dos modelos. A maioria destes conceitos foram já estudados na disciplina de Complementos de Álgebra e Análise, no contexto dos espaços lineares R n . Aqui são dadas definições mais gerais, embora a sua aplicação fundamental será a vectores de R n . Alguns dos resultados aqui referidos são discutidos em mais pormenor nos apontamentos da disciplina de Estatística Multivariada. No contexto dos espaços R n , os conceitos podem ser aprofundados nos apontamentos da disciplina de Complementos de Álgebra e Análise deste Mestrado. 2.1 Espaço linear, independência linear, base Definição 2.1 Seja L um conjunto no qual se definem duas operações (fechadas em L): (i) Uma operação binária designada soma vectorial x, y L x + y L (ii) Uma operação designada multiplicação escalar (real) x LIR αx L O conjunto L, com estas duas operações designa-se um espaço linear (ou vectorial) se se verificarem as seguintes propriedades: (S) A operação soma (vectorial) em L: (S1) é comutativa, isto é, x + y = y + x, x, y L. 15

Apostila de AL

Embed Size (px)

DESCRIPTION

Álgebra Linear

Citation preview

Page 1: Apostila de AL

Capítulo 2

Noções de Álgebra Linear e Teoria deMatrizes

Neste Capítulo procede-se a uma breve revisão dos conceitos fundamentais em Álgebra Linear e Teoriade Matrizes que serão necessários para a compreensão dos aspectos geométricos associados ao estudodos modelos. A maioria destes conceitos foram já estudados na disciplina de Complementos de Álgebrae Análise, no contexto dos espaços lineares R

n. Aqui são dadas definições mais gerais, embora a suaaplicação fundamental será a vectores de R

n. Alguns dos resultados aqui referidos são discutidos emmais pormenor nos apontamentos da disciplina de Estatística Multivariada. No contexto dos espaçosR

n, os conceitos podem ser aprofundados nos apontamentos da disciplina de Complementos de Álgebrae Análise deste Mestrado.

2.1 Espaço linear, independência linear, base

Definição 2.1 Seja L um conjunto no qual se definem duas operações (fechadas em L):

(i) Uma operação binária designada soma vectorial

x,y ∈ L → x + y ∈ L

(ii) Uma operação designada multiplicação escalar (real)

x ∈ L, α ∈ IR → αx ∈ L

O conjunto L, com estas duas operações designa-se um espaço linear (ou vectorial) se se verificaremas seguintes propriedades:

(S) A operação soma (vectorial) em L:

(S1) é comutativa, isto é, x + y = y + x, ∀x,y ∈ L.

15

Page 2: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

(S2) é associativa, isto é, x + (y + z) = (x + y) + z, ∀x,y, z ∈ L.

(S3) tem elemento nulo, isto é, ∃0 ∈ L tal que 0 + x = x, ∀x ∈ L.

(S4) admite elementos inversos, isto é, ∀x ∈ L, ∃−x ∈ L tal que x + (−x) = 0.

(ME) A operação multiplicação escalar em L:

(ME1) é quase-associativa, isto é, α(βx) = (αβ)x, ∀α, β ∈ IR, ∀x ∈ L.

(ME2) tem o número real 1 como elemento identidade, isto é, 1x = x, ∀x ∈ L.

E ainda:

(ME3) A multiplicação escalar é distributiva em relação à soma vectorial, isto é,

α(x + y) = αx + αy, ∀α ∈ IR, ∀x,y ∈ L

(ME4) A multiplicação escalar é distributiva em relação à soma de números reais, isto é,

(α + β)x = αx + βx, ∀α, β ∈ IR, ∀x ∈ L

Observações:

1. Nesta definição, admitiu-se que os escalares envolvidos na multiplicação escalar são números reais.Também se definem espaços lineares em que os escalares são números complexos, mas o facto denão serem utilizados nesta disciplina aconselha a definição mais simples aqui utilizada.

2. Os elementos de um espaço linear são designados vectores. Esta terminologia tem a sua origem nofacto dos espaços lineares mais frequentes se definirem nos habituais espaços euclidianos: L = R

n.

3. O inverso aditivo de um vector x ∈ L resulta da sua multiplicação escalar pelo número real -1:−x = (−1)x, ∀x ∈ L.

4. A operação da subtracção está implicitamente definida em qualquer espaço linear: x−y = x+(−y),∀x,y ∈ L.

5. O elemento nulo da operação soma num espaço linear é único.

6. Cada vector de um espaço linear tem um inverso aditivo único.

7. A multiplicação escalar de qualquer vector x ∈ L pelo número real zero resulta no elemento nuloda soma vectorial: 0x = 0, ∀x ∈ L.

Exemplos de espaços lineares:

1. IRn (∀n ∈ IN), com as habituais operações.

2. IMn×p , o espaço de todas as matrizes reais de tipo n×p , com a habitual operação de soma dematrizes e de produto de uma matriz por um número real.

3. Sp, o espaço de todas as matrizes simétricas de tipo p×p .

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 16

Page 3: Apostila de AL

2.1. ESPAÇO LINEAR, INDEPENDÊNCIA LINEAR, BASE

4. O conjunto de todos os polinómios de grau ≤ n (incluíndo o polinómio 0), com as habituais oper-ações.

5. O conjunto das funções reais contínuas no intervalo [a,b], com as habituais operações: h = f + g seh(x) = f(x) + g(x), ∀x ∈[a,b], e h = αf , se h(x) = αf(x), ∀x ∈[a,b].

Conjuntos com operações associadas que não são espaços lineares:

1. IR+0 com as habituais operações (pois, por exemplo, o conjunto não admite elementos inversos para

a soma).

2. ZZ com as habituais operações (pois, por exemplo, o conjunto não é fechado para a multiplicaçãoescalar).

Definição 2.2 Seja L um espaço linear.

1. Sejam x,y ∈ L e α, β ∈ IR. O vector αx + βy ∈ L diz-se uma combinação linear dos vectores x

e y.

2. Um subconjunto M ⊆ L diz-se um conjunto gerador de L se qualquer vector x ∈ L se podeescrever como combinação linear de elementos de M.

3. Um conjunto {xi}ni=1 de vectores de L diz-se linearmente independente se

∑n

i=1 αixi = 0 ⇒αi = 0, ∀i = 1, ..., n.

4. Um conjunto linearmente independente e gerador de um espaço linear L diz-se uma base de L.

Observações:

1. Quando um conjunto de vectores não é linearmente independente, diz-se linearmente dependente e,nesse caso, pelo menos um dos vectores do conjunto se pode escrever como combinação linear dosrestantes.

2. Sejam M e N conjuntos de vectores no espaço linear L, tais que M⊂N. Então:

(a) M linearmente dependente ⇒ N linearmente dependente.

(b) N linearmente independente ⇒ M linearmente independente.

3. Os espaços lineares que possuam uma base com um número finito de vectores são particularmente“bem comportados”. Todos os espaços lineares que nos interessam (no contexto descritivo em quenos situamos) estão neste caso.

Daqui em diante, quando se falar em espaços lineares admite-se sempre implicitamente

que possuem uma base de dimensão finita.

Teorema 2.1 Qualquer base de um espaço linear L tem o mesmo número de elementos.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 17

Page 4: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Definição 2.3 O número de elementos de qualquer base de um espaço linear L designa-se a dimensão

do espaço L e representa-se por dim(L).

Teorema 2.2 Seja L um espaço linear n-dimensional e {xi}ni=1 uma sua base. Então, qualquer vector

x ∈L se pode escrever de forma única como combinação linear dos vectores da base {xi}ni=1.

Exemplos:

1. IR2 é um espaço de dimensão 2. Uma base de IR2 é constituída pelos vectores x1 =

[

1

2

]

e

x2 =

[

1

1

]

. Qualquer vector

[

a

b

]

se pode escrever como (b − a)x1 + (2a − b)x2.

Nota: Veja-se ainda o Exercício 5).

2. IRn é um espaço n-dimensional. A base de IRn constituída pelos vectores {ei}ni=1, onde ei é um

vector com 1 na i-ésima posição e os restantes elementos iguais a zero, designa-se a base canónica

de IRn.

3. IMn×p é um espaço np-dimensional. A base canónica deste espaço é constituída pelas matrizes Eij

(i=1,...,n ; j=1,...,p), que têm um 1 na i-ésima linha, j-ésima coluna, e zero nas restantes posições.

4. Sp é um espaço p(p + 1)/2-dimensional. Uma base do espaço 6-dimensional S3 é dada por:

1 0 0

0 0 0

0 0 0

,

0 0 0

0 1 0

0 0 0

,

0 0 0

0 0 0

0 0 1

,

0 1 0

1 0 0

0 0 0

,

0 0 1

0 0 0

1 0 0

,

0 0 0

0 0 1

0 1 0

5. O espaço linear dos polinómios de grau ≤ n é de dimensão n+1. Uma base deste espaço é constituídapelos polinómios {1, x, x2, x3, ..., xn}.

Notas:

1. O espaço linear das funções contínuas em [a,b] é de dimensão infinita.

2. Num espaço linear de dimensão n, nenhum conjunto de menos de n vectores pode gerar o espaço enenhum conjunto de mais de n vectores pode ser linearmente independente.

Definição 2.4 Um subconjunto M de um espaço linear L diz-se um subespaço linear se M tiver aspropriedades que definem um espaço linear.

Mas existe uma caracterização simples de subespaços lineares:

Teorema 2.3 Seja M um subconjunto não vazio dum espaço linear L. Então M é um subespaço linearde L se e só se fôr fechado para qualquer combinação linear dos seus elementos, i.e., se:

αx + βy ∈ M , ∀x,y ∈ M, α, β ∈ IR

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 18

Page 5: Apostila de AL

2.2. TRANSFORMAÇÕES LINEARES

Exemplos:

1. IR é um subespaço linear de IR2.

2. Sp é um subespaço linear de Mp×p.

3. Para qualquer espaço linear L cujo elemento nulo da soma é 0, {0} é um subespaço linear de L.

4. Seja M um conjunto de elementos de L. O conjunto de todas as combinações lineares de elementosde M, representado por <M> é um subespaço linear de L, designado o subespaço gerado peloconjunto M.

Teorema 2.4 Seja L um espaço linear e M, N dois seus subespaços lineares. Então M∩N também é umsubespaço linear de L.

Nota: M∪N não é, em geral, um subespaço linear. (Construa um exemplo de M, N subespaços, mas emque M∪N não é subespaço).

2.2 Transformações Lineares

Relembremos ainda o conceito e algumas propriedades das transformações (aplicações) lineares.

Definição 2.5 Sejam L,M espaços lineares. Uma transformação (aplicação) linear A de L em Mé uma aplicação que associa a um vector x ∈L, outro vector A(x) ∈M, tal que:

A(αx + βy) = αA(x) + βA(y) , ∀x,y ∈ L , ∀α, β ∈ IR

Observações:

1. É habitual escrever-se Ax em vez de A(x). Se M=L fala-se apenas numa aplicação linear em L.

2. Se L=Rp e M=R

n, então as transformações lineares correspondem a matrizes de tipo n × p.

3. Necessariamente, se A é uma transformação linear, a imagem do elemento nulo de L será o elementonulo de M. De facto, 0L = x−x = x +(−1)x para qualquer elemento x ∈ L. Ora, pela definição deaplicação (transformação) linear, tem-se A0L = A(x+(−1)x) = Ax+(−1)Ax = Ax−Ax = 0M .

Definição 2.6 Sejam L e M espaços lineares e A uma transformação linear de L em M. Considerem-sedois subconjuntos, definidos pela transformação linear A : L −→ M:

1. O conjunto imagem de A, representado por C(A), é o conjunto de elementos de M que sãoimagens da transformação A, isto é, é o conjunto de elementos y ∈ M que se podem escrever naforma y = Ax, para algum elemento x ∈ L.

2. O núcleo de A, representado por N (A), é o conjunto de elementos de L cuja imagem pela aplicaçãoA é o elemento nulo de L, isto é, é o conjunto dos vectores x ∈L tais que Ax = 0 ∈M.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 19

Page 6: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Figura 2.1: Os conjuntos Núcleo e Imagem, definidos por uma aplicação linear entre dois espaços lineares.

������������������������������������������

������������������������������������������

��������������������������������������������������

��������������������������������������������������

Espaço Linear Espaço Linear

L M

Aplicação Linear A

0

N (A)

C(A)

Teorema 2.5 Sejam L e M espaços lineares e A uma transformação linear de L em M. Então, o núcleode A, N (A) é um subespaço de L, e o conjunto imagem, C(A), é um subespaço de M.

Exercício 2.1 Demonstrar este Teorema.

Observação. Caso a transformação linear A seja uma aplicação dum espaço L nele próprio, A definedois subespaços em L: o conjunto imagem C(A) e o núcleo N (A).

Definição 2.7 Sejam L e M espaços lineares e A uma transformação linear de L em M. A dimensão dosubespaço imagem C(A) diz-se a característica da transformação A e representa-se por car(A). Assim,car(A) = dim (C(A)).

Generalizemos agora um resultado já estudado no contexto das transformações lineares entre espaçoseuclidianos, ou seja, no contexto de matrizes, e que relaciona a característica duma transformação linearcom as dimensões do seu núcleo e do subespaço de partida.

Teorema 2.6 Seja A uma transformação linear entre os espaços lineares L e M. Então

dim(L) = dim (N (A)) + dim (C(A)) . (2.1)

Demonstração. Designe-se a dimensão do espaço L por n, e a dimensão do subespaço N (A) por k.Pretende-se mostrar que a dimensão de C(A) é n − k. Como dim (N (A)) = k, existe uma base de k

vectores, {xi}ki=1, para esse subespaço de L. Tendo em conta que dim(L) = n, é possível acrescentar mais

n − k vectores {xi}ni=k+1 a essa base para se obter uma base de L. Ora, qualquer vector x ∈ L pode

ser escrito como combinação linear dos vectores dessa base de L: x =n∑

i=1

αixi. A imagem desse vector

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 20

Page 7: Apostila de AL

2.2. TRANSFORMAÇÕES LINEARES

genérico de L pode então ser escrita como:

Ax = A

(

n∑

i=1

αixi

)

= A

(

k∑

i=1

αixi +

n∑

i=k+1

αixi

)

.

Tendo em conta que A é uma transformação linear e que o vector dado pelo primeiro dos dois somatóriosna expressão anterior pertence ao núcleo da aplicação A (uma vez que é combinação linear dos vectoresduma base desse subespaço N (A)), tem-se que qualquer imagem através de A se pode escrever como

Ax = A

(

k∑

i=1

αixi

)

+

n∑

i=k+1

αi (Axi) =

n∑

i=k+1

αi (Axi) .

Por outras palavras, qualquer vector do espaço imagem C(A) se pode escrever como combinação linear dosn− k vectores {Axi}n

i=k+1 (isto é, os n− k vectores {Axi}ni=k+1 formam um conjunto gerador de C(A)),

pelo que a dimensão desse subespaço não pode exceder n − k. Falta confirmar que essa dimensão não éinferior a n − k, ou seja que os n − k vectores {Axi}n

i=k+1 são linearmente independentes (constituindo,por isso, uma base de C(A)). Isso equivale a mostrar que

n∑

i=k+1

βiAxi = 0 =⇒ βi = 0, ∀i = k + 1, ..., n .

Masn∑

i=k+1

βiAxi = A

(

n∑

i=k+1

βixi

)

= 0 significa que o vectorn∑

i=k+1

βixi pertence ao núcleo de A,

pelo que pode ser escrito como combinação linear dos k vectores da base desse subespaço, {xi}ki=1. Por

outras palavras, existem constantes {αi}ki=1, tais que

n∑

i=k+1

βixi =k∑

i=1

αixi ⇐⇒n∑

i=k+1

βixi −k∑

i=1

αixi = 0 .

Mas o membro esquerdo desta igualdade é uma combinação linear dos n vectores {xi}ni=1 que sabemos

constituirem uma base de L. Tratando-se duma base, esse conjunto de vectores é linearmente indepen-dente, pelo que todos os coeficientes da referida combinação linear (de soma igual ao vector nulo) terãode ser zero. Assim, em particular, βi = 0, ∀i, como se queria mostrar. Logo, dim (C(A)) = n − k. ∇

Encerramos esta discussão com um resultado interessante: as transformações lineares entre espaços lin-eares formam, elas próprias, um espaço linear.

Teorema 2.7 O conjunto T (L, M) das transformações lineares de L em M constitui um espaço linearcom as operações (A + B)x = Ax + Bx e (αA)x = α(Ax).

Observação. Em particular, tem-se uma transformação linear nula, 0, que é elemento nulo para aoperação soma em T (L, M), isto é, tal que para qualquer outra aplicação linear A se verifica A+0 = A.Essa transformação linear nula sobre L caracteriza-se pelo facto de 0x = o, ∀x ∈L, e onde o designao elemento nulo do espaço linear M. É também consequência deste Teorema que exista sempre umatransformação linear que seja o inverso aditivo de uma dada transformação linear. Ou seja, dada umatransformação linear de L em M, A, existe sempre outra transformação linear de L em M, −A, tal queA + (−A) = 0.

Exercício 2.2 Demonstrar este Teorema.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 21

Page 8: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

2.3 Produtos internos, Normas, Distâncias, Ângulos

Definição 2.8 Um produto interno num espaço linear L é uma função

< ·, · >: L × L −→ IR

com as seguintes propriedades:

1. < x,y >=< y,x > ∀x,y ∈ L [Simetria]

2. < α1x1 + α2x2,y >= α1 < x1,y > +α2 < x2,y >, ∀x1,x2,y ∈ L, ∀α1, α2 ∈ IR [Bilinearidade]

3. < x,x > ≥ 0, ∀x ∈ IR, com a igualdade se e so se x = 0 [Definida positiva]

Nota. Na disciplina de Complementos de Álgebra e Análise foi utilizada uma notação diferente para oproduto interno entre vectores de R

n: x|y ou x · y, em vez de < x,y >.

Observações:

1. A designação de bilinearidade resulta do facto, dada a simetria, a linearidade se aplicar a qualquerdos argumentos do produto interno. Por outras palavras, também se verifica < x, α1y1 + α2y2 >=

α1 < x,y1 > +α2 < x,y2 >, ∀y1,y2,x ∈ L, ∀α1, α2 ∈ IR.

2. Se 0L representa o elemento nulo do espaço linear L, então verifica-se necessariamente que o produtointerno de 0L com qualquer elemento de L é igual a zero. De facto,

< x , 0L > = < x , y − y > , ∀ y ∈ L

= < x , y > − < x , y > = 0 ,

onde a segunda igualdade resulta da simetria e bilinearidade do produto interno, juntamente como facto de −y = (−1) · y (veja-se a observação 3, na página 16).

Definição 2.9 Uma norma (comprimento) é uma função real ‖ · ‖ : L −→ IR, que verifica as seguintespropriedades:

1. (a) ‖x‖ ≥ 0, ∀x ∈ L [Nao − negatividade]

(b) ‖x‖ = 0 ⇔ x = 0 [Positividade]

2. ‖c · x‖ = |c| · ‖x‖, ∀x ∈ L, ∀c ∈ IR [Homogeneidade]

3. ‖x + y‖ ≤ ‖x‖ + ‖y‖, ∀x,y ∈ L [Desigualdade Triangular]

Observações:

1. Um espaço linear com uma norma diz-se um espaço normado.

2. Um vector de norma 1 num espaço normado diz-se um vector unitário.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 22

Page 9: Apostila de AL

2.3. PRODUTOS INTERNOS, NORMAS, DISTÂNCIAS, ÂNGULOS

Teorema 2.8 Se L é um espaço linear com a norma ‖ · ‖, verifica-se:

1. ‖x − y‖ ≥∣

∣‖x‖ − ‖y‖

∣, ∀x,y ∈L

2. ‖x − y‖ ≤ ‖x − z‖ + ‖z − y‖ , ∀x,y, z ∈ L

Exercício 2.3 Demonstrar este Teorema.

Definição 2.10 Num espaço linear L com produto interno < ·, · >, pode sempre definir-se uma normaa partir do produto interno, mediante a relação:

‖x‖ =√

< x,x >, ∀x ∈ L

Nesse caso, falamos da norma induzida pelo produto interno.

Observação: As normas que utilizaremos nesta disciplina serão sempre normas definidas por um produtointerno.

Em IRn, o produto interno costuma definir-se como:

< x,y >= xty =n∑

i=1

xiyi

Desta definição resulta a norma:

‖x‖ =√

< x,x > =

n∑

i=1

x2i

Teorema 2.9 Se L é um espaço linear com a norma ‖ · ‖, induzida pelo produto interno < ·, · >, tem-se:

‖x ± y‖2 = ‖x‖2 ± 2 < x,y > +‖y‖2 , ∀x,y ∈ L .

Exercício 2.4 Demonstrar este Teorema.

Teorema 2.10 (Cauchy-Schwarz-Buniakovski) Seja L um espaço com produto interno e seja ‖ · ‖ anorma induzida pelo produto interno. Então:

∣< x,y >∣

∣ ≤ ‖x‖ · ‖y‖ , ∀x,y ∈ L

tendo-se a igualdade se e só se y = αx para algum escalar α ∈ IR.

Definição 2.11 Uma distância num espaço normado L é uma função real d : L×L → IR, definidacomo:

d(x,y) = ‖x − y‖ , ∀ x,y ∈ L

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 23

Page 10: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Observação: A distância é uma função simétrica e não-negativa. Tem-se d(x,y) = 0 ⇒ x = y.

Definição 2.12 Seja L um espaço linear com produto interno < ·, · >. Sejam x,y ∈L. O ângulo entre

x,y 6= 0 define-se como ∠(x,y) = arccos(

<x,y>

‖x‖·‖y‖

)

.

Observações:

1. Da definição resulta que o cosseno do ângulo entre x e y (x,y 6= 0) é dado por cos(x,y) = <x,y>

‖x‖·‖y‖ .

2. Quando x = 0 ou y = 0, o quociente que define o cosseno resulta numa indeterminação, nãoestando nesse caso o ângulo bem definido.

Definição 2.13 Seja L um espaço linear com produto interno. Dois vectores dizem-se ortogonais se< x,y >= 0. Nesse caso, escreve-se x ⊥ y.

Observação:

1. Repare-se que a ortogonalidade depende do produto interno usado.

2. Da definição anterior resulta que, para x,y 6= 0, x ⊥ y ⇔ cos(x,y) = 0.

3. O vector nulo 0 é ortogonal a qualquer vector de L, como se viu na observação 2 da página 22.

Teorema 2.11 Num espaço linear L com produto interno, um conjunto de n vectores não-nulos, ortog-onais entre si dois a dois, é necessariamente um conjunto de vectores linearmente independente.

Definição 2.14 Seja L um espaço linear n-dimensional com produto interno. Uma base {xi}ni=1 de L

diz-se uma base ortonormada se os vectores da base forem todos:

1. unitários, i.e., de norma um (‖xi‖ = 1, ∀i).2. ortogonais entre si (< xi,xj >= 0 , se i 6= j).

Observações:

1. A base canónica de IRn é uma base ortonormada para o habitual produto interno em IRn.

2. Qualquer espaço com produto interno possui uma base ortonormada. Recorde-se que o processo deortogonalização de Gram-Schmidt permite transformar uma base genérica numa base ortonormada.

Definição 2.15 Seja L um espaço linear com produto interno e seja M um subespaço de L. O conjuntode vectores de L que são ortogonais a todos os vectores de M designa-se o complemento ortogonal deM em L, e representa-se por M⊥.

Teorema 2.12 Seja L um espaço linear com produto interno e seja M um subespaço de L. O complementoortogonal de M em L, M⊥, é um subespaço linear de L.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 24

Page 11: Apostila de AL

2.4. PROJECÇÕES

2.4 Projecções

2.4.1 Projecções em espaços lineares genéricos

Definição 2.16 Seja L um espaço linear e L1, L2 dois seus subespaços lineares.

1. O conjunto de elementos x ∈L que se podem escrever como x = x1 + x2 para algum vector x1 ∈L1

e algum vector x2 ∈L2, diz-se o conjunto soma de L1 e L2 e representa-se por L1+L2.

2. Se cada vector x ∈L1+L2 tem uma decomposição única como soma de uma parcela em L1 e umaparcela em L2 (i.e., uma decomposição única da forma x = x1 + x2 com x1 ∈L1 e x2 ∈L2), diz-seque L1 e L2 definem uma soma directa do espaço L1+L2 e escreve-se L1⊕L2.

Exemplo 2.1 Seja L= IR2. Os subespaços próprios de IR2 são os subespaços de dimensão um, isto é, asrectas que passam na origem. Em particular, o eixo dos xx e o eixo dos yy são subespaços de IR2, quedesignaremos por Lx e Ly, respectivamente. Pelos conhecimentos anteriores do espaço IR2, é evidenteque IR2 = Lx ⊕ Ly, uma vez que qualquer ponto (x, y) ∈ IR2 se pode escrever de forma única comoa soma de um elemento no eixo dos xx (o vector (x, 0) ∈ Lx) e um elemento no eixo dos yy (o vector(0, y) ∈ Ly).

Exemplo 2.2 Seja L= IR3. Os subespaços de dimensão um em IR3 são as rectas que passam na origem.Os subespaços de dimensão dois em IR3 são os planos que contêm a origem. Seja L(x,y) o plano coordenadox0y, e Lz o eixo dos zz. Tem-se IR3 = L(x,y) ⊕ Lz. De facto, qualquer vector (x, y, z) ∈ IR3 se podeescrever de forma única como a soma dum vector no plano coordenado x0y (o vector (x, y, 0)) e um vectorno eixo dos zz (o vector (0, 0, z)).

Exemplo 2.3 Seja L= Mp×p, o espaço linear das matrizes quadradas de dimensão p×p. Seja L1 = Sp×p

o conjunto das matrizes simétricas p× p, que já vimos ser um subespaço linear de Mp×p. Chame-se anti-simétrica a uma matriz A (necessariamente quadrada) tal que At = −A. Seja L2 = Ap×p o conjunto dasmatrizes anti-simétricas p×p. É também fácil de verificar que Ap×p é igualmente um subespaço de Mp×p

(verifique!). É sempre possível escrever qualquer matriz quadrada como a soma duma matriz simétricae uma matriz anti-simétrica, ou seja, Mp×p = Sp×p + Ap×p. De facto, seja C ∈ Mp×p, com elementogenérico cij. Defina-se uma matriz S com elemento genérico sij = 1

2 (cij + cji), ou seja, S = 12 (C + Ct).

Esta matriz é obviamente simétrica, pois sij = sji, para qualquer i e j. Por outro lado, defina-se a matrizA com elemento genérico aij = 1

2 (cij − cji), ou seja, A = 12 (C−Ct). Esta matriz é anti-simétrica, uma

vez que At = 12 (C−Ct)t = 1

2 (Ct −C) = −A. Mas a soma de S e A é a matriz C: C = S+A, pelo queé sempre possível escrever uma matriz quadrada genérica como a soma duma matriz simétrica e outraanti-simétrica.

Exemplo 2.4 Seja L= IR3. Seja L(x,y) o plano coordenado x0y, e L(y,z) o plano coordenado y0z. Tem-se IR3 = L(x,y) + L(y,z), pois é sempre possível escrever qualquer elemento (x, y, z) ∈ IR3 como a somade um elemento no plano x0y (por exemplo, o vector (x, y, 0)) e um elemento no plano y0z (por exemplo,o vector (0, 0, z)). No entanto, esta soma não é uma soma directa, uma vez que a referida decomposiçãonão é única. Assim, também se pode escrever (x, y, z) como a soma dos vectores (x, y − 1, 0) ∈ L(x,y) e(0, 1, z) ∈ L(y,z).

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 25

Page 12: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Teorema 2.13 Seja L um espaço linear e L1, L2 dois seus subespaços lineares. A soma L1+L2 é umsubespaço de L.

Demonstração. Para provar que L1+L2 é subespaço de L há apenas que provar que L1+L2 é não-vazio efechado para combinações lineares dos seus elementos. Ora, qualquer subespaço tem de conter o elementonulo do espaço, logo 0L ∈ L1 e 0L ∈ L2, pelo que 0L = 0L + 0L ∈ L1+ L2. Por outro lado, se x,y ∈L1+L2, é porque ∃x1,y1 ∈ L1 e ∃x2,y2 ∈ L2 tais que x = x1 + x2 e y = y1 + y2. Mas então αx + βy

= α(x1 +x2)+ β(y1 +y2) = αx1 + αx2 + βy1 + βy2 (pela propriedade (ME3), já que x1,x2,y1,y2 ∈L).Assim:

αx + βy = (αx1 + βy1) + (αx2 + βy2)

onde a primeira parcela é um elemento de L1 e a segunda parcela é um elemento de L2, pois L1,L2 sãosubespaços. Logo, αx + βy ∈ L1+L2. ∇

Teorema 2.14 Seja L um espaço linear e M, N dois seus subespaços. Então L=M⊕N se e só se:

1. L=M+N

2. M ∩N={0}

Demonstração.

(⇒) Se L=M⊕N, é evidente que L=M+N. Falta provar que se x ∈ M∩N, então x=0. Seja x ∈ M∩N.Como x ∈ L, pode-se escrever de forma única como x = xM +xN , com xM ∈ M e xN ∈ N. Mas sex ∈ M, tem de ter-se x = xM , isto é, xN = 0. E se x ∈ N, tem de ter-se x = xN , isto é, xM = 0.Logo, x ∈ M∩N ⇒ x = 0.

(⇐) Se L=M+N, só falta provar que a decomposição de qualquer x ∈ L é única. Admita-se que existemduas decomposições de x ∈ L, x = xM +xN e x = yM +yN . Então, 0 = x−x = (xM −yM )+(xN −yN ), isto é, (xM − yM ) ∈ M é o inverso aditivo de (xN − yN ) ∈ N. Como M e N são subespaços,tem de ter-se (xN − yN ) ∈ M e (xM − yM ) ∈ N, isto é, (xM − yM ),(xN − yN ) ∈ M∩N. Mas essaintersecção só contém o elemento nulo 0, logo xM = yM e xN = yN . ∇

Exemplo 2.5 A decomposição do espaço de matrizes quadradas na soma do espaço de matrizes simétricae o espaço de matrizes anti-simétricas, discutido no exemplo 2.3 (página 25), é uma decomposição emsoma directa. De facto, para que uma matriz p × p fosse simultaneamento simétrica e anti-simétrica,seria necessário que, para qualquer i, j, se verificasse cij = cji = −cji. Ora, o único número real queé igual ao seu simétrico é o zero, pelo que teria de ter-se cij = 0, ∀ i, j. Assim, apenas a matriz nulapertence a Sp×p ∩ Ap×p, pelo que a soma referida no exemplo tem de ser directa.

O seguinte Teorema é imediato, a partir das definições de soma directa, base e dimensão de um subespaço.

Teorema 2.15 Seja L=M⊕N. Então:

1. A reunião de uma base de M com uma base de N constitui uma base de L.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 26

Page 13: Apostila de AL

2.4. PROJECÇÕES

2. dim(L)=dim(M)+dim(N)

Demonstração. Se L=M⊕N, qualquer vector x ∈ L se pode escrever de forma única como a soma deum vector xM ∈ M e outro vector xN ∈ N.

1. Dada uma base de M, xM pode ser escrito de forma única como combinação linear dessa base.De forma análoga, xN pode ser escrito de forma única como combinação linear duma base de N.Logo, qualquer vector x ∈L pode ser escrito de forma única como combinação linear do conjunto devectores que resulta de reunir as bases de M e N, pelo que esse conjunto é uma base de L. Note-seque não é possível que haja dependência linear ao juntar os vectores das bases de M e N, uma vezque apenas o vector nulo é comum a esses dois espaços.

2. O número de vectores da base de L construída na alínea anterior é a soma do número de vectoresdas bases de M e N. ∇

Teorema 2.16 Seja L um espaço linear com produto interno e M qualquer subespaço de L. Então:

L = M ⊕ M⊥ (2.2)

Demonstração. Pelo Teorema 2.14 sabemos que basta demonstrar que M∩M⊥ = {0} e que M+M⊥=L.

1. Seja x ∈ M ∩ M⊥. Então x ⊥ x ⇔ < x,x >= 0 ⇒ x = 0 (pela definição de produto interno).

2. Seja z ∈L, qualquer. Seja {xi}ki=1 uma base ortonormada de M. Então o vector x =

∑k

i=1 αixi comαi =< z,xi > , ∀i = 1, ..., k, pertence ao subespaço M. Se provarmos que o vector z − x ∈ M⊥,teremos L=M+M⊥. Ora, para qualquer vector xi da base, tem-se:

< z − x,xi > = < z,xi > − < x,xi > = αi −k∑

j=1

αj < xj ,xi > = αi − αi = 0

já que < xi,xj >= 0 se i 6= j, uma vez que a base é ortonormada. Assim, z−x é ortogonal a todosos vectores da base de M, pelo que tem de ser ortogonal a qualquer vector de M. ∇

Observações:

1. Isto significa que qualquer vector de L se pode sempre escrever de forma única como a

soma de um vector em M e de outro vector de M⊥, i.e., ortogonal a M.

2. O facto de L=M⊕M⊥ não invalida que L=M⊕N para outros subespaços N6=M⊥.

Definição 2.17 Seja L um espaço linear e M, N dois seus subespaços tais que L=M⊕N. Uma aplicaçãoP que associa a cada z ∈L a sua componente única em M (i.e., tal que se z = x+y, com x ∈M e y ∈N,se tem Pz = x) diz-se uma projecção de L sobre M, ao longo de N. Se N=M⊥, diz-se que P é aprojecção ortogonal de L sobre M.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 27

Page 14: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Observação: A demonstração da segunda parte do Teorema 2.16 significa que, caso seja conhecida

uma base ortonormada de M, {xi}ki=1, a projecção ortogonal de um vector genérico z ∈ L

sobre M será dada por z =∑k

i=1 < z,xi > xi.

Teorema 2.17 Seja L um espaço linear e M, N dois seus subespaços tais que L=M⊕N, e P uma projecçãosobre M, ao longo de N. Então P é uma aplicação linear.

Demonstração. Para verificar que P é uma aplicação linear, haverá que mostrar que ∀α, β ∈ IR

e ∀x,y ∈ L, se verifica P(αx + βy) = αPx + βPy. Ora, como L=M⊕N, temos, de forma única,x = xM + xN e y = yM + yN . Logo, como M e N são subespaços, αx + βy = (αxM + βyM ) +

(αxN + βyN ), sendo esta a decomposição única de αx + βy nas suas componentes em M e N. Assim,P(αx + βy) = αxM + βyM = αPx + βPy. ∇

Verifica-se então o seguinte resultado, que permite falar sempre em “o” projector sobre um subespaço, aolongo de outro.

Teorema 2.18 Dado um espaço linear L e uma soma directa L=M⊕N, o projector sobre M ao longo deN é único.

Demonstração. Seja P um projector sobre M ao longo de N, isto é, P é uma aplicação linear tal que,∀z ∈L, e dada a decomposição única de z = zM + zN , verifica: Pz = zM . Admita-se que existia outraaplicação linear Q que também projectasse sobre M ao longo de N. Então Pz = Qz, ∀z ∈ L. Mas nessecaso Pz −Qz = (P−Q)z = 0L, ∀z ∈L, onde 0L representa o elemento aditivo nulo em L. Logo (tendoem conta as observações feitas na página 21) P− Q tem de ser a aplicação nula, o que implica que P =

Q. ∇

Definição 2.18 Uma aplicação linear P num espaço linear L diz-se:

1. uma aplicação idempotente se P2 = P, onde por P2 se entende a aplicação P2(x) = P(P(x)).

2. uma aplicação identidade se Px = x, ∀x ∈L.

Observação. É usual indicar uma aplicação identidade utilizando a letra I.

Teorema 2.19 Seja P uma aplicação linear no espaço linear L, e I a aplicação identidade. Então:

1. P é uma projecção em L se e só se P é idempotente.

2. Se P é idempotente, P projecta sobre o seu subespaço imagem, C(P), ao longo do seu núcleo, N (P).

3. Se P é idempotente, I− P projecta sobre o núcleo de P, N (P), ao longo da subespaço imagem deP, C(P).

Munindo o espaço linear L dum produto interno, e sendo M um subespaço de L, verifica-se ainda

4. Se P é projecção ortogonal sobre M, então I − P é projecção ortogonal sobre M⊥.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 28

Page 15: Apostila de AL

2.4. PROJECÇÕES

Demonstração.

1. (⇒) Se P é uma projecção sobre um subespaço M ao longo de outro subespaço N (com L=M⊕N),um vector arbitrário z ∈ L, pode-se escrever de forma única como z = zM + zN para zM ∈M, zN ∈ N, e P devolve a componente (única) de z em M: Pz = zM . Nesse caso:

P2z = P(Pz) = PzM

Mas PzM = zM , pois se zM ∈ M, então zM = zM + 0 é a sua decomposição (única), e P éuma projecção sobre M ao longo de N. Logo:

P2z = Pz (= zM ), ∀z ∈ L

o que equivale a dizer que P2 = P.

(⇐) Seja P2 = P, N o núcleo de P e M o conjunto de vectores x ∈ L tais que Px = x. Sabe-seque N é um subespaço. M também o é (verifique que é não-vazio e fechado para combinaçõeslineares dos seus elementos). Vamos provar que L=M⊕N, isto é, que M∩N={0} e M+N=L.

(a) Vamos mostrar que se z ∈ M∩N =⇒ z = 0. Seja z ∈ N, então Pz = 0. Seja z ∈ M, entãoPz = z. Então z pertence a M∩N se e só se z = 0.

(b) Tem-se, ∀z ∈ L, z = Pz + z − Pz = Pz + (I − P)z, onde I é a aplicação identidadeem L. Mas Pz ∈ M (pois P(Pz) = Pz, pela idempotência de P), e (I − P)z ∈ N, (poisP[I − P]z = Pz − P2z = 0). Assim, qualquer z ∈ L é decomponível, pelo que L=M+N.

Logo, L=M⊕N. Por construção, Pz tem de ser a componente única de z em M, logo P éprojector sobre M ao longo de N.

2. Só falta provar que M é o conjunto imagem de P, isto é, que M= C(P). Que M está contido emC(P) é imediato, a partir da sua definição como o conjunto de vectores x ∈L para os quais x = Px.Falta provar que C(P) ⊂ M, isto é, que se existe z ∈L tal que x = Pz =⇒ x ∈ M. Mas sex = Pz =⇒ Px = P2z = Pz = x, pela idempotência de P, logo x ∈ M.

3. Sabemos que se P é idempotente, então P projecta sobre M=C(P), ao longo de N=N (P), i.e., ∀z ∈L, que se pode sempre escrever de forma única como z = zM + zN , com zM ∈ M e zN ∈ N, se tem:

Pz = P(zM + zN ) = zM

Logo, (I − P)z = z − Pz = (zM + zN ) − zM = zN , que é a componente única de z em N. Assim,(I− P) projecta sobre N=N (P) ao longo de M=C(P).

4. Se P é projecção ortogonal sobre M, tem-se M= C(P) e M⊥ = N (P). Sabemos pela alínea anteriorque, nesse caso, I −P projecta sobre M⊥ ao longo de M, isto é, é o projector ortogonal sobre M⊥.

Observações:

1. Repare-se que na demonstração do primeiro ponto do Teorema anterior mostrou-se que se P é

uma aplicação idempotente, P projecta sobre o conjunto de vectores que permanecem

invariantes sob o seu efeito (isto é, o conjunto de vectores x ∈L tais que Px = x), ao longo

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 29

Page 16: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

do núcleo de P (isto é, ao longo do conjunto de vectores x ∈L tais que Px = 0). Isso mostraque os vectores de um subespaço permanecem invariantes sob o efeito de um projector

sobre esse subespaço.

2. A demonstração do ponto 2 do Teorema torna evidente que aquilo que se está a afirmar é que, se P

é uma aplicação idempotente no espaço linear L, então P induz a seguinte decomposição em somadirecta: L= C(P) ⊕N (P).

3. Em aplicações estatísticas, é frequente designar o vector Pz como o vector ajustado, e o vector(I− P)z como o vector residual de z após a sua projecção ortogonal sobre M.

4. Existe uma caracterização simples de projectores ortogonais em espaços lineares genéricos, masexige conceitos adicionais (i.e., o conceito de aplicação auto-adjunta) e será omitida.

As projecções ortogonais desempenham um papel decisivo em muitos campos da Estatística, incluíndono estudo de vários tipos de modelos. A principal razão dessa importância reside no seguinte Teorema,de índole muito geral.

Teorema 2.20 Seja L um espaço linear com produto interno e ‖ · ‖ a norma induzida pelo produtointerno. Seja M um subespaço de L, e P o projector ortogonal sobre M. Dado qualquer vector (não-nulo) z ∈ L, verifica-se:

1. (Teorema de Pitágoras.) O quadrado da norma de z é a soma dos quadrados das normasdas suas componentes em M e em M⊥, isto é: ‖z‖2 = ‖Pz‖2 + ‖(I− P)z‖2.

2. O cosseno do ângulo entre um vector z /∈M⊥ e a sua projecção ortogonal sobre M é dada por:

cos(z,Pz) =‖Pz‖‖z‖

3. O vector no subespaço M mais próximo do vector z ∈ L (isto é, o vector y = z que minimiza adistância ‖z − y‖, entre todos os vectores y ∈ M), é a projecção ortogonal de z sobre M, isto é,z = Pz.

4. Os vectores no subespaço M que formam o mais pequeno ângulo com o vector z /∈M⊥ são osvectores que apontam no mesmo sentido que Pz, ou seja, os vectores y = αPz, ∀α ∈ R

+.

Demonstração.

1. Tem-se: ‖z‖2 = ‖Pz + (I−P)z‖2 = ‖Pz‖2 + 2 < Pz, (I−P)z > +‖(I−P)z‖2. Mas a parcelaintermédia anula-se, pois Pz ∈ M, e (I − P)z ∈ M⊥.

2. Se Pz 6= 0 (i.e., z /∈ M⊥), pela definição de cosseno de ângulo entre vectors não-nulos (p. 24) vem:

cos(z,Pz) =< z,Pz >

‖z‖ · ‖Pz‖ =< Pz + (I − P)z,Pz >

‖z‖ · ‖Pz‖ =< Pz,Pz > + < (I − P)z,Pz >

‖z‖ · ‖Pz‖ .

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 30

Page 17: Apostila de AL

2.4. PROJECÇÕES

A segunda parcela do numerador anula-se, enquanto que a primeira é ‖Pz‖2.

3. Queremos determinar o vector z ∈M que minimiza ‖z − z‖ ou, o que é equivalente, que minimiza‖z − z‖2. Ora, como L=M⊕M⊥, o vector z tem decomposição única z = zM + zM⊥ , com zM ∈ Me zM⊥ ∈ M⊥. Logo,

‖z − z‖2 = ‖zM + zM⊥ − z‖2 = < (zM − z) + zM⊥ , (zM − z) + zM⊥ >

= ‖zM − z‖2 + 2 〈(zM − z), zM⊥ 〉 + ‖zM⊥‖2 .

Mas a segunda parcela do lado direito anula-se, uma vez que o vector zM − z pertence ao subespaçoM, e o vector zM⊥ pertence ao complemento ortogonal de M. Por outro lado, a terceira parcelanão depende de z. Assim, minimizar ‖z − z‖2 corresponde a minimizar a primeira parcela do ladodireito. Mas isso faz-se tomando z = zM , como queríamos demonstrar.

4. Minimizar ângulos corresponde a maximizar cossenos desses ângulos. Assim, procuramos os vectoresz de M que maximizam o quociente <z,z>

‖z‖·‖z‖ . Utilizando a decomposição única do vector genérico z,isto é, considerando z = zM +zM⊥ , temos < z, z > = < zM , z > + < zM⊥ , z >. Por consideraçõesanálogas às das alíneas anteriores, a segunda parcela anula-se. E pelo Teorema de Cauchy-Schwarz-Buniakovski, sabemos que | < zM , z > | ≤ ‖zM‖ · ‖z‖, verificando-se a igualdade quando z é ummúltiplo escalar de zM , isto é, de Pz. Para poder ignorar os módulos, há que exigir que o escalardesse múltiplo escalar seja positivo, isto é, que z aponte no mesmo sentido que Pz. ∇

0M

������

������

@@

@@

@@

@@

@@

@@Iz

�z = Pz

��������) x1

?x2

���x3

@@R x4

‖Pz‖

‖(I − P)z‖

‖z‖

θ

Figura 2.2: Ilustração do Teorema de Pitágoras. O ângulo θ é o ângulo cujo cosseno é referido no Teoremada página 30

Daqui em diante iremos cingir-nos apenas a projecções nos espaços IRk.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 31

Page 18: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

2.4.2 Projecções em IRk

Consideremos agora os espaços reais, IRk, munidos do habitual produto interno Euclidiano: < x,y > =

xty. Sabemos, da disciplina de Complementos de Álgebra e Análise que a cada matriz do tipo n × m

corresponde uma aplicação linear de IRm em IRn, e viceversa (fixando as bases de cada espaço). Asaplicações lineares em IRk correspondem a matrizes de tipo k×k . Assim, a cada aplicação linear (eadmitindo que se convenciona trabalhar apenas com as bases canónicas de IRk) corresponde uma matrizA ∈ Mk×k. Pela caracterização feita anteriormente de projecções, as projecções em IRk correspondem amatrizes idempotentes. Mas pode-se demonstrar um resultado mais forte, que caracteriza completamenteas matrizes de projecção ortogonal nos espaços vectoriais IRk: as matrizes de projecção ortogonal em IRk

são as matrizes simétricas (At = A) e idempotentes (A2 = A) de tipo k×k , como mostram os seguintesTeoremas.

Teorema 2.21 Seja IRk=M⊕M⊥, com M um subespaço em IRk de dimensão r. Considere o produtointerno usual em IRk. Então, a matriz P de projecção ortogonal sobre M é única e tem a forma:

P = B(BtB)−1Bt ,

onde B é uma matriz k×r cujas r colunas formam uma qualquer base de M.

Notas:

1. A matriz B não é única, mas a matriz de projecção P = B(BtB)−1Bt tem de o ser, pelo Teorema2.18 (pg. 28).

2. No caso de se escolher uma base ortonormada do subespaço M sobre o qual se projecta, então ascolunas da matriz B são ortonormadas e pode escrever-se apenas PB = BBt.

Demonstração. Se IRk=M⊕M⊥, qualquer vector x ∈ IRk se pode escrever de forma única comox = x1 + x2, com x1 ∈ M e x2 ∈ M⊥. Como as colunas de B formam uma base de M, x1 podeescrever-se por sua vez, de forma única, como combinação linear dessas colunas, isto é, x1 = Bc paraum e um só vector c ∈ IRr. Simultaneamente, se x2 ∈ M⊥, x2 é ortogonal a qualquer vector de M,logo é ortogonal a todas as colunas de B, pelo que Btx2 = 0. Assim, Px = (B(BtB)−1Bt)(x1 + x2)

= (B(BtB)−1Bt)(Bc) + 0 = Bc = x1. Assim, a imagem de qualquer vector de IRk por P é a suacomponente única no subespaço M. Assinale-se que a existência da inversa de BtB é garantida pelofacto de esta matriz r × r ter característica igual à característica de B (ver apontamentos de EstatísticaMultivariada), e a característica de B ter de ser r, já que as suas colunas formam uma base dum subespaçode dimensão r. ∇

Exemplo 2.6 Consideremos o exemplo trivial de projecção ortogonal, em R3, sobre o plano coorde-

nado x0y. Em R3, um ponto genérico tem coordenadas (x, y, z) e a sua projecção ortogonal sobre o

plano (subespaço) referido é o ponto de coordenadas (x, y, 0). Para construir a respectiva matriz de pro-jecção ortogonal, escolhemos uma base (por sinal, ortonormada) do subespaço x0y, dada pelos vectores

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 32

Page 19: Apostila de AL

2.4. PROJECÇÕES

(1, 0, 0) e (0, 1, 0). Temos B =

1 0

0 1

0 0

e PB = B(BtB)−1Bt =

1 0 0

0 1 0

0 0 0

. Facilmente se vê que

PB [x, y, z]t = [x, y, 0]t.

Exemplo 2.7 Em R3, a equação x = y define um plano vertical, constituido pelos pontos de coordenadas

(a, a, b), ∀ a, b ∈ R. Este plano (subespaço) é gerado, por exemplo, pelos vectores [1, 1, 0]t e [0, 0, 1]t. Logo,

podemos tomar B =

1 0

1 0

0 1

e a matriz de projecção ortogonal é: PB = B(BtB)−1Bt =

12

12 0

12

12 0

0 0 1

.

A projecção ortogonal de, por exemplo, o vector [1, 2, 3]t é dada por PB [1, 2, 3]t = [32 , 32 , 3]t.

Nota: Seja y ∈ IRk um vector e M um subespaço linear r-dimensional de IRk com uma base constituídapelas colunas da matriz B. A projecção ortogonal de y sobre M (com o produto interno usual) é o vector:

y = Py = B(BtB)−1Bty

O vector (de tipo r × 1):

(BtB)−1Bty

é o vector dos r coeficientes da combinação linear que define de forma única o vector projectado y ∈ Mem termos dos vectores da base B de M.

0M

������

������

@@

@@

@@

@@

@@

@@Iy

�y = Py

�������)x1

PPPPPPPPix2

����

����

PPPP

PPPP

Figura 2.3: Projecção do vector y sobre o subespaço M, gerado pelos vectores x1 e x2. As coordenadasdo vector projectado nos eixos x1 e x2 são dadas pelos elementos do vector (BtB)−1Bty, onde a matrizB é a matriz cujas duas colunas são os vectores da base, x1 e x2.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 33

Page 20: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Teorema 2.22 Seja P uma matriz de dimensão k × k. Então P é matriz de projecção ortogonalsobre algum subespaço de R

k se e só se P é uma matriz simétrica e idempotente.

Demonstração.

(=⇒) Imediata: é trivial verificar que P = B(BtB)−1Bt é uma matriz simétrica e idempotente.

(⇐=) Se P é idempotente, já sabemos que é projecção sobre o seu espaço imagem C(P), ao longo doseu núcleo N (P). Para que a projecção seja ortogonal, é preciso que N (P) = C(P)⊥. Já sabemos,da disciplina de Complementos de Álgebra e Análise que, como para qualquer matriz P, se temC(P)⊥ = N (Pt). Sendo a matriz P simétrica, tem-se o resultado pretendido. ∇

Exercício 2.5 Verifique que a matriz de projecção referida no Teorema 2.21 é simétrica e idempotente.

A decomposição espectral das matrizes de projecção ortogonal em subespaços de IRn é interessante.

Teorema 2.23 Seja M um subespaço r-dimensional de IRk, e PM a matriz de projecção ortogonalsobre M. Então:

1. Os valores próprios de PM apenas tomam valor 0 ou 1, havendo precisamente r = dim(M)

valores próprios de valor 1 e k − r = dim(M⊥) valores próprios de valor 0.

2. Os vectores próprios associados a valores próprios 1 formam uma base ortonormada de M. Osvectores próprios associados a valores próprios 0 formam uma base ortonormada de M⊥.

3. O traço de PM é a dimensão do subespaço M sobre o qual PM projecta.

4. A matriz PM é semi-definida positiva.

Demonstração. Uma matriz simétrica de dimensão k×k admite um conjunto ortonormado de k vectorespróprios, aos quais correspondem valores próprios reais (como foi visto nas disciplinas de Complementosde Álgebra e Análise e Estatística Multivariada). Escolha-se então uma base ortonormada do subespaçoM, {ai}r

i=1. Essa base tem precisamente r vectores, a dimensão do subespaço M. Como os r vectorespertencem a M, a sua projecção ortogonal sobre esse subespaço deixa-os invariantes (vejam-se as obser-vações na página 29). Logo, PMai = ai, (i = 1 : n). Mas isso significa que os r vectores ai são vectorespróprios de PM , com valor próprio associado igual a 1. Considere-se agora uma base ortonormada deM⊥, {bi}k−r

i=1 . Esta base tem k − r vectores, pois essa é a dimensão do complemento ortogonal de M(veja-se o Teorema 2.15 da página 26). Mas se estes vectores pertencem a M⊥, a sua componente únicaem M tem de ser o vector nulo. Logo, tem-se PMbj = 0. Esta equação significa que todos esses vectoresbj são vectores próprios de PM com valor próprio associado igual a zero. Como já foram identificados k

vectores próprios ortogonais entre si, PM não pode ter mais vectores/valores próprios. A alínea seguinteé consequência directa desta discussão, dado que o traço de PM será o número de valores próprios iguaisa 1, que coincide com o número de vectores na base do subespaço M. A última alínea é consequência

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 34

Page 21: Apostila de AL

2.4. PROJECÇÕES

imediata da primeira, uma vez que (Teorema A.1, Apêndice A) uma matriz simétrica é semi-definidapositiva se e só se todos os seus valores próprios forem não-negativos. ∇

2.4.3 Projecções em subespaços encaixados

No estudo do Modelo Linear, vários resultados importantes dizem respeito a situações em que se com-param projecções de vectores sobre subespaços encaixados noutros subespaços, ou seja, subespaços con-tidos noutros subespaços. Vejamos dois resultados relativos a projecções sobre subespaços encaixados.

Teorema 2.24 Seja M um subespaço linear de IRk e N um subespaço próprio de M (N ⊂ M ⊂ IRk).Sejam PM e PN as matrizes de projecção ortogonal sobre M e N, respectivamente. Sejam PM⊥ ePN⊥ as matrizes de projecção ortogonal sobre os complementos ortogonais de M e N. Então, tem-se:

1. PMPN = PNPM = PN .

2. PMPN⊥ = PN⊥PM = PM − PN .

3. PNPM⊥ = PM⊥PN = 0.

4. PM⊥PN⊥ = PN⊥PM⊥ = PM⊥ .

Nota: repare-se que, em geral, o produto de duas matrizes de projecção não é uma matriz de projecção.Aqui considera-se uma situação especial, resultante dos subespaços onde se projecta estarem encaixados.

Demonstração. Repare-se que as dimensões dos subespaços M e N são diferentes, mas PM e PN

são sempre matrizes k × k. Seja N uma matriz cujas colunas formam uma base de N. Então, PN =

N(NtN)−1Nt. Ora, como N ⊂ M, as colunas de N pertencem ao subespaço M, donde PMN = N

(relembre-se a primeira observação da página 29). Logo:

1. PMPN = PMN(NtN)−1Nt = N(NtN)−1Nt = PN . Por outro lado, dada a simetria das ma-trizes de projecção e as relações entre produtos e transpostas de matrizes: PNPM = Pt

NPtM =

(PMPN )t = (PN )t = PN .

2. Sabemos (Teorema 2.19, página 28) que PN⊥ = I−PN , onde I é a matriz identidade k × k. Logo,PMPN⊥ = PM (I−PN ) = PM −PMPN = PM −PN , pela alínea anterior. Para o outro produto,a demonstração é análoga.

3. Tem-se PM⊥PN = (I−PM )PN = PN −PMPN = PN −PN = 0. A demonstração que PNPM⊥

= 0 é análoga.

4. Tem-se PM⊥PN⊥ = (I − PM )(I − PN ) = I− PN − PM + PMPN = I − PM = PM⊥ .

Vejamos ainda outro resultado envolvendo projecções e subespaços encaixados, que será de grande utili-dade posteriormente.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 35

Page 22: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Teorema 2.25 Seja M um subespaço próprio de IRk e N ⊂ M um seu subespaço próprio. SejaQ=M∩N⊥. Sejam PM e PN as matrizes de projecção ortogonal sobre M e N, respectivamente. Então:

1. Q e N são subespaços ortogonais.

2. M = N ⊕ Q.

3. A matriz de projecção ortogonal sobre o subespaço Q é PM − PN .

Demonstração.

1. Q é subespaço pois é a intersecção de dois subespaços. Que é ortogonal ao subespaço N é imediato,uma vez que Q = M∩N⊥ ⊂ N⊥.

2. Uma vez que N e Q são ortogonais, o único elemento que lhes pode ser comum é a origem de IRk

(se x ∈N∩Q, x é ortogonal a si próprio, mas < x,x > = 0 ⇔ x = 0). Falta apenas provar queM = N + Q (isto é, que qualquer elemento de M se pode escrever como a soma de um elementode N e outro de Q) para se poder aplicar o Teorema 2.14 (pg.26) e concluir que M = N⊕Q. Ora Né subespaço de IRk, pelo que é possível decompôr IRk em soma directa de N e o seu complementoortogonal (veja-se o Teorema 2.16, pg. 27), isto é, IRk = N ⊕ N⊥. Isto significa que todos oselementos de IRk se podem escrever, de forma única, como soma de um elemento de N mais umelemento de N⊥. Em particular, os elementos de M⊂ IRn podem ser decompostos desta forma.Logo, ∀x ∈ M, x = xN + xN⊥ , com xN ∈ N e xN⊥ ∈ N⊥. Mas N⊂M, logo xN⊥ = x − xN é adiferença de dois elementos de M, pelo que tem de pertencer a M. Assim, existe pelo menos umaforma de escrever qualquer elemento de M como soma de um elemento de N com outro que, alémde estar em N⊥, tem de estar também em M, i.e., está em Q. Assim, M = N + Q.

3. A matriz de projecção ortogonal sobre o subespaço Q = M ∩ N⊥ tem de ser uma matriz PQ

simétrica e idempotente (Teorema 2.22, p. 34) cujo espaço de colunas é Q (Teorema 2.19, página28). É fácil de verificar que a diferença de duas matrizes simétricas é simétrica. Por outro lado,(PM − PN ) (PM − PN ) = P2

M − PMPN − PNPM + P2N = PM − PN , já que, quer PM , quer

PN , são idempotentes, e, pelo Teorema 2.24 (página 35), PMPN = PNPM = PN . Falta verificarque C(PM −PN ) = Q. Ora, é fácil de ver que o subespaço Q está contido no subespaço-coluna dePM − PN . De facto, ∀x ∈ Q, (PM − PN )x = PMx − PNx = x − 0 = x, já que x ∈ Q implicaque x ∈ M e que x é ortogonal a qualquer vector de N. Tem-se ainda que a dimensão do subespaçosobre o qual a matriz (PM − PN ) projecta é o traço dessa matriz (Teorema 2.23, pg. 34). Oratr(PM − PN) = tr(PM) − tr(PN) = dim(M) − dim(N). Essa também é a dimensão do subespaçoQ, já que, pela alínea anterior, e pelo Teorema 2.15 (que relaciona a dimensão dum espaço linearcom a dimensão dos subespaços que constituem uma sua soma directa, p. 26) tem-se dim(Q) =

dim(M) − dim(N). Mas a argumentação relativa às dimensões desses dois subespaços impõe agoraque o subespaço-coluna de PM − PN coincida com o subespaço Q. ∇

Nota: Repare-se que, em conjunto com o Teorema 2.24 (p. 35), este Teorema mostra que a matriz deprojecção ortogonal sobre o subespaço Q=M∩N⊥ (com N⊂M) é o produto (por qualquer ordem) dasmatrizes de projecção ortogonal sobre M e sobre N⊥.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 36

Page 23: Apostila de AL

2.4. PROJECÇÕES

2.4.4 Somas directas de k subespaços e projecções

Alguns dos resultados anteriores são de fácil generalização para situações em que um espaço linear édecomposto em soma directa de k (k > 2) subespaços. A definição deste conceito e alguns resultadospreliminares serão agora enunciados.

Definição 2.19 Seja L um espaço linear, e M1, M2, ... , Mk seus subespaços. Diz-se que L é soma

directa desses k subespaços se cada vector de L se pode escrever, de forma única, como a soma de k

parcelas, uma em cada um dos subespaços Mi (i = 1 : k). Nesse caso, escreve-se

L = M1 ⊕ M2 ⊕ ... ⊕ Mk.

Exemplo 2.8 O espaço IR3 pode ser decomposto na soma directa dos seus três eixos coordenados. Defacto, qualquer vector (x, y, z) ∈ IR3 se pode escrever, de forma única, como a soma dum vector no eixodos xx (o vector (x, 0, 0)), um vector no eixo dos yy (o vector (0, y, 0)) e um vector no eixo dos zz (ovector (0, 0, z)).

É de demonstração imediata o seguinte Teorema, que generaliza o Teorema 2.15 (p. 26).

Teorema 2.26 Seja L = M1 ⊕ M2 ⊕ ... ⊕ Mk. Então:

1. A reunião de um conjunto de bases dos subespaços {Mi}ki=1 constitui uma base de L.

2. dim(L)=k∑

i=1

dim(Mi)

Exercício 2.6 Demonstre o Teorema 2.26.

Definição 2.20 Sejam M1, M2, ... , Mk subespaços lineares dum espaço linear comum, munido deproduto interno. Os subespaços dizem-se mutuamente ortogonais se, dados dois diferentes dessessubespaços, Mi e Mj , se tem x ⊥ y, ∀x ∈ Mi, ∀y ∈ Mj.

Exemplo 2.9 No espaço IR3, com o habitual produto interno, os eixos coordenados constituem trêssubespaços mutuamente ortogonais.

Observação: Em geral, dois subespaços M1 e M2 podem ser mutuamente ortogonais sem que sejam ocomplemento ortogonal um do outro. Assim, por exemplo, em IR3, o eixo dos xx e o eixo dos yy sãosubespaços (de dimensão 1) mutuamente ortogonais, mas o complemento ortogonal do eixo dos xx nãoé o eixo dos yy, mas sim o plano coordenado y0z. Como este exemplo ilustra, se M1 e M2 são dois

espaços mutuamente ortogonais, existe uma relação entre, digamos M2 e o complemento

ortogonal de M1, mas essa relação é apenas de inclusão: M2 ⊂ M⊥1 .

Vejamos agora um Teorema que generaliza o Teorema de Pitágoras para projecções sobre k espaçosmutuamente ortogonais. Este Teorema é formulado directamente no contexto em que nos será de utilidademais tarde, ou seja, admitindo que se está a trabalhar com a decomposição em soma directa (mediantek subespaços mutuamente ortogonais) de um subespaço L de IRn.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 37

Page 24: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

Teorema 2.27 Seja L um subespaço de IRn, que é soma directa de k seus subespaços mutuamenteortogonais:

L = M1 ⊕ M2 ⊕ ... ⊕ Mk.

Seja P a matriz de projecção ortogonal dos vectores de IRn sobre L, e Pi (i = 1 : k) as matrizes deprojecção ortogonal sobre cada subespaço Mi (i = 1 : k). Tem-se:

1. PY = P1Y + P2Y + ... + PkY, ∀Y ∈ IRn,

2. P = P1 + P2 + ... + Pk

3. ‖PY‖2 = ‖P1Y‖2 + ‖P2Y‖2 + ... + ‖PkY‖2

Demonstração.

1. Considere-se um vector genérico de IRn, z. Sabemos que, para qualquer subespaço L⊂ IRn, severifica IRn = L ⊕ L⊥ (Teorema 2.16), ou seja, z decompõe-se de forma única numa soma do tipoz = zL + zL⊥ , com zL = PLz ∈ L e zL⊥ = (I − PL)z ∈ L⊥. Mas o subespaço L, por hipótesedeste Teorema, é soma directa dos k subespaços Mi (i = 1 : k). Logo, zL = PLz pode-se escrever,de forma única, como combinação linear de k vectores, um escolhido em cada espaço Mi:

zL = zM1+ zM2

+ ... + zMk. (2.3)

Assim, o vector z original pode-se escrever como:

z = zM1+ zM2

+ ... + zMk+ zL⊥ . (2.4)

Ora, zM1é um vector de M1. Se mostrarmos que a soma das restantes parcelas pertence ao

complemento ortogonal de M1, podemos afirmar que zM1é o vector de M1 resultante da projecção

ortogonal de z sobre M1, isto é, que P1z = zM1. Ora, cada uma das restantes parcelas em (2.4)

é um vector que pertence a M⊥1 , uma vez que cada subespaço Mi (com i > 1) a que pertencem

as parcelas zMi(i > 1) é mutuamente ortogonal a M1, e o subespaço L⊥ (ao qual pertence a

última parcela) é ortogonal a L, de que M1 é subespaço. Assim, a soma dessas parcelas tem depertencer a M⊥

1 . Logo, a equação (2.4) dá-nos uma decomposição da forma z = zM1+ zM⊥

1

(ondezM⊥

1

= zM2+ ... + zMk

+ zL⊥). Como IRn = M1 ⊕M⊥1 (Teorema 2.16), essa decomposição é única

e zM1tem de ser a projecção ortogonal de z sobre M1, ou seja, P1z = zM1

. Um raciocínio análogoleva à conclusão que Piz = zMi

, ∀i = 1 : k. Logo, a equação (2.3) pode re-escrever-se como

zL = P1z + P2z + ... + Pkz. (2.5)

Tendo em conta que zL = Pz, tem-se o resultado pretendido.

2. Como Pz = P1z+P2z+...+Pkz, para qualquer vector z ∈ Rn, tem-se (P − [P1 + P2 + ... + Pk]) z =

0, ou seja, P− [P1 + P2 + ... + Pk] é a matriz nula, donde sai o resultado pretendido.

3. Por definição, ‖Pz‖2 =< Pz , Pz >. Substituíndo Pz pela expressão (2.5), e aplicando aspropriedades dos produtos internos, tem-se:

‖Pz‖2 =

k∑

i=1

< Pi z , Pi z > +∑

i6=j

k∑

j=1

< Pi z , Pj z >

=

k∑

i=1

‖Pi z‖2

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 38

Page 25: Apostila de AL

2.4. PROJECÇÕES

uma vez que todas as parcelas do duplo somatório se anulam, tratando-se de produtos internos devectores em espaços mutuamente ortogonais. ∇

Um caso particularmente frequente de decomposição dum espaço linear em soma directa de três seussubespaços resulta de considerar dois subespaços encaixados em R

n.

Teorema 2.28 Seja M um subespaço de Rn e N um subespaço de M (tendo-se, pois, N ⊂ M ⊂ R

n).Tem-se então a seguinte decomposição de R em soma directa de três subespaços mutuamente ortogonais:

Rn = N ⊕ (M ∩ N⊥) ⊕ M⊥ . (2.6)

Nota: O enunciado diz que é possível decompor, de forma única, qualquer vector de Rn em três parcelas:

uma em N , outra em M (que contém N) mas ortogonal a N , e finalmente uma terceira ortogonal a M .

Demonstração. Sabemos que, como para qualquer subespaço M de IRn, se tem (Teorema 2.16, p. 27):

IRn = M ⊕ M⊥. (2.7)

Ora o subespaço M pode ser decomposto na seguinte soma directa (Teorema 2.25, página 36):

M = N ⊕(

M ∩ N⊥)

.

Assim, o elemento único de qualquer vector em Rn associado à decomposição em soma directa (2.7) pode,

por sua vez, ser decomposto, de forma única, na soma dum elemento em N e outro em M ∩ N⊥, peloque qualquer vector de R

n se pode escrever, de forma única, como a soma de três vectores: um em N ,outro em M ∩ N⊥ e outro em M⊥. Pela Definição 2.19 (pg. 37), isso significa que

Rn = N ⊕ (M ∩ N⊥) ⊕ M⊥ .

Sabemos ainda que os subespaços N e M ∩ N⊥ são ortogonais entre si (ainda o Teorema 2.25). Alémdisso, quer o subespaço N, quer o subespaço M ∩ N⊥ estão contidos no espaço M , logo são ortogonaisao subespaço M⊥. Assim, os três subespaços de IRn envolvidos na decomposição (2.6) são mutuamenteortogonais. ∇

O Teorema anterior generaliza-se imediatamente para uma sequência de k subespaços encaixados em Rn.

Teorema 2.29 Seja {Mi}ki=1 uma sequência de k subespaços de R

n sucessivamente encaixados: M1 ⊂M2 ⊂ ... ⊂ Mk ⊂ R

n. Tem-se então a seguinte decomposição de R em soma directa de k + 1 subespaçosmutuamente ortogonais:

Rn = M1 ⊕ (M2 ∩ M⊥

1 ) ⊕ (M3 ∩ M⊥2 ) ⊕ ... ⊕ (Mk ∩ M⊥

k−1) ⊕ M⊥k . (2.8)

Nota: O enunciado diz que é possível decompor, de forma única, qualquer vector de Rn em k + 1

parcelas: uma em M1, outra em M2 (que contém M1) mas ortogonal a M1, e assim sucessivamente, coma penúltima parcela em Mk, mas ortogonal a Mk−1 e a última ortogonal a Mk.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 39

Page 26: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

2.5 Aplicações Estatísticas

2.5.1 As representações em IRp e em IRn.

Quando temos n observações de uma variável, podemos representá-las por um vector x ∈ IRn, xt =

[x1, x2, x3, ..., xn]. Em Estatística univariada ou bivariada, é habitual representar n observações de umaou duas variáveis como n pontos sobre um eixo ou um plano definido por um par de eixos, eixos essesrepresentativos da(s) variável(eis) observada(s). A esta representação chamaremos daqui em diante “rep-resentação em IRp” ou “representação no espaço das variáveis”. Mas é igualmente possível adoptar umaoutra representação, no espaço IRn, em que cada conjunto de n observações de uma variável é represen-tada por um ponto/vector em IRn cujas coordenadas são as n observações. Esta representação, menosfrequente quando se considerem apenas duas ou três variáveis, devido à óbvia perda de visibilidade queela representa, é no entanto de grande utilidade quando se consideram várias variáveis. A representaçãoem IRn também pode ser designada “representação no espaço dos indivíduos”. Como veremos na secçãoseguinte, ela permite traduzir importantes conceitos estatísticos numa linguagem geométrica.

2.5.2 Conceitos estatísticos em IRn.

Os indicadores estatísticos mais elementares têm interessantes significados geométricos quando se utilizaa representação dos dados no espaço dos indivíduos, i.e., a representação em IRn. Assim:

1. A média das n observações é o coeficiente da projecção ortogonal do vector de observações x sobre osubespaço C(1n) (onde 1n

t = [1 1 1 ...1] é o vector dos n uns), i.e., sobre a “bissectriz” do primeiroortante de IRn. De facto, a matriz de projecção ortogonal sobre esse subespaço é dada por:

P1n= 1n(1n

t1n)−11nt =

1

n1n1n

t

Logo, P1nx = 1

n1n1n

tx = 1n

(

1n

∑n

i=1 xi

)

= x1n. (ver a Figura (2.4).

2. A variável centrada em torno da sua média, i.e., o vector com componentes xi − x, éa projecção ortogonal de x no subespaço C(1n)⊥, i.e., no complemento ortogonal do subespaçogerado pelo vector dos uns. Esse vector centrado é x − x1n = (I − P1n

)x, onde I é a matrizidentidade n×n que é a aplicação identidade em IRn. O resto sai do Teorema 2.19 (página 28)relacionando os projectores P e I− P.

Note-se que é usual centrar as variáveis em torno da sua média em muitos indicadores estatísticos(variância, covariância, coeficiente de correlação). Essa centragem torna os resultados invariantes atranslações da origem (i.e., se xi → xi + a, os valores xi − x não sofrem alteração).

3. O desvio padrão das n observações é proporcional à distância do vector x ao subespaço geradopela coluna de uns, C(1n). De facto,

‖x − x1n‖2 = ‖x‖2 − ‖x1n‖2 =

n∑

i=1

x2i − x2 · ‖1n‖2 =

n∑

i=1

x2i − n · x2

que é o numerador da fórmula computacional da variância. Assim, var(x) = 1n‖x − x1n‖2. O

comprimento do vector x não-centrado é proporcional à raíz quadrada do segundo momento nãocentrado da variável, m2 =

∑2i=1 x2

i .

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 40

Page 27: Apostila de AL

2.5. APLICAÇÕES ESTATÍSTICAS

0

��

��

��

��

��

��

��

��

���C(1n)

@@��

������������������*x

��

��

��

��

��

��

��x1n @@

@@@@

Figura 2.4: O significado geométrico de uma média no espaço de indivíduos.

Observação: Assim, a fórmula computacional da variância não é mais que uma aplicação doTeorema de Pitágoras (ver a Figura 2.5).

Considerem-se agora n pares de observações sobre duas variáveis, {(xi, yi)}n

i=1. Tem-se:

4. A covariância das observações de x e y é o produto interno dos vectores projectados sobre C(1n)⊥:

cov(x,y) =1

n

n∑

i=1

(xi − x)(yi − y) =1

n< (I − P1n

)x, (I − P1n)y >

5. O coeficiente de correlação entre x e y é o cosseno do ângulo entre os vectores das variáveiscentradas. De facto:

rxy =cov(x,y)

σx · σy

=< (I − P1n

)x, (I − P1n)y >

‖(I − P1n)x‖ · ‖(I − P1n

)y‖ = cos(

[I − P1n]x, [I − P1n

]y)

2.5.3 Descrição Multivariada (p variáveis) - Primeiras ferramentas

Em modelos com várias variáveis preditoras, torna-se útil a representação matricial dos dados observadose de conceitos estatísticos associados. Designe-se por X a matriz cujas colunas representam as observaçõesde uma dada variável xi. Defina-se:

1. Vector (px1) das médias: x =

x1

x2

...xp

= Xt1n(1nt1n)−1

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 41

Page 28: Apostila de AL

CAPÍTULO 2. NOÇÕES DE ÁLGEBRA LINEAR E TEORIA DE MATRIZES

0

��

��

��

��

��

��

��

��

���C(1n)

@@��

θ

������������������*x

‖x‖ = (n · m2)1/2

��

��

��

��

��

��

��x1n

‖x1n‖ = (n · |x|)1/2

@@@@

@@

‖x − 1nx‖ = n1/2 · sx

Figura 2.5: O significado geométrico da variância no espaço dos indivíduos.

Registe-se que a projecção da matriz X sobre o subespaço gerado pelo vector dos uns, P1n, é a

matriz P1nX, de dimensões n × p, cuja i-ésima coluna repete n vezes a média xi da variável i.

2. Matriz (pxp) das variâncias-covariâncias:

Σ =

var1 cov1,2 cov1,3 ... cov1,p

cov2,1 var2 cov2,3 ... cov2,p

cov3,1 cov3,2 var3 ... cov3,p

......

.... . .

...covp,1 covp,2 covp,3 ... varp

Se Y = (I − P1n)X é matriz de dados com colunas centradas, tem-se: Σ = 1

nYtY.

3. Matriz (p×p ) das correlações:

R =

1 r1,2 r1,3 ... r1,p

r2,1 1 r2,3 ... r2,p

r3,1 r3,2 1 ... r3,p

......

.... . .

...rp,1 rp,2 rp,3 ... 1

Se Z é matriz de dados com colunas normalizadas, tem-se: R = 1nZtZ.

Notas:

(a) Σ = DRD onde D é a matriz diagonal (p×p ) dos desvios padrão.

(b) R = D−1ΣD−1 onde D−1 é a inversa da matriz D, isto é, a matriz (diagonal) dos recíprocosdos desvios padrão.

ISA/UTL – Mestrado em Matemática – Modelação Estatística I – 2009/2010 42