40
monica monica @ @ ele. ele. puc puc - - rio rio . . br br 1 M M é é todos Estat todos Estat í í sticos de sticos de Apoio Apoio à à Decisão Decisão Aulas 1 e 2 Aulas 1 e 2 Mônica Barros, Mônica Barros, D.Sc. D.Sc. Julho de 2007 Julho de 2007 monica monica @ @ ele. ele. puc puc - - rio rio . . br br 2 Quem sou eu? Quem sou eu? Mônica Barros Doutora em Séries Temporais – PUC-Rio Mestre em Estatística – University of Texas at Austin, EUA Bacharel em Matemática – University of Washington, Seattle, EUA Professora da PUC-Rio (Depto. De Eng. Elétrica) E-mails: [email protected], [email protected] Home page: http://www.mbarros.com monica monica @ @ ele. ele. puc puc - - rio rio . . br br 3 Programa do Curso Programa do Curso Aula Tipo (T-P-C) Tema Descrição 1 T Probabilidade: Definições básicas Definições básicas: probabilidade, espaço amostral, eventos, propriedades das probabilidades, Probabilidade Condicional, Independência;Teorema de Bayes 2 T Probabilidade: Definições básicas Variáveis Aleatórias Contínuas e Discretas , Função de Probabilidade, Função Densidade, Função de Distribuição, Momentos de uma v.a., Média, Variância e Desvio Padrão 3 T Probabilidade: Definições básicas Variáveis Discretas: Bernoulli, Binomial, Geométrica, Binomial Negativa, Poisson; 4 T Probabilidade: v.a. Contínuas Variáveis Contínuas: Uniforme, Exponencial, Gama, Qui-quadrado, LogNormal, Weibull, t, F 5 T Probabilidade: v.a. Contínuas Variável aleatória Normal 6 P Pratica 1 Aula de exercícios - As funções do Excel para cálculo de probabilidades para v.a. Contínuas e discretas 7 T Probabilidade: v.a. Contínuas O teorema central do limite e a importância da distribuição Normal 8 C CASE 1: Simulação - soma de v.a. e o teorema central do limite CASE 2: Otimização de um portfolio simulado - propriedades da média e variância e o uso do Solver O teorema central do limite na prática - soma de variáveis aleatórias e a convergência para a Normal. Distribuição da soma de v.a. e da média amostral. Propriedades da média e variância de combinações lineares de v.a. - o efeito da correlação. O uso do Solver do Excel. 9 T/P Estatística - estimação pontual e Prática 2 Estimação por máxima verossimilhança e métodos de momentos - Exercícios 10 T/P Estatística - estimação por intervalos e Prática 3 Intervalos de confiança para amostras Normais e proporção Binomial - Exercícios - intervalos de confiança empregando o Excel 11 T/P Estatística - testes de hipóteses e Prática 4 Teste de hipótese para amostrais normais e Exercícios Alterações: inclusão de estatística descritiva na aula 1 monica monica @ @ ele. ele. puc puc - - rio rio . . br br 4 Nota Nota Instala Instala ç ç ão das ão das Ferramentas de An Ferramentas de An á á lise do Excel lise do Excel Muitas das técnicas descritas aqui requerem a prévia instalação do suplemento (“add-in”) “Ferramentas de Análise” do Excel. O procedimento de instalação é descrito a seguir: No menu Ferramentas, selecione “Suplementos” e na caixa de diálogo que será aberta marque a opção Ferramentas de análise”. Se esta opção não estiver presente, clique “procurar” para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o “set-up” do MS-Office.

Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · [email protected] 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

Embed Size (px)

Citation preview

Page 1: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 1

MMéétodos Estattodos Estatíísticos de sticos de Apoio Apoio àà DecisãoDecisão

Aulas 1 e 2Aulas 1 e 2

Mônica Barros, Mônica Barros, D.Sc.D.Sc.

Julho de 2007Julho de 2007

monicamonica@@ele.ele.pucpuc--riorio..brbr 2

Quem sou eu?Quem sou eu?

Mônica BarrosDoutora em Séries Temporais – PUC-RioMestre em Estatística – University of Texas at Austin, EUABacharel em Matemática – University of Washington, Seattle, EUAProfessora da PUC-Rio (Depto. De Eng. Elétrica)E-mails: [email protected], [email protected] page: http://www.mbarros.com

monicamonica@@ele.ele.pucpuc--riorio..brbr 3

Programa do CursoPrograma do Curso

Aula Tipo (T-P-C) Tema Descrição

1 T Probabilidade: Definições básicasDefinições básicas: probabilidade, espaço amostral, eventos, propriedades das probabilidades, Probabilidade Condicional, Independência;Teorema de Bayes

2 T Probabilidade: Definições básicasVariáveis Aleatórias Contínuas e Discretas , Função de Probabilidade, Função Densidade, Função de Distribuição, Momentos de uma v.a., Média, Variância e Desvio Padrão

3 T Probabilidade: Definições básicas Variáveis Discretas: Bernoulli, Binomial, Geométrica, Binomial Negativa, Poisson; 4 T Probabilidade: v.a. Contínuas Variáveis Contínuas: Uniforme, Exponencial, Gama, Qui-quadrado, LogNormal, Weibull, t, F5 T Probabilidade: v.a. Contínuas Variável aleatória Normal

6 P Pratica 1 Aula de exercícios - As funções do Excel para cálculo de probabilidades para v.a. Contínuas e discretas7 T Probabilidade: v.a. Contínuas O teorema central do limite e a importância da distribuição Normal

8 C

CASE 1: Simulação - soma de v.a. e o teorema central do limite CASE 2: Otimização de um portfolio simulado - propriedades da média e variância e o uso do Solver

O teorema central do limite na prática - soma de variáveis aleatórias e a convergência para a Normal. Distribuição da soma de v.a. e da média amostral. Propriedades da média e variância de combinações lineares de v.a. - o efeito da correlação. O uso do Solver do Excel.

9 T/PEstatística - estimação pontual e Prática 2 Estimação por máxima verossimilhança e métodos de momentos - Exercícios

10 T/PEstatística - estimação por intervalos e Prática 3

Intervalos de confiança para amostras Normais e proporção Binomial - Exercícios - intervalos de confiança empregando o Excel

11 T/PEstatística - testes de hipóteses e Prática 4 Teste de hipótese para amostrais normais e Exercícios

Alterações: inclusão de estatística descritiva na aula 1

monicamonica@@ele.ele.pucpuc--riorio..brbr 4

Nota Nota –– InstalaInstalaçção das ão das Ferramentas de AnFerramentas de Anáálise do Excellise do Excel

Muitas das técnicas descritas aqui requerem a prévia instalação do suplemento (“add-in”) “Ferramentas de Análise” do Excel. O procedimento de instalação édescrito a seguir:

No menu Ferramentas, selecione “Suplementos” e na caixa de diálogo que será aberta marque a opção “Ferramentas de análise”. Se esta opção não estiver presente, clique “procurar” para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o “set-up” do MS-Office.

Page 2: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 5

Aula 1Aula 1

Estatística DescritivaDefinições básicas – Introdução àProbabilidade

ProbabilidadeEspaço amostralEventosPropriedades das probabilidadesProbabilidade CondicionalIndependênciaTeorema de Bayes

monicamonica@@ele.ele.pucpuc--riorio..brbr 6

Estatística Descritiva

monicamonica@@ele.ele.pucpuc--riorio..brbr 7

PrPráá que serve estatque serve estatíística?stica?

Porque nos permite entender e lidar com a idéiade variabilidade.Um exemplo típico é: Produção de parafusos. Uma fábrica produz parafusos, que devem diâmetro dentro de certas especificações. Ao medirmos os diâmetros de 100 parafusos produzidos ao acaso existirão variações individuais. Estas variações são importantes? Até que ponto as variações observadas são aceitáveis?

monicamonica@@ele.ele.pucpuc--riorio..brbr 8

EstatEstatíísticastica

Em geral um número em Estatística não é apenas um número! A ele associamos uma medida de incerteza ou variabilidade.

População e AmostraPopulação = coleção de todos os elementos cujas características desejamos conhecer. Os elementos (ou "indivíduos") na população não são necessariamente pessoas!

Amostra = subconjunto da população cujas características serão medidas. A amostra será usada para descobrir características da população.

Page 3: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 9

ExemplosExemplos

1) População = eleitores na cidade do Rio de JaneiroAmostra = 650 eleitores escolhidos aleatoriamente (ao acaso)Característica de interesse: percentual de eleitores queplanejam votar num candidato X nas próximas eleições.

2) População = automóveis produzidos no Brasil entre 1997 e2002

Amostra = 10000 carros escolhidos aleatoriamente dentre os sujeitos a “recall” das montadoras

Característica de interesse: verificar se o proprietário do carro respondeu ao chamado de “recall” da fábrica

monicamonica@@ele.ele.pucpuc--riorio..brbr 10

ExemplosExemplos

3) População = todos os domicílios com TV na cidade do Rio de JaneiroAmostra = 1000 domicílios com TV escolhidos ao acasoCaracterística de interesse = percentual de audiência de cada emissora de TV num certo diada semana no horário de 18 às 22 horas.

Em resumo:Em resumo: A partir de uma amostra coletamos A partir de uma amostra coletamos informainformaçções que nos permitões que nos permitemem aprender alguma aprender alguma coisa interessante sobre a populacoisa interessante sobre a populaçção.ão.

monicamonica@@ele.ele.pucpuc--riorio..brbr 11

Por que fazer isso?Por que fazer isso?

ÉÉ economicamente eficiente!economicamente eficiente! Os custos são infinitamente mais baixos que os de amostrar a população inteira (“censo”).

Pode-se provar que, para populações muito grandes, uma amostra de cerca de 600 ou 1000 "indivíduos" fornece resultados bastante confiáveis sobre as características da população.

monicamonica@@ele.ele.pucpuc--riorio..brbr 12

E agora?E agora?

Você coletou uma amostra e, dentro desta amostra você coletou dados numéricos (por exemplo, o consumo médio mensal em kWh dos domicílios numa certa área da cidade). O que fazer com isso?

Existem 2 possibilidades:Você pode simplesmente descrever estes dados numéricos através de gráficos e tabelas. Isto é chamado de estatestatíística descritivastica descritiva. A maioria das pesquisas de mercado faz só isso, que é sem dúvida, muito importante.

Page 4: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 13

E agora?E agora?

Você pode tentar tirar conclusõestirar conclusões sobre as características da população a partir dos dados observados na amostra.

Isso se chama estatestatíística inferencialstica inferencial (ou simplesmente estatística!). Para que a gente consiga fazer isso, é necessário ter uma noção bastante abrangente de Probabilidades.

monicamonica@@ele.ele.pucpuc--riorio..brbr 14

E agora?E agora?

Na verdade, a estatística descritiva surgiu muito antes da estatística inferencial.

Esta última depende da especificação de modelos matemáticos baseados numa noção fundamental, que é a de "probabilidade".

monicamonica@@ele.ele.pucpuc--riorio..brbr 15

EstatEstatíística descritivastica descritiva

Gráficos ("A picture is worth one thousand words")HistogramaDiagramas de ParetoGráficos de dispersão, gráficos da variável ao longo do tempo, gráficos de barras, etc...

Medidas Numéricas Média amostralMediana amostralDesvio padrão amostralVariância amostralAssimetria e Curtose amostraisPercentisCovariância, Correlação amostrais

monicamonica@@ele.ele.pucpuc--riorio..brbr 16

Alguns grAlguns grááficos da evoluficos da evoluçção de ão de varivariááveis ao longo do tempoveis ao longo do tempo

Page 5: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 17

Consumo Total Energia ElConsumo Total Energia EléétricatricaJanJan/1979 a /1979 a AgoAgo/2006/2006

Consumo de Energia Elétrica - Total Brasil (GWh) - Fonte: Eletrobrás

7,000

12,000

17,000

22,000

27,000

32,000

jan/79

jan/80

jan/81

jan/82

jan/83

jan/84

jan/85

jan/86

jan/87

jan/88

jan/89

jan/90

jan/91

jan/92

jan/93

jan/94

jan/95

jan/96

jan/97

jan/98

jan/99

jan/00

jan/01

jan/02

jan/03

jan/04

jan/05

jan/06

monicamonica@@ele.ele.pucpuc--riorio..brbr 18

EXEMPLO: EXEMPLO: PrePreçços de Petros de Petróóleo leo Brent e WTI Brent e WTI –– dados didados diáários rios ––02/01/1991 a 03/11/200602/01/1991 a 03/11/2006

Preços de Petróleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006

16

20

24

28

32

36

40

44

48

52

56

60

64

68

72

76

80

84

4/1/20

004/3

/2000

3/5/20

002/7

/2000

31/8/

2000

30/10

/2000

29/12

/2000

27/2/

2001

28/4/

2001

27/6/

2001

26/8/

2001

25/10

/2001

24/12

/2001

22/2/

2002

23/4/

2002

22/6/

2002

21/8/

2002

20/10

/2002

19/12

/2002

17/2/

2003

18/4/

2003

17/6/

2003

16/8/

2003

15/10

/2003

14/12

/2003

12/2/

2004

12/4/

2004

11/6/

2004

10/8/

2004

9/10/2

004

8/12/2

004

6/2/20

057/4

/2005

6/6/20

055/8

/2005

4/10/2

005

3/12/2

005

1/2/20

062/4

/2006

1/6/20

0631

/7/20

0629

/9/20

06

Petróleo WTI Petróleo Brent

monicamonica@@ele.ele.pucpuc--riorio..brbr 19

EXEMPLO:EXEMPLO: IPCIPC--FFIPEIPEInflação FIPE (% a.m) e quadrissemanas - 01/1995 a 10/2006

-2

-1

0

1

2

3

4

5

jan/95

Inflação - IPC - FIPE Inflação - IPC - FIPE - 1a. quadrissemana

Inflação - IPC - FIPE - 2a. quadrissemana Inflação - IPC - FIPE - 3a. quadrissemana monicamonica@@ele.ele.pucpuc--riorio..brbr 20

EXEMPLO:EXEMPLO: IPCIPC--FFIPEIPE

No gráfico anterior exibimos o IPC-FIPE (o Índice de Preços ao Consumidor da FIPE, um dos mais importantes índices de inflação com suas estimativas quadrissemanais) no período entre 01/1995 e 10/2006.

As prévias quadrissemanais servem como indicadores da inflação do próximo mês medida pelo IPC-FIPE.

No próximo gráfico exibimos os valores mais recentes (desde 2002) do IPC-FIPE.

Page 6: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 21

IPCIPC--FFIPE IPE desdedesde 20022002

Inflação FIPE (% a.m)- 01/2002 a 10/2006

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

jan/02

abr/0

2

jul/02

out/0

2jan/0

3ab

r/03

jul/03

out/0

3jan/0

4ab

r/04

jul/04

out/0

4jan/0

5ab

r/05

jul/05

out/0

5jan/0

6ab

r/06

jul/06

out/0

6

INFLAÇÃO - IPC - FIPE (% a.m.)

monicamonica@@ele.ele.pucpuc--riorio..brbr 22

IBOVESPA DiIBOVESPA Diáário rio –– JulhoJulho de 1994 ade 1994 aa a 06/08/200406/08/2004

0

5,000

10,000

15,000

20,000

25,000

04/07/199403/12/199404/05/199503/10/199503/03/199602/08/199601/01/199702/06/199701/11/199702/04/199801/09/199831/01/199902/07/199901/12/199901/05/200030/09/200001/03/200131/07/200130/12/200131/05/200230/10/200231/03/200330/08/200329/01/200429/06/2004

Índice de ações - Ibovespa - fechamento (07/1994 a 08/2004)

monicamonica@@ele.ele.pucpuc--riorio..brbr 23

IBOVESPA DiIBOVESPA Diáário rio –– JulhoJulho de 1994 ade 1994 aa a 06/08/200406/08/2004

Parece que a bolsa subiu muito durante quase todo o Plano Real.

Será que isso é mesmo verdade?

Veja o próximo gráfico, em que comparamos o IBOVESPA em R$ e US$.

monicamonica@@ele.ele.pucpuc--riorio..brbr 24

IBOVESPA DiIBOVESPA Diáário rio –– JulhoJulho de 1994 ade 1994 aa a 06/08/200406/08/2004

IBOVESPA em Pontos em Reais e Dólares

2000.00

5000.00

8000.00

11000.00

14000.00

17000.00

20000.00

23000.00

26000.00

04/0

7/19

94

08/1

1/19

94

17/0

3/19

95

25/0

7/19

95

29/1

1/19

95

11/0

4/19

96

14/0

8/19

96

17/1

2/19

96

30/0

4/19

97

03/0

9/19

97

08/0

1/19

98

19/0

5/19

98

22/0

9/19

98

01/0

2/19

99

10/0

6/19

99

14/1

0/19

99

21/0

2/20

00

28/0

6/20

00

31/1

0/20

00

13/0

3/20

01

18/0

7/20

01

22/1

1/20

01

04/0

4/20

02

08/0

8/20

02

10/1

2/20

02

17/0

4/20

03

25/0

8/20

03

26/1

2/20

03

05/0

5/20

04

IBOVESPA em Dólares IBOVESPA em R$

Page 7: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 25

GrGrááfico de Dispersão fico de Dispersão (uma vari(uma variáável versus outra)vel versus outra)

monicamonica@@ele.ele.pucpuc--riorio..brbr 26

Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólarlar

Ibovespa versus Dólar PTAX -10/12/2002 a 12/06/2003

y = -3830.7x + 24366R2 = 0.8954

9,000

9,500

10,000

10,500

11,000

11,500

12,000

12,500

13,000

13,500

14,000

14,500

2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

Neste período parece fazer sentido ajustar uma reta e poderíamos estipular um modelo que pudesse prever o IBOVESPA em função da taxa de câmbio

monicamonica@@ele.ele.pucpuc--riorio..brbr 27

Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólar lar ––incorporaincorporaçção de novos dadosão de novos dados

Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004

y = -10612x + 48010R2 = 0.4532

8,000

10,000

12,000

14,000

16,000

18,000

20,000

22,000

24,000

26,000

2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

Claramente, um modelo linear não é mais apropriado quando levamos em consideração os novos dados (entre junho de 2003 e março de 2004) - OU SEJA: O MODELO MUDOU!

monicamonica@@ele.ele.pucpuc--riorio..brbr 28

Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólar lar ––incorporaincorporaçção de novos dadosão de novos dados

Por que o modelo anterior não funciona?

No período entre junho de 2003 e março de 2004 o dólar permaneceu praticamente estável, enquanto o índice Bovespa subiu consideravelmente, como podemos verificar no próximo gráfico.

Page 8: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 29

Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólar lar ––incorporaincorporaçção de novos dadosão de novos dados

IBOVESPA - 10/12/2002 a 02/03/2004

9,000

11,000

13,000

15,000

17,000

19,000

21,000

23,000

25,000

10/12

/0225

/12/02

09/01

/0324

/01/03

08/02

/0323

/02/03

10/03

/0325

/03/03

09/04

/0324

/04/03

09/05

/0324

/05/03

08/06

/0323

/06/03

08/07

/0323

/07/03

07/08

/0322

/08/03

06/09

/0321

/09/03

06/10

/0321

/10/03

05/11

/0320

/11/03

05/12

/0320

/12/03

04/01

/0419

/01/04

03/02

/0418

/02/04

Junho de 2003

monicamonica@@ele.ele.pucpuc--riorio..brbr 30

Exemplo Exemplo -- temperaturastemperaturasDados:Temperatura máxima (média das máximas) na estação de Santa Cruz (Rio de Janeiro) entre Jan/1982 e Dez/1991.

O que fazer com todos estes 120 números?

A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno!

monicamonica@@ele.ele.pucpuc--riorio..brbr 31

Exemplo Exemplo -- temperaturastemperaturas

Além disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico também nos dá uma idéia do quanto a temperatura está variando em todo o período. Por exemplo, pode-severificar que a temperatura máxima nestes 10 anos está sempre acima de 22 graus.

monicamonica@@ele.ele.pucpuc--riorio..brbr 32

Exemplo Exemplo -- temperaturastemperaturas

Temperaturas Máximas - 1982 a 1991

23

25

27

29

31

33

35

37

jan/

82

mai

/82

set/8

2

jan/

83

mai

/83

set/8

3

jan/

84

mai

/84

set/8

4

jan/

85

mai

/85

set/8

5

jan/

86

mai

/86

set/8

6

jan/

87

mai

/87

set/8

7

jan/

88

mai

/88

set/8

8

jan/

89

mai

/89

set/8

9

jan/

90

mai

/90

set/9

0

jan/

91

mai

/91

set/9

1

Page 9: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 33

Exemplo Exemplo -- temperaturastemperaturas

O grO grááfico fico éé muito muito úútil, mas certamente não conta til, mas certamente não conta a esta estóória toda ....ria toda ....

Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25 graus? Tomando-se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm temperaturas entre estes dois valores?

monicamonica@@ele.ele.pucpuc--riorio..brbr 34

Exemplo Exemplo -- temperaturastemperaturas

Podemos pensar nestas, e numa infinidade de outras questões. O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas.

O primeiro passo é fazer a distribuição de freqüência dos seus dados. Isto é simplesmente uma medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos (chamados intervalos de classeintervalos de classe) e conta quantas observações caem em cada intervalo.

monicamonica@@ele.ele.pucpuc--riorio..brbr 35

Exemplo Exemplo -- temperaturastemperaturas

A escolha do nA escolha do núúmero de intervalos mero de intervalos éé meio meio arbitrarbitráária.ria. O importante é garantir que o número de classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno, fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito grande, existirão muito poucas observações em cada classe.

O primeiro passo é ordenar os dados pois facilita a colocação dos dados em cada classe.

monicamonica@@ele.ele.pucpuc--riorio..brbr 36

Exemplo Exemplo -- temperaturastemperaturas

Escolha do número de classes num diagrama de frequênciaSeja n o número de intervalos num diagrama de frequência. Recomenda-se escolher n entre 5 e 20. Quanto maior o número de observações, maior o número de intervalos.

Geralmente usaGeralmente usa--se n igual se n igual àà raiz quadrada do nraiz quadrada do núúmero total mero total de observade observaççõesões, que neste caso seria aproximadamente 11. Para facilitar a visualização em geral usamos intervalos com o mesmo comprimento. Também muitas vezes o primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um certo valor".

Page 10: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 37

Exemplo Exemplo -- temperaturastemperaturas

Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número nos permiteencontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par.

Neste caso eu decidi considerar 7 classes para as temperaturas. A primeira vai de 24 a 26 graus, a segunda vai de 26.1 a 28 graus e assim sucessivamente. O diagrama de freqüências encontrado está a seguir.

monicamonica@@ele.ele.pucpuc--riorio..brbr 38

Exemplo Exemplo -- temperaturastemperaturas

Classe Frequência Frequência Relativa Frequência Relativa

Acumulada24-26 graus 7 7/120 = 5.83 % 5.83%

26.1- 28 graus 31 31/120 = 25.83 % 31.66%

28.1-30 graus 26 26/120 = 21.67 % 53.33%

30.1-32 graus 26 26/120 = 21.67 % 75.00%

32.1-34 graus 25 25/120 = 20.83 % 95.83%

34.1-36 graus 3 3/120 = 2.50 % 98.33%

36.1-38 graus 2 2/120 = 1.67 % 100%

Totais 120 100%

monicamonica@@ele.ele.pucpuc--riorio..brbr 39

Exemplo Exemplo –– temperaturastemperaturas

O diagrama de frequências já nos permite responder a diversas outras questões. Por exemplo, a grande maioria (69.17%) das temperaturas máximas está entre 26.1 e 32 graus. Também percebemos que temperaturas máximas acima de 34.1 graus são incomuns (apenas 5 dentre as 120).

Veja que outras conclusões você consegue obter Veja que outras conclusões você consegue obter a partir deste diagrama.a partir deste diagrama.

monicamonica@@ele.ele.pucpuc--riorio..brbr 40

Exemplo Exemplo -- temperaturastemperaturas

A partir de um diagrama de frequências podemos facilmente construir um histograma.

HistogramaGráfico de barras, onde o eixo vertical contém as frequências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes faz-se a área de cada barra igual àfreqüência relativa de cada classe, de tal forma que a área total sob o histograma é 1 (100%).

Page 11: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 41

Histograma Histograma –– produproduçção no Excelão no Excel

É automática, mas você precisa ter instalado antes o suplemento (“add-in”) de ferramentas de análise de dados.

Aliás, este suplemento será muito útil para nós, portanto instale-o.

monicamonica@@ele.ele.pucpuc--riorio..brbr 42

Histograma Histograma –– produproduçção no Excelão no Excel

monicamonica@@ele.ele.pucpuc--riorio..brbr 43

Histograma Histograma –– produproduçção no Excelão no ExcelCélulas contendo os dados

Células contendo os limites dos intervalos (não precisam ser especificados) – mas geralmente quando não os especificamos o Excel gera uns limites meio “feios”

monicamonica@@ele.ele.pucpuc--riorio..brbr 44

HistogramaHistograma –– implementaimplementaççãoãono Excel no Excel emem PortuguêsPortuguês

Page 12: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 45

Histograma Histograma –– produproduçção no Excelão no Excel

Histograma

0

5

10

15

20

25

30

35

24 26 28 30 32 34 36 38 acima de 38

Intervalo

Freq

üênc

ia

Note que este histograma usa intervalos diferentes dos especificados na tabela de freqüência mostrada anteriormente

monicamonica@@ele.ele.pucpuc--riorio..brbr 46

Histograma Histograma –– Retorno diRetorno diáário do rio do prepreçço do petro do petróóleo WTI leo WTI –– 01/1991 a 01/1991 a 08/200608/2006

Histograma - Log Retornos Petróleo WTI - 1991 a 2006

0

100

200

300

400

500

600

700

800

-13.1%

-12.2%

-11.3%

-10.4%-9.5%

-8.6%

-7.7%

-6.8%

-6.0%

-5.1%

-4.2%

-3.3%

-2.4%

-1.5%

-0.6% 0.3

%1.2

%2.0

%2.9

%3.8

%4.7

%5.6

%6.5

%7.4

%8.3

%9.2

%10

.0%10

.9%11

.8%12

.7%13

.6%14

.5% More

Bin

Freq

uenc

y

A grande maioria dos retornos diários (variações diárias) nesta faixa, mas também variações extremas

monicamonica@@ele.ele.pucpuc--riorio..brbr 47

Diagrama de Diagrama de ParetoPareto

Como fazer um diagrama de Pareto?1) Faça um gráfico de barras colocando a freqüência de cada

tipo de evento no eixo vertical, e arranjando os eventos em ordem decrescente de ocorrência. Assim, a primeira barra corresponde ao evento que ocorre com mais freqüência, a segunda barra diz respeito ao segundo evento mais freqüente, e assim por diante.

2) Crie um eixo vertical no lado direito do seu gráfico contendo as freqüências relativas acumuladas. Faça uma linha juntando as frequências relativas acumuladas e a superponha ao gráfico de barras.

monicamonica@@ele.ele.pucpuc--riorio..brbr 48

Exemplo Exemplo –– Consumo ResidencialConsumo Residencial

Os dados a seguir representam a distribuição de domicílios residenciais por classe de consumo de energia elétrica na área de concessão de uma certa distribuidora de energia. Os dados referem-se a uma pesquisa realizada em dezembro de 1995 com uma amostra de 1122 domicílios.

Faixas de consumo número de domicílios freqüência relativa

0-50 KWh 127 127/1122 = 11.3 %

51-100 KWh 199 199/1122 = 17.7 %

101-150 KWh 225 20.10%

151-300 KWh 384 34.20%

acima de 300 KWh 187 16.70%

Total: 1122

Page 13: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 49

Exemplo Exemplo –– Consumo ResidencialConsumo Residencial

O diagrama de Pareto para estes dados é:Diagrama de Pareto

0

50

100

150

200

250

300

350

400

151-300 KWh 101-150 KWh 51-100 KWh acima de 300 KWh 0-50 KWh

monicamonica@@ele.ele.pucpuc--riorio..brbr 50

Medidas NumMedidas Numééricasricas

A partir de agora suponha que os dados observados na amostra são x1, x2, ..., xn . n é o tamanho da amostra. A partir dos x's vamos encontrar números que resumem as características da amostra. Vamos estar interessados em dois tipos principais de medidas numéricas: as que caracterizam a localização do centro da amostra e as que caracterizam a dispersão dos dados.

monicamonica@@ele.ele.pucpuc--riorio..brbr 51

Medidas NumMedidas Numééricasricas

Medidas de Localização ou de tendência central

dizem onde está o "meio" dos seus dadosexemplo: média e mediana amostrais

Medidas de Dispersãodizem o quanto os seus dados estão “espalhados”exemplo: desvio padrão e variância amostrais, amplitude

amostral

monicamonica@@ele.ele.pucpuc--riorio..brbr 52

Medidas de Tendência CentralMedidas de Tendência Central

Média Amostral

No Excel: função Média (....)

Considere agora a amostra x1, x2, ..., xn e suponha que você a ordene, de tal forma que x(1) seja o menor elemento da amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o maior elemento da amostra. Os valores x(1), x(2), ..., x(n) são chamados de estatestatíísticas de ordemsticas de ordem da amostra. Outras medidas de tendência central e de dispersão serão definidas a partir das estatísticas de ordem.

∑=

=n

iiX

nX

1

1

Page 14: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 53

Medidas de Tendência CentralMedidas de Tendência CentralMedianaÉ definida a partir das estatísticas de ordem.

Por exemplo, se existem 10 observações na amostra, a mediana equivale à média entre x(5) e x(6) . Se a amostra contém 11 elementos, a mediana é x(5) . A mediana amostralé menos influenciada que a média por observações aberrantes (“outliers”).

No Excel é a função med(...)

12 2

1 2

se n, o tamanho da amostra, é par2

ou

se n, o tamanho da amostra, é ímpar

n n

n

X X

mX

⎛ ⎞ ⎛ ⎞+⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

+⎛ ⎞⎜ ⎟⎝ ⎠

+⎧⎪⎪⎪⎪= ⎨⎪⎪⎪⎪⎩

monicamonica@@ele.ele.pucpuc--riorio..brbr 54

Medidas de Tendência CentralMedidas de Tendência Central

Por exemplo, se os seus dados são 1,2,3,4,5, a média amostral é: (1+2+3+4+5)/5 = 3 e a mediana amostral tem o mesmo valor.Se agora os dados são:1,2,3,4,45, a média amostral é:(1+2+3+4+45)/5 = 11, mas a mediana amostralcontinua sendo 3.Logo, a média amostral foi profundamente influenciada por um único valor, e o mesmo não aconteceu com a mediana amostral.

monicamonica@@ele.ele.pucpuc--riorio..brbr 55

Medidas de DispersãoMedidas de Dispersão

As medidas de tendência central não são as únicas medidas necessárias para caracterizar uma amostra (ou população).

Precisamos também saber o quanto as observações na amostra estão " espalhadas".

Por exemplo, no gráfico a seguir as populações têm a mesma média, mas certamente a segunda distribuição tem maior dispersão.

monicamonica@@ele.ele.pucpuc--riorio..brbr 56

Medidas de DispersãoMedidas de Dispersão

0.00

0.05

0.10

0.15

0.20

0.25

0.30

2 7 12 17

Tem maior dispersão – émais“espalhada”

Page 15: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 57

Medidas de DispersãoMedidas de Dispersão

Variância AmostralÉ a medida mais comum de dispersão . A variância amostral, denotada por s2 é definida como:

Onde é a média amostral.Note que, por definição, a variância amostral a variância amostral éésempre não negativa!!!sempre não negativa!!!A unidade de medida da variância é o quadrado da unidade de medida das observações, o que dificulta a sua interpretação.

( )∑=

−−

=n

ii XX

ns

1

22

11

X

monicamonica@@ele.ele.pucpuc--riorio..brbr 58

Medidas de DispersãoMedidas de Dispersão

Desvio Padrão AmostralO desvio padrão amostral, denotado por s, édefinido como a raiz quadrada positiva da variância amostral. Pelos comentários anteriores, notamos que s é expresso nas mesmas unidadesexpresso nas mesmas unidadesde medida que as observaque as observaçções na amostraões na amostra.

( )s sn

X Xii

n= =

−−

=∑2 2

1

11

monicamonica@@ele.ele.pucpuc--riorio..brbr 59

Medidas de DispersãoMedidas de Dispersão

Coeficiente de variação amostral

É uma medida adimensional, e serve principalmente para comparar duas amostras que foram coletadas em unidades de medida diferentes, por exemplo, uma em cm e outra em polegadas.Amplitude Amostral

XsCV =

mínmáxXXA n −=−= )1()(

monicamonica@@ele.ele.pucpuc--riorio..brbr 60

Como obter estatComo obter estatíísticas sticas descritivas no Excel?descritivas no Excel?

Opção 1Use as funções apropriadas, por exemplo, média(..), med(...), máximo(...), mínimo(...), desvpad(...), ...

Opção 2Use a ferramenta “estatística descritiva”dentro das opções de “análise de dados”, como indicado na tela a seguir. Várias outras estatísticas, como a curtose (que mede o “peso” das “caudas”(extremos) e a assimetria, são também fornecidas).

Page 16: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 61

Como obter estatComo obter estatíísticas sticas descritivas no Excel?descritivas no Excel?

monicamonica@@ele.ele.pucpuc--riorio..brbr 62

Como obter estatComo obter estatíísticas sticas descritivas no Excel?descritivas no Excel?

Células contendo os dados

Indicador de nome da variável na 1a. posição da coluna ou linha

Produzir estatísticas descritivas

monicamonica@@ele.ele.pucpuc--riorio..brbr 63

PercentisPercentis

O percentil x% é o ponto tal que, a probabilidade de estar abaixo dele é x%.

O percentil 50% é a MEDIANA de um conjunto de dados, e qualquer percentilentre 0 e 100% pode ser encontrado através da função PERCENTIL do Excel.

monicamonica@@ele.ele.pucpuc--riorio..brbr 64

QuartisQuartis

Primeiro Quartil: Q1 – é o percentil 25%, ou seja, 25% das observações estão abaixo de Q1

Segundo Quartil: Q2 - é a mediana

Terceiro Quartil: Q3 – é o percentil 75%

Page 17: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 65

EstatEstatíísticas Descritivas sticas Descritivas –– Retorno Retorno do Petrdo Petróóleo WTI leo WTI –– 01/1991 a 08/200601/1991 a 08/2006

Estatísticas Descritivas - Retorno WTI - 1991 a agosto 2006

Média 0.017%Mediana 0.071%

Moda 0.000%Desvio Padrão 2.38%

Variância 0.001Curtose 26.338

Assimetria -1.57Amplitude 0.56

Mínimo -40.64%Máximo 15.38%

Número de Obs. 3,836

monicamonica@@ele.ele.pucpuc--riorio..brbr 66

PercentisPercentis –– Retorno do PetrRetorno do Petróóleo leo WTI WTI –– 01/1991 a 08/200601/1991 a 08/2006

5% -3.53%10% -2.53%25% -1.17%50% 0.07%75% 1.28%90% 2.51%95% 3.45%

Percentis

5% dos retornos 5% dos retornos abaixo de abaixo de --3.53%3.53%

90% dos retornos 90% dos retornos abaixo de +2.51%abaixo de +2.51%

monicamonica@@ele.ele.pucpuc--riorio..brbr 67

AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA

Considere agora os retornos diários do IBOVESPA no período entre 04 de julho de 1994 e 06/08/2004.

Defina o retorno diário entre os dias t e t + 1 como:

Onde log denota o logaritmo natural (base e) e Pte Pt+1 são, respectivamente, os preços nos dias t e t + 1.O retorno definido acima é chamado de retorno retorno geomgeoméétrico.trico.

⎟⎟⎠

⎞⎜⎜⎝

⎛= +

+t

tt P

PR 11 log

monicamonica@@ele.ele.pucpuc--riorio..brbr 68

HistogramaHistograma dos dos RetornosRetornosIBOVESPAIBOVESPA

Histograma dos retornos diários do IBOVESPA

0

50

100

150

200

250

300

350

400

450

500

-7.00%-6.50%-6.00%-5.50%-5.00%-4.50%-4.00%-3.50%-3.00%-2.50%-2.00%-1.50%-1.00%-0.50%0.00%0.50%1.00%1.50%2.00%2.50%3.00%3.50%4.00%4.50%5.00%5.50%6.00%6.50%7.00%Mais

Bloco

Freq

üênc

ia

Page 18: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 69

PercentisPercentis dos Retornosdos Retornos

Percentil Retorno Correspondente1.0% -6.75%5.0% -3.90%

10.0% -2.74%25.0% -1.24%50.0% 0.13%75.0% 1.48%90.0% 2.69%95.0% 3.66%99.0% 6.63%

monicamonica@@ele.ele.pucpuc--riorio..brbr 70

AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPAUso da funUso da funçção ão ““freqfreqüüênciaência””Produz a freqüência (número de ocorrências num determinado intervalo).Por exemplo, dentre 2501 retornos diários do IBOVESPA, a referência:

FREQÜÊNCIA(E$3:E$2503;G7) significa:Olhe para todos os dados em E$3 a E$2503 (são os retornos diários) e conte QUANTOS estão ABAIXO do valor em G7.O gráfico destas frequências é mostrado na próxima página.

monicamonica@@ele.ele.pucpuc--riorio..brbr 71

AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA

Frequüências Acumuladas - Retornos Diários

-

500

1,000

1,500

2,000

2,500

3,000

-15.00

%-7.

00%

-6.50

%-6.

00%

-5.50

%-5.

00%

-4.50

%-4.

00%

-3.50

%-3.

00%

-2.50

%-2.

00%

-1.50

%-1.

00%

-0.50

%0.0

0%0.5

0%1.0

0%1.5

0%2.0

0%2.5

0%3.0

0%3.5

0%4.0

0%4.5

0%5.0

0%5.5

0%6.0

0%6.5

0%7.0

0% 20%

30%

monicamonica@@ele.ele.pucpuc--riorio..brbr 72

AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA

Se dividirmos cada uma destas freqüências por 2501 obtemos as freqüências relativas acumuladas – veremos mais tarde que isso é uma aproximação para a função de distribuição acumulada.

Veja o próximo gráfico.

Page 19: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 73

AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA

Frequüências Relativas Acumuladas - Retornos Diários

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

55%

60%

65%

70%

75%

80%

85%

90%

95%

100%

-15.00

%-7.

00%

-6.50

%-6.

00%

-5.50

%-5.

00%

-4.50

%-4.

00%

-3.50

%-3.

00%

-2.50

%-2.

00%

-1.50

%-1.

00%

-0.50

%0.0

0%0.5

0%1.0

0%1.5

0%2.0

0%2.5

0%3.0

0%3.5

0%4.0

0%4.5

0%5.0

0%5.5

0%6.0

0%6.5

0%7.0

0% 20%

30%

monicamonica@@ele.ele.pucpuc--riorio..brbr 74

AssimetriaAssimetria

O coeficiente de assimetria amostral édefinido como:

( )

( )

( )

( )2/3

1

2

1

3

2/3

1

2

1

3

31

1

⎭⎬⎫

⎩⎨⎧

⎭⎬⎫

⎩⎨⎧

−=

⎭⎬⎫

⎩⎨⎧

⎭⎬⎫

⎩⎨⎧

−=

=

=

=

=

n

ii

n

ii

n

ii

n

ii

XX

XXn

XXn

XXn

γ

Se o coeficiente Se o coeficiente éé zero, seus dados são simzero, seus dados são siméétricos em torno da tricos em torno da mméédia.dia.

Se o coeficiente Se o coeficiente éé positivo (assimetria positiva), existem positivo (assimetria positiva), existem valores valores ““grandesgrandes”” maiores que a mmaiores que a méédia => existe uma cauda dia => existe uma cauda comprida para a direita.comprida para a direita.

monicamonica@@ele.ele.pucpuc--riorio..brbr 75

AssimetriaAssimetria

Na curva A acima a assimetria é positiva, a curva B é simétrica e a curva C tem assimetria negativa.

Em geral, se a assimetria é positiva, a média é MAIOR que a mediana.

O oposto ocorre se a assimetria é negativa (em geral média MENOR que a mediana).

monicamonica@@ele.ele.pucpuc--riorio..brbr 76

AssimetriaAssimetria

Distribution for PLD/B10

0.000

0.010

0.020

0.030

0.040

0.050

0.060

0.070

0.080

Mean=28.82446

0 35 70 105 1400 35 70 105 140

5% 90% 5% 18.8795 49.7419

Mean=28.82446

Dados com assimetria positiva

Distribution for DEM REAL/B7

Values in 10^ -6

Values in Millions

0123456789

Mean=919999.9

0.75 0.8375 0.925 1.0125 1.10.75 0.8375 0.925 1.0125 1.1

5% 90% 5% .8459 .994

Mean=919999.9

Dados simDados siméétricostricos

Page 20: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 77

CurtoseCurtose

É uma medida do “achatamento” de uma distribuição de probabilidade.

Como a distribuição Normal tem curtose igual a 3, usualmente define-se o “excesso de curtose”, ou seja, o quanto uma distribuição de probabilidade tem mais curtose que a Normal.

monicamonica@@ele.ele.pucpuc--riorio..brbr 78

CurtoseCurtose

Distribuições de retornos de ativos financeiros geralmente tem a “cara” de uma Normal, mas com excesso de curtose!

Ao lado, a curva B é a Normal padrão e a curva A tem excesso de curtose.

monicamonica@@ele.ele.pucpuc--riorio..brbr 79

CurtoseCurtose

A fórmula do excesso de curtose é:

Note que, se os seus dados são Normais, esta medida é próxima de zero.

( )

( )

4

14 2

2

1

3

n

ii

n

ii

n X X

X Xκ =

=

−= −⎛ ⎞

−⎜ ⎟⎝ ⎠

monicamonica@@ele.ele.pucpuc--riorio..brbr 80

DefiniDefiniççõesões bbáásicassicas ––IntroduIntroduçção ão àà ProbabilidadeProbabilidade

Page 21: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 81

Probabilidades Probabilidades –– IntroduIntroduççãoão

Probabilidade faz parte do nosso dia a dia, por exemplo:

“A previsão da meteorologia é de (grande chance de) chuvas ao final do dia”“O Flamengo possui (MUITAS!!!) chances matemáticas de chegar à final”A probabilidade do candidato XYZ chegar ao 2o. Turno das eleições presidenciais épequena...A probabilidade da taxa SELIC cair na próxima reunião do COPOM é alta...

monicamonica@@ele.ele.pucpuc--riorio..brbr 82

Probabilidades Probabilidades –– IntroduIntroduççãoão

Em resumo: estamos SEMPRE falando sobre probabilidades no nosso dia a dia, resta saber como quantificá-las, e quais os MODELOS mais comuns na prática.

Na terminologia usual, a probabilidade reflete a chance de um determinado evento ocorrer.Quanto maior a probabilidade, maior a chance de ocorrência de um acontecimento.

IMPORTANTE: probabilidade é um número entre 0 e 1 sempre!

monicamonica@@ele.ele.pucpuc--riorio..brbr 83

Experiência AleatExperiência Aleatóóriaria

E por que é necessário estudar probabilidades?Sempre que lidamos com experiências aleatórias, ou seja, toda vez em que o “mundo” não é determinístico (quase sempre...)

Experiência aleatExperiência aleatóóriariaAquela cujo resultado não pode ser conhecido antes da Aquela cujo resultado não pode ser conhecido antes da realizarealizaçção da mesmaão da mesma, por exemplo:

O resultado da jogada de um dado;O número de carros que passam num posto de pedágio num intervalo de meia hora;A cotação do dólar em 02/03/2005;Os números que vão “sair” no concurso da Mega-Sena da próxima semana;A carga no Sudeste às 18 horas de amanhã.

monicamonica@@ele.ele.pucpuc--riorio..brbr 84

Experiência AleatExperiência Aleatóóriaria

Mas... note que, embora você não saiba embora você não saiba exatamente qual o resultado da experiência exatamente qual o resultado da experiência aleataleatóória, tambria, tambéém não existe ignorância completam não existe ignorância completasobre o assunto!!!

No exemplo da jogada do dado, é claro que os resultados possíveis são {1, 2, 3, 4, 5, 6}, as faces do dado; No caso da Mega-Sena, o conjunto de valores possíveis são os 6 números sorteados no conjunto {0, ..., 50} e nos outros exemplos podemos estabelecer um intervalo de valores máximos e mínimos!

Page 22: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 85

EspaEspaçço o AmostralAmostral

ÉÉ o conjunto de o conjunto de todos os posstodos os possííveis resultadosveis resultados de de uma experiência aleatuma experiência aleatóória.ria.

Total de nomes da lista telefônica do Rio de Janeiro (???)Valores entre R$ 1.50 e R$ 150 (cotação do dólar em 02/03/2007)Uma moeda é jogada 3 vezes, e observamos a seqüência de caras (H) e coroas (T). O espaço amostralé S = { HHH, THH, HTH, HHT, TTH, THT, HTT, TTT}Uma lâmpada é fabricada e testada até queimar, e registra-se o tempo de ocorrência deste evento. O espaço amostral é S = { x : x > 0 }O espaço amostral será denotado aqui por S.

monicamonica@@ele.ele.pucpuc--riorio..brbr 86

EventoEvento

É um conjunto de possíveis resultados de uma experiência, isto é, um subconjunto do espaço amostral.

Nomes na lista telefônica que comecem com P e tenham 5 letrasCotação do dólar entre R$ 3.50 e R$ 8.50 em 02/03/2007.O evento “sair 1 cara em 3 jogadas” é dado pelo conjunto: { HTT, THT, TTH}O evento “lâmpada durar menos de 1000 horas” pode ser expresso como: { x : 0 < x < 1000}

monicamonica@@ele.ele.pucpuc--riorio..brbr 87

EventoEvento

Da definição segue diretamente que ambos ∅ e S são eventos. Se o espaço amostral é finito e possui n elementos, então existem 2n

subconjuntos deste espaço amostral, isto é, existem 2n eventos. É claro que não podemos dizer quantos eventos existem associados a um espaço amostral infinito.

monicamonica@@ele.ele.pucpuc--riorio..brbr 88

Propriedades de EventosPropriedades de Eventos

Se A e B são eventos – sua interseção também é um evento! Isso vale também para a interseção entre n eventos.

EspaEspaçço o AmostralAmostral

Evento AEvento A Evento BEvento B

InterseInterseçção entre os eventos A e Bão entre os eventos A e B

Page 23: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 89

Propriedades de EventosPropriedades de Eventos

Se A e B são eventos – sua união também é um evento! Esta propriedade é válidade também para a união de n eventos.

EspaEspaçço o AmostralAmostral

Evento AEvento A Evento BEvento B

união entre os eventos A e Bunião entre os eventos A e B

monicamonica@@ele.ele.pucpuc--riorio..brbr 90

Propriedades de EventosPropriedades de Eventos

Se A é um evento, o complemento de A, denotado por AC ou , também é um evento.

EspaEspaçço o AmostralAmostral

AA

AAcc

A

monicamonica@@ele.ele.pucpuc--riorio..brbr 91

Eventos mutuamente Eventos mutuamente exclusivosexclusivosEventos mutuamente exclusivos – os elementos de A não pertencem a B e vice-versa, isto é, A ∩ B = ∅.

Note que dois eventos complementares são mutuamente exclusivos

Espaço Amostral

AA BB

monicamonica@@ele.ele.pucpuc--riorio..brbr 92

DefiniDefiniçção axiomão axiomáática de tica de probabilidadeprobabilidade

A definição axiomática de probabilidade encara probabilidade como uma função cujo domínio é o espaço amostral.

Logo, probabilidade é uma função que “sai” de S e “chega” no intervalo [0,1] e por isso precisamos saber “lidar” com conjuntos, pois o espaço amostral não énecessariamente numérico, como jávimos.

Page 24: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 93

DefiniDefiniçção axiomão axiomáática de tica de probabilidadeprobabilidade

Seja A um subconjunto qualquer do espaço amostral S.

Podemos definir uma função P(.) tal que, se A ⊆ S, então P(A) é a probabilidade de que o resultado da experiência aleatória seja um elemento de A.

Esta função P(.) "pega" elementos do espaço amostral e os leva num subconjunto dos reais, o intervalo [0,1].

monicamonica@@ele.ele.pucpuc--riorio..brbr 94

DefiniDefiniçção axiomão axiomáática de tica de probabilidadeprobabilidade

[0,1] probabilidade

S

A

No entanto, nem toda função que sai de S e chega em [0,1] pode ser chamada de probabilidade, ela tem que satisfazer certas condições.

monicamonica@@ele.ele.pucpuc--riorio..brbr 95

DefiniDefiniçção axiomão axiomáática de tica de probabilidadeprobabilidade

Seja S o espaço amostral e A um subconjunto qualquer deste espaço. Uma função de probabilidade que atua sobre este espaço amostral satisfaz:

i) 0 ≤ P(A) ≤ 1 para todo A ⊆ Sii) P(S) = 1iii) P(A1 ∪ A2 ∪ A3 ∪.....) = P(A1) + P(A2) + P(A3) + ...

onde os Ai são mutuamente exclusivos.Esta última propriedade é válida, em particular, quando existe um número finito de termos na união.

monicamonica@@ele.ele.pucpuc--riorio..brbr 96

DefiniDefiniçção axiomão axiomáática de tica de probabilidadeprobabilidade

A versão mais simples da expressão iii) será usada muitas vezes neste curso, e por isso a colocamos em destaque: P(A1 ∪ A2) = P(A1) + P(A2) se A1 e A2 forem mutuamente exclusivos.

Estas três propriedades definem o tipo de função que pode ser chamada de "probabilidade".

A princípio, existem infinitas funções que mapeiam S em [0,1], mas para ser chamada de “probabilidade”, uma função deve satisfazer os três requisitos anteriores.

Page 25: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 97

Propriedades das Propriedades das ProbabilidadesProbabilidades

A partir da definição podemos derivar diversas propriedades importantes.Seja A um subconjunto qualquer de S e Ac o seu complemento. Seja P(.) uma probabilidade definida em S. As seguintes propriedades decorrem da definição de probabilidade:

P(Ø) = 0Para todo A ⊆ S, P(Ac) = 1 - P(A) onde Ac é o complemento de APara todo A ⊆ S, 0 ≤ P(A) ≤ 1 = P(S)Para quaisquer A1 e A2 em S tais que A1 ⊆ A2 então P(A1) ≤ P(A2)

monicamonica@@ele.ele.pucpuc--riorio..brbr 98

Propriedades das Propriedades das ProbabilidadesProbabilidades

Esta última propriedade resulta numa certa “ordenação" dentro do espaço amostral, e diz simplesmente que, se um evento A1 está contido noutro, a probabilidade de A1 é menor ou igual à probabilidade do evento que o contém.

A propriedade a seguir é uma das mais importantes na prática, e nos permite calcular a probabilidade da união de eventos que não sãodisjuntos.

monicamonica@@ele.ele.pucpuc--riorio..brbr 99

Propriedades das Propriedades das ProbabilidadesProbabilidades

Para quaisquer A1 e A2 em S:Pr(A1 ∪ A2) = Pr(A1) + Pr(A2) - Pr(A1 ∩ A2)

Em particular, se A1 e A2 são mutuamente exclusivos: Pr(A1 ∪ A2) = Pr(A1) + Pr(A2)

Esta propriedade é às vezes chamada de “lei da adição”.

monicamonica@@ele.ele.pucpuc--riorio..brbr 100

PartiPartiçção do Espaão do Espaçço o AmostralAmostral

É formada por eventos cuja interseção é nula e cuja união é o próprio espaço amostral.

Por exemplo, pessoas numa pesquisa de mercado classificadas em classes de consumo (A, B, C, D) – as classes formam uma partição do espaço amostral.

EspaEspaçço o AmostralAmostral

AA

BB

CC DD

Page 26: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 101

Em resumo: casos particulares Em resumo: casos particulares da lei da adida lei da adiççãoão

Eventos mutuamente exclusivosP(A ∪ B) = P(A) + P(B), pois P(A ∩ B) = 0

Eventos complementaresP(A ∪ Ac) = P(A) + P(Ac) = 1, já que P(A ∩ Ac) = 0

Partição do espaço amostral (com 3 eventos)P(A ∪ B ∪ C) = P(A) + P(B) + P(C) = 1

monicamonica@@ele.ele.pucpuc--riorio..brbr 102

Exemplo Exemplo –– propriedades das propriedades das probabilidadesprobabilidades

Um banco possui 10 fundos de investimento. Desses, 6 são de renda fixa, 4 são corporativos e 2 são de renda fixa e corporativos. Se escolhermos um fundo ao acaso, qual é a probabilidade dele ser de renda fixa ou corporativo?Solução (evento A: renda fixa, evento B: corporativo)Universo = 10 elementosP(A ∪ B) = P(A) + P(B) – P(A ∩ B)P(A) = 6/10 = 0.6P(B) = 4/10 = 0.4P(A ∩ B) = 2/10 = 0.2P(A ∪ B) = 0.6 + 0.4 – 0.2 = 0.8 ou 80%

monicamonica@@ele.ele.pucpuc--riorio..brbr 103

Probabilidade CondicionalProbabilidade Condicional

Como serComo seráá que a probabilidade de um evento muda que a probabilidade de um evento muda apapóós sabermos que um outro evento ocorreu?s sabermos que um outro evento ocorreu? Isso nos leva à idéia de probabilidade condicional.

A idéia de probabilidade condicional é uma das mais importantes deste curso e está intimamente relacionada ao fato da ocorrência de um evento afetar ou não a probabilidade de ocorrência de outro evento.

Uma probabilidade condicional nada mais é do que uma probabilidade calculada não mais a partir do espaço amostral inteiro S, e sim a partir de um subconjunto de S.

monicamonica@@ele.ele.pucpuc--riorio..brbr 104

Probabilidade CondicionalProbabilidade Condicional

MotivaMotivaççãoãoUm grupo de pessoas inclui 40 com diploma de curso superior, 20 microempresários e 10 que são, ao mesmo tempo, portadores de diploma do curso superior e microempresários.

Calcule a probabilidade de alguém ser microempresário sabendo que ele tem diploma de curso superior.Sejam os eventos: A = { pessoa tem diploma de curso superior }B = { pessoa é um microempresário }

Seleciona-se uma das 50 pessoas aleatoriamente. Então:

Page 27: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 105

Probabilidade CondicionalProbabilidade Condicional

Pr( A ) = 40/50 , Pr( B ) = 20/50 e Pr( A ∩ B ) = 10/50Considere o seguinte evento: a pessoa émicroempresária e sabe-se que ela tem diploma de curso superior.

A probabilidade deste evento deve ser diferente da probabilidade da pessoa ser microempresária, por que agora o espaço amostral não consiste mais nas 50 pessoas originais, mas apenas naquelas que possuem diploma de curso superior.

A probabilidade condicional de que uma pessoa seja microempresária sabendo-se que ela tem diploma de curso superior é dada por:

monicamonica@@ele.ele.pucpuc--riorio..brbr 106

Probabilidade CondicionalProbabilidade Condicional

P(A ∩ B) / Pr(A) = 10 /40 = 0.25

Ou, em outras palavras, devemos olhar para as 10 pessoas na interseção dentre as 40 pessoas com diploma de curso superior. O nosso “mundo”, ao calcular a probabilidade condicional, restringe-se às 40 pessoas que têm curso superior, e não mais às 50 pessoas do grupo original.

monicamonica@@ele.ele.pucpuc--riorio..brbr 107

Probabilidade CondicionalProbabilidade Condicional

ExemploEm uma amostra de 100 funcionários de uma empresa:

35 são homens e fumantes, 28 são homens e não fumantes, 17 são mulheres fumantes 20 são mulheres e não fumantes. Qual a probabilidade de um funcionário escolhido ao acaso ser fumante, dado que ele é homem?

monicamonica@@ele.ele.pucpuc--riorio..brbr 108

Probabilidade CondicionalProbabilidade Condicional

Homens

Mulheres

Fumantes

Não fumantes

482028

Não fumantes

10052Total3717Mulheres6335Homens

TotalFumantes

Page 28: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 109

Probabilidade CondicionalProbabilidade CondicionalNote que, quando definimos que o evento B ocorreu (o funcionário é homem), restringimos o espaço amostral à ocorrência do evento A (o funcionário é fumante)O novo universo passa a ser o próprio evento B

Mulheres

Fumantes

Não fumantes

482028

Não fumantes

10052Total3717Mulheres6335Homens

TotalFumantes

Homens

Novo universoNovo universo

P(A P(A ∩∩ B)B)monicamonica@@ele.ele.pucpuc--riorio..brbr 110

Probabilidade CondicionalProbabilidade Condicional

Utilizando o número de elementos de cada conjunto, temos:

P(A | B) = 35/63 = 0.556

Ou empregando as probabilidades:P(B) = 63/100 = 0.63P(A ∩ B) = 35/100 = 0.35P(A ∩ B)/P(B) = 0.35/0.63 = 0.556

monicamonica@@ele.ele.pucpuc--riorio..brbr 111

Probabilidade CondicionalProbabilidade Condicional

Estes exemplos nos fizeram derivar naturamentea probabilidade condicional do evento B dado o evento A.

Em geral, a probabilidade do evento B dado o evento A (ou dado que o evento A ocorreu) é:P (B | A) = P(A ∩ B)/P(A)

Analogamente: P (A | B) = P(A ∩B)/P(B)

Estas definições só são válidas quando os denominadores forem diferentes de zero.

monicamonica@@ele.ele.pucpuc--riorio..brbr 112

Probabilidade CondicionalProbabilidade CondicionalAo reordenarmos as expressões anteriores encontramos:

P(A ∩B) = P (B | A) . P(A) = P(A | B). P(B)

Este resultado é também conhecido como Teorema da Multiplicação. Este teorema nos permite escrever uma probabilidade condicional em termos da probabilidade condicional “inversa”, o que é útil quando uma delas for difícil de calcular. Em particular:

( ) ( ) ( )( )AP

BPBAPABP || =

Page 29: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 113

Eventos IndependentesEventos Independentes

Dois eventos A e B são chamados de independentes se:Pr ( A ∩ B ) = Pr ( A ) . Pr ( B )

Do contrário, A e B são eventos dependentes.

Independência é uma propriedade muito forte e tem um impacto direto sobre as probabilidades condicionais, como veremos a seguir.

monicamonica@@ele.ele.pucpuc--riorio..brbr 114

Probabilidade CondicionalProbabilidade Condicional

Para eventos independentes, P(A | B) = (P(A). P(B))/P(B) = P(A)

Ou seja, se A e B são independentes, a ocorrência de B não traz qualquer informação adicional sobre A.

Analogamente, se A e B são independentes: P(B | A) = P(B)

Em termos bastante informais, se A e B são independentes, um evento não tem “nada a ver”com o outro!

monicamonica@@ele.ele.pucpuc--riorio..brbr 115

Independência e DependênciaIndependência e Dependência

ExemploTomou-se uma amostra com 1000 pessoas num shopping-center com o objetivo de investigar a relação entre renda familiar e posse de cartões de crédito.

A partir dos dados da próxima tabela pergunta-se: existe independência entre “renda” e “posse de cartões de crédito”?

monicamonica@@ele.ele.pucpuc--riorio..brbr 116

Independência e DependênciaIndependência e Dependência

Se existe independência entre as duas variáveis, então Pr(Ai ∩Bj) = Pr(Ai).Pr(Bj) para todos i e j, onde Aiindica o nível de renda e Bj o número de cartões de crédito. Logo, basta provar que a igualdade acima não é válida para ALGUMA célula na tabela para concluir que as duas variáveis são dependentes. Se olharmos para a célula superior esquerda vemos que:

Renda Familiar < R$ 500 R$ 501 a R$1000 R$ 1001 a R$ 2000 > R$ 2001Núm. Cartões

0 260 170 80 20 5301 50 100 110 60 320

2 ou mais 20 25 45 60 150330 295 235 140 1000

Page 30: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 117

Independência e DependênciaIndependência e Dependência

Pr(renda abaixo de R$ 500 E nenhum cartão) = 0.26

Mas:Pr(renda abaixo de R$ 500) = 330/1000 = 0.33Pr( 0 cartões de crédito) = 530/1000 = 0.53

E como 0.26 ≠(0.33)(0.53), segue que as variáveis “renda familiar” e “número de cartões de crédito”são dependentes.

monicamonica@@ele.ele.pucpuc--riorio..brbr 118

ExemploExemplo

Uma caixa contém R bolas vermelhas e B bolas azuis. Vamos tirar 2 bolas da caixa sem repô-las. Qual a probabilidade p da primeira bola ser vermelha e da segunda ser azul?SoluçãoSejam A e B os seguintes eventos:A = {1a. bola é vermelha}B = {2a. bola é azul}

Se o evento A ocorreu, uma bola vermelha foi tirada da caixa. Como não há reposição, a probabilidade de obter uma bola azul na 2a. retirada é:

monicamonica@@ele.ele.pucpuc--riorio..brbr 119

ExemploExemplo

O evento ( A ∩ B ) é o evento {1a. bola é vermelha e a 2a. bola é azul}, e sua probabilidade é:

( )1

|Pr−+

=BRBAB

( ) ( )1

.|.)(−++

===∩BRB

BRRABPAPpBAP

monicamonica@@ele.ele.pucpuc--riorio..brbr 120

Probabilidade CondicionalProbabilidade Condicional

Como serComo seráá que a probabilidade de um evento muda que a probabilidade de um evento muda apapóós sabermos que um outro evento ocorreu?s sabermos que um outro evento ocorreu? Isso nos leva à idéia de probabilidade condicional.

Uma probabilidade condicional nada mais é do que uma probabilidade calculada não mais a partir do espaço amostral inteiro S, e sim a partir de um subconjunto de S.

Já vimos que a definição de prob. condicional é:P (B | A) = P(A ∩ B)/P(A) e, analogamente,P (A | B) = P(A ∩ B)/P(B)

Page 31: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 121

Probabilidade CondicionalProbabilidade Condicional

Estas duas últimas expressões em conjunto nos levam ao resultado conhecido como Teorema da Teorema da MultiplicaMultiplicaççãoão:

P(A ∩B) = P (B | A) . P(A) = P(A | B). P(B)

A partir desta última expressão:

( ) ( ) ( )( )AP

BPBAPABP || =

monicamonica@@ele.ele.pucpuc--riorio..brbr 122

ExemploExemplo

Numa certa cidade 40% das pessoas são homens e 60% mulheres. Também, 50% dos homens e 30% das mulheres fumam. Ache a probabilidade de que uma pessoa seja homem, dado que esta pessoa é fumante.SoluçãoPr ( H ) = 0.4 = probabilidade de selecionar um homemPr ( M ) = 0.6 = probabilidade de selecionar uma mulherSeja S o evento: "uma pessoa é fumante". Então:Pr (S | H ) = 0.5 e Pr ( S | M ) = 0.3.Desejamos encontrar Pr ( H |S ).

monicamonica@@ele.ele.pucpuc--riorio..brbr 123

ExemploExemplo

Mas Pr (H) e Pr (S | H) são conhecidas, e então sóé preciso calcular Pr (S) (a probabilidade de um fumante na população). Mas, note que:

S = (S ∩ M) ∪ (S ∩ H) e os conjuntos (S ∩ M) e (S ∩ H) são disjuntosPr ( S ) = Pr ( S ∩ M ) + Pr ( S ∩ H ) =

= Pr ( S | H ).Pr ( H ) + Pr ( S | M ).Pr ( M ) == ( 0.5 ) ( 0.4 ) + ( 0.3 ) ( 0.6 ) = 0.38

( ) ( )( )

( ) ( )( )S

HHSS

SHSHPr

Pr|PrPr

Pr|Pr =∩

=

Pela definição de probabilidade condicional:

monicamonica@@ele.ele.pucpuc--riorio..brbr 124

ExemploExemplo

( ) ( )( )

( ) ( )( )

( )( )( ) 5263.0

1910

3820

38.04.05.0

PrPr|Pr

PrPr|Pr =====

∩=

SHHS

SSHSH

Finalmente:

Page 32: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 125

IndependênciaIndependência

Dois eventos A e B são independentes se:Pr ( A ∩ B ) = Pr ( A ) . Pr ( B )

Se A e B são independentes, então as probabilidades condicionais são iguais às incondicionais, isto é:

P(A | B) = (P(A). P(B))/P(B) = P(A)P(B | A) = P(B)

Em outras palavras, se A e B são independentes, A “não traz qualquer informação sobre B” (e vice-versa).

monicamonica@@ele.ele.pucpuc--riorio..brbr 126

Independência para mais de Independência para mais de dois eventosdois eventos

Considere uma coleção de n eventos A1, A2, ..., An. Estes eventos são independentes se, e somente se:i) Pr ( A1 ∩ A2 ∩... ∩ An ) = = Pr(A1) . Pr(A2) ... Pr(An) e,

ii) Toda sub-coleção de eventos contendo mais de dois e menos de n eventos éindependente.

monicamonica@@ele.ele.pucpuc--riorio..brbr 127

Independência para mais de Independência para mais de dois eventosdois eventos

No caso de 3 eventos A, B e C, a independência ocorre se TODAS as condições abaixo são satisfeitas:

1) Pr( A ∩ B) = Pr(A).Pr(B)2) Pr( A ∩ C) = Pr(A).Pr(C)3) Pr( B ∩ C) = Pr(B).Pr(C)4) Pr( A ∩ B ∩ C) = Pr(A).Pr(B).Pr(C)

monicamonica@@ele.ele.pucpuc--riorio..brbr 128

PartiPartiçção do Espaão do Espaçço o AmostralAmostral

Uma partição do espaço amostral é uma coleção de eventos mutuamente exclusivos cuja união é o próprio S (espaço amostral), como nas figuras a seguir.

B1 B2

B3

B4

B5

B6

B7

B8

AA

BB

CC DD

Page 33: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 129

PartiPartiçção do Espaão do Espaçço o AmostralAmostral

Em termos formais, os eventos B1, B2 , ...., Bkformam uma partição do espaço amostral S se:1) Bi ∩ Bj = ∅ para todo i ≠ j2) ∪ Bi = S 3) Pr( Bi ) > 0 para todo i

Para que serve uma partiPara que serve uma partiçção?ão?Podemos escrever qualquer evento no espaPodemos escrever qualquer evento no espaçço o amostralamostral em termos das suas interseem termos das suas interseçções com os ões com os conjuntos que formam uma particonjuntos que formam uma partiçção do espaão do espaçço o amostralamostral..

monicamonica@@ele.ele.pucpuc--riorio..brbr 130

PartiPartiçção do Espaão do Espaçço o AmostralAmostral

Suponha que A é um evento qualquer em S e B1, B2 , ...., B8 formam uma partição de S, como na figura a seguir.

B1 B2

B3

B4

B5

B6

B7

B8

A

monicamonica@@ele.ele.pucpuc--riorio..brbr 131

PartiPartiçção do Espaão do Espaçço o AmostralAmostral

Então podemos escrever o evento A em termos das suas interseções com cada elemento da partição (neste exemplo, B1 a B8).A = (A ∩ B1) ∪ (A ∩ B2) ∪ (A ∩ B3) ∪ ..... (A ∩ Bk)

Mas, os (A ∩ Bi) são mutuamente exclusivos, e assim émuito fácil calcular a probabilidade da sua união (basta somar as probabilidades). Logo:Pr(A) = Pr (A ∩ B1) + Pr (A ∩ B2) + Pr (A ∩ B3) + .....+ Pr (A ∩ Bk)

Mas, cada uma destas probabilidades pode ser escrita em termos de probabilidades condicionais.

monicamonica@@ele.ele.pucpuc--riorio..brbr 132

Teorema da Probabilidade Teorema da Probabilidade TotalTotal

É um resultado que decorre diretamente das propriedades de uma partição, como mostrado nas transparências anteriores.Note que:Pr(A) = Pr (A ∩ B1) + Pr (A ∩ B2) + Pr (A ∩ B3) + .....+ Pr (A ∩ Bk) Mas: Pr (A ∩Bi ) = Pr( Bi ). Pr(A⏐Bi) para i =1, 2, ...., k.Combinando estes dois resultados fornece o teorema da probabilidade total.

Page 34: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 133

Teorema da Probabilidade Teorema da Probabilidade TotalTotal

Sejam B1, B2 , ...., Bk uma partição de S e A um evento qualquer em S. Então:

Pr(A) = Pr(B1).Pr(A⏐B1) + Pr(B2).Pr(A⏐B2) + ..... + Pr(Bk).Pr(A⏐Bk)

O caso mais simples ocorre quando a partição écomposta por apenas 2 eventos, B e seu complemento, Bc. Neste caso:

Pr(A) = Pr(B).Pr(A⏐B) + Pr(Bc).Pr(A⏐Bc)monicamonica@@ele.ele.pucpuc--riorio..brbr 134

Teorema de BayesTeorema de Bayes

É um resultado muito útil em Probabilidade, que “mistura” os teoremas da multiplicação e da probabilidade total.

Sejam B1, B2 , ...., Bk uma partição de S e A um evento qualquer em S. Então:

Para qualquer evento Bi na partição e qualquer A.

( ) ( )( )

( )( ) ( )

( ) ( )( ) ( )∑∑

==

=∩

=∩

= k

jjj

iik

jjj

iii

BBA

BBA

BBA

ABA

ABAB

11Pr|Pr

Pr|Pr

Pr|Pr

PrPr

Pr|Pr

monicamonica@@ele.ele.pucpuc--riorio..brbr 135

Teorema de BayesTeorema de Bayes

Para que serve?Muitas vezes conseguimos encontrar partições de S que são “óbvias” ou “naturais”;O teorema de Bayes nos permite “inverter” probabilidades condicionais, escrevendo uma probabilidade condicional que (esperamos!) é difícil de calcular diretamente em termos de probabilidades “fáceis” de calcular.

monicamonica@@ele.ele.pucpuc--riorio..brbr 136

Teorema de BayesTeorema de Bayes

Cuidados ao usar o Teorema de BayesESCREVA OS EVENTOS DE INTERESSE. ESCREVA OS EVENTOS DE INTERESSE. NÃO TENTE RESOLVER OS PROBLEMAS NÃO TENTE RESOLVER OS PROBLEMAS ““DE DE CABECABEÇÇAA”” PARA MINIMIZAR SUAS CHANCES DE PARA MINIMIZAR SUAS CHANCES DE ERRO!ERRO!

Page 35: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 137

Exemplo Exemplo -- BayesBayes

Os funcionários de uma empresa se dividem em 3 grupos: economistas, engenheiros e analistas de sistemas. Estes funcionários podem ocupar cargos técnicos ou gerenciais. Sabemos que:

40% dos funcionários são economistas,30% dos funcionários são engenheiros e30% dos funcionários são analistas de sistemas.

O percentual de cada grupo ocupando cargos gerenciais é:

30% dos economistas,40% dos engenheiros,10% dos analistas de sistemas.

monicamonica@@ele.ele.pucpuc--riorio..brbr 138

Exemplo Exemplo -- BayesBayes

a) Seleciona-se um funcionário aleatoriamente. Qual a probabilidade dele ocupar um cargo gerencial?

b) Seleciona-se uma pessoa ao acaso na empresa e sabe-se que ela ocupa um cargo de gerência. Qual a probabilidade dela ter vindo de cada um dos três grupos, ou seja, dado que a pessoa é um gerente, qual a probabilidade dela ser economista, engenheiro ou analista de sistemas?

monicamonica@@ele.ele.pucpuc--riorio..brbr 139

Exemplo Exemplo -- BayesBayes

Soluçãoa) Considere os eventos:

A1 = {economistas}, A2 = {engenheiros}, A3= {analistas de sistemas}, G = {cargo de gerência}

Sabemos que: Pr(A1) = 0.40, Pr(A2) = 0.30, Pr (A3) = 0.30. Também: Pr(G⏐A1) = 0.30, Pr(G⏐A2) = 0.40 e Pr(G⏐A3) = 0.10.

monicamonica@@ele.ele.pucpuc--riorio..brbr 140

Exemplo Exemplo -- BayesBayes

Queremos encontrar Pr(G). Mas:Pr(G) = Pr(G ∩ A1) + Pr(G ∩ A2) + Pr(G ∩A3) =

= Pr(A1). Pr(G⏐A1) + Pr(A2). Pr(G⏐A2) + Pr(A3). Pr(G⏐A3)

A substituição dos valores resulta em:Pr(G) = (0.40)(0.30) + (0.30)(0.40) + (0.30)(0.10) = (0.30)(0.90) = 27 %

Page 36: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 141

Exemplo Exemplo -- BayesBayes

Queremos descobrir Pr(Ai⏐G) para i = 1, 2, 3. Isto é uma aplicação direta do teorema de Bayes, jáfacilitada por que conhecemos o denominador (Pr(G)).Pr(G) = 0.27 (já calculado)Pr(A1⏐G) = Pr(G⏐A1). Pr(A1)/0.27 = (0.30)(0.40)/0.27 = 44.4%Pr(A2⏐G) = Pr(G⏐A2). Pr(A2)/0.27 = (0.40)(0.30)/0.27 = 44.4%Pr(A3⏐G) = Pr(G⏐A3). Pr(A3)/0.27 = (0.30)(0.10)/0.27 = 11.2%

monicamonica@@ele.ele.pucpuc--riorio..brbr 142

Exemplo Exemplo -- BayesBayes

Uma empresa de telefonia celular quer saber como funciona a relação entre o uso do telefone e a renda de seus clientes. Uma pesquisa anterior revelou que:

10% dos clientes pertencem à classe A.21% dos clientes pertencem à classe B.35% dos clientes pertencem à classe C.34% dos clientes pertencem à classe D.

Dentre os clientes da classe A, 20% usam telefone pré-pago.Dentre os clientes da classe B, 40% usam telefone pré-pago.

monicamonica@@ele.ele.pucpuc--riorio..brbr 143

Exemplo Exemplo -- BayesBayes

Dentre os clientes da classe C, 90% usam telefone pré-pago.Dentre os clientes da classe D, 98% usam telefone pré-pago.Um cliente é escolhido aleatoriamente e tem o serviço pré-pago. Qual a probabilidade dele pertencer a cada uma das classes?SoluçãoAqui a partição “natural” da população já existe - os clientes estão divididos em classes de consumo. Se soubermos que alguém usa um telefone pré-pago, como isso afeta a probabilidade da pessoa estar em cada uma das classes de consumo?

monicamonica@@ele.ele.pucpuc--riorio..brbr 144

Exemplo Exemplo -- BayesBayes

Suponha que A, B, C, D indicam, respectivamente, os eventos “pertencer à classe A”, “pertencer à classe B”, etc...

Seja G o evento “usar celular pré-pago”. Então, do enunciado do problema:

P(A) = 0.10, P(B) =0.21, P(C) = 0.35, P(D) = 0.34.

P(G|A) = 0.20, P(G|B) =0.40, P(G|C) =0.90, P(G|D) = 0.98.

Page 37: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 145

Exemplo Exemplo -- BayesBayes

A probabilidade de um cliente escolhido ao acaso usar celular pré-pago é (pelo Teorema da Probabilidade Total):

Escolhe-se um cliente ao acaso, e observa-se que ele usa celular pré-pago. Qual a probabilidade dele pertencer a cada uma das classes de consumo?

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( )( ) ( )( ) ( )( ) ( )( ) 7522.034.098.035.090.021.040.010.020.0

||||)(=+++=

=+++= DPDGPCPCGPBPBGPAPAGPGP

monicamonica@@ele.ele.pucpuc--riorio..brbr 146

Exemplo Exemplo -- BayesBayes

Agora o Teorema de Bayes entra em ação, mas, como já calculamos o denominador (a probabilidade de alguém ser cliente pré-pago), o cálculo se resume ao Teorema da Multiplicação.

( ) ( ) ( )( )

( )( )

( ) ( ) ( )( )

( )( )

( ) ( ) ( )( )

( )( )

( ) ( ) ( )( )

( )( ) %30.447522.0

98.034.0||

%88.417522.0

90.035.0||

%17.117522.0

40.021.0||

%66.27522.0

20.010.0||

===

===

===

===

GPDPDGPGDP

GPCPCGPGCP

GPBPBGPGBP

GPAPAGPGAP

monicamonica@@ele.ele.pucpuc--riorio..brbr 147

Exemplo Exemplo -- BayesBayes

Note que as probabilidades condicionais (dado que o cliente é pré-pago) são diferentes das incondicionais, e então existe DEPENDÊNCIA entre o uso do celular pré-pago e a classe de consumo!

Por exemplo, a probabilidade de um cliente qualquer ser da classe A é 10%, mas se soubermos que o cliente é um usuário de pré-pago, a probabilidade dele ser de classe A cai para 2.66%.

monicamonica@@ele.ele.pucpuc--riorio..brbr 148

Exemplo Exemplo -- BayesBayes

No outro extremo, a probabilidade de um cliente qualquer ser da classe D é 34%. Dada a informação de que o cliente é “pré-pago”, a probabilidade dele ser “classe D”sobe para 44.3%.

Page 38: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 149

Teorema de Bayes Teorema de Bayes –– para casapara casa

Uma revenda de carros usados oferece garantia total por 4 meses para todos os carros que vende, e este é o seu grande diferencial de marketing. Uma pesquisa anterior revelou que:

12% dos carros vendidos são Peugeot.13% dos carros vendidos são Ford.18% dos carros vendidos são Fiat.16% dos carros vendidos são GM.20% dos carros vendidos são Volkswagen.21% dos carros vendidos são de outros fabricantes.

monicamonica@@ele.ele.pucpuc--riorio..brbr 150

Teorema de Bayes Teorema de Bayes –– para casapara casa

Dentre os compradores de Peugeot, 7% retornam à loja com alguma reclamação sobre o carro adquirido.Dentre os compradores de Ford, 8% retornam àloja com alguma reclamação sobre o carro adquirido.Dentre os compradores de Fiat, 15% retornam àloja com alguma reclamação sobre o carro adquirido.Dentre os compradores de GM, 10% retornam àloja com alguma reclamação sobre o carro adquirido.

monicamonica@@ele.ele.pucpuc--riorio..brbr 151

Teorema de Bayes Teorema de Bayes –– para casapara casa

Dentre os compradores de Volkswagen, 16% retornam à loja com alguma reclamação sobre o carro adquirido.Dentre os compradores de outras marcas, 18% retornam à loja com alguma reclamação sobre o carro adquirido.

Um comprador entra na loja com uma reclamação durante o período de vigência da garantia.Qual a probabilidade dele ter comprado um carro de cada uma das marcas (incluindo “outras”)?

monicamonica@@ele.ele.pucpuc--riorio..brbr 152

Teorema de Bayes Teorema de Bayes –– para casapara casa

Uma empresa de telefonia quer saber se vale a pena disponibilizar internet de banda larga para seus clientes, e encomendou uma pesquisa de mercado, cujos resultados estão a seguir:15% dos clientes usam a internet mais de 30 horas por

semana.23% dos clientes usam a internet entre 20 e 30 horas por

semana.28% dos clientes usam a internet entre 10 e 20 horas por

semana.34% dos clientes usam a internet menos de 10 horas por

semana.

Page 39: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 153

Teorema de Bayes Teorema de Bayes –– para casapara casa

Dentre os clientes que usam internet mais de 30 horas por semana, 90% estão interessados no acesso rápido (banda larga).

Dentre os clientes que usam internet entre 20 e 30 horas por semana, 70% estão interessados no acesso rápido (banda larga).

Dentre os clientes que usam internet entre 10 e 20 horas por semana, 45% estão interessados no acesso rápido (banda larga).

monicamonica@@ele.ele.pucpuc--riorio..brbr 154

Teorema de Bayes Teorema de Bayes –– para casapara casa

Dentre os clientes que usam internet menos de 10 horas por semana, 25% estão interessados no acesso rápido (banda larga).

Um cliente é escolhido aleatoriamente e está interessado na internet de banda larga. Qual a probabilidade dele pertencer a cada uma das classes de usuário (mais de 30 horas, 20 a 30 horas, etc ...)?

monicamonica@@ele.ele.pucpuc--riorio..brbr 155

Teorema de Bayes Teorema de Bayes –– para casapara casa

Uma certa forma de câncer ocorre à razão de 3 em 1000 pessoas. Desenvolveu-se um teste para detectar a doença. Se um paciente é sadio, existe 5% de chance de um alarme falso. Se um paciente tem a doença, existe 2% de chance de que o teste não consiga detectá-la.Qual a probabilidade da pessoa ter a doença sabendo que o resultado do teste foi positivo (acusou a existência da doença)?

monicamonica@@ele.ele.pucpuc--riorio..brbr 156

Teorema de Bayes Teorema de Bayes –– para casapara casa

Uma empresa de telefonia celular quer saber como funciona a relação entre o uso do telefone e a renda de seus clientes. Uma pesquisa anterior revelou que:

10% dos clientes pertencem à classe A.25% dos clientes pertencem à classe B.35% dos clientes pertencem à classe C.30% dos clientes pertencem à classe D.

Page 40: Métodos Estatísticos de Mônica Barros Apoio à Decisão ... · monica@ele.puc-rio.brbr 1 Métodos Estatísticos de Apoio à Decisão Aulas 1 e 2 Mônica Barros, D.Sc. ... simulado

monicamonica@@ele.ele.pucpuc--riorio..brbr 157

Teorema de Teorema de BayesBayes –– para casapara casa

Dentre os clientes da classe A, 25% usam telefone pré-pago.Dentre os clientes da classe B, 45% usam telefone pré-pago.Dentre os clientes da classe C, 90% usam telefone pré-pago.Dentre os clientes da classe D, 95% usam telefone pré-pago.

Um cliente é escolhido aleatoriamente e tem o serviço pré-pago. Qual a probabilidade dele pertencer a cada uma das classes?