34
Probabilidade e Estatística Prof. Dr. Jhames Sampaio

Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

  • Upload
    trannga

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Probabilidade e Estatística Prof. Dr. Jhames Sampaio

Page 2: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

• Tabelas de dupla entrada • Gráfico segmentado

Qualitativa vs Quantitativa • Categorização • Boxplot por categorias

Quantitativa vs Quantitativa • Gráficos de dispersão • Correlação

Page 3: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal dentro de um banco. A questão que esperamos responder é:

"As mulheres são, injustamente, discriminadas em decisões de promoção realizadas por gerentes do sexo masculino?”

Os participantes deste estudo são 48 supervisores bancários do sexo masculino que frequentaram um instituto de administração da Universidade da Carolina do Norte em 1972. Eles foram convidados a assumir o papel do diretor de pessoal de um banco e lhes foi dado um arquivo pessoal para julgarem se a pessoa deveria ser promovida a uma posição de gerente de filial. Os arquivos estipulados para os participantes eram idênticos, exceto que metade deles indicava candidatos do sexo masculino e a outra metade indicava candidatos do sexo feminino. Esses arquivos foram aleatoriamente designados para os sujeitos.

Associação Entre Variáveis Qualitativa vs Qualitativa

Page 4: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada

feminino masculino totalpromovido 14 21 35

nãopromovido 10 3 13total 24 24 48

Uma forma interessante de avaliarmos a distribuição conjunta e as relações de dependência entre as variáveis é relativizarmos os resultados da tabela.

Page 5: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada

feminino masculino totalpromovido 29,17% 43,75% 72,92%

nãopromovido 20,83% 6,25% 27,08%total 50% 50% 100%

Dividimos os valores da tabela pelo número total de participantes que é 48

Page 6: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada

feminino masculino totalpromovido 29,17% 43,75% 72,92%

nãopromovido 20,83% 6,25% 27,08%total 50% 50% 100%

Dividimos os valores da tabela pelo número total de participantes que é 48

• 50% dos participantes é homem • 20,83% dos não promovidos são mulheres

Page 7: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino totalpromovido 58,33% 87,50% 72,92%

nãopromovido 41,67% 12,50% 27,08%total 100% 100% 100%

Dividimos os valores da tabela pelo número total de cada coluna

Page 8: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino totalpromovido 58,33% 87,50% 72,92%

nãopromovido 41,67% 12,50% 27,08%total 100% 100% 100%

• 41,67 % das mulheres não foram promovidas • 12,50% dos homens não foram promovidos

Dividimos os valores da tabela pelo número total de cada coluna

Page 9: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino totalpromovido 58,33% 87,50% 72,92%

nãopromovido 41,67% 12,50% 27,08%total 100% 100% 100%

• 41,67 % das mulheres não foram promovidas • 12,50% dos homens não foram promovidos 0.00

0.25

0.50

0.75

1.00

feminino masculinoGênero

Obs

erva

do Decisão

Não promovido

Promovido

Gráfico Segmentado

Page 10: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino totalpromovido 40,00% 60,00% 100%

nãopromovido 76,92% 23,08% 100%total 68,57% 31,43% 100%

Dividimos os valores da tabela pelo número total de cada linha

Page 11: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

• 76,92% dos não promovidos são mulheres • 60% dos promovidos são homens

Dividimos os valores da tabela pelo número total de cada linha

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino totalpromovido 40,00% 60,00% 100%

nãopromovido 76,92% 23,08% 100%total 68,57% 31,43% 100%

Page 12: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Qualitativa

0.00

0.25

0.50

0.75

1.00

não promovido promovidoDecisão

Obs

erva

do Gênero

Feminino

Masculino

Gráfico Segmentado

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino totalpromovido 40,00% 60,00% 100%

nãopromovido 76,92% 23,08% 100%total 68,57% 31,43% 100%

• 76,92% dos não promovidos são mulheres • 60% dos promovidos são homens

Page 13: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Quantitativa

Vamos considerar os tempos de prova dos ganhadores da maratona de Nova York registrados nos anos de 1970 a 1999.

1 1980 masculino 2.16139

2 1981 masculino 2.13694

3 1982 masculino 2.15806

4 1983 masculino 2.14972

5 1984 masculino 2.24806

6 1985 masculino 2.19278

7 1986 masculino 2.18500

8 1987 masculino 2.18361

9 1988 masculino 2.13889

10 1989 masculino 2.13361

11 1990 masculino 2.21083

12 1991 masculino 2.15778

13 1992 masculino 2.15806

14 1993 masculino 2.16778

15 1994 masculino 2.18917

16 1995 masculino 2.18333

17 1996 masculino 2.16500

18 1997 masculino 2.13667

19 1998 masculino 2.14583

20 1999 masculino 2.15389

21 1980 feminino 2.42833

22 1981 feminino 2.42472

23 1982 feminino 2.45389

24 1983 feminino 2.45000

25 1984 feminino 2.49167

26 1985 feminino 2.47611

27 1986 feminino 2.46833

28 1987 feminino 2.50472

29 1988 feminino 2.46861

30 1989 feminino 2.42500

31 1990 feminino 2.51250

32 1991 feminino 2.45889

33 1992 feminino 2.41111

34 1993 feminino 2.44000

35 1994 feminino 2.46028

36 1995 feminino 2.46833

37 1996 feminino 2.47167

38 1997 feminino 2.47833

39 1998 feminino 2.42139

40 1999 feminino 2.41833

41 1970 masculino 2.52722

42 1971 masculino 2.38167

43 1972 masculino 2.46444

44 1973 masculino 2.36500

45 1974 masculino 2.44167

46 1975 masculino 2.32417

47 1976 masculino 2.16944

48 1977 masculino 2.19111

49 1978 masculino 2.20333

50 1979 masculino 2.19500

51 1971 feminino 2.92278

52 1972 feminino 3.14472

53 1973 feminino 2.95194

54 1974 feminino 3.12472

55 1975 feminino 2.77056

56 1976 feminino 2.65306

57 1977 feminino 2.71944

58 1978 feminino 2.54167

59 1979 feminino 2.45917

Page 14: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Qualitativa vs Quantitativa

Para avaliar o que ocorre dentro de cada categoria podemos construir um Boxplot para cada uma delas

2.1

2.4

2.7

3.0

feminino masculinoGênero

Tem

po d

e pr

ova

Box−plot

É bastante evidente que o tempo de prova do grupo masculino é bem menor que o do grupo feminino

Page 15: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Dispersão por categorias

Como possuímos a variável “tempo", podemos criar um gráfico de dispersão em relação à variável "tempo"

Aqui escolhemos a cor dos pontos de acordo com a categoria gênero.

2.1

2.4

2.7

3.0

1970 1980 1990 2000Gênero

Tem

po d

e pr

ova

1

1

Gênero

Feminino

Masculino

Gráfico de dispersão

Page 16: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Quantitativa vs Quantitativa

Quando trabalhamos com duas variáveis quantitativas é bastante imediata a nossa vontade de construir um gráfico de dispersão que relacione os valores das variáveis em questão

Nós iremos considerar os dados relativos aos funcionários de uma empresa de vendas

Agente Anos de serviço

Número de clientes

Roberto 2 48Ana 3 50João 4 56Pedro 5 52Júlia 4 43

Agente Anos de serviço

Número de clientes

Teresa 6 60Matheus 7 62Regina 8 58Caio 8 64Bruna 10 72

Page 17: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Quantitativa vs Quantitativa

Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"

50

60

70

2 4 6 8 10Anos de serviço

Núm

ero

de c

lient

es

Gráfico de dispersão

Parece haver uma associação clara entre os anos de serviço e o número de clientes de um funcionário

Page 18: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Quantitativa vs Quantitativa

Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"

50

60

70

2 4 6 8 10Anos de serviço

Núm

ero

de c

lient

es

Gráfico de dispersão

Parece haver uma associação clara entre os anos de serviço e o número de clientes de um funcionário

Page 19: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Quantitativa vs Quantitativa

Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"

50

60

70

2 4 6 8 10Anos de serviço

Núm

ero

de c

lient

es

Gráfico de dispersão

Parece haver uma associação clara entre os anos de serviço e o número de clientes de um funcionário

Nosso desejo é criar uma medida que seja capaz de captar a associação entre variáveis quantitativas

Page 20: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Dados Brutos

0

5

10

0 2 4 6

−10

−5

0

5

0.0 2.5 5.0

−20

0

20

40

0 5 10

Associação positiva Associação negativa Ausência de associação

Page 21: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Dados brutos

0

5

10

0 2 4 6

−10

−5

0

5

0.0 2.5 5.0

−20

0

20

40

0 5 10

Associação positiva Associação negativa Ausência de associação

Page 22: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Centralizando

−4

0

4

−2 0 2

−5

0

5

10

−5.0 −2.5 0.0 2.5

−20

0

20

40

−4 0 4

Associação positiva Associação negativa Ausência de associação

Page 23: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Normalizando

−2

0

2

−2 0 2

−2

0

2

−2 0 2

−2

0

2

4

−2 0 2

Associação positiva Associação negativa Ausência de associação

Page 24: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Medidas de Associação

Correlação

CovariânciaCov(X,Y ) =

1

n

nX

i=1

(xi � x)(yi � y)

Corr(X,Y ) =

1

n

nX

i=1

(xi � x)(yi � y)

dp(x)dp(y)

Page 25: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Medidas de Associação

agente anos de serviço

número de clientes

Roberto 2 48 -3,70 -8,50 -1,54 -1,05 0,16

Ana 3 50 -2,70 -6,50 -1,12 -0,80 0,09

João 4 56 -1,70 -0,50 -0,71 -0,06 0,00

Pedro 5 52 -0,70 -4,50 -0,29 -0,55 0,02

Júlia 4 43 -1,70 -13,50 -0,71 -1,66 0,12

Teresa 6 60 0,30 3,50 0,12 0,43 0,01

Matheus 7 62 1,30 5,50 0,54 0,68 0,04

Regina 8 58 2,30 1,50 0,95 0,18 0,02

Caio 8 64 2,30 7,50 0,95 0,92 0,09

Bruna 10 72 4,30 15,50 1,78 1,91 0,34

Total 57 565 0,00 0,00 0,00 0,00 0,88

Correlação

x� x

y � y zy = y�ydp(y)

zx

⇥zy

nzx

= x�x

dp(x)

Page 26: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Gráfico Bolha

pais rep_capita mort_inf exp_vida pop regiaoAfeganistão US$1925,00 91,10 61,726 32526562 Asia

Albania US$10620,00 14,00 77,807 2896679 EuropeAlgéria US$13434,00 24,00 71,246 39666519 Africa

… … … … … …Zâmbia US$4034,00 67.80 59,853 16211767 Africa

Zimbábue US$1801,00 79,60 62,017 15602751 Africa

Vamos considerar os dados (Gapminder) de 2015 que revelam características dos países.

Para cada país temos a informação acerca da “renda per capita”, “mortalidade infantil”, "expectativa de vida”, “tamanho da população” e “região no mapa”.

Page 27: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Gráfico Bolha

Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?

Page 28: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Gráfico Bolha

Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?

50

60

70

80

0 50000 100000 150000Renda per capita

Expe

ctat

iva d

e vi

da

Gráfico de dispersão

Page 29: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Gráfico Bolha

Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?

50

60

70

80

0 50000 100000 150000Renda per capita

Expe

ctat

iva d

e vi

da

Gráfico de dispersão

A associação não aparenta ser linear de modo que tomamos o logaritmo da renda per capita

Page 30: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Gráfico Bolha

Neste gráfico podemos visualizar melhor os países

50

60

70

80

8 10 12Renda per capita

Expe

ctat

iva d

e vi

da

Gráfico de dispersão

Page 31: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

50

60

70

80

8 10 12Renda per capita

Expe

ctat

iva d

e vi

da

Gráfico de dispersão

Associação Entre Variáveis Gráfico Bolha

Podemos também procurar alguns "outliers"

Page 32: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

50

60

70

80

8 10 12Renda per capita

Expe

ctat

iva d

e vi

da

Gráfico de dispersão

Associação Entre Variáveis Gráfico Bolha

Podemos também procurar alguns "outliers"

Serra Leoa

MacauCosta do Marfim

Page 33: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

50

60

70

80

8 10 12Renda per capita

Expe

ctat

iva d

e vi

da

Região

Africa

Americas

Asia

Europe

Oceania

Gráfico de dispersão

Associação Entre Variáveis Gráfico Bolha

Adicionamos informação ao gráfico categorizando as cores por região

MacauCosta do Marfim

Serra Leoa

Page 34: Probabilidade e Estatística - passeioaleatorio.com · Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal

Associação Entre Variáveis Gráfico Bolha

E adicionamos mais informação, atribuindo o tamanho da população à área de cada ponto