Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos...

Preview:

Citation preview

Probabilidade e EstatísticaProbabilidade e Estatísticapara Avaliação de Desempenho

Carlos Alberto Kamienski cak@ufabc.edu.br

Probabilidade e EstatísticaVariável aleatóriaEventos independentesDistribuição de probabilidade e densidadeMédia ou valor esperadoVariância e desvio padrãoAmostragem e estimação de parâmetrosIntervalo de confiança

Variável AleatóriaMapeamento de um evento (resultado de um experimento aleatório) em um númeroExemplos: X = estado do servidor: 1 ativo, 0 inativo Y = número de pacotes IP por intervalo de tempo Z = atraso estabelecimento conexão SSH Experimento: lançar um dado

A = valor facial B = 0 valor 3 1 valor 4 C = 0 valor par 1 valor ímpar

Variáveis Discretas e Contínuas

Uma variável aleatória é discreta se o número de resultados possíveis é finito ou pode ser contado

Variáveis aleatórias discretas são determinadas por uma contagem

Uma variável aleatória é contínua se pode assumir qualquer valor dentro de determinado intervalo

O número de resultados possíveis não pode ser listado Variáveis aleatórias contínuas são determinadas por uma medição

0 1 2-1-2

Número de resultados infinitos

Eventos independentesDois eventos são independentes a ocorrência de um não afeta a probabilidade do outroA existência ou não de relação de dependência pode modificar conclusões de uma simulaçãoEventos dependentes Número de pacotes que chegam em um roteador Número de pacotes descartados

Eventos independentes Número de chamadas que chegam a um central telefônica Duração das chamadas

Distribuição de probabilidadeDescreve a chance que uma variável pode assumir ao longo de um espaço de valores A soma de todas as probabilidades deve ser 1Variável discreta Tabela especificando a probabilidade de que a

variável assuma cada um dos valores possíveisVariável contínua Função especificando a probabilidade de que a

variável assuma um valor em cada um dos intervalos possíveis

Distribuição discreta de probabilidade

Determina o comportamento de uma variável aleatória discretadiscreta, atribuindo probabilidades a todos os possíveis valoresExemplo: variável X (estado do servidor) P[X=1] = p1 P[X=0] = p2 O conjunto {p1, p2} é a distribuição de

probabilidade da variável aleatória discreta X

Função acumulada e densidade

No caso de variáveis contínuas, define-se uma função de distribuição acumulada FX(x) que determinada a probabilidade da variável assumir um valor menor ou igual a um determinado valor x

onde, fX(x) é a função de densidade de probabilidade ou somente densidade

x

XX duufxXPxF )()()(

Distribuição de PoissonParâmetro: (média)

Utilização: Número de chegadas em um determinado tempo Número de chamadas telefônicas em um tempo t Número de conexões TCP em um tempo t

Exemplo: X = número de conexões SSH por hora Em determinado servidor = 3,5 P(X = 2) = 0,185

0,!

][

xxexP

Distribuição de Poisson (densidade)

Histogram of y

y

Den

sity

0 5 10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

= 10

Geração: R (http://www.r-

project.org)

Distribuição de Poisson (acumulada)

= 10

Geração: R (http://www.r-

project.org)0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

title

value

cum

ulat

ive

prob

abili

ties

Distribuição UniformeParâmetros: a e b (limite inferir e superior)

Utilização: Variável limitada sem informação adicional Direção de movimentação de um usuário em

um rede celular Distância entre fonte e destino em uma rede Probabilidade de um pacote conter um erro

casosoutros

bxaab

xf X

,0

,1)(

Distribuição UniformeHistogram of y

y

Den

sity

0 2 4 6 8 10

0.00

0.02

0.04

0.06

0.08

0.10

a = 0b = 10

Distribuição ExponencialParâmetro: (média)

Utilização: Tempos entre eventos sucessivos Tempo entre chamadas telefônicas Tempo entre requisições a um servidor

TELNET Tempo entre falhas de um equipamento

casosoutrosxexf x

X

,00,0,)(

Distribuição ExponencialHistogram of y

y

Den

sity

0 20 40 60 80 100 120

0.00

0.02

0.04

0.06

0.08

= 10

Distribuição Normal (Gaussiana)

Parâmetros: , (média e desvio padrão)

Utilização: Aleatoriedade causada por várias fontes

independentes agindo em conjunto Erros em medições

0,2

1)(22 2/

xexf

Distribuição Normal (Gaussiana)

Histogram of y

y

Den

sity

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Normal Padrão = 0 = 1

Média ou valor esperadoA média denota o valor esperado de uma variável aleatóriaMédia distribucional

Média amostral (estimador)

dxxxfxpXE X

n

iii )()(

1

n

i ixnx

1

1

Variância e desvio padrãoA média não dá informação sobre dispersão Ex: conjuntos {5,10,15} e {0,10,20}, com média 10

Variância e desvio padrão medem a dispersão dos dados em relação à médiaVariância amostral (estimador)

Desvio padrão =

n

i i xxn 1

22 )(1

Amostragem e estimaçãoOs parâmetros reais geralmente são desconhecidos Ex: Qual a vazão de saída de um roteador?Os parâmetros são aproximados por amostragem, gerando estatísticas, como média e desvio padrão (amostral)Com k amostras de tamanho n de uma variável X, são geradas k médias (estimativas)Próximo passo: determinar uma única estimativa

Intervalo de confiançaNão é possível encontrar uma estimativa perfeita para a média a partir de um número finito de amostras de tamanho finitoA melhor opção é obter limites probabilísticos:P(c1 c2) = 1 - é o nível de significância (menor é melhor)Intervalo de confiança é um intervalo que com alta probabilidade contém o parâmetro estimado Influenciado pelo número de amostras, pelo nível de

confiança e pelo desvio padrão das amostras Intervalo de confiança ao nível 90%, 95%, 99%, etc.

Intervalo de confiança

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8 9 10 11

Minha proposta

Proposta concorrente

Intervalo de confiança

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8 9 10 11

Minha propostaProposta concorrente

Intervalo de confiança

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8 9 10 11

Minha proposta

Proposta concorrente

Processo de Estimação

Média, , é desconhecida

População Amostra AleatóriaMédia X = 50

Amostra

Estou 95% confiante que está entre 40 e 60

Intervalo de Confiança de 95%

0.95

z.025= -1.96 z.025= 1.96

Tabela Z da Distribuição Normal

O que é o Intervalo de Confiança

para a média?

Uma maneira de expressar a incerteza de x como uma estimativa de x = média da amostra = média da população95% do IC diz que em média, 95% das vezes, se você estimar um intervalo para , o valor verdadeiro de irá estar dentro do intervalo

Intervalo de Confiança para a Média

Estimação do Intervalo de Estimação do Intervalo de Confiança Confiança (( CONHECIDO) CONHECIDO)

onde:z = valor crítico da tabela normal padrão = Desvio padrão

n = tamanho da amostra

nzx

Intervalo de Confiança para ( conhecido)

Premissas O desvio padrão da população é

conhecido A distribuição da população é

GaussianaSe não for, usar uma amostra muito

grandeEstimativa do Intervalo de Confiança / 2 / 2X Z X Z

n n

Nível de ConfiançaDenotado porInterpretação baseada em freqüência relativa A longo prazo, de todos os

intervalos de confiança que podem ser construídos podem conter o parâmetro desconhecido

Um intervalo específico irá conter ou não conter o parâmetro

100 1 %

100 1 %

Intervalo e nível de confiança

Intervalos de Confiança

Intervalos variam de

a

dos intervalos construídos contém

não contêm

_Distribuição amostral da Média

XX Z

X/ 2 / 2

XX

1

XX Z

1 100%

100 %

/ 2 XZ / 2 XZ

Fatores que afetam alargura do intervalo (precisão)

Variação dos dados Medida porTamanho da amostra

Nível de confiança

Extensão do intervalo

© 1984-1994 T/Maker Co.

X - Z a X + Z xx

X n

100 1 %

Using Other Confidence Levels

A 100(1-α)% confidence interval for the mean µ of a normal population when the value of is known is given by

[ / , + / ] The most frequently used confidence levels are 95%, 99% and 90%. Their corresponding ’s are

2/z

2/z 2/z

Confidence level 95% 99% 90%

1.96 2.58 1.6452/z

X Xn n

Structure of Confidence Intervals

nzm 2/

xn

zx 2/

nzx 2/

Upper Confidence LimitLower Confidence Limit

Margin of error

nzWidth 2/2CI theof

Interpreting a Confidence Interval

True: 95% of samples will produce a CI [

2/ , + 2/ ] that cover the true mean µ

every sample has a 95% chance of producing a CI that covers the truth.

Wrong: there is a 95% chance that the true

mean is in the interval [12.4, 13.2] . 95% of samples of size 100 will

have sample means between 12.4 and 13.2.

X X nn

Recommended