34
Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Embed Size (px)

Citation preview

Page 1: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Noções de Inferência Estatística

AULA 21 – Parte I

Data Mining

Sandra de Amo

Page 2: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Como inferir a qualidade de um classificador a partir de sua performance sobre uma amostra ?

Classificadores são avaliados sobre uma amostra de dados e não sobre o conjunto total de dados.

Seja D um conjunto de N amostras de teste; Seja M um modelo de classificação

Acurácia Empírica de M = K/N, onde K = número de amostras classificadas corretamente em N tentativas.

Se a acurácia empírica é alta podemos dizer que M é um bom classificador ?

Page 3: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo MA foi testado em um conjunto de 30 amostras

Acc(MA) = 85% MB foi testado em um conjunto de 5000 amostras

Acc(MA) = 75% Podemos concluir que MA é melhor do que MB ? Perguntas importantes:

Qual o intervalo de confiança da acurácia obtida por MA ? Qual o intervalo de confiança da acurácia obtida por MB ? Os conjuntos de dados de testes seguem uma mesma distribuição ?

Page 4: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Inferência EstatísticaInferência Estatística = Processo de obter conclusões confiáveis sobre uma população geral, baseando-se em uma amostragem de dados.

Estatísticas: medidas extraídas de uma amostragem de dados através das quais se quer derivar resultados para a população geral.

Page 5: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Média e Variância de uma Amostragem

Algumas estatísticas importantes: Seja X uma variável aleatória (Por exemplo Altura)Consideremos N observações X1,..., XN extraídas aleatoriamente

de uma população com distribuição de probabilidade com média

Por exemplo: X1 = 1.55, X2 = 1.59, X3 = 1.65,...Xi é o evento X = altura do indivíduo sorteado.

Média da amostragem

Variância da amostragem

Page 6: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Valor esperado da Média da amostragem

Valor esperado da média da amostragem

Logo: as médias das amostragens se aproximam da média geral da população, sobretudo para valores grandes de N A estatística “média” é chamada de estimador não-

tendencioso da população.

Page 7: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Valor esperado da Variância da Amostragem

Teorema: Valor esperado da variância da média da amostragem é dado por:

onde σX é a variância da população geralSeσX for desconhecido será aproximado pela variância da amostragem sX

= desvio padrão da média das amostragens

Page 8: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Teorema do Limite CentralSeja uma população X com distribuição de probabilidade com média μX e variância σ2

X.

Considere uma amostragem de tamanho N extraída aleatoriamente da população X. Se é a média da amostragem , então a distribuição de se aproxima de uma distribuição normal com média μX e variância (σ2

X )/N quando N é grande.

x x

Distribuição normal (ou de Gauss).Vários fenômenos aleatórios seguem uma distribuição normal (ou de Gaus) de probabilidade.Muito importante. Tabelas disponíveis. Fácil de avaliar.

Page 9: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Intervalo de Confiança Estimativa dos parâmetros de uma população (ex: média, variância): muito

importante indicar a confiabilidade da estimativa.

Exemplo 1: suponha que queiramos estimar o quanto um grupo de 10000 pessoas do sexo masculino representam a população masculina brasileira em termos de altura.

Isto é, o quanto podemos confiar que a altura média destes 10.000 indivíduos representam a altura média da população masculina brasileira, com um grau de confiança de 95%

Este é um exemplo do seguinte problema:

Conhece-se a média REAL e deseja-se saber o quanto uma amostra considerada aleatoriamente está perto desta média REAL

Page 10: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Distribuição Normal

0,95

Area abaixo do gráficoentre -2 e 2 = 0,95

Média real

Page 11: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Intervalo de confiança Considera-se a tabela de distribuição normal com média μX e

variância (σ2X )/N, onde N = 10.000

Intervalo de confiança (θ1 , θ2 ) com grau de confiança = 0.95 Considera-se as extremidades do intervalo em torno da média da

distribuição Θ1 = μX - k

Θ2 = μX + k

Tal que: P[θ1 < X < θ2 ] = 0.95

Page 12: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo1 : Continuação Seleciona-se aleatoriamente um grupo de 10000 homens A probabilidade que a média da altura destes 10.000 homens

esteja no intervalo [μX - k, μX + k] é 95%

onde θ1 = μX - k e Θ2 = μX + k

Page 13: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

A distribuição normal padrão Z Toda distribuição normal de média μX e variância σ2

X pode ser

transformada em uma distribuição padrão de média 0 e variância 1.

Distribuição normal (μX, σ2X ) distribuição padrão Z (1,0)

A partir da distribuição padrão Z (tabelada), encontra-se a distribuição normal específica X :

P[X = x] = P[Z = z] onde z = (x – μX)/ σX

Page 14: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo 2 Suponha que não conhecemos a média (real) μX da altura da

população masculina brasileira. Queremos estimar esta média a partir de uma amostra de uma

amostra X de 10.000 homens considerada aleatoriamente, com uma confiança de 68%

De acordo com o Teorema do Limite Central: a média das amostras se aproxima de uma distribuição normal com média

μX e variância σ2X/N

Média da altura da amostragem (N = 10000)

Page 15: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo 2 (continuação)

Portanto: o intervalo de confiança para a amostra X considerada é de [ , ] com grau de confiança de 68%

Isto é, temos 68% de certeza de que a média REAL da população encontra-se dentro deste intervalo.

Procurando na tabela de probabilidade de Z, o intervalo [-a,a] onde P[-a < Z < a] = 0.68 obtemos a = 1

Page 16: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Como calcular σx

Método 1:

Considera-se diversas amostras de N = 10.000 homens (por exemplo 100 amostras) Para cada amostra calcula-se sua média. Calcula-se a média de todas as 100 médias σ x = desvio padrão das 100 médias

Método 2: Na prática, pode-se aproximar σ x pelo desvio padrão da amostragem sX

considerada, onde:

Page 17: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Comparação de Classificadores

AULA 21 – Parte II

Data Mining

Sandra de Amo

Page 18: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Acurácia Empírica e Acurácia Real Acurácia empírica de um modelo de classificação é obtida

sobre um conjunto Teste com N amostras Acurácia empírica = X/N, onde X = número de amostras preditas corretamente

Acurácia Real = p = acurácia “hipotética” que seria medida sobre o conjunto de todas as amostras possíveis. Dada uma amostra qualquer, a probabilidade de que o classificador

acerte a predição é p.

Page 19: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Relação entre Acurácia Empirica e Acurácia Real Medir a acurácia empirica sobre um conjunto T de N amostras = experimento

binomial, consistindo em N tentativas. X = variável aleatória X = número de acertos em N tentativas P[X = v] = probabilidade de haver v acertos em N tentativas, sabendo que a

probabilidade de acerto em cada tentativa é p. Distribuição de probabilidade binomial

Média = Np, Variância = Np(1-p)

Page 20: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Distribuição da Acurácia Empírica Acurácia empírica: variável aleatória X/N Distribuição de probabilidade de X/N também é binomial com:

Média = p Variância = p(1-p)/N

Distribuição binomial pode ser aproximada por uma distribuição normal quando N é grande

Logo: distribuição de probabilidade da Acurácia Empírica pode ser considerada uma distribuição NORMAL com Média p e Variância p(p-1)/N

Lembrando relação entre distribuição normal e distribuição padrão Z:

Média do número de acertos em N tentativas = acurácia empíricapp(p-1)/N

acc =

Page 21: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Cálculos Seja a = grau de confiança Procura-se na tabela de Z o intervalo [-b,b] para o qual

P[-b < Z < b ] = a Usando-se a equação

Média do número de acertos em N tentativas = acurácia empíricapp(p-1)/Nacc

Obtém-se o seguinte intervalo de confiança para p: [θ1, θ2 ] onde

θ1 = (2N.acc +b2 – b (b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)

θ2 = (2N.acc +b2 + b (b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)

Page 22: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo Suponha um modelo de classificação que tem uma acurácia de 80% quando

calculado sobre um conjunto de teste de 100 amostras. Qual o intervalo de confiança de sua acurácia REAL com um grau de confiança

de 95% ? Acc = 0.80, N = 100, a = 0.95 Tabela de Z

ab

Fazendo-se os cálculos temos: θ1 = 71.1% e θ2 = 86,7%

Variação do intervalo de confiança quando o número de amostras aumenta

θ1 θ2

Page 23: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Comparando a performance de dois modelos M1 = modelo de um classificador C extraido de um conjunto

de treinamento T1 Testado sobre D1, com n1 elementos e1 = taxa de erro = 1 – acc1

M2 = modelo de um classificador C extraido de um conjunto de treinamento T2 Testado sobre D2, com n2 elementos e2 = taxa de erro = 1 – acc2

A diferença entre e1 e e2 é estatisticamente significante ?

Page 24: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Método d = |e1 – e2| = |acc1 – acc2| d obedece uma distribuição normal com

média dt = diferença real |e1 – e2| e variância σd

2

σd2 pode ser aproximada por σd

2 = e1(1-e1)/n1 + e2(1-e2)/n2

Intervalo de confiança de dt com a% de grau de confiança

dt = d±b σd

Variância estimada

Desvio padrão estimado = sd

b = valor encontrado na distribuição Z correspondente a a%Exercício: deduzir esta fórmula a partir da relação entre a distribuição padrão Z e a distribuição normal d (ver slide 15)

Page 25: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo M1 = modelo de um classificador C extraido de um conjunto de

treinamento T1 Testado sobre D1, com 30 elementos e1 = taxa de erro = 1 – acc1 = 0.15

M2 = modelo de um classificador C extraido de um conjunto de treinamento T2 Testado sobre D2, com 5000 elementos e2 = taxa de erro = 1 – acc2 = 0.25

d = |e1 – e2| = 0.1 Variância estimada = 0.15(1-0.15)/30 + 0.25(1-0.25)/5000=

0.0043 Desvio padrão estimado = 0.0043 = 0.0655

Page 26: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo (continuação)Qual o significado do intervalo de confiança [θ1, θ2 ] ?

Estamos testando 2 hipóteses:Hipótese Nula: dt = 0

a diferença real entre os erros é nula Hipótese alternativa: dt < > 0

a diferença real entre os erros NÃO é nula (pode ser < 0 ou > 0 )

Page 27: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo (continuação)

θ1 θ2

a

Queremos encontrar b na tabela da distribuição padrão Z tal que:P[-b < (d – dt)/sd < b] = a

A interpretação do intervalo[θ1, θ2] é a seguinte:

Se dt = 0 está em [θ1, θ2] então a d (que está em [θ1, θ2] ) não tem significância estatistica

Se dt = 0 não está em [θ1, θ2] (está emuma das duas regiões caudais) entãod tem significância estatistica.d – dt < 0 d – dt > 0

ddt

dtdt

Page 28: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

O valor b na tabela ZA tabela Z envolve duas tabelas:

Unicaudal

Duplamente caudal

Para cada valor de a, pode-se encontrar dois valores de b: um para o caso unicaudal e outro para o caso duplamente caudal.

Page 29: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Exemplo (continuação)No exemplo : b = 1,96 (duplamente caudal)

Como o valor nulo (dt = 0) está no intervalo (0.1 – 0.128; 0.1 + 1.28)então a diferença de performance entre os dois modelos não tem significânciaestatística.

Page 30: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Variando o grau de confiança Quanto deveria ser o grau de confiança para que a diferença

de performance d = 0.1 tivesse significância estatística ? 0.1 > b.0,0655 ? b < 0.1/0.655 = 1.527 Procurando o valor de a na tabela duplamente caudal

correspondente a b = 1.527: a = 93.6% Logo, a hipótese nula pode ser rejeitada com um grau de

confiança 93.6%

Page 31: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Comparando a performance de dois classificadores L1 = técnica de classificação L2 = técnica de classificação Os testes de L1 e L2 foram feitos sobre um mesmo banco de dados D

utilizando k-cross validation. M1i = modelo de L1 obtido durante a i-ésima iteração M2i = modelo de L2 obtido durante a i-ésima iteração. Os modelos M1i e M2i são testados sobre o mesmo conjunto de teste

(correspondente a i-ésima iteração) e1i = taxa de erro de M1i e e2i = taxa de erro de M2i di = e1j – e2j = diferença das taxas de erro na i-ésima iteração Se k é suficientemente grande (o número de vezes que o experimento é

realizado é grande) então di segue uma distribuição normal Média δt = média das diferenças das taxas de erro “verdadeiras” Variância σ2

Page 32: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Estimativa do variância

σ2

d = média estimada da diferença dos erros

δt σ

Grau de liberdade (degree of freedom)

Page 33: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

ExemploSuponha que a média das diferenças estimadas é 0.05

com desvio padrão de 0.002

Os testes são feitos utilizando 30-cross validation

Com um grau de confiança a = 95% a diferença real dos erros (ou da acurácia) é:

δt =

Intervalo de confiança = [0.05 – 0.00408; 0.05 + 0.00408] = = [0.04592; 005408]

Page 34: Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo

Distribuição t com graus de liberdade.

k – 1 = 29

Como o valor zero (hipótese nula) não está contido no intervalo de confiança [0.04592; 005408] então podemos concluir que a diferença de performances entre as duas técnicas de classificação é estatisticamente significante.