39
Rosa Leão - 2020 COS868 - Probabilidade e COS868 - Probabilidade e Estatística para Aprendizado de Estatística para Aprendizado de Máquina Máquina Rosa M. M. Leão Primeiro trimestre de 2020 UFRJ - COPPE Programa de Engenharia de Sistemas e Computação

COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

COS868 - Probabilidade e COS868 - Probabilidade e Estatística para Aprendizado de Estatística para Aprendizado de

MáquinaMáquinaRosa M. M. Leão

Primeiro trimestre de 2020

UFRJ - COPPEPrograma de Engenharia de Sistemas

e Computação

Page 2: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

O que é probabilidade e O que é probabilidade e estatística ?estatística ?

Por que é importante ?Por que é importante ?

Page 3: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Definição:

É o estudo das regras matemáticas que governam os eventos aleatórios

O que é aleatoriedade ?

Informalmente, um evento aleatório é um evento que não sabemos o resultado sem observá-lo

A probabilidade nos fornece informações sobre estes eventos

O que é probabilidade ?O que é probabilidade ?

Page 4: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Definição:

Estatística é a ciência que define como realizar a coleta e análise de dados aleatórios

Estatística é usada para:

Projetar experimentos

Explorar/analisar dados - Descriptive statistics

Fazer inferências a partir de dados coletados – Inferential Statistics

O que é estatística ?O que é estatística ?

Page 5: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Experimental DesignExperimental Design

The design of an experiment is crucial to making sure the collected data is useful.

The adage ‘garbage in, garbage out’ applies here.

A poorly designed experiment will produce poor quality data, from which it may be impossible to draw useful, valid inferences.

Page 6: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Descriptive Statistics Descriptive Statistics Summary statistics like the mean, median, and

interquartile range.

We can also visualize the data using graphical devices like histograms, scatter plots, and the empirical CDF

These methods are useful for both communicating and exploring the data to gain insight into its structure, such as whether it might follow a familiar probability distribution.

Page 7: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Inferential Statistics Inferential Statistics

To draw inferences about the world.

Often this takes the form of specifying a statistical model for the random process by which the data arises.

To draw inferences about model parameters.

For example, assuming gestational length follows a N (μ, σ) distribution, we’ll use the data of the gestational lengths of, say, 500 pregnancies to draw inferences about the values of the parameters μ and σ.

Page 8: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Explosion ofdigital data

network measures

Sophisticated mathematicalmodels

Meaningful patternsInsights Performance evaluationReliabilityRecommendation

sensor signals, user behaviour

surveillance tapes

social network datapublic records

Examples Examples

Page 9: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Exemplos de AplicaçãoExemplos de Aplicação

Sistemas de recomendação

Planejamento darede

Sugestão de produtos,filmes, músicas, amigos

Sugestão de tópicos a serem estudados, exercícios,

outras aulas

Demanda dosusuários

Dados coletados

Capacidade instalada

Page 10: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Exemplos de AplicaçãoExemplos de Aplicação

Sistemas de inferência

Planejamento dosistema de

computadores debordo de um avião

População com maior probabilidade de ter um certo

tipo de doença

Tipo de medicamento que surtemais efeito em uma dada

população

Requisitos:Probabilidadede falha do

Sistema < 10-12

HW/SW do Sistema

Arquitetura do Sistema

Dados clínicos dos

pacientes

Medicamentosusados

Page 11: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Example of Study Example of Study

To study the effectiveness of new treatment for cancer, patients are recruited and then divided into an experimental group and a control group.

The experimental group is given the new treatment and the control group receives the current standard of care.

Data collected from the patients might include demographic information, medical history, initial state of cancer, progression of the cancer over time, treatment cost, the effect of the treatment on tumor size, longevity, and quality of life.

The data will be used to make inferences about the effectiveness of the new treatment compared to the current standard of care.

Page 12: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Example of Study Example of Study

The experimental design must specify:

the size of the study, who will be eligible to join, how the experimental and control groups will be chosen, how the treatments will be administered, whether or not the subjects or doctors know who is getting which treatment, and precisely what data will be collected, among other things.

Descriptive Statistics: the goal is to obtain summary statistics for both groups.

Inferential Statistics: For example we want to test the hypothesis that the new treatment is more (or less) effective than the current one(s), and by how much.

Page 13: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Qual deve ser o tamanho da amostra ?

Como estimar o erro ?

Page 14: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 15: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 16: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

What is a statistic ?What is a statistic ? Consider the data of 1000 rolls of a die. All of the following are

statistics:

the sample average of the 1000 rolls;

the number of times a 6 was rolled;

the sample variance of the 1000 rolls.

The probability of rolling a 6 is not a statistic, whether or not the die is truly fair.

This probability is a property of the die (and the way we roll it) which we can estimate using the data.

Such an estimate is given by the statistic ‘proportion of the rolls that were 6’.

Page 17: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 18: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 19: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Screening for a diseaseScreening for a disease

Suppose a screening test for a disease has a 1% false positive rate and a 1% false negative rate. Suppose also that the rate of the disease in the population is 0.002. Finally suppose a randomly selected person tests positive. Then we have:

Hypothesis: H = ‘the person has the disease’

Data: D = ‘the test is positive.’

What we want to know: P (H|D) = P (the person has the disease | a positive test)

Page 20: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Screening for a diseaseScreening for a disease

P(hypothesis | data) = P(the person has the disease | a positive test)

P(H|D) = (P(D|H) P(H)) / P(D) =

(0.99 * 0.002) / (0.99 * 0.002 + 0.01 * 0.998) = 0.166

P(D) = P(D|H)P(H) + P(D|H)P(H)

Before the test we would have said the probability the person had the disease was 0.002.

After the test we see the probability is 0.166. That is, the positive test provides some evidence that the person has the disease.

True positive

Person has disease

False positive

Person does nothave disease

Page 21: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Estimating ParametersEstimating Parameters

Suppose we know we have data consisting of values x_1 , . . . , x_n drawn from an exponential distribution. The question remains: which exponential distribution?

We are often faced with the situation of having random data which we know (or believe) is drawn from a parametric model, whose parameters we do not know.

For example, in an election between two candidates, polling data constitutes draws from a Bernoulli(p) distribution with unknown parameter p. In this case we would like to use the data to estimate the value of the parameter p, as the latter predicts the result of the election.

Page 22: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Estimating ParametersEstimating Parameters

Our focus so far has been on computing the probability of data arising from a parametric model with known parameters.

Statistical inference flips this on its head: we will estimate the probability of parameters given a parametric model and observed data drawn from it.

Page 23: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Maximum Likehood EstimateMaximum Likehood Estimate

MLE answers the question:

For which parameter value does the observed data have the biggest probability?

Definition: Given data the maximum likelihood estimate (MLE) for the parameter p is the value of p that maximizes the likelihood P (data | p). That is, the MLE is the value of p for which the data is most likely.

Page 24: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 25: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 26: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 27: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 28: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 29: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Maximum Likehood EstimateMaximum Likehood Estimate

1. The MLE for p turned out to be exactly the fraction of people that say that cilantro tastes like a soup in our experiment.

2. The MLE is computed from the data. That is, it is a statistic.

3. Officially you should check that the critical point is indeed a maximum. You can do this with the second derivative test.

Page 30: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 31: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Log LikehoodLog Likehood

Maximizing likelihood is the same as maximizing log likelihood.

Page 32: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 33: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 34: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 35: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 36: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 37: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 38: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020

Page 39: COS868 - Probabilidade e Estatística para Aprendizado de Máquinaclasses/coppe-prob-est-2020/slides/aula_1.pdf · Estatística para Aprendizado de Máquina Rosa M. M. Leão Primeiro

Rosa Leão ­ 2020