29
Universidade Federal do Paran´ a Laborat´oriodeEstat´ ıstica e Geoinforma¸c˜ ao - LEG Introdu¸ ao Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Universidade Federal do Parana

Laboratorio de Estatıstica e Geoinformacao - LEG

Introducao

Profs.: Eduardo Vargas FerreiraWalmes Marques Zeviani

Page 2: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

O que e Machine Learning?

Estatıstica

Metodos

Machine Learning

aplicados a

Ciencia dacomputacao

problemas

2

Page 3: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Definicao

• Area de estudo que da aos computadores a habilidade de aprender semserem explicitamente programados (Arthur Samuel, 1959).

3

Page 4: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Definicao

• Estamos interessados em capacitar os algoritmos para desenvolveremacoes inteligentes a partir dos dados;

Poder

computacional

Dados Métodos

disponíveis estatísticos

4

Page 5: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Definicao

5

Page 6: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Machine learning successes

• Machine Learning e mais bem sucedido quando aumenta o conhecimentodo especialista, ao inves de substituir;

• Qualquer organizacao que gere ou agregue dados, provavelmente empregaao menos um algoritmo de ML para fazer sentido aos mesmos.

• Embora seja impossıvel listar todas as utilizacoes dessas tecnicas, um

levantamento de sucessos recentes inclui aplicacoes em:

? Identificacao de mensagens de e-mail indesejadas com spam;

? Segmentacao dos clientes para publicidade direcionada;

? Reducao de transacoes fraudulentas de cartao de credito;

? Desenvolvimento de algoritmos para self-driving cars;

? Descobertas de sequencias genicas ligadas a doenca etc.

6

Page 7: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Visao do self-driving car

7

Page 8: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Nos dias de hoje ...

• Quando o DNA virou numero;

8

Page 9: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Nos dias de hoje ...

• A vida virou informacao.

9

Page 10: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Expressao genica que diferencia pacientes

10

Page 11: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Mercado de novas possibilidades

11

Page 12: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Os limites do Machine Learning

• Embora ML seja amplamente utilizado e tenha um grande potencial deaplicacao, e importante entender seus limites;

• Ele tem pouca flexibilidade para extrapolar os parametros deaprendizagem e nao conhece o senso comum!

• ML e tao bom quanto os dados sao para ensinar. E um paradigma“Garbage in, garbage out!”

12

Page 13: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Exemplo: qual dessas imagens e uma girafa?

13

Page 14: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Como as maquinas aprendem?

• Machine Learning e a ciencia de descobrir estruturas e fazer predicoesem conjunto de dados;

• O aprendizado e efetuado a partir de raciocınio sobre exemplos fornecidospor um processo externo ao sistema de aprendizado;

14

Page 15: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Como as maquinas aprendem?

Fonte: Livro “Machine Learning with R”

• Armazenamento dos dados: utiliza a observacao para fornecer uma basepara o raciocınio adicional;

• Abstracao: envolve a traducao dos dados armazenados emrepresentacoes e conceitos;

• Generalizacao: cria conhecimento e inferencia que direcionam acoes emnovos contextos;

• Avaliacao: fornece um mecanismo de feedback para medir a utilidade doconhecimento adquirido e informar potenciais melhorias.

15

Page 16: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Machine Learning na pratica

1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizarapara gerar conhecimento;

2 Exploracao e preparacao dos dados: e exigido um trabalho adicional napreparacao desses, recodificando-os de acordo com os inputs esperados;

3 Formacao do modelo: depois dos dados preparados, o pesquisador ja ecapaz de dizer o que e possıvel aprender deles, e como;

4 Avaliacao dos modelos: avaliamos a qualidade do aprendizado, naopode ser pouco (underfitting) nem decorar os dados (overfitting);

5 Melhoria do modelo: se necessario, podemos melhorar o desempenho domodelo atraves de estrategias avancadas (p. ex., combinando modelos);

16

Page 17: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Entendendo a “Formacao do modelo”

• Os algoritmos de aprendizado sao divididos em duas categorias segundo

sua finalidade:

1 Aprendizado supervisionado: e fornecido um conjunto de exemplospara os quais o rotulo da classe associada e conhecido;

− Dadas as medicoes (x1, y1), . . . , (xn, yn), ensinamos o modelo aprever um novo y baseado em x ;

− Ou seja, o objetivo e construir um classificador que possadeterminar corretamente a classe de exemplos nao rotulados;

− Para rotulos discretos, esse problema e conhecido comoclassificacao e para valores contınuos como regressao.

17

Page 18: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Exemplo de aprendizado supervisionado

Deteccao de Spams

• xi : e-mail;

• yi : spam/nao spam;

Predicao de Alzheimer

• xi : imagem do cerebro;

• yi : Paciente com/sem Alzheimer;

18

Page 19: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Entendendo a “Formacao do modelo”

2 Aprendizado nao-supervisionado: a partir dos exemplos (x ′s) fornecidostenta-se determinar algum agrupamento desses.

• Dado x1, . . . , xn, descobrir alguma estrutura baseada na similaridade.

Data Step 1 Iteration 1, Step 2a

Iteration 1, Step 2b Iteration 2, Step 2a Final Results

19

Page 20: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Exemplo de aprendizado nao-supervisionado

• Recomendacao de amizades

? xi : existe um link entre dois usuarios do Facebook;

20

Page 21: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Entendendo a “Avaliacao dos modelos”

• Suponha que estamos interessados em estudar a relacao entre X e Y ;

• Podemos definir varias funcoes, h(x), mas qual fornece a melhorpredicao? Resposta: a que apresentar menor custo (ou risco).

0 20 40 60 80 100

24

68

10

12

X

Y

2 5 10 20

0.0

0.5

1.0

1.5

2.0

2.5

Flexibility

Mean S

quare

d E

rror

21

Page 22: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Funcao custo

• A Funcao custo descreve o quao bem a superfıcie de resposta h(x)

ajustou-se aos dados.

? Soma de quadrado dos desvios (SQD)

J(yi , h(x)) =1

n

n∑i=1

[yi − h(xi )]2

? Soma dos desvios absolutos (SDA)

J(yi , h(x)) =1

n

n∑i=1

|yi − h(xi )|

? Huber-M cost

J(yi , h(x)) =1

n

n∑i=1

{12[yi − h(xi )]2, para |y − h(x i )| ≤ δ,δ |yi − h(xi )| − 1

2δ2, caso contrario.

22

Page 23: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Funcao custo

• Abaixo, a curva azul representa a SQD e verde a Funcao Huber-M.

• Ela combina as qualidades da SQD e SQA.

• O parametro δ e obtido automaticamente para um especıfico percentildos erros absolutos.

23

Page 24: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Treinamento vs Teste

• Fase de treino:

? Entra com os dados e os verdadeiros nıveis;

? Obtem um “classificador”.

• Fase de teste (ou aplicacao do modelo):

? Entra com os dados;

? Obtem seu nıvel (de acordo com o “classificador”).

24

Page 25: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Exemplo

25

Page 26: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Exemplo

• Valores pequenos da funcao custo corresponde a melhores ajustes;

• No grafico da direita, a linha cinza representa os dados de treinamento ea vermelha de teste.

0 20 40 60 80 100

24

68

10

12

X

Y

2 5 10 20

0.0

0.5

1.0

1.5

2.0

2.5

Flexibility

Mean S

quare

d E

rror

26

Page 27: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Predicao versus Inferencia

• Em inferencia em geral assume-se que o modelo e correto.

• Isso ocorre pois o principal objetivo esta na interpretacao dos parametros.

• P. ex., quais parametros sao significantes? Qual o efeito do aumento dadose do remedio no medicamento? etc.

• Ja em predicao, o nosso objetivo maior e simplesmente criar h(x) quetenha bom poder preditivo.

• P. ex., nao estamos assumindo que a verdadeira regressao e linear!!

• Podemos continuar interpretando os resultados, mas esse - em geral - naoe o foco das analises.

27

Page 28: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

Predicao versus Inferencia

Flexibility

Inte

rpre

tabili

ty

Low High

Low

Hig

h Subset SelectionLasso

Least Squares

Generalized Additive ModelsTrees

Bagging, Boosting

Support Vector Machines

28

Page 29: Seleção de Variáveis - LEG-UFPRwalmes/ensino/ML/slides/Introducao.pdfMachine Learning na pr atica 1 Coleta dos dados: envolve a coleta de material que o algoritmo utilizar a para

As duas culturas

• Duas culturas no uso de modelos estatısticos:

? Data Modeling Culture: Domina a comunidade estatıstica. Testarsuposicoes e fundamental. Foco em inferencia;

? Algorithmic Modeling Culture: Domina a comunidade de machinelearning. O modelo e utilizado apenas para criar bons algoritmospreditivos.

L. Breiman. Statistical modeling: The two cultures. Statistical Science,16(3):199-231, 2001.

29