Aprendizado por Reforço: Uma Aplicação do Aprendizado Q Rafael Souza Nader Ciência da...

View
106
Download
0
Category

Documents

Preview:

Citation preview

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q

Rafael Souza Nader

Ciência da Computação – DCC – IM

Agenda

• Introdução: Aprendizado de Máquina• Aprendizado Por Reforço– Aprendizado Q

• Exemplo simples: labirinto• Problema Mundo do Wumpus• Conclusão e Trabalhos Futuros

Aprendizado de Máquina

• Inteligência Artificial– Conceito principal

• Agentes Inteligentes X Agentes com Aprendizado

Aprendizado de Máquina

• Aprendizado Supervisionado– Par de treinamento– Conhecimento do Modelo

• Aprendizado Não-Supervisionado– Classificação de dados

• Aprendizado Por Reforço– “Livre de Modelo”– Treinamento contínuo

Aprendizado Por Reforço

• Histórico– Origens na psicologia– Interesse desde 1950– Aplicação na década de 1980

• Aplicações em geral– Jogos– Ajuste de parâmetros– Tarefas cotidianas

Aprendizado Por Reforço

• Características– Processos seqüenciais: Condição de Markov• P((st+1, a) | st, st-1, st-2, st-3...) = P((st+1, a) | st)

– Recompensa adiada– Exploração– Ambiente parcialmente observável– Aprendizado “duradouro”

Aprendizado Por Reforço

• Funcionamento– Estado s, ação a, política π, valor acumulado Vπ(s)– Vπ(st) ≡ rt + γrt+1 + γ²rt+2 + γ³rt+3… ≡ ∑ γ i rt+i

– π* ≡ argmaxπ Vπ(s), ( s)∀

Aprendizado Q

• π*(s) = argmaxa (r(s, a) + γV*(δ(s, a)))

• Q(s, a) = r(s, a) + γ maxa’ Q(s’, a’)

•

Aprendizado QFunção APRENDIZADO_QVariáveis estáticas:Grupo de estados S;Grupo de ações A;Estados s, s’;Ações a, a’;Tabela de valores S x A; 1. Para todo s2. Para todo a3. inicializa a tabela Q(s, a) com 04. Para sempre faça5. seleciona uma ação a em A6. guarda a recompensa imediata r(s, a)7. s’ recebe o novo estado, δ(s, a)8. atualiza Q(s, a) com r(s, a) + γ maxa’ Q(s’, a’)9. estado atual s recebe s’

Aprendizado Q

Implementação

• Linguagem Delphi•

Primeiro Exemplo: Grid Básico

• Verificar funcionamento do algoritmo e da implementação

• Configurações do Grid– Estado é a posição (x, y) no grid– Ações possíveis: cima, direita, baixo, esquerda e

ficar– Estados objetivos com recompensa

• Aprende o menor caminho a partir de cada estado

Primeiro Exemplo

• Demonstração da aplicação

Mundo do Wumpus

• Problema clássico de Inteligência Artificial•

Mundo do Wumpus

• Primeira Abordagem– Posicional (semelhante ao GRID)– Desconhecimento por parte do agente das

características do problema– “vento” com penalidade– “vento” sem penalidade

Mundo do Wumpus

• Primeira Abordagem– Demonstração da aplicação

Mundo do Wumpus

• Primeira abordagem: resultados– Aprendeu a desviar dos estados ruins– Mesmo o “vento” sem penalidade, o agente se

afasta do buraco– Encontra um caminho até o ouro, não

necessariamente o menor

Mundo do Wumpus

• Segunda abordagem– Objetivo: generalizar o aprendizado

• Tirar a informação de “posição” do estado do agente

• Estado representado pelas propriedades da posição do agente e das posições adjacentes– Uso da memória– Inserção de uma nova propriedade:

“desconhecido”

Mundo do Wumpus

• Não-determinismo– Tabela de freqüências• Treino: Q(s, a) = (Q(s, a)+v)• Cálculo do valor: Q(s, a)/F(s, a)

• Novo objetivo: sobreviver– Recompensa por explorar

Mundo do Wumpus

• Segunda Abordagem– Demonstração da aplicação

Mundo do Wumpus

• Segunda abordagem: Resultados– Aprende algumas implicações lógicas do modelo:

•

– Age de forma aleatória em outros casos:

•

Conclusão

• Aprendizado com ampla aplicabilidade– “liberdade de modelo” é o grande diferencial

• Resultados– Conseguiu aprender o modelo em algumas

situações.– Necessita de uma melhor adaptação do problema

para melhores resultados

Trabalhos Futuros

• Novas abordagens– Outras representações de estado– Outros tipos de ações

• Interação com outros métodos de aprendizado– A Tabela Q pode ser treinada em uma Rede

Neural para generalizar estados não treinados

Recommended

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE …§ão-Hyllo-Nader... · Hyllo Nader de Araújo Salles ... Ao professor Paulo Cavalcante, agradeço as discussões sobre caminhos

Documents

Introdução ao Estudo do Direito · 5/5/2014 · Nader, Paulo Introdução ao estudo do direito / Paulo Nader – 36.a ed. ... Embora a Introdução ao Estudo do Direito não seja

Documents

Equipamento de rede - DCC

Documents

Consumo infantil de brinquedos - um múltiplo olhar. Dissertacao/Nader Malek 2012

Documents

PANORAMA ASSISTENCIAL E EPIDEMIOLÓGICO DO …pelicano.ipen.br/PosG30/TextoCompleto/Nader Nazir Suleiman_D.pdf · de São Paulo, pelo apreço, ... Nader Nazir Suleiman RESUMO Dada

Documents

DCC Estatísticosantanch/teaching/oop/... · 3 Delimitação DCC deve ter delimitações explícitas Essencial para distribuição e reuso Estratégia básica: único pacote Pacote

Documents

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Cesar Nader... · pontifÍcia universidade catÓlica de sÃo paulo . puc-sp . caio cesar nader quintella . os princÍpios

Documents

Jornal DCC Ano 1 Nº 01 2018 - departamentos.cardiol.brdepartamentos.cardiol.br/sbc-dcc/pdf/Jornal_DCC_edicao01.pdf · suporte espiritual a ser prestado pela equipe assistencial,

Documents

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q Rafael Souza Nader Ciência da...

Documents

NADER, Paulo. Introd Ao Estudo Do Direito. Texto 2

DCC - Universidade Federal do Paraná

Apresentacao Workshop Dcc (1) (1)

CCSA/DCC - arquivos.info.ufrn.br

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE …§ão-Hyllo-Nader... · Hyllo Nader de Araújo Salles ... Ao professor Paulo Cavalcante, agradeço as discussões sobre caminhos

Redes Bayesianas – Inferência Rudini Sampaio DCC / UFLA

Projeto - DCC

Planilhas Eletrônicas Introdução à Informática DCC -UFMG

AULA 5 DOS FATOS JURÍDICOS EDUARDO SERGIO NADER GOMES esng11111@gmail.com

2014 introducao ao-estudo-do-direito---paulo-nader

Introdução ao Estudo do Direito · 5/5/2014 · Nader, Paulo Introdução ao estudo do direito / Paulo Nader – 36.a ed. ... Embora a Introdução ao Estudo do Direito não seja

Equipamento de rede - DCC

Consumo infantil de brinquedos - um múltiplo olhar. Dissertacao/Nader Malek 2012

PANORAMA ASSISTENCIAL E EPIDEMIOLÓGICO DO …pelicano.ipen.br/PosG30/TextoCompleto/Nader Nazir Suleiman_D.pdf · de São Paulo, pelo apreço, ... Nader Nazir Suleiman RESUMO Dada

DCC Estatísticosantanch/teaching/oop/... · 3 Delimitação DCC deve ter delimitações explícitas Essencial para distribuição e reuso Estratégia básica: único pacote Pacote

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Cesar Nader... · pontifÍcia universidade catÓlica de sÃo paulo . puc-sp . caio cesar nader quintella . os princÍpios

Jornal DCC Ano 1 Nº 01 2018 - departamentos.cardiol.brdepartamentos.cardiol.br/sbc-dcc/pdf/Jornal_DCC_edicao01.pdf · suporte espiritual a ser prestado pela equipe assistencial,

Sistemas.riopomba.ifsudestemg.edu.Br Dcc Materiais 833034638 Apostila-SQL

Aprendizado móvel e aprendizado ubiquo

Introdução ao estudo do Direito 37 edição Paulo Nader