View
107
Download
3
Category
Preview:
Citation preview
Ambientes e Arquiteturas de AgentesAmbientes e Arquiteturas de Agentes
Jacques RobinGeber Ramalho
CIn-UFPE
2
Bem-vindos ao “Mundo do Wumpus”Bem-vindos ao “Mundo do Wumpus”
Wumpus
Agente caçador de tesouros
3
O Mundo do Wumpus: O Mundo do Wumpus: formulação do problemaformulação do problema
Ambiente: paredes, Wumpus, cavernas, buracos, ouro
Estado inicial: agente na caverna (1,1) com apenas uma flecha Wumpus e buracos em cavernas quaisquer
Objetivos: pegar a barra de ouro e voltar à caverna (1,1) com vida
4
O Mundo do Wumpus: O Mundo do Wumpus: formulação do problemaformulação do problema
Percepções: fedor (ao lado do Wumpus) brisa (ao lado dos buracos) brilho (na caverna do ouro) choque (contra a parede da caverna) grito do Wumpus (quando morre)
Ações: avançar para próxima caverna girar 90 graus à direita ou à esquerda pegar um objeto na mesma caverna que o agente atirar na direção para onde o agente está olhando (a flecha pára
quando encontra uma parede ou mata o Wumpus) sair da caverna
5
Codificação do Mundo do WumpusCodificação do Mundo do Wumpus
1
2
3
41 2 3
4
início
fedor
Abrisa B
W
brisa
brisa
fedor
fedorbrisa, luz
B
B
brisa
brisa
OA - AgenteW - WumpusB - BuracoO - OuroX? - possível XV - Caverna visitada
Percepção = [fedor,brisa,luz,choque,grito]
6
Percebendo, Raciocinando e AgindoPercebendo, Raciocinando e Agindo no Mundo do Wumpus no Mundo do Wumpus
Seqüência perceptiva:
t=2
1
2
3
41 2 3
4
Aok
ok
ok
t=0
[nada,nada,nada,nada,nada] [nada,brisa,nada,nada,nada]
1
2
3
41 2 3
4
okA
ok
V
okB?
B?
b
Modelo do mundo mantido pelo agente:
7
1
2
3
41 2 3
4
ok
Aok
V Vbok
W
f
ok
B!
[fedor,nada,nada,nada,nada]
t=11: Vai para (2,3) e encontra o ouro!
1
2
3
41 2 3
4
ok
A
fok
V Vbok
B!
W
Vok
V
f b lB?
B?
ok
t=7: Decide ir para (2,2), único OK não visitado
Seqüência perceptiva:
Modelo do mundo mantido pelo agente:
Percebendo, Raciocinando e AgindoPercebendo, Raciocinando e Agindo no Mundo do Wumpus no Mundo do Wumpus
[fedor,brisa,nada,luz,nada]
Sequência de ações:
8
Exercício... Vamos achar o ouro?Exercício... Vamos achar o ouro?
1
2
3
41 2 3
4
A
B!
W!
O
B!
Exemplos de Exemplos de agentesagentesAgente Dados
perceptivosAções Objetivos Ambiente
Diagnósticomédico
Sintomas,paciente, exames
respostas, ...
Perguntar,prescrever exames,
testar
Saúde do paciente,minimizar custos
Paciente,gabinete, ...
Análise deimagens de
satélite
Pixels imprimir umacategorização
categorizarcorretamente
Imagens desatélite
Tutorial deportuguês
Palavrasdigitadas
Imprimir exercícios,sugestões,
correções, ...
Melhorar odesempenho do
estudante
Conjunto deestudantes
Filtrador demails
mensagens Aceitar ou rejeitarmensagens
Aliviar a carga deleitura do usuário
Mensagens,usuários
Motorista detaxi
Imagens,velocímetro,
sons
brecar, acelerar,dobrar, falar com
passageiro, ...
Segurança,rapidez, economia,
conforto,...
Ruas, pedestres,carros, ...
Músico de jazz Sons seus e deoutros músicos,
grades deacordes
Escolher e tocarnotas no andamento
Tocar bem, sedivertir, agradar
Musicos,publico, grades
de acordes
10
Dimensões classificadoras dos ambientesDimensões classificadoras dos ambientes
Universo: Físico: robôs, humanos, animais Software: softbots Realidade virtual (simulação do ambiente físico): softbots e
avatares
Características: parcialmente x totalmente observável estacionário x dinâmico x tempo-real determinista x estocástico discreto x contínuo episódico x não-episódico mono-agente x multi-agente diversidade tamanho
11
AcessibilidadeAcessibilidade
Totalmente observável ou acessível:Totalmente observável ou acessível: Sensores do agente conseguem perceber a cada instante todos
os aspectos do ambiente relevantes para a escolha da ação
Parcialmente observável ou inacessível ou com variáveis Parcialmente observável ou inacessível ou com variáveis escondidasescondidas ex. wumpus não é acessível, xadrez é
Fontes de inacessibilidade:Fontes de inacessibilidade: Escopo limitado dos sensores Domínios inacessíveis por qualquer sensor Granularidade insuficiente dos sensores Ruído nos sensores:
Limite a confiabilidade das percepções no lugar do seu escopo
12
Determinismo Determinismo
Determinista:Determinista: pode se prever exatamente próximo estado do ambiente apenas a partir da ação executada
Não determinista ou estocástica:Não determinista ou estocástica: conseqüências de uma ação no ambiente parcialmente imprevisível
Fontes de não determinismo:Fontes de não determinismo: Inerente ao ambiente: granularidade quântica, jogos com
aleatoriedade Outros agentes no ambientes Ruído nos atuadores Granularidade insuficientemente dos atuadores ou da
representação utilizada para raciocinar
13
Dinamicidade: Dinamicidade: ambientesambientes
estacionários e estacionários e seqüenciais seqüenciais
Perc
ep
ção
Ambiente Estacionário
Agente
Ação
Estado 1 Estado 2
Raciocínio
Único ciclo percepção-raciocínio-ação durante o qual ambiente não muda
Perc
ep
ção
Ambiente Seqüencial
Agente
Ação
Estado 1
Raciocínio
Perc
ep
ção
Ação
Estado 2
Raciocínio
Perc
ep
ção
Ação
Estado 3
Raciocínio
Estado N
... Vários ciclos percepção-raciocínio-ação com ambiente mudando apenas como conseqüências das ações do agente
14
Dinamicidade: ambientesDinamicidade: ambientesconcorrentes síncronos e concorrentes síncronos e
assíncronosassíncronos
...P
erc
ep
ção
Ambiente concorrentesíncrono
Agente
Ação
Estado 1
Raciocínio
Perc
ep
ção
Ação
Estado 2
Raciocínio
Estado 4 Estado 5
Estado 3
Ambiente pode mudar entre última ação e próxima percepção mas nãomas não durante raciocínio
...
Perc
ep
ção
Ambiente concorrenteassíncrono
Agente
Ação
Estado 1
Raciocínio
Estado 2
Estado 4
Estado 3
Perc
ep
ção
Ação
Estado 5
Racio
cín
io
Estado 6
Ambiente pode mudar a qualquer momento, inclusive inclusive durante raciocínio
15
Número de agentesNúmero de agentes
Mono-agente com ambiente passivo O ambiente muda apenas como resultado das ações do único
agente
Mono-agente com ambiente ativo O ambiente muda espontaneamente sem intervenção do agente
Multi-agente cooperativo
Multi-agente competitivo
Multi-agente cooperativo e competitivo Com alianças fixas ou dinâmicas
16
Natureza matemática das grandezasNatureza matemática das grandezas
Grandezas: Valores fornecidos pelos sensores e disponíveis para controlar atuadores Cardinalidade e atributos dos objetos, relações, eventos, locais do ambiente
Binárias Dicotômicas
Booleanas
Qualitativas Nominal
Ordinal
Quantitativas Intervalar
Fracional
Discreta
ContínuaR
[0,1]
17
Natureza matemática das grandezasNatureza matemática das grandezas
Binário:Binário: Booleano, ex, Male {True,False} Dicotômico, ex Sex
{Male,Female} Nominal ou categórico ou Nominal ou categórico ou
simbólico:simbólico: partição finita de valores sem
ordem nem medida são apenas = ou ex, brasileiro, francês, americano
Ordinal ou enumerado ou discreto:Ordinal ou enumerado ou discreto: partição finita de valor ordenada
(parcialmente ou totalmente) sem medida
são apenas =, , , > ex, fraco, médio, bom, excelente
Intervalar:Intervalar: partição finita de valor
ordenada com medida m definindo distância d:X,Y, d(X,Y) = |m(X)-m(Y)|
sem zero inerente ex, temperatura em grau
Celsius Fracional ou proporcional:Fracional ou proporcional:
partição com distância zero inerente
todos os operadores matemático aplicam-se
ex, temperatura em grau Kelvin Contínuo:Contínuo:
conjunto infinito de valores ordenadas com medida, isomorfo a R
18
Outras característicasOutras características
Episódico: A experiência do agente é dividida em episódios Ação em cada episódio independente das ações nos episódios
prévios ex.: classificador de imagens é episódico, xadrez não
campeonato de futebol é episódico, partida não
Ambiente aberto: Inacessível, estocástico, não episódico, contínuo, assíncrono
multi-agente ex: RoboCup, Internet, bolsa de valores
19
Tamanho é documento !Tamanho é documento !
Tamanho, Tamanho, número de instânciasinstâncias de: percepções, ações e objetivos
do agente agentes, objetos, locais,
relacionamentos, estados e eventos do ambiente
Escalabilidade da execuçãodo raciocínio do agente
Diversidade, Diversidade, número de classesclasses de: percepções, ações, objetivos do
agente agentes, objetos, locais,
relacionamentos, estados e eventos do ambiente
Escalabilidade do processode aquisição do conhecimentonecessário para raciocinar
Exemplos de Exemplos de ambientesambientes
Agente acessível determinista episódico estático discreto
xadrez sem relógio Sim +/- Não Sim Sim
xadrez com relógio Sim +/- Não Semi sim
gamão sim não não sim sim
motorista de taxi Não Não Não Não Não
médico Não Não Não Não Não
tutor Não Não Não Não Sim
Analisador de imagem Sim Sim Sim Semi Não
Busca na web Não +/- Sim Não Sim
Filtrador de mail Sim +/- Sim Não Sim
Músico Sim Não Não Não Não
21
Arquiteturas de agentesArquiteturas de agentes
Agente reflexo (puramente reativo) Agente autômato (reativo com estado interno) Agente cognitivo (baseado em objetivos) Agente deliberativo (planejador) Agente híbrido reativo-deliberativo Arquiteturas em camadas Agente otimizador (baseado em utilidades, decision-
theoretic) Agente adaptativo (learning)
22
Agente reflexoAgente reflexo(puramente reativo)(puramente reativo)
Am
bie
nte
Sensores
Atuadores
RegrasPercepção Ação
A(t) = h(P(t))
23
Lembrando... Lembrando...
Raciocínio
AgenteAgente
Am
bie
nte
Sensores
Atuadores
Objetivos
Interpretaçãodas percepções:
I = f(P)
Escolhadas ações:A = g(I,O)
A
P
24
E então?E então?
Objetivos
Interpretação das percepções: I = f(P)
Escolha das ações:A = g(I,O)
Am
bie
nte
Sensores
Atuadores
RegrasPercepção Ação
A(t) = h(P(t))
A
P
25
Agente reflexoAgente reflexo
Funcionamento Usa regras ou função associando diretamente percepção
com ação ex. Se velocidade > 60 então multar ex. Se luz do freio do carro da frente acender, então frear
Dada a percepção, encontra a primeira regra que casa e executa ação
Exemplo no Wumpus IF visualPerception = glitter THEN action = pick see(glitter) do(pick) (representação em lógica)
26
Agente reflexoAgente reflexo
Vantagens e desvantagens Regras condição-ação: representação inteligível, modular e
eficiente Não pode armazenar uma seqüência perceptiva, pouca
autonomia
Limitações do agente reativo puro no mundo do Wumpus um agente ótimo deveria:
recuperar o ouro ou determinar que é muito perigoso pegar o ouro e em qualquer dos casos acima, voltar para (1,1) e sair da caverna.
Um agente reativo nunca sabe quando sair, estar com o ouro e estar na caverna (1,1) não fazem parte da sua percepção (se pegou, esqueceu). esses agentes podem entrar em laços infinitos.
27
Agente autômatoAgente autômato(reativo com estado interno)(reativo com estado interno)
Am
bie
nte
Sensores
Atuadores
Modelo dos ambientes(passados) e atual
Interpretador de percepçõesRegras:percepção modelo modelo
Escolhedor de açõesRegras:modelo ação, e ação modelo modelo
Atualizador domodelo do ambienteRegras: modelo modelo
Objetivos
Agente autômatoAgente autômato
Regras associando indiretamente percepção com ação via construção e manutenção de um modelo do ambiente
Ação depende de: percepção atual + percepções anteriores + ações anteriores ...
Motivação Nem o ambiente todo é acessível no mesmo momento
ex. ultrapassagem de um carro Percepções instantâneas iguais podem corresponder a estados
diferentes ex. Wumpus: cavernas visitadas
Limitações: Pouca autonomia Não tem objetivos explícitos
Regras de agente autômatoRegras de agente autômato
Regras percepção modelo modelo IF visualPercept at time T is glitter
AND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y)
X,Y,T see(glitter,T) loc(agent,X,Y,T) loc(gold,X,Y,T).
Regras modelo modelo IF agent is with gold at time T
AND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y)
X,Y,T withGold(T) loc(agent,X,Y,T) loc(gold,X,Y,T).
30
Regras de agente autômatoRegras de agente autômato
Regras modelo ação IF location of agent at time T = (X,Y)
AND location of gold at time T = (X,Y) THEN choose action pick at time T
X,Y,T loc(agent,X,Y,T) loc(gold,X,Y,T) do(pick,T)
Regras ação modelo modelo IF choosen action at time T was pick
THEN agent is with gold at time T+1
T done(pick,T) withGold(T+1).
31
Agente cognitivoAgente cognitivo(baseado em objetivos)(baseado em objetivos)
Am
bie
nte
Sensores
Atuadores
Modelo dos ambientes(passados) e atual
Interpretador de percepçõesRegras: percepção modelo modelo
Escolhedor de açãoRegras: modelo objetivos ação, e ação modelo modelo
Atualizador do modelo do ambienteRegras: modelo modelo
Atualizador dos objetivosRegras: modelo objetivos objetivos Objetivos
32
Agente cognitivoAgente cognitivo
Vantagens: Mais flexível e autônomo
ex. adapta suas escolhas a situações resumidas em objetivos dinâmicos
Limitações: Escolhe ações uma por uma:
Não planeja seqüências de ações levando ao seu objetivo Ações baseadas apenas no modelo atual (ou passado) do ambiente Não tente prever modelos futuros do ambiente
Não trata objetivos conflitantes ex. chegar ao destino pelo caminho mais curto, seguro, barato, rápido
e bonito
33
Regras de agente cognitivoRegras de agente cognitivo
Regras modelo objetivo ação IF goal of agent at time T is to return to (1,1) AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action turn left at time T
X,Y,T, (N,M,K goal(T,loc(agent,1,1,T+N)) loc(agent,X,Y,T) orientation(agent,90,T) safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M) safe(loc(X-1,Y),T) loc(agent,X,Y+1,T-K)) do(turn(left),T)
Y+1
ok
Yv ok
A
X-1 X
34
Regras de agente cognitivoRegras de agente cognitivo
Regras modelo objetivo ação IF goal of agent at time T is to find gold AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action forward at time T
X,Y,T, (N,M,K goal(T,withGold(T+N)) loc(agent,X,Y,T) orientation(agent,90,T) safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M) safe(loc(X-1,Y),T) loc(agent,X,Y+1,T-K)) do(forward,T)
Y+1
ok
Yv ok
A
X-1 X
35
Regras de agente cognitivoRegras de agente cognitivo
Regras modelo Regras modelo objetivo objetivo modelo modelo//Se o agente queria estar com o ouro e conseguiu, //atualizar objetivo para voltar para (1,1) IF goal of agent at time T-1 was to find gold AND agent is with gold at time T THEN goal of agent at time T+1 is to be in location (1,1)
T, (N goal(agent,T-1,withGold(T+N)) withGold(T) M goal(agent,T,loc(agent,1,1,T+M))).
36
Agente deliberativoAgente deliberativo(planejador)(planejador)
Am
bie
nte
Sensores
Atuadores
Modelo dosambientes(passados)
e atual
Interpretador de percepçõesRegras: percepção(t) modelo(t-1) modelo(t)
Escolhedor de açãoRegras: resultado([ação(t),...,ação(t+n)]) = modelo(t+n) modelo(t+n) objetivo(t) faz(ação(t))
Atualizador do modelo do ambienteRegras: modelo(t) modelo(t)
Atualizador dos objetivosRegras: modelo(t) objetivos(t-1) objetivos(t)
Objetivos
Previsor de ambientes futurosRegras: modelo(t) ação(t) modelo(t+1) e modelo(t) modelo(t+1)
Modelo dosambientes
futuroshipotéticos
Agente deliberativoAgente deliberativo
Associação percepção-ação indireta: Mediada por modelo atual do ambiente, objetivo explícito e previsão de estados futuros do ambiente resultando de
seqüências de ações
Encadeia regras: para construir plano multi-passo necessário para atingir objetivo a
partir de modelo atual ex. taxista encontrando a rota para o destino do passageiro ex. taxista freia porque quer evitar prejuízo e dor de cabeça no
futuro
Vantagens: Escolha ações melhores: mais relevantes e mais seguras
Desvantagens: Custo da deliberação pode ser excessiva em ambientes tempo real
38
Regras de agente deliberativoRegras de agente deliberativo
Regras objetivo Regras objetivo modelo modelo ações ações IF goal of agent at time T is to be in (X+1,Y+1)
AND agent is in (X,Y) at time T AND location (X+1,Y) is safe at time TTHEN change goal of agent at time T to be (X+1,Y)AND set goal of agent at time T+1+N to be in (X+1,Y+1)
IF goal of agent at time T is to be in (X+1,Y)AND location (X+1,Y) is safe at time TAND agent is in (X,Y) at time TAND agent orientation is 90o at time TTHEN choose action sequence [turn(right),forward]
IF goal of agent at time T is to be (X,Y+1)AND location (X,Y+1) is safe at time TAND agent is in (X,Y) at time TAND agent orientation is 0o at time TTHEN choose action sequence [turn(left),forward]
Y+1
ok
Y A ok
XX+1
Y+1
ok
Y
A
X-1 X
39
Regras de agente deliberativoRegras de agente deliberativo
Regras objetivo Regras objetivo modelo modelo ações ações X,Y,Y (N goal(T,loc(agent,X+1,Y+1,T+N))
safe(loc(X+1,Y+1), T) loc(agent,X,Y,T) M,I goal(T,loc(agent,X+1,Y,T+M)) goal(T+1+I,loc(agent,X+1,Y+1,T+N)))
X,Y,Y N goal(T,loc(agent,X+1,Y,T+N)) safe(loc(X+1,Y), T) loc(agent,X,Y,T) orientation(agent,90,T) do(turn(right),T) do(forward,T+1)
X,Y,Y N goal(T,loc(agent,X,Y+1,T+N)) safe(loc(X,Y+1), T) loc(agent,X,Y,T) orientation(agent,0,T) do(turn(left),T) do(forward,T+1)
Y+1
ok
Y A ok
XX+1
Y+1
ok
Y
A
X-1 X
40
Thread DeliberativaThread Deliberativa
Objetivos
Modelo dosambientes:
atualpassadose futuros
Atualizador do modelo do ambiente
Interpretador de percepções
Atualizador dos objetivos
Previsor de ambientes futuros
Escolhedor de ação
Agente híbrido reflexo-deliberativoAgente híbrido reflexo-deliberativo
Am
bie
nte
Sensores
Atuadores
Thread ReflexaThread ReflexaRegras ReativasPercepção Ação
Sincronizador
41
Agente híbrido reflexo-deliberativoAgente híbrido reflexo-deliberativo
Vantagens: Toma a melhor decisão possível dado tempo de deliberação
disponível Robusto e experto
Desvantagens: Tempo de desenvolvimento Mesmo conhecimento codificado em formas diferentes em regras
reativas e deliberativas Coerência do comportamento global resultante difícil garantir Depuração dificultada pelos problemas de sincronização Nem tantos ambientes requerem ciclos percepção-raciocínio-
ação deduração muito desigual
42
Arquiteturas em camadasArquiteturas em camadas
Em ambientes abertos: Número muito grande de percepções e ações possíveis impede
raciocinar diretamente a nível delas Explosão combinatória da base de regras reflexas
ou dos fatos modelo do ambiente É necessário decompor raciocínio em camadas de abstração Formas de abstração:
Discretização Agrupamento (espacial, temporal, por partes, por papeis/funções) Aproximação
Abstrai
Raciocina Abstratamente
Detalhe
Age Detalhadamente
PercebeDetalhadamente
43
Interpretador de percepçõesInterpretador de percepções
Am
bie
nte
Sensores
Atuadores
Modelo do ambienteModelo do ambienteAtualizador do modelo do ambienteAtualizador do modelo do ambiente
Escolhedor e controlador de açõesEscolhedor e controlador de ações
Agente autômato em camadasAgente autômato em camadas
Nível 0: f(x).dxy
Nível 1: y).P(y)|P(zP(s)
Nível 0: f(x).dxy
Nível 1: y).P(y)|P(zP(s)
Nível 2: q(A)r(B)B)s(A,
Nível 2: q(A)r(B)B)s(A,
q(A)r(B)B)s(A, q(A)r(B)B)s(A, Nível 2: Nível 2:
44
Exemplo de camadas de abstração: Exemplo de camadas de abstração:
XX
YY
45
Exemplo de camadas de abstração: Exemplo de camadas de abstração:
XX
YY
46
Agente otimizador deliberativoAgente otimizador deliberativo (baseado em utilidades) (baseado em utilidades)
Escolhedor de ação
Am
bie
nte
Sensores
Atuadores
Modelo dosambientes(passados)
e atual
Interpretador de percepçõesRegras: percepção(t) modelo(t-1) modelo(t)
Atualizador do modelo do ambienteRegras: modelo(t) modelo(t)
Atualizador dos objetivosRegras: modelo(t) objetivos(t-1) objetivos(t)
Objetivos
Previsor de ambientes futurosRegras:modelo(t) ação(t) modelo(t+1) e modelo(t) modelo(t+1)
Modelo dosambientes
futuroshipotéticos
t))objetivos(|])o([U(resultad
ação
faz( açãoaçãoargmax i
ni
i
1i
1
Utilidadesu:modelos x objetivos R
47
Agente otimizador reativoAgente otimizador reativo (baseado em utilidades) (baseado em utilidades)
Am
bie
nte
Sensores
Atuadores
Interpretador de percepçõesRegras: percepções ações executáveis
Objetivos
Escolhedor de ações Utilidadesu:ações R U(a))faz( argmax
sexecutáveiaçõesa
48
Agente otimizadorAgente otimizador
Incorpora função de utilidade que define: preferências entre estados do ambientes ou ações a executar dados os objetivos atuais do agentes
Permite escolher melhor compromisso entre: vários objetivos conflitantes, ou vários objetivos com probabilidades diferentes de serem alcançado
Vantagem: muitos ambientes requerem fazer compromissos entre vários
objetivos de alcançabilidade incerta
Limitações: Abordagens existentes tendem a ser pouco escaláveis em termos
diversidade dos objetos, relacionamentos, agentes e eventos do ambiente
49
Regras de agente otimizadorRegras de agente otimizador IF at time T agent has goal to be with gold
AND agent is not with gold at time TAND agent is in (X,Y) at time TAND a wumpus is in (X+1,Y) at time TAND wumpus is alive at time TAND wall in (X-1,Y)AND wall in (X-1,Y-1)AND wall in (X,Y-2)AND wall in (X+1,Y-2)AND agent visited (X,Y-1) AND agent visited (X+1,Y-1)AND agent has arrow at time TTHEN utility of wumpus dead at time T+2 is 0.8
IF at time T agent has goal to be with goldAND agent is not with gold at time TAND agent is in (X,Y) at time TAND gold is in (X,Y) at time TTHEN utility of agent being with gold at time T+1 is 1
Y+1 B?
YAfO
W
Y-1 v v
XX+1
X+3
50
Regras de agente otimizadorRegras de agente otimizador
T,X,Y N,I,J goal(T,has(agent,gold,T+N) has(agent,gold,T) loc(agent,X,Y,T) loc(wumpus,X+1,Y) alive(wumpus,T) loc(wall,X-1,Y) loc(wall,X-1,Y-1) loc(wall,X,Y-2) loc(wall,X+1,Y-2) loc(agent,X,Y,T-I) loc(agent,X,Y,T-J) has(agent,arrow,T) utility( alive(wumpus,T+2)) = 0.8
T,X,Y N goal(T,has(agent,gold,T+N) has(agent,gold,T) loc(agent,X,Y,T) loc(gold,X,Y,T) utility(has(agent,gold,T+1)) = 1
Y+1 B?
YAfO
W
Y-1 v v
XX+1
X+3
51
Componente de aprendizagem de conhecimento
Componente de análise crítica de desempenho
Agente adaptativoAgente adaptativo(learning)(learning)
Am
bie
nte
Sensores
Atuadores
Componentede ação
Componente geração de problemas
• Reflexo• Autômato• Cognitivo• Deliberativo• Otimizador• Híbrido
• Aprende regras ou funções: • percepção(t) ação(t)• percepção(t) modelo(t-1) modelo(t)• modelo(t) modelo(t)• modelo(t-1) modelo(t)• modelo(t) ação(t)• ação(t) modelo(t+1)• modelo(t) objetivo(t) ação(t)• objetivo(t-1) modelo(t) objetivo(t)• utilidade(ação) = valor• utilidade(modelo,objetivo) = valor
52
Ambientes de simulaçãoAmbientes de simulação
Inicialização do ambiente: A partir dos parâmetros de configuração, identificar sub-classe
relevante da classe do ambiente simulado ex, Mundo do Wumpus com caverna quadrada e wumpus imóvel ex, RoboCup com taxa de ruído de 5% para força de chutes e 2%
para visão da posição dos outros jogadores Criar instância aleatória particular dessa sub-classe
ex. tamanho da caverna, locais dos buracos, do wumpus e do ouro
Ciclo de processamento do ambiente:1. Gerar percepções dos agentes a partir do estado atual do
ambiente2. Mandar essas percepções para os agentes3. Receber ações escolhidas pelos agentes4. Atualizar o estado do ambiente para refletir essas ações
53
Servidor deServidor deSimulaçãoSimulação
RedeRede
Arquitetura de ambiente de simulaçãoArquitetura de ambiente de simulação
AmbienteSimulado
GUI de Visualizaçãoda Simulação
Atualizador do ambienteRegras: ambiente(t) ambiente(t+1)e ações(t) ambiente(t) ambiente(t+1)
Gerador de percepçõesRegras: ambiente(t) percepção(t)
percepções
açõesCliente
Agente 1
Cliente Agente N
...
54
Exercício 1 (equipes de 4 ou 5 alunos)Exercício 1 (equipes de 4 ou 5 alunos)
Preencher tabela abaixo com +, +/-, - Um parágrafo curto para cada célula justificando resposta
Reflexo
Autômato
Cognitivo
Deliberativo
Reflexo-Deliberativo
OtimizadorDeliberativo
OtimizadorReflexo
Adaptativo
Acessível
Inacessível
Determinista
Estocástica
Discreto
Contínuo
Estacionário
Seqüencial
Concorrente síncrono
Concorrente assíncrono
Episódico
Não episódico
Mono-AgenteAmbiente passivo
Mono-AgenteAmbiente ativo
Multi-Agente cooperativo
Multi-Agente competitivo
Recommended