65
incerteza Probabilidade Sintaxe e Semântica Inferência

incerteza Probabilidade Sintaxe e Semântica Inferênciapaginapessoal.utfpr.edu.br/kathya/Disciplinas/sistemas_inteligentes... · •Sintaxe e Semântica •Inferência . Incerteza

Embed Size (px)

Citation preview

• incerteza

• Probabilidade

• Sintaxe e Semântica

• Inferência

Incerteza

• Os agentes podem precisar lidar com a incerteza:

– Observabilidade parcial do meio,

– Não determinismo do meio ou

– Combinação dos dois.

– Um agente pode não saber ao certo em que estado está ou onde terminará após uma sequência de ações.

Incerteza

• Os agentes lógicos para lidar com a incerteza devem manter o controle de um estado de crença (esta seria uma representação do conjunto de todos os estados possíveis do mundo em que possam estar), e

• Gerar um plano de contingência que trate de qualquer eventualidade possível que seus sensores possam relatar durante a execução.

Incerteza

• Mas, essa abordagem tem desvantagens quando tomada literalmente para a criação de programas do agente:

– Na interpretação da informação parcial do sensor, o agente lógico deve:

• Considerar todas as explanações logicamente possíveis das observações, sem importar o quão improvável seja.

• Isso leva a representações de estados de crença impossivelmente grandes e complexos.

Incerteza

– Um plano de contingência correto que lida com toda eventualidade pode crescer arbitrariamente e deve considerar as contingências arbitrariamente improváveis.

– Às vezes, não há um plano garantido de alcançar o objetivo — mesmo assim o agente deve agir. Deve ter alguma maneira de comparar os méritos dos planos que não são garantidos.

Incerteza

• Exemplo: seja um táxi automatizado cujo objetivo é entregar um passageiro no aeroporto a tempo.

– O plano é A90 : sair de casa 90 minutos antes da partida

do voo e dirigir a uma velocidade razoável A pergunta é A90 me levará ao aeroporto a tempo?

Problemas:

1. Estados parcialmente observáveis (estado das estradas, tráfego, outros planos, etc.)

2. Ruído nos sensores (relatórios de trânsito) 3. incerteza quanto aos efeitos das ações (pneu furado,

etc.) 4. Grande complexidade em modelar e prever trânsito.

Incerteza

• Mesmo que o aeroporto seja a oito quilômetros de distância, o agente lógico do táxi não será capaz de concluir com certeza se o “Plano A90 vai conduzir ao aeroporto a tempo”.

• Em vez disso, chegará à conclusão mais fraca:

“A90 me levará a tempo, se nenhum acidente ocorrer na ponte, e se não chover, e se nenhum pneu furar, e ...et., etc.”

Incerteza

• Nenhuma dessas condições pode ser deduzida com certeza, assim o sucesso do plano não pode ser inferido.

• Esse é o problema de qualificação, para o qual até agora não vimos nenhuma solução real.

Incerteza

• Suponha que A90 seja a alternativa correta:

– De todos os planos que poderiam ser executados, espera-se que o plano A90 maximize a medida de desempenho do agente (onde a expectativa é relativa ao conhecimento do agente sobre o ambiente).

• O que inclui a medida de desempenho?

Incerteza

• A medida de desempenho inclui:

– chegar ao aeroporto a tempo para o voo, – evitar uma longa e improdutiva espera no aeroporto – evitar multas por excesso de velocidade ao longo do

caminho. • Mas, as informações que o agente tem não podem

garantir quaisquer desses resultados para A90.

Incerteza

• Será que A180 poderia ser uma solução melhor?

– Mas, teria que se passar a noite no aeroporto….

• A alternativa correta , a decisão racional, depende:

– da importância relativa de várias metas, – da probabilidade de que elas serão alcançadas e em que

grau.

Incerteza e decisões racionais

• Suponha que A90 apresente uma chance de 97%, ela é uma escolha racional?

– Não necessariamente, o plano A180 poderia ter maiores probabilidades.

– Se for vital não perder o voo, valerá a pena se arriscar a uma espera mais longa no aeroporto.

• E se for o plano A1440 (sair de casa com 24 horas

de antecedência)? – Pode não ser uma boa escolha, pois, embora garanta a

chegada a tempo, envolve uma espera intolerável e ainda a possibilidade pouco agradável da comida do aeroporto.

Incerteza e decisões racionais

• Assim, para fazer escolhas, o agente deve ter preferências entre os diferentes resultados dos vários planos.

• Um resultado específico é um estado completamente especificado, inclui:

– Chegar a tempo ou não e – Duração da espera no aeroporto.

• Usaremos a teoria da utilidade para representar e

raciocinar com preferências.

Incerteza e decisões racionais

Teoria da utilidade:

Todo estado tem determinado grau de utilidade (ou seja, ele tem certa utilidade) para um agente, e, o agente preferirá estados com utilidade mais alta.

Incerteza e decisões racionais

• Não existe nenhuma maneira de medir o gosto ou as preferências:

– um agente que prefere sorvete de açaí a biscoito de

chocolate é estranho ou mesmo mal orientado, mas não se pode dizer que o agente é irracional.

• Uma função utilidade pode contar com qualquer

conjunto de preferências — peculiar ou típico, nobre ou não.

Incerteza e decisões racionais

• Preferências, sendo expressas por utilidades, são combinadas com as probabilidades na teoria geral de decisões racionais chamada teoria da decisão:

Teoria da decisão

Teoria da Probabilidade

Teoria da Utilidade

Incerteza e decisões racionais

• Para a Teoria da decisão :

“Um agente é racional se e somente se escolhe a ação que resulta na mais alta utilidade esperada, calculada como a

média sobre todos os resultados possíveis da ação”

• E é chamada de princípio de utilidade máxima esperada (UME).

• O termo “esperada” pode parecer vago, mas aqui tem significado preciso: significa a “média” ou “média estatística” dos resultados ponderada pela probabilidade do resultado.

Incerteza e decisões racionais Estrutura de um agente que usa a teoria da decisão

para selecionar ações.

O agente é idêntico, em um nível abstrato, ao agente lógico que mantém um estado de crença refletindo a história da percepção atual. A principal diferença é que a decisão teórica do estado de crença do agente não representa apenas as possibilidades dos estados do mundo, mas também suas probabilidades.

Probabilidade

• Assim como as afirmações lógicas, as afirmações probabilísticas são acerca de mundos possíveis.

• Considerando que as afirmações lógicas dizem que os mundos possíveis são estritamente descartáveis (todos aqueles em que a afirmação é falsa), as afirmações probabilísticas versam sobre o quão prováveis são os vários mundos.

Mundo Lógico Mundo probabilístico

Verdadeiro Falso P1 P2dfffff

P3 P4 P5

Probabilidade

• Na teoria da probabilidade, o conjunto de todos os mundos possíveis é chamado de espaço amostral.

• Os mundos possíveis são mutuamente exclusivos e exaustivos — dois mundos possíveis não podem coexistir, e um mundo possível deve ser sempre válido.

Espaço amostral

P1 P2dfffff

P3 P4 P5

Probabilidade

• Exemplo: jogam-se dois dados (distintos), existem 36 mundos possíveis a considerar: (1,1), (1,2),…, (6,6).

Espaço amostral= todos os resultados possíveis = Ω ω : refere-se aos elementos do espaço, isto é, aos mundos possíveis particulares.

Probabilidade

Ω = {𝜔1, 𝜔2, 𝜔3, …𝜔𝑛}

• Um modelo de probabilidade totalmente especificado associa uma probabilidade numérica 𝑃(𝜔𝑖) a cada mundo possível.

P(𝜔1 = 1,1) = 1/36 ; P(𝜔2 = 1,2) =1/36; ........;

........; P(𝜔36 = 6,6) = 1/36

Probabilidade

• Os axiomas básicos da teoria da probabilidade dizem que todo mundo possível tem uma probabilidade entre 0 e 1 e que a probabilidade total do conjunto de mundos possíveis é 1:

0 ≤ 𝑃 𝜔 ≤1

𝑃 𝜔𝜔∈Ω =1

Probabilidade

• Exemplo: se assumirmos que os dois dados não são “viciados” e um lançamento não interfere no outro, cada um dos mundos possíveis:

(1,1), (1,2),…, (6,6), onde cada um tem 𝑃 𝜔 =1/36

• Exemplo: lançar duas vezes uma moeda “regular”, cada lançamento não afeta o outro, os mundos seriam:

(cc), (ck), (kc), (kk), onde cada um tem 𝑃 𝜔 =1/4

Probabilidade

• Afirmações probabilísticas e consultas geralmente não são sobre mundos possíveis particulares, mas sobre os seus conjuntos.

• Exemplos:

– Que a soma dos dois dados seja 11,

– Que as moedas apresentem o mesmo resultado, etc.

• Em teoria da probabilidade, esses conjuntos são chamados eventos

Probabilidade

• Em IA, os conjuntos são sempre descritos por proposições em uma linguagem formal .

• Para cada proposição, o conjunto correspondente contém apenas aqueles mundos possíveis onde a proposição é válida.

• A probabilidade associada a uma proposição é definida como sendo a soma das probabilidades dos mundos nos quais é válida, seja a proposição :

𝑃 𝜙 = 𝑃(𝜔)

𝜔∈𝜙

Probabilidade

• Exemplos – A probabilidade de obter a soma 11 com dados não viciados

P(Soma11) = P((5, 6)) + P((6, 5)) = 1/36 + 1/36 = 1/18.

– A probabilidade das moedas apresentarem o mesmo resultado

P(Duplas) = P(cc) + P(kk) = 1/4 + 1/4 = 1/2.

• Obter a probabilidade de obter soma 11 ou duplas não requer conhecimento completo das probabilidades de cada mundo possível.

• Essa asserção restringe o modelo probabilístico subjacente sem determiná-lo totalmente.

Probabilidade

• A probabilidades de P(Soma11) e P(Duplas) são chamadas de probabilidade incondicional ou anterior; elas se referem a graus de crença em proposições na ausência de qualquer outra informação.

• No entanto, às vezes, temos alguma informação, geralmente chamada evidência, que já foi revelada.

• Exemplo: o primeiro dado mostra um 5 e estamos esperando ansiosamente que o outro pare de girar.

Probabilidade

• Nesse caso, não estamos interessados na probabilidade incondicional do lançamento dos dois dados, mas na probabilidade condicional ou posterior (ou apenas “posterior”) de lançamento considerando que o valor do primeiro dado é 5.

• Essa probabilidade é escrita como

P(Soma11| Dado1 = 5)

onde o “|” é pronunciado como “considerando que”.

Probabilidade

• Exemplo, Vou ao dentista para um check-up regular – P(cárie) = 0,2 (sempre realizo chek-up). Esta é uma

probabilidade anterior ou “a priori” sem informações adicionais.

– Se manifesto dor de dente, esta informação adicional me permite estimar a probabilidade condicionada a cárie estar relacionada com a dor: P(cárie | dor de dente) = 0,6.

Obs: P(cárie) = 0,2 ainda é válido após a dor de dente ter sido observada; ela simplesmente não é especialmente útil no momento.

• Ao tomar decisões, um agente precisa estipular sobre todas as evidências que tem observado.

Probabilidade

• Deve-se entender a diferença entre condicional e implicação lógica:

P(cárie | dordedente) = 0,6 – não significa que “sempre que dor de dente for verdadeiro,

deve-se concluir que é verdadeiro cárie com probabilidade 0,6, isto é, P(cárie|dordedente)= 0,6”.

– Significa que “sempre que dor de dente for verdadeiro e não há mais informações, concluir que é verdadeiro cárie com 0,6, isto é, P(cárie|dordedente)=0,6.”

– A condição extra é importante: suponha a informação adicional de que o dentista não encontrou cárie, não se pode concluir que P(cárie|dordedente) = 0,6, o dado que deve ser acrescentado é:

P(cárie | dordedente ∧ ¬cárie) = 0.

Probabilidade

• As probabilidades condicionais são definidas em termos de probabilidades incondicionais como segue: para quaisquer proposições a e b, tem-se:

𝑃 𝑎 𝑏 =𝑃(𝑎 ∧ 𝑏)

𝑃(𝑏), 𝑃 𝑏 > 0

Observação: b descarta todos os mundos possíveis onde b é falso. , deixando um conjunto cuja probabilidade total é apenas P(b). Dentro desse conjunto, o a-mundo satisfaz a ∧ b e constitui uma fração de 𝑃(𝑎 ∧ 𝑏)/𝑃(𝑏).

Probabilidade

• A probabilidade condicional pode ser escrita na forma da Regra do produto:

𝑃 𝑎 ∧ 𝑏 = 𝑃 𝑎 𝑏 𝑃 𝑏

Observação: para a e b ser verdadeiro, é necessário que a seja verdadeiro, dado b .

Probabilidade

Variável aleatória (V.A.): Dado um experimento que se comporta de forma aleatória e o espaço amostral associado a ele. Define-se V.A. à função X que atribui a cada elemento em um e somente um número real 𝑥 = 𝑋().

𝑋:Ω → ℝ

Exemplo: Seja o lançamento de uma moeda 3 vezes e se observa o resultado.

Ω = {𝑐𝑐𝑐, 𝑐𝑐𝑘, 𝑐𝑘𝑐, 𝑘𝑐𝑐, 𝑐𝑘𝑘, 𝑘𝑐𝑘, 𝑘𝑘𝑐, 𝑘𝑘𝑘}

Seja a V.A. 𝑋 𝜔 = número de caras obtido:

𝑋 𝑐𝑐𝑐 = 3 𝑋 𝑐𝑐𝑘 = 𝑋 𝑐𝑘𝑐 = 𝑋 𝑘𝑐𝑐 = 2 𝑋 𝑐𝑘𝑘 = 𝑋 𝑘𝑐𝑘 = 𝑋 𝑘𝑘𝑐 = 1 𝑋 𝑘𝑘𝑘 = 0

Probabilidade Domínio : Ω = {𝑐𝑐𝑐, 𝑐𝑐𝑘, 𝑐𝑘𝑐, 𝑘𝑐𝑐, 𝑐𝑘𝑘, 𝑘𝑐𝑘, 𝑘𝑘𝑐, 𝑘𝑘𝑘}

Contradomínio: {x/x = 0, 1, 2, 3} um subconjunto de ℝ

ccc cck ckc kcc

ckk kck kkc

kkk 0

1

2

3

𝑋 Ω ℝ

P(3) = 1/8 P(2) = 3/8 P(1) = 3/8 P(0) = 1/8

Probabilidade

• Os nomes das variáveis aleatórias começam com letra maiúscula. Exemplos:

– Soma11:

• Domínio : = {2, 3, 4, .....12} ( cada possível soma dos dados) • Contradomínio: {(x,y)/x+y = 11} um subconjunto de ℝ

– Duplas:

• Domínio : = {(cc), (ck),.......,(kk)} (cada possível par das moedas) • Contradomínio: {(x,y) /x =y} um subconjunto de ℝ

• Os valores do domínio devem ser exaustivos e

mutuamente exclusivos.

Probabilidade

• Tipos de variáveis aleatórias – V. aleatórias booleanas: possuem valores <verdadeiro, falso> Exemplos: – Cárie, Duplas, Soma11. – V. aleatórias discretas: possuem valores discretos. Exemplos: – Tempo: <ensolarado, chuvoso, nublado, neve> – Velocidade < lenta, média, rápida>

– V. aleatórias contínuas: possuem valores contínuos Exemplos: – Peso de uma produção de mamão [0,8-3,9] Kg. – Temperatura de um sistema de produção [36-50] oC.

Probabilidade

• Podemos combinar proposições elementares usando os conectivos da lógica proposicional. Exemplo:

“a probabilidade que o paciente tenha uma cárie, uma vez que é

um adolescente, sem dor de dente, é de 0,1”

P (cárie | ¬ dor de dente ∧ adolescente) = 0,1.

Probabilidade

• Probabilidades de todos os valores possíveis de uma variável aleatória. Exemplo:

P (Tempo = ensolarado) = 0,6 P (Tempo = chuvoso) = 0,1 P (Tempo = nublado) = 0,29 P (Tempo = neve) = 0,01,

OU P(Tempo) = < 0,6; 0,1; 0,29; 0,01>

Probabilidade

• P em negrito indica que o resultado é um vetor de números, onde supõe-se uma ordenação predefinida :

<ensolarado, chuvoso, nublado, neve〉 no domínio do Tempo. • P define uma distribuição de probabilidade para a

variável aleatória Tempo. • A notação P também é utilizada para distribuições

condicionais: P(X | Y).

Probabilidade

• Para variáveis contínuas, não é possível escrever toda a distribuição como um vetor porque há um número infinito de valores.

• Pode-se definir a probabilidade de que uma variável aleatória

assume algum valor de 𝑥 como uma função parametrizada de 𝑥. Exemplo:

𝑃 𝑇𝑒𝑚𝑝𝑀𝑒𝑖𝑜𝐷𝑖𝑎 = 𝑥 = 𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒 18𝐶,26𝐶 (𝑥)

Expressa a crença de que a temperatura ao meio-dia é distribuída uniformemente entre 18-26 graus Celsius. Chamamos isso de função densidade de probabilidade.

Probabilidade

• Funções densidade de probabilidade (às vezes chamadas de fdps) diferem em significado de distribuições discretas.

• Disser que “a densidade de probabilidade é uniforme a partir de

18oC até 26oC” significa que há uma chance de 100% de que a temperatura vai cair em algum lugar naquela região com amplitude 8oC, e, 50% de chance de cair em qualquer região com amplitude 4oC, e, assim por diante.

• Escreve-se como:

𝑃(𝑋 = 𝑥) ou 𝑃 𝑥 e representa a probabilidade de densidade de uma variável aleatória contínua 𝑋 ao valor 𝑥.

• A definição intuitiva de 𝑃 𝑥 é a probabilidade de que 𝑋 cai dentro de uma pequena região arbitrariamente iniciando em 𝑥, dividido pela largura da região.

Probabilidade

• Exemplo: Em uma produção de mamão se encontra que o peso da fruta é uma V.A. com fdp 𝑓 𝑥 . Qual a probabilidade que um mamão pese menos de 1Kg.?

m1 m2 ..... ..... mn

0,8

2

3

3,9

𝑃𝑒𝑠𝑜 Ω ℝ

𝑓 𝑥 = 3

32(4𝑥 − 𝑥2 0 ≤ 𝑥 ≤ 4

0 𝑒𝑚 𝑜𝑢𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠

Função de densidade de probabilidade

𝑓 𝑥 = 3

324𝑥 − 𝑥2 𝑑𝑥 = 1

4

0

𝑃 𝑋 < 1 = 3

324𝑥 − 𝑥2 𝑑𝑥 = 5/32

1

0

Probabilidade

• Observe que no caso de V.A. contínuas sempre a probabilidade é expressa como densidade de probabilidade , assim a probabilidade do peso ser exatamente 1kg. é zero, pois a integral avaliada de 1 a 1 não tem largura .

• Probabilidades são adimensionais, não tem unidades. • Funções de densidade são medidas com uma unidade, no

caso a unidade da variável na qual é calculada.

Probabilidade

• Além de distribuições sobre variáveis simples, precisamos de uma notação para distribuições sobre variáveis múltiplas. Exemplo:

P (Tempo, Cárie) indica as probabilidades de todas as combinações de valores de Tempo e de Cárie.

• E pode ser representada por uma tabela de probabilidades 4 × 2 chamada de distribuição de probabilidade conjunta de Tempo e de Cárie.

Probabilidade

• As regras dos produtos para todos os valores possíveis de Tempo e Cárie podem ser escritas como uma equação única:

• No lugar de escrever 4 × 2 = 8 equações (T=Tempo e C=Cárie):

𝑃 𝑇𝑒𝑚𝑝𝑜, 𝐶á𝑟𝑖𝑒 = 𝑃 𝑇𝑒𝑚𝑝𝑜 𝐶á𝑟𝑖𝑒 𝑃(𝐶á𝑟𝑖𝑒)

𝑃 𝑇 = 𝑒𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜 ∧ 𝐶 = 𝑠𝑖𝑚 = 𝑃 𝑇 = 𝑒𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜 𝐶 = 𝑠𝑖𝑚)𝑃(𝐶 = 𝑠𝑖𝑚)

𝑃 𝑇 = 𝑐ℎ𝑢𝑣𝑜𝑠𝑜 ∧ 𝐶 = 𝑠𝑖𝑚 = 𝑃 𝑇 = 𝑐ℎ𝑢𝑣𝑜𝑠𝑜 𝐶 = 𝑠𝑖𝑚)𝑃(𝐶 = 𝑠𝑖𝑚)

𝑃 𝑇 = 𝑛𝑢𝑏𝑙𝑎𝑑𝑜 ∧ 𝐶 = 𝑠𝑖𝑚 = 𝑃 𝑇 = 𝑛𝑢𝑏𝑙𝑎𝑑𝑜 𝐶 = 𝑠𝑖𝑚)𝑃(𝐶 = 𝑠𝑖𝑚)

𝑃 𝑇 = 𝑛𝑒𝑣𝑒 ∧ 𝐶 = 𝑠𝑖𝑚 = 𝑃 𝑇 = 𝑛𝑒𝑣𝑒 𝐶 = 𝑠𝑖𝑚)𝑃(𝐶 = 𝑠𝑖𝑚)

𝑃 𝑇 = 𝑒𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜 ∧ 𝐶 = 𝑛ã𝑜 = 𝑃 𝑇 = 𝑒𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜 𝐶 = 𝑛ã𝑜)𝑃(𝐶 = 𝑛ã𝑜)

𝑃 𝑇 = 𝑐ℎ𝑢𝑣𝑜𝑠𝑜 ∧ 𝐶 = 𝑛ã𝑜 = 𝑃 𝑇 = 𝑐ℎ𝑢𝑣𝑜𝑠𝑜 𝐶 = 𝑛ã𝑜)𝑃(𝐶 = 𝑛ã𝑜)

𝑃 𝑇 = 𝑛𝑢𝑏𝑙𝑎𝑑𝑜 ∧ 𝐶 = 𝑛ã𝑜 = 𝑃 𝑇 = 𝑛𝑢𝑏𝑙𝑎𝑑𝑜 𝐶 = 𝑛ã𝑜)𝑃(𝐶 = 𝑛ã𝑜)

𝑃 𝑇 = 𝑛𝑒𝑣𝑒 ∧ 𝐶 = 𝑛ã𝑜 = 𝑃 𝑇 = 𝑛𝑒𝑣𝑒 𝐶 = 𝑛ã𝑜)𝑃(𝐶 = 𝑛ã𝑜)

Probabilidade

Tabela da Distribuição de Probabilidade Conjunta de Tempo e Cárie.

Tempo

Ensolarado 0,72

Chuvoso 0,1

Nublado 0,08

Neve 0,1

Cárie Sim=0,2 0,144 0,02 0,016 0,02

Não=0,8 0,576 0,08 0,064 0,08

Probabilidade

• Sintaxe para proposições e afirmações de probabilidade:

• Semântica dada por

𝑃 𝜙 = 𝑃(𝜔)

𝜔∈𝜙

• A probabilidade de uma proposição como a soma das probabilidades de mundos nos quais é válida.

𝑃 𝑇𝑒𝑚𝑝𝑜) = 𝑃 𝑒𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜 + 𝑃 𝑐ℎ𝑢𝑣𝑜𝑠𝑜 + 𝑃 𝑛𝑢𝑏𝑙𝑎𝑑𝑜 + 𝑃(𝑛𝑒𝑣𝑒

Probabilidade

• Para completar a semântica, é preciso dizer quais são os mundos e como determinar se uma proposição é válida no mundo.

• Toma-se emprestada essa parte diretamente da semântica da lógica proposicional, como segue:

“Um mundo possível é definido para ser uma atribuição de valores a todas as variáveis aleatórias consideradas”

• É fácil verificar que essa definição satisfaz o requisito

básico de que os mundos possíveis são mutuamente exclusivos e exaustivos

Probabilidade

• Um modelo de probabilidade é completamente determinado pela distribuição de probabilidade conjunta completa.

• Exemplo, se as variáveis são DorDeDente, Cárie e Tempo, a distribuição conjunta completa é dada por:

P(Cárie, DorDeDente, Tempo)

Essa distribuição conjunta pode ser representada como uma tabela 2 × 2 × 4 com 16 entradas.

Probabilidade

• Como cada probabilidade da proposição é a soma dos mundos possíveis, uma distribuição conjunta completa é, em princípio, suficiente para calcular a probabilidade de qualquer proposição.

Probabilidade

• Os axiomas básicos da probabilidade:

0 ≤ 𝑃 𝜔 ≤1

𝑃 𝜔𝜔∈Ω =1

implicam relações entre os graus de crença que podem ser atribuídos às proposições logicamente relacionadas.

• Exemplo: derivar a relação entre a probabilidade de uma proposição e a probabilidade de sua negação

𝑃 ¬𝑎 = 𝑃 𝜔

𝜔∈¬𝑎

𝑃 ¬𝑎 = 𝑃 𝜔 +

𝜔∈¬𝑎

𝑃 𝜔 −

𝜔∈𝑎

𝑃 𝜔

𝜔∈𝑎

𝑃 ¬𝑎 = 𝑃 𝜔 −

𝜔∈Ω

𝑃 𝜔

𝜔∈𝑎

𝑃 ¬𝑎 = 1 − 𝑃(𝑎)

Probabilidade

• Pode-se também derivar a fórmula da probabilidade de uma disjunção, às vezes chamada de Princípio de inclusão-exclusão:

𝑃 𝑎 ∨ 𝑏 = 𝑃 𝑎 + 𝑃 𝑏 − 𝑃(𝑎 ∧ 𝑏)

Observe-se que os casos em que 𝑎 é válido, junto com os casos em que 𝑏 é válido, certamente envolvem todos os casos em que 𝑎 ∨ 𝑏 é válido, mas, somando os dois conjuntos de casos, conta sua interseção duas vezes, por isso precisa-se subtrair 𝑃(𝑎 ∧ 𝑏).

Inferência Probabilística

• Inferência probabilística: é a computação da evidência observada de probabilidades posteriores para proposições de consulta;

• Tabela de Distribuição de Probabilidade Conjunta: é a base de conhecimento a partir da qual são derivadas respostas para todas as perguntas. Isto é podem ser feitas inferências.

Inferência Probabilística

• Iniciamos com um exemplo em que o domínio consiste em três variáveis booleanas: Cárie, DorDeDente, Boticão (tenaz de aço para extrair o dente, aqui usa-se como sinónimo de extrair). E a seguinte distribuição conjunta total deste domínio:

Inferência Probabilística

• Para calcular a probabilidade de qualquer proposição, simples ou complexa: simplesmente identificamos os mundos possíveis nos quais a proposição é verdadeira e somamos suas probabilidades. Exemplo: Existem seis eventos atômicos em que “cárie ∨ dordedente” é válida:

Inferência Probabilística

• Extrair a distribuição sobre algum subconjunto de variáveis ou sobre uma única variável é obter a probabilidade incondicional ou probabilidade marginal. Por exemplo, a adição das entradas da primeira linha produz a probabilidade da variável cárie verdadeiro:

Inferência Probabilística

• Esse processo é chamado marginalização ou totalização porque totalizamos as probabilidades para cada valor possível de outras variáveis, assim excluindo-as da equação.

• A regra geral de marginalização a seguir para quaisquer conjuntos de variáveis 𝑌 e 𝑍:

𝑃 𝑌 = 𝑃(𝑌, 𝑧)

𝑧∈𝑍

onde significa𝑧∈𝑍 a soma sobre todas as combinações possíveis de valores do conjunto de variáveis 𝑍.

Inferência Probabilística

• Exemplo:

𝑃 𝑐á𝑟𝑖𝑒 = 𝑃(𝐶á𝑟𝑖𝑒, 𝑧)

𝑧∈{𝐵𝑜𝑡𝑖𝑐ã𝑜,𝐷𝑜𝑟𝐷𝑒𝐷𝑒𝑛𝑡𝑒}

Inferência Probabilística

• Uma variante da regra de marginalização e que envolve probabilidades condicionais, usando-se a regra do produto é a regra chamada condicionamento:

𝑷 𝒀 = 𝑷 𝒀 𝒛 𝑷(𝒛)

𝒛

Marginalização e condicionamento se mostrarão regras úteis para todos os tipos de derivações que envolverem expressões de probabilidade.

Inferência Probabilística

• Exemplo: calcular a probabilidade de uma cárie, dada a evidência de dor de dente:

Inferência Probabilística

• Exemplo: calcular a probabilidade de não haver nenhuma cárie, dada uma dor de dente:

Inferência Probabilística

• As duas variáveis somam 1.

• Nos dois cálculos, a expressão 1/𝑃(𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) permanece constante, não importando que valor de Cárie calculamos.

• Assim, ela pode ser visualizada como uma constante de normalização para a distribuição 𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒), assegurando que a soma será 1.

Inferência Probabilística

Normalização 𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) = 𝛼𝑃 𝐶á𝑟𝑖𝑒, 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒 𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) = 𝛼𝑃 𝐶á𝑟𝑖𝑒, 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒, 𝑏𝑜𝑡𝑖𝑐ã𝑜 + 𝑃 𝐶á𝑟𝑖𝑒, 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒,¬𝑏𝑜𝑡𝑖𝑐ã𝑜

𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) = 𝛼 < 0,0108 , 0,016 > + < 0,012 , 0,08 > 𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) = 𝛼 < 0,12 , 0,08 > 𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) = < 0,6 , 0,4 >

• Pode-se calcular 𝑃 𝐶á𝑟𝑖𝑒 𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒) mesmo sem souber o valor de P(𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒): – Esqueça-se temporariamente o fator 1/𝑃(𝑑𝑜𝑟𝑑𝑒𝑑𝑒𝑛𝑡𝑒),

– Somam-se os valores de 𝑐á𝑟𝑖𝑒 e ¬ cá𝑟𝑖𝑒, se obtém 0,12 e 0,08. ,

– Esses valores são proporções relativas corretas, mas, não perfazem 1,

– Portanto, devem-se normalizar, dividindo cada uma por 0,12 + 0,08, e, obtêm-se as probabilidades verdadeiras: 0,6 e 0,4.

Dificuldades

• Para um domínio descrito por n variáveis booleanas: – O algoritmo exige uma tabela de entrada com o tamanho

O(2n) , e,

– Tempo O(2n) para processar a tabela.

• Para problemas reais, pode-se ter facilmente n > 100, tornando O(2n) impraticável.

• Assim, devemos visualizar à distribuição conjunta total em forma tabular como o fundamento teórico sobre o qual podem ser elaboradas abordagens mais efetivas.