apostila_simulacao

1

1 - Introdução à Simulação

A simulação é um termo geral usado em diversas áreas do conhecimento.

Mosef(1997) apresenta uma definição clássica, em que “a simulação é o processo

de elaborar um modelo de um sistema real e conduzir experimentos com este

modelo, com o propósito de compreender o comportamento do sistema, ou avaliar

várias estratégias para a operação do mesmo”.

Para melhor compreender esta definição é necessário discutir:

• o que é um modelo;

• em que parte das Técnicas de Pesquisa Operacional a Simulação é

enquadrada;

• quais tipos de problemas podem ser resolvidos com Simulação.

1.1 – Tipos de Modelo

Na aplicação de simulação, o usuário sempre se depara inicialmente com um

problema e da sua análise e compreensão obtém-se um sistema a ser estudado. Um

sistema, por sua vez, é um conjunto de subsistemas e componentes, que,

interagindo entre si, representam parte de uma situação real.

O modelo é uma representação física ou matemática de um sistema, que visa

à avaliação das alterações de comportamento em função de diversas variáveis e

parâmetros envolvidos, ou mesmo a avaliação de modificações introduzidas no

sistema em estudo.

Assim um modelo é:

• uma representação com uma finalidade;

• uma representação parcial de um problema;

• um pensamento estruturado sobre parte de um problema;

• uma especificação de variáveis e suas relações.

2

O diferentes tipos de modelo podem ser classificados em:

• Físicos;

• Simbólicos, subdivididos em:

• Finalidade

• Forma

• Tratamento de Incerteza

Quanto a sua finalidade um modelo simbólico pode ser classificado em:

• Modelo Descritivo

Descreve variáveis chaves e relações

Ex: relação entre serviço e vendas

• Modelo Preditivo

Prevê resultados com base no conhecimento de relações

• Modelo de Decisão

Fornece solução para um problema

Ex: qual modal/rota de transporte utilizar ?

Quanto a sua forma um modelo simbólico pode ser classificado em:

• Verbal

• Esquemática

• Matemática

• Gráfica

Quanto ao tratamento da incerteza um modelo simbólico pode ser classificado em:

• Modelo Determinístico : nenhum elemento de risco (incerteza) no

modelo

Exemplo: quando determina solução de transporte, pode-se assumir

que o tempo de viagem seja constante

3

• Modelo Estocástico: incerteza é incorporada ao modelo

Exemplo: assume-se que os tempos de viagem obedeçam a uma

distribução normal

Gordon(1978) propôs uma classificação dos tipos de modelos associados aos

possíveis sistemas existentes, conforme mostra a figura 1.

MODELOS

MATEMÁTICOSFÍSICOS

DINÂMICOSESTÁTICOS ESTÁTICOS DINÂMICOS

NUMÉRICOS ANALÍTICOS NUMÉRICOS

SIMULAÇÃO

Figura 1 - Tipos de modelos. Fonte: Gordon(1978)

Com base nesta hierarquização, tem-se que:

• os modelos físicos são regidos por leis da física e servem para dar

respostas a experimentos cujo equacionamento matemático não é

totalmente conhecido. Às vezes, este processo utiliza analogias entre

sistemas distintos, como por exemplo, os sistemas mecânico e elétrico,

ou elétrico e hidráulico. Na área naval, tem-se como exemplo a

construção de modelos em escala reduzida de navio ou plataforma

oceânica para análise do comportamento no mar, extrapolando-se os

resultados para um sistema em escala real;

4

• os modelos matemáticos usam notação apropriada juntamente com

equações matemáticas para representarem um sistema;

• os modelos estáticos são aqueles cujos valores das propriedades de

interesse são determinados somente quando o sistema está em regime

estacionário. Ao contrário, o modelo dinâmico permite acompanhar as

propriedades de interesse ao longo do tempo, que são resultantes das

atividades do sistema;

• para os modelos matemáticos, as técnicas de resolução dos mesmos

podem ser: analíticas, que usam diversas formas e tipos de

equacionamento matemático; numérica, em que se aplicam diversos

métodos computacionais que possibilitam encontrar a solução do

modelo. Segundo o autor, quando um modelo matemático de natureza

dinâmica é solucionado por um método numérico, trata-se de uma

simulação.

1.2 – A Simulação e a PesquisaOperacional

Muitos autores apresentam classificações para a Pesquisa Operacional e neste

trabalho será utilizada a classificação apresentada por Taha (1998), que divide a

Pesquisa Operacional em:

• Programação Linear, Dinâmica e Inteira, referindo-se neste caso aos modelos

otimizantes e baseados em programação linear;

• Modelos Probabilísticos, que emglobam Teoria dos Jogos, Modelos de

Estoque, Modelos de Previsão, Teoria de Fila e Simulação;

• Programação não Linear, que apresenta a teoria clãssica de otimização e

algorítmos de busca da solução para problemas não lineares.

Pode-se acrescer a essa classificação as Heurísticas e Meta-heurísticas, que

atualmente vem atuando na solução de diversos problemas logísticos e em

destaque na busca de soluções adequadas e próximas da ótima de problemas de

roteirização.

5

Chwif(1999) fez uma compilação das técnicas de representação de modelos de

simulação encontrados na literatura, que estão resumidos a seguir:

• Activity Cycle Diagrams – Técnica diagramática que modela as

interações entre as entidades através da composição dos seus ciclos

de vida. Uma entidade pode estar ou em um estado passivo (fila) ou

em um estado ativo (atividade). Os únicos elementos de uma

representação ACD são os símbolos de fila e atividade e com eles o

analista deve representar todo o sistema a ser simulado, podendo

obter diagramas extremamente grandes, se o problema for muito

complexo.

• Control Flow Graphs – Nesta técnica cada processo lógico é totalmente

fechado e interage com outros componentes (ou outros processos),

através de trocas de mensagens. Seu objetivo é deixar bem definida a

informação sobre os processos envolvidos, para que o analista possa

desenvolver algoritmos para execução da simulação. Cada processo

tem associado a ele um conjunto de variáveis e estados, e um conjunto

de canais de entrada e saída. O comportamento de cada processo é

especificado através de um CFG. Um CFG é um dígrafo estendido em

que os vértices representam os estados possíveis de um processo, e

os arcos mostram as possíveis transições de um estado para outro.

• Condition Specification – É uma metodologia embasada na orientação

por objetos, que visa fornecer assistência ao analista na análise de

modelos de simulação. Basicamente, um modelo expresso em CS tem

dois elementos básicos: a descrição da comunicação do modelo com

seu ambiente, composta pela especificação da interface, a

especificação de sua dinâmica composta pela especificação dos

objetos e a especificação da transição. O outro elemento é a

especificação de relatórios.

• Discrete Event System Specification – Trata-se de uma técnica de

representação formal, que procura comunicar a natureza essencial de

um modelo e tenta evitar problemas intrínsecos como a inconsistência,

a ambigüidade e a criação de um modelo incompleto. Esta técnica esta

baseada no conceito de estado e é representada por três elementos:

6

entradas, saídas e estados. De maneira geral, essa técnica modela a

mudança de estado de um sistema, considerando dois casos básicos:

no primeiro, durante um intervalo de tempo não ocorre nenhum evento

externo e o sistema muda de um estado para outro, que já estava

previamente programado; no segundo, durante um intervalo de tempo

ocorre um evento externo, que muda o estado do sistema

imediatamente após a ocorrência desse evento.

• Event Graphs – Essa técnica de representação é baseada na

estratégia de eventos. Os Events Graphs (EG) podem ser aplicados

para a representação de qualquer modelo de sistema de eventos

discretos, utilizando apenas um símbolo. Neste caso, os vértices de um

EG representam eventos que alteram os valores das variáveis de

estado do sistema. Os arcos, por sua vez, representam condições em

que um evento pode causar a ocorrência de outro evento, bem como

determinar o intervalo de tempo a transcorrer entre dois eventos.

• Redes de Petri – Uma Rede de Petri básica é um modelo formal do

fluxo de informações de um sistema. Ela é representada por uma grafo

bipartido que tem dois vértices: os lugares e as transições. Um arco do

grafo existe somente entre lugares e transições. É uma ferramenta que

permite a análise das propriedades e dos problemas associados a

sistemas que tem paralelismo e concorrência.

• Process Networks (PN) – Esta técnica baseia-se na estratégia de

processo. Embasadas em representações gráficas, os PN são

representações centradas em programas de simulação, isto é, dada

uma representação gráfica de um modelo de simulação, associa-se um

“programa equivalente” descrito em alguma linguagem de simulação,

pronto para ser executado no computador. Enquadram-se nesta

categoria: GPSS, Slam Network, SIMAN e outros.

• Outros – As técnicas acima apresentadas são as que possuem maior

potencial de aplicação prática. Outras abordagens podem ser também

especificadas, tais como: técnicas baseadas em álgebras específicas;

técnicas baseadas em lógicas computacionais; linguagem de

especificação; técnicas baseadas em processos de Markov.

7

1.3 – Identificação da Técnica de Pesquisa Operacional a ser aplicada ao Sistema

em estudo

Um problema frequentemente enfrentado pelos analista sem geral é identificar

qual técnica pode ou deve ser utilizada para resolver um sistema.

Na literatura tem-se encontrado diversas referências de uso de modelos

computacionais para o planelamento de sistemas logísticos, os quais são

conhecidos como Sistemas de Apoio à Decisão.

Eom et al. (��) conceitua um Sistema de Apoio à Decisão (SAD) como um

sistema computacional interativo que:

• apoie as pessoas envolvidas no processo de decisão, ao invés de

substituí-las;

• se utilize de dados e modelos;

• resolva problemas com um diversos graus de estruturação;

• focalize a eficácia do processo de decisão ao invés da eficiência deste

processo.

Ao fazer uma análise dos SAD presentes na literatura técnica no período de 1988 a

1994, este autor classificou os modelos da forma mostrada na tabela 1,

evidenciando a aplicabilidade da simulação como uma ferramenta de apoio à

decisão.

Este autor também indicou-se as áreas nas quais mais foram desenvolvidos SAD:

• Gerenciamento de produção e operações - incluem aplicações em

diversos setores, incluindo o de transportes, gerenciamento de frota,

programação de viagens de trens, scheduling de veículos de coleta,

controle de vôos, tripulações de aeronaves e terminais em aeroportos;

• Sistemas de informações gerenciais;

• Marketing - entre outras funções o dimensionamento de redes de

transporte e distribuição, planejamento logístico, scheduling de

veículos, etc.

8

Tabela 1 - Tipos de Modelos - Eom et. al ��Tipos de Modelos

Modelos Determinísticos

Programação Linear

Programação por Metas

Modelos de Transporte

Modelos de Fluxo em Rede

Modelos de Estoque

Programação Inteira

Programação Não-Linear

Programação Dinâmica

Modelos Estocásticos

Modelos de Fila

Modelos de Processos de Markov

Modelos de Simulação

Árvores de Decisão

Teoria dos Jogos

Outros Modelos Estocásticos

Modelos Estatísticos e de Previsão

Outros

Outros Modelos de Tomada de Decisão com Múltiplas Variáveis

Modelagem com Planilhas

Gráficos

Inteligência Artificial

Modelagem Visual Interativa

Linguagens de Busca

Outros

9

Harrington, et al. (��) mostram o impacto financeiro nas áreas de logística e

marketing obtido através de decisões racionais usando técnicas de simulação, num

cenário caracterizado pelo aumento de competição externa, incertezas econômicas

e flutuações do mercado financeiro.

Dentro da perspectiva de tomada de decisão, são abordadas as técnicas de

otimização, as heurísiticas e a simulação para a resolução de problemas, onde:

• Otimização - envolve técnicas de programação matemática a fim de

determinar a melhor solução para o problema, onde a função objetivo e

suas restrições são expressas em funções matemáticas.

• Heurísticas - são regras que direcionam um modelo analítico para sua

solução ótima, porém não garantem que este modelo atingirá esta

solução pois o número de alternativas possíveis está limitada pelas

regras que foram impostas.

• Simulação - é uma técnica que envolve a construção de um modelo

detalhado do sistema real, onde o analista do sistema pode testar o

impacto ocasionado pela mudança de um número limitado de variáveis.

A figura 2 mostra um resumo de qual técnica é mais recomendada de acordo com o

nível e o tipo de análise a ser realizada.

Figura 2 - Seleção de técnica - Fonte: Harrington, Lambert e Sterling (��)

Tomada de Decisão

Nível:

Análise:

Método:

Agregado Geral

Algoritmos

Perseguir metas Análise de todas as possibilidades

Otimização Heurísticas

Produção Representação exata

Descritiva Análise de modificações

Ganhos operacionais

��

10

Analogamente, Pidd (��) ao abordar diversas formas de modelagem para o

processo de decisão, mostra o uso de modelos otimizantes, heurísticas e simulação.

Quanto à simulação computacional, o autor recomendada que a mesma seja usada

em sistemas que sejam:

• Dinâmicos - onde a variação temporal estaja associada a fatores que

não podem ser controlados, mas podem ser determinados por análise

estatística;

• Interativos - sistemas que possuem componentes que interagem entre

si e esta interação afeta o comportamento do sistema;

• Complicados - existem inúmeras variáveis que interagem no sistema

em questão e sua dinâmica precisa ser considerada e analisada.

Estes sistemas são aplicados em áreas abrangentes como, por exemplo:

• Manufatura - utilizada no projeto e implantação de fábricas de produtos

com uma gama muito grande de diferenciação na linha de montagem

final, as quais visam atender mercados específicos e com demandas

variáveis, exigindo um lead-time baixo e a não-formação de estoques.

• Área de Saúde - a simulação tem tido aplicação no planejamento de

utilização racional de recursos limitados (médicos, enfermeiros,

equipamentos, postos de atendimento, etc.).

• 5HHQJHQKDULD�GRV�3URFHVVRV�GH�1HJyFLRV - a simulação é tida como

uma abordagem importante para entender como os processos podem

ser reorganizados para melhorar a performance do sistema.

• Transporte - a simulação se aplica no sentido de garantir que os

sistemas irão operar da maneira mais eficiente e eficaz possível.

Aplicações são propostas nas áreas de dimensionamento de terminal,

planejamento de sistema de distribuição, controle de tráfego, testes de

rotas alternativas, entre outros.

• Setor de Defesa - usado em desde estudos logísticos até para

simulação de combate.

11

Com relação à aplicação da simulação em um sistema de manufatura, tem-se na

literatura um exemplo descrito por McClelland (��), o qual se baseou na

necessidade de haver uma racionalização e uma eficiente alocação de recursos

escassos de uma empresa face à crescente competitividade do mercado mundial.

Neste estudo buscou-se integrar o plano estratégico de manufatura (onde se inclui

projeto e desenvolvimento do produto, concepção da linha de montagem, número de

estágios de produção, processos de manufatura e capacidade de produção) com a

política global administrativa da empresa.

Mosef(1997) situa a simulação dentro do contexto do processo de decisão

com três abordagens distintas:

• Intuitiva – esta abordagem refere-se a situações do dia a dia em que o

analista é obrigado a tomar decisão e chegar à solução de problema

em alguns minutos ou segundos. A decisão é feita com base na

experiência passada e em uma rápida análise das alternativas;

• Analítica – esta abordagem é usada quando eventuais erros nas

decisões são potencialmente caros e quando existe tempo hábil para

achar a solução. Emprega-se a forma analítica de resolução de

problemas quando o comportamento dos fatores envolvidos e a relação

entre eles podem ser totalmente descritos em termos matemáticos.

Contudo, na maioria das vezes, é difícil descrever o problema com a

precisão matemática requerida ou resolver as equações que regem o

sistema. Isto leva ao emprego de uma abordagem numérica ou de

simulação para a resolução do problema;

• Numérica – na maior parte das vezes, é empregada quando a limitação

de tempo não é a maior restrição, mas sim, a falta de compreensão

completa do problema ou a impossibilidade de descrevê-lo de uma

forma estruturada. Nesta abordagem encaixa-se o conceito de

simulação apresentado pelo autor acima citado.

Na literatura especializada pode-se encontrar uma grande variedade de

modelos matemáticos, criados para solucionar situações específicas e ainda

condicionados a restrições bastante rigorosas que limitam suas aplicações. Em

alguns casos, modelos matemáticos complexos podem ser construídos, porém não

existem técnicas desenvolvidas para encontrar soluções analíticas dos mesmos.

12

Pesquisou-se também na literatura técnica princípios que orientassem o processo de

modelagem, uma vez que isto é tido como uma "arte", ou "consequência de um

processo intuitivo, o qual é raramente explicitado ou explicado" conforme mostra

Morris (��). Este autor, contudo, indica uma série de diretrizes que norteiam o

processo de desenvolvimento de modelos:

• Utilizar um processo de elaboração - sugere-se iniciar com modelos

bem simplificados e evoluir para sistemas complexos. Nestes modelos

iniciais fatalmente serão omitidos aspectos de maior dificuldade e as

soluções encontradas serão subotimizadas.

• Utilizar analogias ou associações com modelos previamente

desenvolvidos para ter em mãos um ponto de partida para o processo

de elaboração. Às vezes, a busca por analogia conduz a estruturas

mais gerais, como as equações diferenciais ou a teoria da

probabilidade, ou estruturas mais específicas e desenvolvidas tais

como o teoria de filas.

• Utilizar um processo recursivo (loopings), que pode ser feito de 2

formas:

• alternar modificações no modelo x confrontação dos dados - algo que

garante que o modelo não fica pronto na primeira vez;

• alternar a estrutura do modelo x as premissas que o caracterizam - o

objetivo é verificar que: se o modelo não permite alterações por ser

muito complicado, então as premissas têm que ser revistas. Com isto

evita-se que já se apele para a técnica de simulação sem que muitas

tentativas já tenham sido feitas.

Estas sugestões podem ser operacionalizadas da seguinte forma:

• Dividir o sistema em problemas mais simples - quando isto ocorre,

surgem diversas soluções que são subótimas ou aproximadas do ponto

de vista do modelo do sistema;

• Estabelecer os objetivos de maneira clara - neste modelo busca-se

prever o resultado de várias políticas? Necessariamente tem que

fornecer a solução ótima?;

13

• Buscar analogias - a possibilidade do uso de uma analogia tem que ser

considerada antes que o problema tenha sido bem definido, uma vez

que estas podem direcionar o caminho em que o problema poderia se

tornar mais específico;

• Considerar exemplos numéricos específicos do problema - escrever ou

levantar alguns exemplos numéricos ajudam a entender a lógica do

modelo;

• Estabelecer símbolos ou variáveis;

• Escrever o óbvio - escrever em primeiro lugar, as equações que

parecem ser óbvias. Nunca omitir qualquer uma delas;

• Se o modelo está muito complexo, simplifique-o, usando as seguintes

formas:

• tornar as variáveis em constantes;

• eliminar variáveis;

• usar relações lineares;

• adicionar restrições e outras premissas;

• suprimir a aleatoriedade;

Isto porque o objetivo real da análise de sistemas não é simplesmente estudar cada

vez mais maiores problemas, mas sim achar maneiras de transformar grandes

problemas em menores, de forma que as soluções destes pequenos possam ser

combinados de alguma forma fácil, visando fornecer as soluções de grandes

problemas.

Finalmente cabe ressaltar que a escolha da técnica a ser utilizada na solução de

problemas pode estar relacionada com o ambiente de planejamento que se está

aboradando. Esse ambiente de planejamento pode ser classificado em três níveis:

• Nível Estratégico – Trata-se de um planejamento a longo prazo, o qual

é realizado por um nível gerencial mais elevado e geralmente envolve

altos custos de capital para investimento. Neste nível de planejamento

traçam-se as diretrizes/políticas gerais de desenvolvimento, e as

decisões tomadas ditam a estratégia de operação do sistema como um

todo.

14

• Nível Tático – É um planejamento que busca garantir, dentro de um

médio prazo, a alocação racional e eficiente dos recursos existentes,

visando atender às diretrizes globais traçadas no planejamento

estratégico.

• Nível Operacional – Trata-se de um planejamento a curto prazo, às

vezes em uma base diária/semanal, dentro de um ambiente dinâmico

de operação, que busca atingir as metas estipuladas no planejamento

tático, respeitando as regras, os limites e as restrições do sistema.

1.4 - Problemas que podem ser resolvidos com Simulação

Abaixo são enunciados alguns problemas/sistemas e são tecidos comentários sobre

a técnica mais adequada para resolvê-los

15

Problema 1

Considere o problema de alocação de veículos de uma determinada frota, onde se

pretende transportar a cada viagem(rotas fixas e com demanda conhecida a cada

dia) uma determinada quantidade de pallets, tendo-se o custo por viagem por tipo

de veículo, bem como o número de veículos disponíveis por tipo e a capacidade

máxima de pallets por tipo de veículo, a saber:

Tipo de Veículo No. de Veículos Custo ($/viagem) Capacidade (pallets)

Disponíveis

x1 15 1.125 12

x2 20 1.500 24

x3 5 1.620 26

x4 5 1.750 28

x5 5 1.870 30

x6 5 2.000 32

Determine a melhor alocação de frota, de tal forma que o Custo de Transporte seja o

menor possível ?

Problema 2

Embalagens com oxigênio líquido devem ser semanalmente distribuídas para

unidades fabris.O transporte desse produto é feito por veículos a partir de uma base

e junto as unidades fabris esse produto é descarregado. As características do

processo estão mostradas abaixo:

Número de Unidades Fabris = 42

Capacidade de cada veículo = 200 embalagens

Velocidade do veículo = 35 km/hora

Tempo máximo de operação por dia do veículo = 12 horas

Taxa de descarga nas unidades fabris = 60 unidades/hora

16

Coordenada X e Y da Base são conhecidas, assim como as coordenadas das

unidades, assim como a demanda semanal de cada uma por oxigênio (em

embalagens)

Determine quantos veículos são necessários e quais as rotas a serem formadas

para que o custo de transporte seja o menor possível ?

Problema 3

Na tabela abaixo são mostrados os tempos entre chegadas dos veículos a uma

lanchonete e o tempo de atendimento de cada um. Avalie o desempenho

operacional desse serviço.

Veículo 1 2 3 4 5 6 7 8 9 10 11 12

Intervalo 2 3 3 3 5 0 1 5 1 4 1 2

Duração 1 2 1 1 3 2 1 4 2 3 1 3

Problema 4

Pretende-se analisar o setor de atendimento de um almoxarifado, que atualmente

tem um funcionário para atender os pedidos durante 24 horas em turnos de 6 horas.

O intervalo entre chegadas de pedidos é conhecido, bem como o tempo de

atendimento (composto do picking, montagem, embalagem e despacho). Em

determinados instantes, caracterizados pelos intervalo entre paradas, este

funcionário é chamado para intervir com urgência em determinado local e para o que

está fazendo, retomando o serviço quando voltar. O intervalo entre chamadas

externas e o tempo de cada parada externa são conhecidos. Modelo o problema em

busca de informações sobre o desempenho do sistema.

O problema 1 tem como característica principal o objetivo de minimização do custo

de transporte, o que indica que um método de otimização baseado em Programação

Linear é o mais adequado para sua solução.

O problema 2 tambem objetiva obter a distribuição do material a mímo custo, mas as

caraterísticas do problema mostram tratar-se de um problema clãssico de

17

roteirização, que dependendo do seu porte (número de clientes, janelas de tempo e

etc.) poderá ser resolvido por meio de heurísticas.

Os problemas 3 e 4 descrevem mais detalhadamente a operação de um sistema.

Em ambos pede-se a avaliação do desempenho operacional do sistema, sem

qualquer menção a otimização do sistema. É para essa classe de problemas que a

simulação é mais recomendada para ser aplicada.

Cabe destacar que nos problemas 3 e 4 fica evidenciado a presença da formação de

filas (de automóveis no problema 3 e de pedidos no problema 4).

A formação de fila de itens devido a existirem recursos ocupados e que estão sendo

usados por itens que chegaram anteriormente, mostra a necessidade de conhecer

mais detalhadamente conceitos básicos de Teoria de Filas, que serão apresentados

no próximo capítulo.

Os problemas 3 e 4 serão abordados com mais detalhes durante o curso.

18

2 - Introdução à Teoria de Filas

Uma fila se caracteriza pela espera de pessoas, veículos e qualquer outro elemento,

que ao buscarem serviço num ou em vários postos de atendimento, não podem ser

atendidos no momento que chegam pois todos os postos disponíveis estão

ocupados.

A teoria de filas se ocupa com a elaboração e solução de modelos matemáticos que

representem os processos de fila, com a finalidade de obter estimativas de boa

qualidade para parâmetros importantes do processo, tais como tempo médio de

espera, tempo médio de permanência no sistema, número médio de elementos no

sistema e na fila, e outras características menos agregadas, como distribuição do

tempo de espera e distribuição do número de clientes no sistema.

2.1 - Introdução

O procedimento para o estudo de um problema de fila pode ser resumido em 4

etapas:

• identificar e relacionar as variáveis que condicionam o problema;

• identificar as distribuições probabilísticas dos processos de chegada e

atendimento dos elementos;

• aplicar a teoria de filas ou técnicas de simulação probabilística;

• analisar as respostas e modificar os parâmetros do problema, buscando

verificar as alterações na operação do sistema.

A teoria de filas não é um método HVWULWDPHQWH�de otimização, mas é uma ferramenta

poderosa capaz de fornecer as seguintes informações sobre o processo de

formação de filas:

• tempo médio de espera de cada elemento em fila;

• tempo médio de permanência de um elemento no sistema;

• número médio de elementos em fila;

• ocupação do sistema de atendimento.

19

Retomando o problema 3 apresentado na seção 1.4, abaixo enunciado:

Na tabela abaixo são mostrados os intervalos entre chegadas dos veículos a uma

lanchonete e o tempo de atendimento de cada um (em minutos). Avalie o

desempenho operacional desse serviço.

Veículo 1 2 3 4 5 6 7 8 9 10 11 12

Intervalo 2 3 3 3 5 0 1 5 1 4 1 2

Duração 1 2 1 1 3 2 1 4 2 3 1 3

Pergunta-se: Houve formação de filas ?

Calcule: O intervalo médio entre chegadas, o tempo médio de atendimento, o tempo

médio de espera em fila de todos os veículos, o tempo médio de espera em fila

daqueles veículos que efetivamente esperaram em fila, tempo médio de

permanência dos veículos na lanchonete, a relação tempo em fila pelo tempo médio

de atentimento (Tw/Ts), a ocupação do ponto de atendimento e o indice de

congestionamento do sistema.

Para resolver o problema utilize a tabela abaixo:

Cliente Intervalo

entre

chegadas

Instante da

Chegada

Tempo médio

de atendimento

Início de

atendimento

Fim do

atendimento

Tempo

em fila

1

2

3

4

5

6

7

8

9

10

11

12

20

2.2 - Processos de Chegadas e de Atendimentos

Nos problemas de fila é necessário caracterizar-se os processos de chegada e de

atendimento dos elementos, por meio da identificação das distribuições de

probabilidades que regem esse processos. Para que isso seja possível, deve-se

proceder inicialmente a uma coleta de dados sobre os intervalos de tempo entre

chegadas e os tempos de atendimento em cada posto.

Concluída a etapa acima, pode-se elaborar tabelas de freqüências acumuladas para

as distribuições observadas dos intervalos entre chegadas e dos tempos de

atendimentos (admite-se que as médias dos tempos de atendimento já foram

testadas estatisticamente e rejeitou-se a hipótese de médias diferentes).

Para a aplicação da teoria de filas é interessante, mas não necessário, que as

distribuições observadas tenham um modelo teórico associado (exponencial, erlang,

uniforme ou normal, entre outras). Deve-se, portanto, proceder a um teste de

aderência para verificar qual modelo teórico melhor se adapta à distribuição

observada.

2.3 - Disciplina de Serviço

Quando o cliente entra no sistema, ele poderá esperar em fila algum tempo

enquanto aguarda até que um servidor esteja disponível. As filas são sempre

regidas por algumas regras de funcionamento. Assim, deve-se especificar uma

disciplina de serviço para o sistema. Entre as disciplinas comumente utilizadas,

destacam-se:

• FCFS (first-come-first-served) ou FIFO (First in First out of Queue) - primeiro a

chegar, primeiro a ser atendido, onde os clientes são atendidos na ordem em

que eles chegam;

• LCFS (last-come-first-served) - último a chegar, primeiro a ser atendido;

• SIRO (served-in-random-order) - atendimento aleatório dos elementos em fila;

• GD (generic discipline) – disciplina genérica de atendimento.

21

2.4 - Estrutura do Sistema

A estrutura mais simples de um sistema com fila é formada por uma fila e um único

servidor, como representado na figura 3.

Figura 3: sistema de uma fila e um servidor

Uma estrutura mais próxima daquela encontrada dentro de uma agência bancária é

representada na figura 4. Neste caso, existe uma fila única de clientes que são

atendidos por um dos servidores disponíveis em paralelo.

Figura 4: Sistema de uma fila e vários servidores em paralelo

Em sistemas de manufatura, várias peças (ou “clientes”) entram em um sistema

composto por diversas máquinas (“servidores”). Cada peça segue então, um

caminho próprio dentro do sistema, por exemplo, ela pode passar pelo torno

Chegada de

clientes

Clientes em fila

Servidor

Saída

Chegada

de clientes

Clientes em fila

Servidores

Saída

22

mecânico, a seguir pela furadeira e, por último, pela máquina fresadora. Cada

máquina tem a sua própria distribuição do tempo de atendimento e cada peça pode

esperar em fila antes de ser atendida por cada máquina. Um sistema deste tipo é

chamado de “rede de filas”. A figura 5 exemplifica essa situação, onde os clientes

são atendidos em série pelas máquinas. Apesar da sua importância, a obtenção de

resultados analíticos para este tipo de sistema é extremamente difícil e não faz parte

do escopo deste trabalho.

Figura 5: sistema de fila com servidores em série.

2.5 - Notação de Kendall-Lee

A caracterização de um processo de fila é dada pela notação de Kendall-Lee:

(a/b/c):(d/e/f)

onde:

a: indica o processo de chegadas dos elementos aos postos de atendimento,

definido pela distribuição estatística das chegadas ou do intervalo entre chegadas

entre elementos. Estas são as abreviações padronizadas:

• M = tempo entre chegadas são variáveis aleatórias independentes,

identicamente distribuídas (iid) com distribuição exponencial;

• D = tempo entre chegadas são iid e determinístico;

• Ek = tempo entre chegadas são variáveis aleatórias iid com distribuição

erlang de parâmetro k;

• GI = tempo entre chegadas são variáveis aleatórias iid com distribuição

genérica;

Chegada de

clientes

Servidores

Saída

Clientes em fila

23

b: indica o processo de atendimento dos elementos em cada posto de serviço,

definido pela distribuição estatística do tempo de serviço com as mesmas

abreviações utilizadas para os tempos entre chegadas sucessivas. Os postos de

serviço podem estar dispostos em paralelo ou em série;

c: é o número de postos de serviços em paralelo;

d: é a disciplina de atendimento dos elementos da fila como descrita na seção 3:

FCFS, LCFS, SIRO e GD.

e: é o número máximo de elementos no sistema (fila mais postos de serviço). Um

caso típico desse exemplo é a limitação da área da baía de espera num porto, que

obriga os navios excedentes buscarem refúgio em portos próximos, desistindo de

esperarem em fila naquele local;

f: é o número de elementos que freqüentam o sistema. No caso de terminais

privados, como o da Petrobrás, por exemplo, o número de navios que lá atracam é

finito e conhecido. No caso de terminais portuários públicos, pode-se considerar o

número de navios que lá freqüentam como infinito, ou seja o processo de chegadas

não é influenciado pela população de navios que freqüentam o terminal.

Por exemplo, 0/*/3/FCFS/5/∝, significa um sistema em que:

• os tempos entre chegadas sucessivas seguem uma distribuição exponencial;

• os tempos de atendimento seguem uma distribuição genérica;

• existem três servidores que podem realizar atendimento;

• a disciplina de serviço é a do primeiro a chegar – primeiro a ser atendido;

• no máximo 5 clientes podem estar no sistema simultaneamente;

• o número de clientes que podem freqüentar o sistema é infinito.

Convém mencionar que, em muitas situações, a fila é especificada apenas

pelo primeiro termo (a/b/c).

2.6 - Regime Transitório vs. Estado Estacionário

Considere, por exemplo, o restaurante da faculdade. O proprietário deseja

determinar quantas caixas de pagamentos colocar à disposição dos seus clientes.

24

Pela sua experiência, ele sabe que existem horários de pico de atendimento (almoço

ou jantar), em que a taxa de chegadas de clientes aumenta repentinamente. Em

uma situação como esta, fica a dúvida: o sistema deve ser estudado em um intervalo

de tempo curto (somente os horários de pico) ou longo (ao longo do dia)?

A resposta para esta pergunta depende de uma análise empírica dos dados. Se a

variação da taxa de surgimento de clientes for alta a ponto de comprometer os

valores médios, de fato a análise forçosamente deverá ser realizada para um

período curto de tempo. Contudo, em intervalos de tempo menores o estado inicial

do sistema pode afetar diretamente o comportamento médio do sistema. No caso do

restaurante, por exemplo, se já existia alguma fila de atendimento às 11:30 hs (início

do horário do almoço), essa fila pode nunca se dissipar ao longo da próxima hora,

afetando diretamente o desempenho do sistema dentro do período de análise.

Portanto, o sistema deve ser analisado no seu regime transitório, que é dependente

das condições iniciais do sistema.

Por outro lado, se as condições iniciais do sistema dissipam-se, ou seja, o período

de análise é suficientemente longo para que as condições iniciais não afetem o

comportamento médio do sistema, a análise é feita para o estado estacionário.

Devido à natureza matemática do problema, o regime transitório é de análise

extremamente difícil. Neste trabalho, consideraremos apenas a análise de estado

estacionário.

2.7 - Fórmula de Little

Considere qualquer sistema de fila em estado estacionári, onde:

λ : a taxa média de chegadas de clientes no sistema;

/: o número esperado de clientes no sistema (em fila + atendimento);

:: tempo esperado de que um cliente permaneça no sistema (fila + atendimento).

Para este sistema, a fórmula de Little pode ser colocada como:

:/ λ=

Está formula também pode ser colocada em função do numero esperado de clientes

na fila (tamanho médio da fila) / � e do número esperado de clientes em atendimento

/ � .

25

Por exemplo, considere um sistema com apenas um servidor que, em média, recebe

30 clientes por hora. Se o tempo médio de atendimento é de 5 minutos, temos neste

caso, 30=λ clientes/h e :=5/60 h. Portanto, o número esperado de clientes neste

sistema será de:

5,2605

30 =×== :/ λ clientes.

2.8 - Modelo de fila 0/0/1

1

1

2

0

ρρρ

ρρ

−+=

−== ∑

∞

=

/RX

MS/ � �

sendo que é o índice de congestionamento calculado pela razão λ�� .

Convém observar que, conhecido o valor de / o tempo médio de permanência no

sistema pode ser obtido a partir da fórmula de Little / = λ�:. Assim:

λµ −= 1:

)( λµµλ−

=�: e µ1=�:

Para encerrar a apresentação do modelo 0/0/1, cabe mencionar que a

probabilidade estacionária SM, é uma medida da relação entre o tempo em que há M elementos no sistema e o tempo total de observação do processo.

2.9 - Modelo 0/0/V

11

00 !

1!

1

−−

=

−

+

= ∑

�

�

��

VV

VQSλµ

µµλ

µλ

26

,...2,1, !

)(

,...,1 !)(

0

0

++==

==

− VVVMSVVVS

VMSMVS

��

�

��

ρ

ρ

A probabilidade de existência de fila é dada por:

0)1(!)(

)( SVVVM3

�

ρρ−

=≥

e o número médio de elementos no sistema / é dado por:

ρ

ρµλ

−≥+=

1)( VM3/

Consequentemente:

ρ

ρ−≥=

1)( VM3/ �

µλ=�/

2.10 - Estudo da fila 0/*/1

)1(2

)1( 22

ραρρ

−++=′/

onde αM é o coeficiente de variação da distribuição dos tempos de atendimentos, isto

é: α é a razão entre o desvio padrão e a média dos tempos de atendimentos. A

figura 6 mostra o efeito do índice de congestionamento ρ, sobre o número médio de

elementos no sistema /. É interessante examinar a equação anterior considerando o ponto de vista de

alguém que precisa dimensionar um sistema de atendimento, com um único

servidor, para atender uma demanda de serviço cuja chegada é Poisson, com taxa λ

� De um lado, é necessário projetar o sistema de serviço de forma que o tempo

médio de atendimento seja menor que 1/λ e conduza a valores de ρ� relativamente

afastados de 1, para evitar um crescimento excessivo da fila, conforme se observa

na figura 6.

27

10

L’

ρ

Figura 6 - Número de elementos no sistema em função de índice de

congestionamento

Por outro lado, para um dado tempo médio de atendimento, o desempenho do

sistema melhora bastante se for possível reduzir a dispersão de tempo de

atendimento em torno de sua média. Por exemplo, se o atendimento for

determinístico, com tempo constante, (α=1), o número médio de elementos na fila,

que corresponde à segunda parcela do lado direito da equação, será metade do

valor correspondente a um atendimento exponencial, para o qual α�= 1.

Para finalizar esse rápido estudo da fila 0/*/1, convém ressaltar que, em virtude de

que os tempos de atendimento têm memória, esta fila não pode ser estudada num

instante genérico W e todos os resultados obtidos se referem aos instantes escolhidos

para observação do sistema.

Desta forma, a probabilidade estacionária π� é uma medida da razão entre o número

de vezes que o processo está no estado M e o número total de observações feitas

nos instantes de saída em regime estacionário.

28

2.11 - Estudo de caso: Expansão de um terminal portuário

Nesta subseção será estudado um exemplo de expansão portuária, com base na

Teoria de Filas e nos custos associados.

Admita-se um terminal importador de matérias primas para a indústria de

fertilizantes, inicialmente dotado de 1 berço de atracação, cuja capacidade de

atendimento nominal é de 5.000 toneladas por dia, com distribuição exponencial.

Cada berço tem custo anual de 10 milhões de reais(CB) e a obra de construção e

montagem de equipamentos demora 3 anos para ficar pronta. Os navios que operam

neste terminal tem capacidade de carga de 40.000 toneladas e na atual situação as

importações anuais são de 1.00 milhões de toneladas por ano. Pode-se admitir que

a chegada de navios obedeça uma distribuição exponencial e o custo diário do navio

é da ordem de 10000 reais (CD).

Prevê-se que a importação dessa matéria prima aumente 10% a cada ano, em

relação ao período imediatamente anterior.

Admitindo-se que ao expandir a importação e o terminal portuário as distribuições

permaneçam exponenciais para a chegada e atendimento dos navios, pode-se

projetar o número de berços e equipamentos necessários, de tal forma que o custo

global anual do sistema seja mínimo.

O problema caracteriza-se na determinação do número de berços, que minimize o

custo global do sistema, para cada patamar de importação a ser considerado.

A equação do custo total anual do sistema (CT) é

Custo Total = CT = custo berço + custo operação

CT = NB *CB +TE * NV * CD)

onde NB é o número de berços do terminal

TE é o tempo médio de espera por navio

NV é o número de navios que freqüentam o terminal por ano

obs.: Os valores de CB e CD são conhecidos e o valor de CT depende do número de

berços e do nível de importação

29

NV é calculado em função do volume de importação anual dividido pela capacidade

do navio. Fixado um número de berços (NB), pode-se determinar a ocupação do

terminal para incrementos do nível de importação e pela teoria de filas, adotando-se

um modelo (M/M/c):(FIFO/∞/∞), pode-se determinar um valor para o tempo médio de

espera de cada navio (TE).

A tabela 2 mostra para cada ano de operação do terminal, o nível de importações, o

número de navios que freqüentam o terminal por ano (NV) e a taxa de chegada (λ)

de navios por dia.

A tabela 3 mostra para cada número de berços no terminal, a evolução do tempo

médio de espera dos navios (TE), o custo total do sistema (CT) e a taxa de

ocupação do terminal (ρ)

30

Tabela 2 - Nível de importação, número de navios e taxa de chegadas de navios

Ano de

Operação do

terminal

Nível de

importações

Número de

navios por

ano(NV)

Taxa de

chegadas de

navios por dia

1 1000 25 0.0684

2 1100 27. 0.0763

3 1210 30. 0.0840

4 1331 33. 0.0924

5 1464. 36. .101

6 1610. 40. .111

7 1771. 44. .123

8 1948. 48. .135

9 2143. 53. .148

10 2357. 58. .163

11 2593. 64. .180

12 2853. 71. .198

13 3138. 78. .217

14 3452. 86. .239

15 3797. 94. .263

16 4177. 104 .290

17 4594. 114 .319

18 5054. 126 .351

19 5559. 138 .386

Pela tabela 3, nota-se que o terminal portuário com NB=1 atinge a saturação (ρ>1).

No o sétimo ano de operação e para NB=2, após o 14° ano e, para NB=3, após o 18

° ano.

31

Até o 4° ano de operação o custo total com 1 berço é menor que o custo total com o

terminal dotado de 2 e 3 berços, porém no 5° ano já é vantajoso operar o terminal

com 2 berços, pois o custo total é menor do que com 1 só berço. Dessa forma, o 2°

berço deveria ter sua construção iniciada já no início do 2° ano.

Idêntica análise pode ser feita para a ampliação do terminal de 2 para 3 berços. No

13° ano de operação o custo anual do terminal com 2 berços supera o custo anual

do terminal com 3 berços. Portanto, o 3° berço deveria ter sua construção iniciada

no 10° ano.

32

Tabela 3 - Custo total e ocupação do sistema

Número de

bercos=1 (NB)

Ano de Operação

do terminal

Tempo médio de

espera do navio

em dias (TE)

Custo total do

sistema (CT)

Ocupação do

sistema (ρ)

1 9.69 12424. .547

2 12.58 13457. .611

3 16.40 14963. .672

4 22.70 17554. .739

5 34.86 22763. .813

6 67.99 37376. .894

7 498.3 230712 .984

Número de

bercos=2 (NB)

Ano de Operação

do terminal

Tempo médio de

espera do navio

em dias (TE)

Custo total do

sistema (CT)

Ocupação do

sistema (ρ)

1 .649 20162. .273

2 .823 20226. .305

3 1.018 20308. .336

4 1.26 20421. .369

5 1.58 20580. .406

6 2.00 20805. .447

7 2.55 21132. .492

8 3.31 21615. .541

9 4.39 22354. .595

10 6.01 23543. .654

33

11 8.63 25599. .720

12 13.5 29637. .792

13 25.3 39877. .871

14 91.5 98986. .958

Número de

bercos=3 (NB)

Ano de Operação

do terminal

Tempo médio de

espera do navio

em dias (TE)

Custo total do

sistema (CT)

Ocupação do

sistema (ρ)

1 0.0632 30015. .182

2 0.0866 30023. .203

3 .114 30034. .224

4 .150 30050. .246

5 .198 30072. .271

6 .262 30105. .298

7 .346 30153. .328

8 .460 30224. .360

9 .613 30328. .396

10 .821 30484. .436

11 1.10 30719. .480

12 1.51 31081. .528

13 2.10 31653. .581

14 3.00 32594. .639

15 4.46 34240. .703

16 7.12 37437. .773

17 13.0 45040. .850

18 36.7 76422. .936

34

2.12 – Limitações da Teoria de Filas

Os modelos analíticos ou analíticos-numéricos de teoria de filas, quando disponíveis,

fornecem resultados mais precisos e mais completos do que aqueles obtidos por

meio de simulação probabilística do processo de filas. Há, porém, várias limitações:

as formulações analíticas, como para o tempo médio de espera em fila e outras

informações importantes, são difíceis de serem derivadas para a maioria dos

processos;

regime transiente, ou seja aquele em que algumas variáveis do processo de fila

variam com o tempo, não é profundamente abordado pela teoria, que estuda

basicamente o regime estacionário do processo de filas;

tempo médio de serviço e a distribuição estatística devem ser iguais para todo o

posto de serviço;

a introdução de particularidades no processo de filas, como por exemplo a

interrupção dos serviços portuários devido ao mal tempo regido por uma distribuição

estatística conhecida, acarreta muitas dificuldades na modelagem matemática do

problema e podem inviabilizar a busca por uma solução analítica.

2.13 – Exercício aplicando Teoria de Filas

A chegada de pedidos de manufatura de um determinado produto segue um

distribuição exponencial com média de 20 minutos. Quando esse pedido chega ele é

desdobrado 3 (três) partes, sendo que cada um deles segue um determinado roteiro para a

manufatura de partes daquele produto final. Os tempos de manufaturas são todos regidos

por distribuições exponenciais e da parte A tem média de 40 minutos, da parte B tem média

de 60 minutos e da parte C tem média de 80 minutos. Pretende-se dimensionar o número de

máquina em paralelo necessárias para a manufatura de cada parte do produto final, de tal

forma que o tempo médio de permanência das partes no sistema sejam próximos e o a fila

de espera dos pedidos não seja maior que 2 minutos.

Faça as hipóteses que julgar necessário e utilize a tabela 4 para o cálculo dos

tempos em fila.

35

7DEHOD� �� ±� � 5D]kR� GR� 7HPSR� HP� ILOD� SHOR� 7HPSR�PpGLR� GH� $WHQGLPHQWR� HP�IXQomR�GD��2FXSDomR�GR�3RVWR�H�GR�Q~PHUR�GH�3RVWRV�

36

3 – Introdução à Simulação Discreta

Quanto ao aspecto temporal da variação de estado em um modelo de simulação,

pode-se classificá-lo em contínuo (simulação contínua) e discreto (simulação de

eventos discretos). O primeiro é utilizado para modelar sistemas cujo estado varia

continuamente no tempo, como no caso do aquecimento de um metal. A simulação

contínua emprega equações diferenciais para o cálculo das variáveis de estado ao

longo do tempo. Já na simulação discreta, a mudança de estado acontece em

instantes discretos, na ocorrência de eventos. Como exemplo, pode-se citar o

processo de chegada e atendimento de navios a um porto. Em alguns casos são

elaborados modelos mistos ou combinados, que possuem eventos contínuos e

discretos.

A simulação de sistemas discretos baseia-se portanto, na técnica de geração de

eventos. Uma vez que o sistema estiver descrito e modelado, serão conhecidas

todas as atividades e entidades envolvidas. Cada evento, que significa o início ou

fim de uma atividade, pode ser perfeitamente caracterizado, e uma lista cronológica

de todos eventos pode elaborada.

Por exemplo, considere o problema da modelagem por simulação de um posto

bancário, que dispõe de dois caixas de atendimento, a princípio considerados

homogêneos. Considere a formação de fila única e atendimento segundo o critério

“do primeiro a chegar será o primeiro a ser atendido”.

As únicas atividades previstas são os atendimentos aos clientes. Os eventos

possíveis são os instantes das chegadas dos clientes, o início e o fim de

atendimento dos clientes em algum dos caixas.

Alguns eventos são simultâneos, como o caso em que a chegada do cliente coincide

com o início de seu atendimento.

No aspecto evolutivo, Nance(1983) mostra que na década de 70, começou a ocorrer

uma mudança de foco na comunidade de simulação de eventos discretos de uma

abordagem centrada em “programa de simulação” para uma abordagem em “modelo

de simulação”, em que a importância principal é o entendimento humano do

problema e sua modelagem, e não o aspecto de codificação dos modelos no

computador.

37

Pedgen(1995), criador da linguagem SIMAN, empregada no desenvolvimento de

projetos e pesquisas, mostra que a simulação discreta tem que ter como objetivo a

descrição do comportamento de sistemas; a construção de teorias ou hipóteses que

explicam o comportamento observado e, finalmente, o uso do modelo para prever

um comportamento futuro (efeitos produzidos por mudanças no sistema ou na sua

forma de operar).

Para isso, faz-se necessário o uso da abordagem sistêmica, pois a mesma procura

considerar o desempenho total do sistema e não se concentrar nas partes. Isto se

baseia no fato de que mesmo que cada elemento ou subsistema esteja otimizado do

ponto de vista de dimensionamento, projeto ou operação, o desempenho global do

sistema pode estar subotimizado devido às interações entre as partes.

Como benefícios do uso da simulação como ferramenta de apoio à decisão, Pedgen

indica que:

• podem ser testadas novas políticas, procedimentos operacionais, tomadas de

decisão, estruturas organizacionais, fluxos de informações, etc; ou seja,

podem ser avaliadas novas estratégias sem comprometer ou intervir nas

operações presentes;

• novos arranjos físicos numa linha de montagem como também novos

sistemas de transportes podem ser testados antes do emprego de recursos

para a sua aquisição e/ou implantação;

• podem ser testadas diversas hipóteses sobre como ou por que certos

fenômenos ocorrem, buscando sempre a viabilidade do sistema;

• o tempo pode ser controlado, expandindo-o ou comprimindo-o, de forma a

acelerar ou não um fenômeno para estudo;

• são identificados os gargalos do sistema;

• ganha-se compreensão de quais variáveis são mais importantes para o

desempenho e como estas variáveis interagem;

• um estudo de simulação permite comparar como um sistema concebido

opera, confrontando-o com o que se pensa a respeito deste sistema;

• é possível realizar análises do tipo "what-if", ou seja, analisar diversas

situações, cenários e a robustez dos parâmetros do sistema em estudo.

38

Como desvantagens tem-se que:

• a simulação requer um treinamento especializado, uma vez que a qualidade

da análise depende da qualidade do modelo e da qualidade do analista;

• o tratamento dos dados de entrada do modelo de simulação é uma tarefa

importante para o analista;

• os dados de saída podem ser de difícil interpretação, pois uma vez que o

modelo está buscando capturar a aleatoriedade do sistema real, é geralmente

difícil determinar se o resultado de um processamento é devido às interações

presentes no sistema, ou se é devido à aleatoriedade embutida no modelo.

3.1 – Modelagem de Sistemas utilizando Simulação Discreta

A modelagem de sistemas discretos depende da caracterização prévia do

problema em estudo. A definição dos limites do sistema que se pretende modelar, de

seus parâmetros e propriedades de interesse são igualmente importantes.

Utilizando-se os conceitos de ENTIDADE, EVENTO e ATIVIDADES pode-se

definir o esquema das operações de diversos sistemas:

ENTIDADE - é um objeto de interesse dentro do sistema e que por ele flui (Ex:

veículos chegando a lanchonete, peças chegando e fluindo pelos sistemas de

manufatura e etc.);

ESTADO DO SISTEMA - é número de entidades dentro do sistema, seja em fila ou

em atendimento;

ATIVIDADES - são ocorrências durante um intervalo de tempo que mudam o

ESTADO do sistema;

EVENTO - é todo início ou fim de uma ATIVIDADE;

PROPRIEDADES do sistema - são valores observados de algumas ENTIDADES de

interesse do sistema, medidos em algum instante de tempo qualquer.

Cabe ressaltar a importância dos dados para a modelagem e a condução do

experimento de simulação, que será discutida em seção específica adiante.

39

3.1.1 - Caracterização dos processos de chegada e atendimento

Assim como já foi discutido no capítulo 2, para a utilização da Simulação Discreta é

necessário também caracterizar-se os processos de chegada e atendimento dos

elementos, por meio da identificação das distribuições de probabilidades que regem

esse processos. Para que isso seja possível, deve-se proceder inicialmente a uma

coleta de dados sobre os intervalos de tempo entre chegadas e os tempos de

atendimento em cada posto.

Nem sempre os dados coletados podem ser diretamente utilizados para a

elaboração de tabelas de frequências e para pesquisa de qual modelo probabilístico

teórico adere aos dados coletados. Recomenda-se analisar os dados utilizando um

pacote estatístico, tal como o MINITAB. O anexo A será dedicado exclusivamente a

análise dos dados necessários à simulação.

Concluída a etapa de análise de dados acima mencionada, pode-se elaborar

tabelas de frequências acumuladas para as distribuições observadas dos intervalos

entre chegadas e dos tempos de atendimentos (admite-se que as médias dos

tempos de atendimento já foram testadas estatisticamente e rejeitou-se a hipótese

de médias diferentes). O objetivo disso é buscar uma aderência de um modelo

teórico associado, como por exemplo uma exponencial, erlang, uniforme, normal e

etc.. Deve-se, portanto, proceder a um teste de aderência para verificar qual modelo

teórico se adapta a distribuição observada.

3.1.2 - Geração de números aleatórios

Os processo de chegada e atendimento são estocásticos e regidos por

distribuições de probabilidade com modelos e parâmetros conhecidos (num caso

real admite-se que previamente houve a análise de aderência dos dados coletados

com referência a modelos teóricos).

A geração de cada um dos intervalos de chegada ou tempos de atendimento

das entidades, deve ser feita segundo as seguintes etapas:

40

- sorteia-se um número aleatório uniformemente distribuído entre 0 e 1, para cada

atividade prevista no modelo;

- utilizando-se a função inversa da distribuição de probablilidade e o número

aleatório, determina-se o intervalo de tempo.

Procedimento semelhante pode ser usado se a distribuição de probabilidade

de uma função estiver definida numa tabela de frequências acumuladas.

Os números aleatórios entre 0 e 1, em geral, são calculados por algoritmos,

que partem de um valor inicial denominado "semente" e, por meio de diferentes

manipulações matemáticas, geram os chamados números pseudo-aleatórios.

Um exemplo de gerador de números aleatórios é o método da congruência ou

resíduo. Considerando a, b, P e a semente Co como parâmetros iniciais; o

algoritmo é descrito abaixo:

- calcula-se o valor: X = (a.Co + b)/P

- toma-se Y como o valor inteiro de X

- calcula-se C1 = X - Y (primeiro número aletório entre 0 e 1 gerado);

- Substitui-se C0 por C1 e repete-se o algoritmo a partir do primeiro passo,

possibilitando a geração de quantos números aleatórios forem necessários..

Adotando-se, a,b e P, suficientemente grandes, a quantidade de números

gerados é muito grande, até a formação de um ciclo ou sequência.

Os números gerados por esse método são chamados de números pseudo

aleatórios, especialmente porque não se garante que, depois de um grande número

de iterações, a sequência gerada não volte a se repetir.

Uma questão clássica é saber se a sequência de números aleatórios gerados

é realmente aleatória, pois o método empregado pode esconder uma sequência bem

definida de operações matemáticas que definem a geração dos números. Alguns

testes podem ser aplicados para se responder essa questão. São eles:

- teste do qui-quadrado para testar a aderência de uma distribuição uniforme de

números entre 0 e 1 sobre a sequência de números geradas;

41

- teste de independência, que checa se existe correlação na sequência de números

obtida pelo método empregado.

Cabe ressaltar a importância de se alterar as sementes dos geradores de

números aleatórios a cada novo processamento da simulação de um modelo, cuja

sistemática será discutida em seções adiante.

3.1.3 - Geração das variáveis aleatórias

Dada uma distribuição de probabilidade, que pode representar o processo de

atendimento ou chegada de veículos, deve-se proceder à geração de valores da

variável aleatória regida por tal distribuição, para que possam ser usados no

processo de simulação.

Abaixo serão mostradas as formas de avaliação das funções uniforme,

exponencial, erlang de ordem k e normal, admitindo-se que ri sejam números

aleatórios sorteados entre 0 e 1.

- Função Uniforme de valores entre A e B, com B maior que A

A função distribuição da Uniforme é:

F(x) = (x-A)/(B-A), 0 <= F(x) <= 1.

A função inversa dessa distribuição é x = A + (B-A).F(x). Substituindo F(x) por ri,

que é um número aleatório com distribuição é uniforme entre 0 e 1 obtido por um

gerador de números aleatórios, pode-se obter valores para a variável x, cuja

distribuição, por definição, é uniforme entre A e B.

- Função Exponencial com média T

A função distribuição da exponencial é F(x) = 1 - e-λx , onde λ = 1/T.

42

A inversa dessa função é x= -T . ln[F(x)] Substituindo F(x) por ri, que é um número

aleatório com distribuição é uniforme entre 0 e 1 obtido por um gerador de números

aleatórios, pode-se obter valores para a variável x, cuja distribuição é exponencial

com média T.

- Função Erlang de Ordem K e média T

X é uma variável aleatória com distribuição erlang de ordem k e média T, se x

for a resultante da somatória de k variáveis aleatórias independentes com

distribuição exponencial de média T/k.

- Função Normal

Para a obtenção de uma variável Y distribuída segundo uma função normal

com média 0 e variância 1, utiliza-se a formulação abaixo, onde U1 e U2 são

variáveis aleatórias entre 0 e 1:

Y = (-2 ln U1)1/2 . cos (2πU2)

Obtido o valor Y e conhecidos os valores da média µ e do desvio padrão σ

da população com distribuição normal, obtem-se o valor X atra'ves da fórmula:

Y = (X - µ)/σ

43

3.1.4 – Montando uma Simulação

A simulação de sistemas discretos baseia-se na técnica de geração de

eventos. Descrito e modelado o sistema discreto, são conhecidas todas as

atividades e entidades envolvidas. Cada evento, que significa o início ou fim de uma

atividade, pode ser perfeitamente caracterizado e uma lista cronológica de todos

eventos pode elaborada.

Retomando-se o exemplo enunciado no início deste capítulo, em que um

posto bancário tem 2 caixas de atedimento, considere que após a análise de dados

e os testes de aderência efetuados, determinou-se que os intervalos entre chegadas

consecutivas de pessoas são regidas por uma distribuição exponencial de média

240 segundos e o atendimento é feito nos caixas é regido por distribuições

exponenciais de média 400 segundos cada um. Considere a formação de fila única e

atendimento segundo o critério de primeiro a chegar, primeiro a ser atendido.

As únicas atividades previstas são os atendimentos dos clientes. Os eventos

possíveis são os instantes das chegadas, o início e fim de atendimento dos clientes

nos caixas.

O modelo para simulação deste exemplo segue as fases abaixo indicadas:

- geram-se os intervalos entre chegadas de clientes ao banco (em segundos);

- cada cliente entra em fila e aguarda a liberação de um dos 2 caixas;

- o cliente sai da fila e ocupa um caixa vazio;

- gera-se o tempo de atendimento do cliente (em segundos);

- o cliente libera o caixa que estava ocupando.

As propriedades do sistema a serem calculadas neste exemplo são as

seguintes: Comprimento médio da fila, tempo médio de espera em fila, tempo médio

de permanência dos clientes no banco e ocupação dos caixas.

Como a distribuição probabilística dos intervalos entre chegadas consecutivas

de clientes é conhecida, pode-se elaborar, usando-se geradores de números

aleatórios, uma lista com o instante (em segundos) em cada que cliente chegou ao

banco. Deve-se adotar um horizonte para o tempo total de simulação do sistema,

neste exemplo fixado em 4800 segundos.

44

A tabela 5 mostra na coluna 2 os intervalos entre chegadas consecutivas de

clientes e na coluna 3 mostra os instantes de chegada dos clientes (evento chegada

do cliente ao banco), que são os valores acumulados da coluna 2.

Tabela 5 - Intervalos entre chegadas consecutivas e os instantes de

clientes (em segundos)

Número do Cliente

Gerado

Intervalo entre

Chegadas

Instante de chegada

do cliente

1 0 0

2 186 186

3 85 271

4 266 537

5 492 1029

6 381 1410

7 157 1567

8 125 1692

9 145 1837

10 427 2264

11 89 2353

12 187 2540

13 9 2549

14 264 2813

15 43 2856

16 62 2918

17 693 3611

18 440 4051

19 217 4268

20 199 4467

21 253 4720

45

Conhecida a quantidade de clientes gerada no tempo total de simulação de

4800 minutos, pode-se gerar o tempo de atendimento de cada cliente usando-se a

distribuição estatística da atividade de atendimento do cliente (exponencial com

média de 400 segundos).

A tabela 6 mostra o tempo de atendimento sorteado para cada cliente.

Note-se que somente um evento foi perfeitamente caracterizado, ou seja a

chegada de cliente, que depende somente do sorteio da distribuição estatística

associada.

O processo de simulação caracteriza-se pela determinação de todos os

eventos envolvidos no sistema, durante o período de análise, para que sejam

posteriormente ordenados cronologicamente. Neste exemplo falta calcular os

eventos de início e fim de atendimento de cada cliente.

46

Tabela 6 - Tempos de atendimento dos clientes (em segundos)

Número do Cliente

Gerado

Tempo de

Atendimento do cliente

1 431

2 374

3 641

4 419

5 646

6 524

7 538

8 581

9 672

10 72

11 417

12 273

13 256

14 150

15 487

16 579

17 364

18 776

19 15

20 23

21 244

47

A tabela 7 mostra na coluna 3 o instante de início de atendimento, na coluna 4

o instante de fim de atendimento de cada cliente nas colunas 5 e 6 o tempo de

espera e permanência de cada cliente respectivamente.

Algumas propriedades do sistema já podem ser calculadas usando-se a

tabela 7. São elas:

- tempo médio de espera dos clientes.

Basta calcular a somatória da coluna 5 da tabela 7 e dividir pelo número total

de clientes gerados no período ( No exemplo o valor é de 165 segundos). O tempo

médio de espera, retirando-se aqueles clientes que não esperam em fila, também

pode ser calculado de maneira semelhante.

- tempo médio de permanência dos clientes no banco.

Este valor é dado pela somatória da coluna 6 da tabela 7 e dividido pelo

número total de clientes gerados no período ( No exemplo o valor é de 266

segundos).

48

Tabela 7 - Eventos chegada, inicio e fim de atendimento de cada cliente e tempo de

espera e permanência no banco (em segundos)

Número do

Cliente

Instante de

chegada

do cliente

Tempo

de

Atend.

Início de

Atend.

Fim de

Atend.

Tempo de

Espera do

Cliente

Tempo do

Cliente no-

Banco

1 0 431 0 431 0 431

2 186 374 186 560 0 374

3 271 641 431 1072 160 801

4 537 419 560 979 23 442

5 1029 646 1029 1675 0 646

6 1410 524 1410 1934 0 524

7 1567 538 1675 2213 108 646

8 1692 581 1934 2515 242 823

9 1837 672 2213 2885 376 1048

10 2264 72 2515 2587 251 323

11 2353 417 2587 3004 234 651

12 2540 273 2885 3158 345 618

13 2549 256 3004 3260 455 711

14 2813 150 3158 3308 345 495

15 2856 487 3260 3747 404 891

16 2918 579 3308 3887 390 969

17 3611 364 3747 4111 136 500

18 4051 776 4051 4827 0 776

19 4268 15 4268 4283 0 15

20 4467 23 4467 4490 0 23

21 4720 244 4720 4964 0 244

49

Uma visualização importante do processo de simulação pode ser fornecida

pelo gráfico de estado do sistema, que dá para cada instante do processo de

simulação o número de elementos no sistema, sejam estes esperando em fila ou

sendo atendidos.

A tabela 8 mostra para todos os eventos, cronologicamente ordenados, o

estado do sistema (coluna 2), o instante de ocorrência de cada evento (coluna 3), o

tempo em que o sistema permaneceu naquele estado (coluna 4) e a descrição dos

eventos (coluna 5).

A figura 7 mostra o gráfico do estado do sistema, cuja abscissa contém os

eventos os eventos ocorridos no período simulado

Com as informações da tabela 8 pode-se calcular:

a - o número médio de elementos na fila

A formação de fila se caracteriza toda vez que o número de elementos no sistema

ultrapassa o valor 2. Calculando-se a somatória dos tempos de fila vezes o número

de elementos em fila, para cada trecho do diagrama de estado e dividindo-se pelo

tempo total simulado, obtem-se o número médio dos elementos em fila ( No exemplo

o valor é de 0.722 clientes);

b - número médio de elementos no sistema (em fila mais nos caixas)

De forma semelhante ao cálculo do número médio de elementos em fila, pode-se

achar a média ponderada dos tempos de permanência do sistema de 0 até n

elementos e dividir pelo tempo total simulado ( No exemplo o valor é de 2,45

clientes).

c - o índice de ocupação dos caixas

O índice de ocupação dos caixas é também calculado por meio de uma média

ponderada dos tempos em que as mesmas ficaram vazias, com pelo menos uma

ocupada e com as dias ocupadas, dividido pelo tempo total simulado (No exemplo, o

valor é 73 %).

50

Tabela 8 : Eventos crologicamente ordenados (tempo em segundos)

No.do evento Estado do

Sistema (no. de

clientes)

Instante de

ocorrência do

evento

Tempo de

permanência do

sistema naquele

estado

Descrição do

evento

1 1 0 0 C1=I1

2 2 186 186 C2=I2

3 3 271 85 C3

4 2 431 160 F1=I3

5 3 537 106 C4

6 2 560 23 F2=I4

7 1 979 419 F4

8 2 1029 50 C5=I5

9 1 1072 43 F3

10 2 1410 338 C6=I6

11 3 1567 157 C7

12 2 1675 108 F5=I7

13 3 1692 17 C8

14 4 1837 145 C9

15 3 1934 97 F6=I8

16 2 2213 279 F7=I9

17 3 2264 51 C10

18 4 2353 89 C11

19 3 2515 162 F8=I10

20 4 2540 25 C12

21 5 2549 9 C13

22 4 2587 38 F10=I11

23 5 2813 226 C14

24 6 2856 43 C15

51

25 5 2885 29 F9=I12

26 6 2918 33 C16

27 5 3004 86 F11=I13

28 4 3158 154 F12=I14

29 3 3260 102 F13=I5

30 2 3308 48 F14=I16

31 3 3611 303 C17

32 2 3747 136 F15=I17

33 1 3887 140 F16

34 2 4051 164 C18=I18

35 1 4111 60 F17

36 2 4268 157 C19=I19

37 1 4288 15 F19

38 2 4467 184 C20=I20

39 1 4490 23 F20

40 2 4720 230 C21=I21

41 1 4827 80 F18

42 0 4964 0 F21

Ci = Chegada do Cliente i

Ii = Início de atendimento do cliente i

Fi = Fim de atendimento do cliente i

52

0

1

2

3

4

5

6

1 4 7 10 13 16 19 22 25 28 31 34 37 40

Elementos do Sistema

Eventos

Figura 7 - Diagrama de estado

A figura 8 mostra o diagrama de estado do sistema e pode exibir um

período inicial da simulação em que o sistema ainda não atingiu um comportamento

mais uniforme em termos do número médio de elementos no sistema. Este período

denomina-se de transitório.

3.1.5 – Montando uma Simulação em EXCEL

Retomando o problema 3 apresentado na seção 1.4, abaixo enunciado:

Na tabela abaixo são mostrados os intervalos entre chegadas dos veículos a uma

lanchonete e o tempo de atendimento de cada um (em minutos). Avalie o

desempenho operacional desse serviço.

Veículo 1 2 3 4 5 6 7 8 9 10 11 12

Intervalo 2 3 3 3 5 0 1 5 1 4 1 2

Duração 1 2 1 1 3 2 1 4 2 3 1 3

53

Pede-se com base nos valores intervalo médio entre chegadas e do tempo médio

de atendimento, a simulação da chegada de 5000 veículos na lanchonete com a

avaliação das mesma estatíticas solicitadas anteriormente, assumindo que os

processos de chegada e de atendimento são regidos por distribuições exponenciais.

54

4 - O Processo de Simulação

O analista ao enfrentar um problema e decidindo que utilizará Simulação para

resolvê-lo, não bastará aplicar tão somente os conceitos mostrados no capítulo

anterior.

Pedgen(1995) propõe uma seqüência de passos a serem adotados no

desenvolvimento de estudos de simulação para que estes sejam conduzidos de

forma eficiente:

$��'HILQLomR�GR�3UREOHPD - é a etapa em que ocorre uma definição clara das metas

do estudo, por que se está estudando este problema e que respostas se pretende

encontrar;

%��3ODQHMDPHQWR�GR�3URMHWR - busca-se nesta fase verificar a existência de recursos

físicos, humanos e técnicos para a execução do projeto;

&��'HILQLomR�GR�6LVWHPD - é a etapa em que ocorre a determinação das fronteiras e

das restrições a serem usadas na definição do sistema e a investigação sobre o

funcionamento do sistema;

'�� )RUPXODomR� &RQFHLWXDO� GR� 0RGHOR - é uma etapa em que se desenvolve um

modelo preliminar de forma gráfica (por exemplo, diagrama de blocos), ou em um

pseudocódigo para definir os componentes, as variáveis e as interações lógicas que

constituem o sistema;

(�� 3URMHWR� 3UHOLPLQDU� GR� ([SHULPHQWR� �� consiste na seleção das medidas de

eficiência que serão empregadas, dos fatores a serem variados e dos dados que

precisam ser colhidos do modelo, sua forma e extensão;

)��3UHSDUDomR�GRV�'DGRV�GH�(QWUDGD - consiste na identificação e coleta dos dados

necessários ao modelo;

*� �&RGLILFDomR� GR� 0RGHOR - é a formulação do modelo em uma linguagem de

simulação apropriada;

+��9HULILFDomR�H�9DOLGDomR�GR�0RGHOR - é uma das etapas essenciais do processo e

consiste na confirmação de que o modelo opera da forma que o analista pretendia e

que a saída do modelo é confiável e representativa de um sistema real. A verificação

busca mostrar que o programa computacional se desempenhou como esperado e

pretendido, fornecendo, desta forma, uma correta representação lógica do modelo. A

55

validação, por outro lado, estabelece que o comportamento do modelo representa,

de forma válida, o sistema do mundo real que está sendo simulado.

,��3URMHWR�)LQDO�GR�([SHULPHQWR - consiste em projetar experimentos que irão gerar as

informações desejadas e determinar como cada um dos processamentos

computacionais no projeto será executado;

-��([SHULPHQWDo}HV�H�$QiOLVH�GH�6HQVLELOLGDGH - consistem em executar a simulação

para gerar os dados desejados e realizar análises de sensibilidade;

.��$QiOLVH�H�,QWHUSUHWDomR�GRV�5HVXOWDGRV - consiste em realizar inferências sobre

os dados obtidos pela simulação;

/��,PSOHPHQWDomR�H�'RFXPHQWDomR - são a disponibilização e aplicação dos dados

utilizados e dos resultados obtidos, além de uma documentação do modelo e de seu

uso.

Retomando o exemplo do posto bancário delineado no início do capítulo 3, a

descrição e a montagem do sistema bancário foram bastante simplificadas, pois é

sabido que o problema real de um posto bancário existem fatores que tornam o

probelma mais complexo, como por exemplo o horário de funcionamento, a

preferência pelos idosos e gestantes no atendimento, eventuais falhas no sistema

que interrompem o atendimento em alguns periódos e etc. Se o analista

necessitasse de respostas globais de ocupação e fila desse posto em curto espaço

de tempo, tal enunciado seria suficiente para descrever o sistema bancário em

questão. Com isso, os passos “A”, “B” e “C” do processo de simulação estariam

cumpridos.

O modelo conceitual, que corresponde ao passo ”D” para simulação deste exemplo

com as hipóteses simplificadoras que foram adotadas, segue as fases abaixo

indicadas:

• geram-se os intervalos entre chegadas de clientes ao posto;

• cada cliente entra em fila e aguarda a liberação de um dos dois caixas;

• o cliente sai da fila e ocupa um caixa vazio;

• gera-se o tempo de atendimento de cada cliente e o mesmo é atendido;

• o cliente libera o caixa e sai do posto.

56

As propriedades do sistema que podem ser calculadas neste exemplo são as

seguintes: comprimento médio da fila, tempo médio de espera em fila, tempo médio

de permanência dos clientes no posto e ocupação dos caixas e que representam a

fase “E” do processo de simulação.

O próximo passo do processo de simulação seria, segundo Pedgen(1995) a “F -

Preparação dos dados de entrada”, que basicamente, seria buscar as distribuições

de probabilidade para a geração dos intervalos entre chegada dos clientes e seus

tempos de atendimento, respectivamente. Em seguida o passo “G – Codificação do

modelo” poderia ser executado.

Nota-se, no entanto, que deve haver uma modificação importante nesse

processo de simulação entre os passos “F” e “G”, que é apresentada a seguir.

4.1 - Alteração Proposta ao Processo de Simulação

Cabe ressaltar que toda experimentação ou simulação sempre dependerá de

dados e informações, para que o modelo responda de acordo com a situação real

que originou o problema em estudo.

Um cuidado que todo usuário de simulação deve ter é que um modelo pode

ser muito bem concebido. Todavia, se os dados utilizados para sua experimentação

forem inadequados, os resultados serão desastrosos.

Um ciclo completo de um projeto de simulação foi proposto por Knepell e

Knepell(1993) e é ilustrado na figura 8.

57

Figura 8 - Ciclo completo de um projeto de simulação. Fonte: Knepell(1993)

Em todas as fases observa-se a grande importância dos dados, que devem

estar disponíveis e ser válidos em todas as etapas, uma vez que a existência dos

mesmos direcionará a forma de modelagem, restringirá aspectos da programação e

possibilitará gerar resultados que se aproximam da realidade.

A experiência do autor deste texto, ao longo dos 24 anos da utilização de

técnicas de simulação para solução de problemas, mostra que o correto tratamento

e a investigação dos dados levam a identificação de aspectos importantes a respeito

do problema real e deveriam impor modificações no sistema e no modelo conceitual

formulado. Ou seja, os resultados do passo F - Preparação dos dados de entrada,

geram modificações nos passos anteriores, necessitando que o usuário retorne e

analise os passos “A”, “B”, “C”, “D’ e “E” do processo de simulação proposto por

Pedgen(1995).

No exemplo do posto bancário não seria incomum que o tratamento de dados

identificasse que os atendimentos nos dois caixas fossem estatisticamente

diferentes ou que o processo de atendimento de idosos e gestante seria tão

significativo para a análise que não poderia deixar de ser considerado.

As hipóteses acima levantadas só podem ser comprovadas após o efetivo

tratamento de dados. O Anexo A é dedicado ao tratamento de dados em simuação

58

discreta. Em caso positivo, devem alterar o modelo conceitual de simulação, que

passaria a considerar o atendimento diferenciado em cada caixa.

Defende, portanto o autor, que o processo de simulação tenha a alteração

mostrada na tabela 9 abaixo.

Tabela 9 - Procedimento para análise e modelagem de problemas utilizando técnicas

de simulação

A-) DEFINIÇÃO DO PROBLEMA

B-) PLANEJAMENTO DO PROJETO

C-) DEFINIÇÃO DO SISTEMA

D-) FORMULAÇÃO CONCEITUAL DO MODELO

E-) PROJETO PRELIMINAR DO EXPERIMENTO

F-) PREPARAÇÃO DOS DADOS DE ENTRADA

AO FINAL DESTE PASSO RETORNE AO PASSO “A”

G-) CODIFICAÇÃO DO MODELO

H-) VERIFICAÇÃO E VALIDAÇÃO DO MODELO

I-) PROJETO FINAL DO EXPERIMENTO

J-) EXPERIMENTAÇÃO E ANÁLISE DE SENSIBILIDADE

K-) ANÁLISE E INTERPRETAÇÃO DOS RESULTADOS

L-) IMPLEMENTAÇÃO E DOCUMENTAÇÃO

Fonte: Pedgen(1995) com modificação proposta por Botter (2002).

Assim o modelo conceitual do posto bancário ficaria expresso da seguinte forma,

após a constatação feita pela análise dos dados:

• geram-se os intervalos entre chegadas de clientes ao posto;

• cada cliente, dependendo se é comum ou idoso/gestante entra em uma das

filas em frente aos caixas fila e aguarda a liberação do caixa respectivo;

• o cliente sai da fila e ocupa um caixa vazio;

• gera-se o tempo de atendimento de cada cliente, de acordo com o caixa que

estiver e o mesmo é atendido;

59


4.2 - O processo de validação de um modelo de simulação

Assim como o correto tratamento de dados deve feito durante o processo de

simulação, a validação do modelo deve ser também uma tarefa contínua.

Balci (��) descreve uma importante forma de modelagem que pode ser

considerada como interativa. Este método, que será descrito a seguir, faz parte de

15 princípios básicos para a Validação, Verificação e Teste (VV&T) de modelos de

simulação durante todo o desenvolvimento do projeto:

1. Os processos de verificação, validação e testes devem ser conduzidos durante

todo o ciclo de vida de um estudo de simulação.

VV&T não é uma fase ou um passo independente no ciclo de vida de um

estudo de simulação mas uma atividade interativa que ocorre ao longo de

todo o processo. O risco de conduzir testes de VV&T pela primeira vez ao

final do ciclo de vida quando um modelo experimental já se encontra pronto,

é a possibilidade de se deixar passar possíveis deficiências ao longo de

cada uma das etapas. Estas etapas podem ser hierarquizadas de diversas

formas. Balci propôs a estrutura esquematizada na figura 9

Os testes aplicados nesta estrutura podem ser estratificados em 5 níveis, a

saber:

1tYHO� � - Testes Particulares - realizados pelo próprio analista de forma

informal;

1tYHO�� - Testes em Módulos do Submodelo - realizados em cada submodelo,

considerados de forma independente, onde são testados diversos cenários

para as variáveis de entrada, analisando-se as saídas. Recomenda-se

documentar cada teste rigorosamente para futuras análises e comparações;

1tYHO� �� - Testes de Integração - objetiva garantir que não existem

inconsistências nas interfaces e na comunicação entre os submodelos quando

estes são combinados de forma a compor o modelo.

1tYHO� �� - Teste do Produto (Modelo) - visa validar globalmente o

comportamento do modelo.

60

1tYHO��- Teste de Aceitação Final - visa estabelecer credibilidade suficiente no

modelo de tal forma que este possa ser aceito e utilizado pelo cliente.

Figura 9 - Estrutura hierarquizada para os processos de verificação e validação.

Fonte: Balci(1997)

2. Os resultados de um processo de VV&T de modelos de simulação não devem

ser considerados absolutamente certos ou absolutamente errados.

Balci alerta para o fato de um modelo dificilmente conseguir representar

perfeitamente a realidade, uma vez que se trata da abstração de um

ProblemaComunicado

ProblemaFormulado

Técnica Propostade Solução(Simulação)

Definição doSistema e dos

Objetivos

ModeloConceitual

VV&T do ProblemaFormulado

Formulaçãodo Problema

Viabilidade de Usoda Simulação

Investigação dasTécnicas de Solução

VV&T da Definição doSistema e dos Objetos

Investigação doSistema

ModeloEsquemático

ModeloProgramado

ModeloExperimental

Resultados daSimulação

Apoio Integradoà Simulação

Formulação do Modelo

Qualificação do Modelo

Representaçãodo ModeloVV&T do Modelo

Esquemático

VV&T do ModeloProgramado Programação

VV&T do Projetode Experimentos

Projeto deExperimentos

Experimentos

Redefinição

VV&T do ModeloExperimental

VV&T dosDados

VV&

T da

Apre

sent

ação

Apre

sent

ação

dos

Res

ulta

dos

da S

imul

ação

61

sistema. Os resultados parciais de VV&T devem direcionar a continuidade

do desenvolvimento do modelo. Contudo, o grau de utilização de um modelo

é influenciado pelo grau de credibilidade do mesmo, conforme pode ser

observado na figura 10.

Figura 10 - Grau de credibilidade do modelo de simulação. Fonte: Balci(1997)

3. Um modelo de simulação é construído de acordo com os objetivos do estudo e

sua credibilidade deverá ser julgada de acordo com estes objetivos.

Deve-se lembrar que os objetivos do estudo é que ditam o nível de

representação do modelo, ou o grau de agregação (detalhamento) adotado.

4. A execução de VV&T em modelos de simulação requer independência para

evitar enviesamento por parte do analista.

Os testes em modelos só são significativos se executados por pessoas

externas ao processo. Como resultados negativos podem interferir na

avaliação de desempenho do analista ou da empresa contratada para a

realização do projeto, estes preferem acompanhar os testes, enviesando os

resultados.

5. A VV&T em modelos de simulação é difícil e requer criatividade e visão.

Para uma avaliação precisa, é necessário compreender todo o modelo de

simulação para projetar e implementar testes que sejam eficientes e

62

adequados ao problema. Além disso, é imprescindível ter domínio do

problema, expertise em modelagem e em técnicas de VV&T.

6. A credibilidade de um modelo de simulação pode ser avaliada apenas dentro das

condições para o qual o modelo é testado.

As condições prescritas para as quais a credibilidade do modelo tem sido

estabelecidas constituem o chamado "domínio de aplicabilidade" do modelo

experimental de simulação. Portanto apenas pode-se avaliar a credibilidade

de um modelo se o cenário simulado se enquadra dentro do escopo ditado

pelo domínio de aplicabilidade.

7. Não é possível um teste completo em modelos de simulação.

Uma checagem exaustiva requer testar todas as possíveis combinações de

valores de todas as variáveis de entrada, o que poderia gerar milhares de

caminhos percorridos internamente no modelo, comprometendo as

restrições de tempo e orçamentária de execução do projeto. Portanto, na

etapa de execução de testes, é imprescindível acompanhar a evolução dos

resultados do modelo, face às diversas entradas, para saber os objetivos

estão sendo atendidos qualitativamente. Já a quantidade de testes

necessários e quando parar estes testes depende do domínio de

aplicabilidade desejado do modelo e este, por sua vez, é função dos

objetivos do estudo de simulação. Os dados para simular podem ser

gerados utilizando: valores aleatórios; valores determinísticos; valores

mínimos para todas as variáveis de entrada; valores máximos para todas as

variáveis de entrada; combinação de valores mínimos e máximos para todas

as variáveis de entrada; valores inválidos e valores já simulados.

8. A VV&T em modelos de simulação tem que ser planejada e documentada.

Conforme já explicitado, os testes não são uma atividade isolada dentro do

processo de simulação, mas sim uma atividade contínua através de todo o

ciclo de vida de um estudo. Desta forma, estes têm que estar devidamente

planejados, identificados, programados e acima de tudo documentados.

63

9. Erros Tipo I, II e III têm que ser prevenidos.

Três tipos de erros podem ser cometidos durante a execução de um estudo

de simulação e são mostrados na figura 11.

Figura 11 - Tipos de erros possíveis num estudo de simulação. Fonte:

Balci(1997)

Erro Tipo I (0RGHO�%XLOGHUV�5LVN) - acontece quando os resultados são rejeitados

quando, de fato, eles são válidos;

Erro Tipo II (0RGHO�8VHUV�5LVN) - acontece quando resultados inválidos são aceitos

como se fossem suficientemente válidos;

ProblemaFormulado

O problemaformulado contémcompletamente oproblema real?

Cometido ErroTipo III

FinalBem Sucedido

Final com ErroTipo I

Final MalSucedido

Final com ErroTipo II

O modeloformulado é representado por

um modelo quepossui credibilidade ?

Osresultados dasimulação são

aceitos ?

OsResultados dasimulação são

aceitos ?

Pode-seassegurar a credibilidade

dos resultados dasimulação ?

O problema real não temsolução que é suficienteO Problema real tem uma

solução que possuicredibilidade

Cometido ErroTipo I

Cometido ErroTipo II

Sim

Não

Não

Sim

Sim

Sim

Sim

Sim

Não

Não Não

NãoPode-se

assegurar a credibilidadedos resultados da

simulação ?

64

Erro Tipo III - acontece quando se resolve o problema errado e seus resultados são

aceitos, apesar do problema formulado não refletir, na realidade, o problema

real.

10. Os erros devem ser detectados o quanto antes num ciclo de vida de um estudo

de simulação.

Isto deve ser uma meta a ser buscada, visando eliminar o retrabalho. Outro

fator complicador é a possível influência de uma alteração em um estágio

inicial, em etapas do estudo de simulação mais avançadas.

11. Um problema com múltiplas respostas deverá ser observado e analisado

adequadamente.

Um modelo com múltiplas variáveis de resposta não poderá ser validado

comparando o valor correspondente da variável de saída do modelo e do

sistema isoladamente utilizando um método estatístico univariado. Um

procedimento estatístico multivariado deverá ser utilizado para incorporar a

correlação entre as variáveis de saída para uma comparação.

12. Testes bem sucedidos nos submodelos não implicam na credibilidade do modelo

como um todo.

Apesar de individualmente estarem validados, o modelo só estará

completamente validado quando o mesmo estiver testado com todas as

parte integradas e interagindo entre si.

13. O problema de dupla validação tem que ser identificado e ser resolvido

adequadamente.

0 problema de dupla validação ocorre quando existem dados disponíveis

sobre a entrada e a saída de um sistema real e, dessa forma, procura-se

comparar estes valores com os resultados de uma simulação. Nesta ocasião

surge o problema de dupla validação que consiste, em primeiro lugar,

garantir que os dados de entrada de ambos os sistemas (real e modelado)

são equivalentes, para depois se validar os resultados obtidos.

65

14. A validação de um modelo de simulação não garante a credibilidade e a

aceitação dos resultados da simulação.

A validação de um modelo de simulação é uma condição necessária mas

não suficiente para a aceitação dos resultados da simulação. Isto porque a

validação tem que ser feita em relação aos objetivos do estudo de

simulação, comparando o modelo e o sistema como foram definidos. Se os

objetivos foram identificados incorretamente ou o sistema foi definido de

forma incorreta, o modelo poderá ser válido em relação a estas

especificações, contudo inválido com relação ao sistema real.

15. A precisão com que o problema foi formulado afeta grandemente a aceitação e a

credibilidade dos resultados da simulação.

Ainda segundo Balci, o objetivo maior da simulação não é apenas produzir a

solução para um problema, mas fornecer uma solução que tenha suficiente

credibilidade e aceitação e seja implementada pela equipe responsável por

tomadas de decisão. Também alega que a responsabilidade pela aceitação

e uso do modelo acaba recaindo principalmente sobre a equipe de

desenvolvimento e que esta aceitação é função da precisão da formulação

do modelo. Por sua vez, a formulação é função direta da definição do

problema, bem como da participação do usuário final na definição do

problema.

66

5 – Utilizando o Programa ARENA para modelar Sistemas Logísticos

Este capítulo é dedicado a apresentação do programa ARENA e a sua

aplicação na resolução de Sistemas Logísticos. Não pretende-se apresentar uma

manual do programa ARENA, pois com o “ software” já vem junto material suficiente

para seu aprendizado, mas os comando principais serão apresentados e serão

enunciados os principais sistemas logísticos que serão modelados.

5.1 – O programa ARENA

A construção do modelo dentro do ARENA é feita através dos elementos

disponibilizados nos templates. Estes elementos são denominados “comandos”, e

são de dois tipos distintos:

&RPDQGRV�GH�)OX[RJUDPD:

são usados para construir o fluxograma dentro da área de trabalho. Cada comando

pode ser repetidamente colocado quantas vezes se fizerem necessárias para a

construção do modelo. Possuem pontos de entrada e saída, usados para

estabelecer interconexões e criar o fluxo do processo. Um duplo clique neste módulo

abre uma janela que permite configurar as ações referentes a ele. Também é

possível editar estes dados na janela de planilha, que fica logo abaixo da área de

trabalho. A planilha apresentada irá mudar conforme forem selecionados diferentes

módulos. Exemplo: módulo Process. Os comandos encontram-se agrupados em “

templates”, que podem ser acessados utilizando-se as opções “ file” “template panel”

“ Attach” na barra de ferramentas.

&RPDQGRV�GH�'DGRV:

Process

0

67

apesar de aparecerem na janela do template, não são colocados na área de

trabalho. Ao serem selecionados, apresentam sua lista de dados na área de

planilha, onde podem ser editados, excluídos ou inseridas novas informações.

Exemplo: módulo Entity

É essencial sempre que o processo de simulação enunciado no capítulo 4 tenha

sido seguido e o modelo conceitual do sistema a ser resolvido tenha sido formulado

antes de partir-se para a codificação em ARENA.

Ao construir um fluxograma do modelo conceitual ou simplesmente enunciando-o, é

usado o ponto de vista da parte dinâmica do sistema, ou seja, aquilo que se

movimenta ou “passa” dentro do sistema. Por exemplo, em um processo de uma

linha de produção, este elemento é uma peça, se for um hospital, são os pacientes,

se for uma agência bancária, são os clientes. Essa parte que percorre o fluxo é

chamada de “entidade”, e o fluxograma representa a estrutura estática ou fixa do

sistema, assim como os processos de decisão e desvio correspondentes.

Retomando-se o problema do posto bancário com 2 caixas de atendimento, os

passos A, B, C, D do processo de simulação haviam sido cumpridos, obtendo-se o

seguinte modelo conceitual:

• geram-se os intervalos entre chegadas de clientes ao posto; • cada cliente entra em fila e aguarda a liberação de um dos dois caixas; • o cliente sai da fila e ocupa um caixa vazio; • gera-se o tempo de atendimento de cada cliente e o mesmo é atendido; • o cliente libera o caixa e sai do posto.

No passo “E” decidiu-se avaliar inicialmente a ocupação dos caixas e a fila única

que seria formada junto aos mesmos, avaliando-se o tempo e o comprimento médio

em fila.

No passo “ F “ uma primeira avaliação grosseira dos dados, sem que os

procedimentos recomendados no Anexo A fossem tomados, mostraram que as

distribuições de chegada e atendimento eram exponenciais, com média de 240

segundos para o intervalo entre chegadas e 400 segundos para o tempo de

atendimento individual em cada caixa.

O passo “ G” seria então a Condificação do Modelo em ARENA e para tanto alguns

novos conceitos devem ser conhecidos.

68

��Recursos e Entidades

O modelo de simulação em ARENA possui uma parte que representa a estrutura

disponível (máquinas, pessoas, empilhadeiras, postos de trabalho, etc.) e as regras

de trabalho (decisões, procedimentos, tempos de processo, etc) e outra parte

“circulante” (peças que passam pelo sistema, pessoas, etc.) .

Assim, um “modelo” de simulação é montado usando-se os elementos explicados na

seção anterior, criando um fluxograma que contém as regras de funcionamento do

sistema e os recursos que o constituem. Assim pode ser criada, por exemplo, uma

linha de produção ou uma agência bancária. Iniciando a simulação, o ARENA

introduz a parte circulante, representando as peças passando pela linha, ou pessoas

passando pela agência bancária. Estas partes circulantes recebem o nome de

“entidades”. Assim:

5HFXUVRV: representam a estrutura do sistema, como máquinas, postos de trabalho,

meios de transporte, pessoas que participam do processo e etc.;

(QWLGDGHV: são a parte circulante do modelo, que percorre a lógica estabelecida

pelo fluxograma, interagindo com os recursos.

��

No caso do exemplo do posto bancário, as entidades são os clientes que chegam ao

posto e se posicionam em fila. Os recursos serão os 2 caixas de atendimento.

�

Modelo: recursos, regras, decisões, etc.

Entidades: circulam pelo

modelo, interagindo

com os

69

��O Template Basic Process

O Template Basic Process reúne os elementos mais básicos para a

construção dos modelos com o ARENA. Os principais elementos estão descritos a

seguir:

&UHDWH�

Este módulo de fluxograma serve para introduzir as entidades no modelo segundo

intervalos de tempo definidos. Ao se clicar duas vezes sobre ele, é apresentada a

seguinte janela de opções:

Create

Descrição do módulo (sem acentuação)

Definição do tipo de entidade a ser criada

Definição do intervalo de tempo entre chegadas

Quantas entidades deverão chegar a cada vez

Quantidade máxima de entidades a serem inseridas por este módulo Create

Momento da primeira criação

70

�3URFHVV��

O módulo de fluxograma Process tem a função de representar qualquer ação dentro

do sistema que leve um tempo para ser cumprida. Também é capaz de representar

a ocupação de uma máquina ou operador (recurso). A janela de opções do módulo

Process está apresentada a seguir:

Process

Descrição da função do módulo

Escolha do tipo de Process

Ação a ser tomada pelo Process (ocupação de recurso, espera simples, etc.)

Tempo a ser dispendido no Processo

Definição da situação de custo associado ao processo

71

'HFLGH��

O módulo de fluxograma Decide representa uma ramificação no fluxo do processo.

Ele serve para alterar o rumo das entidades baseado em uma condição do sistema

ou de um percentual probabilístico. Sua janela de opções é esta:

'LVSRVH��

Este módulo de fluxograma tem função inversa à do módulo Create. Ele tem a

função de retirar as entidades do sistema. Um duplo clique sobre ele abre a seguinte

janela de opções:

DecideTrue

False


Tipo de decisão (por condição ou probabilidade)

Condição (ou probabilidade) a ser satisfeita para que ocorra o desvio

Dispose

Ativa coleta de estatísticas sobre as entidades


72

(QWLW\

�O módulo de dados Entity reúne as definições e parâmetros referentes a todos os

tipos de entidades usados pelo modelo. A entrada de dados é realizada através da

área de planilha ou de uma caixa de diálogo. Para abrir a caixa de diálogo para um

módulo de dados, clique com o botão direito sobre a planilha e escolha a opção “Edit

via Dialog”. As opções de entrada para a caixa de diálogo de Entity estão explicadas

abaixo:

Nome do tipo de entidade

Nome da figura usada para representar a entidade

Valores de custo para este tipo de entidade em diferentes situações.

73

5HVRXUFH

�O módulo de dados Resource relaciona todos os recursos usados no modelo.

Por recurso, entende-se uma estrutura que será usada pela entidade, a qual irá

despender uma certa quantidade de tempo neste processo. Um recurso, então,

poderia ser uma máquina onde a peça sofre um processo, um caixa bancário que

atende a um cliente ou uma mesa de cirurgia por onde passa o paciente. Do mesmo

modo que o módulo Entity, seus dados podem ser editados pela planilha ou pela

caixa de diálogo. As opções de entrada para a caixa de diálogo de Resource estão

explicadas abaixo:

Nome do recurso

Tipo de recurso (capacidade ou schedule)

Capacidade ou schedule correspondente

Informações sobre custo neste recurso

Nome do conjunto de estados usado por este recurso

Falhas programadas para este recurso

74

5.1.3 -Tempo de Simulação e Parâmetros

Os estudos de simulação geralmente são feitos em um período limitado de

tempo ou um conjunto de períodos idênticos. No ARENA, isto pode ser configurado

na janela “Replication Parameters, acessada através do menu RUN, opção SETUP,

e clicando na aba correspondente:

No ARENA, os intervalos de tempo simulados são chamados replicações. Por

exemplo: uma simulação que objetiva coletar estatísticas diárias de um

processo durante uma semana, deve ser configurado para rodar 7 replicações

de um dia cada uma.

Número de intervalos de tempo a serem simulados

Tempo de preparação do sistema ou aquecimento

Duração de cada processamento do modelo

Condição para término da simulação

Opções de inicialização entre replicações (intervalos de tempo)

75

5.2 – Modelagem do Posto Bancário

A figura abaixo mostra a modelagem do posto bancário, em que foi usado o

comando CREATE, PROCESS e DISPOSE, além de alguns recursos de

visualização de resultados

clientes ao postochegadas de

intervalos entregeram se os

dos dois caixasliberacao de um

aguarda aentra em fila ecada cliente

sistemaatendido e sai do

depois de serLibera do caixa

Comando CREATE Comando PROCESSComando DISPOSE0

00

Tempo Espera medio

0 . 0 0No. medio de clientes em fila

0 . 0 0Ocupacao dos Caixas

0 . 0 0 0

Cada comando acima tem suas peculiaridades e devem ser preenchidos de acordo

com o sistema a ser resolvido.

A partir desse momento, o analista passará a utlizar intensamente o programa

ARENA, visando aprimorar os conceitos sobre o programa e permitindo que vários

sistemas logísticos, enunciados no próximo capítulo, possam ser modelados ao

longo do curso.

76

6 – Enunciados de Sistemas Logísticos a serem modelados em ARENA

6.1 – Posto Bancário

A-) Avalie a capacidade de atendimento do Posto Bancário, aumentando a sua

demanda de 1 % em cada processamento e verificando os valores das filas e da

ocupação dos caixas. Parta de uma demanda de 1 cliente em média a cada 10

minutos até atingir o congestionamento do sistema.

B-) Codifique o modelo conceitual alterado do porto bancário:

• geram-se os intervalos entre chegadas de clientes ao posto; • cada cliente, dependendo se é comum ou idoso/gestante entra em uma das

filas em frente aos caixas fila e aguarda a liberação do caixa respectivo (20% dos clientes são idosos ou gestantes e dirigem-se a fila do caixa 1;

• o cliente sai da fila e ocupa um caixa vazio; • gera-se o tempo de atendimento de cada cliente, de acordo com o caixa que

estiver e o mesmo é atendido ( quando o cliente é idoso ou gestante o tempo de atendimento do caixa é 30 % mais lento);


6.2 – Carregamento de Caminhões

Uma empresa deseja analisar sua área de carga de caminhões. O processo é

dividido em duas partes: carregamento e amarração da carga. A área possui 2

(duas) baias para atender um caminhão. Na primeira baia é feito o carregamento

que tem distribuição normal com média de 20 minutos e desvio padrão de 2.1

minutos. Em seguida caso a segunda baia esteja livre o caminhão desloca-se em 1

minuto para o lá onde é feita a amarração, que tem distribuição triangular com

mínimo de 10, média de 20 e máximo de 27 minutos. Se a segunda baia estiver

ocupada por algum caminhão em processo de amarração, esta operação é feita na

primeira baia. Finalizada a amarração o caminhão é liberado para seguir viagem. A

chegada de caminhões é regida por uma distribuição normal com média de 25

minutos e desvio padrão de 1,8 minutos. Monte o modelo conceitual desse

problema e codifique-o em ARENA. Sugira as medidas de desempenho necessárias.

77

6.3 – Terminal Marítimo Importador

Pretende-se implantar um terminal marítimo importador de trigo com 2 berços

de atracação, sendo um berço para navios menores que 20.000 t e outro para

navios até 80.000 t. Os berços estarão dispostos lado a lado no mesmo píer, de tal

forma que o único carregador de navio possa atender tanto um berço como o outro

berço, bastando para tanto girar a lança carregadora. Esse tipo de operação é

interrompida sempre que ocorrer chuvas. Assuma as distribuições de chegada de

navios (1 a cada 3 dias com distribuição exponencial, sendo 50% de navios de

80000 t e 50% de navios de 20000t), de carregamento ( taxa de carregamento de

12000 t/dia com distribuição normal e coeficiente de variação de 30%), de intervalo

entre chuvas e tempo de chuva (1 ocorrência em média a cada 10 dias com

distribuição exponencial e com duração normal de média 10 horas e desvio de 3

horas).

Pede-se o modelo conceitual desse sistema e a codificação em ARENA.

Mostre o tempo médio em fila dos navios e do índice de congestionamento do

terminal.

6.4 – Dimensionamento de um Tanque

Considere um terminal ferroviário para recebimento de combustíveis de 1 ramal

ferroviário e com chegadas exponenciais de trens com carga variando segundo uma

distribuição discreta com 25% com 24000 ton, 50% com 30.000 toneladas e 25 %

com 40000 toneladas. A taxa de descarga dos trens é uma normal com média 1500

ton/hora e desvio padrão de 15 % do valor da média. Admita que dutos enviem o

petróleo para as distribuidoras segundo uma normal de 500 toneladas e desvio

padrão de 40 % da média, a cada hora. Estando o sistema em equilíbrio, determine

o tamanho máximo do tanque e o estoque inicial necessário para que somente em

5% do tempo o nível chegue a zero e 5% chegue no máximo da armazenagem

permissível.

78

6.5 – Dimensionamento de Estoques - 1

Um sistema clássico de gestão de estoques considera a reposição de estoques

em lotes fixos, com tempo variável. Sendo os intervalos entre pedidos regidos

por uma distribuição exponencial de média 2 horas e o tempo de ressupimento

de um lote com distribuição normal de média 2 dias e desvio de 1 dia, determine

o estoque inicial de produtos, o lote médio de ressuprimento e o intervalo médio

entre ressuprimentos, para que o estoque não atinja valor zero em mais que 5 %

do tempo. Mostre o valor médio do estoque na modelagem.

6.6 – Dimensionamento de Estoques - 2

Um sistema clássico de gestão de estoques considera a reposição de estoques

em tempos fixos, com tamanho de lote variável. Sendo os intervalos entre

pedidos regidos por uma distribuição exponencial de média 2 horas e o tempo de

ressupimento de um lote com distribuição normal de média 2 dias e desvio de 1

dia, determine o estoque inicial de produtos e o lote de ressuprimento,

considerando que sempre a cada 5 dias é feito um pedido para o fornecedor.

Considere que o estoque não deve chegar ao valor zero em mais que 5 % do

tempo. Mostre o valor médio do estoque na modelagem.

�6.7 – Balanceamento de uma Linha de Manufatura

�A chegada de pedidos de manufatura de um determinado produto segue um

distribuição exponencial com média de 20 minutos. Quando esse pedido chega

ele é desdobrado 3 (três) partes, sendo que cada um deles segue um

determinado roteiro para a manufatura de partes daquele produto final. As

79

manufaturas são todas exponenciais e da parte A tem média de 40 minutos, da

parte B tem média de 60 minutos e da parte C tem média de 80 minutos.

Pretende-se dimensionar o número de máquina necessárias para a manufatura

de cada parte do produto final, de tal forma que o tempo médio de permanência

das partes no sistema sejam próximos e o a fila de espera dos pedidos não seja

maior que 2.

�6.8 – Análise de um Provedor de Internet

Modele um provedor de INTERNET onde:

a mensagem chega e multiplica-se por tantas quanto forem os endereços da lista

que a mesma contém e pode ser de uma única mensagem se a original não foi

dirigida a uma lista ou até 5 (cinco), aguarda em fila até ser atendida pelo

processador (aspectos sobre a disciplina da fila serão comentados adiante) A

probabilidade de ser mensagem única é de 40 % e as de outros tamanhos com

probabilidade de 15% cada uma;

Quando a primeira mensagem da fila acessa o processador desocupado, há a

possibilidade dela:

ser atendida, ou seja ela é remetida ao destinatário (60% de chance);

não ser atendida pois o servidor de destino não foi naquele momento localizado

(mensagem postergada) e, portanto, ela volta para fila para ser atendida

posteriormente (serão discutidos adiante em que momento a mensagem volta, em

que posição da fila ela volta e onde ela fica armazenada até voltar para a fila) (30 %

de chance);

ser devolvida ao remetente pois, por exemplo, o servidor de destino não existe ou

não foi localizado (10 % de chance);

Finalmente, cabe ressaltar alguns aspectos gerais sobre o problema;

80

¾ tempo de atendimento é função do tamanho da mensagem (50% são pequenas, 30% são médias e 20 % são grandes) e o tempo é regido por uma distribuição uniforme com limites entre 10-20 para pequena, 15-30 para média e 25 a 50 para grande( tempos em milisegundos). O tempo de permanência da mensagem no “status” de postergada é de 60 segundos e a mesma volta a fila do provedor com alta priridade

¾ o tamanho da mensagem nada tem a ver com a sua multiplicação em função da lista;

¾ quando a mensagem chega ao sistema (há um só provedor mono usuário e as chegadas ocorrem 1 a cada 60 milisegundos), dependendo do seu tamanho “pequena” ou “grande”, ela pode receber uma prioridade de “alta” para “baixa” , respectivamente;

¾ da mesma forma, se a mensagem for desdobrada (multiplicada) em mais mensagens, esse lote poderia receber uma prioridade de “alta” para “baixa” para ocupar a fila de atendimento;

¾ o fato de ser enviada, postergada ou devolvida deve ser estudado para efeitos de modelagem com base numa séria de dados históricos que aponte a probabilidade da ocorrência de cada situação.

�6.9 – Dimensionamento de uma Frota de Caminhões

DESENVOLVA UM MODELO DE SIMULAÇÃO COM “N” CAMINHÕES QUE

CIRCULAM ENTRE UMA FÁBRICA E PORTO. TANTO NA FÁBRICA COMO NO

PORTO ESSES CAMINHÕES PASSAM POR UM PROCESSO DE PESAGEM NA

ENTRADA E NA SAÍDA, DEPOIS PELO PROCESSO DE CARREGAMENTO NA

FÁBRICA E DESCARGA NO PORTO. CALCULE QUANTA CARGA A FROTA

(VARIANDO DE 1 A N) PODE TRANSPORTAR POR MÊS, OS TEMPOS DE FILA

NO PORTO E NA FÁBRICA.

DADOS: TEMPO DE BALANÇA: NORMAL (10,3)

TEMPO DE CARREGAMENTO: TRIANGULAR (60,120,180)

81

NO. POSTOS DE CARGA NA FÁBRICA = 5

TEMPO DE DESCARREGAMENTO: UNIFORME (240, 360)

NO. POSTOS DE DESCARGA NO PORTO = 7

TEMPO DE IDA = TEMPO DE VOLTA = 240

CAPACIDADE DE CADA CAMINHÃO = 25 TON.

O CUSTO VARIÁVEL POR VIAGEM É R$ 50,00/HORA EM

MOVIMENTO

O CUSTO FIXO DO CAMINHÃO POR MÊS É DE R$ 5.000,00

PENALIZE O TEMPO EM FILA COM BASE NO CUSTO FIXO.

TEMPOS EM MINUTOS

6.10 – Análise de um Setor de Atendimento

UM SETOR DE ATENDIMENTO PRESTA SERVIÇOS AOS USUÁRIOS, QUE EM

80 % DOS CASOS SÃO RESOLVIDOS NA HORA COM DISTRIBUIÇÃO NORMAL

(30, 10) MINUTOS. NOS OUTROS 20 % DOS CASOS, O SERVIÇO É

ENCAMINHADO PARA OUTRO SETOR E OS USUÁRIOS DEVEM AGUARDAR

POR CERCA DE 3 HORAS (COM DISTRIBUIÇÃO EXPONENCIAL) PARA

VOLTAREM COM PRIORIDADE PARA SEREM ATENDIDOS. INICIALMENTE

PREVIU-SE QUE 5 FUNCIONÁRIOS PODERIAM DAR CONTA DESSE SERVIÇO,

QUE DEVE RECEBER CERCA DE 12 PESSOAS POR HORA. CALCULE O

TEMPO DAS PESSOAS EM FILA, O TAMANHO NECESSÁRIO DA SALA DE

ESPERA, A OCUPAÇÃO DOS FUNCIONÁRIOS E QUANTAS PESSOAS SÃO

ATENDIDAS EM 8 HORAS.

82

6.11– Dimensionamento de Pessoal

�NO SETOR DE EMBALAMENTO CHEGAM PEÇAS COM INTERVALO DE 60

SEGUNDOS SEGUNDO UMA DISTRIBUIÇÃO NORMAL COM 20 % DE DESVIO.

ESSAS PEÇAS PODEM SER DIRECIONADAS PARA 2 LINHAS DE

EMBALAGENS, SENDO QUE A PRIMEIRA LINHA TEM “N” PESSOAS E CADA

PESSOA PROCESSA UMA PEÇA EM 400 SEGUNDOS CONFORME

EXPONENCIAL E A SEGUNDA LINHA TEM “M” PESSOAS E CADA UMA

PROCESSA UMA PEÇA EM 600 SEGUNDOS, CONFORME UMA UNIFORME

COM 30 % DE INTERVALO. PEDE-SE QUE UM MODELO SEJA ELABORADO

VISANDO DETERMINAR QUANTAS PESSOAS TRABALHAM EM CADA LINHA E

QUAL A PORCENTAGEM DE PEÇAS QUE DEVE SER DESVIADAS PARA CADA

LINHA, DE TAL FORMA QUE A OCUPAÇÃO DAS LINHAS SEJAM

PRATICAMENTE IGUAIS E NÃO SUPERIORES A 80%.

83

7 - Bibliografia

ARENA, “User’s Guide”, Systems Modelling Corporation, USA, 1996.

Balci, O., “Principles of Simulation Model Validation, Verification, and Testing”,

Transactions of the Society for Computer Simulation International”, Vol.14 No.

1, March 1997, 3-12.

Botter, R.C.; “Tratamento de Dados em Simulação Discreta”, Tese de Livre

Docência, EPUSP, 2002.

Gordon, G., “System Simulation”, Prentice-Hall, 2ª Edição, 1978.

Knepell, P. L. and Arangno, D. C., “Simulation Validation: A Confidence Assessment

Methodology”, IEEE Computer Society Press, Los Alamitos,

Mosef, Y , “Complex Simulation Systems” – Society of Computer Simulation – Ghent,

1997.

Nance, R. E., “A Tutorial View of Simulation Model Development”, Proceedings of the

Winter Simulation Conference, U.S.A., 1983, p 325-331.

Botter, D.A.; Paula, G. A.; Leite, J. G.; and Cordani, L. K., “Noções de Estatística

com Apoio Computacional”, Instituto de Matemática e Estatística da

Universidade de São Paulo, S.P, 1996.

Bussab, W.O., “Análise de Variância e de Regressão”, Atual Editora, São Paulo,

1988.

Bussab, W. O., Miazaki, E. S. e Andrade, D. F., “Introdução à Análise de

Agrupamentos”, 9º Simpósio de Probabilidade e Estatística, Instituto de

Matemática e Estatística da USP, São Paulo, 1990.

Scheffé, H., “The Analisys of Variance”, John Wiley & Sons, New York, 1959.

Kleinrock, L; 4XHXLQJ�6\VWHPV. Vol 1 e 2. Wiley, 1975.

Ross; $SSOLHG� 3UREDELOLW\� 0RGHOV�ZLWK� 2SWLPL]DWLRQ� $SSOLFDWLRQV. Holden-day,

1970.

84

$1(;2�$�±�7UDWDPHQWR�GH�'DGRV�HP�6LPXODomR�'LVFUHWD�

�� ,1752'8d2�

Nota-se que os autores que escrevem na área de simulação e filas não dedicam

espaço suficiente ou não desenvolvem adequadamente os tópicos relativos ao

tratamento de dados.

Por esse motivo, desenvolveu-se um procedimento simples e eficiente para que

alunos e outros interessados possam desde o início do desenvolvimento de um

projeto de simulação, percorrer o correto caminho do tratamento e análise de dados.

O procedimento que é apresentado neste texto, embora simples, porque reúne

conceitos e técnicas estatísticas conhecidas, preenche uma lacuna das literaturas

nacional e internacional, na área de simulação discreta.

Para tanto, com relação aos dados necessários para o desenvolvimento de um

modelo de simulação ou aplicação de Teoria de Filas, esse procedimento deverá,

nessa ordem:

a) Ordenar e analisar previamente a amostra de dados;

b) Descrever e comparar;

c) Limpar os dados discrepantes;

d) Pesquisar grupos existentes, separando-os ou agrupando-os;

e) Selecionar a distribuição de probabilidade conveniente.

Um síntese do procedimento é apresentada na Tabela 1 abaixo.

85

Tabela 1 - Síntese do procedimento proposto

3DVVR� 0HWRGRORJLD�3URJUDPD�8WLOL]DGRV� $QiOLVHV�1 – Ordenação dos

dados

Excel ou MINITAB Erros ou omissões de

preenchimento; campo de

variação dos dados

2 – Avaliação

Descritiva

Medidas de Posição e

Dispersão/MINITAB

Para cada variável

independentemente:

� Comparação da média com

a média aparada

� Comparação da média,

moda e mediana

� Comparação da amplitude

e intervalo entre quartis

� Avaliação do Coeficiente

de Variação

3 – Visualização Histogramas ou Gráfico de Barras,

Gráfico de Freqüência Acumulada,

Diagrama de Dispersão Medidas de

Associação/ MINITAB

Para cada variável

independentemente:

� Avaliar assimetria e

achatamento

� Avaliar concentrações de

dados nas classes de

freqüência.

Para pares de variáveis:

� Visualizar a associação e

calcular correlação linear.

86

Tabela 1 - Síntese do procedimento proposto (continuação)

4 – Limpeza de Dados Gráfico de Caixas, Discrepâncias

Bidimensionais/MINITAB

Para cada variável

independentemente:

� Consultar quem conhece o

processo e com base nos

pontos discrepantes

apontados pelo gráfico de

caixas, eliminá-los ou

mantê-los

Para pares de variáveis:

� Avaliar gráficos de

dispersão em busca de

pontos que induzem a

avaliações de associações

erradas

5 – Agrupamento Gráfico de Caixas, ANOVA e Análise de

Agrupamentos/MINITAB

Para os diversos fatores

existentes, associados a cada

variável:

� Verificar se os gráficos de

caixa por fator são

diferentes entre si ;

� Efetuar comparação de

médias pela ANOVA.

Para as diversas variáveis

associadas a cada elemento da

amostra:

� Proceder a uma Análise de

Agrupamento.

6 – Seleção da

Distribuição de

Gráfico de Probabilidades e Testes de

Aderência/ MINITAB ou INPUT

Para cada variável

independentemente:

87

Probabilidades ANALYSER � Buscar uma distribuição

teórica que seja aderente

aos dados “limpos” e

“agrupados” ou adotar a

distribuição empírica.

�� 352&(',0(172� 3$5$� 2� 75$7$0(172� '(� '$'26� (0�6,08/$d2�',6&5(7$�

Este capítulo apresenta o procedimento proposto para o tratamento de dados

em simulação discreta. Trata-se de uma seleção de técnicas e conceitos já

consagrados na Estatística, dispostos numa seqüência tal que auxilia o analista no

tratamento de dados para simulação discreta.

Os conceitos e técnicas estatísticas são apresentados, bem como sua

aplicação utilizando programa MINITAB. As referências bibliográficas para a

montagem que fundamentam o procedimento proposto foram: Scheffé(1959),

Peres(1986), Bussab(1988 e 1990) e Botter(1996).

Dados obtidos a partir de medição ou de bases de dados existentes

A prática de desenvolvimentos de modelos de simulação mostra que:

� Quem solicita o trabalho conhece bastante o problema real e os condicionantes

gerais do mesmo;

� Quem elabora o modelo de simulação, em geral, solicita uma grande massa de

dados, com informações sobre o problema a ser solucionado;

� As informações nem sempre estão disponíveis e, às vezes, nem foram coletadas

ou armazenadas em meios facilmente acessíveis.

Um exemplo disso, e que é freqüentemente enfrentado, é relativo à distribuição e

roteirização de cargas fracionadas. O solicitante conhece muito bem seus clientes,

88

os meios de transporte utilizados e seus volumes de vendas. No entanto, nem

sempre dispõe:

� dos endereços de seus clientes em meio magnético;

� dos volumes de vendas por cliente;

� do número de entregas efetuada por veículo, etc.

A obtenção dos dados necessários para a formulação e experimentação de um

modelo de simulação não é diferente e pode-se dispor de vários meios, destacando-

se a:

• Medição;

• Consulta a bancos de dados existentes;

• Consulta a informações externas ao ambiente onde o problema está inserido.

O procedimento de medição deve ser convenientemente planejado em termos de

como medir (contagem ou questionários), de como planejar o meio de medição

(conteúdo do questionário) e de como efetuar a amostragem. Embora a literatura

disponível seja farta no sentido de dimensionar o tamanho da amostra e planejar um

questionário, os problemas de erros nas medições e omissão de respostas sempre

serão enfrentados pelo analista.

A consulta a bancos de dados da empresa merece bastante cuidado,

especialmente devido ao tipo de variável coletada, como e quem preencheu os

dados digitados, entre outros. Os problemas mais comuns são:

• quem montou o banco de dados não montou um manual de instruções para

quem vai anotar os dados e depois inseri-los no Banco;

• pessoas de diferentes setores anotam esses dados e, ocorrendo dúvidas, os

dados não são anotados, podendo até mesmo ocorrer a anotação dos dados por

“estimativa” do valor que o processo resultar;

• erros no preenchimento de tabelas também são bastante comuns.

A consulta de dados em fontes externas ao ambiente do problema ocorre

geralmente com relação a dados macroeconômicos ou operações parecidas àquelas

que serão executadas. Os dados macroeconômicos devem sempre estar

acompanhados das premissas que embasaram sua coleta. Os dados de operações

89

semelhantes em outras empresas devem estar sempre associados a fatores que

permitam comparar os processos.

Diante desses cenários de obtenção de dados para simulação, depara-se o

analista com mais um problema: “Como retirar informações úteis da massa de

dados obtida ?”. A resposta será delineada na próxima seção.

Procedimento para o tratamento de dados

O processo de tratamento e análise de dados tem por objetivo facilitar e

viabilizar a geração de uma base de dados coerente, consistente, permitindo que as

distribuições e análises geradas a partir dos dados originais sejam transformadas em

informação útil a ser aplicada em modelos de simulação. Esse procedimento facilita

também que sejam identificados na base de dados os parâmetros que serão

relevantes para o estudo do modelo de simulação, bem como quais deles podem ser

desprezados sem prejuízo do resultado final.

O processo proposto pelo autor é composto pelas seguintes etapas:

• Ordenação dos Dados;

• Avaliação Descritiva;

• Visualização dos Dados;

• Limpeza dos Dados;

• Agrupamento;

• Seleção da Distribuição de Probabilidade.

2.1.1. Ordenação dos Dados

A etapa da ordenação pode, numa primeira leitura, parecer simplista, mas é

de fundamental importância para o analista, que, em geral, não gerou a base de

dados e não reconhece os limites das variáveis e parâmetros da mesma.

90

Nesta etapa, com a ordenação de cada variável presente nos dados, alguns

valores limites (os maiores e/ou os menores) já podem se apresentar como

discrepantes, tanto no formato quanto na ordem de grandeza. Como por exemplo,

encontrar num determinado campo reservado ao tempo de operação de um navio no

porto, um dado alfanumérico. Outro exemplo até mais comum, é encontrar valores

“zero” para esse mesmo tempo de operação.

Cabe sugerir ao analista que fique atento também ao não preenchimento de

dados. Por exemplo, um conjunto de dados que contenha além da coluna do tempo

de operação do navio no porto, outras quatro colunas com os tempos de atracação e

de desatracação, de inspeções e de paradas, pode apresentar linhas em que nem

todos os campos estão preenchidos. Esse fato prejudica uma análise de correlação

entre as variáveis, pois o analista deverá eliminar uma quantidade muito grande de

linhas do conjunto de dados.

Outra análise possível e recomendada nessa etapa é a busca por

informações duplicadas, como por exemplo, um mesmo número de registro de navio

com mais de um nome para designá-lo. Na área empresarial é comum achar o

mesmo nome de uma empresa com diversos números de CNPJ – “Cadastro

Nacional da Pessoa Jurídica” diferentes.

Para a execução dessa etapa, os dados podem ser ordenados utilizando-se o

programa EXCEL ou o próprio programa MINITAB.

2.1.2. Avaliação Descritiva

A segunda etapa é relacionada à Estatística Descritiva, disciplina amplamente

difundida não só em pesquisas acadêmicas, como também nas análises de dados

empresariais.

No entanto, nem sempre o analista utiliza todas as ferramentas de que a

estatística dispõe ou consegue avaliar os resultados eficientemente. Cabe ressaltar

que os programas de análise de dados que acompanham os simuladores, tais como

91

o INPUT ANALYSER do ARENA, não trazem todas as análise abaixo

recomendadas. São elas

• Medidas de Ordem (máximo e mínimo);

• Separatrizes ( Quartis, Descis e Pertencis);

• Medidas de Tendência Central (Média, Média Aparada, Mediana e Moda);

• Medidas de Dispersão (Amplitude, Intervalo Inter-Quartil, Variância, Desvio-

Padrão e Coeficiente de Variação).

2.2.2.1 - Medidas de ordem

�As medidas de ordem são obtidas a partir da ordenação do conjunto de

dados. Representa-se por [(1) a menor observação, [(2) a segunda menor e assim

sucessivamente até chegar em [(n), a maior observação.

Nesse contexto as medidas de posição mais simples são o valor mínimo

(min=[(1)) e máximo (max=[(n)) dos dados. Esse par de valores determina o

intervalo da reta que contém todos os dados.

As medidas de ordem já devem ter sido observadas pelo analista, quando na

etapa anterior, o conjunto de dados foi ordenado e dá uma primeira informação

sobre a magnitude de valores que cada variável poderá atingir.

2.2.2.1 - Separatrizes

�As separatizes separam valores da amostra ordenada em porcentagens de 25

% (Quartis), 10% (Decis) ou 1% (Percentis).

Considere um conjunto de dados ordenados relativo à quantidade de água

solicitada por plataformas de petróleo. Suponha que seja de interesse caracterizar

os pedidos de água que sejam excessivamente altos e, para isso, baseado nos

dados ordenados, define-se como pedidos altos aqueles que estão entre os 5% mais

altos, ou seja, se o seu valor supera pelo menos 95% dos outros pedidos. O pedido

que supera 95% dos demais é denominado de 95o percentil da distribuição dos

pedidos de água. Os percentis também são medidas de posição e define-se o x0

92

percentil, x ∈ [0,100] como o valor que supera x% da amostra ordenada; os 100 ,

200 , ..., 1000 percentis recebem os nomes de, respectivamente, 10 , 20 , ..., 100 decis,

250 , 500 , 750 e 1000 percentis são denominados de 10 , 20 e 30 quartis,

respectivamente.

Esse tipo de análise propicia ao analista dos dados um conhecimento inicial

do banco de dados.

2.2.2.3 - Média aritmética

Possivelmente, essa é a medida de tendência central mais conhecida.

Denomina-se PpGLD� DULWPpWLFD de um conjunto de observações ([1, [2, ..., xn) ao

valor:

Q[

[�� ∑== 1 .

A média aritmética pode ser interpretada como o ponto de equilíbrio do

conjunto de dados.

De um modo geral, tem-se que a média aritmética é bastante afetada por

valores distantes da massa de dados (valores discrepantes) e por distribuições

assimétricas. Além disso, só pode ser calculada para dados numéricos. No entanto,

é uma medida bastante divulgada e fácil de ser calculada.

2.2.2.4 - Média Aparada

A média aparada foi criada a partir da média aritmética, com o objetivo de

diminuir a influência de valores discrepantes sobre a média. Uma média aparada de

D% é obtida eliminando-se da amostra as D% observações mais baixas e as a%

mais altas. Um valor recomendado para o valor “a” é 3 ou 5.

Cabe ressaltar, que é muito importante comparar a média aritmética com a

média aparada. Valores muito diferentes das duas medidas indicam que valores

discrepantes nos extremos da amostra estão influenciando o resultado da média

aritmética.

93

2.2.2.5 – Mediana

Ao contrário da média, seu cálculo depende apenas da ordenação dos dados.

A mediana é o número que ocupa a posição central dos dados ordenados.

A mediana é uma medida que, ao contrário da média, é pouco influenciada

por valores discrepantes e sofre uma influência menor de observações extremas em

distribuições assimétricas. A mediana é uma medida menos conhecida do que a

média e sua determinação é computacionalmente custosa, uma vez que requer o

ordenamento da amostra. Ressalta-se que a mediana, além de tendência central,

também é uma separatriz (segundo quartil).

2.2.2.6 - Moda (mo)

Define-se como moda a observação mais freqüente do conjunto de dados. Há

problemas com a utilização da moda quando se têm variáveis contínuas, que

assumem um grande número de valores distintos; nesses casos, é possível que

nenhum valor se repita ou que a repetição ocorra longe do centro dos dados. Para

esse tipo de variável, recomenda-se a utilização das outras medidas de posição

apresentadas.

Se a média, a mediana e a moda são muito diferentes, deve-se proceder a

uma análise mais detalhada dos dados (se possível com a visualização dos dados),

pois a distribuição poderá apresentar assimetrias e outras tendências

2.2.2.7 – Amplitude

A amplitude é talvez a mais simples das medidas, sendo definida como a

diferença entre o maior e o menor valor observado. Assim, para um conjunto de Q

valores [(1) , ... , [(n) , a amplitude, denotada por $ é definida como

)1()( [[$ � −=

94

A principal vantagem da amplitude é sua simplicidade de cálculo e fácil

entendimento, ao passo que a principal desvantagem é a instabilidade decorrente do

uso apenas dos valores extremos; isto é, caso exista a presença de um valor

aberrante, a dispersão para o conjunto todo será muito influenciada por tal valor.

2.2.2.8 - Intervalo Inter-Quartil

�O intervalo inter-quartil (,,4) é definido como a diferença entre o terceiro e o primeiro

quartis, isto é, denotando o primeiro quartil por 4 � e o terceiro por 4 , tem-se que

13 44,,4 −= .

Essa medida tende a eliminar os efeitos dos valores extremos que podem

estar presentes na amostra. Sua comparação direta com a amplitude reflete a

existência ou não de valores extremos que podem ser discrepantes. Uma

desvantagem desta medida é que não é tão intuitiva quanto a amplitude, além de

não ser popular. Da mesma forma que a amplitude, o ,,4 utiliza igualmente apenas

dois valores no seu cálculo.

2.2.2.9 - Variância e Desvio-Padrão

�A variância é uma medida bastante difundida e utilizada. Ela considera a

distância entre as observações e uma medida de tendência central, no caso, a

média. Assim, valores mais distantes da média contribuem para aumentar o valor da

variância, tornando-a conveniente para medir a dispersão. Como o interesse esta na

distância de cada observação para a média toma-se o quadrado das diferenças

entre cada observação e a média e considera-se uma média destes quadrados.

Algebricamente, para um conjunto de valores [ � , ..., [ ! , a variância denotada por σ2 é

definida como

2

1

22

1

2 11 [[Q�[�[Q"# #

"# # −=−= ∑∑

==V

Uma das desvantagens da variância é que sua unidade de medida é o

quadrado da unidade de medida dos dados originais. Para resolver este problema

95

define-se o desvio-padrão, dado por σ, que corresponde à raiz quadrada de σ2 , isto

é,

2

1

1 �[�[Q$% %∑=

−=

Deve ser notado que tanto a variância quanto o desvio-padrão fazem uso de

todos os elementos do conjunto de dados em seu cálculo. Dessa forma, valores

aberrantes têm seu efeito diluído no valor final da medida. Entretanto, ambas as

medidas estão sujeitas a instabilidades devido a tais valores. Apesar disso, uma das

principais vantagens da variância diz respeito à facilidade de manipulação algébrica.

Outra vantagem é que a variância aparece de forma natural nas derivações teóricas

para a estimação da média feita na inferência estatística, fornecendo assim

resultados importantes para o uso de testes estatísticos.

2.2.2.10 - Coeficiente de Variação

Uma outra medida importante para se estudar a variabilidade de um conjunto

de dados é o coeficiente de variação, definido por:

[&9 =

O coeficiente de variação fornece uma medida de variabilidade relativa à

média, isto é, ele permite a comparação (com relação à variabilidade) de diferentes

conjuntos de dados, medidos em diferentes unidades. Note-se que &9 é

adimensional. O coeficiente de variação não está definido quando a média for zero,

além disso, ele está sujeito à influência de observações discrepantes.

Um resultado imediato do CV é saber a proporção do desvio-padrão em

relação a média. Valores pequenos indicam amostras com pequena variabilidade.

Em função da análise dos resultados da estatística descritiva é possível iniciar o

entendimento do comportamento das variáveis, de modo a perceber a necessidade

de utilizar outras técnicas que sejam capazes de efetivamente definir o

comportamento de tais variáveis.

Para ilustrar o módulo do MINITAB, que calcula medidas descritivas,

considere uma coluna de dados intitulada “tempo”, que contenha os intervalos de

96

tempo entre as chegadas consecutivas de navios de carga geral em um porto, ao

longo de um ano.

O comando do MINITAB a ser utilizado para descrever os dados é

� %Describe 'tempo';

� Confidence 95%.

Descriptive Statistics

Variable N Mean Median Tr Mean StDev SE Mean

tempo 150 2,4206 2,4110 2,4184 0,2361 0,0193

Variable Min Max Q1 Q3

tempo 1,9308 3,0729 2,2651 2,5961 ,

Figura 2 - Resultados da análise descritiva fornecidos pelo programa MINITAB

A figura 1 acima mostra os resultados do programa MINITAB, em que N é o

número de observações, Mean é a média, Tr Mean (WULPPHG� PHDQ) é a média

aparada a 5%, StDev é o desvio-padrão, SE Mean é o erro-padrão, Min é o valor

mínimo, Max é o valor máximo, Q1 é o primeiro quartil e Q3 o terceiro. Além disso, o

MINITAB fornece o resumo gráfico apresentado na figura 2.

97

Figura 3 - Resumo gráfico apresentado pelo programa MINITAB

Nesse resumo há também um teste para verificar a normalidade dos dados,

um coeficiente de assimetria (6NHZQHVV), uma de medida de achatamento ou

curtose (.XUWRVLV) e intervalos de confiança para a média, o desvio-padrão e a

mediana.

Esse comando pode ser construído através da execução da seqüência de

opções do menu: STAT - BASIC STATISTICS - DESCRIPTIVE STATISTICS -

GRAPHS - GRAPHICAL SUMMARY.

2.1.3. Visualização dos Dados

A avaliação descritiva não é suficiente para a completa e perfeita análise dos

dados, pois efeitos como assimetria na distribuição amostral podem não ser notados

com medidas somente numéricas.

Deste modo, torna-se premente a visualização das variáveis em análise, que

pode ser feita por meio de:

3.12.92.72.52.32.11.9

95% Confidence Interval for Mu

2.482.432.38

95% Confidence Interval for Median

Variable: tempo

2.37703

0.21204

2.38248

Maximum3rd QuartileMedian1st QuartileMinimum

NKurtosisSkewnessVarianceStDevMean

P-Value:A-Squared:

2.47726

0.26630

2.45866

3.072882.596112.411032.265051.93081

150-2.4E-016.83E-025.57E-020.236072.42057

0.6870.266

95% Confidence Interval for Median

95% Confidence Interval for Sigma

95% Confidence Interval for Mu

Anderson-Darling Normality Test

Descriptive Statistics

98

� Histograma;

� Gráfico de freqüência acumulada

� Diagrama de dispersão e a correspondente medida de associação

2.2.3.1 - Histograma

O histograma é um gráfico composto por retângulos contíguos, cujas bases

representam os intervalos dos possíveis valores observados e as alturas

correspondentes ao número de valores observados nos intervalos, ou a freqüência

relativa ao total (porcentagens, por exemplo), ou ainda a uma outra medida

chamada GHQVLGDGH�GH�IUHT�rQFLD, definida de tal forma que a área dos retângulos

correspondem às freqüências relativas correspondentes.

2.2.3.1 - Gráfico de freqüência acumulada

Muitas vezes é interessante estudar quantos valores são menores ou iguais a

uma certa quantidade. Para tanto, é conveniente trabalhar-se com a IUHT�rQFLD�DFXPXODGD, que pode ser definida em termos absolutos ou acumulados. Em outras

palavras, estuda-se para uma dada quantidade [� , o número de observações

menores ou iguais a [� ou a porcentagem de observações menores ou iguais a [.

Estes valores são então dispostos em um diagrama, contendo nas abscissas os

possíveis valores para x��e nas ordenadas, as freqüências acumuladas.

2.2.3.3 - Diagrama de Dispersão e Medida de Associação

O diagrama de dispersão fornece informação sobre o comportamento

conjunto de duas variáveis. Suponha que para cada unidade de interesse tenham se

mensurado SDUHV de valores ([1, \1), ... , ([ ! , \ ! ). Em um diagrama de dispersão,

dispõem-se os valores [1, ... , [n na abscissa (ou ordenada) e os valores \1, ... , \ ! �na

ordenada (ou abscissa). Cada par medido anteriormente é então disposto na figura e

fornece uma idéia a respeito do comportamento conjunto das quantidades, podendo

fornecer informações a respeito de associação e possíveis relações funcionais que

descrevam o comportamento de uma quantidade em função da outra.

Através do diagrama de dispersão baseado em pares ([1,\1), ... , ([ ! ,\ ! ) pode-

se, muitas vezes, notar uma certa dependência ou correlação entre duas

99

quantidades de interesse. Caso esta relação seja OLQHDU, ela pode ser quantificada

através da FRUUHODomR�OLQHDU�GH�3HDUVRQ� denotada pela letra U e definida por

∑∑

∑

==

=

−−

−−= &

' '&' '

&

'''

\\[[

\\[[U

12

12

1

)()(

))((�

�2.1.4. Limpeza dos Dados

De posse das análises e resultados obtidos nas três etapas anteriores, é

possível ao analista compreender o comportamento das variáveis do banco de

dados, de modo a identificar aquelas que deverão compor o sistema a ser

modelado, colaborando, assim para o levantamento das possíveis correlações entre

as variáveis. No entanto, a base de dados pode encobrir valores discrepantes que

não deveriam ser considerados.

Esta quarta etapa, definida como limpeza de dados, refere-se à retirada dos

valores sem coerência ou consistência, bem como, àqueles se apresentarem

discrepantes com relação à aplicação da metodologia de gráfico de caixas ou “%R[�3ORW´.

Essa limpeza deve acontecer devido a alguns problemas comuns a vários

conjuntos de dados, muitas vezes acarretados por falta de cuidado no registro ou na

mensuração das variáveis. Para ilustrar esses problemas, podem ser citadas as

informações sobre o tempo gasto para realizar uma determinada viagem. O registro

desse tempo foi de responsabilidade do motorista que realizou o trajeto. Na

seqüência de dados mostrada na tabela 2 abaixo, apresenta-se a tabulação feita

pelo MINITAB.

Tabela 2 - Tabulação de dados de viagens (tempo em horas)

Tempo Freqüência

0 55

2 1

4 1

5 59

100

6 2

7 3

8 2

9 1

10 28

13 2

15 10

20 6

28 1

30 2

35 2

40 1

44 1

50 1

57 1

60 1

70 2

75 2

95 1

660 1

1245 1

N = 187

A simples tabulação da sequência de dados apresentada acima permite

detectar uma série de problemas nesse banco de dados, em sua maioria oriundos,

possivelmente, da falta de cuidado no fornecimento (ou registro) das informações.

Note-se que:

� em 55 viagens encontra-se registrado o tempo zero, que é um valor claramente

impossível. Nesse caso, o valor zero pode estar indicando que o tempo dessas

101

viagens não foi informado. Logo, essas informações devem ser excluídas de

futuras análises;

� percebe-se a existência de um número excessivo de viagens com tempo de

duração múltiplo de 5: 5, 10, 15 horas, etc. Existe uma tendência observada na

população em geral em arredondar valores numéricos para múltiplos de 5. Trata-

se de uma informação imprecisa, também motivada por falta de cuidado no

fornecimento da informação;

� repare-se que dois valores apresentam-se muito superiores aos demais (660 e

1245). Tecnicamente esses valores são denominados "discrepantes",

"aberrantes", ou "extremos", ou ainda, RXWOLHUV. A seguir, será feita uma discussão

sobre valores discrepantes e suas conseqüências em uma análise dos dados que

serão limpos com o emprego desses métodos.

Para estudar a influência de valores discrepantes em algumas medidas

descritivas vistas anteriormente, apresenta-se a tabela 3 abaixo. Na primeira coluna

têm-se as medidas avaliadas utilizando-se a amostra completa; na Segunda, após a

exclusão do valor 1245 e, a terceira, após a exclusão de 660 e 1245. Nota-se que a

média foi mais afetada pelos valores discrepantes do que a mediana e a média

aparada e que o desvio-padrão também sofre fortes alterações conforme vão se

excluindo esses valores.

Valores discrepantes são comuns em conjuntos de dados reais. Trata-se

muitas vezes de erros de medida, de transcrição, ou ainda, de digitação. Em outras

situações correspondem a observações raras de uma população de interesse. Por

exemplo, em uma amostra de alturas de uma população adulta, pode-se encontrar

alguém com 2,15m. Justificar a ocorrência de um valor suspeito que não é originado

por erro pode nos ajudar a compreender melhor o comportamento da variável e

levantar hipóteses a serem verificadas em estudos posteriores.

102

Tabela 3 - Medidas descritivas para a variável tempo

Medida Descritiva Amostra

Completa

Excluindo o valor

1245

Excluindo os

valores 1245 e 660

Média 27,5 18,2 13,3

Média aparada de 10% 11,1 10,7 10,3

Mediana 7,5 7,0 7,0

Desvio-padrão 121,8 58,8 16,4

Q1 5,0 5,0 5,0

Q3 14,5 13,0 13,0

N 132 131 130

Valores discrepantes podem alterar os resultados de uma análise estatística.

Logo, sempre que aparecerem na amostra, deve ser realizada uma investigação a

fim de descobrir a razão de sua ocorrência e, eventualmente, excluí-los do conjunto

de dados em futuras análises. A decisão de incorporar ou não um valor aberrante

em uma análise estatística deve ser tomada juntamente com o responsável pelos

dados. Em alguns casos trata-se de um dado correto que traz informação relevante

sobre o comportamento da variável, sendo importante sua utilização. Um

procedimento útil nessa situação é a realização de duas análises: uma incorporando

e outra excluindo o valor aberrante; se houver concordância nas conclusões das

análises, pode-se estar diante de um problema secundário. Caso contrário,

recomenda-se que novos dados sejam coletados a fim de certificar-se da conclusão

correta. Se isso não for possível, ou se ainda se mantiver a discordância, pode ser

interessante a divulgação das duas análises permitindo ao usuário da análise a

opção de considerar ou não aquele valor.

A utilização de critérios supostamente objetivos para a detecção de valores

discrepantes deve ser feita com cautela, pois não existe um único critério e nem um

que seja o "mais correto". Pontos considerados discrepantes por um método podem

não o sê-lo por outro, de forma que a decisão de classificar uma observação como

aberrante deve sempre ser feita pelo analista e embasada em fatos da área de

103

estudo relativa à variável. Esses critérios devem ser utilizados apenas para eleger

aquelas observações que merecem uma investigação mais cuidadosa. São eles:

� Gráfico de caixas;

� Valores discrepantes bidimensionais.

2.2.4.1 - Gráfico de Caixas

Entre as medidas de posição e dispersão foi vista a definição de quartis, em

particular a mediana, e do intervalo inter-quartil. Tais informações podem ser

dispostas no chamado JUiILFR�GH�FDL[DV, que consiste em um retângulo posicionado

em relação a um eixo, de tal forma que a base do retângulo corresponda ao primeiro

quartil, e o topo, ao terceiro quartil. Uma outra linha, paralela à base, é então traçada

na altura da mediana. Outros dois segmentos, um perpendicular ao topo, e outro à

base, são traçados até que se atinjam os valores máximo e mínimo, exceto quando

os comprimentos desses segmentos excedem a 1.5 vezes a altura do retângulo (que

corresponde ao intervalo inter-quartil). Nesse caso, valores que ultrapassem esses

limites, são identificados por asteriscos, e representam candidatos a valores

discrepantes. Note-se que o corpo do retângulo, determinado pelos primeiro e

terceiro quartis, corresponde ao intervalo que contém 50% das observações

centrais.

A figura 3 abaixo mostra o gráfico de caixas, referentes aos tempos de

viagem da tabela 2, sem os valores “zero”.

104

1000

500

0

Tem

poGráfico de caixas da variável TEMPO - Amostra Completa

foram excluídas as observações iguais a zero

Figura 4 - Gráfico de caixas para o tempo de viagem

Esses gráficos podem ser obtidos no MINITAB através dos seguintes

comandos:

Boxplot 'tempo'*'Tipo';

Box;

Symbol;

Outlier.

Utilizando-se o menu, os mesmos gráficos podem ser obtidos através da

seguinte seqüência de opções: GRAPH - BOXPLOT.

Nota-se claramente que os valores extremos inferiores e superiores marcados

com estão, a princípio, fora do comportamento amostral e podem ser excluídos.

Trata-se de valores que se encontram muito distantes da massa de dados.

Um método objetivo para a detecção de pontos suspeitos baseia-se no gráfico de

caixas. Considera-se como valores suspeitos, aqueles que estiverem a mais de 1,5

,,4 acima do 3o quartil ou abaixo do 1o quartil. Esse critério foi construído para ser

105

utilizado em um certo tipo de distribuição simétrica. No entanto, pode ser utilizado

com cautela em distribuições não muito assimétricas.

Na figura 4, apresenta-se o gráfico de caixas da variável tempo, omitindo os

valores discrepantes. Note-se que ainda há vários pontos destacados no gráfico.

Esses pontos seriam, em princípio, possíveis valores discrepantes. Contudo, eles

podem ter ocorrido como conseqüência de uma alta assimetria dos dados e, nesse

caso, não seriam valores estranhos à amostra. A decisão final sobre a natureza

desses pontos deve ser tomada por alguém que conheça essa variável e saiba fazer

tal julgamento.

100

90

80

70

60

50

40

30

20

10

0

Tem

po

Gráfico de caixas da variável TEMPOomitindo os valores 1245 e 660

foram excluídas as observações iguais a zero

Figura 5 - Gráfico de caixas da variável tempo

2.2.4.2 - Valores discrepantes bidimensionais

Como no caso unidimensional, pode haver a ocorrência de valores discrepantes

denominados valores discrepantes ("RXWOLHUV") bidimensionais. Define-se uma

observação discrepante como um dado que apresenta um comportamento

inesperado e que, em geral, encontra-se muito distante da massa de dados. A

mesma definição aplica-se ao caso bidimensional, só que agora algumas situações

curiosas podem acontecer. Na figura 5 apresenta-se um diagrama de dispersão

106

construído para o estudo da associação entre duas variáveis. É importante notar a

existência de uma forte associação linear positiva.

10 9 8 7 6 5 4 3 2 1 0

8

7

6

5

4

3

2

X

Y

R-Sq = 0.993Y = 1.76247 + 0.593284X

Regression Plot

Figura 6 - Diagrama de dispersão

Nas figuras 6 e 7, adicionaram-se alguns pontos ao gráfico da figura 5 acima

e classificaram-se esses pontos quanto a serem discrepantes bidimensionais ou

não.

Na figura 6, foi acrescentado um ponto que é aberrante unidimensional

quando se considera apenas a variável X; contudo, esse ponto não é aberrante

unidimensional ao se considerar apenas a variável Y; por outro lado, é um valor

aberrante bidimensional quando se consideram conjuntamente as variáveis X e Y.

Note-se que a posição ocupada por esse ponto é completamente inesperada,

quando se considera o restante dos dados.

A figura 7 é semelhante à figura 5, exceto pelo fato do ponto adicionado ser

aberrante unidimensional apenas em Y.

107

A figura 8 ilustra um valor aberrante unidimensional, tanto em X como em Y,

que também é aberrante bidimensional.

1510 5 0

8

7

6

5

4

3

2

X

Y

R-Sq = 0.182Y = 3.62498 + 0.191149X

Regression Plot

Figura 7 - Exemplo de um ponto que é discrepante em X, não é em Y e é

bidimensional

10 9 8 7 6 5 4 3 2 1 0

15

10

5

X

Y

R-Sq = 0.026Y = 4.97996 + 0.183785X

Regression Plot

108

Figura 8 - Exemplo de um ponto que é discrepante em Y, não é em X e é

bidimensional

1510 5 0

25

20

15

10

5

0

X

Y

R-Sq = 0.760Y = -1.72308 + 1.34585X

Regression Plot

Figura 9 - Exemplo de um ponto que é discrepante em X, em Y e é bidimensional

Na figura 9, adicionou-se um ponto que não é aberrante unidimensional, mas

é aberrante bidimensional.

10 9 8 7 6 5 4 3 2 1 0

8

7

6

5

4

3

2

X

Y

R-Sq = 0.585Y = 2.20055 + 0.453895X

Regression Plot

109

Figura 10 - Exemplo de um ponto que não é discrepante em X, não é em Y e é

bidimensional

A figura 10, por sua vez, ilustra uma situação em que foi adicionado um ponto

que é aberrante unidimensional em X e em Y, mas não é aberrante bidimensional,

uma vez que sua localização não é inesperada ao se considerar a variação

simultânea de X e Y.

2010 0

12

7

2

X

Y

R-Sq = 0.997Y = 1.91167 + 0.563024X

Regression Plot

Figura 11 - Exemplo de um ponto que é discrepante em X, é em Y e não é

bidimensional

O ponto inserido na 11 é aquele localizado no canto superior direito, fora do

campo das variáveis X e Y.

Podem-se observar, nas figuras 11 e 12, os possíveis efeitos de valores

discrepantes bidimensionais.

110

10 9 8 7 6 5 4 3 2 1 0

1.1

1.0

0.9

X

y‘

R-Sq = 0.000Y = 1 + 3.59E-17X

Regression Plot

Figura 12 - Diagrama de dispersão com duas variáveis não associadas

1510 5 0

6

5

4

3

2

1

0

X

y‘

R-Sq = 0.515Y = -3.7E-02 + 0.237352X

Regression Plot

Figura 13 - Associação induzida com a introdução de um valor aberrante

Em resumo, pontos discrepantes bidimensionais alteram o coeficiente de

correlação (nos gráficos é apresentado o quadrado desse coeficiente - R-sq) e a

equação da reta ajustada por mínimos quadrados (regressão linear simples). Na

presença de um valor aberrante bidimensional, pode-se não detectar numericamente

uma associação que existe de fato; ou ainda, o inverso também pode ocorrer, em

que se tem um caso com uma associação fraca e, numericamente, ela surge como

forte devido à presença desse tipo de ponto.

111

Por esse motivo esse método de investigação de pontos discrepantes

bidimensionais é imprescindível em qualquer análise de dados.

2.1.5. Agrupamento dos Dados

Nessa quinta etapa estabelecida como Agrupamento, deve se proceder com a

aplicação dos conceitos de Análise de Agrupamentos - “&OXVWHU� $QDO\VLV”, bem

como a avaliação destes através da análise de variância.

A investigação da existência de grupos dentro dos dados amostrais coletados

pode ser feita das seguintes formas:

� Investigação por meio de gráfico de caixas;

� Análise de variância;

� Análise de agrupamentos.

2.2.5.1 - Investigação por meio de gráfico de caixas

A figura 13 abaixo mostra três gráficos de caixas referentes aos intervalos de

tempo entre chegadas para três tipos de navios em um porto. Note-se que se

visualizam facilmente as diferenças no comportamento dos tempos para os

diferentes tipos. Para o tipo contêiner, várias observações apresentam

comportamento diferente das demais, caracterizando, talvez, uma distribuição

assimétrica. Nesse tipo, encontra-se a maior variabilidade, seguido do tipo

refrigerado. Navios tipo carga geral apresentam a menor variabilidade. Os intervalos

entre as chegadas de navios refrigerados tendem a ser maiores do que para os

outros dois tipos.

112

RefrigeradoCarga GeralConteiner

9

8

7

6

5

4

3

2

1

0

Tipo

tem

po

Figura 14 - Gráfico de caixas para o tempo entre as chegadas de três tipos de navios

��

113

2.2.5.2 - Análise de Variância

A análise de variância é um teste de hipóteses estatístico utilizado para

fornecer evidências objetivas em favor ou contra suspeitas que se tem em relação às

características de uma população. O teste de hipótese é baseado em uma estrutura

bem definida, que faz uso de duas hipóteses, denominadas KLSyWHVH� QXOD�(usualmente representada por Ho) e KLSyWHVH�DOWHUQDWLYD�(H1).

O procedimento que se define a seguir é desenvolvido a fim de que a

probabilidade de ocorrência para o erro tipo I (rejeitar Ho quando na verdade ela é

verdadeira) seja controlada. Usualmente utilizamos a seguinte notação:

α = probabilidade de ocorrer um erro do tipo I

β = probabilidade de ocorrer um erro do tipo II

A probabilidade de erro tipo I também é conhecida como nível de significância

do teste. Obviamente desejar-se-LD� WHU� DPERV� RV� HUURV� � H� � DVVXPLQGR� R�PHQRU�valor possível. Entretanto, é impossível minimizar ambos ao mesmo tempo (a menos

que possamos aumentar o tamanho da amostra indefinidamente).

As etapas de um teste de hipóteses paramétrico são:

1. Definir Ho e H1;

2. Definir um estimador para o parâmetro que está sendo testado, e sua

correspondente distribuição de probabilidades;

3. Supondo Ho verdadeira, calcular a probabilidade de se obter um valor para o

estimador tão ou mais desfavorável à hipótese nula do que o fornecido pela

amostra. Este valor, usualmente denotado por p, é denominado nível descritivo

(ou em inglês, S�YDOXH);

4. Fixar um valor para o nível de significância α. Se o nível descritivo for inferior a

este valor, rejeitar a hipótese Ho; caso contrário, aceitá-la.

Visto que devem existir nos dados a identificação de pelo menos um fator

para cada dado amostral, que no caso do exemplo acima é o tipo de navio, pode-se

114

utilizar a ANOVA – Análise de Variância, para testar se, por exemplo, as médias

amostrais dos grupos identificados pelo gráfico de caixas da figura 13 podem ser

consideradas iguais. Alguns requisitos básicos para aplicação da ANOVA a casos

como esses referem-se à igualdade entre variâncias nos conjuntos a serem

testados. Na prática, isso nem sempre acontece, mas Scheffé(1958) admite que se

a razão entre a maior e a menor variância amostral for menor que 5 (cinco), a

ANOVA pode ser aplicada sem maiores problemas.

A figura 14 abaixo indica os resultados do programa MINITAB da ANOVA

aplicada aos dados de intervalo entre chegadas consecutivas de três tipos de

navios, mostrados na figura 13.

É interessante ressaltar que os programas de análise estatística como o

MINITAB, já informam o nível descritivo “p”, eliminando a necessidade de se

consultar a tabela da estatística F-Snedecor. No exemplo acima, o nível “p” é zero, o

que indica que o valor Fcalculado está muito à direita da distribuição, ou seja, rejeita-se

a hipótese de igualdade de médias dos intervalos entre chegadas dos três navios e,

portanto, esse processo de chegadas deveria ser modelado separadamente para

cada tipo de navio considerado. O MINITAB mostra também o teste de Tukey, que

compara duas a duas as amostras, procurando igualdade de média entre os pares.

Esse teste facilita a identificação de conjuntos de dados de tipos a priori

considerados diferentes, que poderiam ser agrupados.

115

Figura 15 - Análise de variância das médias de intervalo entre chegadas de consumo

de três tipos de navios.

2QH�:D\�$QDO\VLV�RI�9DULDQFH��Analysis of Variance on ,17(59$/2B&+(*�Source DF SS MS )� p

C26 8 3.386E+11 4.232E+10 �� 0.000

Error 180 1.192E+12 6.622E+09

Total 188 1.531E+12

Individual 95% CIs For Mean

Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+-----

1 23 1,0800 1,09000 (-----*-----)

2 20 2,4000 0,6000 (-*-)

3 25 7,2000 3,4000 (---*---)

Tukey's pairwise comparisons

Family error rate = 0.0500

Individual error rate = 0.00197

&ULWLFDO�YDOXH� ��

116

2.2.5.3 - Análise de Agrupamentos (&OXVWHUV�$QDO\VLV)

Está técnica descritiva é aplicada quando o analista quer agrupar elementos,

que são representados por diversas variáveis. O agrupamento, como será visto

adiante, depende da escolha das variáveis corretas para a aplicação do método.

Por exemplo, considere nove terminais de contêineres, representados pelo

volume médio mensal movimentado de contêineres (T.E.U. – Twenty Equivalent

Units) e pela área física disponível para recepção, movimentação e armazenagem

de contêineres (em metros quadrados), que precisam ser agrupados visando

possibilitar a redução do número de tipos de terminais a serem modelados e

simulados, conforme mostrado na tabela 4.

Tabela 4 - Dados de nove terminais de contêineres

Terminal Volume de contêineres

movimentado por mês (T.E.U.)

Área disponível (m2)

A 10000 40000

B 5800 12000

C 3000 15000

D 12000 19000

E 8500 30000

F 4200 8000

G 6000 18500

H 2800 9000

I 7000 25000

Média 6588,9 19611,1

Desvio-Padrão 3135,5 10493,4

As variáveis escolhidas para o agrupamento dos nove terminais de

contêineres podem não ser as mais adequadas, o que levaria o analista a procurar

outras variáveis mais significativas e aplicar esse método novamente.

117

Visto que o número de contêineres e a área não têm a mesma unidade, cabe

padronizar os dados, subtraindo-se a média e dividindo-se o resultado pelo desvio-

padrão, conforme mostra a tabela 5.

Tabela 5 - Dados padronizados dos nove terminais de contêineres

Terminal Volume de Contêineres Área

A 1,09 1,94

B -0,25 -0,73

C -1,14 -0,44

D 1,73 -0,06

E 0,61 0,99

F -0,76 -1,11

G -0,19 -0,11

H -1,21 -1,01

I 0,13 0,51

A partir da tabela 5 correspondente aos dados padronizados, pode-se montar

uma matriz com as distâncias euclidianas entre cada terminal, com base no volume

de contêineres e a área. A tabela 6 mostra parte da matriz das distâncias, em que foi

eliminada uma linha e uma coluna para não aparecerem as distâncias entre os

mesmos terminais.

118

Tabela 6 - Distâncias euclidianas entre os nove terminais

Terminais A B C D E F G H

B 2,99

C 3,27 0,94

D 2,10 2,09 2,90

E 1,07 1,92 2,26 1,53

F 3,57 0,64 0,77 2,70 2,51

G 2,41 0,62 1,01 1,91 1,36 1,15

H 3,74 1,00 0,58 3,09 2,70 �� 1,36

I 1,72 1,30 1,59 1,69 0,68 1,85 0,70 2,03

A partir da tabela 6, a aplicação do método é muito simples. Escolhe-se a

menor distância na tabela 6 e agrupam-se os elementos. Na tabela 6, a menor

distância é 0,46, indicando que um grupo será formado pelos terminais F e G.

Uma nova tabela de distâncias euclidianas deve ser montada, reduzindo-se

uma coluna e uma linha. A distância entre o novo grupo FG e cada um dos outros

terminais “i” é a média da distância F - ”i” e a distância G – “i”s. Os resultados são

mostrados na tabela 7.

Tabela 7 - Distâncias euclidianas entre os oito terminais mais o grupo FH

Terminais A B C D E G FH

B 2,99

C 3,27 0,94

D 2,10 2,09 2,90

E 1,07 1,92 2,26 1,53

G 2,41 0,62 1,01 1,91 1,36

FH 3,65 0,82 0,67 2,89 2,60 1,26

I 1,72 1,30 1,59 1,69 0,68 0,70 1,94

119

Observação: As distâncias entre os terminais não agrupados permanecem as

mesmas. A distância FH e o terminal A, por exemplo, é igual à média entre as

distâncias F-A e H-A, mostradas na tabela 6.

A partir daí, o procedimento é repetido até que, no limite, dois grupos de

terminais sejam formados, conforme mostrado na tabela 8.

Tabela 8 - Aplicação do procedimento de agrupamento até atingir dois grupos

Terminais/grupos A B C D E G FH

B 2,99

C 3,27 0,94

D 2,10 2,09 2,90

E 1,07 1,92 2,26 1,53

G 2,41 �� 1,01 1,91 1,36

FH 3,65 0,82 0,67 2,89 2,60 1,26

I 1,72 1,30 1,59 1,69 0,68 0,70 1,94

Segunda Redução

Terminais/grupos A C D E GB FH

C 3,27

D 2,10 2,90

E 1,07 2,26 1,53

GB 2,70 0,98 2,00 1,64

FH 3,65 �� 2,89 2,60 1,04

I 1,72 1,59 1,69 0,68 0,70 1,94

120

Terceira Redução

Terminais/grupos A D E GB FHC

D 2,10

E 1,07 1,53

GB 2,70 2,00 1,64

FHC 3,46 2,89 2,43 1,01

I 1,72 1,69 �� 0,70 1,77

Quarta Redução

Terminais/grupos A D GB FHC

D 2,10

GB 2,70 2,00

FHC 3,46 2,89 ��

IE 1,58 1,61 1,17 2,10

Quinta Redução

Terminais/grupos A D FHCGB

D 2,10

FHCGB 2,40 2,45

IE �� 1,61 1,63

Tabela 8 - Aplicação do procedimento de agrupamento até atingir dois

grupos (continuação)

Sexta Redução

Terminais/grupos D FHCGB

FHCGB 2,45

IEA �� 2,02

121

Sétima e Última Redução

Terminais/grupos FHCGB

IEAD ��

A tabela 8 acima mostra em cinza o menor valor do parâmetro de escolha

para agrupamento, que é a menor distância entre grupos. Este parâmetro aumenta

de valor de redução para redução.

Se fosse adotado um critério de limite máximo para esse parâmetro, a

redução poderia ser interrompida antes que os dois últimos grupos fossem

formados. Outra opção é observar a variação do parâmetro entre reduções, ou seja,

se, de uma redução para outra, o valor da distância aumentou demasiadamente,

indica-se que o novo grupo está muito distante de qualquer outro anteriormente

montado. Um exemplo simples que ilustra essa situação, é de dez elementos,

agrupados em cinco conjuntos muito distantes entre si, cada um com dois elementos

muito próximos entre si. O método agruparia os elementos, com pequenos valores

de distâncias, em até cinco grupos. Do quinto para o sexto, a distância aumentaria

muito, pois implicaria tentar juntar dois grupos que de fato estariam muito distantes.

Cabe ressaltar novamente que, se outras variáveis, como por exemplo, o

tempo médio de carga e descarga de navios, fossem consideradas, elas levariam a

outro tipo de agrupamento. É possível também considerar mais de duas variáveis e,

para tanto, o conceito de distância euclidiana deverá ser generalizado para um

espaço de dimensão “n”, em que “n” é o número de variáveis analisadas.

Bussab (1990) mostra mais detalhes sobre esse método e apresenta

diferentes formas de recalcular as distâncias entre um grupo formado e os

remanescentes, para se proceder à redução da matriz de distâncias.

2.1.6. Seleção da Distribuição de Probabilidade

Na sexta e última etapa pode-se chegar às distribuições de probabilidade que

efetivamente definem o comportamento das variáveis em análise que serão

inseridas no modelo de simulação.

122

Além dos clássicos testes de aderência, apresenta-se também um método

gráfico.

Nos problemas de fila e de simulação é necessário caracterizar-se os

processos de chegada e atendimento dos elementos, por meio da identificação das

distribuições de probabilidades que regem esse processos. Para que isso seja

possível, deve-se proceder inicialmente a uma coleta de dados sobre os intervalos

de tempo entre as chegadas consecutivas e os tempos de atendimento em cada

posto. Algumas estatísticas devem ser retiradas dos conjuntos de dados, bem como

deve-se proceder a uma limpeza dos dados, conforme discutido nas seções

anteriores.

Concluída a etapa de agrupamento, em que grupos foram identificados e

separados ou amostras foram reunidas, pode-se elaborar para cada conjunto uma

tabela de freqüências acumuladas para as distribuições observadas.

Para a aplicação de simulação é interessante, mas não necessário, que as

distribuições observadas tenham um modelo teórico associado, como por exemplo

uma exponencial, erlang, uniforme, normal, etc. Deve-se, portanto, proceder a um

teste de aderência para verificar qual modelo teórico se adapta à distribuição

observada.

O primeiro problema a ser enfrentado ao se realizar uma análise inferencial é

a identificação de uma distribuição de probabilidades que possa vir a modelar os

dados.

Utiliza-se como exemplo as informações sobre o intervalo de tempo entre as

chegadas de navios dos tipos contêiner, carga geral e refrigerado a um porto, ao

longo de um ano. Para a validade das técnicas a serem apresentadas, supomos que

exista independência entre esses intervalos de tempo.

A seleção de probabilidades será feita utilizando-se três métodos. São eles:

� Investigação gráfica e gráfico de probabilidades;

� Teste de aderência de Qui-Quadrado;

� Teste de aderência de Kolmogorov- Smirnov.

123

2.2.6.1 - Investigação gráfica

O primeiro passo para a seleção do modelo probabilístico é a visualização

dos dados. Nas figuras 15, 16 e 17, apresentam-se os histogramas relativos aos

intervalos de tempo entre as chegadas dos três tipos de navios. Podem-se comparar

as formas desses histogramas com as distribuições teóricas conhecidas, que

apresenta e discute distribuições de probabilidades. À primeira vista, tem-se que:

� Contêiner (figura 15): distribuição fortemente assimétrica (descarta-se a normal e

a uniforme) e seu histograma é semelhante ao das distribuições exponencial,

Weibull ou gama;

� Carga Geral (figura 16) - distribuição simétrica, eventualmente normal;

� Refrigerado (figura 17) - não fosse a altura da segunda coluna, poderia ser uma

distribuição próxima à uniforme.

876543210

0.45

0.40

0.35

0.30

0.25

0.20

0.15

0.10

0.05

0.00

tempo

Den

sity

Figura 16 - Histograma do intervalo de tempo entre chegadas de navios do tipo

contêiner

124

3.02.52.0

2

1

0

tempo

Den

sity


carga geral

9876

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

tempo

Den

sity


refrigerado

��

125

2.2.6.2 - Gráfico de probabilidades

O gráfico de probabilidades é um método simples e bastante utilizado para

verificar se um conjunto de dados pode ter sido gerado a partir de uma distribuição

de probabilidades específica. Baseia-se na comparação entre a amostra obtida e

aquela que deveria ter sido obtida caso os dados realmente seguissem a distribuição

de probabilidades em investigação.

Para exemplificar sua utilização utiliza-se a amostra apresentada na tabela 9.

Tabela 9 - Dados amostrais

Observação

i

Valor

medido

Observação

i

Valor

medido

1 0,03257 11 0,94661

2 0,09560 12 1,05534

3 0,14279 13 1,26731

4 0,20426 14 1,31419

5 0,21507 15 1,31554

6 0,25680 16 1,62219

7 0,61596 17 1,98849

8 0,68740 18 2,28708

9 0,76079 19 2,48113

10 0,77090 20 3,81403

Suponha que se deseja verificar se a amostra apresentada na tabela 9 segue

uma distribuição exponencial. Sabe-se que o parâmetro da exponencial é sua

média. Utiliza-se a média amostral desses dados como uma aproximação da média

populacional da distribuição que os gerou; no caso, a média amostral é 1,094.

Assim, pode-se checar se os dados são provenientes de uma distribuição

exponencial com média 1,094.

O primeiro passo para a construção do gráfico é ordenar os dados (segunda

coluna da tabela 10). Para a determinação da amostra esperada sob a distribuição

126

exponencial de média 1,094, define-se a função acumulada empírica. Essa função

estima a proporção de observações menores ou iguais a cada valor observado na

amostra ordenada. Então, tem-se uma amostra de tamanho Q e, por exemplo, para

o quinto valor ordenado, uma possível estimativa de sua proporção seria 5/n. No

entanto, devido a conveniências teóricas, estima-se essa proporção por (5 - 0,5)/n

(ver terceira coluna da tabela 10).

Para a determinação dos valores esperados, igualam-se a função distribuição

acumulada da exponencial com média 1,094 e a função acumulada empírica, ou

seja, para a i-ésima observação tem-se:

205.0

1)( 094,1 −=−=− LH[)

()( .

Isolando [ * + vem que:

094,120

5.01ln

−−

−=

L[ , ,

que corresponde ao i-ésimo valor esperado, sob a hipótese de distribuição

exponencial com média 1,094 (última coluna da tabela 10).

Considere o par ordenado (valor observado * , [ * ). O gráfico de probabilidades é

obtido com a simples disposição desses pontos em um sistema cartesiano. Se a

distribuição suposta for pertinente, espera-se que os pontos estejam aleatoriamente

dispostos ao redor de uma reta, no caso da reta y=x; é bom ressaltar que existem

variações na construção desse tipo de gráfico e nem sempre a reta x=y é utilizada

como referência. Na figura 18, apresenta-se o gráfico de probabilidades para os

dados em questão. Note-se que os pontos estão realmente dispostos em torno da

reta de referência, o que nos faz aceitar a suposição de que eles sejam provenientes

de uma distribuição exponencial com média 1,094.

127

Tabela 10 - Determinação da amostra esperada sob a hipótese de distribuição

exponencial com média 1,094

i Valores

Observados

(i-0.5)/20 Valores

esperados

1 0,03257 0,025 0,02314

2 0,09560 0,075 0,07126

3 0,14279 0,125 0,12206

4 0,20426 0,175 0,17584

5 0,21507 0,225 0,23299

6 0,25680 0,275 0,29395

7 0,61596 0,325 0,35927

8 0,68740 0,375 0,42962

9 0,76079 0,425 0,50584

10 0,77090 0,475 0,58899

11 0,94661 0,525 0,68048

12 1,05534 0,575 0,78214

13 1,26731 0,625 0,89655

14 1,31419 0,675 1,02736

15 1,31554 0,725 1,18006

16 1,62219 0,775 1,36349

17 1,98849 0,825 1,59321

18 2,28708 0,875 1,90077

19 2,48113 0,925 2,36770

20 3,81403 0,975 3,37192

Esses valores foram obtidos através da seguinte seqüência de comandos do

MINITAB:

Sort C5 c5;

128

By C5.

Set c4

1( 1 : 20 / 1 )1

End.

Let c6 = (c4-0,5)/20

Let c7 = -(LOGE(1-c6))/1,094

43210

3.5

3.0

2.5

2.0

1.5

1.0

0.5

0.0

Dados observados

Dad

os p

revi

stos

Figura 19 - Gráfico de probabilidades exponencial para os dados da tabela 10

O MINITAB constrói automaticamente gráficos de probabilidade para as

distribuições: normal, lognormal, Weibull e exponencial.

A figura 19, por exemplo, corresponde a um gráfico de probabilidade

exponencial para o histograma mostrado na figura 18 referente a navios tipo

contêiner. Note-se que a escala utilizada no eixo y é um pouco diferente da

apresentada, correspondendo à probabilidade de se ter um valor menor ou igual ao

observado, quando se adota uma distribuição exponencial com média 1,094; no

entanto, a forma da figura é a mesma da obtida através do procedimento proposto.

Além da reta de referência (no centro da figura), o programa constrói duas outras

retas. Caso a distribuição dos dados seja exponencial, espera-se que os dados

estejam distribuídos aleatoriamente entre as duas retas externas. É exatamente isso

129

o que acontece. Parece, então, razoável a hipótese dos dados terem sido gerados

através de uma distribuição exponencial.

Na figura 20 tem-se um gráfico de probabilidades normal para o histograma

de navios de carga geral, mostrado na figura 19. Note-se que a menos de um valor

muito pequeno, os pontos têm um comportamento compatível com a hipótese de

normalidade dos dados. Esse valor pequeno pode ser uma observação discrepante.

76543210

99

98

979695

93

90

80

706050

3010

Data

Per

cent

Fail. Rate:Mean:

0.8041941.24348

Exponential Probability Plot for tempo

Figura 20 - Gráfico de probabilidades exponencial para os intervalos de tempo entre

chegadas de navios do tipo contêiner

Esse gráfico foi gerado a partir dos seguintes comandos:

%Qqplot 'tempo';

Expo;

Table;

Conf 95;

Ci.

130

Ele também pode ser obtido, via Menu, através da seguinte seqüência:

GRAPH - PROBABILITY PLOT.

3.02.82.62.42.22.01.8

99

95

90

80

7060504030

20

10

5

1

Data

Per

cent

StDev:Mean:

0.2360752.42057

Normal Probability Plot for tempo

Figura 21 - Gráfico de probabilidades normal para os intervalos de tempo entre

chegadas de navios do tipo carga geral

10 9 8 7 6 5

99

95

90

80

70

60

50

40

30

20

10

5

1

Data

Per

cent

StDev:Mean:

0.9632217.30497

Normal Probability Plot for tempo

10.0 9.8 9.6 9.4 9.2 9.0 8.8 8.6 8.4 8.2 8.0 7.8 7.6 7.4 7.2 7.0 6.8 6.6 6.4 6.2 6.0 5.8 5.6 5.4 5.2 5.0 4.8

99

95

90

80

70

60

50

40

30

20

10

5

1

Data

Per

cent

StDev:Mean:Log Base e

StDev:Mean:Log Base 10

0.132131.98002

0.057380.85991

Lognormal Probability Plot for tempo

10.0 9.8 9.6 9.4 9.2 9.0 8.8 8.6 8.4 8.2 8.0 7.8 7.6 7.4 7.2 7.0 6.8 6.6 6.4 6.2 6.0 5.8 5.6 5.4 5.2 5.0 4.8 4.6 4.4 4.2 4.0 3.8

99

9590

80706050

40

30

20

10

5

3

2

1

Data

Per

cent

Scale:Shape:

7.729788.63310

Weibull Probability Plot for tempo

40302010 0

98

97

9695

93

90

80

70

6050

30

10

Data

Per

cent

Fail. Rate:Mean:

0.1368937.30497

Exponential Probability Plot for tempo

Figura 22 - Gráficos de probabilidades para os intervalos de tempo entre chegadas

de navios do tipo refrigerado

131

Na figura 22 apresentam-se os gráficos de probabilidades gerados pelo

MINITAB para o histograma referente aos navios refrigerados, mostrados na figura

22. Note-se que em nenhum deles tem-se um comportamento dos pontos

compatível com a distribuição de probabilidades assumida.

A figura 22 corresponde a um gráfico de probabilidades uniforme com intervalo

(5,9; 8,8) para os dados referentes a navios do tipo refrigerado. Note-se que este

gráfico tem um comportamento melhor do que os gráficos da figura 21. Logo existe

a possibilidade de que o intervalo de tempo entre as chegadas de navios

refrigerados seja uniforme.

9876

9

8

7

6

Valor Observado

Val

or E

sper

ado

Figura 23 - Gráfico de probabilidades uniforme para os intervalos de tempo entre

chegadas de navios do tipo refrigerado

132

2.2.6.3 - Testes de aderência

Um teste de aderência é um teste de hipóteses que verifica se um

determinado conjunto de dados foi gerado através de uma distribuição especificada.

Há, na literatura estatística, uma série de testes com esse objetivo.

A -Teste de Kolmogorov-Smirnov

O teste de Kolmogorov-Smirnov baseia-se na comparação entre a distribuição

acumulada amostral e a função distribuição acumulada teórica, que se acredita ter

gerado os dados (F(x)). A partir da amostra ordenada, define-se a distribuição

acumulada amostral para a i-ésima observação como S(xi) = i/n. A estatística do

teste, que tem como hipótese nula que os dados foram gerados segundo uma

distribuição específica contra uma hipótese alternativa, que diz que os dados não

foram gerados segundo essa distribuição, é dada por:

�[�6�[�)' - −= sup ,

que sob a hipótese nula segue uma distribuição específica.

Para ilustrar a aplicação do teste, utilizam-se os dados da tabela 11, onde se

detalha um procedimento numérico para a obtenção de ', no caso da distribuição a

ser testada ser contínua (exponencial, com média 1,094). Nas colunas 3 e 4,

apresenta-se a função distribuição amostral e essa mesma função defasada de uma

observação, respectivamente. Na coluna 5, tem-se a função distribuição acumulada

da exponencial com média 1,094 (definida anteriormente). Nas colunas 6 e 7, tem-se

o módulo da diferença entre a acumulada amostral (defasada na coluna 7) e a

acumulada teórica. Note-se que o valor máximo dessas duas colunas é 0,13052,

que corresponde à estatística '; o nível descritivo associado a esse teste é superior

a 5%, o que nos leva a admitir a hipótese de que os dados podem seguir uma

distribuição exponencial com média 1,094.

133

Na tabela 12, apresenta-se a seqüência de comandos do MINITAB, utilizada

para testar a hipótese de que os dados sobre os intervalos de tempo entre as

chegadas de navios do tipo contêiner seguem uma distribuição exponencial.

Tabela 11 - Planilha de cálculo para o teste de Kolmogorov-Smirnov.

I Valores

Observado

s

S(xi) S(xi-1) F(x) |F(xi)-S(xi)| |F(xi)-S(xi-1)|

1 0,03257 0,05 0,029332 0,0206680 0,029332

2 0,09560 0,10 0,05 0,083678 0,0163216 0,033678

3 0,14279 0,15 0,10 0,122364 0,0276358 0,022364

4 0,20426 0,20 0,15 0,170316 0,0296841 0,020316

5 0,21507 0,25 0,20 0,178475 0,0715253 0,021525

6 0,25680 0,30 0,25 0,209216 0,0907840 0,040784

7 0,61596 0,35 0,30 0,430520 0,0805203 0,130520

8 0,68740 0,40 0,35 0,466524 0,0665237 0,116524

9 0,76079 0,45 0,40 0,501138 0,0511375 0,101138

10 0,77090 0,50 0,45 0,505725 0,0057254 0,055725

11 0,94661 0,55 0,50 0,579065 0,0290654 0,079065

12 1,05534 0,60 0,55 0,618888 0,0188881 0,068888

13 1,26731 0,65 0,60 0,686019 0,0360188 0,086019

14 1,31419 0,70 0,65 0,699188 0,0008115 0,049188

15 1,31554 0,75 0,70 0,699559 0,0504409 0,000441

16 1,62219 0,80 0,75 0,773001 0,0269994 0,023001

17 1,98849 0,85 0,80 0,837590 0,0124096 0,037590

18 2,28708 0,90 0,85 0,876383 0,0236173 0,026383

19 2,48113 0,95 0,90 0,896475 0,0535253 0,003525

20 3,81403 1,00 0,95 0,969387 0,0306135 0,019387

134

Tabela 12 - Comandos para a determinação da estatística do teste de Kolmogorov-

Smirnov para a distribuição exponencial

=== determinando a média da exponencial e armazenando-a em K1 ===

MTB > let K1=mean(tempo)

=== ordenando os dados ===

MTB > Name c4 = 'tmpord'

MTB > Sort 'tempo' 'tmpord';

SUBC> By 'tempo'.

=== criando uma coluna numerada de 1 até 293 e outra de 0 até 292 ===

MTB > Name c6 = 'i'

MTB > Set 'i'

DATA> 1( 1 : 293 / 1 )1

DATA> End.

MTB > Name c7 = 'i_1'

MTB > Set 'i_1'

DATA> 1( 0 : 292 / 1 )1

DATA> End.

=== criando S(xi) e S(xi-1) ===

MTB > Name C8 = 'S(x_i)'

MTB > Let 'S(x_i)' = i/293

MTB > Name C9 = 'S(x_i-1)'

MTB > Let 'S(x_i-1)' = 'i_1'/293

=== criando F(xi) ===

MTB > Name C10 = 'F(x)'

MTB > Let 'F(x)' = 1-exp(-tmpord/k1)

=== determinando as diferenças entre as funções distribuição ===

MTB > Name C11 = '|F(x)-S(X)|'

MTB > Let '|F(x)-S(X)|' = abs('F(x)'-'S(x_i)')

MTB > Name C12 = '|F(x)-S(X-1)|'

135

MTB > Let ’|F(x)-S(X-1)|’ = abs(’F(x)’-’S(x_i-1)’)

=== determinando a diferença máxima ===

MTB > max('|F(x)-S(X)|')

MTB > max('|F(x)-S(X-1)|')

B - Teste do Qui-Quadrado

O teste de aderência estatístico mais usado é do QUI-QUADRADO, que se

inicia calculando-se os desvios entre as freqüências observadas em cada classe e

as freqüências teóricas (usando-se o modelo escolhido) nas mesmas classes. A

expressão abaixo mostra como calcular a estatística E para utilização no teste de

aderência proposto.

E O TTk

k k

k

= −

E EkK

K

==

∑ 2

1

Em cada classe calcula-se o valor Ek, que é a diferença entre o número

observado de elementos (Ok) e o valor teórico (Tk) e divide-se o valor obtido pelo

valor teórico da classe (Tk). A somatória dos valores desses valores Ek, para todas

as K classes envolvidas determina a estatística E, cuja distribuição é uma QUI-

QUADRADO com K-1-n graus de liberdade, em que n é o número de parâmetros

estimados a partir da amostra coletada.

Escolhendo-se um nível de significância ALFA e k-1-n graus de liberdade,

obtém-se da tabela da distribuição do QUI-QUADRADO o valor Ecrítico. Se E for

136

maior que Ecrítico, rejeita-se a hipótese de que a amostra observada provém de

uma população com a distribuição teórica adotada.

A tabela 13 mostra as classes de freqüências (K=9) dos tempos de

atendimento de um terminal portuário com um único berço, o número de elementos

observados por classe e o valor acumulado, a freqüência teórica por classe e o

número teórico de elementos por classe, considerando que a distribuição normal

será testada nos dados observados. A partir dos dados da amostra é estimado o

valor da média, 420, e do desvio-padrão, 40.

Tabela 13 - Freqüências observadas e teóricas

Classes de

freqüência no. de

elementos

observados

no.

acumulado

de elementos

observados

freqüência

acumulada

teórica

número teórico

acumulado de

elementos

no. Téorico de

elementos

340-360 3 3 0,0410 2,005 2,005

360-380 3 6 0,1056 5,28 3,275

380-400 4 10 0,2266 11,33 6,05

400-420 11 21 0,4013 20,06 8,73

420-440 6 27 0,5987 29,33 9,27

440-460 13 40 0,7734 38,67 9,34

460-480 2 42 0,8944 44,72 6,05

480-500 4 46 0,9599 47,99 3,27

500-520 4 50 0,9878 49,39 1,4

Para o cálculo da estatística E são utilizadas a segunda e a sexta coluna da

tabela 13. O valor E obtido pela aplicação das expressões mostradas anteriormente

é 0,47938.

Como foram calculados os valores da média e do desvio-padrão da

distribuição a partir da amostra, o valor de n será 2.

137

Assumindo α igual a 5%, e k-1-n igual a 6, o valor Ecrítico é de 12.589. Como

E é menor que Ecritico, aceita-se que a distribuição normal adere aos dados

observados.

C – Algumas observações sobre os testes de aderência

Em geral, os pacotes computacionais, que efetuam testes de aderência a

partir de uma amostra, fornecem os níveis descritivos para diversas distribuições

teóricas testadas, classificados em ordem crescente. Esses programas indicam que,

quando se trata do teste de aderência de Kolmogorov-Smirnov, a melhor aderência

encontrada é a distribuição teórica que apresentou maior nível descritivo “p” ou

menor valor de “D”; ou o menor valor de “E” quando for o teste de aderência de Qui-

Quadrado.

Um cuidado que o analista deve ter é que, analisando a lista de distribuições

ordenadas, mais de uma distribuição teórica poderá aderir àquela amostra para um

mesmo nível de significância adotado. Sugere-se que o analista utilize a distribuição

mais conhecida e cujos parâmetros são mais facilmente calculados. Por exemplo,

uma exponencial ao invés de uma beta.

Uma situação inversa também pode ocorrer, ou seja, a lista de distribuições

apresentadas pelos pacotes computacionais apresenta níveis descritivos muito

baixos, mesmo para a melhor distribuição por eles indicada. Nesse caso,

recomenda-se ao analista utilizar a distribuição denominada empírica, que nada

mais é do que a representação, por intervalos, do gráfico de freqüência acumulada

obtido a partir da amostra.

Documents

apostila_simulacao