Upload
noaceshigh
View
652
Download
4
Embed Size (px)
Citation preview
1
1 - Introdução à Simulação
A simulação é um termo geral usado em diversas áreas do conhecimento.
Mosef(1997) apresenta uma definição clássica, em que “a simulação é o processo
de elaborar um modelo de um sistema real e conduzir experimentos com este
modelo, com o propósito de compreender o comportamento do sistema, ou avaliar
várias estratégias para a operação do mesmo”.
Para melhor compreender esta definição é necessário discutir:
• o que é um modelo;
• em que parte das Técnicas de Pesquisa Operacional a Simulação é
enquadrada;
• quais tipos de problemas podem ser resolvidos com Simulação.
1.1 – Tipos de Modelo
Na aplicação de simulação, o usuário sempre se depara inicialmente com um
problema e da sua análise e compreensão obtém-se um sistema a ser estudado. Um
sistema, por sua vez, é um conjunto de subsistemas e componentes, que,
interagindo entre si, representam parte de uma situação real.
O modelo é uma representação física ou matemática de um sistema, que visa
à avaliação das alterações de comportamento em função de diversas variáveis e
parâmetros envolvidos, ou mesmo a avaliação de modificações introduzidas no
sistema em estudo.
Assim um modelo é:
• uma representação com uma finalidade;
• uma representação parcial de um problema;
• um pensamento estruturado sobre parte de um problema;
• uma especificação de variáveis e suas relações.
2
O diferentes tipos de modelo podem ser classificados em:
• Físicos;
• Simbólicos, subdivididos em:
• Finalidade
• Forma
• Tratamento de Incerteza
Quanto a sua finalidade um modelo simbólico pode ser classificado em:
• Modelo Descritivo
Descreve variáveis chaves e relações
Ex: relação entre serviço e vendas
• Modelo Preditivo
Prevê resultados com base no conhecimento de relações
• Modelo de Decisão
Fornece solução para um problema
Ex: qual modal/rota de transporte utilizar ?
Quanto a sua forma um modelo simbólico pode ser classificado em:
• Verbal
• Esquemática
• Matemática
• Gráfica
Quanto ao tratamento da incerteza um modelo simbólico pode ser classificado em:
• Modelo Determinístico : nenhum elemento de risco (incerteza) no
modelo
Exemplo: quando determina solução de transporte, pode-se assumir
que o tempo de viagem seja constante
3
• Modelo Estocástico: incerteza é incorporada ao modelo
Exemplo: assume-se que os tempos de viagem obedeçam a uma
distribução normal
Gordon(1978) propôs uma classificação dos tipos de modelos associados aos
possíveis sistemas existentes, conforme mostra a figura 1.
MODELOS
MATEMÁTICOSFÍSICOS
DINÂMICOSESTÁTICOS ESTÁTICOS DINÂMICOS
NUMÉRICOS ANALÍTICOS NUMÉRICOS
SIMULAÇÃO
Figura 1 - Tipos de modelos. Fonte: Gordon(1978)
Com base nesta hierarquização, tem-se que:
• os modelos físicos são regidos por leis da física e servem para dar
respostas a experimentos cujo equacionamento matemático não é
totalmente conhecido. Às vezes, este processo utiliza analogias entre
sistemas distintos, como por exemplo, os sistemas mecânico e elétrico,
ou elétrico e hidráulico. Na área naval, tem-se como exemplo a
construção de modelos em escala reduzida de navio ou plataforma
oceânica para análise do comportamento no mar, extrapolando-se os
resultados para um sistema em escala real;
4
• os modelos matemáticos usam notação apropriada juntamente com
equações matemáticas para representarem um sistema;
• os modelos estáticos são aqueles cujos valores das propriedades de
interesse são determinados somente quando o sistema está em regime
estacionário. Ao contrário, o modelo dinâmico permite acompanhar as
propriedades de interesse ao longo do tempo, que são resultantes das
atividades do sistema;
• para os modelos matemáticos, as técnicas de resolução dos mesmos
podem ser: analíticas, que usam diversas formas e tipos de
equacionamento matemático; numérica, em que se aplicam diversos
métodos computacionais que possibilitam encontrar a solução do
modelo. Segundo o autor, quando um modelo matemático de natureza
dinâmica é solucionado por um método numérico, trata-se de uma
simulação.
1.2 – A Simulação e a PesquisaOperacional
Muitos autores apresentam classificações para a Pesquisa Operacional e neste
trabalho será utilizada a classificação apresentada por Taha (1998), que divide a
Pesquisa Operacional em:
• Programação Linear, Dinâmica e Inteira, referindo-se neste caso aos modelos
otimizantes e baseados em programação linear;
• Modelos Probabilísticos, que emglobam Teoria dos Jogos, Modelos de
Estoque, Modelos de Previsão, Teoria de Fila e Simulação;
• Programação não Linear, que apresenta a teoria clãssica de otimização e
algorítmos de busca da solução para problemas não lineares.
Pode-se acrescer a essa classificação as Heurísticas e Meta-heurísticas, que
atualmente vem atuando na solução de diversos problemas logísticos e em
destaque na busca de soluções adequadas e próximas da ótima de problemas de
roteirização.
5
Chwif(1999) fez uma compilação das técnicas de representação de modelos de
simulação encontrados na literatura, que estão resumidos a seguir:
• Activity Cycle Diagrams – Técnica diagramática que modela as
interações entre as entidades através da composição dos seus ciclos
de vida. Uma entidade pode estar ou em um estado passivo (fila) ou
em um estado ativo (atividade). Os únicos elementos de uma
representação ACD são os símbolos de fila e atividade e com eles o
analista deve representar todo o sistema a ser simulado, podendo
obter diagramas extremamente grandes, se o problema for muito
complexo.
• Control Flow Graphs – Nesta técnica cada processo lógico é totalmente
fechado e interage com outros componentes (ou outros processos),
através de trocas de mensagens. Seu objetivo é deixar bem definida a
informação sobre os processos envolvidos, para que o analista possa
desenvolver algoritmos para execução da simulação. Cada processo
tem associado a ele um conjunto de variáveis e estados, e um conjunto
de canais de entrada e saída. O comportamento de cada processo é
especificado através de um CFG. Um CFG é um dígrafo estendido em
que os vértices representam os estados possíveis de um processo, e
os arcos mostram as possíveis transições de um estado para outro.
• Condition Specification – É uma metodologia embasada na orientação
por objetos, que visa fornecer assistência ao analista na análise de
modelos de simulação. Basicamente, um modelo expresso em CS tem
dois elementos básicos: a descrição da comunicação do modelo com
seu ambiente, composta pela especificação da interface, a
especificação de sua dinâmica composta pela especificação dos
objetos e a especificação da transição. O outro elemento é a
especificação de relatórios.
• Discrete Event System Specification – Trata-se de uma técnica de
representação formal, que procura comunicar a natureza essencial de
um modelo e tenta evitar problemas intrínsecos como a inconsistência,
a ambigüidade e a criação de um modelo incompleto. Esta técnica esta
baseada no conceito de estado e é representada por três elementos:
6
entradas, saídas e estados. De maneira geral, essa técnica modela a
mudança de estado de um sistema, considerando dois casos básicos:
no primeiro, durante um intervalo de tempo não ocorre nenhum evento
externo e o sistema muda de um estado para outro, que já estava
previamente programado; no segundo, durante um intervalo de tempo
ocorre um evento externo, que muda o estado do sistema
imediatamente após a ocorrência desse evento.
• Event Graphs – Essa técnica de representação é baseada na
estratégia de eventos. Os Events Graphs (EG) podem ser aplicados
para a representação de qualquer modelo de sistema de eventos
discretos, utilizando apenas um símbolo. Neste caso, os vértices de um
EG representam eventos que alteram os valores das variáveis de
estado do sistema. Os arcos, por sua vez, representam condições em
que um evento pode causar a ocorrência de outro evento, bem como
determinar o intervalo de tempo a transcorrer entre dois eventos.
• Redes de Petri – Uma Rede de Petri básica é um modelo formal do
fluxo de informações de um sistema. Ela é representada por uma grafo
bipartido que tem dois vértices: os lugares e as transições. Um arco do
grafo existe somente entre lugares e transições. É uma ferramenta que
permite a análise das propriedades e dos problemas associados a
sistemas que tem paralelismo e concorrência.
• Process Networks (PN) – Esta técnica baseia-se na estratégia de
processo. Embasadas em representações gráficas, os PN são
representações centradas em programas de simulação, isto é, dada
uma representação gráfica de um modelo de simulação, associa-se um
“programa equivalente” descrito em alguma linguagem de simulação,
pronto para ser executado no computador. Enquadram-se nesta
categoria: GPSS, Slam Network, SIMAN e outros.
• Outros – As técnicas acima apresentadas são as que possuem maior
potencial de aplicação prática. Outras abordagens podem ser também
especificadas, tais como: técnicas baseadas em álgebras específicas;
técnicas baseadas em lógicas computacionais; linguagem de
especificação; técnicas baseadas em processos de Markov.
7
1.3 – Identificação da Técnica de Pesquisa Operacional a ser aplicada ao Sistema
em estudo
Um problema frequentemente enfrentado pelos analista sem geral é identificar
qual técnica pode ou deve ser utilizada para resolver um sistema.
Na literatura tem-se encontrado diversas referências de uso de modelos
computacionais para o planelamento de sistemas logísticos, os quais são
conhecidos como Sistemas de Apoio à Decisão.
Eom et al. (����) conceitua um Sistema de Apoio à Decisão (SAD) como um
sistema computacional interativo que:
• apoie as pessoas envolvidas no processo de decisão, ao invés de
substituí-las;
• se utilize de dados e modelos;
• resolva problemas com um diversos graus de estruturação;
• focalize a eficácia do processo de decisão ao invés da eficiência deste
processo.
Ao fazer uma análise dos SAD presentes na literatura técnica no período de 1988 a
1994, este autor classificou os modelos da forma mostrada na tabela 1,
evidenciando a aplicabilidade da simulação como uma ferramenta de apoio à
decisão.
Este autor também indicou-se as áreas nas quais mais foram desenvolvidos SAD:
• Gerenciamento de produção e operações - incluem aplicações em
diversos setores, incluindo o de transportes, gerenciamento de frota,
programação de viagens de trens, scheduling de veículos de coleta,
controle de vôos, tripulações de aeronaves e terminais em aeroportos;
• Sistemas de informações gerenciais;
• Marketing - entre outras funções o dimensionamento de redes de
transporte e distribuição, planejamento logístico, scheduling de
veículos, etc.
8
Tabela 1 - Tipos de Modelos - Eom et. al �������Tipos de Modelos
Modelos Determinísticos
Programação Linear
Programação por Metas
Modelos de Transporte
Modelos de Fluxo em Rede
Modelos de Estoque
Programação Inteira
Programação Não-Linear
Programação Dinâmica
Modelos Estocásticos
Modelos de Fila
Modelos de Processos de Markov
Modelos de Simulação
Árvores de Decisão
Teoria dos Jogos
Outros Modelos Estocásticos
Modelos Estatísticos e de Previsão
Outros
Outros Modelos de Tomada de Decisão com Múltiplas Variáveis
Modelagem com Planilhas
Gráficos
Inteligência Artificial
Modelagem Visual Interativa
Linguagens de Busca
Outros
9
Harrington, et al. (����) mostram o impacto financeiro nas áreas de logística e
marketing obtido através de decisões racionais usando técnicas de simulação, num
cenário caracterizado pelo aumento de competição externa, incertezas econômicas
e flutuações do mercado financeiro.
Dentro da perspectiva de tomada de decisão, são abordadas as técnicas de
otimização, as heurísiticas e a simulação para a resolução de problemas, onde:
• Otimização - envolve técnicas de programação matemática a fim de
determinar a melhor solução para o problema, onde a função objetivo e
suas restrições são expressas em funções matemáticas.
• Heurísticas - são regras que direcionam um modelo analítico para sua
solução ótima, porém não garantem que este modelo atingirá esta
solução pois o número de alternativas possíveis está limitada pelas
regras que foram impostas.
• Simulação - é uma técnica que envolve a construção de um modelo
detalhado do sistema real, onde o analista do sistema pode testar o
impacto ocasionado pela mudança de um número limitado de variáveis.
A figura 2 mostra um resumo de qual técnica é mais recomendada de acordo com o
nível e o tipo de análise a ser realizada.
Figura 2 - Seleção de técnica - Fonte: Harrington, Lambert e Sterling (����)
Tomada de Decisão
Nível:
Análise:
Método:
Agregado Geral
Algoritmos
Perseguir metas Análise de todas as possibilidades
Otimização Heurísticas
Produção Representação exata
Descritiva Análise de modificações
Ganhos operacionais
��� ����� ���
10
Analogamente, Pidd (����) ao abordar diversas formas de modelagem para o
processo de decisão, mostra o uso de modelos otimizantes, heurísticas e simulação.
Quanto à simulação computacional, o autor recomendada que a mesma seja usada
em sistemas que sejam:
• Dinâmicos - onde a variação temporal estaja associada a fatores que
não podem ser controlados, mas podem ser determinados por análise
estatística;
• Interativos - sistemas que possuem componentes que interagem entre
si e esta interação afeta o comportamento do sistema;
• Complicados - existem inúmeras variáveis que interagem no sistema
em questão e sua dinâmica precisa ser considerada e analisada.
Estes sistemas são aplicados em áreas abrangentes como, por exemplo:
• Manufatura - utilizada no projeto e implantação de fábricas de produtos
com uma gama muito grande de diferenciação na linha de montagem
final, as quais visam atender mercados específicos e com demandas
variáveis, exigindo um lead-time baixo e a não-formação de estoques.
• Área de Saúde - a simulação tem tido aplicação no planejamento de
utilização racional de recursos limitados (médicos, enfermeiros,
equipamentos, postos de atendimento, etc.).
• 5HHQJHQKDULD�GRV�3URFHVVRV�GH�1HJyFLRV - a simulação é tida como
uma abordagem importante para entender como os processos podem
ser reorganizados para melhorar a performance do sistema.
• Transporte - a simulação se aplica no sentido de garantir que os
sistemas irão operar da maneira mais eficiente e eficaz possível.
Aplicações são propostas nas áreas de dimensionamento de terminal,
planejamento de sistema de distribuição, controle de tráfego, testes de
rotas alternativas, entre outros.
• Setor de Defesa - usado em desde estudos logísticos até para
simulação de combate.
11
Com relação à aplicação da simulação em um sistema de manufatura, tem-se na
literatura um exemplo descrito por McClelland (����), o qual se baseou na
necessidade de haver uma racionalização e uma eficiente alocação de recursos
escassos de uma empresa face à crescente competitividade do mercado mundial.
Neste estudo buscou-se integrar o plano estratégico de manufatura (onde se inclui
projeto e desenvolvimento do produto, concepção da linha de montagem, número de
estágios de produção, processos de manufatura e capacidade de produção) com a
política global administrativa da empresa.
Mosef(1997) situa a simulação dentro do contexto do processo de decisão
com três abordagens distintas:
• Intuitiva – esta abordagem refere-se a situações do dia a dia em que o
analista é obrigado a tomar decisão e chegar à solução de problema
em alguns minutos ou segundos. A decisão é feita com base na
experiência passada e em uma rápida análise das alternativas;
• Analítica – esta abordagem é usada quando eventuais erros nas
decisões são potencialmente caros e quando existe tempo hábil para
achar a solução. Emprega-se a forma analítica de resolução de
problemas quando o comportamento dos fatores envolvidos e a relação
entre eles podem ser totalmente descritos em termos matemáticos.
Contudo, na maioria das vezes, é difícil descrever o problema com a
precisão matemática requerida ou resolver as equações que regem o
sistema. Isto leva ao emprego de uma abordagem numérica ou de
simulação para a resolução do problema;
• Numérica – na maior parte das vezes, é empregada quando a limitação
de tempo não é a maior restrição, mas sim, a falta de compreensão
completa do problema ou a impossibilidade de descrevê-lo de uma
forma estruturada. Nesta abordagem encaixa-se o conceito de
simulação apresentado pelo autor acima citado.
Na literatura especializada pode-se encontrar uma grande variedade de
modelos matemáticos, criados para solucionar situações específicas e ainda
condicionados a restrições bastante rigorosas que limitam suas aplicações. Em
alguns casos, modelos matemáticos complexos podem ser construídos, porém não
existem técnicas desenvolvidas para encontrar soluções analíticas dos mesmos.
12
Pesquisou-se também na literatura técnica princípios que orientassem o processo de
modelagem, uma vez que isto é tido como uma "arte", ou "consequência de um
processo intuitivo, o qual é raramente explicitado ou explicado" conforme mostra
Morris (����). Este autor, contudo, indica uma série de diretrizes que norteiam o
processo de desenvolvimento de modelos:
• Utilizar um processo de elaboração - sugere-se iniciar com modelos
bem simplificados e evoluir para sistemas complexos. Nestes modelos
iniciais fatalmente serão omitidos aspectos de maior dificuldade e as
soluções encontradas serão subotimizadas.
• Utilizar analogias ou associações com modelos previamente
desenvolvidos para ter em mãos um ponto de partida para o processo
de elaboração. Às vezes, a busca por analogia conduz a estruturas
mais gerais, como as equações diferenciais ou a teoria da
probabilidade, ou estruturas mais específicas e desenvolvidas tais
como o teoria de filas.
• Utilizar um processo recursivo (loopings), que pode ser feito de 2
formas:
• alternar modificações no modelo x confrontação dos dados - algo que
garante que o modelo não fica pronto na primeira vez;
• alternar a estrutura do modelo x as premissas que o caracterizam - o
objetivo é verificar que: se o modelo não permite alterações por ser
muito complicado, então as premissas têm que ser revistas. Com isto
evita-se que já se apele para a técnica de simulação sem que muitas
tentativas já tenham sido feitas.
Estas sugestões podem ser operacionalizadas da seguinte forma:
• Dividir o sistema em problemas mais simples - quando isto ocorre,
surgem diversas soluções que são subótimas ou aproximadas do ponto
de vista do modelo do sistema;
• Estabelecer os objetivos de maneira clara - neste modelo busca-se
prever o resultado de várias políticas? Necessariamente tem que
fornecer a solução ótima?;
13
• Buscar analogias - a possibilidade do uso de uma analogia tem que ser
considerada antes que o problema tenha sido bem definido, uma vez
que estas podem direcionar o caminho em que o problema poderia se
tornar mais específico;
• Considerar exemplos numéricos específicos do problema - escrever ou
levantar alguns exemplos numéricos ajudam a entender a lógica do
modelo;
• Estabelecer símbolos ou variáveis;
• Escrever o óbvio - escrever em primeiro lugar, as equações que
parecem ser óbvias. Nunca omitir qualquer uma delas;
• Se o modelo está muito complexo, simplifique-o, usando as seguintes
formas:
• tornar as variáveis em constantes;
• eliminar variáveis;
• usar relações lineares;
• adicionar restrições e outras premissas;
• suprimir a aleatoriedade;
Isto porque o objetivo real da análise de sistemas não é simplesmente estudar cada
vez mais maiores problemas, mas sim achar maneiras de transformar grandes
problemas em menores, de forma que as soluções destes pequenos possam ser
combinados de alguma forma fácil, visando fornecer as soluções de grandes
problemas.
Finalmente cabe ressaltar que a escolha da técnica a ser utilizada na solução de
problemas pode estar relacionada com o ambiente de planejamento que se está
aboradando. Esse ambiente de planejamento pode ser classificado em três níveis:
• Nível Estratégico – Trata-se de um planejamento a longo prazo, o qual
é realizado por um nível gerencial mais elevado e geralmente envolve
altos custos de capital para investimento. Neste nível de planejamento
traçam-se as diretrizes/políticas gerais de desenvolvimento, e as
decisões tomadas ditam a estratégia de operação do sistema como um
todo.
14
• Nível Tático – É um planejamento que busca garantir, dentro de um
médio prazo, a alocação racional e eficiente dos recursos existentes,
visando atender às diretrizes globais traçadas no planejamento
estratégico.
• Nível Operacional – Trata-se de um planejamento a curto prazo, às
vezes em uma base diária/semanal, dentro de um ambiente dinâmico
de operação, que busca atingir as metas estipuladas no planejamento
tático, respeitando as regras, os limites e as restrições do sistema.
1.4 - Problemas que podem ser resolvidos com Simulação
Abaixo são enunciados alguns problemas/sistemas e são tecidos comentários sobre
a técnica mais adequada para resolvê-los
15
Problema 1
Considere o problema de alocação de veículos de uma determinada frota, onde se
pretende transportar a cada viagem(rotas fixas e com demanda conhecida a cada
dia) uma determinada quantidade de pallets, tendo-se o custo por viagem por tipo
de veículo, bem como o número de veículos disponíveis por tipo e a capacidade
máxima de pallets por tipo de veículo, a saber:
Tipo de Veículo No. de Veículos Custo ($/viagem) Capacidade (pallets)
Disponíveis
x1 15 1.125 12
x2 20 1.500 24
x3 5 1.620 26
x4 5 1.750 28
x5 5 1.870 30
x6 5 2.000 32
Determine a melhor alocação de frota, de tal forma que o Custo de Transporte seja o
menor possível ?
Problema 2
Embalagens com oxigênio líquido devem ser semanalmente distribuídas para
unidades fabris.O transporte desse produto é feito por veículos a partir de uma base
e junto as unidades fabris esse produto é descarregado. As características do
processo estão mostradas abaixo:
Número de Unidades Fabris = 42
Capacidade de cada veículo = 200 embalagens
Velocidade do veículo = 35 km/hora
Tempo máximo de operação por dia do veículo = 12 horas
Taxa de descarga nas unidades fabris = 60 unidades/hora
16
Coordenada X e Y da Base são conhecidas, assim como as coordenadas das
unidades, assim como a demanda semanal de cada uma por oxigênio (em
embalagens)
Determine quantos veículos são necessários e quais as rotas a serem formadas
para que o custo de transporte seja o menor possível ?
Problema 3
Na tabela abaixo são mostrados os tempos entre chegadas dos veículos a uma
lanchonete e o tempo de atendimento de cada um. Avalie o desempenho
operacional desse serviço.
Veículo 1 2 3 4 5 6 7 8 9 10 11 12
Intervalo 2 3 3 3 5 0 1 5 1 4 1 2
Duração 1 2 1 1 3 2 1 4 2 3 1 3
Problema 4
Pretende-se analisar o setor de atendimento de um almoxarifado, que atualmente
tem um funcionário para atender os pedidos durante 24 horas em turnos de 6 horas.
O intervalo entre chegadas de pedidos é conhecido, bem como o tempo de
atendimento (composto do picking, montagem, embalagem e despacho). Em
determinados instantes, caracterizados pelos intervalo entre paradas, este
funcionário é chamado para intervir com urgência em determinado local e para o que
está fazendo, retomando o serviço quando voltar. O intervalo entre chamadas
externas e o tempo de cada parada externa são conhecidos. Modelo o problema em
busca de informações sobre o desempenho do sistema.
O problema 1 tem como característica principal o objetivo de minimização do custo
de transporte, o que indica que um método de otimização baseado em Programação
Linear é o mais adequado para sua solução.
O problema 2 tambem objetiva obter a distribuição do material a mímo custo, mas as
caraterísticas do problema mostram tratar-se de um problema clãssico de
17
roteirização, que dependendo do seu porte (número de clientes, janelas de tempo e
etc.) poderá ser resolvido por meio de heurísticas.
Os problemas 3 e 4 descrevem mais detalhadamente a operação de um sistema.
Em ambos pede-se a avaliação do desempenho operacional do sistema, sem
qualquer menção a otimização do sistema. É para essa classe de problemas que a
simulação é mais recomendada para ser aplicada.
Cabe destacar que nos problemas 3 e 4 fica evidenciado a presença da formação de
filas (de automóveis no problema 3 e de pedidos no problema 4).
A formação de fila de itens devido a existirem recursos ocupados e que estão sendo
usados por itens que chegaram anteriormente, mostra a necessidade de conhecer
mais detalhadamente conceitos básicos de Teoria de Filas, que serão apresentados
no próximo capítulo.
Os problemas 3 e 4 serão abordados com mais detalhes durante o curso.
18
2 - Introdução à Teoria de Filas
Uma fila se caracteriza pela espera de pessoas, veículos e qualquer outro elemento,
que ao buscarem serviço num ou em vários postos de atendimento, não podem ser
atendidos no momento que chegam pois todos os postos disponíveis estão
ocupados.
A teoria de filas se ocupa com a elaboração e solução de modelos matemáticos que
representem os processos de fila, com a finalidade de obter estimativas de boa
qualidade para parâmetros importantes do processo, tais como tempo médio de
espera, tempo médio de permanência no sistema, número médio de elementos no
sistema e na fila, e outras características menos agregadas, como distribuição do
tempo de espera e distribuição do número de clientes no sistema.
2.1 - Introdução
O procedimento para o estudo de um problema de fila pode ser resumido em 4
etapas:
• identificar e relacionar as variáveis que condicionam o problema;
• identificar as distribuições probabilísticas dos processos de chegada e
atendimento dos elementos;
• aplicar a teoria de filas ou técnicas de simulação probabilística;
• analisar as respostas e modificar os parâmetros do problema, buscando
verificar as alterações na operação do sistema.
A teoria de filas não é um método HVWULWDPHQWH�de otimização, mas é uma ferramenta
poderosa capaz de fornecer as seguintes informações sobre o processo de
formação de filas:
• tempo médio de espera de cada elemento em fila;
• tempo médio de permanência de um elemento no sistema;
• número médio de elementos em fila;
• ocupação do sistema de atendimento.
19
Retomando o problema 3 apresentado na seção 1.4, abaixo enunciado:
Na tabela abaixo são mostrados os intervalos entre chegadas dos veículos a uma
lanchonete e o tempo de atendimento de cada um (em minutos). Avalie o
desempenho operacional desse serviço.
Veículo 1 2 3 4 5 6 7 8 9 10 11 12
Intervalo 2 3 3 3 5 0 1 5 1 4 1 2
Duração 1 2 1 1 3 2 1 4 2 3 1 3
Pergunta-se: Houve formação de filas ?
Calcule: O intervalo médio entre chegadas, o tempo médio de atendimento, o tempo
médio de espera em fila de todos os veículos, o tempo médio de espera em fila
daqueles veículos que efetivamente esperaram em fila, tempo médio de
permanência dos veículos na lanchonete, a relação tempo em fila pelo tempo médio
de atentimento (Tw/Ts), a ocupação do ponto de atendimento e o indice de
congestionamento do sistema.
Para resolver o problema utilize a tabela abaixo:
Cliente Intervalo
entre
chegadas
Instante da
Chegada
Tempo médio
de atendimento
Início de
atendimento
Fim do
atendimento
Tempo
em fila
1
2
3
4
5
6
7
8
9
10
11
12
20
2.2 - Processos de Chegadas e de Atendimentos
Nos problemas de fila é necessário caracterizar-se os processos de chegada e de
atendimento dos elementos, por meio da identificação das distribuições de
probabilidades que regem esse processos. Para que isso seja possível, deve-se
proceder inicialmente a uma coleta de dados sobre os intervalos de tempo entre
chegadas e os tempos de atendimento em cada posto.
Concluída a etapa acima, pode-se elaborar tabelas de freqüências acumuladas para
as distribuições observadas dos intervalos entre chegadas e dos tempos de
atendimentos (admite-se que as médias dos tempos de atendimento já foram
testadas estatisticamente e rejeitou-se a hipótese de médias diferentes).
Para a aplicação da teoria de filas é interessante, mas não necessário, que as
distribuições observadas tenham um modelo teórico associado (exponencial, erlang,
uniforme ou normal, entre outras). Deve-se, portanto, proceder a um teste de
aderência para verificar qual modelo teórico melhor se adapta à distribuição
observada.
2.3 - Disciplina de Serviço
Quando o cliente entra no sistema, ele poderá esperar em fila algum tempo
enquanto aguarda até que um servidor esteja disponível. As filas são sempre
regidas por algumas regras de funcionamento. Assim, deve-se especificar uma
disciplina de serviço para o sistema. Entre as disciplinas comumente utilizadas,
destacam-se:
• FCFS (first-come-first-served) ou FIFO (First in First out of Queue) - primeiro a
chegar, primeiro a ser atendido, onde os clientes são atendidos na ordem em
que eles chegam;
• LCFS (last-come-first-served) - último a chegar, primeiro a ser atendido;
• SIRO (served-in-random-order) - atendimento aleatório dos elementos em fila;
• GD (generic discipline) – disciplina genérica de atendimento.
21
2.4 - Estrutura do Sistema
A estrutura mais simples de um sistema com fila é formada por uma fila e um único
servidor, como representado na figura 3.
Figura 3: sistema de uma fila e um servidor
Uma estrutura mais próxima daquela encontrada dentro de uma agência bancária é
representada na figura 4. Neste caso, existe uma fila única de clientes que são
atendidos por um dos servidores disponíveis em paralelo.
Figura 4: Sistema de uma fila e vários servidores em paralelo
Em sistemas de manufatura, várias peças (ou “clientes”) entram em um sistema
composto por diversas máquinas (“servidores”). Cada peça segue então, um
caminho próprio dentro do sistema, por exemplo, ela pode passar pelo torno
Chegada de
clientes
Clientes em fila
Servidor
Saída
Chegada
de clientes
Clientes em fila
Servidores
Saída
22
mecânico, a seguir pela furadeira e, por último, pela máquina fresadora. Cada
máquina tem a sua própria distribuição do tempo de atendimento e cada peça pode
esperar em fila antes de ser atendida por cada máquina. Um sistema deste tipo é
chamado de “rede de filas”. A figura 5 exemplifica essa situação, onde os clientes
são atendidos em série pelas máquinas. Apesar da sua importância, a obtenção de
resultados analíticos para este tipo de sistema é extremamente difícil e não faz parte
do escopo deste trabalho.
Figura 5: sistema de fila com servidores em série.
2.5 - Notação de Kendall-Lee
A caracterização de um processo de fila é dada pela notação de Kendall-Lee:
(a/b/c):(d/e/f)
onde:
a: indica o processo de chegadas dos elementos aos postos de atendimento,
definido pela distribuição estatística das chegadas ou do intervalo entre chegadas
entre elementos. Estas são as abreviações padronizadas:
• M = tempo entre chegadas são variáveis aleatórias independentes,
identicamente distribuídas (iid) com distribuição exponencial;
• D = tempo entre chegadas são iid e determinístico;
• Ek = tempo entre chegadas são variáveis aleatórias iid com distribuição
erlang de parâmetro k;
• GI = tempo entre chegadas são variáveis aleatórias iid com distribuição
genérica;
Chegada de
clientes
Servidores
Saída
Clientes em fila
23
b: indica o processo de atendimento dos elementos em cada posto de serviço,
definido pela distribuição estatística do tempo de serviço com as mesmas
abreviações utilizadas para os tempos entre chegadas sucessivas. Os postos de
serviço podem estar dispostos em paralelo ou em série;
c: é o número de postos de serviços em paralelo;
d: é a disciplina de atendimento dos elementos da fila como descrita na seção 3:
FCFS, LCFS, SIRO e GD.
e: é o número máximo de elementos no sistema (fila mais postos de serviço). Um
caso típico desse exemplo é a limitação da área da baía de espera num porto, que
obriga os navios excedentes buscarem refúgio em portos próximos, desistindo de
esperarem em fila naquele local;
f: é o número de elementos que freqüentam o sistema. No caso de terminais
privados, como o da Petrobrás, por exemplo, o número de navios que lá atracam é
finito e conhecido. No caso de terminais portuários públicos, pode-se considerar o
número de navios que lá freqüentam como infinito, ou seja o processo de chegadas
não é influenciado pela população de navios que freqüentam o terminal.
Por exemplo, 0/*/3/FCFS/5/∝, significa um sistema em que:
• os tempos entre chegadas sucessivas seguem uma distribuição exponencial;
• os tempos de atendimento seguem uma distribuição genérica;
• existem três servidores que podem realizar atendimento;
• a disciplina de serviço é a do primeiro a chegar – primeiro a ser atendido;
• no máximo 5 clientes podem estar no sistema simultaneamente;
• o número de clientes que podem freqüentar o sistema é infinito.
Convém mencionar que, em muitas situações, a fila é especificada apenas
pelo primeiro termo (a/b/c).
2.6 - Regime Transitório vs. Estado Estacionário
Considere, por exemplo, o restaurante da faculdade. O proprietário deseja
determinar quantas caixas de pagamentos colocar à disposição dos seus clientes.
24
Pela sua experiência, ele sabe que existem horários de pico de atendimento (almoço
ou jantar), em que a taxa de chegadas de clientes aumenta repentinamente. Em
uma situação como esta, fica a dúvida: o sistema deve ser estudado em um intervalo
de tempo curto (somente os horários de pico) ou longo (ao longo do dia)?
A resposta para esta pergunta depende de uma análise empírica dos dados. Se a
variação da taxa de surgimento de clientes for alta a ponto de comprometer os
valores médios, de fato a análise forçosamente deverá ser realizada para um
período curto de tempo. Contudo, em intervalos de tempo menores o estado inicial
do sistema pode afetar diretamente o comportamento médio do sistema. No caso do
restaurante, por exemplo, se já existia alguma fila de atendimento às 11:30 hs (início
do horário do almoço), essa fila pode nunca se dissipar ao longo da próxima hora,
afetando diretamente o desempenho do sistema dentro do período de análise.
Portanto, o sistema deve ser analisado no seu regime transitório, que é dependente
das condições iniciais do sistema.
Por outro lado, se as condições iniciais do sistema dissipam-se, ou seja, o período
de análise é suficientemente longo para que as condições iniciais não afetem o
comportamento médio do sistema, a análise é feita para o estado estacionário.
Devido à natureza matemática do problema, o regime transitório é de análise
extremamente difícil. Neste trabalho, consideraremos apenas a análise de estado
estacionário.
2.7 - Fórmula de Little
Considere qualquer sistema de fila em estado estacionári, onde:
λ : a taxa média de chegadas de clientes no sistema;
/: o número esperado de clientes no sistema (em fila + atendimento);
:: tempo esperado de que um cliente permaneça no sistema (fila + atendimento).
Para este sistema, a fórmula de Little pode ser colocada como:
:/ λ=
Está formula também pode ser colocada em função do numero esperado de clientes
na fila (tamanho médio da fila) / � e do número esperado de clientes em atendimento
/ � .
25
Por exemplo, considere um sistema com apenas um servidor que, em média, recebe
30 clientes por hora. Se o tempo médio de atendimento é de 5 minutos, temos neste
caso, 30=λ clientes/h e :=5/60 h. Portanto, o número esperado de clientes neste
sistema será de:
5,2605
30 =×== :/ λ clientes.
2.8 - Modelo de fila 0/0/1
1
1
2
0
ρρρ
ρρ
−+=
−== ∑
∞
=
/RX
MS/ � �
sendo que é o índice de congestionamento calculado pela razão λ�� .
Convém observar que, conhecido o valor de / o tempo médio de permanência no
sistema pode ser obtido a partir da fórmula de Little / = λ�:. Assim:
λµ −= 1:
)( λµµλ−
=�: e µ1=�:
Para encerrar a apresentação do modelo 0/0/1, cabe mencionar que a
probabilidade estacionária SM, é uma medida da relação entre o tempo em que há M elementos no sistema e o tempo total de observação do processo.
2.9 - Modelo 0/0/V
11
00 !
1!
1
−−
=
−
+
= ∑
�
�
��
VV
VQSλµ
µµλ
µλ
26
,...2,1, !
)(
,...,1 !)(
0
0
++==
==
− VVVMSVVVS
VMSMVS
���
�
��
ρ
ρ
A probabilidade de existência de fila é dada por:
0)1(!)(
)( SVVVM3
�
ρρ−
=≥
e o número médio de elementos no sistema / é dado por:
ρ
ρµλ
−≥+=
1)( VM3/
Consequentemente:
ρ
ρ−≥=
1)( VM3/ �
µλ=�/
2.10 - Estudo da fila 0/*/1
)1(2
)1( 22
ραρρ
−++=′/
onde αM é o coeficiente de variação da distribuição dos tempos de atendimentos, isto
é: α é a razão entre o desvio padrão e a média dos tempos de atendimentos. A
figura 6 mostra o efeito do índice de congestionamento ρ, sobre o número médio de
elementos no sistema /. É interessante examinar a equação anterior considerando o ponto de vista de
alguém que precisa dimensionar um sistema de atendimento, com um único
servidor, para atender uma demanda de serviço cuja chegada é Poisson, com taxa λ
� De um lado, é necessário projetar o sistema de serviço de forma que o tempo
médio de atendimento seja menor que 1/λ e conduza a valores de ρ� relativamente
afastados de 1, para evitar um crescimento excessivo da fila, conforme se observa
na figura 6.
27
10
L’
ρ
Figura 6 - Número de elementos no sistema em função de índice de
congestionamento
Por outro lado, para um dado tempo médio de atendimento, o desempenho do
sistema melhora bastante se for possível reduzir a dispersão de tempo de
atendimento em torno de sua média. Por exemplo, se o atendimento for
determinístico, com tempo constante, (α=1), o número médio de elementos na fila,
que corresponde à segunda parcela do lado direito da equação, será metade do
valor correspondente a um atendimento exponencial, para o qual α�= 1.
Para finalizar esse rápido estudo da fila 0/*/1, convém ressaltar que, em virtude de
que os tempos de atendimento têm memória, esta fila não pode ser estudada num
instante genérico W e todos os resultados obtidos se referem aos instantes escolhidos
para observação do sistema.
Desta forma, a probabilidade estacionária π� é uma medida da razão entre o número
de vezes que o processo está no estado M e o número total de observações feitas
nos instantes de saída em regime estacionário.
28
2.11 - Estudo de caso: Expansão de um terminal portuário
Nesta subseção será estudado um exemplo de expansão portuária, com base na
Teoria de Filas e nos custos associados.
Admita-se um terminal importador de matérias primas para a indústria de
fertilizantes, inicialmente dotado de 1 berço de atracação, cuja capacidade de
atendimento nominal é de 5.000 toneladas por dia, com distribuição exponencial.
Cada berço tem custo anual de 10 milhões de reais(CB) e a obra de construção e
montagem de equipamentos demora 3 anos para ficar pronta. Os navios que operam
neste terminal tem capacidade de carga de 40.000 toneladas e na atual situação as
importações anuais são de 1.00 milhões de toneladas por ano. Pode-se admitir que
a chegada de navios obedeça uma distribuição exponencial e o custo diário do navio
é da ordem de 10000 reais (CD).
Prevê-se que a importação dessa matéria prima aumente 10% a cada ano, em
relação ao período imediatamente anterior.
Admitindo-se que ao expandir a importação e o terminal portuário as distribuições
permaneçam exponenciais para a chegada e atendimento dos navios, pode-se
projetar o número de berços e equipamentos necessários, de tal forma que o custo
global anual do sistema seja mínimo.
O problema caracteriza-se na determinação do número de berços, que minimize o
custo global do sistema, para cada patamar de importação a ser considerado.
A equação do custo total anual do sistema (CT) é
Custo Total = CT = custo berço + custo operação
CT = NB *CB +TE * NV * CD)
onde NB é o número de berços do terminal
TE é o tempo médio de espera por navio
NV é o número de navios que freqüentam o terminal por ano
obs.: Os valores de CB e CD são conhecidos e o valor de CT depende do número de
berços e do nível de importação
29
NV é calculado em função do volume de importação anual dividido pela capacidade
do navio. Fixado um número de berços (NB), pode-se determinar a ocupação do
terminal para incrementos do nível de importação e pela teoria de filas, adotando-se
um modelo (M/M/c):(FIFO/∞/∞), pode-se determinar um valor para o tempo médio de
espera de cada navio (TE).
A tabela 2 mostra para cada ano de operação do terminal, o nível de importações, o
número de navios que freqüentam o terminal por ano (NV) e a taxa de chegada (λ)
de navios por dia.
A tabela 3 mostra para cada número de berços no terminal, a evolução do tempo
médio de espera dos navios (TE), o custo total do sistema (CT) e a taxa de
ocupação do terminal (ρ)
30
Tabela 2 - Nível de importação, número de navios e taxa de chegadas de navios
Ano de
Operação do
terminal
Nível de
importações
Número de
navios por
ano(NV)
Taxa de
chegadas de
navios por dia
1 1000 25 0.0684
2 1100 27. 0.0763
3 1210 30. 0.0840
4 1331 33. 0.0924
5 1464. 36. .101
6 1610. 40. .111
7 1771. 44. .123
8 1948. 48. .135
9 2143. 53. .148
10 2357. 58. .163
11 2593. 64. .180
12 2853. 71. .198
13 3138. 78. .217
14 3452. 86. .239
15 3797. 94. .263
16 4177. 104 .290
17 4594. 114 .319
18 5054. 126 .351
19 5559. 138 .386
Pela tabela 3, nota-se que o terminal portuário com NB=1 atinge a saturação (ρ>1).
No o sétimo ano de operação e para NB=2, após o 14° ano e, para NB=3, após o 18
° ano.
31
Até o 4° ano de operação o custo total com 1 berço é menor que o custo total com o
terminal dotado de 2 e 3 berços, porém no 5° ano já é vantajoso operar o terminal
com 2 berços, pois o custo total é menor do que com 1 só berço. Dessa forma, o 2°
berço deveria ter sua construção iniciada já no início do 2° ano.
Idêntica análise pode ser feita para a ampliação do terminal de 2 para 3 berços. No
13° ano de operação o custo anual do terminal com 2 berços supera o custo anual
do terminal com 3 berços. Portanto, o 3° berço deveria ter sua construção iniciada
no 10° ano.
32
Tabela 3 - Custo total e ocupação do sistema
Número de
bercos=1 (NB)
Ano de Operação
do terminal
Tempo médio de
espera do navio
em dias (TE)
Custo total do
sistema (CT)
Ocupação do
sistema (ρ)
1 9.69 12424. .547
2 12.58 13457. .611
3 16.40 14963. .672
4 22.70 17554. .739
5 34.86 22763. .813
6 67.99 37376. .894
7 498.3 230712 .984
Número de
bercos=2 (NB)
Ano de Operação
do terminal
Tempo médio de
espera do navio
em dias (TE)
Custo total do
sistema (CT)
Ocupação do
sistema (ρ)
1 .649 20162. .273
2 .823 20226. .305
3 1.018 20308. .336
4 1.26 20421. .369
5 1.58 20580. .406
6 2.00 20805. .447
7 2.55 21132. .492
8 3.31 21615. .541
9 4.39 22354. .595
10 6.01 23543. .654
33
11 8.63 25599. .720
12 13.5 29637. .792
13 25.3 39877. .871
14 91.5 98986. .958
Número de
bercos=3 (NB)
Ano de Operação
do terminal
Tempo médio de
espera do navio
em dias (TE)
Custo total do
sistema (CT)
Ocupação do
sistema (ρ)
1 0.0632 30015. .182
2 0.0866 30023. .203
3 .114 30034. .224
4 .150 30050. .246
5 .198 30072. .271
6 .262 30105. .298
7 .346 30153. .328
8 .460 30224. .360
9 .613 30328. .396
10 .821 30484. .436
11 1.10 30719. .480
12 1.51 31081. .528
13 2.10 31653. .581
14 3.00 32594. .639
15 4.46 34240. .703
16 7.12 37437. .773
17 13.0 45040. .850
18 36.7 76422. .936
34
2.12 – Limitações da Teoria de Filas
Os modelos analíticos ou analíticos-numéricos de teoria de filas, quando disponíveis,
fornecem resultados mais precisos e mais completos do que aqueles obtidos por
meio de simulação probabilística do processo de filas. Há, porém, várias limitações:
as formulações analíticas, como para o tempo médio de espera em fila e outras
informações importantes, são difíceis de serem derivadas para a maioria dos
processos;
regime transiente, ou seja aquele em que algumas variáveis do processo de fila
variam com o tempo, não é profundamente abordado pela teoria, que estuda
basicamente o regime estacionário do processo de filas;
tempo médio de serviço e a distribuição estatística devem ser iguais para todo o
posto de serviço;
a introdução de particularidades no processo de filas, como por exemplo a
interrupção dos serviços portuários devido ao mal tempo regido por uma distribuição
estatística conhecida, acarreta muitas dificuldades na modelagem matemática do
problema e podem inviabilizar a busca por uma solução analítica.
2.13 – Exercício aplicando Teoria de Filas
A chegada de pedidos de manufatura de um determinado produto segue um
distribuição exponencial com média de 20 minutos. Quando esse pedido chega ele é
desdobrado 3 (três) partes, sendo que cada um deles segue um determinado roteiro para a
manufatura de partes daquele produto final. Os tempos de manufaturas são todos regidos
por distribuições exponenciais e da parte A tem média de 40 minutos, da parte B tem média
de 60 minutos e da parte C tem média de 80 minutos. Pretende-se dimensionar o número de
máquina em paralelo necessárias para a manufatura de cada parte do produto final, de tal
forma que o tempo médio de permanência das partes no sistema sejam próximos e o a fila
de espera dos pedidos não seja maior que 2 minutos.
Faça as hipóteses que julgar necessário e utilize a tabela 4 para o cálculo dos
tempos em fila.
35
7DEHOD� �� ±� � 5D]kR� GR� 7HPSR� HP� ILOD� SHOR� 7HPSR�PpGLR� GH� $WHQGLPHQWR� HP�IXQomR�GD��2FXSDomR�GR�3RVWR�H�GR�Q~PHUR�GH�3RVWRV�
36
3 – Introdução à Simulação Discreta
Quanto ao aspecto temporal da variação de estado em um modelo de simulação,
pode-se classificá-lo em contínuo (simulação contínua) e discreto (simulação de
eventos discretos). O primeiro é utilizado para modelar sistemas cujo estado varia
continuamente no tempo, como no caso do aquecimento de um metal. A simulação
contínua emprega equações diferenciais para o cálculo das variáveis de estado ao
longo do tempo. Já na simulação discreta, a mudança de estado acontece em
instantes discretos, na ocorrência de eventos. Como exemplo, pode-se citar o
processo de chegada e atendimento de navios a um porto. Em alguns casos são
elaborados modelos mistos ou combinados, que possuem eventos contínuos e
discretos.
A simulação de sistemas discretos baseia-se portanto, na técnica de geração de
eventos. Uma vez que o sistema estiver descrito e modelado, serão conhecidas
todas as atividades e entidades envolvidas. Cada evento, que significa o início ou
fim de uma atividade, pode ser perfeitamente caracterizado, e uma lista cronológica
de todos eventos pode elaborada.
Por exemplo, considere o problema da modelagem por simulação de um posto
bancário, que dispõe de dois caixas de atendimento, a princípio considerados
homogêneos. Considere a formação de fila única e atendimento segundo o critério
“do primeiro a chegar será o primeiro a ser atendido”.
As únicas atividades previstas são os atendimentos aos clientes. Os eventos
possíveis são os instantes das chegadas dos clientes, o início e o fim de
atendimento dos clientes em algum dos caixas.
Alguns eventos são simultâneos, como o caso em que a chegada do cliente coincide
com o início de seu atendimento.
No aspecto evolutivo, Nance(1983) mostra que na década de 70, começou a ocorrer
uma mudança de foco na comunidade de simulação de eventos discretos de uma
abordagem centrada em “programa de simulação” para uma abordagem em “modelo
de simulação”, em que a importância principal é o entendimento humano do
problema e sua modelagem, e não o aspecto de codificação dos modelos no
computador.
37
Pedgen(1995), criador da linguagem SIMAN, empregada no desenvolvimento de
projetos e pesquisas, mostra que a simulação discreta tem que ter como objetivo a
descrição do comportamento de sistemas; a construção de teorias ou hipóteses que
explicam o comportamento observado e, finalmente, o uso do modelo para prever
um comportamento futuro (efeitos produzidos por mudanças no sistema ou na sua
forma de operar).
Para isso, faz-se necessário o uso da abordagem sistêmica, pois a mesma procura
considerar o desempenho total do sistema e não se concentrar nas partes. Isto se
baseia no fato de que mesmo que cada elemento ou subsistema esteja otimizado do
ponto de vista de dimensionamento, projeto ou operação, o desempenho global do
sistema pode estar subotimizado devido às interações entre as partes.
Como benefícios do uso da simulação como ferramenta de apoio à decisão, Pedgen
indica que:
• podem ser testadas novas políticas, procedimentos operacionais, tomadas de
decisão, estruturas organizacionais, fluxos de informações, etc; ou seja,
podem ser avaliadas novas estratégias sem comprometer ou intervir nas
operações presentes;
• novos arranjos físicos numa linha de montagem como também novos
sistemas de transportes podem ser testados antes do emprego de recursos
para a sua aquisição e/ou implantação;
• podem ser testadas diversas hipóteses sobre como ou por que certos
fenômenos ocorrem, buscando sempre a viabilidade do sistema;
• o tempo pode ser controlado, expandindo-o ou comprimindo-o, de forma a
acelerar ou não um fenômeno para estudo;
• são identificados os gargalos do sistema;
• ganha-se compreensão de quais variáveis são mais importantes para o
desempenho e como estas variáveis interagem;
• um estudo de simulação permite comparar como um sistema concebido
opera, confrontando-o com o que se pensa a respeito deste sistema;
• é possível realizar análises do tipo "what-if", ou seja, analisar diversas
situações, cenários e a robustez dos parâmetros do sistema em estudo.
38
Como desvantagens tem-se que:
• a simulação requer um treinamento especializado, uma vez que a qualidade
da análise depende da qualidade do modelo e da qualidade do analista;
• o tratamento dos dados de entrada do modelo de simulação é uma tarefa
importante para o analista;
• os dados de saída podem ser de difícil interpretação, pois uma vez que o
modelo está buscando capturar a aleatoriedade do sistema real, é geralmente
difícil determinar se o resultado de um processamento é devido às interações
presentes no sistema, ou se é devido à aleatoriedade embutida no modelo.
3.1 – Modelagem de Sistemas utilizando Simulação Discreta
A modelagem de sistemas discretos depende da caracterização prévia do
problema em estudo. A definição dos limites do sistema que se pretende modelar, de
seus parâmetros e propriedades de interesse são igualmente importantes.
Utilizando-se os conceitos de ENTIDADE, EVENTO e ATIVIDADES pode-se
definir o esquema das operações de diversos sistemas:
ENTIDADE - é um objeto de interesse dentro do sistema e que por ele flui (Ex:
veículos chegando a lanchonete, peças chegando e fluindo pelos sistemas de
manufatura e etc.);
ESTADO DO SISTEMA - é número de entidades dentro do sistema, seja em fila ou
em atendimento;
ATIVIDADES - são ocorrências durante um intervalo de tempo que mudam o
ESTADO do sistema;
EVENTO - é todo início ou fim de uma ATIVIDADE;
PROPRIEDADES do sistema - são valores observados de algumas ENTIDADES de
interesse do sistema, medidos em algum instante de tempo qualquer.
Cabe ressaltar a importância dos dados para a modelagem e a condução do
experimento de simulação, que será discutida em seção específica adiante.
39
3.1.1 - Caracterização dos processos de chegada e atendimento
Assim como já foi discutido no capítulo 2, para a utilização da Simulação Discreta é
necessário também caracterizar-se os processos de chegada e atendimento dos
elementos, por meio da identificação das distribuições de probabilidades que regem
esse processos. Para que isso seja possível, deve-se proceder inicialmente a uma
coleta de dados sobre os intervalos de tempo entre chegadas e os tempos de
atendimento em cada posto.
Nem sempre os dados coletados podem ser diretamente utilizados para a
elaboração de tabelas de frequências e para pesquisa de qual modelo probabilístico
teórico adere aos dados coletados. Recomenda-se analisar os dados utilizando um
pacote estatístico, tal como o MINITAB. O anexo A será dedicado exclusivamente a
análise dos dados necessários à simulação.
Concluída a etapa de análise de dados acima mencionada, pode-se elaborar
tabelas de frequências acumuladas para as distribuições observadas dos intervalos
entre chegadas e dos tempos de atendimentos (admite-se que as médias dos
tempos de atendimento já foram testadas estatisticamente e rejeitou-se a hipótese
de médias diferentes). O objetivo disso é buscar uma aderência de um modelo
teórico associado, como por exemplo uma exponencial, erlang, uniforme, normal e
etc.. Deve-se, portanto, proceder a um teste de aderência para verificar qual modelo
teórico se adapta a distribuição observada.
3.1.2 - Geração de números aleatórios
Os processo de chegada e atendimento são estocásticos e regidos por
distribuições de probabilidade com modelos e parâmetros conhecidos (num caso
real admite-se que previamente houve a análise de aderência dos dados coletados
com referência a modelos teóricos).
A geração de cada um dos intervalos de chegada ou tempos de atendimento
das entidades, deve ser feita segundo as seguintes etapas:
40
- sorteia-se um número aleatório uniformemente distribuído entre 0 e 1, para cada
atividade prevista no modelo;
- utilizando-se a função inversa da distribuição de probablilidade e o número
aleatório, determina-se o intervalo de tempo.
Procedimento semelhante pode ser usado se a distribuição de probabilidade
de uma função estiver definida numa tabela de frequências acumuladas.
Os números aleatórios entre 0 e 1, em geral, são calculados por algoritmos,
que partem de um valor inicial denominado "semente" e, por meio de diferentes
manipulações matemáticas, geram os chamados números pseudo-aleatórios.
Um exemplo de gerador de números aleatórios é o método da congruência ou
resíduo. Considerando a, b, P e a semente Co como parâmetros iniciais; o
algoritmo é descrito abaixo:
- calcula-se o valor: X = (a.Co + b)/P
- toma-se Y como o valor inteiro de X
- calcula-se C1 = X - Y (primeiro número aletório entre 0 e 1 gerado);
- Substitui-se C0 por C1 e repete-se o algoritmo a partir do primeiro passo,
possibilitando a geração de quantos números aleatórios forem necessários..
Adotando-se, a,b e P, suficientemente grandes, a quantidade de números
gerados é muito grande, até a formação de um ciclo ou sequência.
Os números gerados por esse método são chamados de números pseudo
aleatórios, especialmente porque não se garante que, depois de um grande número
de iterações, a sequência gerada não volte a se repetir.
Uma questão clássica é saber se a sequência de números aleatórios gerados
é realmente aleatória, pois o método empregado pode esconder uma sequência bem
definida de operações matemáticas que definem a geração dos números. Alguns
testes podem ser aplicados para se responder essa questão. São eles:
- teste do qui-quadrado para testar a aderência de uma distribuição uniforme de
números entre 0 e 1 sobre a sequência de números geradas;
41
- teste de independência, que checa se existe correlação na sequência de números
obtida pelo método empregado.
Cabe ressaltar a importância de se alterar as sementes dos geradores de
números aleatórios a cada novo processamento da simulação de um modelo, cuja
sistemática será discutida em seções adiante.
3.1.3 - Geração das variáveis aleatórias
Dada uma distribuição de probabilidade, que pode representar o processo de
atendimento ou chegada de veículos, deve-se proceder à geração de valores da
variável aleatória regida por tal distribuição, para que possam ser usados no
processo de simulação.
Abaixo serão mostradas as formas de avaliação das funções uniforme,
exponencial, erlang de ordem k e normal, admitindo-se que ri sejam números
aleatórios sorteados entre 0 e 1.
- Função Uniforme de valores entre A e B, com B maior que A
A função distribuição da Uniforme é:
F(x) = (x-A)/(B-A), 0 <= F(x) <= 1.
A função inversa dessa distribuição é x = A + (B-A).F(x). Substituindo F(x) por ri,
que é um número aleatório com distribuição é uniforme entre 0 e 1 obtido por um
gerador de números aleatórios, pode-se obter valores para a variável x, cuja
distribuição, por definição, é uniforme entre A e B.
- Função Exponencial com média T
A função distribuição da exponencial é F(x) = 1 - e-λx , onde λ = 1/T.
42
A inversa dessa função é x= -T . ln[F(x)] Substituindo F(x) por ri, que é um número
aleatório com distribuição é uniforme entre 0 e 1 obtido por um gerador de números
aleatórios, pode-se obter valores para a variável x, cuja distribuição é exponencial
com média T.
- Função Erlang de Ordem K e média T
X é uma variável aleatória com distribuição erlang de ordem k e média T, se x
for a resultante da somatória de k variáveis aleatórias independentes com
distribuição exponencial de média T/k.
- Função Normal
Para a obtenção de uma variável Y distribuída segundo uma função normal
com média 0 e variância 1, utiliza-se a formulação abaixo, onde U1 e U2 são
variáveis aleatórias entre 0 e 1:
Y = (-2 ln U1)1/2 . cos (2πU2)
Obtido o valor Y e conhecidos os valores da média µ e do desvio padrão σ
da população com distribuição normal, obtem-se o valor X atra'ves da fórmula:
Y = (X - µ)/σ
43
3.1.4 – Montando uma Simulação
A simulação de sistemas discretos baseia-se na técnica de geração de
eventos. Descrito e modelado o sistema discreto, são conhecidas todas as
atividades e entidades envolvidas. Cada evento, que significa o início ou fim de uma
atividade, pode ser perfeitamente caracterizado e uma lista cronológica de todos
eventos pode elaborada.
Retomando-se o exemplo enunciado no início deste capítulo, em que um
posto bancário tem 2 caixas de atedimento, considere que após a análise de dados
e os testes de aderência efetuados, determinou-se que os intervalos entre chegadas
consecutivas de pessoas são regidas por uma distribuição exponencial de média
240 segundos e o atendimento é feito nos caixas é regido por distribuições
exponenciais de média 400 segundos cada um. Considere a formação de fila única e
atendimento segundo o critério de primeiro a chegar, primeiro a ser atendido.
As únicas atividades previstas são os atendimentos dos clientes. Os eventos
possíveis são os instantes das chegadas, o início e fim de atendimento dos clientes
nos caixas.
O modelo para simulação deste exemplo segue as fases abaixo indicadas:
- geram-se os intervalos entre chegadas de clientes ao banco (em segundos);
- cada cliente entra em fila e aguarda a liberação de um dos 2 caixas;
- o cliente sai da fila e ocupa um caixa vazio;
- gera-se o tempo de atendimento do cliente (em segundos);
- o cliente libera o caixa que estava ocupando.
As propriedades do sistema a serem calculadas neste exemplo são as
seguintes: Comprimento médio da fila, tempo médio de espera em fila, tempo médio
de permanência dos clientes no banco e ocupação dos caixas.
Como a distribuição probabilística dos intervalos entre chegadas consecutivas
de clientes é conhecida, pode-se elaborar, usando-se geradores de números
aleatórios, uma lista com o instante (em segundos) em cada que cliente chegou ao
banco. Deve-se adotar um horizonte para o tempo total de simulação do sistema,
neste exemplo fixado em 4800 segundos.
44
A tabela 5 mostra na coluna 2 os intervalos entre chegadas consecutivas de
clientes e na coluna 3 mostra os instantes de chegada dos clientes (evento chegada
do cliente ao banco), que são os valores acumulados da coluna 2.
Tabela 5 - Intervalos entre chegadas consecutivas e os instantes de
clientes (em segundos)
Número do Cliente
Gerado
Intervalo entre
Chegadas
Instante de chegada
do cliente
1 0 0
2 186 186
3 85 271
4 266 537
5 492 1029
6 381 1410
7 157 1567
8 125 1692
9 145 1837
10 427 2264
11 89 2353
12 187 2540
13 9 2549
14 264 2813
15 43 2856
16 62 2918
17 693 3611
18 440 4051
19 217 4268
20 199 4467
21 253 4720
45
Conhecida a quantidade de clientes gerada no tempo total de simulação de
4800 minutos, pode-se gerar o tempo de atendimento de cada cliente usando-se a
distribuição estatística da atividade de atendimento do cliente (exponencial com
média de 400 segundos).
A tabela 6 mostra o tempo de atendimento sorteado para cada cliente.
Note-se que somente um evento foi perfeitamente caracterizado, ou seja a
chegada de cliente, que depende somente do sorteio da distribuição estatística
associada.
O processo de simulação caracteriza-se pela determinação de todos os
eventos envolvidos no sistema, durante o período de análise, para que sejam
posteriormente ordenados cronologicamente. Neste exemplo falta calcular os
eventos de início e fim de atendimento de cada cliente.
46
Tabela 6 - Tempos de atendimento dos clientes (em segundos)
Número do Cliente
Gerado
Tempo de
Atendimento do cliente
1 431
2 374
3 641
4 419
5 646
6 524
7 538
8 581
9 672
10 72
11 417
12 273
13 256
14 150
15 487
16 579
17 364
18 776
19 15
20 23
21 244
47
A tabela 7 mostra na coluna 3 o instante de início de atendimento, na coluna 4
o instante de fim de atendimento de cada cliente nas colunas 5 e 6 o tempo de
espera e permanência de cada cliente respectivamente.
Algumas propriedades do sistema já podem ser calculadas usando-se a
tabela 7. São elas:
- tempo médio de espera dos clientes.
Basta calcular a somatória da coluna 5 da tabela 7 e dividir pelo número total
de clientes gerados no período ( No exemplo o valor é de 165 segundos). O tempo
médio de espera, retirando-se aqueles clientes que não esperam em fila, também
pode ser calculado de maneira semelhante.
- tempo médio de permanência dos clientes no banco.
Este valor é dado pela somatória da coluna 6 da tabela 7 e dividido pelo
número total de clientes gerados no período ( No exemplo o valor é de 266
segundos).
48
Tabela 7 - Eventos chegada, inicio e fim de atendimento de cada cliente e tempo de
espera e permanência no banco (em segundos)
Número do
Cliente
Instante de
chegada
do cliente
Tempo
de
Atend.
Início de
Atend.
Fim de
Atend.
Tempo de
Espera do
Cliente
Tempo do
Cliente no-
Banco
1 0 431 0 431 0 431
2 186 374 186 560 0 374
3 271 641 431 1072 160 801
4 537 419 560 979 23 442
5 1029 646 1029 1675 0 646
6 1410 524 1410 1934 0 524
7 1567 538 1675 2213 108 646
8 1692 581 1934 2515 242 823
9 1837 672 2213 2885 376 1048
10 2264 72 2515 2587 251 323
11 2353 417 2587 3004 234 651
12 2540 273 2885 3158 345 618
13 2549 256 3004 3260 455 711
14 2813 150 3158 3308 345 495
15 2856 487 3260 3747 404 891
16 2918 579 3308 3887 390 969
17 3611 364 3747 4111 136 500
18 4051 776 4051 4827 0 776
19 4268 15 4268 4283 0 15
20 4467 23 4467 4490 0 23
21 4720 244 4720 4964 0 244
49
Uma visualização importante do processo de simulação pode ser fornecida
pelo gráfico de estado do sistema, que dá para cada instante do processo de
simulação o número de elementos no sistema, sejam estes esperando em fila ou
sendo atendidos.
A tabela 8 mostra para todos os eventos, cronologicamente ordenados, o
estado do sistema (coluna 2), o instante de ocorrência de cada evento (coluna 3), o
tempo em que o sistema permaneceu naquele estado (coluna 4) e a descrição dos
eventos (coluna 5).
A figura 7 mostra o gráfico do estado do sistema, cuja abscissa contém os
eventos os eventos ocorridos no período simulado
Com as informações da tabela 8 pode-se calcular:
a - o número médio de elementos na fila
A formação de fila se caracteriza toda vez que o número de elementos no sistema
ultrapassa o valor 2. Calculando-se a somatória dos tempos de fila vezes o número
de elementos em fila, para cada trecho do diagrama de estado e dividindo-se pelo
tempo total simulado, obtem-se o número médio dos elementos em fila ( No exemplo
o valor é de 0.722 clientes);
b - número médio de elementos no sistema (em fila mais nos caixas)
De forma semelhante ao cálculo do número médio de elementos em fila, pode-se
achar a média ponderada dos tempos de permanência do sistema de 0 até n
elementos e dividir pelo tempo total simulado ( No exemplo o valor é de 2,45
clientes).
c - o índice de ocupação dos caixas
O índice de ocupação dos caixas é também calculado por meio de uma média
ponderada dos tempos em que as mesmas ficaram vazias, com pelo menos uma
ocupada e com as dias ocupadas, dividido pelo tempo total simulado (No exemplo, o
valor é 73 %).
50
Tabela 8 : Eventos crologicamente ordenados (tempo em segundos)
No.do evento Estado do
Sistema (no. de
clientes)
Instante de
ocorrência do
evento
Tempo de
permanência do
sistema naquele
estado
Descrição do
evento
1 1 0 0 C1=I1
2 2 186 186 C2=I2
3 3 271 85 C3
4 2 431 160 F1=I3
5 3 537 106 C4
6 2 560 23 F2=I4
7 1 979 419 F4
8 2 1029 50 C5=I5
9 1 1072 43 F3
10 2 1410 338 C6=I6
11 3 1567 157 C7
12 2 1675 108 F5=I7
13 3 1692 17 C8
14 4 1837 145 C9
15 3 1934 97 F6=I8
16 2 2213 279 F7=I9
17 3 2264 51 C10
18 4 2353 89 C11
19 3 2515 162 F8=I10
20 4 2540 25 C12
21 5 2549 9 C13
22 4 2587 38 F10=I11
23 5 2813 226 C14
24 6 2856 43 C15
51
25 5 2885 29 F9=I12
26 6 2918 33 C16
27 5 3004 86 F11=I13
28 4 3158 154 F12=I14
29 3 3260 102 F13=I5
30 2 3308 48 F14=I16
31 3 3611 303 C17
32 2 3747 136 F15=I17
33 1 3887 140 F16
34 2 4051 164 C18=I18
35 1 4111 60 F17
36 2 4268 157 C19=I19
37 1 4288 15 F19
38 2 4467 184 C20=I20
39 1 4490 23 F20
40 2 4720 230 C21=I21
41 1 4827 80 F18
42 0 4964 0 F21
Ci = Chegada do Cliente i
Ii = Início de atendimento do cliente i
Fi = Fim de atendimento do cliente i
52
0
1
2
3
4
5
6
1 4 7 10 13 16 19 22 25 28 31 34 37 40
Elementos do Sistema
Eventos
Figura 7 - Diagrama de estado
A figura 8 mostra o diagrama de estado do sistema e pode exibir um
período inicial da simulação em que o sistema ainda não atingiu um comportamento
mais uniforme em termos do número médio de elementos no sistema. Este período
denomina-se de transitório.
3.1.5 – Montando uma Simulação em EXCEL
Retomando o problema 3 apresentado na seção 1.4, abaixo enunciado:
Na tabela abaixo são mostrados os intervalos entre chegadas dos veículos a uma
lanchonete e o tempo de atendimento de cada um (em minutos). Avalie o
desempenho operacional desse serviço.
Veículo 1 2 3 4 5 6 7 8 9 10 11 12
Intervalo 2 3 3 3 5 0 1 5 1 4 1 2
Duração 1 2 1 1 3 2 1 4 2 3 1 3
53
Pede-se com base nos valores intervalo médio entre chegadas e do tempo médio
de atendimento, a simulação da chegada de 5000 veículos na lanchonete com a
avaliação das mesma estatíticas solicitadas anteriormente, assumindo que os
processos de chegada e de atendimento são regidos por distribuições exponenciais.
54
4 - O Processo de Simulação
O analista ao enfrentar um problema e decidindo que utilizará Simulação para
resolvê-lo, não bastará aplicar tão somente os conceitos mostrados no capítulo
anterior.
Pedgen(1995) propõe uma seqüência de passos a serem adotados no
desenvolvimento de estudos de simulação para que estes sejam conduzidos de
forma eficiente:
$��'HILQLomR�GR�3UREOHPD - é a etapa em que ocorre uma definição clara das metas
do estudo, por que se está estudando este problema e que respostas se pretende
encontrar;
%��3ODQHMDPHQWR�GR�3URMHWR - busca-se nesta fase verificar a existência de recursos
físicos, humanos e técnicos para a execução do projeto;
&��'HILQLomR�GR�6LVWHPD - é a etapa em que ocorre a determinação das fronteiras e
das restrições a serem usadas na definição do sistema e a investigação sobre o
funcionamento do sistema;
'�� )RUPXODomR� &RQFHLWXDO� GR� 0RGHOR - é uma etapa em que se desenvolve um
modelo preliminar de forma gráfica (por exemplo, diagrama de blocos), ou em um
pseudocódigo para definir os componentes, as variáveis e as interações lógicas que
constituem o sistema;
(�� 3URMHWR� 3UHOLPLQDU� GR� ([SHULPHQWR� �� consiste na seleção das medidas de
eficiência que serão empregadas, dos fatores a serem variados e dos dados que
precisam ser colhidos do modelo, sua forma e extensão;
)��3UHSDUDomR�GRV�'DGRV�GH�(QWUDGD - consiste na identificação e coleta dos dados
necessários ao modelo;
*� �&RGLILFDomR� GR� 0RGHOR - é a formulação do modelo em uma linguagem de
simulação apropriada;
+��9HULILFDomR�H�9DOLGDomR�GR�0RGHOR - é uma das etapas essenciais do processo e
consiste na confirmação de que o modelo opera da forma que o analista pretendia e
que a saída do modelo é confiável e representativa de um sistema real. A verificação
busca mostrar que o programa computacional se desempenhou como esperado e
pretendido, fornecendo, desta forma, uma correta representação lógica do modelo. A
55
validação, por outro lado, estabelece que o comportamento do modelo representa,
de forma válida, o sistema do mundo real que está sendo simulado.
,��3URMHWR�)LQDO�GR�([SHULPHQWR - consiste em projetar experimentos que irão gerar as
informações desejadas e determinar como cada um dos processamentos
computacionais no projeto será executado;
-��([SHULPHQWDo}HV�H�$QiOLVH�GH�6HQVLELOLGDGH - consistem em executar a simulação
para gerar os dados desejados e realizar análises de sensibilidade;
.���$QiOLVH�H�,QWHUSUHWDomR�GRV�5HVXOWDGRV - consiste em realizar inferências sobre
os dados obtidos pela simulação;
/��,PSOHPHQWDomR�H�'RFXPHQWDomR - são a disponibilização e aplicação dos dados
utilizados e dos resultados obtidos, além de uma documentação do modelo e de seu
uso.
Retomando o exemplo do posto bancário delineado no início do capítulo 3, a
descrição e a montagem do sistema bancário foram bastante simplificadas, pois é
sabido que o problema real de um posto bancário existem fatores que tornam o
probelma mais complexo, como por exemplo o horário de funcionamento, a
preferência pelos idosos e gestantes no atendimento, eventuais falhas no sistema
que interrompem o atendimento em alguns periódos e etc. Se o analista
necessitasse de respostas globais de ocupação e fila desse posto em curto espaço
de tempo, tal enunciado seria suficiente para descrever o sistema bancário em
questão. Com isso, os passos “A”, “B” e “C” do processo de simulação estariam
cumpridos.
O modelo conceitual, que corresponde ao passo ”D” para simulação deste exemplo
com as hipóteses simplificadoras que foram adotadas, segue as fases abaixo
indicadas:
• geram-se os intervalos entre chegadas de clientes ao posto;
• cada cliente entra em fila e aguarda a liberação de um dos dois caixas;
• o cliente sai da fila e ocupa um caixa vazio;
• gera-se o tempo de atendimento de cada cliente e o mesmo é atendido;
• o cliente libera o caixa e sai do posto.
56
As propriedades do sistema que podem ser calculadas neste exemplo são as
seguintes: comprimento médio da fila, tempo médio de espera em fila, tempo médio
de permanência dos clientes no posto e ocupação dos caixas e que representam a
fase “E” do processo de simulação.
O próximo passo do processo de simulação seria, segundo Pedgen(1995) a “F -
Preparação dos dados de entrada”, que basicamente, seria buscar as distribuições
de probabilidade para a geração dos intervalos entre chegada dos clientes e seus
tempos de atendimento, respectivamente. Em seguida o passo “G – Codificação do
modelo” poderia ser executado.
Nota-se, no entanto, que deve haver uma modificação importante nesse
processo de simulação entre os passos “F” e “G”, que é apresentada a seguir.
4.1 - Alteração Proposta ao Processo de Simulação
Cabe ressaltar que toda experimentação ou simulação sempre dependerá de
dados e informações, para que o modelo responda de acordo com a situação real
que originou o problema em estudo.
Um cuidado que todo usuário de simulação deve ter é que um modelo pode
ser muito bem concebido. Todavia, se os dados utilizados para sua experimentação
forem inadequados, os resultados serão desastrosos.
Um ciclo completo de um projeto de simulação foi proposto por Knepell e
Knepell(1993) e é ilustrado na figura 8.
57
Figura 8 - Ciclo completo de um projeto de simulação. Fonte: Knepell(1993)
Em todas as fases observa-se a grande importância dos dados, que devem
estar disponíveis e ser válidos em todas as etapas, uma vez que a existência dos
mesmos direcionará a forma de modelagem, restringirá aspectos da programação e
possibilitará gerar resultados que se aproximam da realidade.
A experiência do autor deste texto, ao longo dos 24 anos da utilização de
técnicas de simulação para solução de problemas, mostra que o correto tratamento
e a investigação dos dados levam a identificação de aspectos importantes a respeito
do problema real e deveriam impor modificações no sistema e no modelo conceitual
formulado. Ou seja, os resultados do passo F - Preparação dos dados de entrada,
geram modificações nos passos anteriores, necessitando que o usuário retorne e
analise os passos “A”, “B”, “C”, “D’ e “E” do processo de simulação proposto por
Pedgen(1995).
No exemplo do posto bancário não seria incomum que o tratamento de dados
identificasse que os atendimentos nos dois caixas fossem estatisticamente
diferentes ou que o processo de atendimento de idosos e gestante seria tão
significativo para a análise que não poderia deixar de ser considerado.
As hipóteses acima levantadas só podem ser comprovadas após o efetivo
tratamento de dados. O Anexo A é dedicado ao tratamento de dados em simuação
58
discreta. Em caso positivo, devem alterar o modelo conceitual de simulação, que
passaria a considerar o atendimento diferenciado em cada caixa.
Defende, portanto o autor, que o processo de simulação tenha a alteração
mostrada na tabela 9 abaixo.
Tabela 9 - Procedimento para análise e modelagem de problemas utilizando técnicas
de simulação
A-) DEFINIÇÃO DO PROBLEMA
B-) PLANEJAMENTO DO PROJETO
C-) DEFINIÇÃO DO SISTEMA
D-) FORMULAÇÃO CONCEITUAL DO MODELO
E-) PROJETO PRELIMINAR DO EXPERIMENTO
F-) PREPARAÇÃO DOS DADOS DE ENTRADA
AO FINAL DESTE PASSO RETORNE AO PASSO “A”
G-) CODIFICAÇÃO DO MODELO
H-) VERIFICAÇÃO E VALIDAÇÃO DO MODELO
I-) PROJETO FINAL DO EXPERIMENTO
J-) EXPERIMENTAÇÃO E ANÁLISE DE SENSIBILIDADE
K-) ANÁLISE E INTERPRETAÇÃO DOS RESULTADOS
L-) IMPLEMENTAÇÃO E DOCUMENTAÇÃO
Fonte: Pedgen(1995) com modificação proposta por Botter (2002).
Assim o modelo conceitual do posto bancário ficaria expresso da seguinte forma,
após a constatação feita pela análise dos dados:
• geram-se os intervalos entre chegadas de clientes ao posto;
• cada cliente, dependendo se é comum ou idoso/gestante entra em uma das
filas em frente aos caixas fila e aguarda a liberação do caixa respectivo;
• o cliente sai da fila e ocupa um caixa vazio;
• gera-se o tempo de atendimento de cada cliente, de acordo com o caixa que
estiver e o mesmo é atendido;
59
• o cliente libera o caixa e sai do posto.
4.2 - O processo de validação de um modelo de simulação
Assim como o correto tratamento de dados deve feito durante o processo de
simulação, a validação do modelo deve ser também uma tarefa contínua.
Balci (����) descreve uma importante forma de modelagem que pode ser
considerada como interativa. Este método, que será descrito a seguir, faz parte de
15 princípios básicos para a Validação, Verificação e Teste (VV&T) de modelos de
simulação durante todo o desenvolvimento do projeto:
1. Os processos de verificação, validação e testes devem ser conduzidos durante
todo o ciclo de vida de um estudo de simulação.
VV&T não é uma fase ou um passo independente no ciclo de vida de um
estudo de simulação mas uma atividade interativa que ocorre ao longo de
todo o processo. O risco de conduzir testes de VV&T pela primeira vez ao
final do ciclo de vida quando um modelo experimental já se encontra pronto,
é a possibilidade de se deixar passar possíveis deficiências ao longo de
cada uma das etapas. Estas etapas podem ser hierarquizadas de diversas
formas. Balci propôs a estrutura esquematizada na figura 9
Os testes aplicados nesta estrutura podem ser estratificados em 5 níveis, a
saber:
1tYHO� � - Testes Particulares - realizados pelo próprio analista de forma
informal;
1tYHO�� - Testes em Módulos do Submodelo - realizados em cada submodelo,
considerados de forma independente, onde são testados diversos cenários
para as variáveis de entrada, analisando-se as saídas. Recomenda-se
documentar cada teste rigorosamente para futuras análises e comparações;
1tYHO� �� - Testes de Integração - objetiva garantir que não existem
inconsistências nas interfaces e na comunicação entre os submodelos quando
estes são combinados de forma a compor o modelo.
1tYHO� �� - Teste do Produto (Modelo) - visa validar globalmente o
comportamento do modelo.
60
1tYHO���- Teste de Aceitação Final - visa estabelecer credibilidade suficiente no
modelo de tal forma que este possa ser aceito e utilizado pelo cliente.
Figura 9 - Estrutura hierarquizada para os processos de verificação e validação.
Fonte: Balci(1997)
2. Os resultados de um processo de VV&T de modelos de simulação não devem
ser considerados absolutamente certos ou absolutamente errados.
Balci alerta para o fato de um modelo dificilmente conseguir representar
perfeitamente a realidade, uma vez que se trata da abstração de um
ProblemaComunicado
ProblemaFormulado
Técnica Propostade Solução(Simulação)
Definição doSistema e dos
Objetivos
ModeloConceitual
VV&T do ProblemaFormulado
Formulaçãodo Problema
Viabilidade de Usoda Simulação
Investigação dasTécnicas de Solução
VV&T da Definição doSistema e dos Objetos
Investigação doSistema
ModeloEsquemático
ModeloProgramado
ModeloExperimental
Resultados daSimulação
Apoio Integradoà Simulação
Formulação do Modelo
Qualificação do Modelo
Representaçãodo ModeloVV&T do Modelo
Esquemático
VV&T do ModeloProgramado Programação
VV&T do Projetode Experimentos
Projeto deExperimentos
Experimentos
Redefinição
VV&T do ModeloExperimental
VV&T dosDados
VV&
T da
Apre
sent
ação
Apre
sent
ação
dos
Res
ulta
dos
da S
imul
ação
61
sistema. Os resultados parciais de VV&T devem direcionar a continuidade
do desenvolvimento do modelo. Contudo, o grau de utilização de um modelo
é influenciado pelo grau de credibilidade do mesmo, conforme pode ser
observado na figura 10.
Figura 10 - Grau de credibilidade do modelo de simulação. Fonte: Balci(1997)
3. Um modelo de simulação é construído de acordo com os objetivos do estudo e
sua credibilidade deverá ser julgada de acordo com estes objetivos.
Deve-se lembrar que os objetivos do estudo é que ditam o nível de
representação do modelo, ou o grau de agregação (detalhamento) adotado.
4. A execução de VV&T em modelos de simulação requer independência para
evitar enviesamento por parte do analista.
Os testes em modelos só são significativos se executados por pessoas
externas ao processo. Como resultados negativos podem interferir na
avaliação de desempenho do analista ou da empresa contratada para a
realização do projeto, estes preferem acompanhar os testes, enviesando os
resultados.
5. A VV&T em modelos de simulação é difícil e requer criatividade e visão.
Para uma avaliação precisa, é necessário compreender todo o modelo de
simulação para projetar e implementar testes que sejam eficientes e
62
adequados ao problema. Além disso, é imprescindível ter domínio do
problema, expertise em modelagem e em técnicas de VV&T.
6. A credibilidade de um modelo de simulação pode ser avaliada apenas dentro das
condições para o qual o modelo é testado.
As condições prescritas para as quais a credibilidade do modelo tem sido
estabelecidas constituem o chamado "domínio de aplicabilidade" do modelo
experimental de simulação. Portanto apenas pode-se avaliar a credibilidade
de um modelo se o cenário simulado se enquadra dentro do escopo ditado
pelo domínio de aplicabilidade.
7. Não é possível um teste completo em modelos de simulação.
Uma checagem exaustiva requer testar todas as possíveis combinações de
valores de todas as variáveis de entrada, o que poderia gerar milhares de
caminhos percorridos internamente no modelo, comprometendo as
restrições de tempo e orçamentária de execução do projeto. Portanto, na
etapa de execução de testes, é imprescindível acompanhar a evolução dos
resultados do modelo, face às diversas entradas, para saber os objetivos
estão sendo atendidos qualitativamente. Já a quantidade de testes
necessários e quando parar estes testes depende do domínio de
aplicabilidade desejado do modelo e este, por sua vez, é função dos
objetivos do estudo de simulação. Os dados para simular podem ser
gerados utilizando: valores aleatórios; valores determinísticos; valores
mínimos para todas as variáveis de entrada; valores máximos para todas as
variáveis de entrada; combinação de valores mínimos e máximos para todas
as variáveis de entrada; valores inválidos e valores já simulados.
8. A VV&T em modelos de simulação tem que ser planejada e documentada.
Conforme já explicitado, os testes não são uma atividade isolada dentro do
processo de simulação, mas sim uma atividade contínua através de todo o
ciclo de vida de um estudo. Desta forma, estes têm que estar devidamente
planejados, identificados, programados e acima de tudo documentados.
63
9. Erros Tipo I, II e III têm que ser prevenidos.
Três tipos de erros podem ser cometidos durante a execução de um estudo
de simulação e são mostrados na figura 11.
Figura 11 - Tipos de erros possíveis num estudo de simulação. Fonte:
Balci(1997)
Erro Tipo I (0RGHO�%XLOGHUV�5LVN) - acontece quando os resultados são rejeitados
quando, de fato, eles são válidos;
Erro Tipo II (0RGHO�8VHUV�5LVN) - acontece quando resultados inválidos são aceitos
como se fossem suficientemente válidos;
ProblemaFormulado
O problemaformulado contémcompletamente oproblema real?
Cometido ErroTipo III
FinalBem Sucedido
Final com ErroTipo I
Final MalSucedido
Final com ErroTipo II
O modeloformulado é representado por
um modelo quepossui credibilidade ?
Osresultados dasimulação são
aceitos ?
OsResultados dasimulação são
aceitos ?
Pode-seassegurar a credibilidade
dos resultados dasimulação ?
O problema real não temsolução que é suficienteO Problema real tem uma
solução que possuicredibilidade
Cometido ErroTipo I
Cometido ErroTipo II
Sim
Não
Não
Sim
Sim
Sim
Sim
Sim
Não
Não Não
NãoPode-se
assegurar a credibilidadedos resultados da
simulação ?
64
Erro Tipo III - acontece quando se resolve o problema errado e seus resultados são
aceitos, apesar do problema formulado não refletir, na realidade, o problema
real.
10. Os erros devem ser detectados o quanto antes num ciclo de vida de um estudo
de simulação.
Isto deve ser uma meta a ser buscada, visando eliminar o retrabalho. Outro
fator complicador é a possível influência de uma alteração em um estágio
inicial, em etapas do estudo de simulação mais avançadas.
11. Um problema com múltiplas respostas deverá ser observado e analisado
adequadamente.
Um modelo com múltiplas variáveis de resposta não poderá ser validado
comparando o valor correspondente da variável de saída do modelo e do
sistema isoladamente utilizando um método estatístico univariado. Um
procedimento estatístico multivariado deverá ser utilizado para incorporar a
correlação entre as variáveis de saída para uma comparação.
12. Testes bem sucedidos nos submodelos não implicam na credibilidade do modelo
como um todo.
Apesar de individualmente estarem validados, o modelo só estará
completamente validado quando o mesmo estiver testado com todas as
parte integradas e interagindo entre si.
13. O problema de dupla validação tem que ser identificado e ser resolvido
adequadamente.
0 problema de dupla validação ocorre quando existem dados disponíveis
sobre a entrada e a saída de um sistema real e, dessa forma, procura-se
comparar estes valores com os resultados de uma simulação. Nesta ocasião
surge o problema de dupla validação que consiste, em primeiro lugar,
garantir que os dados de entrada de ambos os sistemas (real e modelado)
são equivalentes, para depois se validar os resultados obtidos.
65
14. A validação de um modelo de simulação não garante a credibilidade e a
aceitação dos resultados da simulação.
A validação de um modelo de simulação é uma condição necessária mas
não suficiente para a aceitação dos resultados da simulação. Isto porque a
validação tem que ser feita em relação aos objetivos do estudo de
simulação, comparando o modelo e o sistema como foram definidos. Se os
objetivos foram identificados incorretamente ou o sistema foi definido de
forma incorreta, o modelo poderá ser válido em relação a estas
especificações, contudo inválido com relação ao sistema real.
15. A precisão com que o problema foi formulado afeta grandemente a aceitação e a
credibilidade dos resultados da simulação.
Ainda segundo Balci, o objetivo maior da simulação não é apenas produzir a
solução para um problema, mas fornecer uma solução que tenha suficiente
credibilidade e aceitação e seja implementada pela equipe responsável por
tomadas de decisão. Também alega que a responsabilidade pela aceitação
e uso do modelo acaba recaindo principalmente sobre a equipe de
desenvolvimento e que esta aceitação é função da precisão da formulação
do modelo. Por sua vez, a formulação é função direta da definição do
problema, bem como da participação do usuário final na definição do
problema.
66
5 – Utilizando o Programa ARENA para modelar Sistemas Logísticos
Este capítulo é dedicado a apresentação do programa ARENA e a sua
aplicação na resolução de Sistemas Logísticos. Não pretende-se apresentar uma
manual do programa ARENA, pois com o “ software” já vem junto material suficiente
para seu aprendizado, mas os comando principais serão apresentados e serão
enunciados os principais sistemas logísticos que serão modelados.
5.1 – O programa ARENA
A construção do modelo dentro do ARENA é feita através dos elementos
disponibilizados nos templates. Estes elementos são denominados “comandos”, e
são de dois tipos distintos:
&RPDQGRV�GH�)OX[RJUDPD:
são usados para construir o fluxograma dentro da área de trabalho. Cada comando
pode ser repetidamente colocado quantas vezes se fizerem necessárias para a
construção do modelo. Possuem pontos de entrada e saída, usados para
estabelecer interconexões e criar o fluxo do processo. Um duplo clique neste módulo
abre uma janela que permite configurar as ações referentes a ele. Também é
possível editar estes dados na janela de planilha, que fica logo abaixo da área de
trabalho. A planilha apresentada irá mudar conforme forem selecionados diferentes
módulos. Exemplo: módulo Process. Os comandos encontram-se agrupados em “
templates”, que podem ser acessados utilizando-se as opções “ file” “template panel”
“ Attach” na barra de ferramentas.
&RPDQGRV�GH�'DGRV:
Process
0
67
apesar de aparecerem na janela do template, não são colocados na área de
trabalho. Ao serem selecionados, apresentam sua lista de dados na área de
planilha, onde podem ser editados, excluídos ou inseridas novas informações.
Exemplo: módulo Entity
É essencial sempre que o processo de simulação enunciado no capítulo 4 tenha
sido seguido e o modelo conceitual do sistema a ser resolvido tenha sido formulado
antes de partir-se para a codificação em ARENA.
Ao construir um fluxograma do modelo conceitual ou simplesmente enunciando-o, é
usado o ponto de vista da parte dinâmica do sistema, ou seja, aquilo que se
movimenta ou “passa” dentro do sistema. Por exemplo, em um processo de uma
linha de produção, este elemento é uma peça, se for um hospital, são os pacientes,
se for uma agência bancária, são os clientes. Essa parte que percorre o fluxo é
chamada de “entidade”, e o fluxograma representa a estrutura estática ou fixa do
sistema, assim como os processos de decisão e desvio correspondentes.
Retomando-se o problema do posto bancário com 2 caixas de atendimento, os
passos A, B, C, D do processo de simulação haviam sido cumpridos, obtendo-se o
seguinte modelo conceitual:
• geram-se os intervalos entre chegadas de clientes ao posto; • cada cliente entra em fila e aguarda a liberação de um dos dois caixas; • o cliente sai da fila e ocupa um caixa vazio; • gera-se o tempo de atendimento de cada cliente e o mesmo é atendido; • o cliente libera o caixa e sai do posto.
No passo “E” decidiu-se avaliar inicialmente a ocupação dos caixas e a fila única
que seria formada junto aos mesmos, avaliando-se o tempo e o comprimento médio
em fila.
No passo “ F “ uma primeira avaliação grosseira dos dados, sem que os
procedimentos recomendados no Anexo A fossem tomados, mostraram que as
distribuições de chegada e atendimento eram exponenciais, com média de 240
segundos para o intervalo entre chegadas e 400 segundos para o tempo de
atendimento individual em cada caixa.
O passo “ G” seria então a Condificação do Modelo em ARENA e para tanto alguns
novos conceitos devem ser conhecidos.
68
��������Recursos e Entidades
O modelo de simulação em ARENA possui uma parte que representa a estrutura
disponível (máquinas, pessoas, empilhadeiras, postos de trabalho, etc.) e as regras
de trabalho (decisões, procedimentos, tempos de processo, etc) e outra parte
“circulante” (peças que passam pelo sistema, pessoas, etc.) .
Assim, um “modelo” de simulação é montado usando-se os elementos explicados na
seção anterior, criando um fluxograma que contém as regras de funcionamento do
sistema e os recursos que o constituem. Assim pode ser criada, por exemplo, uma
linha de produção ou uma agência bancária. Iniciando a simulação, o ARENA
introduz a parte circulante, representando as peças passando pela linha, ou pessoas
passando pela agência bancária. Estas partes circulantes recebem o nome de
“entidades”. Assim:
5HFXUVRV: representam a estrutura do sistema, como máquinas, postos de trabalho,
meios de transporte, pessoas que participam do processo e etc.;
(QWLGDGHV: são a parte circulante do modelo, que percorre a lógica estabelecida
pelo fluxograma, interagindo com os recursos.
�����
No caso do exemplo do posto bancário, as entidades são os clientes que chegam ao
posto e se posicionam em fila. Os recursos serão os 2 caixas de atendimento.
�
Modelo: recursos, regras, decisões, etc.
Entidades: circulam pelo
modelo, interagindo
com os
69
��������O Template Basic Process
O Template Basic Process reúne os elementos mais básicos para a
construção dos modelos com o ARENA. Os principais elementos estão descritos a
seguir:
&UHDWH�
Este módulo de fluxograma serve para introduzir as entidades no modelo segundo
intervalos de tempo definidos. Ao se clicar duas vezes sobre ele, é apresentada a
seguinte janela de opções:
Create
Descrição do módulo (sem acentuação)
Definição do tipo de entidade a ser criada
Definição do intervalo de tempo entre chegadas
Quantas entidades deverão chegar a cada vez
Quantidade máxima de entidades a serem inseridas por este módulo Create
Momento da primeira criação
70
�3URFHVV����
O módulo de fluxograma Process tem a função de representar qualquer ação dentro
do sistema que leve um tempo para ser cumprida. Também é capaz de representar
a ocupação de uma máquina ou operador (recurso). A janela de opções do módulo
Process está apresentada a seguir:
Process
Descrição da função do módulo
Escolha do tipo de Process
Ação a ser tomada pelo Process (ocupação de recurso, espera simples, etc.)
Tempo a ser dispendido no Processo
Definição da situação de custo associado ao processo
71
'HFLGH�����
O módulo de fluxograma Decide representa uma ramificação no fluxo do processo.
Ele serve para alterar o rumo das entidades baseado em uma condição do sistema
ou de um percentual probabilístico. Sua janela de opções é esta:
'LVSRVH���
Este módulo de fluxograma tem função inversa à do módulo Create. Ele tem a
função de retirar as entidades do sistema. Um duplo clique sobre ele abre a seguinte
janela de opções:
DecideTrue
False
Descrição da função do módulo
Tipo de decisão (por condição ou probabilidade)
Condição (ou probabilidade) a ser satisfeita para que ocorra o desvio
Dispose
Ativa coleta de estatísticas sobre as entidades
Descrição da função do módulo
72
(QWLW\
�O módulo de dados Entity reúne as definições e parâmetros referentes a todos os
tipos de entidades usados pelo modelo. A entrada de dados é realizada através da
área de planilha ou de uma caixa de diálogo. Para abrir a caixa de diálogo para um
módulo de dados, clique com o botão direito sobre a planilha e escolha a opção “Edit
via Dialog”. As opções de entrada para a caixa de diálogo de Entity estão explicadas
abaixo:
Nome do tipo de entidade
Nome da figura usada para representar a entidade
Valores de custo para este tipo de entidade em diferentes situações.
73
5HVRXUFH
�O módulo de dados Resource relaciona todos os recursos usados no modelo.
Por recurso, entende-se uma estrutura que será usada pela entidade, a qual irá
despender uma certa quantidade de tempo neste processo. Um recurso, então,
poderia ser uma máquina onde a peça sofre um processo, um caixa bancário que
atende a um cliente ou uma mesa de cirurgia por onde passa o paciente. Do mesmo
modo que o módulo Entity, seus dados podem ser editados pela planilha ou pela
caixa de diálogo. As opções de entrada para a caixa de diálogo de Resource estão
explicadas abaixo:
Nome do recurso
Tipo de recurso (capacidade ou schedule)
Capacidade ou schedule correspondente
Informações sobre custo neste recurso
Nome do conjunto de estados usado por este recurso
Falhas programadas para este recurso
74
5.1.3 -Tempo de Simulação e Parâmetros
Os estudos de simulação geralmente são feitos em um período limitado de
tempo ou um conjunto de períodos idênticos. No ARENA, isto pode ser configurado
na janela “Replication Parameters, acessada através do menu RUN, opção SETUP,
e clicando na aba correspondente:
No ARENA, os intervalos de tempo simulados são chamados replicações. Por
exemplo: uma simulação que objetiva coletar estatísticas diárias de um
processo durante uma semana, deve ser configurado para rodar 7 replicações
de um dia cada uma.
Número de intervalos de tempo a serem simulados
Tempo de preparação do sistema ou aquecimento
Duração de cada processamento do modelo
Condição para término da simulação
Opções de inicialização entre replicações (intervalos de tempo)
75
5.2 – Modelagem do Posto Bancário
A figura abaixo mostra a modelagem do posto bancário, em que foi usado o
comando CREATE, PROCESS e DISPOSE, além de alguns recursos de
visualização de resultados
clientes ao postochegadas de
intervalos entregeram se os
dos dois caixasliberacao de um
aguarda aentra em fila ecada cliente
sistemaatendido e sai do
depois de serLibera do caixa
Comando CREATE Comando PROCESSComando DISPOSE0
00
Tempo Espera medio
0 . 0 0No. medio de clientes em fila
0 . 0 0Ocupacao dos Caixas
0 . 0 0 0
Cada comando acima tem suas peculiaridades e devem ser preenchidos de acordo
com o sistema a ser resolvido.
A partir desse momento, o analista passará a utlizar intensamente o programa
ARENA, visando aprimorar os conceitos sobre o programa e permitindo que vários
sistemas logísticos, enunciados no próximo capítulo, possam ser modelados ao
longo do curso.
76
6 – Enunciados de Sistemas Logísticos a serem modelados em ARENA
6.1 – Posto Bancário
A-) Avalie a capacidade de atendimento do Posto Bancário, aumentando a sua
demanda de 1 % em cada processamento e verificando os valores das filas e da
ocupação dos caixas. Parta de uma demanda de 1 cliente em média a cada 10
minutos até atingir o congestionamento do sistema.
B-) Codifique o modelo conceitual alterado do porto bancário:
• geram-se os intervalos entre chegadas de clientes ao posto; • cada cliente, dependendo se é comum ou idoso/gestante entra em uma das
filas em frente aos caixas fila e aguarda a liberação do caixa respectivo (20% dos clientes são idosos ou gestantes e dirigem-se a fila do caixa 1;
• o cliente sai da fila e ocupa um caixa vazio; • gera-se o tempo de atendimento de cada cliente, de acordo com o caixa que
estiver e o mesmo é atendido ( quando o cliente é idoso ou gestante o tempo de atendimento do caixa é 30 % mais lento);
• o cliente libera o caixa e sai do posto.
6.2 – Carregamento de Caminhões
Uma empresa deseja analisar sua área de carga de caminhões. O processo é
dividido em duas partes: carregamento e amarração da carga. A área possui 2
(duas) baias para atender um caminhão. Na primeira baia é feito o carregamento
que tem distribuição normal com média de 20 minutos e desvio padrão de 2.1
minutos. Em seguida caso a segunda baia esteja livre o caminhão desloca-se em 1
minuto para o lá onde é feita a amarração, que tem distribuição triangular com
mínimo de 10, média de 20 e máximo de 27 minutos. Se a segunda baia estiver
ocupada por algum caminhão em processo de amarração, esta operação é feita na
primeira baia. Finalizada a amarração o caminhão é liberado para seguir viagem. A
chegada de caminhões é regida por uma distribuição normal com média de 25
minutos e desvio padrão de 1,8 minutos. Monte o modelo conceitual desse
problema e codifique-o em ARENA. Sugira as medidas de desempenho necessárias.
77
6.3 – Terminal Marítimo Importador
Pretende-se implantar um terminal marítimo importador de trigo com 2 berços
de atracação, sendo um berço para navios menores que 20.000 t e outro para
navios até 80.000 t. Os berços estarão dispostos lado a lado no mesmo píer, de tal
forma que o único carregador de navio possa atender tanto um berço como o outro
berço, bastando para tanto girar a lança carregadora. Esse tipo de operação é
interrompida sempre que ocorrer chuvas. Assuma as distribuições de chegada de
navios (1 a cada 3 dias com distribuição exponencial, sendo 50% de navios de
80000 t e 50% de navios de 20000t), de carregamento ( taxa de carregamento de
12000 t/dia com distribuição normal e coeficiente de variação de 30%), de intervalo
entre chuvas e tempo de chuva (1 ocorrência em média a cada 10 dias com
distribuição exponencial e com duração normal de média 10 horas e desvio de 3
horas).
Pede-se o modelo conceitual desse sistema e a codificação em ARENA.
Mostre o tempo médio em fila dos navios e do índice de congestionamento do
terminal.
6.4 – Dimensionamento de um Tanque
Considere um terminal ferroviário para recebimento de combustíveis de 1 ramal
ferroviário e com chegadas exponenciais de trens com carga variando segundo uma
distribuição discreta com 25% com 24000 ton, 50% com 30.000 toneladas e 25 %
com 40000 toneladas. A taxa de descarga dos trens é uma normal com média 1500
ton/hora e desvio padrão de 15 % do valor da média. Admita que dutos enviem o
petróleo para as distribuidoras segundo uma normal de 500 toneladas e desvio
padrão de 40 % da média, a cada hora. Estando o sistema em equilíbrio, determine
o tamanho máximo do tanque e o estoque inicial necessário para que somente em
5% do tempo o nível chegue a zero e 5% chegue no máximo da armazenagem
permissível.
78
6.5 – Dimensionamento de Estoques - 1
Um sistema clássico de gestão de estoques considera a reposição de estoques
em lotes fixos, com tempo variável. Sendo os intervalos entre pedidos regidos
por uma distribuição exponencial de média 2 horas e o tempo de ressupimento
de um lote com distribuição normal de média 2 dias e desvio de 1 dia, determine
o estoque inicial de produtos, o lote médio de ressuprimento e o intervalo médio
entre ressuprimentos, para que o estoque não atinja valor zero em mais que 5 %
do tempo. Mostre o valor médio do estoque na modelagem.
6.6 – Dimensionamento de Estoques - 2
Um sistema clássico de gestão de estoques considera a reposição de estoques
em tempos fixos, com tamanho de lote variável. Sendo os intervalos entre
pedidos regidos por uma distribuição exponencial de média 2 horas e o tempo de
ressupimento de um lote com distribuição normal de média 2 dias e desvio de 1
dia, determine o estoque inicial de produtos e o lote de ressuprimento,
considerando que sempre a cada 5 dias é feito um pedido para o fornecedor.
Considere que o estoque não deve chegar ao valor zero em mais que 5 % do
tempo. Mostre o valor médio do estoque na modelagem.
�6.7 – Balanceamento de uma Linha de Manufatura
�A chegada de pedidos de manufatura de um determinado produto segue um
distribuição exponencial com média de 20 minutos. Quando esse pedido chega
ele é desdobrado 3 (três) partes, sendo que cada um deles segue um
determinado roteiro para a manufatura de partes daquele produto final. As
79
manufaturas são todas exponenciais e da parte A tem média de 40 minutos, da
parte B tem média de 60 minutos e da parte C tem média de 80 minutos.
Pretende-se dimensionar o número de máquina necessárias para a manufatura
de cada parte do produto final, de tal forma que o tempo médio de permanência
das partes no sistema sejam próximos e o a fila de espera dos pedidos não seja
maior que 2.
�6.8 – Análise de um Provedor de Internet
Modele um provedor de INTERNET onde:
a mensagem chega e multiplica-se por tantas quanto forem os endereços da lista
que a mesma contém e pode ser de uma única mensagem se a original não foi
dirigida a uma lista ou até 5 (cinco), aguarda em fila até ser atendida pelo
processador (aspectos sobre a disciplina da fila serão comentados adiante) A
probabilidade de ser mensagem única é de 40 % e as de outros tamanhos com
probabilidade de 15% cada uma;
Quando a primeira mensagem da fila acessa o processador desocupado, há a
possibilidade dela:
ser atendida, ou seja ela é remetida ao destinatário (60% de chance);
não ser atendida pois o servidor de destino não foi naquele momento localizado
(mensagem postergada) e, portanto, ela volta para fila para ser atendida
posteriormente (serão discutidos adiante em que momento a mensagem volta, em
que posição da fila ela volta e onde ela fica armazenada até voltar para a fila) (30 %
de chance);
ser devolvida ao remetente pois, por exemplo, o servidor de destino não existe ou
não foi localizado (10 % de chance);
Finalmente, cabe ressaltar alguns aspectos gerais sobre o problema;
80
¾ tempo de atendimento é função do tamanho da mensagem (50% são pequenas, 30% são médias e 20 % são grandes) e o tempo é regido por uma distribuição uniforme com limites entre 10-20 para pequena, 15-30 para média e 25 a 50 para grande( tempos em milisegundos). O tempo de permanência da mensagem no “status” de postergada é de 60 segundos e a mesma volta a fila do provedor com alta priridade
¾ o tamanho da mensagem nada tem a ver com a sua multiplicação em função da lista;
¾ quando a mensagem chega ao sistema (há um só provedor mono usuário e as chegadas ocorrem 1 a cada 60 milisegundos), dependendo do seu tamanho “pequena” ou “grande”, ela pode receber uma prioridade de “alta” para “baixa” , respectivamente;
¾ da mesma forma, se a mensagem for desdobrada (multiplicada) em mais mensagens, esse lote poderia receber uma prioridade de “alta” para “baixa” para ocupar a fila de atendimento;
¾ o fato de ser enviada, postergada ou devolvida deve ser estudado para efeitos de modelagem com base numa séria de dados históricos que aponte a probabilidade da ocorrência de cada situação.
�6.9 – Dimensionamento de uma Frota de Caminhões
DESENVOLVA UM MODELO DE SIMULAÇÃO COM “N” CAMINHÕES QUE
CIRCULAM ENTRE UMA FÁBRICA E PORTO. TANTO NA FÁBRICA COMO NO
PORTO ESSES CAMINHÕES PASSAM POR UM PROCESSO DE PESAGEM NA
ENTRADA E NA SAÍDA, DEPOIS PELO PROCESSO DE CARREGAMENTO NA
FÁBRICA E DESCARGA NO PORTO. CALCULE QUANTA CARGA A FROTA
(VARIANDO DE 1 A N) PODE TRANSPORTAR POR MÊS, OS TEMPOS DE FILA
NO PORTO E NA FÁBRICA.
DADOS: TEMPO DE BALANÇA: NORMAL (10,3)
TEMPO DE CARREGAMENTO: TRIANGULAR (60,120,180)
81
NO. POSTOS DE CARGA NA FÁBRICA = 5
TEMPO DE DESCARREGAMENTO: UNIFORME (240, 360)
NO. POSTOS DE DESCARGA NO PORTO = 7
TEMPO DE IDA = TEMPO DE VOLTA = 240
CAPACIDADE DE CADA CAMINHÃO = 25 TON.
O CUSTO VARIÁVEL POR VIAGEM É R$ 50,00/HORA EM
MOVIMENTO
O CUSTO FIXO DO CAMINHÃO POR MÊS É DE R$ 5.000,00
PENALIZE O TEMPO EM FILA COM BASE NO CUSTO FIXO.
TEMPOS EM MINUTOS
6.10 – Análise de um Setor de Atendimento
UM SETOR DE ATENDIMENTO PRESTA SERVIÇOS AOS USUÁRIOS, QUE EM
80 % DOS CASOS SÃO RESOLVIDOS NA HORA COM DISTRIBUIÇÃO NORMAL
(30, 10) MINUTOS. NOS OUTROS 20 % DOS CASOS, O SERVIÇO É
ENCAMINHADO PARA OUTRO SETOR E OS USUÁRIOS DEVEM AGUARDAR
POR CERCA DE 3 HORAS (COM DISTRIBUIÇÃO EXPONENCIAL) PARA
VOLTAREM COM PRIORIDADE PARA SEREM ATENDIDOS. INICIALMENTE
PREVIU-SE QUE 5 FUNCIONÁRIOS PODERIAM DAR CONTA DESSE SERVIÇO,
QUE DEVE RECEBER CERCA DE 12 PESSOAS POR HORA. CALCULE O
TEMPO DAS PESSOAS EM FILA, O TAMANHO NECESSÁRIO DA SALA DE
ESPERA, A OCUPAÇÃO DOS FUNCIONÁRIOS E QUANTAS PESSOAS SÃO
ATENDIDAS EM 8 HORAS.
82
6.11– Dimensionamento de Pessoal
�NO SETOR DE EMBALAMENTO CHEGAM PEÇAS COM INTERVALO DE 60
SEGUNDOS SEGUNDO UMA DISTRIBUIÇÃO NORMAL COM 20 % DE DESVIO.
ESSAS PEÇAS PODEM SER DIRECIONADAS PARA 2 LINHAS DE
EMBALAGENS, SENDO QUE A PRIMEIRA LINHA TEM “N” PESSOAS E CADA
PESSOA PROCESSA UMA PEÇA EM 400 SEGUNDOS CONFORME
EXPONENCIAL E A SEGUNDA LINHA TEM “M” PESSOAS E CADA UMA
PROCESSA UMA PEÇA EM 600 SEGUNDOS, CONFORME UMA UNIFORME
COM 30 % DE INTERVALO. PEDE-SE QUE UM MODELO SEJA ELABORADO
VISANDO DETERMINAR QUANTAS PESSOAS TRABALHAM EM CADA LINHA E
QUAL A PORCENTAGEM DE PEÇAS QUE DEVE SER DESVIADAS PARA CADA
LINHA, DE TAL FORMA QUE A OCUPAÇÃO DAS LINHAS SEJAM
PRATICAMENTE IGUAIS E NÃO SUPERIORES A 80%.
83
7 - Bibliografia
ARENA, “User’s Guide”, Systems Modelling Corporation, USA, 1996.
Balci, O., “Principles of Simulation Model Validation, Verification, and Testing”,
Transactions of the Society for Computer Simulation International”, Vol.14 No.
1, March 1997, 3-12.
Botter, R.C.; “Tratamento de Dados em Simulação Discreta”, Tese de Livre
Docência, EPUSP, 2002.
Gordon, G., “System Simulation”, Prentice-Hall, 2ª Edição, 1978.
Knepell, P. L. and Arangno, D. C., “Simulation Validation: A Confidence Assessment
Methodology”, IEEE Computer Society Press, Los Alamitos,
Mosef, Y , “Complex Simulation Systems” – Society of Computer Simulation – Ghent,
1997.
Nance, R. E., “A Tutorial View of Simulation Model Development”, Proceedings of the
Winter Simulation Conference, U.S.A., 1983, p 325-331.
Botter, D.A.; Paula, G. A.; Leite, J. G.; and Cordani, L. K., “Noções de Estatística
com Apoio Computacional”, Instituto de Matemática e Estatística da
Universidade de São Paulo, S.P, 1996.
Bussab, W.O., “Análise de Variância e de Regressão”, Atual Editora, São Paulo,
1988.
Bussab, W. O., Miazaki, E. S. e Andrade, D. F., “Introdução à Análise de
Agrupamentos”, 9º Simpósio de Probabilidade e Estatística, Instituto de
Matemática e Estatística da USP, São Paulo, 1990.
Scheffé, H., “The Analisys of Variance”, John Wiley & Sons, New York, 1959.
Kleinrock, L; 4XHXLQJ�6\VWHPV. Vol 1 e 2. Wiley, 1975.
Ross; $SSOLHG� 3UREDELOLW\� 0RGHOV�ZLWK� 2SWLPL]DWLRQ� $SSOLFDWLRQV. Holden-day,
1970.
84
$1(;2�$�±�7UDWDPHQWR�GH�'DGRV�HP�6LPXODomR�'LVFUHWD�
��� ,1752'8d2�
Nota-se que os autores que escrevem na área de simulação e filas não dedicam
espaço suficiente ou não desenvolvem adequadamente os tópicos relativos ao
tratamento de dados.
Por esse motivo, desenvolveu-se um procedimento simples e eficiente para que
alunos e outros interessados possam desde o início do desenvolvimento de um
projeto de simulação, percorrer o correto caminho do tratamento e análise de dados.
O procedimento que é apresentado neste texto, embora simples, porque reúne
conceitos e técnicas estatísticas conhecidas, preenche uma lacuna das literaturas
nacional e internacional, na área de simulação discreta.
Para tanto, com relação aos dados necessários para o desenvolvimento de um
modelo de simulação ou aplicação de Teoria de Filas, esse procedimento deverá,
nessa ordem:
a) Ordenar e analisar previamente a amostra de dados;
b) Descrever e comparar;
c) Limpar os dados discrepantes;
d) Pesquisar grupos existentes, separando-os ou agrupando-os;
e) Selecionar a distribuição de probabilidade conveniente.
Um síntese do procedimento é apresentada na Tabela 1 abaixo.
85
Tabela 1 - Síntese do procedimento proposto
3DVVR� 0HWRGRORJLD�3URJUDPD�8WLOL]DGRV� $QiOLVHV�1 – Ordenação dos
dados
Excel ou MINITAB Erros ou omissões de
preenchimento; campo de
variação dos dados
2 – Avaliação
Descritiva
Medidas de Posição e
Dispersão/MINITAB
Para cada variável
independentemente:
� Comparação da média com
a média aparada
� Comparação da média,
moda e mediana
� Comparação da amplitude
e intervalo entre quartis
� Avaliação do Coeficiente
de Variação
3 – Visualização Histogramas ou Gráfico de Barras,
Gráfico de Freqüência Acumulada,
Diagrama de Dispersão Medidas de
Associação/ MINITAB
Para cada variável
independentemente:
� Avaliar assimetria e
achatamento
� Avaliar concentrações de
dados nas classes de
freqüência.
Para pares de variáveis:
� Visualizar a associação e
calcular correlação linear.
86
Tabela 1 - Síntese do procedimento proposto (continuação)
4 – Limpeza de Dados Gráfico de Caixas, Discrepâncias
Bidimensionais/MINITAB
Para cada variável
independentemente:
� Consultar quem conhece o
processo e com base nos
pontos discrepantes
apontados pelo gráfico de
caixas, eliminá-los ou
mantê-los
Para pares de variáveis:
� Avaliar gráficos de
dispersão em busca de
pontos que induzem a
avaliações de associações
erradas
5 – Agrupamento Gráfico de Caixas, ANOVA e Análise de
Agrupamentos/MINITAB
Para os diversos fatores
existentes, associados a cada
variável:
� Verificar se os gráficos de
caixa por fator são
diferentes entre si ;
� Efetuar comparação de
médias pela ANOVA.
Para as diversas variáveis
associadas a cada elemento da
amostra:
� Proceder a uma Análise de
Agrupamento.
6 – Seleção da
Distribuição de
Gráfico de Probabilidades e Testes de
Aderência/ MINITAB ou INPUT
Para cada variável
independentemente:
87
Probabilidades ANALYSER � Buscar uma distribuição
teórica que seja aderente
aos dados “limpos” e
“agrupados” ou adotar a
distribuição empírica.
��� 352&(',0(172� 3$5$� 2� 75$7$0(172� '(� '$'26� (0�6,08/$d2�',6&5(7$�
Este capítulo apresenta o procedimento proposto para o tratamento de dados
em simulação discreta. Trata-se de uma seleção de técnicas e conceitos já
consagrados na Estatística, dispostos numa seqüência tal que auxilia o analista no
tratamento de dados para simulação discreta.
Os conceitos e técnicas estatísticas são apresentados, bem como sua
aplicação utilizando programa MINITAB. As referências bibliográficas para a
montagem que fundamentam o procedimento proposto foram: Scheffé(1959),
Peres(1986), Bussab(1988 e 1990) e Botter(1996).
Dados obtidos a partir de medição ou de bases de dados existentes
A prática de desenvolvimentos de modelos de simulação mostra que:
� Quem solicita o trabalho conhece bastante o problema real e os condicionantes
gerais do mesmo;
� Quem elabora o modelo de simulação, em geral, solicita uma grande massa de
dados, com informações sobre o problema a ser solucionado;
� As informações nem sempre estão disponíveis e, às vezes, nem foram coletadas
ou armazenadas em meios facilmente acessíveis.
Um exemplo disso, e que é freqüentemente enfrentado, é relativo à distribuição e
roteirização de cargas fracionadas. O solicitante conhece muito bem seus clientes,
88
os meios de transporte utilizados e seus volumes de vendas. No entanto, nem
sempre dispõe:
� dos endereços de seus clientes em meio magnético;
� dos volumes de vendas por cliente;
� do número de entregas efetuada por veículo, etc.
A obtenção dos dados necessários para a formulação e experimentação de um
modelo de simulação não é diferente e pode-se dispor de vários meios, destacando-
se a:
• Medição;
• Consulta a bancos de dados existentes;
• Consulta a informações externas ao ambiente onde o problema está inserido.
O procedimento de medição deve ser convenientemente planejado em termos de
como medir (contagem ou questionários), de como planejar o meio de medição
(conteúdo do questionário) e de como efetuar a amostragem. Embora a literatura
disponível seja farta no sentido de dimensionar o tamanho da amostra e planejar um
questionário, os problemas de erros nas medições e omissão de respostas sempre
serão enfrentados pelo analista.
A consulta a bancos de dados da empresa merece bastante cuidado,
especialmente devido ao tipo de variável coletada, como e quem preencheu os
dados digitados, entre outros. Os problemas mais comuns são:
• quem montou o banco de dados não montou um manual de instruções para
quem vai anotar os dados e depois inseri-los no Banco;
• pessoas de diferentes setores anotam esses dados e, ocorrendo dúvidas, os
dados não são anotados, podendo até mesmo ocorrer a anotação dos dados por
“estimativa” do valor que o processo resultar;
• erros no preenchimento de tabelas também são bastante comuns.
A consulta de dados em fontes externas ao ambiente do problema ocorre
geralmente com relação a dados macroeconômicos ou operações parecidas àquelas
que serão executadas. Os dados macroeconômicos devem sempre estar
acompanhados das premissas que embasaram sua coleta. Os dados de operações
89
semelhantes em outras empresas devem estar sempre associados a fatores que
permitam comparar os processos.
Diante desses cenários de obtenção de dados para simulação, depara-se o
analista com mais um problema: “Como retirar informações úteis da massa de
dados obtida ?”. A resposta será delineada na próxima seção.
Procedimento para o tratamento de dados
O processo de tratamento e análise de dados tem por objetivo facilitar e
viabilizar a geração de uma base de dados coerente, consistente, permitindo que as
distribuições e análises geradas a partir dos dados originais sejam transformadas em
informação útil a ser aplicada em modelos de simulação. Esse procedimento facilita
também que sejam identificados na base de dados os parâmetros que serão
relevantes para o estudo do modelo de simulação, bem como quais deles podem ser
desprezados sem prejuízo do resultado final.
O processo proposto pelo autor é composto pelas seguintes etapas:
• Ordenação dos Dados;
• Avaliação Descritiva;
• Visualização dos Dados;
• Limpeza dos Dados;
• Agrupamento;
• Seleção da Distribuição de Probabilidade.
2.1.1. Ordenação dos Dados
A etapa da ordenação pode, numa primeira leitura, parecer simplista, mas é
de fundamental importância para o analista, que, em geral, não gerou a base de
dados e não reconhece os limites das variáveis e parâmetros da mesma.
90
Nesta etapa, com a ordenação de cada variável presente nos dados, alguns
valores limites (os maiores e/ou os menores) já podem se apresentar como
discrepantes, tanto no formato quanto na ordem de grandeza. Como por exemplo,
encontrar num determinado campo reservado ao tempo de operação de um navio no
porto, um dado alfanumérico. Outro exemplo até mais comum, é encontrar valores
“zero” para esse mesmo tempo de operação.
Cabe sugerir ao analista que fique atento também ao não preenchimento de
dados. Por exemplo, um conjunto de dados que contenha além da coluna do tempo
de operação do navio no porto, outras quatro colunas com os tempos de atracação e
de desatracação, de inspeções e de paradas, pode apresentar linhas em que nem
todos os campos estão preenchidos. Esse fato prejudica uma análise de correlação
entre as variáveis, pois o analista deverá eliminar uma quantidade muito grande de
linhas do conjunto de dados.
Outra análise possível e recomendada nessa etapa é a busca por
informações duplicadas, como por exemplo, um mesmo número de registro de navio
com mais de um nome para designá-lo. Na área empresarial é comum achar o
mesmo nome de uma empresa com diversos números de CNPJ – “Cadastro
Nacional da Pessoa Jurídica” diferentes.
Para a execução dessa etapa, os dados podem ser ordenados utilizando-se o
programa EXCEL ou o próprio programa MINITAB.
2.1.2. Avaliação Descritiva
A segunda etapa é relacionada à Estatística Descritiva, disciplina amplamente
difundida não só em pesquisas acadêmicas, como também nas análises de dados
empresariais.
No entanto, nem sempre o analista utiliza todas as ferramentas de que a
estatística dispõe ou consegue avaliar os resultados eficientemente. Cabe ressaltar
que os programas de análise de dados que acompanham os simuladores, tais como
91
o INPUT ANALYSER do ARENA, não trazem todas as análise abaixo
recomendadas. São elas
• Medidas de Ordem (máximo e mínimo);
• Separatrizes ( Quartis, Descis e Pertencis);
• Medidas de Tendência Central (Média, Média Aparada, Mediana e Moda);
• Medidas de Dispersão (Amplitude, Intervalo Inter-Quartil, Variância, Desvio-
Padrão e Coeficiente de Variação).
2.2.2.1 - Medidas de ordem
�As medidas de ordem são obtidas a partir da ordenação do conjunto de
dados. Representa-se por [(1) a menor observação, [(2) a segunda menor e assim
sucessivamente até chegar em [(n), a maior observação.
Nesse contexto as medidas de posição mais simples são o valor mínimo
(min=[(1)) e máximo (max=[(n)) dos dados. Esse par de valores determina o
intervalo da reta que contém todos os dados.
As medidas de ordem já devem ter sido observadas pelo analista, quando na
etapa anterior, o conjunto de dados foi ordenado e dá uma primeira informação
sobre a magnitude de valores que cada variável poderá atingir.
2.2.2.1 - Separatrizes
�As separatizes separam valores da amostra ordenada em porcentagens de 25
% (Quartis), 10% (Decis) ou 1% (Percentis).
Considere um conjunto de dados ordenados relativo à quantidade de água
solicitada por plataformas de petróleo. Suponha que seja de interesse caracterizar
os pedidos de água que sejam excessivamente altos e, para isso, baseado nos
dados ordenados, define-se como pedidos altos aqueles que estão entre os 5% mais
altos, ou seja, se o seu valor supera pelo menos 95% dos outros pedidos. O pedido
que supera 95% dos demais é denominado de 95o percentil da distribuição dos
pedidos de água. Os percentis também são medidas de posição e define-se o x0
92
percentil, x ∈ [0,100] como o valor que supera x% da amostra ordenada; os 100 ,
200 , ..., 1000 percentis recebem os nomes de, respectivamente, 10 , 20 , ..., 100 decis,
250 , 500 , 750 e 1000 percentis são denominados de 10 , 20 e 30 quartis,
respectivamente.
Esse tipo de análise propicia ao analista dos dados um conhecimento inicial
do banco de dados.
2.2.2.3 - Média aritmética
Possivelmente, essa é a medida de tendência central mais conhecida.
Denomina-se PpGLD� DULWPpWLFD de um conjunto de observações ([1, [2, ..., xn) ao
valor:
Q[
[�� �∑== 1 .
A média aritmética pode ser interpretada como o ponto de equilíbrio do
conjunto de dados.
De um modo geral, tem-se que a média aritmética é bastante afetada por
valores distantes da massa de dados (valores discrepantes) e por distribuições
assimétricas. Além disso, só pode ser calculada para dados numéricos. No entanto,
é uma medida bastante divulgada e fácil de ser calculada.
2.2.2.4 - Média Aparada
A média aparada foi criada a partir da média aritmética, com o objetivo de
diminuir a influência de valores discrepantes sobre a média. Uma média aparada de
D% é obtida eliminando-se da amostra as D% observações mais baixas e as a%
mais altas. Um valor recomendado para o valor “a” é 3 ou 5.
Cabe ressaltar, que é muito importante comparar a média aritmética com a
média aparada. Valores muito diferentes das duas medidas indicam que valores
discrepantes nos extremos da amostra estão influenciando o resultado da média
aritmética.
93
2.2.2.5 – Mediana
Ao contrário da média, seu cálculo depende apenas da ordenação dos dados.
A mediana é o número que ocupa a posição central dos dados ordenados.
A mediana é uma medida que, ao contrário da média, é pouco influenciada
por valores discrepantes e sofre uma influência menor de observações extremas em
distribuições assimétricas. A mediana é uma medida menos conhecida do que a
média e sua determinação é computacionalmente custosa, uma vez que requer o
ordenamento da amostra. Ressalta-se que a mediana, além de tendência central,
também é uma separatriz (segundo quartil).
2.2.2.6 - Moda (mo)
Define-se como moda a observação mais freqüente do conjunto de dados. Há
problemas com a utilização da moda quando se têm variáveis contínuas, que
assumem um grande número de valores distintos; nesses casos, é possível que
nenhum valor se repita ou que a repetição ocorra longe do centro dos dados. Para
esse tipo de variável, recomenda-se a utilização das outras medidas de posição
apresentadas.
Se a média, a mediana e a moda são muito diferentes, deve-se proceder a
uma análise mais detalhada dos dados (se possível com a visualização dos dados),
pois a distribuição poderá apresentar assimetrias e outras tendências
2.2.2.7 – Amplitude
A amplitude é talvez a mais simples das medidas, sendo definida como a
diferença entre o maior e o menor valor observado. Assim, para um conjunto de Q
valores [(1) , ... , [(n) , a amplitude, denotada por $ é definida como
)1()( [[$ � −=
94
A principal vantagem da amplitude é sua simplicidade de cálculo e fácil
entendimento, ao passo que a principal desvantagem é a instabilidade decorrente do
uso apenas dos valores extremos; isto é, caso exista a presença de um valor
aberrante, a dispersão para o conjunto todo será muito influenciada por tal valor.
2.2.2.8 - Intervalo Inter-Quartil
�O intervalo inter-quartil (,,4) é definido como a diferença entre o terceiro e o primeiro
quartis, isto é, denotando o primeiro quartil por 4 � e o terceiro por 4 , tem-se que
13 44,,4 −= .
Essa medida tende a eliminar os efeitos dos valores extremos que podem
estar presentes na amostra. Sua comparação direta com a amplitude reflete a
existência ou não de valores extremos que podem ser discrepantes. Uma
desvantagem desta medida é que não é tão intuitiva quanto a amplitude, além de
não ser popular. Da mesma forma que a amplitude, o ,,4 utiliza igualmente apenas
dois valores no seu cálculo.
2.2.2.9 - Variância e Desvio-Padrão
�A variância é uma medida bastante difundida e utilizada. Ela considera a
distância entre as observações e uma medida de tendência central, no caso, a
média. Assim, valores mais distantes da média contribuem para aumentar o valor da
variância, tornando-a conveniente para medir a dispersão. Como o interesse esta na
distância de cada observação para a média toma-se o quadrado das diferenças
entre cada observação e a média e considera-se uma média destes quadrados.
Algebricamente, para um conjunto de valores [ � , ..., [ ! , a variância denotada por σ2 é
definida como
2
1
22
1
2 11 [[Q�[�[Q"# #
"# # −=−= ∑∑
==V
Uma das desvantagens da variância é que sua unidade de medida é o
quadrado da unidade de medida dos dados originais. Para resolver este problema
95
define-se o desvio-padrão, dado por σ, que corresponde à raiz quadrada de σ2 , isto
é,
2
1
1 �[�[Q$% %∑=
−=
Deve ser notado que tanto a variância quanto o desvio-padrão fazem uso de
todos os elementos do conjunto de dados em seu cálculo. Dessa forma, valores
aberrantes têm seu efeito diluído no valor final da medida. Entretanto, ambas as
medidas estão sujeitas a instabilidades devido a tais valores. Apesar disso, uma das
principais vantagens da variância diz respeito à facilidade de manipulação algébrica.
Outra vantagem é que a variância aparece de forma natural nas derivações teóricas
para a estimação da média feita na inferência estatística, fornecendo assim
resultados importantes para o uso de testes estatísticos.
2.2.2.10 - Coeficiente de Variação
Uma outra medida importante para se estudar a variabilidade de um conjunto
de dados é o coeficiente de variação, definido por:
[&9 =
O coeficiente de variação fornece uma medida de variabilidade relativa à
média, isto é, ele permite a comparação (com relação à variabilidade) de diferentes
conjuntos de dados, medidos em diferentes unidades. Note-se que &9 é
adimensional. O coeficiente de variação não está definido quando a média for zero,
além disso, ele está sujeito à influência de observações discrepantes.
Um resultado imediato do CV é saber a proporção do desvio-padrão em
relação a média. Valores pequenos indicam amostras com pequena variabilidade.
Em função da análise dos resultados da estatística descritiva é possível iniciar o
entendimento do comportamento das variáveis, de modo a perceber a necessidade
de utilizar outras técnicas que sejam capazes de efetivamente definir o
comportamento de tais variáveis.
Para ilustrar o módulo do MINITAB, que calcula medidas descritivas,
considere uma coluna de dados intitulada “tempo”, que contenha os intervalos de
96
tempo entre as chegadas consecutivas de navios de carga geral em um porto, ao
longo de um ano.
O comando do MINITAB a ser utilizado para descrever os dados é
� %Describe 'tempo';
� Confidence 95%.
Descriptive Statistics
Variable N Mean Median Tr Mean StDev SE Mean
tempo 150 2,4206 2,4110 2,4184 0,2361 0,0193
Variable Min Max Q1 Q3
tempo 1,9308 3,0729 2,2651 2,5961 ,
Figura 2 - Resultados da análise descritiva fornecidos pelo programa MINITAB
A figura 1 acima mostra os resultados do programa MINITAB, em que N é o
número de observações, Mean é a média, Tr Mean (WULPPHG� PHDQ) é a média
aparada a 5%, StDev é o desvio-padrão, SE Mean é o erro-padrão, Min é o valor
mínimo, Max é o valor máximo, Q1 é o primeiro quartil e Q3 o terceiro. Além disso, o
MINITAB fornece o resumo gráfico apresentado na figura 2.
97
Figura 3 - Resumo gráfico apresentado pelo programa MINITAB
Nesse resumo há também um teste para verificar a normalidade dos dados,
um coeficiente de assimetria (6NHZQHVV), uma de medida de achatamento ou
curtose (.XUWRVLV) e intervalos de confiança para a média, o desvio-padrão e a
mediana.
Esse comando pode ser construído através da execução da seqüência de
opções do menu: STAT - BASIC STATISTICS - DESCRIPTIVE STATISTICS -
GRAPHS - GRAPHICAL SUMMARY.
2.1.3. Visualização dos Dados
A avaliação descritiva não é suficiente para a completa e perfeita análise dos
dados, pois efeitos como assimetria na distribuição amostral podem não ser notados
com medidas somente numéricas.
Deste modo, torna-se premente a visualização das variáveis em análise, que
pode ser feita por meio de:
3.12.92.72.52.32.11.9
95% Confidence Interval for Mu
2.482.432.38
95% Confidence Interval for Median
Variable: tempo
2.37703
0.21204
2.38248
Maximum3rd QuartileMedian1st QuartileMinimum
NKurtosisSkewnessVarianceStDevMean
P-Value:A-Squared:
2.47726
0.26630
2.45866
3.072882.596112.411032.265051.93081
150-2.4E-016.83E-025.57E-020.236072.42057
0.6870.266
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
Descriptive Statistics
98
� Histograma;
� Gráfico de freqüência acumulada
� Diagrama de dispersão e a correspondente medida de associação
2.2.3.1 - Histograma
O histograma é um gráfico composto por retângulos contíguos, cujas bases
representam os intervalos dos possíveis valores observados e as alturas
correspondentes ao número de valores observados nos intervalos, ou a freqüência
relativa ao total (porcentagens, por exemplo), ou ainda a uma outra medida
chamada GHQVLGDGH�GH�IUHT�rQFLD, definida de tal forma que a área dos retângulos
correspondem às freqüências relativas correspondentes.
2.2.3.1 - Gráfico de freqüência acumulada
Muitas vezes é interessante estudar quantos valores são menores ou iguais a
uma certa quantidade. Para tanto, é conveniente trabalhar-se com a IUHT�rQFLD�DFXPXODGD, que pode ser definida em termos absolutos ou acumulados. Em outras
palavras, estuda-se para uma dada quantidade [� , o número de observações
menores ou iguais a [� ou a porcentagem de observações menores ou iguais a [.
Estes valores são então dispostos em um diagrama, contendo nas abscissas os
possíveis valores para x���e nas ordenadas, as freqüências acumuladas.
2.2.3.3 - Diagrama de Dispersão e Medida de Associação
O diagrama de dispersão fornece informação sobre o comportamento
conjunto de duas variáveis. Suponha que para cada unidade de interesse tenham se
mensurado SDUHV de valores ([1, \1), ... , ([ ! , \ ! ). Em um diagrama de dispersão,
dispõem-se os valores [1, ... , [n na abscissa (ou ordenada) e os valores \1, ... , \ ! �na
ordenada (ou abscissa). Cada par medido anteriormente é então disposto na figura e
fornece uma idéia a respeito do comportamento conjunto das quantidades, podendo
fornecer informações a respeito de associação e possíveis relações funcionais que
descrevam o comportamento de uma quantidade em função da outra.
Através do diagrama de dispersão baseado em pares ([1,\1), ... , ([ ! ,\ ! ) pode-
se, muitas vezes, notar uma certa dependência ou correlação entre duas
99
quantidades de interesse. Caso esta relação seja OLQHDU, ela pode ser quantificada
através da FRUUHODomR�OLQHDU�GH�3HDUVRQ� denotada pela letra U e definida por
∑∑
∑
==
=
−−
−−= &
' '&' '
&
'''
\\[[
\\[[U
12
12
1
)()(
))((�
�2.1.4. Limpeza dos Dados
De posse das análises e resultados obtidos nas três etapas anteriores, é
possível ao analista compreender o comportamento das variáveis do banco de
dados, de modo a identificar aquelas que deverão compor o sistema a ser
modelado, colaborando, assim para o levantamento das possíveis correlações entre
as variáveis. No entanto, a base de dados pode encobrir valores discrepantes que
não deveriam ser considerados.
Esta quarta etapa, definida como limpeza de dados, refere-se à retirada dos
valores sem coerência ou consistência, bem como, àqueles se apresentarem
discrepantes com relação à aplicação da metodologia de gráfico de caixas ou “%R[�3ORW´.
Essa limpeza deve acontecer devido a alguns problemas comuns a vários
conjuntos de dados, muitas vezes acarretados por falta de cuidado no registro ou na
mensuração das variáveis. Para ilustrar esses problemas, podem ser citadas as
informações sobre o tempo gasto para realizar uma determinada viagem. O registro
desse tempo foi de responsabilidade do motorista que realizou o trajeto. Na
seqüência de dados mostrada na tabela 2 abaixo, apresenta-se a tabulação feita
pelo MINITAB.
Tabela 2 - Tabulação de dados de viagens (tempo em horas)
Tempo Freqüência
0 55
2 1
4 1
5 59
100
6 2
7 3
8 2
9 1
10 28
13 2
15 10
20 6
28 1
30 2
35 2
40 1
44 1
50 1
57 1
60 1
70 2
75 2
95 1
660 1
1245 1
N = 187
A simples tabulação da sequência de dados apresentada acima permite
detectar uma série de problemas nesse banco de dados, em sua maioria oriundos,
possivelmente, da falta de cuidado no fornecimento (ou registro) das informações.
Note-se que:
� em 55 viagens encontra-se registrado o tempo zero, que é um valor claramente
impossível. Nesse caso, o valor zero pode estar indicando que o tempo dessas
101
viagens não foi informado. Logo, essas informações devem ser excluídas de
futuras análises;
� percebe-se a existência de um número excessivo de viagens com tempo de
duração múltiplo de 5: 5, 10, 15 horas, etc. Existe uma tendência observada na
população em geral em arredondar valores numéricos para múltiplos de 5. Trata-
se de uma informação imprecisa, também motivada por falta de cuidado no
fornecimento da informação;
� repare-se que dois valores apresentam-se muito superiores aos demais (660 e
1245). Tecnicamente esses valores são denominados "discrepantes",
"aberrantes", ou "extremos", ou ainda, RXWOLHUV. A seguir, será feita uma discussão
sobre valores discrepantes e suas conseqüências em uma análise dos dados que
serão limpos com o emprego desses métodos.
Para estudar a influência de valores discrepantes em algumas medidas
descritivas vistas anteriormente, apresenta-se a tabela 3 abaixo. Na primeira coluna
têm-se as medidas avaliadas utilizando-se a amostra completa; na Segunda, após a
exclusão do valor 1245 e, a terceira, após a exclusão de 660 e 1245. Nota-se que a
média foi mais afetada pelos valores discrepantes do que a mediana e a média
aparada e que o desvio-padrão também sofre fortes alterações conforme vão se
excluindo esses valores.
Valores discrepantes são comuns em conjuntos de dados reais. Trata-se
muitas vezes de erros de medida, de transcrição, ou ainda, de digitação. Em outras
situações correspondem a observações raras de uma população de interesse. Por
exemplo, em uma amostra de alturas de uma população adulta, pode-se encontrar
alguém com 2,15m. Justificar a ocorrência de um valor suspeito que não é originado
por erro pode nos ajudar a compreender melhor o comportamento da variável e
levantar hipóteses a serem verificadas em estudos posteriores.
102
Tabela 3 - Medidas descritivas para a variável tempo
Medida Descritiva Amostra
Completa
Excluindo o valor
1245
Excluindo os
valores 1245 e 660
Média 27,5 18,2 13,3
Média aparada de 10% 11,1 10,7 10,3
Mediana 7,5 7,0 7,0
Desvio-padrão 121,8 58,8 16,4
Q1 5,0 5,0 5,0
Q3 14,5 13,0 13,0
N 132 131 130
Valores discrepantes podem alterar os resultados de uma análise estatística.
Logo, sempre que aparecerem na amostra, deve ser realizada uma investigação a
fim de descobrir a razão de sua ocorrência e, eventualmente, excluí-los do conjunto
de dados em futuras análises. A decisão de incorporar ou não um valor aberrante
em uma análise estatística deve ser tomada juntamente com o responsável pelos
dados. Em alguns casos trata-se de um dado correto que traz informação relevante
sobre o comportamento da variável, sendo importante sua utilização. Um
procedimento útil nessa situação é a realização de duas análises: uma incorporando
e outra excluindo o valor aberrante; se houver concordância nas conclusões das
análises, pode-se estar diante de um problema secundário. Caso contrário,
recomenda-se que novos dados sejam coletados a fim de certificar-se da conclusão
correta. Se isso não for possível, ou se ainda se mantiver a discordância, pode ser
interessante a divulgação das duas análises permitindo ao usuário da análise a
opção de considerar ou não aquele valor.
A utilização de critérios supostamente objetivos para a detecção de valores
discrepantes deve ser feita com cautela, pois não existe um único critério e nem um
que seja o "mais correto". Pontos considerados discrepantes por um método podem
não o sê-lo por outro, de forma que a decisão de classificar uma observação como
aberrante deve sempre ser feita pelo analista e embasada em fatos da área de
103
estudo relativa à variável. Esses critérios devem ser utilizados apenas para eleger
aquelas observações que merecem uma investigação mais cuidadosa. São eles:
� Gráfico de caixas;
� Valores discrepantes bidimensionais.
2.2.4.1 - Gráfico de Caixas
Entre as medidas de posição e dispersão foi vista a definição de quartis, em
particular a mediana, e do intervalo inter-quartil. Tais informações podem ser
dispostas no chamado JUiILFR�GH�FDL[DV, que consiste em um retângulo posicionado
em relação a um eixo, de tal forma que a base do retângulo corresponda ao primeiro
quartil, e o topo, ao terceiro quartil. Uma outra linha, paralela à base, é então traçada
na altura da mediana. Outros dois segmentos, um perpendicular ao topo, e outro à
base, são traçados até que se atinjam os valores máximo e mínimo, exceto quando
os comprimentos desses segmentos excedem a 1.5 vezes a altura do retângulo (que
corresponde ao intervalo inter-quartil). Nesse caso, valores que ultrapassem esses
limites, são identificados por asteriscos, e representam candidatos a valores
discrepantes. Note-se que o corpo do retângulo, determinado pelos primeiro e
terceiro quartis, corresponde ao intervalo que contém 50% das observações
centrais.
A figura 3 abaixo mostra o gráfico de caixas, referentes aos tempos de
viagem da tabela 2, sem os valores “zero”.
104
1000
500
0
Tem
poGráfico de caixas da variável TEMPO - Amostra Completa
foram excluídas as observações iguais a zero
Figura 4 - Gráfico de caixas para o tempo de viagem
Esses gráficos podem ser obtidos no MINITAB através dos seguintes
comandos:
Boxplot 'tempo'*'Tipo';
Box;
Symbol;
Outlier.
Utilizando-se o menu, os mesmos gráficos podem ser obtidos através da
seguinte seqüência de opções: GRAPH - BOXPLOT.
Nota-se claramente que os valores extremos inferiores e superiores marcados
com estão, a princípio, fora do comportamento amostral e podem ser excluídos.
Trata-se de valores que se encontram muito distantes da massa de dados.
Um método objetivo para a detecção de pontos suspeitos baseia-se no gráfico de
caixas. Considera-se como valores suspeitos, aqueles que estiverem a mais de 1,5
,,4 acima do 3o quartil ou abaixo do 1o quartil. Esse critério foi construído para ser
105
utilizado em um certo tipo de distribuição simétrica. No entanto, pode ser utilizado
com cautela em distribuições não muito assimétricas.
Na figura 4, apresenta-se o gráfico de caixas da variável tempo, omitindo os
valores discrepantes. Note-se que ainda há vários pontos destacados no gráfico.
Esses pontos seriam, em princípio, possíveis valores discrepantes. Contudo, eles
podem ter ocorrido como conseqüência de uma alta assimetria dos dados e, nesse
caso, não seriam valores estranhos à amostra. A decisão final sobre a natureza
desses pontos deve ser tomada por alguém que conheça essa variável e saiba fazer
tal julgamento.
100
90
80
70
60
50
40
30
20
10
0
Tem
po
Gráfico de caixas da variável TEMPOomitindo os valores 1245 e 660
foram excluídas as observações iguais a zero
Figura 5 - Gráfico de caixas da variável tempo
2.2.4.2 - Valores discrepantes bidimensionais
Como no caso unidimensional, pode haver a ocorrência de valores discrepantes
denominados valores discrepantes ("RXWOLHUV") bidimensionais. Define-se uma
observação discrepante como um dado que apresenta um comportamento
inesperado e que, em geral, encontra-se muito distante da massa de dados. A
mesma definição aplica-se ao caso bidimensional, só que agora algumas situações
curiosas podem acontecer. Na figura 5 apresenta-se um diagrama de dispersão
106
construído para o estudo da associação entre duas variáveis. É importante notar a
existência de uma forte associação linear positiva.
10 9 8 7 6 5 4 3 2 1 0
8
7
6
5
4
3
2
X
Y
R-Sq = 0.993Y = 1.76247 + 0.593284X
Regression Plot
Figura 6 - Diagrama de dispersão
Nas figuras 6 e 7, adicionaram-se alguns pontos ao gráfico da figura 5 acima
e classificaram-se esses pontos quanto a serem discrepantes bidimensionais ou
não.
Na figura 6, foi acrescentado um ponto que é aberrante unidimensional
quando se considera apenas a variável X; contudo, esse ponto não é aberrante
unidimensional ao se considerar apenas a variável Y; por outro lado, é um valor
aberrante bidimensional quando se consideram conjuntamente as variáveis X e Y.
Note-se que a posição ocupada por esse ponto é completamente inesperada,
quando se considera o restante dos dados.
A figura 7 é semelhante à figura 5, exceto pelo fato do ponto adicionado ser
aberrante unidimensional apenas em Y.
107
A figura 8 ilustra um valor aberrante unidimensional, tanto em X como em Y,
que também é aberrante bidimensional.
1510 5 0
8
7
6
5
4
3
2
X
Y
R-Sq = 0.182Y = 3.62498 + 0.191149X
Regression Plot
Figura 7 - Exemplo de um ponto que é discrepante em X, não é em Y e é
bidimensional
10 9 8 7 6 5 4 3 2 1 0
15
10
5
X
Y
R-Sq = 0.026Y = 4.97996 + 0.183785X
Regression Plot
108
Figura 8 - Exemplo de um ponto que é discrepante em Y, não é em X e é
bidimensional
1510 5 0
25
20
15
10
5
0
X
Y
R-Sq = 0.760Y = -1.72308 + 1.34585X
Regression Plot
Figura 9 - Exemplo de um ponto que é discrepante em X, em Y e é bidimensional
Na figura 9, adicionou-se um ponto que não é aberrante unidimensional, mas
é aberrante bidimensional.
10 9 8 7 6 5 4 3 2 1 0
8
7
6
5
4
3
2
X
Y
R-Sq = 0.585Y = 2.20055 + 0.453895X
Regression Plot
109
Figura 10 - Exemplo de um ponto que não é discrepante em X, não é em Y e é
bidimensional
A figura 10, por sua vez, ilustra uma situação em que foi adicionado um ponto
que é aberrante unidimensional em X e em Y, mas não é aberrante bidimensional,
uma vez que sua localização não é inesperada ao se considerar a variação
simultânea de X e Y.
2010 0
12
7
2
X
Y
R-Sq = 0.997Y = 1.91167 + 0.563024X
Regression Plot
Figura 11 - Exemplo de um ponto que é discrepante em X, é em Y e não é
bidimensional
O ponto inserido na 11 é aquele localizado no canto superior direito, fora do
campo das variáveis X e Y.
Podem-se observar, nas figuras 11 e 12, os possíveis efeitos de valores
discrepantes bidimensionais.
110
10 9 8 7 6 5 4 3 2 1 0
1.1
1.0
0.9
X
y‘
R-Sq = 0.000Y = 1 + 3.59E-17X
Regression Plot
Figura 12 - Diagrama de dispersão com duas variáveis não associadas
1510 5 0
6
5
4
3
2
1
0
X
y‘
R-Sq = 0.515Y = -3.7E-02 + 0.237352X
Regression Plot
Figura 13 - Associação induzida com a introdução de um valor aberrante
Em resumo, pontos discrepantes bidimensionais alteram o coeficiente de
correlação (nos gráficos é apresentado o quadrado desse coeficiente - R-sq) e a
equação da reta ajustada por mínimos quadrados (regressão linear simples). Na
presença de um valor aberrante bidimensional, pode-se não detectar numericamente
uma associação que existe de fato; ou ainda, o inverso também pode ocorrer, em
que se tem um caso com uma associação fraca e, numericamente, ela surge como
forte devido à presença desse tipo de ponto.
111
Por esse motivo esse método de investigação de pontos discrepantes
bidimensionais é imprescindível em qualquer análise de dados.
2.1.5. Agrupamento dos Dados
Nessa quinta etapa estabelecida como Agrupamento, deve se proceder com a
aplicação dos conceitos de Análise de Agrupamentos - “&OXVWHU� $QDO\VLV”, bem
como a avaliação destes através da análise de variância.
A investigação da existência de grupos dentro dos dados amostrais coletados
pode ser feita das seguintes formas:
� Investigação por meio de gráfico de caixas;
� Análise de variância;
� Análise de agrupamentos.
2.2.5.1 - Investigação por meio de gráfico de caixas
A figura 13 abaixo mostra três gráficos de caixas referentes aos intervalos de
tempo entre chegadas para três tipos de navios em um porto. Note-se que se
visualizam facilmente as diferenças no comportamento dos tempos para os
diferentes tipos. Para o tipo contêiner, várias observações apresentam
comportamento diferente das demais, caracterizando, talvez, uma distribuição
assimétrica. Nesse tipo, encontra-se a maior variabilidade, seguido do tipo
refrigerado. Navios tipo carga geral apresentam a menor variabilidade. Os intervalos
entre as chegadas de navios refrigerados tendem a ser maiores do que para os
outros dois tipos.
112
RefrigeradoCarga GeralConteiner
9
8
7
6
5
4
3
2
1
0
Tipo
tem
po
Figura 14 - Gráfico de caixas para o tempo entre as chegadas de três tipos de navios
���
113
2.2.5.2 - Análise de Variância
A análise de variância é um teste de hipóteses estatístico utilizado para
fornecer evidências objetivas em favor ou contra suspeitas que se tem em relação às
características de uma população. O teste de hipótese é baseado em uma estrutura
bem definida, que faz uso de duas hipóteses, denominadas KLSyWHVH� QXOD�(usualmente representada por Ho) e KLSyWHVH�DOWHUQDWLYD�(H1).
O procedimento que se define a seguir é desenvolvido a fim de que a
probabilidade de ocorrência para o erro tipo I (rejeitar Ho quando na verdade ela é
verdadeira) seja controlada. Usualmente utilizamos a seguinte notação:
α = probabilidade de ocorrer um erro do tipo I
β = probabilidade de ocorrer um erro do tipo II
A probabilidade de erro tipo I também é conhecida como nível de significância
do teste. Obviamente desejar-se-LD� WHU� DPERV� RV� HUURV� � H� � DVVXPLQGR� R�PHQRU�valor possível. Entretanto, é impossível minimizar ambos ao mesmo tempo (a menos
que possamos aumentar o tamanho da amostra indefinidamente).
As etapas de um teste de hipóteses paramétrico são:
1. Definir Ho e H1;
2. Definir um estimador para o parâmetro que está sendo testado, e sua
correspondente distribuição de probabilidades;
3. Supondo Ho verdadeira, calcular a probabilidade de se obter um valor para o
estimador tão ou mais desfavorável à hipótese nula do que o fornecido pela
amostra. Este valor, usualmente denotado por p, é denominado nível descritivo
(ou em inglês, S�YDOXH);
4. Fixar um valor para o nível de significância α. Se o nível descritivo for inferior a
este valor, rejeitar a hipótese Ho; caso contrário, aceitá-la.
Visto que devem existir nos dados a identificação de pelo menos um fator
para cada dado amostral, que no caso do exemplo acima é o tipo de navio, pode-se
114
utilizar a ANOVA – Análise de Variância, para testar se, por exemplo, as médias
amostrais dos grupos identificados pelo gráfico de caixas da figura 13 podem ser
consideradas iguais. Alguns requisitos básicos para aplicação da ANOVA a casos
como esses referem-se à igualdade entre variâncias nos conjuntos a serem
testados. Na prática, isso nem sempre acontece, mas Scheffé(1958) admite que se
a razão entre a maior e a menor variância amostral for menor que 5 (cinco), a
ANOVA pode ser aplicada sem maiores problemas.
A figura 14 abaixo indica os resultados do programa MINITAB da ANOVA
aplicada aos dados de intervalo entre chegadas consecutivas de três tipos de
navios, mostrados na figura 13.
É interessante ressaltar que os programas de análise estatística como o
MINITAB, já informam o nível descritivo “p”, eliminando a necessidade de se
consultar a tabela da estatística F-Snedecor. No exemplo acima, o nível “p” é zero, o
que indica que o valor Fcalculado está muito à direita da distribuição, ou seja, rejeita-se
a hipótese de igualdade de médias dos intervalos entre chegadas dos três navios e,
portanto, esse processo de chegadas deveria ser modelado separadamente para
cada tipo de navio considerado. O MINITAB mostra também o teste de Tukey, que
compara duas a duas as amostras, procurando igualdade de média entre os pares.
Esse teste facilita a identificação de conjuntos de dados de tipos a priori
considerados diferentes, que poderiam ser agrupados.
115
Figura 15 - Análise de variância das médias de intervalo entre chegadas de consumo
de três tipos de navios.
2QH�:D\�$QDO\VLV�RI�9DULDQFH��Analysis of Variance on ,17(59$/2B&+(*�Source DF SS MS )� p
C26 8 3.386E+11 4.232E+10 ���� 0.000
Error 180 1.192E+12 6.622E+09
Total 188 1.531E+12
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev -+---------+---------+---------+-----
1 23 1,0800 1,09000 (-----*-----)
2 20 2,4000 0,6000 (-*-)
3 25 7,2000 3,4000 (---*---)
Tukey's pairwise comparisons
Family error rate = 0.0500
Individual error rate = 0.00197
&ULWLFDO�YDOXH� ������
116
2.2.5.3 - Análise de Agrupamentos (&OXVWHUV�$QDO\VLV)
Está técnica descritiva é aplicada quando o analista quer agrupar elementos,
que são representados por diversas variáveis. O agrupamento, como será visto
adiante, depende da escolha das variáveis corretas para a aplicação do método.
Por exemplo, considere nove terminais de contêineres, representados pelo
volume médio mensal movimentado de contêineres (T.E.U. – Twenty Equivalent
Units) e pela área física disponível para recepção, movimentação e armazenagem
de contêineres (em metros quadrados), que precisam ser agrupados visando
possibilitar a redução do número de tipos de terminais a serem modelados e
simulados, conforme mostrado na tabela 4.
Tabela 4 - Dados de nove terminais de contêineres
Terminal Volume de contêineres
movimentado por mês (T.E.U.)
Área disponível (m2)
A 10000 40000
B 5800 12000
C 3000 15000
D 12000 19000
E 8500 30000
F 4200 8000
G 6000 18500
H 2800 9000
I 7000 25000
Média 6588,9 19611,1
Desvio-Padrão 3135,5 10493,4
As variáveis escolhidas para o agrupamento dos nove terminais de
contêineres podem não ser as mais adequadas, o que levaria o analista a procurar
outras variáveis mais significativas e aplicar esse método novamente.
117
Visto que o número de contêineres e a área não têm a mesma unidade, cabe
padronizar os dados, subtraindo-se a média e dividindo-se o resultado pelo desvio-
padrão, conforme mostra a tabela 5.
Tabela 5 - Dados padronizados dos nove terminais de contêineres
Terminal Volume de Contêineres Área
A 1,09 1,94
B -0,25 -0,73
C -1,14 -0,44
D 1,73 -0,06
E 0,61 0,99
F -0,76 -1,11
G -0,19 -0,11
H -1,21 -1,01
I 0,13 0,51
A partir da tabela 5 correspondente aos dados padronizados, pode-se montar
uma matriz com as distâncias euclidianas entre cada terminal, com base no volume
de contêineres e a área. A tabela 6 mostra parte da matriz das distâncias, em que foi
eliminada uma linha e uma coluna para não aparecerem as distâncias entre os
mesmos terminais.
118
Tabela 6 - Distâncias euclidianas entre os nove terminais
Terminais A B C D E F G H
B 2,99
C 3,27 0,94
D 2,10 2,09 2,90
E 1,07 1,92 2,26 1,53
F 3,57 0,64 0,77 2,70 2,51
G 2,41 0,62 1,01 1,91 1,36 1,15
H 3,74 1,00 0,58 3,09 2,70 ����� 1,36
I 1,72 1,30 1,59 1,69 0,68 1,85 0,70 2,03
A partir da tabela 6, a aplicação do método é muito simples. Escolhe-se a
menor distância na tabela 6 e agrupam-se os elementos. Na tabela 6, a menor
distância é 0,46, indicando que um grupo será formado pelos terminais F e G.
Uma nova tabela de distâncias euclidianas deve ser montada, reduzindo-se
uma coluna e uma linha. A distância entre o novo grupo FG e cada um dos outros
terminais “i” é a média da distância F - ”i” e a distância G – “i”s. Os resultados são
mostrados na tabela 7.
Tabela 7 - Distâncias euclidianas entre os oito terminais mais o grupo FH
Terminais A B C D E G FH
B 2,99
C 3,27 0,94
D 2,10 2,09 2,90
E 1,07 1,92 2,26 1,53
G 2,41 0,62 1,01 1,91 1,36
FH 3,65 0,82 0,67 2,89 2,60 1,26
I 1,72 1,30 1,59 1,69 0,68 0,70 1,94
119
Observação: As distâncias entre os terminais não agrupados permanecem as
mesmas. A distância FH e o terminal A, por exemplo, é igual à média entre as
distâncias F-A e H-A, mostradas na tabela 6.
A partir daí, o procedimento é repetido até que, no limite, dois grupos de
terminais sejam formados, conforme mostrado na tabela 8.
Tabela 8 - Aplicação do procedimento de agrupamento até atingir dois grupos
Terminais/grupos A B C D E G FH
B 2,99
C 3,27 0,94
D 2,10 2,09 2,90
E 1,07 1,92 2,26 1,53
G 2,41 ����� 1,01 1,91 1,36
FH 3,65 0,82 0,67 2,89 2,60 1,26
I 1,72 1,30 1,59 1,69 0,68 0,70 1,94
Segunda Redução
Terminais/grupos A C D E GB FH
C 3,27
D 2,10 2,90
E 1,07 2,26 1,53
GB 2,70 0,98 2,00 1,64
FH 3,65 ����� 2,89 2,60 1,04
I 1,72 1,59 1,69 0,68 0,70 1,94
120
Terceira Redução
Terminais/grupos A D E GB FHC
D 2,10
E 1,07 1,53
GB 2,70 2,00 1,64
FHC 3,46 2,89 2,43 1,01
I 1,72 1,69 ����� 0,70 1,77
Quarta Redução
Terminais/grupos A D GB FHC
D 2,10
GB 2,70 2,00
FHC 3,46 2,89 �����
IE 1,58 1,61 1,17 2,10
Quinta Redução
Terminais/grupos A D FHCGB
D 2,10
FHCGB 2,40 2,45
IE ����� 1,61 1,63
Tabela 8 - Aplicação do procedimento de agrupamento até atingir dois
grupos (continuação)
Sexta Redução
Terminais/grupos D FHCGB
FHCGB 2,45
IEA ����� 2,02
121
Sétima e Última Redução
Terminais/grupos FHCGB
IEAD �����
A tabela 8 acima mostra em cinza o menor valor do parâmetro de escolha
para agrupamento, que é a menor distância entre grupos. Este parâmetro aumenta
de valor de redução para redução.
Se fosse adotado um critério de limite máximo para esse parâmetro, a
redução poderia ser interrompida antes que os dois últimos grupos fossem
formados. Outra opção é observar a variação do parâmetro entre reduções, ou seja,
se, de uma redução para outra, o valor da distância aumentou demasiadamente,
indica-se que o novo grupo está muito distante de qualquer outro anteriormente
montado. Um exemplo simples que ilustra essa situação, é de dez elementos,
agrupados em cinco conjuntos muito distantes entre si, cada um com dois elementos
muito próximos entre si. O método agruparia os elementos, com pequenos valores
de distâncias, em até cinco grupos. Do quinto para o sexto, a distância aumentaria
muito, pois implicaria tentar juntar dois grupos que de fato estariam muito distantes.
Cabe ressaltar novamente que, se outras variáveis, como por exemplo, o
tempo médio de carga e descarga de navios, fossem consideradas, elas levariam a
outro tipo de agrupamento. É possível também considerar mais de duas variáveis e,
para tanto, o conceito de distância euclidiana deverá ser generalizado para um
espaço de dimensão “n”, em que “n” é o número de variáveis analisadas.
Bussab (1990) mostra mais detalhes sobre esse método e apresenta
diferentes formas de recalcular as distâncias entre um grupo formado e os
remanescentes, para se proceder à redução da matriz de distâncias.
2.1.6. Seleção da Distribuição de Probabilidade
Na sexta e última etapa pode-se chegar às distribuições de probabilidade que
efetivamente definem o comportamento das variáveis em análise que serão
inseridas no modelo de simulação.
122
Além dos clássicos testes de aderência, apresenta-se também um método
gráfico.
Nos problemas de fila e de simulação é necessário caracterizar-se os
processos de chegada e atendimento dos elementos, por meio da identificação das
distribuições de probabilidades que regem esse processos. Para que isso seja
possível, deve-se proceder inicialmente a uma coleta de dados sobre os intervalos
de tempo entre as chegadas consecutivas e os tempos de atendimento em cada
posto. Algumas estatísticas devem ser retiradas dos conjuntos de dados, bem como
deve-se proceder a uma limpeza dos dados, conforme discutido nas seções
anteriores.
Concluída a etapa de agrupamento, em que grupos foram identificados e
separados ou amostras foram reunidas, pode-se elaborar para cada conjunto uma
tabela de freqüências acumuladas para as distribuições observadas.
Para a aplicação de simulação é interessante, mas não necessário, que as
distribuições observadas tenham um modelo teórico associado, como por exemplo
uma exponencial, erlang, uniforme, normal, etc. Deve-se, portanto, proceder a um
teste de aderência para verificar qual modelo teórico se adapta à distribuição
observada.
O primeiro problema a ser enfrentado ao se realizar uma análise inferencial é
a identificação de uma distribuição de probabilidades que possa vir a modelar os
dados.
Utiliza-se como exemplo as informações sobre o intervalo de tempo entre as
chegadas de navios dos tipos contêiner, carga geral e refrigerado a um porto, ao
longo de um ano. Para a validade das técnicas a serem apresentadas, supomos que
exista independência entre esses intervalos de tempo.
A seleção de probabilidades será feita utilizando-se três métodos. São eles:
� Investigação gráfica e gráfico de probabilidades;
� Teste de aderência de Qui-Quadrado;
� Teste de aderência de Kolmogorov- Smirnov.
123
2.2.6.1 - Investigação gráfica
O primeiro passo para a seleção do modelo probabilístico é a visualização
dos dados. Nas figuras 15, 16 e 17, apresentam-se os histogramas relativos aos
intervalos de tempo entre as chegadas dos três tipos de navios. Podem-se comparar
as formas desses histogramas com as distribuições teóricas conhecidas, que
apresenta e discute distribuições de probabilidades. À primeira vista, tem-se que:
� Contêiner (figura 15): distribuição fortemente assimétrica (descarta-se a normal e
a uniforme) e seu histograma é semelhante ao das distribuições exponencial,
Weibull ou gama;
� Carga Geral (figura 16) - distribuição simétrica, eventualmente normal;
� Refrigerado (figura 17) - não fosse a altura da segunda coluna, poderia ser uma
distribuição próxima à uniforme.
876543210
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
tempo
Den
sity
Figura 16 - Histograma do intervalo de tempo entre chegadas de navios do tipo
contêiner
124
3.02.52.0
2
1
0
tempo
Den
sity
Figura 17 - Histograma do intervalo de tempo entre chegadas de navios do tipo
carga geral
9876
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
tempo
Den
sity
Figura 18 - Histograma do intervalo de tempo entre chegadas de navios do tipo
refrigerado
��
125
2.2.6.2 - Gráfico de probabilidades
O gráfico de probabilidades é um método simples e bastante utilizado para
verificar se um conjunto de dados pode ter sido gerado a partir de uma distribuição
de probabilidades específica. Baseia-se na comparação entre a amostra obtida e
aquela que deveria ter sido obtida caso os dados realmente seguissem a distribuição
de probabilidades em investigação.
Para exemplificar sua utilização utiliza-se a amostra apresentada na tabela 9.
Tabela 9 - Dados amostrais
Observação
i
Valor
medido
Observação
i
Valor
medido
1 0,03257 11 0,94661
2 0,09560 12 1,05534
3 0,14279 13 1,26731
4 0,20426 14 1,31419
5 0,21507 15 1,31554
6 0,25680 16 1,62219
7 0,61596 17 1,98849
8 0,68740 18 2,28708
9 0,76079 19 2,48113
10 0,77090 20 3,81403
Suponha que se deseja verificar se a amostra apresentada na tabela 9 segue
uma distribuição exponencial. Sabe-se que o parâmetro da exponencial é sua
média. Utiliza-se a média amostral desses dados como uma aproximação da média
populacional da distribuição que os gerou; no caso, a média amostral é 1,094.
Assim, pode-se checar se os dados são provenientes de uma distribuição
exponencial com média 1,094.
O primeiro passo para a construção do gráfico é ordenar os dados (segunda
coluna da tabela 10). Para a determinação da amostra esperada sob a distribuição
126
exponencial de média 1,094, define-se a função acumulada empírica. Essa função
estima a proporção de observações menores ou iguais a cada valor observado na
amostra ordenada. Então, tem-se uma amostra de tamanho Q e, por exemplo, para
o quinto valor ordenado, uma possível estimativa de sua proporção seria 5/n. No
entanto, devido a conveniências teóricas, estima-se essa proporção por (5 - 0,5)/n
(ver terceira coluna da tabela 10).
Para a determinação dos valores esperados, igualam-se a função distribuição
acumulada da exponencial com média 1,094 e a função acumulada empírica, ou
seja, para a i-ésima observação tem-se:
205.0
1)( 094,1 −=−=− LH[)
()( .
Isolando [ * + vem que:
094,120
5.01ln
−−
−=
L[ , ,
que corresponde ao i-ésimo valor esperado, sob a hipótese de distribuição
exponencial com média 1,094 (última coluna da tabela 10).
Considere o par ordenado (valor observado * , [ * ). O gráfico de probabilidades é
obtido com a simples disposição desses pontos em um sistema cartesiano. Se a
distribuição suposta for pertinente, espera-se que os pontos estejam aleatoriamente
dispostos ao redor de uma reta, no caso da reta y=x; é bom ressaltar que existem
variações na construção desse tipo de gráfico e nem sempre a reta x=y é utilizada
como referência. Na figura 18, apresenta-se o gráfico de probabilidades para os
dados em questão. Note-se que os pontos estão realmente dispostos em torno da
reta de referência, o que nos faz aceitar a suposição de que eles sejam provenientes
de uma distribuição exponencial com média 1,094.
127
Tabela 10 - Determinação da amostra esperada sob a hipótese de distribuição
exponencial com média 1,094
i Valores
Observados
(i-0.5)/20 Valores
esperados
1 0,03257 0,025 0,02314
2 0,09560 0,075 0,07126
3 0,14279 0,125 0,12206
4 0,20426 0,175 0,17584
5 0,21507 0,225 0,23299
6 0,25680 0,275 0,29395
7 0,61596 0,325 0,35927
8 0,68740 0,375 0,42962
9 0,76079 0,425 0,50584
10 0,77090 0,475 0,58899
11 0,94661 0,525 0,68048
12 1,05534 0,575 0,78214
13 1,26731 0,625 0,89655
14 1,31419 0,675 1,02736
15 1,31554 0,725 1,18006
16 1,62219 0,775 1,36349
17 1,98849 0,825 1,59321
18 2,28708 0,875 1,90077
19 2,48113 0,925 2,36770
20 3,81403 0,975 3,37192
Esses valores foram obtidos através da seguinte seqüência de comandos do
MINITAB:
Sort C5 c5;
128
By C5.
Set c4
1( 1 : 20 / 1 )1
End.
Let c6 = (c4-0,5)/20
Let c7 = -(LOGE(1-c6))/1,094
43210
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
Dados observados
Dad
os p
revi
stos
Figura 19 - Gráfico de probabilidades exponencial para os dados da tabela 10
O MINITAB constrói automaticamente gráficos de probabilidade para as
distribuições: normal, lognormal, Weibull e exponencial.
A figura 19, por exemplo, corresponde a um gráfico de probabilidade
exponencial para o histograma mostrado na figura 18 referente a navios tipo
contêiner. Note-se que a escala utilizada no eixo y é um pouco diferente da
apresentada, correspondendo à probabilidade de se ter um valor menor ou igual ao
observado, quando se adota uma distribuição exponencial com média 1,094; no
entanto, a forma da figura é a mesma da obtida através do procedimento proposto.
Além da reta de referência (no centro da figura), o programa constrói duas outras
retas. Caso a distribuição dos dados seja exponencial, espera-se que os dados
estejam distribuídos aleatoriamente entre as duas retas externas. É exatamente isso
129
o que acontece. Parece, então, razoável a hipótese dos dados terem sido gerados
através de uma distribuição exponencial.
Na figura 20 tem-se um gráfico de probabilidades normal para o histograma
de navios de carga geral, mostrado na figura 19. Note-se que a menos de um valor
muito pequeno, os pontos têm um comportamento compatível com a hipótese de
normalidade dos dados. Esse valor pequeno pode ser uma observação discrepante.
76543210
99
98
979695
93
90
80
706050
3010
Data
Per
cent
Fail. Rate:Mean:
0.8041941.24348
Exponential Probability Plot for tempo
Figura 20 - Gráfico de probabilidades exponencial para os intervalos de tempo entre
chegadas de navios do tipo contêiner
Esse gráfico foi gerado a partir dos seguintes comandos:
%Qqplot 'tempo';
Expo;
Table;
Conf 95;
Ci.
130
Ele também pode ser obtido, via Menu, através da seguinte seqüência:
GRAPH - PROBABILITY PLOT.
3.02.82.62.42.22.01.8
99
95
90
80
7060504030
20
10
5
1
Data
Per
cent
StDev:Mean:
0.2360752.42057
Normal Probability Plot for tempo
Figura 21 - Gráfico de probabilidades normal para os intervalos de tempo entre
chegadas de navios do tipo carga geral
10 9 8 7 6 5
99
95
90
80
70
60
50
40
30
20
10
5
1
Data
Per
cent
StDev:Mean:
0.9632217.30497
Normal Probability Plot for tempo
10.0 9.8 9.6 9.4 9.2 9.0 8.8 8.6 8.4 8.2 8.0 7.8 7.6 7.4 7.2 7.0 6.8 6.6 6.4 6.2 6.0 5.8 5.6 5.4 5.2 5.0 4.8
99
95
90
80
70
60
50
40
30
20
10
5
1
Data
Per
cent
StDev:Mean:Log Base e
StDev:Mean:Log Base 10
0.132131.98002
0.057380.85991
Lognormal Probability Plot for tempo
10.0 9.8 9.6 9.4 9.2 9.0 8.8 8.6 8.4 8.2 8.0 7.8 7.6 7.4 7.2 7.0 6.8 6.6 6.4 6.2 6.0 5.8 5.6 5.4 5.2 5.0 4.8 4.6 4.4 4.2 4.0 3.8
99
9590
80706050
40
30
20
10
5
3
2
1
Data
Per
cent
Scale:Shape:
7.729788.63310
Weibull Probability Plot for tempo
40302010 0
98
97
9695
93
90
80
70
6050
30
10
Data
Per
cent
Fail. Rate:Mean:
0.1368937.30497
Exponential Probability Plot for tempo
Figura 22 - Gráficos de probabilidades para os intervalos de tempo entre chegadas
de navios do tipo refrigerado
131
Na figura 22 apresentam-se os gráficos de probabilidades gerados pelo
MINITAB para o histograma referente aos navios refrigerados, mostrados na figura
22. Note-se que em nenhum deles tem-se um comportamento dos pontos
compatível com a distribuição de probabilidades assumida.
A figura 22 corresponde a um gráfico de probabilidades uniforme com intervalo
(5,9; 8,8) para os dados referentes a navios do tipo refrigerado. Note-se que este
gráfico tem um comportamento melhor do que os gráficos da figura 21. Logo existe
a possibilidade de que o intervalo de tempo entre as chegadas de navios
refrigerados seja uniforme.
9876
9
8
7
6
Valor Observado
Val
or E
sper
ado
Figura 23 - Gráfico de probabilidades uniforme para os intervalos de tempo entre
chegadas de navios do tipo refrigerado
132
2.2.6.3 - Testes de aderência
Um teste de aderência é um teste de hipóteses que verifica se um
determinado conjunto de dados foi gerado através de uma distribuição especificada.
Há, na literatura estatística, uma série de testes com esse objetivo.
A -Teste de Kolmogorov-Smirnov
O teste de Kolmogorov-Smirnov baseia-se na comparação entre a distribuição
acumulada amostral e a função distribuição acumulada teórica, que se acredita ter
gerado os dados (F(x)). A partir da amostra ordenada, define-se a distribuição
acumulada amostral para a i-ésima observação como S(xi) = i/n. A estatística do
teste, que tem como hipótese nula que os dados foram gerados segundo uma
distribuição específica contra uma hipótese alternativa, que diz que os dados não
foram gerados segundo essa distribuição, é dada por:
�[�6�[�)' - −= sup ,
que sob a hipótese nula segue uma distribuição específica.
Para ilustrar a aplicação do teste, utilizam-se os dados da tabela 11, onde se
detalha um procedimento numérico para a obtenção de ', no caso da distribuição a
ser testada ser contínua (exponencial, com média 1,094). Nas colunas 3 e 4,
apresenta-se a função distribuição amostral e essa mesma função defasada de uma
observação, respectivamente. Na coluna 5, tem-se a função distribuição acumulada
da exponencial com média 1,094 (definida anteriormente). Nas colunas 6 e 7, tem-se
o módulo da diferença entre a acumulada amostral (defasada na coluna 7) e a
acumulada teórica. Note-se que o valor máximo dessas duas colunas é 0,13052,
que corresponde à estatística '; o nível descritivo associado a esse teste é superior
a 5%, o que nos leva a admitir a hipótese de que os dados podem seguir uma
distribuição exponencial com média 1,094.
133
Na tabela 12, apresenta-se a seqüência de comandos do MINITAB, utilizada
para testar a hipótese de que os dados sobre os intervalos de tempo entre as
chegadas de navios do tipo contêiner seguem uma distribuição exponencial.
Tabela 11 - Planilha de cálculo para o teste de Kolmogorov-Smirnov.
I Valores
Observado
s
S(xi) S(xi-1) F(x) |F(xi)-S(xi)| |F(xi)-S(xi-1)|
1 0,03257 0,05 0,029332 0,0206680 0,029332
2 0,09560 0,10 0,05 0,083678 0,0163216 0,033678
3 0,14279 0,15 0,10 0,122364 0,0276358 0,022364
4 0,20426 0,20 0,15 0,170316 0,0296841 0,020316
5 0,21507 0,25 0,20 0,178475 0,0715253 0,021525
6 0,25680 0,30 0,25 0,209216 0,0907840 0,040784
7 0,61596 0,35 0,30 0,430520 0,0805203 0,130520
8 0,68740 0,40 0,35 0,466524 0,0665237 0,116524
9 0,76079 0,45 0,40 0,501138 0,0511375 0,101138
10 0,77090 0,50 0,45 0,505725 0,0057254 0,055725
11 0,94661 0,55 0,50 0,579065 0,0290654 0,079065
12 1,05534 0,60 0,55 0,618888 0,0188881 0,068888
13 1,26731 0,65 0,60 0,686019 0,0360188 0,086019
14 1,31419 0,70 0,65 0,699188 0,0008115 0,049188
15 1,31554 0,75 0,70 0,699559 0,0504409 0,000441
16 1,62219 0,80 0,75 0,773001 0,0269994 0,023001
17 1,98849 0,85 0,80 0,837590 0,0124096 0,037590
18 2,28708 0,90 0,85 0,876383 0,0236173 0,026383
19 2,48113 0,95 0,90 0,896475 0,0535253 0,003525
20 3,81403 1,00 0,95 0,969387 0,0306135 0,019387
134
Tabela 12 - Comandos para a determinação da estatística do teste de Kolmogorov-
Smirnov para a distribuição exponencial
=== determinando a média da exponencial e armazenando-a em K1 ===
MTB > let K1=mean(tempo)
=== ordenando os dados ===
MTB > Name c4 = 'tmpord'
MTB > Sort 'tempo' 'tmpord';
SUBC> By 'tempo'.
=== criando uma coluna numerada de 1 até 293 e outra de 0 até 292 ===
MTB > Name c6 = 'i'
MTB > Set 'i'
DATA> 1( 1 : 293 / 1 )1
DATA> End.
MTB > Name c7 = 'i_1'
MTB > Set 'i_1'
DATA> 1( 0 : 292 / 1 )1
DATA> End.
=== criando S(xi) e S(xi-1) ===
MTB > Name C8 = 'S(x_i)'
MTB > Let 'S(x_i)' = i/293
MTB > Name C9 = 'S(x_i-1)'
MTB > Let 'S(x_i-1)' = 'i_1'/293
=== criando F(xi) ===
MTB > Name C10 = 'F(x)'
MTB > Let 'F(x)' = 1-exp(-tmpord/k1)
=== determinando as diferenças entre as funções distribuição ===
MTB > Name C11 = '|F(x)-S(X)|'
MTB > Let '|F(x)-S(X)|' = abs('F(x)'-'S(x_i)')
MTB > Name C12 = '|F(x)-S(X-1)|'
135
MTB > Let ’|F(x)-S(X-1)|’ = abs(’F(x)’-’S(x_i-1)’)
=== determinando a diferença máxima ===
MTB > max('|F(x)-S(X)|')
MTB > max('|F(x)-S(X-1)|')
B - Teste do Qui-Quadrado
O teste de aderência estatístico mais usado é do QUI-QUADRADO, que se
inicia calculando-se os desvios entre as freqüências observadas em cada classe e
as freqüências teóricas (usando-se o modelo escolhido) nas mesmas classes. A
expressão abaixo mostra como calcular a estatística E para utilização no teste de
aderência proposto.
E O TTk
k k
k
= −
E EkK
K
==
∑ 2
1
Em cada classe calcula-se o valor Ek, que é a diferença entre o número
observado de elementos (Ok) e o valor teórico (Tk) e divide-se o valor obtido pelo
valor teórico da classe (Tk). A somatória dos valores desses valores Ek, para todas
as K classes envolvidas determina a estatística E, cuja distribuição é uma QUI-
QUADRADO com K-1-n graus de liberdade, em que n é o número de parâmetros
estimados a partir da amostra coletada.
Escolhendo-se um nível de significância ALFA e k-1-n graus de liberdade,
obtém-se da tabela da distribuição do QUI-QUADRADO o valor Ecrítico. Se E for
136
maior que Ecrítico, rejeita-se a hipótese de que a amostra observada provém de
uma população com a distribuição teórica adotada.
A tabela 13 mostra as classes de freqüências (K=9) dos tempos de
atendimento de um terminal portuário com um único berço, o número de elementos
observados por classe e o valor acumulado, a freqüência teórica por classe e o
número teórico de elementos por classe, considerando que a distribuição normal
será testada nos dados observados. A partir dos dados da amostra é estimado o
valor da média, 420, e do desvio-padrão, 40.
Tabela 13 - Freqüências observadas e teóricas
Classes de
freqüência no. de
elementos
observados
no.
acumulado
de elementos
observados
freqüência
acumulada
teórica
número teórico
acumulado de
elementos
no. Téorico de
elementos
340-360 3 3 0,0410 2,005 2,005
360-380 3 6 0,1056 5,28 3,275
380-400 4 10 0,2266 11,33 6,05
400-420 11 21 0,4013 20,06 8,73
420-440 6 27 0,5987 29,33 9,27
440-460 13 40 0,7734 38,67 9,34
460-480 2 42 0,8944 44,72 6,05
480-500 4 46 0,9599 47,99 3,27
500-520 4 50 0,9878 49,39 1,4
Para o cálculo da estatística E são utilizadas a segunda e a sexta coluna da
tabela 13. O valor E obtido pela aplicação das expressões mostradas anteriormente
é 0,47938.
Como foram calculados os valores da média e do desvio-padrão da
distribuição a partir da amostra, o valor de n será 2.
137
Assumindo α igual a 5%, e k-1-n igual a 6, o valor Ecrítico é de 12.589. Como
E é menor que Ecritico, aceita-se que a distribuição normal adere aos dados
observados.
C – Algumas observações sobre os testes de aderência
Em geral, os pacotes computacionais, que efetuam testes de aderência a
partir de uma amostra, fornecem os níveis descritivos para diversas distribuições
teóricas testadas, classificados em ordem crescente. Esses programas indicam que,
quando se trata do teste de aderência de Kolmogorov-Smirnov, a melhor aderência
encontrada é a distribuição teórica que apresentou maior nível descritivo “p” ou
menor valor de “D”; ou o menor valor de “E” quando for o teste de aderência de Qui-
Quadrado.
Um cuidado que o analista deve ter é que, analisando a lista de distribuições
ordenadas, mais de uma distribuição teórica poderá aderir àquela amostra para um
mesmo nível de significância adotado. Sugere-se que o analista utilize a distribuição
mais conhecida e cujos parâmetros são mais facilmente calculados. Por exemplo,
uma exponencial ao invés de uma beta.
Uma situação inversa também pode ocorrer, ou seja, a lista de distribuições
apresentadas pelos pacotes computacionais apresenta níveis descritivos muito
baixos, mesmo para a melhor distribuição por eles indicada. Nesse caso,
recomenda-se ao analista utilizar a distribuição denominada empírica, que nada
mais é do que a representação, por intervalos, do gráfico de freqüência acumulada
obtido a partir da amostra.