Upload
duongcong
View
217
Download
0
Embed Size (px)
Citation preview
Tolerância a falha
Edy HayashidaE-mail: [email protected]
Introdução
2 9/8/2011
• Um objetivo importante do projeto de sistemas distribuídosé construir o sistema de modo tal que ele possa se recuperarautomaticamente de falhas parciais sem afetar seriamente odesempenho global.
Sistemas confiáveis
3 9/8/2011
• Disponibilidade• Confiabilidade• Capacidade de manutenção
Disponibilidade
4 9/8/2011
• É definida como a propriedade de um sistema estar prontopara ser usado imediatamente.
• Em geral, refere-se à probabilidade de o sistema estarfuncionando corretamente em qualquer momentodeterminado e estar disponível para executar suas funções.
Confiabilidade
5 9/8/2011
• Refere-se à propriedade de um sistema poder funcionarcontinuamente sem falha. Ao contrário da disponibilidade, aconfiabilidade é definida em termos de um intervalo detempo em vez de um instante no tempo.• Um sistema de alta confiabilidade é aquele que continuaráa funcionar sem interrupção por um longo período detempo.
Disponibilidade x Confiabilidade
6 9/8/2011
• Se um sistema fica fora do ar por 5 min num ano porproblemas de quedas não planejadas. Ele tem 99,999%de disponibilidade. Mas a confiabilidade poderá serbaixa.
• Se esse sistema nunca cai, mas tem as paradasplanejadas por 6 horas de um nó, ele tem altaconfiabilidade, mas somente 99,93% de disponibilidade.
Capacidade de manutenção
7 9/8/2011
• Refere-se à facilidade com que um sistema que falhoupossa ser consertado. Um sistema de alta capacidade demanutenção também pode mostrar alto grau dedisponibilidade, em especial se as falhas puderem serdetectadas e reparadas automaticamente.
Necessidades dos negócios
8 9/8/2011
0:00 5:00 10:00 21:0017:00
Processamentobatch
Start dasaplicações
Início Fim
After Market
Downtime
Processos: melhores práticas nogerenciamento de serviços
Pessoas: regras, responsabilidades,conhecimento e treinamento
Tecnologia: infraestrutura e ferramentas20%
80%
“80% do downtime não planejado é devido a processos e pessoas.”(source: Gartner Group)
40%Erros de Operação
40%Falhas na Aplicação
20%Fatores
Ambientais,HW, SO, Power,
Desastres
“Downtime” não planejado
O que tem causado “Downtime”?Melhor Prática : Saber o motivo do “Downtime”
Fonte: Gartner
Source: IDC Business Value Research
Perda de receita
Calculando o custo de downtime
12 9/8/2011
$3 Bilhões / ano = $342K por hr.
8,766 horas no ano
Perdas significativas
13 9/8/2011
Imagem“No dia 26/4, a Sony anunciou que
uma “invasão externa” à sua rede onlineconseguiu ter acesso aos dados pessoais,
informações de senhas, histórico de compras eaté números cartão de crédito dos mais de 70milhões de jogadores que utilizam a rede do
PlayStation 3.O caso é tão sério que, segundo um instituto depesquisas especializado, o prejuízo da Sony como vazamento desses dados poderia ultrapassar os
24 bilhões de dólares”
Fonte: IDG Now
Impacto nos negócios
14 9/8/2011
Problemas com clientes
Penalidades
Ações legais
Credibilidade
Classificação das falhas
15 9/8/2011
• Falhas transientes: ocorrem uma vez e depois desaparecem
• Falha intermitente: ocorre e desaparece por vontade própria,depois reaparece, e assim por diante. Difícil de diagnosticar eencontrar a causa-raiz do problema.
• Falha permanente: é aquela que continua a existir até que ocomponente faltoso seja substituído.
Diagrama de causa e efeito
16 9/8/2011
• Conhecido também como diagrama de Ishikawa ou espinha de peixe
• Uma forma criativa de analisar as causas de um problema
• Ajuda a estimular o pensamento e organiza as idéias
Diagrama de causa e efeito
17 9/8/2011
Sistema nãoinstala
Uso do software errado
Software
Médoto de instalação
Versão diferente
Uso do equipamento errado
Sistemas conflitantes
Sistemas legados
Falta de treinamento
Instalação de software Uso do processo errado
Instalação de hardware
Hardware
Estratégia de resposta aos riscos
• Eliminar: eliminar a ameaça eliminando a causa
• Mitigar: reduzir a probabilidade ou o impactode uma ameaça, tornando-a um risco menor
• Transferir: tornar outra parte responsável pelorisco contratando seguros, garantias outerceirização do trabalho.
18 9/8/2011
Custo de downtime
19 9/8/2011
• Calcular o custo de downtime para a seguinte situação:
Cenário:• A BM&Fbovespa oferece ao mercado diversos serviços através dos sistemasMegabolsa, Global Trading System e HomeBroker. A volume financeiro mensal éde aproximadamente US$ 80 bilhões, o mercado financeiro abre às 10 horas efinaliza às 17 horas, de segunda à sexta-feira, excluindo os feriados.
1. Calcular o custo de 1 hora de parada no ambiente para os meses desetembro 2010 (US$ 82 bilhões) e novembro de 2010 (US$ 74 bilhões)
2. Calcular o custo de 1 minuto de parada no ambiente para o mês de abril de2011 (US$ 80 bilhões).
Custo de downtime – Setembro 2010
20 9/8/2011
• Setembro 2010 – 21 dias úteis• Volume financeiro – US$ 82 bilhões• Mercado 7 horas de mercado aberto• Qual é o custo de 1 hora parada?
• 82 bilhões / 21 = 3.9 bilhões por dia• 3.9 / 7 = 557 milhões por hora
Custo de downtime – Novembro 2010
21 9/8/2011
• Novembro 2010 – 20 dias úteis• Volume financeiro – US$ 74 bilhões• Mercado 7 horas de mercado aberto• Qual é o custo de 1 hora parada?
• 74 bilhões / 20 = 3.7 bilhões por dia• 3.7 / 7 = 528 milhões por hora
Custo de downtime – Abril 2011
22 9/8/2011
• Abril 2011 – 20 dias úteis• Volume financeiro – US$ 80 bilhões• Mercado 7 horas de mercado aberto• Qual é o custo de 1 minuto de parada?
• 80 bilhões / 20 = 4 bilhões por dia• 4 bilhões / 7 = 571 milhões por hora• 571 milhões / 60 = 9,5 milhões por minuto
Perguntas ?