23
Tolerância a falha Edy Hayashida E-mail: [email protected]

Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Embed Size (px)

Citation preview

Page 1: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Tolerância a falha

Edy HayashidaE-mail: [email protected]

Page 2: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Introdução

2 9/8/2011

• Um objetivo importante do projeto de sistemas distribuídosé construir o sistema de modo tal que ele possa se recuperarautomaticamente de falhas parciais sem afetar seriamente odesempenho global.

Page 3: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Sistemas confiáveis

3 9/8/2011

• Disponibilidade• Confiabilidade• Capacidade de manutenção

Page 4: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Disponibilidade

4 9/8/2011

• É definida como a propriedade de um sistema estar prontopara ser usado imediatamente.

• Em geral, refere-se à probabilidade de o sistema estarfuncionando corretamente em qualquer momentodeterminado e estar disponível para executar suas funções.

Page 5: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Confiabilidade

5 9/8/2011

• Refere-se à propriedade de um sistema poder funcionarcontinuamente sem falha. Ao contrário da disponibilidade, aconfiabilidade é definida em termos de um intervalo detempo em vez de um instante no tempo.• Um sistema de alta confiabilidade é aquele que continuaráa funcionar sem interrupção por um longo período detempo.

Page 6: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Disponibilidade x Confiabilidade

6 9/8/2011

• Se um sistema fica fora do ar por 5 min num ano porproblemas de quedas não planejadas. Ele tem 99,999%de disponibilidade. Mas a confiabilidade poderá serbaixa.

• Se esse sistema nunca cai, mas tem as paradasplanejadas por 6 horas de um nó, ele tem altaconfiabilidade, mas somente 99,93% de disponibilidade.

Page 7: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Capacidade de manutenção

7 9/8/2011

• Refere-se à facilidade com que um sistema que falhoupossa ser consertado. Um sistema de alta capacidade demanutenção também pode mostrar alto grau dedisponibilidade, em especial se as falhas puderem serdetectadas e reparadas automaticamente.

Page 8: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Necessidades dos negócios

8 9/8/2011

0:00 5:00 10:00 21:0017:00

Processamentobatch

Start dasaplicações

Início Fim

After Market

Page 9: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Downtime

Processos: melhores práticas nogerenciamento de serviços

Pessoas: regras, responsabilidades,conhecimento e treinamento

Tecnologia: infraestrutura e ferramentas20%

80%

“80% do downtime não planejado é devido a processos e pessoas.”(source: Gartner Group)

Page 10: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

40%Erros de Operação

40%Falhas na Aplicação

20%Fatores

Ambientais,HW, SO, Power,

Desastres

“Downtime” não planejado

O que tem causado “Downtime”?Melhor Prática : Saber o motivo do “Downtime”

Fonte: Gartner

Page 11: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Source: IDC Business Value Research

Perda de receita

Page 12: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Calculando o custo de downtime

12 9/8/2011

$3 Bilhões / ano = $342K por hr.

8,766 horas no ano

Page 13: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Perdas significativas

13 9/8/2011

Imagem“No dia 26/4, a Sony anunciou que

uma “invasão externa” à sua rede onlineconseguiu ter acesso aos dados pessoais,

informações de senhas, histórico de compras eaté números cartão de crédito dos mais de 70milhões de jogadores que utilizam a rede do

PlayStation 3.O caso é tão sério que, segundo um instituto depesquisas especializado, o prejuízo da Sony como vazamento desses dados poderia ultrapassar os

24 bilhões de dólares”

Fonte: IDG Now

Page 14: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Impacto nos negócios

14 9/8/2011

Problemas com clientes

Penalidades

Ações legais

Credibilidade

Page 15: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Classificação das falhas

15 9/8/2011

• Falhas transientes: ocorrem uma vez e depois desaparecem

• Falha intermitente: ocorre e desaparece por vontade própria,depois reaparece, e assim por diante. Difícil de diagnosticar eencontrar a causa-raiz do problema.

• Falha permanente: é aquela que continua a existir até que ocomponente faltoso seja substituído.

Page 16: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Diagrama de causa e efeito

16 9/8/2011

• Conhecido também como diagrama de Ishikawa ou espinha de peixe

• Uma forma criativa de analisar as causas de um problema

• Ajuda a estimular o pensamento e organiza as idéias

Page 17: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Diagrama de causa e efeito

17 9/8/2011

Sistema nãoinstala

Uso do software errado

Software

Médoto de instalação

Versão diferente

Uso do equipamento errado

Sistemas conflitantes

Sistemas legados

Falta de treinamento

Instalação de software Uso do processo errado

Instalação de hardware

Hardware

Page 18: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Estratégia de resposta aos riscos

• Eliminar: eliminar a ameaça eliminando a causa

• Mitigar: reduzir a probabilidade ou o impactode uma ameaça, tornando-a um risco menor

• Transferir: tornar outra parte responsável pelorisco contratando seguros, garantias outerceirização do trabalho.

18 9/8/2011

Page 19: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Custo de downtime

19 9/8/2011

• Calcular o custo de downtime para a seguinte situação:

Cenário:• A BM&Fbovespa oferece ao mercado diversos serviços através dos sistemasMegabolsa, Global Trading System e HomeBroker. A volume financeiro mensal éde aproximadamente US$ 80 bilhões, o mercado financeiro abre às 10 horas efinaliza às 17 horas, de segunda à sexta-feira, excluindo os feriados.

1. Calcular o custo de 1 hora de parada no ambiente para os meses desetembro 2010 (US$ 82 bilhões) e novembro de 2010 (US$ 74 bilhões)

2. Calcular o custo de 1 minuto de parada no ambiente para o mês de abril de2011 (US$ 80 bilhões).

Page 20: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Custo de downtime – Setembro 2010

20 9/8/2011

• Setembro 2010 – 21 dias úteis• Volume financeiro – US$ 82 bilhões• Mercado 7 horas de mercado aberto• Qual é o custo de 1 hora parada?

• 82 bilhões / 21 = 3.9 bilhões por dia• 3.9 / 7 = 557 milhões por hora

Page 21: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Custo de downtime – Novembro 2010

21 9/8/2011

• Novembro 2010 – 20 dias úteis• Volume financeiro – US$ 74 bilhões• Mercado 7 horas de mercado aberto• Qual é o custo de 1 hora parada?

• 74 bilhões / 20 = 3.7 bilhões por dia• 3.7 / 7 = 528 milhões por hora

Page 22: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Custo de downtime – Abril 2011

22 9/8/2011

• Abril 2011 – 20 dias úteis• Volume financeiro – US$ 80 bilhões• Mercado 7 horas de mercado aberto• Qual é o custo de 1 minuto de parada?

• 80 bilhões / 20 = 4 bilhões por dia• 4 bilhões / 7 = 571 milhões por hora• 571 milhões / 60 = 9,5 milhões por minuto

Page 23: Tolerância a falha - unipti.files.wordpress.com · pesquisas especializado, o prejuízo da Sony com ... Falta de treinamento ... Global Trading System e HomeBroker

Perguntas ?