14
INTRODUÇÃO: O que são os eventos "Cisne Negro" e o que eles têm a ver com seu data center? CAPÍTULO 1: Espere o inesperado CAPÍTULO 2: Comece com uma base inteligente e virtual CAPÍTULO 3: Mitos e verdades sobre a recuperação de desastres CAPÍTULO 4: As dez principais práticas recomendadas da recuperação de desastres CONCLUSÃO: Um guia de início rápido para recuperação de desastres APÊNDICE: Recuperação de desastres 101: Os conceitos básicos ÍNDICE: Como se preparar para os eventos "Cisne Negro" e reduzi-los em seu data center Um guia para modernizar a recuperação de desastres de TI

Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

Embed Size (px)

Citation preview

Page 1: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

INTRODUÇÃO: O que são os eventos "Cisne Negro" e o que eles têm a ver com seu data center?

CAPÍTULO 1: Espere o inesperado

CAPÍTULO 2: Comece com uma base inteligente e virtual

CAPÍTULO 3: Mitos e verdades sobre a recuperação de desastres

CAPÍTULO 4: As dez principais práticas recomendadas da recuperação de desastres

CONCLUSÃO: Um guia de início rápido para recuperação de desastres

APÊNDICE: Recuperação de desastres 101: Os conceitos básicos

ÍND

ICE

:

Como se preparar para os eventos "Cisne Negro" e reduzi-los em seu data center

Um guia para modernizar a recuperação de desastres de TI

Page 2: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

INTRODUÇÃO

Você conhece a VMware como a empresa de virtualização líder de mercado dos últimos 11 anos. Na prática, de acordo com o Gartner, atualmente mais de 80% de todos os aplicativos virtualizados no mundo inteiro são executados em produtos VMware. Este ebook destaca a perspectiva da VMware quanto à recuperação de desastres no data center. Mas vamos colocar a TI de lado por um momento.

A teoria dos eventos "Cisne Negro" é uma metáfora que engloba o conceito de eventos surpresa que causam um grande impacto. Ela se refere a eventos inesperados de grandes magnitudes e consequências e seus papéis dominantes na história. Tais eventos, considerados atípicos ao extremo, desempenham papéis amplamente maiores do que as ocorrências regulares.

O Cisne Negro, um livro escrito por Nassim Nicholas Taleb, explica que embora os eventos Cisne Negro sejam imprevisíveis, uma pessoa

ou organização pode se programar para os eventos negativos e, fazendo isso, fortalece sua capacidade de reagir, bem como de explorar os eventos positivos. Taleb afirma que as pessoas em geral — e, especificamente, empresas — são bastante vulneráveis aos perigosos eventos Cisne Negro e são expostas a altas perdas se não estiverem preparadas.

Existe um paralelismo óbvio entre a Teoria dos eventos Cisne Negro e a necessidade de preparação contra desastres para seus ativos essenciais de TI.

A implantação da DR (Disaster Recovery, recuperação de desastres) automatizada é a maneira de proteger a TI e a empresa contras eventos imprevisíveis — mesmo dos eventos Cisne Negro. Os capítulos que se seguem explicam os conceitos básicos da DR e a infraestrutura necessária. Eles também apresentam as realidades ocultas e práticas recomendadas de DR com dicas do mundo real.

1 O que são os eventos "Cisne Negro" e o que eles têm a ver com seu data center?

Page 3: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

O DATA CENTER É SUA FORTALEZA. É onde todos os componentes essenciais de TI (hardware, dados e software) residem. Você o protege com as soluções mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente dimensionáveis e redes ópticas superrápidas.

E ainda assim, ele não fica totalmente protegido contra as forças que estão além do seu controle, como desastres naturais, eventos provocados pelo homem e procedimentos de segurança ou interrupção dos serviços do parceiro em um site específico.

O tempo de inatividade e a perda de dados, mesmo que temporários, podem ter impactos de longa duração nos negócios e contribuir para o fim do que poderia ser um negócio bem-sucedido:

Perda de receita resultante da impossibilidade de seus clientes fazerem negócios com você

Diminuição da credibilidade no mercado e da confiança do cliente, gerando rotatividade

Multas por SLAs violados com parceiros, fornecedores, distribuidores e franqueadores

Custos pela recuperação e reparação de dados perdidos

Custos legais para atender aos requisitos internos e externos de conformidade

Como você equilibra a equação entre risco e investimento da recuperação de desastres? O risco potencial é maior do que o investimento? Vamos decompor esse risco para entender melhor:

43% das empresas que enfrentam desastres nunca reabriram, e 29% fecharam em dois anos.1

93% das empresas que perderam os respectivos data centers por 10 dias faliram no período de um ano.2

40% de todas as empresas que passam por um grande desastre sairão do mercado se não conseguirem ter acesso aos seus dados em até 24 horas.3

“CIOs e organizações de TI devem considerar situações nas quais operações normais podem ser interrompidas e assim adotar/adaptar práticas e tecnologias que os permitam lidar com essa interrupção potencial proveniente de ações hostis e externas, bem como de falhas internas do sistema."— Top Predictions for IT Organizations and Users, 2011 and Beyond (Principais previsões para organizações de TI e usuários em 2011 e nos próximos anos)

Esses riscos são tão altos quanto toda a sua empresa, e está em suas mãos reduzi-los.

1 McGladrey and Pullen 2 Administração Nacional de Arquivos e Registros dos EUA 3 Gartner, dezembro de 2009

Espere o inesperadoEsperamos que você nunca precise ativar um plano de recuperação de desastres de TI. Nosso trabalho é fornecer proteção automatizada se você precisar.

CAPÍTULO 12

"A DR é a maneira usada pelo setor de TI para se preparar e combater os eventos Cisne Negro."

Page 4: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

Processo de recuperação física: 40 horas

3

ATÉ QUE AS SOLUÇÕES DE GERENCIAMENTO DE VIRTUALIZAÇÃO CONFIÁVEIS foram disponibilizadas vários anos atrás, as soluções de DR não atendiam totalmente aos requisitos de negócios devido aos seguintes fatores:

Alto custo Complexidade Falta de confiabilidade

Com as tradicionais soluções manuais de DR, o alto custo veio com a necessidade de implantar um segundo site de failover com infraestrutura dedicada, licenças de software e equipe humana. A complexidade era alta, pois para garantir a recuperação de todos os serviços de negócios, os planos de recuperação tinham que lidar com muitos componentes individuais e partes móveis: aplicativos, hosts, rede e armazenamento. A Falta de confiabilidade nesses procedimentos aumentou em consequência da pouca automação e da inaptidão de testar qualquer procedimento de recuperação.

A certeza de muitas empresas de atender aos respectivos RPO (Recovery Point Objective, objetivo de ponto de recuperação) e RTO (Recovery Time Objective, objetivo de tempo de recuperação) era limitada no caso de um desastre. Os departamentos de TI hesitavam em expandir a proteção contra desastres, pois não tinham certeza se a qualidade da segurança valia realmente o que custava.

A virtualização é fundamental e essencial para o sucesso do planejamento de DR. A virtualização abstrai a complexidade de hardware e software, além de permitir a padronização de processos, tornando a tarefa de planejamento e automação dos procedimentos de recuperação muito mais confiável e suscetível à repetição.

Configuração de hardware

Instalação de SO

Instalar o agente de backup

Início da "recuperação automática em um única etapa"

Configuração do SO

Na verdade, em uma recente pesquisa da IDG, 70% dos clientes entrevistados melhoraram o processo de BC/DR com a virtualização.1

Uma infraestrutura virtual inteligente baseada em produtos VMware é a base certa para a moderna solução de DR. Altamente adaptável e dimensionável, ela é otimizada para cargas de trabalho essenciais aos negócios com inteligência integrada.

A solução de DR da VMware fornece: A maneira mais simples de replicar aplicativos em um site secundário

A maneira mais simples de configurar planos de recuperação e migração

Recuperação e migração totalmente automatizadas e mais confiáveis de sites

Comece com uma base INTELIGENTE e VIRTUAL Confiável gRepetível g Recuperável

CAPÍTULO 2

Processo de recuperação virtual: 4 horas

Restauração da VM

Ativação da VM

1 IDG Research, Benefits of Virtualizing Business Critical Applications (Benefícios de virtualizar aplicativos essenciais aos negócios), Março de 2011

Page 5: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

4

DR econômica: com a rápida adoção da virtualização e a evolução da tecnologia de replicação, a DR está se tornando mais econômica. A virtualização permite a consolidação da infraestrutura no site de failover. Opções mais baratas de replicação foram disponibilizadas mais amplamente, usando dispositivos de armazenamento menos sofisticados ou soluções de software independentes. Com esses avanços, a DR pode proteger ativos de TI essenciais em grande escala, bem como sites menores e aplicativos de camada 2.

DR automatizada: em ambientes virtuais, os usuários finais são poupados da complexidade de gerenciar cada etapa no processo de recuperação. Agora, uma solução de DR pode executar e coordenar automaticamente todas as etapas necessárias para garantir o nível desejado de proteção. Os manuais de administração tradicionais não são mais "bons o suficiente" para gerenciar planos de recuperação e foram substituídos por planos de recuperação orientados por software.

A configuração de um plano de recuperação em um ambiente virtual é tão simples quanto selecionar RPOs e RTOs para cada serviço de negócios.

Recuperação e migração confiáveis de sites: com a virtualização, as organizações têm muito mais garantia de que podem atender aos respectivos RPOs e RTOs. A virtualização permite que elas testem planos de recuperação frequentemente de uma maneira não interruptiva. Os processos manuais de recuperação foram substituídos pela recuperação automatizada, o que elimina o risco associado aos erros do usuário e garante a recuperação previsível.

O gráfico abaixo mostra como as organizações com infraestruturas virtualizadas utilizam os recursos de DR juntamente com outros benefícios da virtualização.

CAPÍTULO 2 continuação

Como você descreveria a utilização dos seguintes recursos/funções de virtualização pela sua organização com máquinas virtuais baseadas no ambiente de produção? (Porcentagem de entrevistados, N=119)

0 20 40 60 80 100

65% 22% 12%

14%

14%

11%

11%

11%

15%

21%

28% 8%

5%

3%

3%

3%

2%

4%

4%

5%

24%

24%

31%

31%

34%

37%

35%

29%

60%

57%

54%

54%

51%

45%

39%

35%

Reinicialização automatizada de máquinas virtuais em caso de falha no hardware do servidor físico

Soluções de backup e recuperação integradas à plataforma de virtualização

Soluções de recuperação do site das máquinas virtuais

Migração em tempo real de máquinas virtuais com base nas políticas de utilização de CPU, memória e rede

Migração em tempo real de máquinas virtuais

Migração em tempo real do armazenamento associado a máquinas virtuais

Implantação automatizada de servidores virtualizados com base nas políticas de utilização de CPU, memória e rede

Aplicação automatizada de políticas de ciclo de vida e recuperação de recursos de máquinas virtuais expiradas

Implantação automatizada de máquinas virtuais com base em políticas de consumo de energia

Atualmente, usamos este recurso/função

Não temos planos de utilizar este recurso/função Não sabe/Não aplicável

Planejamos usar este recurso nos próximos 12/24 meses

Fonte: White paper da ESG: Enterprise Strategy Group, 2011: Virtualization Management Critical to Achieving Scale and Efficiency (O gerenciamento da virtualização é essencial para a obtenção de dimensionamento e eficiência)

Page 6: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

5

MITO 1: a recuperação de desastres é um recurso de luxo; é cara e consome recursos.VERDADE: o VMware vCenter ™ SRM (Site Recovery Manager) fornece a flexibilidade para definir cenários de failover que atendem à sua escolha de cobertura, velocidade e custo de recuperação. Por exemplo, embora um site de recuperação dedicado seja uma solução robusta (e sim, mais cara), muitas vezes, é suficiente ter uma abordagem bidirecional ativa na qual dois ou mais data centers sejam complementares, com capacidade suficiente para selecionar aplicativos essenciais. Portanto, nenhum recurso é desperdiçado e a continuidade de negócios é mantida.

Em geral, os clientes do SRM relatam consistentemente economias consideráveis de dinheiro, recursos e tempo.

Como isso é feito na … Challenger Limited

A Challenger Limited gera contratos de anuidade e fornece produtos e serviços de investimento. A organização executa dois data centers colocalizados, oferecendo suporte a cerca de 500 equipes na Austrália.

Para atender aos requisitos de negócios de recuperação rápida e mínima perda de dados, a Challenger Limited implementou uma infraestrutura de cluster duplo da VMware que foi vinculada a dispositivos de armazenamento em rede em seus dois data centers colocalizados, a aproximadamente um terço do custo de um ambiente físico de recuperação de desastre. O SRM permitiu que a organização dispensasse a maioria das

50 fitas anteriormente usadas para o backup de dados, poupando a uma pessoa um dia por semana. Além disso, a Challenger Limited automatizou centenas de etapas em seus processos de recuperação de desastres.

Resultados para os negócios: Melhoria do RPO, de 24 horas para 90 minutos, e do RTO, de 24 horas para menos de quatro horas

Redução do número de pessoas necessárias (agora somente uma) para realizar a restauração de sistemas

Redução de investimentos de capital para recuperação de desastres para um terço do custo de um ambiente físico

Eliminação da necessidade de adquirir 15 servidores físicos em standby a um custo de US$ 200.000

MITO 2: o planejamento e o gerenciamento adequados de uma solução de DR é uma tarefa complexa que exige habilidades especiais e recursos caros.VERDADE: não com a VMware. A DR física pode ser complexa devido às infraestruturas em silo e à sua duplicação, bem como aos problemas na sincronização de configuração entre sites. A virtualização encapsula servidores, sistema operacional e aplicativos, incluindo todos os dados de configuração, de modo que a complexidade é consideravelmente reduzida. A virtualização e a automação garantem que os planos de recuperação sejam simples, completos e possam ser executados de modo confiável pela equipe, sem a necessidade de habilidades especiais.

Mitos e verdades sobre a recuperação de desastresA recuperação de desastres é como uma apólice de seguro que você pode testar sem ter um acidente.

CAPÍTULO 3

Page 7: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

MITO 3: Após todo o planejamento, você nunca sabe se a recuperação será bem-sucedida em um desastre real.VERDADE: um plano de recuperação não é um plano completo sem testes. Na verdade, o plano de recuperação pode e deve ser testado com falhas suficientes, e testado novamente para garantir a validade. O SRM permite testes frequentes não interruptivos dos planos de recuperação.

Como isso é feito na … Adventist Health System

A AHS (Adventist Health System), uma organização de assistência médica dos EUA, oferece suporte a 37 hospitais e casas de saúde para aproximadamente quatro milhões de pacientes anualmente. O AHS-IS (AHS Information Services) atende a hospitais em nove Estados e emprega mais de 500 pessoas.

Para garantir que o AHS-IS forneça uma excelente assistência, a iniciativa "Missão Zero" visa fornecer os níveis mais altos de serviço e mínimo tempo de inatividade para sistemas essenciais de assistência médica, como os aplicativos de registro médico eletrônico e de gráficos da Cerner.

A adição do SRM à sua infraestrutura da VMware permitiu que o AHS-IS simplificasse ainda mais as operações automatizando o planejamento e os testes de DR. "O VMware SRM torna o gerenciamento e os testes dos nossos planos de recuperação tão fáceis

CAPÍTULO 3 continuação

Com o SRM, a configuração de um plano de recuperação automatizado é fácil e pode ser feita em questão de minutos, e não em semanas, como exige a configuração de manuais de administração.

Como isso é feito na … Swedbank

A Swedbank é uma das maiores instituições financeiras na Escandinávia e no Báltico, com 362 agências na Suécia e 222 agências na Estônia, Letônia e Lituânia. O banco atende a 9,5 milhões de clientes privados e 534.000 clientes corporativos, com 18.000 funcionários.

Evitar a interrupção de serviços é essencial para a Swedbank. A Swedbank teve que atender aos objetivos de recuperação para seus aplicativos legados por meios tradicionais de backup e recuperação, que eram complexos e consumiam muito tempo. A Swedbank implantou o SRM para simplificar e automatizar o processo de recuperação, gerenciamento e teste dos planos de recuperação. Desde a implementação do SRM, a Swedbank testa seus recursos de DR pelo menos duas vezes por ano. Ela desliga um data center por completo, transferindo as cargas de trabalho para o data center ativo. Ela executa tudo no data center de backup por 24 horas e depois faz failover no data center original.

Mart Nael, chefe de Infraestrutura de núcleo do grupo de TI da Swedbank declara "Nosso tempo de recuperação é inferior a 30 minutos para cargas de trabalho essenciais e de menos de quatro horas para todo o data center".

Resultados para os negócios: ROI positivo em um ano, resultado da contenção de custos com hardware

Custos operacionais de TI reduzidos em 14%, anualmente

1.000 máquinas virtuais gerenciadas por dois funcionários equivalentes a tempo integral

Provisionamento de servidor 30 vezes mais rápido

6

“O VMware Site Recovery Manager torna o gerenciamento e os testes dos nossos planos de recuperação tão fáceis quanto pressionar um botão."

— KENNETH NEWBALL ADMINISTRADOR SÊNIOR DE RECUPERAÇÃO DE DESASTRES

AHS-IS

Page 8: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

7

"Além dos nossos dez centros de desenvolvimento, também somos responsáveis por garantir que os provedores em todo o Estado obtenham o suporte de que precisam para receber financiamento do governo federal", afirma Brian Brothers, gerente-administrador da rede. "Se nossos serviços fossem interrompidos e não pudéssemos garantir o reembolso dos fundos Medicaid, isso teria um severo impacto nos provedores e nas pessoas com deficiências de desenvolvimento a quem eles atendem. Alguns provedores teriam que fechar as portas.

Na DODD, o SRM é responsável por uma ativação de DR confiável e verificável que pode ser testada e auditada. A agência testou sua solução de recuperação de desastres duas vezes. O segundo teste envolveu 50 servidores de produção, cujos failovers foram bem-sucedidos no site remoto em aproximadamente 90 minutos. "Se algum dia enfrentarmos um desastre de verdade, nosso site de DR se tornará nosso site de produção. Esperamos estar com tudo funcionando em menos de duas horas", observa Kipp Bertke, gerente de TI da área de Infraestrutura e operações da Ohio Department of Developmental Disabilities.

O site de recuperação de desastres da DODD não é "inativo". Em vez disso, diariamente, o site de backup oferece suporte ativamente à equipe de desenvolvimento de aplicativos.

Resultados para os negócios: Um site de recuperação de desastres confiável que pode ser colocado em funcionamento em menos de duas horas

Solução de recuperação de desastres totalmente testada e ativa implementada para uma infraestrutura em nuvem ágil e privada

Sistemas on-line que fornecem serviços de modo mais rápido e confiável

CAPÍTULO 3 continuação

quanto pressionar um botão. O fato de que podemos fazer testes quantas vezes desejarmos nos dá um alto grau de confiança na capacidade de recuperação dos nossos sistemas", afirma Kenneth Newball, administrador sênior de recuperação de desastres da AHS-IS.

Resultados para os negócios: RTO reduzido em 75%, de 48 horas para menos de uma hora

Eliminação do custo de transporte aéreo de uma equipe de sete pessoas para testar a DR remota

Redução de compras de hardware em 84,5%, de manutenção em 93,1% e de consumo de energia em 90%.

MITO 4: a despesa com a DR é um custo já incorrido, como um plano de proteção que provavelmente nunca será usado.VERDADE: mesmo que o maior desastre nunca aconteça, o plano de recuperação pode ser usado como um plano de migração com etapas semelhantes, ajudando você durante os tempos de inatividade planejados, como as migrações de site. Além disso, o planejamento de DR ajuda a atender à conformidade onde os planos de recuperação de desastres são exigidos. O resultado dos testes de recuperação prova a preparação contra desastres e a capacidade de atender aos RTOs.

Como isso é feito na … Ohio Department of Developmental Disabilities

A DODD (Ohio Department of Developmental Disabilities) executa um sistema de serviços de suporte em todo o Estado para cerca de 80 mil pessoas com deficiências de desenvolvimento. Um desastre que causasse uma falha em todo o sistema teria um impacto humano bastante real.

Page 9: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

1. Virtualize. Ambientes virtuais são muito mais ágeis e fáceis de migrar. A virtualização oculta a complexidade protegendo os componentes individuais e as partes móveis, simplificando assim o planejamento e o aumento da visibilidade no processo de DR. Ela também permite usar a replicação baseada em hypervisor, que é muito mais flexível e econômica que a replicação baseada em armazenamento.

2. Automatize. Não deixe que erros humanos se coloquem no seu caminho. Use planos de recuperação automatizados, e não uma pilha de anotações em um caderno. Com a automação adequada, um plano de recuperação pode ser executado em questão de minutos, e não em semanas. A automação poupa os usuários de terem que gerenciar muitas das etapas de recuperação e coordena automaticamente atividades, como pré-configuração de redes e máquinas virtuais, configuração da infraestrutura de recuperação e reinicialização de aplicativos.

3. Verifique e teste. Teste seus planos de DR frequentemente. Use testes não interruptivos de seus planos de recuperação e failback. Analise o relatório detalhado com os resultados do teste, incluindo o RTO atingido. Com essas informações, você pode conseguir a garantia de que seu plano de proteção contra desastres atende aos objetivos da empresa. Ele também fornece o treinamento necessário para a equipe e mostra todos os possíveis problemas antecipadamente para que eles possam ser resolvidos.

4. Defina metas executáveis. A recuperação de desastres automatizada pode ser bastante poderosa, mas não faz mágicas. Por exemplo, 100 máquinas virtuais contendo o Exchange, Oracle SQL e SAP não podem ter o failover executado nem podem ser iniciadas em 30 minutos. Defina seu RTO de modo realista. Para definir sua linha de base, faça um teste sob diferentes condições e veja o que consegue.

5. Aja antecipadamente, se puder. Se você possui avisos, use-os! Aja antecipadamente para executar seu plano de DR totalmente testado antes que um desastre de verdade aconteça, a fim de evitar um evento de DR completo. A confiança da TI é um subproduto de um plano de DR bom e sólido que foi testado. Tome como exemplos uma tempestade prevista, um possível tsunami ou uma ameaça potencial de paralisação da rede.

6. Seja proativo ao se ver em risco. A maioria das paralisações não é causada por desastres reais, mas por procedimentos planejados que deram errado. Exemplos: upgrades de software ou rede, manutenção de dados, reparos de instalações etc. Ao migrar antecipadamente os aplicativos essenciais, você pode diminuir o risco e reduzir significativamente uma possibilidade de paralisação ou degradação de serviço.

As dez principais práticas recomendadas da recuperação de desastresConforme apontadas pelos mais de 5.000 clientes do SRM da VMware

CAPÍTULO 48

Page 10: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

.

9

9. Prepara-se para o failback. Crie e teste um plano de recuperação de failback, configure a replicação inversa e saiba quanto acioná-la. Defina o que considerar como o "fim" do desastre para que a empresa possa voltar ao normal.

10. Não jogue dinheiro fora com a DR. Utilize ativos de site de failover básicos e baratos ou ainda o hardware readaptado que foi deixado de lado após a virtualização do seu data center principal. Considere sites de failover bidirecionais ou compartilhados, use mais softwares na nuvem (SaaS) e observe também os meios de DR não relacionados à TI (UPS ou geradores de energia, reservas de combustível, melhor proteção contra incêndios etc.).

CAPÍTULO 4 continuação

7. Atribua responsabilidades. Atribua uma tarefa específica a todas as pessoas envolvidas no plano de DR. Não espere que a equipe pertinente esteja sempre no site do desastre ou que ela esteja no controle imediatamente. Implemente a duplicação e a redundância necessárias para pessoas, assim como faria com os computadores.

8. Mantenha os dados de recuperação atualizados na medida do possível. É uma boa prática preencher previamente o site de failover com os dados que não mudam com frequência nem em grandes proporções. Isso permitirá que, no momento do failover, você se concentre somente nos dados essenciais que mudam com frequência e rapidamente, e também que você atenda ao RTO com menos esforço.

Page 11: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

Embora o data center seja essencial para sua capacidade de conduzir os negócios, os eventos que você não pode controlar (ou mesmo aqueles não planejados) podem tornar os serviços de TI indisponíveis ou altamente limitados. Essa situação, embora seja rara, pode ser bastante prejudicial para a integridade da empresa, para sua credibilidade no mercado, bem como para a satisfação e lealdade dos clientes.

Você pode reduzir esse risco implementando uma solução de DR para proteger os ativos essenciais de TI. Uma solução de DR bem desenvolvida, criada em uma infraestrutura virtual inteligente, pode fornecer o RTO e RPO exigidos e, ao mesmo tempo, controlar os custos. Os planos de DR podem ser testados de maneira não interruptiva e beneficiar o departamento de TI em áreas que vão além das necessidades típicas de TI.

A infraestrutura de TI desempenha o papel mais crítico para a viabilidade e para o sucesso total de seus planos de DR. A infraestrutura virtualizada provou ser a plataforma mais confiável e econômica para DR, permitindo que você abstraia as partes e os componentes móveis de seu data center, simplificando a arquitetura de replicação e exigindo menos recursos no geral.

Então como você começa a jornada para proteger os ativos de TI? Use esta lista de início rápido como guia:

1. Identifique seus aplicativos e dados mais importantes. Quais aplicativos geram receita diretamente, mantêm a segurança ou são, de alguma forma, essenciais à continuidade de negócios? Quais dados são absolutamente essenciais para os clientes? A contabilidade e as finanças internas ou a conformidade?

2. Se ainda não o fez, considere a virtualização de seus principais aplicativos. Isso não apenas reduzirá muito dos custos operacionais e de manutenção, removendo o custo operacional e a complexidade desnecessários, mas também tornará seu ambiente mais adequado para um planejamento eficiente de DR.

3. Defina o RTO e o RPO pretendidos. Quais dados você pode perder? Por quanto tempo? Quando você deseja que seus aplicativos essenciais fiquem on-line novamente? Certifique-se de que suas metas sejam realistas.

4. Defina os disparadores para que a DR coloque todas as atividades planejadas em ação. Essa pode ser uma decisão de negócios baseada nos dados que você está acessando, ou um evento técnico que dispare automaticamente a DR.

5. Identifique quais opções de replicação, failover e failback de DR você deseja implementar. A solução resultante será um comprometimento entre o nível de proteção, velocidade de recuperação e custos.

6. Selecione o fornecedor da solução. Fique atento aos vendedores que tentam vender hardware, sistema operacional ou outras opções limitadas específicas que não se ajustam adequadamente ao seu ambiente. Estude o nível de experiência da sua equipe exigida para manter a solução ou a quantidade de recursos que você precisa alocar. Assegure-se de que pode testar a solução sem esperar por um desastre de verdade.

E, por fim, boa sorte. Esperamos que você nunca enfrente um evento Cisne Negro e nunca precise usar a solução de DR para se recuperar de um evento inesperado. Mas caso isso aconteça, a VMware está aqui para garantir que você esteja bem preparado.

Para obter mais informações sobre o VMware vCenter Site Recovery Manager ou sobre a versão de avaliação gratuita por 60 dias acesse o VMware SRM.

Para obter detalhes e dicas sobre a implementação do SRM, bem como ideias sobre como fornecer proteção de dados, alta disponibilidade, continuidade de negócios e recuperação de desastres com a VMware, o convidamos a ler nosso blog.

Um guia de início rápido para recuperação de desastresEla pode ser feita. Ela deve ser feita. A VMware pode ajudar você nessa tarefa.

CONCLUSÃO

10

Page 12: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

11

A RECUPERAÇÃO DE DESASTRES É UMA PARTE ESSENCIAL da iniciativa de continuidade de negócios de uma empresa para garantir a disponibilidade dos processos de negócios integrais dependentes de TI e evitar qualquer efeito negativo de longo prazo das interrupções planejadas e não planejadas. A meta de DR é restaurar serviços essenciais de TI o mais rapidamente possível e minimizar a interrupção nos negócios.

Nada afeta mais a sua capacidade de recuperação do que a agilidade da TI e a infraestrutura de aplicativos. Assim como as medidas de proteção contra incêndios devem ser tomadas em um edifício antes que um incêndio ocorra, e os itens de segurança de um carro são desenvolvidos para reduzir o impacto de uma batida, o design da infraestrutura de TI pode ser o sucesso ou o fracasso do seu programa de DR.

INFRAESTRUTURA DE TI E APLICATIVOSA infraestrutura do data center contribui para a eficácia da solução de DR. A infraestrutura pode tornar a DR bastante complexa, difícil de implementar e, às vezes, até mesmo impossível; ou pode ajudar a tornar a TI confiável, verificável e eficiente. A próxima seção explica como.

Dois processos importantes para uma recuperação de desastres simples e confiável:

FAILOVERO failover é a capacidade de alternar para um servidor, sistema ou rede redundante ou em standby mediante a falha ou o desligamento de um ativo existente. O failover deve acontecer sem nenhum tipo de intervenção humana nem aviso.

FAILBACKO failback é o processo de restaurar um sistema ou outro ativo que esteja em estado de failover de volta ao seu estado original. O failback eficaz retorna o sistema ao estado de operação em que ele estava antes da interrupção.

Recuperação de desastres 101: Os conceitos básicos

Site principal Site de recuperação

APÊNDICE

Principais métricas de planejamento e avaliação do sucesso dos procedimentos.

RPOO RPO (Recovery Point Objective, objetivo de ponto de recuperação) é o ponto no tempo no qual você deve recuperar dados, conforme definido por sua organização, geralmente chamado de "perda aceitável" em uma situação de desastre. Ele permite que uma organização defina uma janela de tempo antes de um desastre, quando os dados podem ser perdidos e são totalmente dependentes do tipo de replicação de dados usado. Quanto mais alta for a granularidade da replicação de dados, mais curto será o RPO.

Page 13: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

12

RTOEmbora o RTO seja meramente uma métrica técnica, a decisão de acionar o failover é comercial; e o RTO muitas vezes pode demorar mais do que a própria DR. Seja ela iniciada por humanos ou por um disparador automático, o tempo de espera para iniciar a DR também deve ser levado em consideração e incluído no RTO. Na maioria das vezes, a replicação é um elemento essencial de qualquer processo de DR, geralmente fornecida pela solução de DR específica que é utilizada.

REPLICAÇÃONo contexto de preparação para um failover, a replicação fornece redundância intencionalmente arquitetada de seus recursos de TI: hardware, dados, software, rede ou todos eles juntos. Existem vários fatores que determinam a intensidade e a quantidade de replicação necessária: tipos de serviço a serem protegidos, importância dos diferentes componentes, tecnologia e custo.

CENÁRIOS DE RECUPERAÇÃO DE DESASTREVários cenários e técnicas de DR estão disponíveis para atender aos seus requisitos específicos e objetivos de custo. A arquitetura certa pode tornar os procedimentos de DR mais eficientes, econômicos e previsíveis. Veja algumas configurações normalmente usadas que você pode escolher:

Ativa/passiva: esse é um cenário de DR mais tradicional, onde um site de produção que executa aplicativos é recuperado em um segundo site que fica ocioso até que o failover seja exigido. Nesse cenário, você está pagando por um site de DR que está ocioso na maior parte do tempo.

Ativa/ativa: use seu site de DR para cargas de trabalho não essenciais, quando você não o estiver usando para DR. Configure-o para desligar ou suspender automaticamente o ambiente virtual como parte do processo de failover, de modo que seja possível liberar com facilidade a capacidade de processamento para cargas de trabalho que estão sendo recuperadas.

Bidirecional: forneça proteção de failover bidirecional para que seja possível executar cargas de trabalho de produção ativa em ambos os sites e fazer failover em qualquer direção. A capacidade disponível no outro site será usada para executar os ambientes virtuais dos quais foi feito failover.

Failover local: algumas cargas de trabalho precisam fazer failover dentro de um determinado "site" ou campus; por exemplo, quando ocorre uma falha de armazenamento ou quando a manutenção força você a transferir cargas de trabalho para outro laboratório local.

Sites de recuperação compartilhados: na implantação padrão um para um, um único data center é protegido por um único site de recuperação. Você também pode optar por proteger vários data centers usando um site de recuperação "compartilhado". Todos os sites protegidos ficam visíveis e podem ser gerenciados nessa única instância da solução de DR no site de recuperação compartilhado. Esse recurso é ideal para empresas que têm vários sites que precisam de proteção. Essa topologia pode ser implementada usando o recurso de site de recuperação compartilhado.

APÊNDICE continuação

Page 14: Um guia para modernizar a recuperação de desastres de TI · mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente

www.vmware.com/br