2. Conceito de alta disponibilidade So aplicaes que ao se
tornar indisponvel aos usurios pode causar prejuzos financeiros
considerveis ou que envolva vida humana. Instituies financeiras,
hospitais, aeroportos, sites de e-commerce, etc...
3. Conceito de alta disponibilidade Conceito de alta
disponibilidade envolve tanto hardware quanto software. As de
hardware so normalmente resolues de alto custo a ponto de ser
raramente implementadas. As software tem, normalmente custo
reduzido e aplicabilidade abrangente.
4. Conceito de alta disponibilidade Isto implica em nos
concentrar na remoo do mximo de pontos de falhas do projeto. De
forma a fornecer funcionamento redundante, garantindo continuidade
e capacidade de failover.
5. Failover o processo no qual uma mquina assume os servios de
outra, caso apresente falha. O failover pode ser automtico ou
manual. Sendo o automtico o que normalmente esperado. Ainda assim,
algumas aplicaes no crticas podem suportar um tempo maior at a
recuperao do servio, e portanto podem utilizar failover manual
6. Failback Manuteno no servidor falho. Ao ser recuperado de
uma falha, este servidor ser recolocado em servio. O failback
portanto o processo de retorno de um determinado servio de uma
outra mquina para sua mquina de origem. Tambm pode ser automtico,
manual. Em alguns casos o failback pode no ser atraente. Pois pode
ter o seu funcionamento comprometido. Sendo necessrio a troca de
equipamento.
7. Conceito de alta disponibilidade Alta disponibilidade pode
ser alcanada em diversos nveis: Aplicao, Infraestrutura, data
center e at o de redundncia geogrfica. Exemplos de formas bsica de
configuraes de alta disponibilidade em infraestrutura: Dois ou mais
barramentos Dois ou mais servidores web Dois ou mais servidores de
banco de dados
8. Conceito de alta disponibilidade Em websites, por exemplo, o
banco de dados replicado, fornecendo redundncia de informao. A alta
disponibilidade geogrfica, diz respeito a redundncia em vrios data
center.
9. Minha empresa necessita de Alta Disponibilidade? O downtime
(perodo de inatividade) pode causar graves implicaes financeiras e
para a empresa. Os custos para criar um ambiente de alta
disponibilidade podem ainda ser inviveis em ambientes dedicados
Mas, felizmente, a computao em nuvem traz Alta Disponibilidade ao
alcance da maioria das empresas de pequeno e mdio porte.
10. Minha empresa necessita de Alta Disponibilidade (HA)?
Principais razes a serem consideradas para a adoo de um ambiente de
alta disponibilidade: Alta dependncia da disponibilidade dos
servios Reduo de custos Gesto de Alta Disponibilidade
11. Alta dependncia da disponibilidade dos servios Se o tempo
de inatividade da sua infraestrutura ou aplicao afeta negativamente
a sua empresa, deve-se considerar a migrao para uma nuvem em Alta
Disponibilidade. O ambiente em nuvem tem que fornecer garantia de
alta disponibilidade.
12. Reduo de custos No segredo que os custos para aquisio de um
segundo equipamento e softwares para alta disponibilidade requer
muito ao projeto. Isso sem contar outros custos envolvidos, tais
como a manuteno, um segundo local fsico e a equipe para suportar
tal ambiente. Servios na nuvem criam o ambiente necessrio para
satisfazer todas estas necessidades.
13. Gesto de Alta Disponibilidade Muitas vezes custa mais
gerenciar um ambiente em Alta Disponibilidade do que contrat-lo
como servio. Porque envolve diversas tarefas como: Gesto de um
ambiente de Alta Disponibilidade Verificao da integridade da
replicao Re-sincronizao de objetos Automatizao da rotas de failover
Acompanhamento dirio dos status de funcionamento Profissionais
experientes e com competncias especificas.
14. Clculo da Disponibilidade Em um sistema real, se um
componente falha, ele reparado ou substitudo por um novo
componente. Se este novo componente falha, substitudo por outro e
assim por diante. Durante sua vida til, um componente pode ser
considerado como estando em estados de funcionando ou em reparo. O
estado funcionando indica que o componente est operacional e o
estado em reparo significa que ele falhou e ainda no foi substitudo
por um novo componente.
15. Clculo da Disponibilidade Sendo assim, pode-se dizer que o
sistema apresenta ao longo de sua vida um tempo mdio at apresentar
falha (MTTF) e um tempo mdio de reparo (MTTR). O tempo de vida til
do sistema a soma dos MTTFs nos ciclos MTTF+MTTR j vividos.
16. Clculo da Disponibilidade De forma simplificada, diz-se que
a disponibilidade de um sistema a relao entre o tempo de vida til
deste sistema e seu tempo total de vida. Isto pode ser representado
pela frmula abaixo: Disponibilidade = MTTF / (MTTF + MTTR)
17. Conceitos envolvidos No so muitos, porm estes termos so
muitas vezes utilizados de forma errnea. Deve-se entender o que
falha, erro e defeito. Esses conceitos ocorrncia em trs universos
totalmente diferentes.
18. Falha Uma falha acontece no universo fsico, ou seja, no
nvel mais baixo do hardware. Um problema na fonte de alimentao, por
exemplo, uma falha. Uma interferncia eletromagntica tambm. Estes so
dois eventos indesejados, que acontecem no universo fsico e afetam
o funcionamento de um computador ou de partes dele.
19. Erro A ocorrncia de uma falha pode acarretar um erro. Um
computador trabalha com bits, cada um podendo conter 0 ou 1. Uma
falha pode fazer com que um (ou mais de um) bit troque de valor
inesperadamente, o que certamente afetar o funcionamento normal do
computador. Uma falha, portanto, pode gerar um erro em alguma
informao.
20. Defeito J esta informao errnea, se no for percebida e
tratada, poder gerar o que se conhece por defeito. O sistema
simplesmente trava, ou mostra uma mensagem de erro, ou ainda perde
os dados do usurio sem maiores avisos. Isto percebido no universo
do usurio.
21. Defeito Recapitulando, uma falha no universo fsico pode
causar um erro no universo informacional, que por sua vez pode
causar um defeito percebido no universo do usurio. A Tolerncia a
Falhas (vou citar na frente) visa exatamente acabar com as falhas,
ou trat-las enquanto ainda so erros. J a Alta Disponibilidade
permite que mquinas travem ou errem, contanto que exista outra
mquina para assumir seu lugar.
22. Defeito Para que uma mquina assuma o lugar de outra,
necessrio que descubra de alguma forma que a outra falhou. Isso
feito atravs de testes peridicos, cujo perodo deve ser configurvel,
nos quais a mquina secundria testa no apenas se a outra est ativa,
mas tambm fornecendo respostas adequadas a requisies de
servio.
23. Defeito Um mecanismo de deteco equivocado pode causar
instabilidade no sistema. Por serem peridicos, nota-se que existe
um intervalo de tempo durante o qual o sistema pode estar
indisponvel sem que a outra mquina o perceba.
24. Misso Misso de um sistema o perodo de tempo no qual ele
deve desempenhar suas funes sem interrupo. Por exemplo, uma
farmcia, que funcione das 8h s 20h, no pode ter seu sistema fora do
ar durante este perodo de tempo. Se este sistema vier a apresentar
defeitos fora deste perodo, ainda que indesejados, estes defeitos
no atrapalham em nada o andamento correto do sistema quando ele
necessrio. Uma farmcia 24h obviamente tem uma misso contnua, de
forma que qualquer tipo de parada deve ser mascarada.
25. Tolerncia a falhas a propriedade que permite que o sistemas
continuem a operar adequadamente mesmo aps falhas em alguns de seus
componentes. Se o sistema principal deixar de funcionar o secundrio
assume a operao. uma tcnica muito usada em ambientes de servidores.
Pode ser aplicada tanto em nvel de hardware quanto Software.
26. Escalabilidade uma caracterstica desejvel em todo o
sistema, em uma rede ou em um processo. Indica sua habilidade de
manipular uma poro crescente de trabalho de forma uniforme.
Capacidade de suportar as mudanas do meio crescente de forma
adaptativa.
27. Escalabilidade em servidores Exemplo: Em um servidor com 4
processadores deve ser possvel a adio de mais processadores na
mesma mquina ao passar do tempo. Sendo que esse servidor continue
provendo servio aos sistemas antigos e aos novos.
28. Escalabilidade em servidores Tambm pode ser considerada
escalabilidade a troca de equipamentos por outros mais novos.
Caractersticas de escalabilidade : Aumento da capacidade de
armazenamento; Backup mais flexvel; Tempo de restaurao de dados
aceitveis...
29. Conectiva para Alta Disponibilidade Diz respeito a
capacidade de integrao de diversas tecnologias. E de estend-las
individualmente com o objetivo de prover uma soluo simples e
flexvel, que possa ser otimizada para as particularidades de cada
aplicao.
30. Soluo para Conectiva para Alta Disponibilidade A soluo
baseada em quatro blocos bsicos, que so: Replicao de disco;
Monitorao de nodos; Monitorao de servios ; Sistema de arquivos
robusto. Estes quatro blocos podem ser utilizados em conjunto ou
individualmente, possibilitando a criao de solues com failover e
failback, automticos ou manuais.
31. Monitorao de nodos A monitorao de nodos realizada pelo
heartbeat (linux). Ele o responsvel por testar periodicamente os
nodos do cluster (ou rede), coordenando as aes de failover e
failback.