21
MONITORAÇÃO MUITO ALÉM DO SISTEMA OPERACIONAL WeOp 2014 Marcus Vechiato - @vechiato

"Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Embed Size (px)

Citation preview

Page 1: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

MONITORAÇÃOMUITO ALÉM DO SISTEMA

OPERACIONALWeOp 2014

Marcus Vechiato - @vechiato

Page 2: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Agenda

Objetivo Como pensamos em um sistema de monitoração

? Do simples ao complexo O que monitorar ? O que acompanhar ? Alguns números da Locaweb Onde alguns se perdem Automação de configurações Itil e Ferramentas de ITSM Abertura automática de Incidentes Ferramentas já utilizadas Desafios

Page 3: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Objetivo

Objetivo desta apresentação é explorar implementações de monitoração sem me ater à ferramentas.

Melhores práticas destacando o que deu certo e o aprendizado dos erros cometidos ao longo destes anos.

Page 4: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Como pensamos em um sistema de monitoração ?

Page 5: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Como pensamos em um sistema de monitoração ?

Não é apenas uma ferramenta A ferramenta de monitoração é um dos

componentes do processo Processo - pode nos remeter à burocracia se

não for efetivo

Page 6: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Alguns números da Locaweb

Equipamentos de RedeBrocade / Cisco / Force10 e outros

~21 mil servidores (físicos e virtuais)Windows (2003/2008/2012)Linux (CentOs/Redhat/Debian)Oracle/MySql/Postgre/MSSQL/Mongo DBVmWare/Xen

~500 mil ítens/serviços monitorados a cada minuto

~17 mil incidentes tratados por mês

Page 7: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Do simples ao complexo

Tenha claro quais são suas maiores dores pra definir seus objetivos

Não idealize o sistema perfeito que cobrirá todos os GAPs, ele não existe

Lembre-se: quais são seus recursos e quais as reais habilidades do time

Prefira uma implementação gradual com entregáveis bem definidos

Page 8: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

O que monitorar ?

Infraestrutura e serviços Core – rede/no breaks/temperatura/DNS

Sistema Operacional (memória/cpu/rede local/disco) onde aplicável

AplicaçõesVisão do usuário (requisição http/tcp)Local (uso de memória/threads/processos/etc)

Indicadores de Negócio/errosEx.: Vendas por horaEx.: Falhas de autenticação por minuto

Page 9: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

O que acompanhar ?

Converter a visão de indicadores de infraestrutura para produtos/componentes/times

Dashboards para públicos diferentesOperações

○ Visão de Indicadores por times/infraestruturaEx.: MTTR de incidentes do N1 por prioridadeEx.: SLA e MTTR de storage abc

Produtos/Negócio○ Visão de Indicadores comuns e específicos

Ex.: SLA do produto xpto 99,89% Ex.: MTTR do produto xpto 0h45m

Page 10: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Onde alguns se perdem

É comum o diagnóstico: “a ferramenta xpto não funciona, precisamos de uma nova”

Intervalo entre probes de monitoração muito pequeno

Re-tentativas são importantes pra diminuir falsos positivos

Minha experiência:Intervalo de probes padrão entre 1 e 5 minutosRe-tentativas:

○ 5m durante a implantação/com instabilidades conhecidas○ 3m em ambientes estavéis

Page 11: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Automação de configurações

A monitoração é o melhor lugar pra começar a gerenciar a instalação de componentes e configuraçõescomeçe com o agente de monitoração (se houver)Servidor de monitoração

○ Via API onde for possível○ Arquivos de configuração

Qual ferramenta usar pra automação ?Depende do seu ambiente e conhecimento do time.

Chef e Puppet são boas opções pra começar

Page 12: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

ITIL e Ferramentas de ITSM

Ferramentas de ITSMRecomendo fortementeSe pretende abrir incidentes automaticamente gaste mais

tempo avaliando qual será sua ferramenta Processos são a espinha dorsal

Gestão de IncidentesGestão de ProblemasGestão de Mudanças

CMDB – registro/controle é mandatórioEm instalações pequenas sua ferramenta de monitoração é

seu CMDBEm ambientes maiores você terá que sincronizá-lo com a

ferramenta de ITSM

Page 13: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Abertura automática de incidentes

Alguns benefícios da abertura automática em ambientes maiores: Equaciona a ineficiência de registro manual de incidentes Registra falhas no momento que ocorrem Permite pré-definir importância de cada

componente/serviço e em caso de falha priorizar sua resolução

Diminuir a resolução informal de incidentes sem registro Subsídio para análise profunda do ambiente Integrada à gestão de crises reduz o tempo de resolução

e melhora a comunicação relacionada Cálculo realista de OLA’s e SLA’s

Page 14: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Abertura automática de incidentes

Integração via: API preferencialmente (rest/soap) E-mail – com templates, a maioria das ferramentas permitem

(só use em último caso) Utilize a prioridade ao abrir o incidente para permitir a

priorização pelo time resolvedor. Segundo Itil, de 1-5: Prioridades (pense numa pirâmide):

○ 1 e 2: tem que ser menos de 10% dos incidentes○ 3: 30% ○ 4: 40%○ 5: 10%

Pra cada prioridade defina seus diferentes OLA’s de resolução. Lembre-se que isto vai afetar diretamente o tamanho dos times resolvedores

Page 15: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Abertura automática de incidentes

Re-abertura automática de incidente caso seja resolvido e continue falhando na monitoração ou falhe novamente em menos de 30m

Novo incidente no caso de novo alarme após 30m do último incidente resolvido

Não abrir incidentes durante manutenções programadas

Page 16: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Abertura automática de incidentes

Fechamento automático de incidentes caso a monitoração normalize antes de atuação do time com status de “sem intervenção” permite:refinar a solução e sua eficiênciaajuste de thresholds muito justosInformações para abertura de ProblemasFalhas de planejamento/execução em mudançasRetomar rapidamente o tratamento de incidentes

após eventos com centenas/milhares de incidentes abertos em curto período de tempo

Page 17: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Ferramentas já utilizadas

Monitoração:NagiosCheck_mk – Locaweb Zabbix

ITSM:Service Now (API) – Locaweb CA – Service Desk Manager (API) – LocawebHP – Service Center (API)OTRS – (API)

Page 18: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Desafios

Regra de Ouro: “Todo alarme tem que ter uma atuação corretiva” nem que seja ajustar os thresholds em caso de falso positivo.

Não se engane – no ínicio você vai ter muitos falsos positivos. É preciso persistência.

Se você não fechar incidentes automaticamente durante instabilidades, normalmente de rede, você vai ficar soterrado em incidentes e vai deixar de ver alarmes importantes quando a instabilidade cessar.

Page 19: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Desafios

Quem implementa a solução e quem administra o dia a dia ?Implementação da solução: naturalmente o

time/pessoa mais SêniorQuem deve incluir as monitorações no sistema ? Se

pensou no estagiário ou nas pessoas mais Júniores do time pensou errado. Também é responsabilidade dos mais Sêniores.

Page 20: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Desafios

Mais importante que as ferramentas são as pessoas e aderência aos processos definidos, de ponta a ponta.

Revisite os processos periodicamente para ajustar e evoluir de acordo com as necessidades correntes

Se algum processo não está funcionando, mude-o. Não permita que ele seja abandonado ou burlado.

Page 21: "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

Perguntas ?