14
De que forma os sistemas de monitorização reduzem a falha humana nas salas de servidores e nos armários de cablagem Revisão 0 Por Dennis Bouley Introdução 2 Simples ou complexo? 2 A natureza do período de inactividade resultante de falha humana 4 Contos do inesperado 5 Componentes do sistema de monitorização 6 Outros relatos 11 Conclusão 13 Recursos 14 Clique numa secção para aceder directamente Conteúdo White Paper 103 Os incidentes inesperados de período de inactividade nas salas de servidores e armários de cablagem remo- tos provocam noites sem dormir para muitos gestores de TI. Muitos deles relatam histórias sobre de que forma o azar, a falha humana ou apenas a simples incompetência fez com que as suas salas de servidores fossem abaixo. Esta aplicação técnica analisa vários destes incidentes e apresenta recomendações sobre de que forma um sistema básico de monitorização pode ajudar a reduzir a ocorrência destes eventos inesperados. Sumário Executivo > by Schneider Electric. Os white papers da APC agora fazem parte da boblioteca de white papers da Schneider Electric, produzidos pelo Data Center Science Center [email protected]

De que forma os sistemas de monitorização reduzem a falha ... · A natureza do período de ... Contos do inesperado 5 Componentes do sistema de monitorização 6 Outros relatos

  • Upload
    lykhanh

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

De que forma os sistemas de

monitorização reduzem a falha humana nas salas de servidores e nos armários de cablagem

Revisão 0

Por Dennis Bouley

Introdução 2

Simples ou complexo? 2

A natureza do período de inactividade resultante de falha humana

4

Contos do inesperado 5

Componentes do sistema de monitorização

6

Outros relatos 11

Conclusão 13

Recursos 14

Clique numa secção para aceder directamente Conteúdo

White Paper 103

Os incidentes inesperados de período de inactividade nas salas de servidores e armários de cablagem remo-tos provocam noites sem dormir para muitos gestores de TI. Muitos deles relatam histórias sobre de que forma o azar, a falha humana ou apenas a simples incompetência fez com que as suas salas de servidores fossem abaixo. Esta aplicação técnica analisa vários destes incidentes e apresenta recomendações sobre de que forma um sistema básico de monitorização pode ajudar a reduzir a ocorrência destes eventos inesperados.

Sumário Executivo >

by Schneider Electric. Os white papers da APC agora fazem parte da boblioteca de white papers da Schneider Electric, produzidos pelo Data Center Science Center [email protected]

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 2

Muitos gestores de TI relatam histórias de eventos inesperados de período de inactividade que ocorreram nas suas salas de servidores distribuídas e armários de cablagem remotos. Ao analisarmos estes eventos, surge um denominador comum: falta de informação. Esta falta de informação conduz a falha humana que, por sua vez, provoca o período de inactivid-ade. Os níveis de stress são elevados porque os operadores e administradores não têm à sua disposição dados em tempo real e, por isso, não podem impedir que ocorra falha humana. Considere as seguintes duas estatísticas: • De acordo com as estimativas, existem 2,9 milhões de salas de servidores e armários

de cablagem só nos Estados Unidos1

• Mais de 70% das falhas nos centros de dados reportadas são directamente atribuídas a falha humana2

Este documento descreve incidentes de período de inactividade comuns em salas de servidores distribuídas e armários de cablagem remotos. Mais adiante são propostas recomendações sobre de que forma o software de monitorização e automatização integrado com videovigilância e sensores pode reduzir a ocorrência de problemas de período de inactividade relacionados com falha humana nestes ambientes pequenos e distribuídos (consulte Diagrama 1). Sempre que são propostos sistemas de monitorização para ambientes informáticos pequenos e remotos, tal como armários de cablagem e salas de servidores, apresentam-se

1 IDC, Building, Planning, and Operating the Next-Generation Data Center, Michelle Bailey, 2008 2 Uptime Institute, Data Center Site Infrastructure Tier Standard: Operational Sustainability, 2010

Introdução

Diagrama 1 A diminuição da falha humana pode ser conse-guida através da monitor-ização inteligente a diversos níveis

Simples ou complexo?

Detector de Fluídos

CircuitoFechado

Câmara

ContactoSeco

Câmara

Sensor de Humidade

Controlode Acessos

Aplicaçãode Gestão

Gestão daaplicaçãoConsola

De GestãoRemota

Sensor de Temperatura

Câmara

UPS Sensor de Partículas

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 3

dois problemas. O primeiro problema diz respeito à instalação. Quão complexo é instalar um sistema de monitorização? Ou seja, quanto tempo demora a recolher informações sobre as características dos dispositivos a monitorizar e quanto tempo demora a efectuar a introdução de dados destas informações (considere centenas de dispositivos num cenário com diversas instalações)? De que forma é que o sistema sabe que dispositivos são câmaras, unidades de ar condicionado, UPS, sensores de calor etc. e de que forma são gerados endereços IP para que os dispositivos possam comunicar o seu estado? O segundo problema diz respeito à quantidade desconhecida de trabalho envolvido sempre que são realizadas alterações ao equipamento de alimentação, arrefecimento e monitorização ambiental situado em instalações remotas. Por exemplo, de que forma é efectuada uma nova actualização do firmware e de que modo é modificado um limite de temperatura? Nos últimos anos, os pacotes de software de monitorização evoluíram ao ponto de os utilizadores poderem agora escolher instalar eles próprios ou recorrer a um serviço externo para assistência na instalação. O serviço externo consegue ter o utilizador totalmente operacional em 1-2 dias. Os pacotes de software de monitorização podem ser entregues como código distribuível/ transferível ou como um servidor montado em bastidor com software pré-carregado. O sistema pode ser instalado remotamente ou num centro de dados central (se, por exemplo, precisarem de ser geridas dezenas ou centenas de armários de cablagem). Assim que o servidor de gestão estiver ligado, o cliente pode ser transferido para um portátil para que o operador possa iniciar o processo de identificação da alimentação, arrefecimento e equipamento ambiental e a actividade humana que precisa de ser monitorizada. A maioria das UPSs, sistemas de arrefecimento e câmaras de segurança modernos vêm equipados de fábrica com as placas de interface de rede (NIC) necessárias para a comunicação. O operador define um endereço IP ou intervalo de endereços IP a ser utilizado pelos dispositivos a monitorizar. Na Diagrama 2 é apresentado um exemplo disto. Alguns sistemas podem então procurar automaticamente a rede e localizar todos os dispositivos de alimen-tação, arrefecimento e segurança a monitorizar. Esta capacidade de “auto-descobrir” dispositivos, simplifica bastante o desafio da instalação e o arranque do sistema. Uma vez “descobertos” o sistema começa a monitorizar os dispositivos remotos.

Diagrama 2 Configurar os endereços IP para vários dispositivos pode ser tão fácil como digitar um intervalo de números (ecrã exemplo extraído da aplicação InfraStruxure Central da Schneider Electric)

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 4

Alguns sistemas de monitorização e automatização permitem também que os dispositivos sejam agrupados por localização, por fila numa localização ou por tipo de dispositivo (por exemplo, agrupar todos os dispositivos de arrefecimento, todas as PDUs, todos os indicadores, todas as câmaras etc.). Este exercício de agrupamento permite ao utilizador configurar políticas e limites para esse grupo. Os parâmetros limite comuns podem incluir temperatura, humidade e designação de um estado aberto ou fechado (por exemplo, portas de bastidores). Os limites, quando excedidos, devem despoletar um alarme que é comunicado ao administrador do sistema por e-mail ou mensagem de texto. Deve ter-se especial atenção para que apenas as principais alterações ao ambiente remoto despoletem um alarme. Caso contrário, o administrador deparar-se-ia com a possibilidade de diversos alarmes várias vezes por hora. Neste caso, o administrador pode tornar-se “indiferente” aos alarmes e ignorá-los. Por isso, é necessário manter um equilíbrio para que qualquer alarme que passe para o administrador do sistema seja considerado verdadeiro ou importante. As actualizações para a sala de servidores ou armário de cablagem, tal como uma actualização do firmware, são também simplificadas quando está instalado um sistema de monitorização moderno. O gestor de centro de dados já não precisa de enviar pessoal para localizações remotas para instalar actualizações do firmware. Muitos sistemas de monitorização são capazes de realizar configurações em massa, que permitem enviar alterações pela rede a partir de uma localização central. In each of these three UPS system configurations any combination of transformers may be present – from none to all. For the single mains configuration, there are 8 possible trans-former arrangements; for dual mains there are 16 arrangements, and for single mains without bypass there are 8 arrangements, for a total of 32 possible arrangements. Furthermore, the mains transformers and output transformers can be located either locally or remotely from the UPS, which affects the grounding system. This adds an additional 60 variations, for a total of 92 ways transformers can be installed with a single UPS. Virtually all of the 92 transformer installation variations have been used in real installations. However, not all transformer arrangements are logical, and there are a few that offer a superior combination of perfor-mance, economy, and efficiency. To understand when the use of a transformer is required or why various transformer locations exist for the three UPS configurations, we first must consider the effect of transformers on the neutral and ground wiring. As salas de servidores e os armários de cablagem remotos não conseguem ter o mesmo investimento e atenção que os grandes centros de dados críticos. As instalações centrais, de grandes dimensões, são ocupadas por especialistas e estão muitas vezes equipadas com a tecnologia de segurança mais recente e uma grande quantidade de redundâncias incorpora-das. Por outro lado, as salas de servidores distribuídas e os armários de cablagem remotos são preenchidos por indivíduos com várias responsabilidades, uma das quais pode ser vigiar o armário de cablagem ou a sala de servidores. Estes espaços possuem, muitas vezes, poucas medidas de segurança e estão sujeitos a falhas mais indesejáveis do que os espaços maiores e mais sofisticados. Independentemente da forma como uma sala de servidores ou armário de cablagem é planeado, o risco de período de inactividade inesperado está sempre presente. Alguns gestores de TI pensam que previram todos os problemas. Têm orgulho no design da sua sala de servidores. E depois aparece um técnico ou gestor não informado de ar inofensivo que destrói todo o plano em menos de cinco segundos.

A natureza do período de inactividade resultante de falha humana

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 5

A lista de incidentes descritos abaixo ilustra como a ausência de um simples sistema de monitorização e automatização pode levar a período de inactividade em armários de cablagem e salas de servidores. Nestes ambientes, não há ninguém no local ou a pessoa que se encontra no local nem sempre é capaz de alertar os administradores do sistema sobre uma avaria. Uma hora de atraso na descoberta de uma falha no arrefecimento pode fazer a diferença para evitar um corte de energia total. Os alertas rápidos e em tempo real permitem aos administradores supervisionar uma comutação que pode evitar perda do serviço. Considere o seguinte resumo de eventos relacionados com falha humana: • Um administrador de sistemas responsável por uma sala de servidores remota de uma

sucursal entrou na mesma para descobrir por que razão os servidores da sala foram abaixo. Descobriu que os empreiteiros da remodelação durante as renovações tinham embrulhado bastidores com película aderente para impedir a entrada de pó nos servi-dores. Os empreiteiros não informaram o pessoal de TI que iriam fazê-lo, por isso, to-dos os servidores estavam ligados quando os embrulharam. Os servidores so-breaqueceram e foram abaixo.

• Um director comercial sénior com problemas em aceder à Internet decidiu resolver ele mesmo o problema. Foi até à sala de servidores, tirou os cabos do router e ligou o seu portátil directamente à Internet, contornando todos os serviços de firewall e encrip-tação e expondo todo o sistema a vírus externos e a outro software mal intencionado.

• Como parte de uma reparação, um canalizador fez um furo no tecto directamente sobre um servidor Exchange. Depois, não reparou correctamente uma união de um tubo em que estava a trabalhar. A meio da noite, começou a pingar água do tubo. A natureza tomou o seu curso e a água fluiu para o furo no tecto e entrou no servidor Exchange, provocando danos irreparáveis no servidor.

• Foi enviada uma equipa de limpeza à sala de servidores. A equipa reparou que havia pó em redor dos bastidores de servidores, mas também dentro deles e as portas dos bastidores estavam parcialmente abertas. A equipa de limpeza fez o que costuma fazer: limpou o pó dentro dos bastidores e dentro dos servidores com limpa-vidros. Ninguém lhe deu instruções precisas relativamente ao protocolo de limpeza.

• Um fornecedor estava a trabalhar numa área protegida contra halon. Acendeu um maçarico a gás propano sem notificar ninguém e sem desligar o sistema halon.

• Um fornecedor desligou uma PDU para que pudesse colocar-lhe um disjuntor. A PDU estava a alimentar um servidor de uma sucursal importante. Muitos visitantes da sala de servidores podem não saber o que isto pode ou não fazer nesse local em particular.

Contos do inesperado

Diagrama 3 A expressão “bomba-relógio” adequa-se a salas de servi-dores pequenas e remotas

Contaminantes do Ar

Vazamentos

Pessoas Temperatura& Humidade

Fumo

Energia Desperdíciode Energia

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 6

Diagrama 4 Exemplo de como a monitor-ização por vídeo despo-letada pela detecção de movimento pode ajudar a limitar as situações de falha humana (ecrã exemplo extraído da aplicação InfraStruxure Central da APC by Schneider Electric)

Ao conceber um sistema de monitorização, cuja função principal é limitar a ocorrência de falha humana em salas de servidores remotas, têm de ser considerados quatro componentes principais: videovigilância, sensores, tomadas inteligentes de bastidores e software de monitorização e automatização. A Tabela 1 fornece um resumo das soluções descritas nesta secção. Videovigilância e sensores O que pode ajudar quando acontecem estas situações? Estão disponíveis no mercado sistemas de monitorização e automatização expansíveis que são capazes de recolher, organizar e distribuir alertas críticos e vídeos de vigilância. Na Diagrama 4 é apresentado um exemplo disto. Ao monitorizarem a alimentação, o arrefecimento e as partes frontais e posteriores dos bastidores e o ambiente, estes sistemas podem gerar notificações in-stantâneas de avarias, permitir uma avaliação rápida da situação e fornecer a resolução de eventos críticos de infra-estrutura que podem afectar adversamente a disponibilidade do sistema de TI. No caso dos exemplos de falha de comunicação humana apresentados acima, considere de que forma um sistema de monitorização e automatização poderia ter ajudado: • Um sistema de monitorização e automatização da infra-estrutura física, complemen-

tado por um sistema de segurança com câmaras de vídeo que permitisse monitorizar a actividade humana nas filas, teria gravado sempre que os detectores de movimento fossem activados. Assim, embora não estivesse nenhum funcionário de TI no local, a actividade dos empreiteiros a embrulharem os servidores, por exemplo, teria sido gravada e teria sido enviado um alerta ao administrador autorizado. Depois de testemunhar o que se estava a passar, o administrador poderia ter emitido uma ordem de “cessar e desistir” e o período de inactividade poderia ter sido evitado.

• Um sistema de monitorização e automatização poderia também ligar ou desligar dis-

positivos utilizando comutadores de saída de contacto a seco de baixa corrente. Esta abordagem pode ser utilizada para controlar as fechaduras nos bastidores (consulte Figura 5). As acções do relé de saída podem ser efectuadas manualmente ou podem

Componentes do sistema de monitorização

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 7

Diagrama 5 A segurança do bastidor pode ser controlada remo-tamente para evitar acessos indesejados

ser configuradas como acções de alerta automático em resposta a um evento limite ou outros alarmes. No caso da equipa de limpeza, sabendo que vão limpar depois do ex-pediente, o sistema poderia estar programado para trancar todos os bastidores após as 18 horas. Poderiam ser abertos manual ou remotamente por um indivíduo autoriza-do, mas ficariam trancados para qualquer outra pessoa até à manhã seguinte.

Os sistemas de câmara fazem sentido especialmente se a sala de servidores estiver a suportar aplicações para transacções com cartão de crédito. A conformidade com a Indústria de Cartões de Pagamento (PCI) está a tornar-se uma questão importante. Algumas admin-istrações do Estado estão a solicitar que as empresas notifiquem os seus clientes sempre que ocorrer uma violação de dados. Ao longo do tempo, a definição de que dados são considerados informação pessoal irá expandir-se para incluir números de cartões de crédito. Assim que as informações de cartões de crédito forem classificadas como informações pessoais, serão impostas medidas punitivas sobre as empresas com práticas de segurança negligentes/inexistentes. No futuro, podem ser concedidos incentivos financeiros directos às empresas com níveis de segurança evoluídos, que são reconhecidos como estando em conformidade com a PCI. A videovigilância é um dos requisitos necessários à conformidade com a PCI. Um sistema de gestão através de câmaras permite tipicamente a localização de pessoal, fornecedores, pessoal da segurança, gestores e outros visitantes das instalações que entrem na sala de servidores ou no armário de cablagem remoto. O sistema pode determinar quem esteve na sala e a que horas, e pode detectar se o visitante desligou algum equipamento existente ou ligou um novo equipamento. Um sistema de gestão através de câmaras poderia ser programado para gravar os dados ao detectar movimento. Por outro lado, um administra-dor pode querer ligar-se remotamente ao sistema, activar a câmara que está mais próxima do visitante e observar as suas acções. De facto, alguns destes sistemas podem ser equipados com altifalantes para que o administrador possa projectar a sua voz a partir do microfone do portátil e fornecer instruções ou transmitir avisos ao visitante (por exemplo, “Independentemente do que fizer, não carregue nesse botão vermelho!”).

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 8

Tomadas inteligentes de bastidor Tomadas inteligentes de bastidor são barras de tomadas eléctricas longas e finas montadas na parte posterior de um bastidor, do lado de dentro (consulte Tabela 1). Também conheci-dos como “PDUs para montagem em bastidor”, estes dispositivos podem ser geridos permitindo aos utilizadores reciclarem remotamente a energia para equipamento bloqueado. Isto minimiza o período de inactividade uma vez que reinicia rapidamente o equipamento e o tempo de deslocação às instalações remotas para reinicialização é evitado. Estes dispositivos permitem também aos utilizadores configurarem a sequência através da qual a alimentação é ligada ou desligada para cada tomada. Esta sequência permite aos utilizadores a pré-determinação de que equipamento é ligado primeiro para que o restante equipamento dependente dessa unidade funcione correctamente. Nas situações de ar-ranque, a distribuição de energia inteligente no bastidor ajuda a evitar o aparecimento súbito de uma sobrecarga de energia inicial que pode dar origem a circuitos sobrecarregados e a perdas de carga adicionais. No caso dos circuitos sobrecarregados, o sistema de monitorização evita sobrecargas através da projecção de visualizações gráficas sobre a utilização média e máxima de energia eléctrica e da medição do consumo real através de PDUs com bastidor, com medidor (tomadas inteligentes de bastidor). Deste modo, o administrador dos sistemas tem noção da utilização da energia eléctrica de cada bastidor e pode tomar uma decisão inteligente sobre onde colocar o equipamento adicional que precisa de ser instalado. Software de monitorização e automatização Um sistema de gestão e automatização fornece ao administrador um grande conjunto de dados que irão permitir a redução dos períodos de inactividade relacionados com falha humana. Na lista abaixo encontram-se alguns exemplos de algumas das funcionalidades do sistema de gestão de monitorização e automatização disponíveis no mercado para salas de servidores e armários de cablagem remotos:

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 9

Componente da solução Função Benefício Ilustrações exemplo

Monitorização e automatização

Alarmes Estado do equipamento Comunicação de relatórios Configuração Controlo

Os limites definidos pelo utilizador geram alarmes através de mensagens de texto, e-mails ou publicações do sistema quando condições como a temperatura e a humidade aumentam para além dos níveis aceitáveis

Gera vários níveis de relatórios de dados históricos de modo a identificar antecipadamente tendências problemáticas

Capacidade para configurar em massa características semelhantes do sistema (por exemplo, fechaduras de bastidores, limites de temperatura) em dispositivos semelhantes de uma só vez

Capacidade para reiniciar equipamento bloqueado a partir de um portátil remoto

Equipamento de videovigilância

Observar a actividade humana

Gravação de vídeo despoletada por movimento ou alerta

Detecta e regista movimento, permitindo que um registo visual seja associado a um alerta de acesso ou ambiental, que acelera a análise da causa-raiz

A gravação de erros ou de dados de detecção de violação da segurança previne ocorrências subsequentes

Tomadas inteligentes de bastidor

Arranque e paragem remotos dos servidores Medição do consumo de corrente

Assegura que a integridade dos dados é mantida durante uma falha de energia prolongada Gere remotamente as tomadas para que os utilizadores possam desligar as tomadas que não estão a ser utilizadas (prevenindo sobrecargas) ou reciclem energia para equipamento bloqueado (minimizando períodos de inactividade dispendiosos e evitando o tempo de deslocação até ao equipamento) Permite aos utilizadores configurar a sequência através da qual a alimentação é ligada ou desligada para cada tomada – isto ajuda a evitar ligações súbitas no arranque, que podem dar origem a circuitos sobrecarregados e perdas de carga

Sensores

Fechaduras das portas, fechaduras dos bastidores, detecção de líquidos, monitorização da temperatura, monitorização da qualidade do ar

Detectam o acesso de pessoal não autorizado através do comutador da porta

Detectam a presença de água ou humidade elevada

Detectam fumo e partículas

Monitorizam a temperatura em locais chave

Tabela 1 Resumo de soluções

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 10

Alarmes e notificação – Os alarmes configurados num sistema servem como despoletador. Se, por exemplo, um limite de temperatura estiver definido para 62° F (16° C) para a parte inferior de um bastidor e esse limite for excedido, gera um alarme. Esse alarme, por sua vez, envia alertas de várias formas definidas pelo utilizador. Um alerta pode surgir sob a forma de um e-mail, mensagem de texto, publicação num website ou toque num telefone. Estes alertas podem ser tão sofisticados como um e-mail para um Blackberry contendo um gráfico das últimas quatro horas de temperatura na sala de servidores. Ou o alerta pode ser tão simples como um e-mail que indica que uma porta de bastidor específica, que não deveria estar aberta, está aberta há mais de dois minutos. Estado do sistema – Uma configuração básica do sistema de monitorização consiste em software e num servidor físico dedicado. O servidor actua como um repositório central que regista informações sobre todos os equipamentos configurados na sala de servidores. As informações de sensores e câmaras são reunidas e catalogadas, assim como todos os perfis e limites do sistema. O nível de monitorização pode ser bastante detalhado. Por exemplo, cada bastidor pode conter três sensores de temperatura, um para a parte inferior, um para o meio e um para o topo do bastidor, uma vez que estas temperaturas são frequentemente bastante diferentes umas das outras. Os alertas de estado são também úteis para monitorizar baterias. A falha de uma única bateria pode resultar na perda da carga crucial. Baterias avariadas devem ser substituídas o mais rapidamente possível, mas muitas vezes ninguém toma nota da duração das baterias UPS em instalações remotas. O custo de substituir uma ou duas baterias é mínimo compar-ado com a ocorrência de uma avaria que faça com que o armário ou o servidor vá abaixo. A monitorização básica pode evitar estas situações. Análise de relatórios – Os dados recolhidos por um sistema de monitorização podem ser convertidos em relatórios personalizados para o administrador de TI analisar. No passado, de modo a determinar as temperaturas em horas extraordinárias nas salas de servidores remotas, os administradores contavam com o pessoal de segurança ou outras pessoas externas para lerem e registarem manualmente as informações dos termómetros nas paredes. Actualmente, o administrador pode observar os dados históricos e aperceber-se que a temperatura tem oscilado em redor dos 10° F (12° C) à noite. Ao analisar os relatórios de 48 horas, os relatórios de 1 semana ou os relatórios de intervalos mais longos, o admin-istrador consegue reconhecer o problema e expor o caso ao departamento das instalações respectivas para que o problema seja resolvido (se o sistema de conforto do edifício estiver a ser usado para arrefecer total ou parcialmente a sala de servidores). Os dados recolhidos pelo sistema de monitorização da sala de TI podem documentar que existe um problema e que pode ser sintomático de um problema maior. Do ponto de vista da segurança, os relatórios gerados por um sistema podem também ajudar o administrador de TI a determinar rapidamente quem esteve nesse bastidor em particular e durante quanto tempo. No caso das estações POS comerciais, por exemplo, um sistema de monitorização pode examinar as UPSs no terreno e produzir um relatório com indicação da quantidade de carga que está a ser utilizada em cada UPS. Se o administrador de TI considerar que todas as UPSs devem estar a 50% de carga, então, as que excedem esse limite são facilmente identificadas. O administrador pode assim identificar imediatamente que UPSs estão a suportar cargas “ilegais” e pode emitir uma ordem “cessar e desistir” antes de quaisquer sistemas POS comerciais irem abaixo. Configuração em massa – Após a instalação inicial, todos os dispositivos associados ao sistema de monitorização e automatização central estão ligados e possuem perfil no sistema. Isto permite que o administrador configure ou inicie uma alteração em massa (uma alteração que afecte vários dispositivos) mais tarde. Considere o exemplo das fechaduras das portas nos bastidores da sala de servidores. Não tem de configurar individualmente cada fechadura da porta do bastidor. Apenas uma única configuração de segurança tem de ser efectuada

O administrador pode assim identificar imediatamente que UPSs estão a suportar cargas “ilegais” e pode emitir uma ordem “cessar e desistir” antes de quaisquer sistemas POS comerciais irem abaixo.

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 11

para todas as 50 portas de bastidores (frontais e posteriores), se for essa a decisão do administrador. Controlo – Os administradores sentem-se sob muito menos pressão ao terem acesso a dados detalhados do sistema de monitorização e automatização. Por exemplo, um sistema pode mapear o caminho da corrente e as relações e dependências do sistema físico. Quando ocorre um problema, isto ajuda a evitar o caos para descobrir qual a origem do problema. Alguns sistemas podem também recomendar a melhor localização para colocar novo equipamento com base na alimentação e portas de rede disponíveis. Isto evita o problema de ocorrência de corte de energia inesperado num bastidor em particular. Um sistema pode também ilustrar a consequência da avaria do dispositivo em equipamento baseado em bastidores para identificação instantânea de impactos cruciais da aplicação na empresa. Isto permite ao administrador formular um plano antecipadamente caso ocorra um problema, de modo a minimizar a ocorrência de um período de inactividade. Mais controlo sobre o ambiente, mais alertas e mais dados históricos podem ajudar a manter um ambiente com menos stress. Se já estiver a ser realizado um investimento em videovig-ilância e monitorização e automatização centralizadas, a adição do controlo da temperatura, controlo da humidade, dados de ponto de condensação e outros alarmes ambientais representa um custo adicional reduzido. A avaliação das tendências ambientais e a análise dos dados de videovigilância ajudam o administrador a acabar com os problemas logo de início, para que a falha humana seja mantida num nível mínimo. Os sistemas de alimentação e arrefecimento são particularmente vulneráveis a falha humana devido a uma falta de conhecimento relativamente a estes sistemas. Os incidentes abaixo descrevem alguns dos riscos envolvidos. • Num incidente, a UPS sobreaqueceu porque havia uma pilha de pacotes de papel

higiénico sobre a unidade, obstruindo a circulação do ar.

• Uma pequena sala de servidores para um projecto temporário foi configurada numa área do piso de cima de um edifício de escritórios. A equipa que configurou a sala cer-tificou-se de que tudo o que foi instalado foi barato, mas de acordo com as especifi-cações. Utilizou uma das suas unidades domésticas de ar condicionado para o ar-refecimento, uma vez que tinha a classificação térmica correcta para coincidir com a dissipação de calor necessária para o equipamento existente na sala. Não demorou muito até que tivesse de ser realizada uma chamada de assistência devido a avaria no hardware. Foi enviado um engenheiro que descobriu que a temperatura na sala de in-formática rondava os 110° F (43° C). Infelizmente, a equipa de instalação tinha in-stalado a entrada de ar e a saída de ar do ar condicionado na mesma sala minúscula.

• Uma tomada auxiliar por utilizar é como um íman para qualquer pessoa que entre numa sala de servidores ou armário de cablagem. Muitas salas de servidores já foram abaixo devido a problemas com a ligação de equipamento não autorizado nas tomadas auxiliares. Aspiradores e berbequins são exemplos perfeitos do que NÃO deve ser lig-ado a uma tomada que recebe energia da UPS. Num dos casos, ocorreu um curto-circuito no berbequim que fez com que um disjuntor perdesse a ligação à terra, o que fez com que uma parte significativa da sala de servidores fosse abaixo.

• Um grande revendedor não tinha ninguém na loja que soubesse como a sala de servi-dores ou o armário de cablagem funcionavam. Os operadores de caixa foram trabalhar e descobriram que as caixas registadoras não funcionavam. A sede aconselhou-os a contornarem a UPS e a executarem os seus sistemas através da corrente da rua até que pudesse ser enviada uma bateria. Assim que a bateria chegou, teve de ser envia-da uma pessoa qualificada para instalar a bateria. Perderam-se milhares de dólares em transacções nesse dia com potencial para muito mais se tivesse ocorrido um corte de energia.

Outros relatos

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 12

• Outra operação de venda a retalho estava a ter problemas em manter o período de actividade nas estações de ponto de venda (POS). Isto tornou-se um grande problema, porque sempre que os sistemas iam abaixo, as balanças usadas para pesar as merca-dorias a enviar tinham de ser recalibradas, o que prolongava significativamente o período de inactividade. Depois da investigação, o gestor de TI descobriu que os fun-cionários das instalações de retalho estavam a ligar “ilegalmente” dispositivos como aquecedores e ventoinhas às UPS que estavam a suportar o POS. Dado que os siste-mas só foram concebidos para suportar cargas eléctricas normais das estações POS, as sobrecargas provocadas pelas cargas adicionais inesperadas estavam a fazer com que os sistemas fossem abaixo.

• Perdeu-se um bastidor de servidores porque um administrador de TI sobrecarregou acidentalmente uma ficha de alimentação já no máximo.

É muito provável que, qualquer pessoa que tenha passado algum tempo a gerir salas de servidores remotas possa adicionar histórias de falha humana à lista apresentada neste documento. Felizmente, estão disponíveis algumas ferramentas de monitorização que podem ajudar a suavizar as preocupações dos operadores que se preocupam com períodos de inactividade imprevistos nestes ambientes remotos.

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 13

As salas de servidores e os armários pequenos e remotos são prolíficos e muitas vezes sujeitos a período de inactividade causado por falha humana. A gestão destes centros de dados mais pequenos é morosa e problemática. Muitas destas instalações são salas de TI sem ninguém e com supervisão mínima. Uma abordagem com quatro componentes composta por um sistema de software de monitorização e automatização, tecnologia de vídeo, tomadas inteligentes de bastidor e tecnologia de sensor pode reduzir bastante os incidentes de falha humana nestes pequenos ambientes. Estes sistemas colocam dados cruciais nas mãos de administradores com conhecimentos necessários que possam gerir e identificar os problemas remotamente antes de resultarem em período de inactividade.

Conclusão

Dennis Bouley is a Senior Research Analyst at Schneider Electric's Data Center Science Center. He holds bachelor’s degrees in journalism and French from the University of Rhode Island and holds the Certificat Annuel from the Sorbonne in Paris, France. He has published multiple articles in global journals focused on data center IT and physical infra-structure environments and has authored several white papers for The Green Grid.

Sobre o autor

Estimating a Data Center’s Electrical Carbon Footprint

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 14

Procurar todas as aplicações técnicas whitepapers.apc.com

Para feedback e comentários sobre o conteúdo desta aplicação técnica: Data Center Science Center [email protected] Se for um cliente e tiver dúvidas específicas do seu projecto de centro de dados: Contacte o representante da Schneider Electric www.apc.com/support/contact/index.cfm

Contacte-nos

tools.apc.com

Procurar todas as aplicações TradeOff Tools™

Recursos Clique no ícon para visualizar a fonte