“Missão crítica” é um adjetivo muito usado por vários componentes e processos de hardware, referindo-se a qualquer elemento de um sistema cuja falha resultará na falha das operações comerciais. Apesar de ser um jargão popular, ele tem pouco significado real para datacenters. Aqui, sem redundância, a falha de quase qualquer uma das peças do equipamento ou software pode resultar em uma paralisação.
É como construir uma torre de blocos: nenhum bloco é mais importante que o outro. Da mesma forma, cada elemento funcional no datacenter (distribuição de energia, AVAC, BMS, rede de TI) depende do resto. A falha de qualquer componente, como uma bomba, um transformador ou um software de operação, poderia causar um colapso no datacenter.
Perda de serviço é o medo número 1 que mantém os gerentes de datacenter acordados à noite. Em uma pesquisa recente, eles mencionaram a “disponibilidade” como a prioridade número 1, e seu medo é justificado. Os custos diretos de um blecaute são estimados em aproximadamente 260 mil dólares para uma paralisação parcial, somado ao menos tangível e possivelmente mais danoso custo indireto para a reputação do datacenter.
Enquanto 95% dos datacenters passam por um ou mais blecautes não planejados por um período típico de 24 meses, a boa notícia é que 80% desses blecautes são passíveis de prevenção. Dadas as enormes demandas colocadas sobre os datacenters e a complexidade da tecnologia aplicada para satisfazer tais demandas, há muito que pode dar errado. Porém, há muito que os gerentes de datacenter podem fazer para garantir o fluxo ininterrupto das transações.
Disponibilidade Versus Confiabilidade
“As pessoas na nossa indústria frequentemente falam sobre a ‘confiabilidade’ dos datacenters”, explica Mietek Glinkowski, Diretor de Tecnologia da ABB. “Na verdade, eles estão falando é da disponibilidade. Os termos não são intercambiáveis, e é útil entender a diferença”.
A confiabilidade geralmente se aplica a um componente ou subsistema. É a probabilidade de um dispositivo ou sistema desempenhar sua função programada por um período específico de tempo. A confiabilidade precisa ser estatisticamente calculada.
“Você pode determinar um valor real da confiabilidade como o tempo médio entre falhas ou o tempo médio entre reparos”, diz Glinlowski. “Por exemplo, se pegarmos uma amostra de 1.000 carros de um certo modelo, olharemos para a taxa de panes por um certo período, digamos que um ano, para calcular a confiabilidade de tal modelo”.
Dentro de um datacenter, há três tipos gerais ou classes de confiabilidade:
−−Confiabilidade dos componentes – a confiabilidade de cada peça física individual do hardware no datacenter.
−−Confiabilidade do sistema elétrico – a confiabilidade geral de todos os componentes e de suas interconexões que gerenciam a eletricidade da rua até o servidor.
−−Confiabilidade do processo – se relaciona aos processos nos datacenters, incluindo o AVAC e outros sistemas relacionados à infraestrutura.
A disponibilidade do datacenter se refere à satisfação da expectativa do tempo operacional. A meta, claro, é de 100% de disponibilidade, mas tanto os humanos quanto a tecnologia são uma barreira para o alcance de tal meta. No Sistema de Classificação Tier do Instituto Uptime, espera-se que um datacenter certificado com Tier 1 forneça 99,671% de disponibilidade. Esse parece um número impressionante até fazermos os cálculos e percebermos que ele corresponde a 28,8 horas de inatividade por ano.
Gerentes de datacenter determinados a elevar suas métricas de tempo operacional têm várias áreas-chave nas quais podem focar sua atenção.
Considere o Elo Mais Fraco
“É surpreendente como os projetistas de uma instalação frequentemente não percebem que a disponibilidade de todo o datacenter é tão boa quanto seu ponto mais fraco”, diz Mietek. “Se você olhar para o sistema de energia e para como a energia é distribuída por todo o datacenter, deve observar todos os possíveis componentes e o fluxo de energia nas diferentes condições para garantir que em todos os cenários você tenha a confiabilidade que procura”.
Para manter os custos sob controle, muitos datacenters são construídos usando instrumentação de nível comercial. Apesar de eficientes em termos de custo, tais instrumentos não são projetados ou construídos para a confiabilidade necessária nos datacenters. Ao erroneamente assumir, por exemplo, que um instrumento é um commodity, você pode escolher poupar dinheiro escolhendo um modelo de baixo custo. O sistema como um todo não é melhor, nem mais confiável, que tal instrumento.
Usar uma instrumentação de nível industrial ao invés de uma comercial é um modo de aumentar a disponibilidade. Entretanto, alcançar uma disponibilidade maior não é tão simples quanto gastar mais dinheiro em um hardware mais confiável.
“Isso pode ser verdade até certo grau”, diz Glinkowski, “mas o ponto é ter um equilíbrio entre equipamento confiável em todos os lugares, combinado com a infraestrutura ou com os sistemas de controle, para uni-los em um sistema global com alta confiabilidade. É necessário entender as inter-relações de cada elemento no datacenter. Todos são importantes. Todos fazem parte do desempenho global do datacenter”.
Esse fato torna a arquitetura do sistema crítica para a confiabilidade. É possível matematicamente calcular o processo global ou a confiabilidade da instalação considerando a confiabilidade de cada componente, mas também é necessário considerar como tais componentes estão conectados e combinados.
O alpinismo fornece uma boa analogia. Dois alpinistas podem ter o mesmo equipamento. O alpinista que instala os instrumentos em um arranjo mais lógico e eficaz tem uma chance muito maior de voltar do cume de maneira segura do que o alpinista que não utiliza o equipamento de modo apropriado.
Até mesmo a peça de equipamento ou software mais confiável falhará em algum momento. Os projetistas e gerentes de datacenter devem analisar suas instalações para identificar os pontos onde a ameaça de pane justifique a redundância. Em alguns casos, tais decisões podem ser feitas intuitivamente. Também é possível identificar fornecedores de serviço terceirizado com as ferramentas analíticas e com uma ampla experiência na indústria para fazer uma análise mais abrangente.
“Você cria uma redundância seletiva, nas áreas onde ela é mais importante”, diz Mark Reed, Diretor para Datacenters na América do Norte da ABB. “Observe o risco ou o custo-benefício da redundância em cada área do sistema. Faça esse exercício e escolha os melhores lugares para fazer investimentos em confiabilidade”.
Implementar o DCIM
Comparado a uma fábrica movimentada ou a uma agitada instalação de distribuição, o datacenter típico parece ser uma operação bastante sedentária. Na verdade, há um constante turbilhão de atividades, e a maior parte delas está escondida da vista dentro de suportes, ventoinhas e dutos.
Para monitorar e gerenciar essa atividade, os gerentes de datacenters estão cada vez mais se voltando para os sistemas de Gestão de Infraestrutura de Datacenter (DCIMs). As versões anteriores deste software forneciam pouco mais do que a criação do monitoramento do sistema de gestão, a coleta das métricas de nível superior em relação às temperaturas do fluido de resfriamento e fora dos resfriadores, a voltagem total entrando na instalação e o estado operacional das bombas, ventoinhas e motores.
“Sistemas mais avançados surgiram, mas existiam sistemas diferentes, cada um focado em uma função diferente do datacenter”, diz Reed. “Além do sistema de energia e do AVAC, haviam também os sistemas de segurança e incêndio, sistemas de monitoramento elétrico/de energia e sistemas de gestão de ativos. Tais sistemas não estiveram sempre integrados, tornando difícil ou impossível ter um panorama geral das condições do datacenter. Como uma ferramenta de confiabilidade, eles não cumpriram seu papel”.
Atualmente, há DCIMs disponíveis que fornecem uma visão unificada, permitindo aos operadores de datacenter visualizar as informações ao longo de várias disciplinas, e tomar decisões a partir de informações qualificadas. Para sintetizar uma visão clara e oportuna da operação, são necessários dados de sensores implementados por toda a instalação.
A safra atual de dispositivos de datacenter está cada vez mais “inteligente”, equipada com instrumentação que permite o envio de dados sobre sua condição. O DCIM avidamente aceita tais dados e os usa para apresentar a condição geral do processo.
“O DCIM pode usar entradas de dados de todos os tipos de dispositivos”, explica Reed. “As entradas de dados podem vir de dispositivos de campo como transmissores de pressão, sensores de temperatura e atuadores para válvulas. É possível obter o diagnóstico de equipamentos como bombas, unidades de disco, motores, geradores, comutadores, baterias, nobreaks, resfriadores e torres de água. É possível também obter informações de quase todas as peças do equipamento da instalação, que hoje em dia é considerado “inteligente”. O DCIM coleta, sintetiza e analisa os dados brutos e os converte em informações comerciais úteis para a tomada de decisões em tempo real. Além disso, as informações podem ser usadas pelo sistema DCIM para dizer o que precisa ser consertado e como consertar, para que o agendamento da visita de um técnico para o conserto seja feito”.
Obviamente, toda essa instrumentação tem um preço, então os gerentes precisam identificar quais falhas de componente ou subsistemas seriam mais catastróficas e/ou onde seria mais provável que elas ocorressem. Essas são as áreas onde a instrumentação deve ser implementada primeiro. Entretanto, quanto mais instrumentado o datacenter for, mais abrangentes e precisos serão os resultados do DCIM.
Nesse ponto, pode ser melhor substituir “gestão” por “monitoramento” na Gestão de Infraestrutura de Datacenter. Os DCIMs tipicamente fornecem um fluxo de dados abrangente, representando parâmetros operacionais ao longo de todo o processo. A analítica no software também fornece direcionamento e apoio à decisão para melhorias no processo. Porém, as ações necessárias para implementar tais melhorias permanecem, na maior parte do tempo, como uma atividade manual. O ciclo não foi fechado para criar um controle de gestão automatizado, exceto em alguns poucos produtos no mercado.
Na manufatura, os esforços de automação começaram com o Desenho Assistido por Computador (DAC), projetando peças em um modelo tridimensional. O DAC forneceu as fundações para a aplicação subsequente: a fabricação assistida por computador. Com o DAC/MAC (Manufatura Auxiliada por Computador), as peças podem ser desenhadas eletronicamente e então transmitidas às máquinas para fabricação automática. Essa mesma evolução está agora em curso com os DCIMs. Logo, eles se tornarão verdadeiros sistemas de gestão.
Com a confiança cada vez maior dos gerentes nos DCIMs, sua função de centralizar a operação se torna mais crítica. Torna-se cada vez mais importante incluir a redundância no DCIM por si só.
“Um DCIM capacitado se torna uma peça de software cada vez mais necessária”, diz Reed. “É uma das peças que crescem mais rapidamente entre as que as pessoas estão comprando para datacenters no momento. A geração atual de DCIMs harmoniza as instalações e a gestão de energia em um ambiente de controle unificado dentro e através de vários datacenters. Isso ajuda a elevar tanto a eficácia quanto a confiabilidade até níveis mais altos”.
Apoio à Equipe
Metade dos blecautes não planejados são resultado de erro de operadores. Embora esse número possa ser desanimador, a boa notícia é que tais erros são 100% evitáveis.
A redução do erro do operador começa ao garantir que haja procedimentos claramente definidos, tanto para as tarefas de rotina, quanto para problemas sérios e emergências. Como em muitas indústrias, esse tipo de conhecimento é frequentemente transmitido para uma nova pessoa à sombra do encarregado.
Apesar de fácil, rápido e livre de custos, tal método de treinamento não se baseia nas melhores práticas. Para garantir a consistência e disponibilidade, os operadores precisam definir seus processos de trabalho e documentá-los. Tais documentos são frequentemente fornecidos a funcionários ou disponibilizados em um fichário em algum lugar na área de trabalho.
Uma abordagem muito mais eficiente é incorporar tais instruções de trabalho ao DCIM. A geração atual de softwares de DCIM inclui a capacidade de abrigar instruções de trabalho e outros documentos em um depósito online.
“Essa é a próxima etapa na redução de erros do operador - embutindo os procedimentos do operador no software de controle para que cada ação seja lembrada, verificada e documentada”, diz Reed. “Isso fornece uma operação consistente e segura dos processos com base em procedimentos predefinidos e testados”.
Muitos funcionários de datacenter passam por uma situação de trabalho similar à de pilotos de jatos. Ambos são responsáveis por ativos cheio de tecnologia, mas ambos passam a maior parte do seu tempo não fazendo muito. Uma vez que o piloto atinge a altitude de cruzeiro, o jato basicamente voa sozinho. Quando o datacenter está em uma boa operação, o operador está basicamente em vigília, com pouco a ser feito.
“Há centenas de eventos em um turno normal que podem desencadear um alerta ou alarme”, diz Reed. “Muitos são rotineiros e podem ser facilmente tratados ou autocorrigidos. Tais alarmes podem se tornar ruídos brancos para o operador e podem não ser notados. Com uma gestão inteligente de alarme, o DCIM identifica aqueles que precisam de intervenção urgente. Ele pode também sintetizar alertas menores de vários pontos e concluir que, se tomados conjuntamente, indicam um problema iminente, potencialmente sério.
“Porém, tanto o piloto quanto o operador precisam ser capazes de responder rapidamente e apropriadamente quando os problemas surgirem”, diz Reed. “Para o operador de datacenter, a resposta frequentemente depende se eles têm acesso imediato ou não aos procedimentos ou instruções de trabalho corretos”.
O DCIM também pode ser usado para treinamento, fornecendo uma ferramenta de melhoria contínua. Alguns softwares de DCIM incluem a capacidade de registrar as ações do operador e a resposta do sistema. As informações são um recurso de treinamento tremendamente valioso. É possível revisar o modo como a situação foi tratada e o resultado em termos do quão rapidamente o problema foi solucionado e se outros problemas surgiram.
“O DCIM aumenta a eficácia do operador de dois modos”, declara Reed. “Por um lado, ele guia as ações do operador por meio de informações sensíveis ao contexto e, por outro lado, fornece feedback e documentação do quão bem-sucedidas as ações do operador foram. Isso previne erros em um primeiro momento e redefine os seus processos para fornecer respostas melhores no futuro”.
Considerar uma Conversão para Corrente Direta
“Tudo o que foi velho se torna novo outra vez”.
O nome da pessoa que primeiro proferiu tal frase se perdeu, mas a sabedoria de tal observação é notada no recente ressurgimento da energia DC para aplicações comerciais.
“Nós vemos a volta da corrente direta na nossa rotina diária, nos nossos telefones celulares, tablets, laptops e na maioria dos dispositivos eletrônicos”, diz Glinkowski. “Todos têm energia DC. No datacenter, na carga de usuário de nível final, o servidor, vemos principalmente a DC. Isso não é aparente porque a maioria dos dispositivos são energizados ou carregados por AC. Dentro do servidor, a primeira coisa que acontece com a energia é a conversão para DC."
A energia DC é amplamente vista em aplicações industriais e comerciais, porém sua confiabilidade e portabilidade faz dessa a escolha atual em algumas aplicações com maior demanda. Equipamentos de mineração e alguns outros grandes processos industriais operam em DC. Os militares também preferem os dispositivos com DC. É uma tecnologia comprovada com grande potencial para datacenters. A DC, principalmente de 48V, tem sido usada há décadas em centros de comutação de empresas de telefonia e em PBXs.
As muitas vantagens promovidas pela DC são resultado de sua simplicidade em comparação com a AC. Poucos dispositivos precisam entregar energia das ruas para o servidor. A eliminação de dispositivos de gestão de energia e a simplificação do sistema de distribuição fornecem uma longa lista de benefícios.
No mundo atual da energia AC na América do Norte, a linha de alimentação (normalmente 480 ou 208V) é retificada para DC para carregar as baterias de nobreaks dos datacenters e então convertida novamente para AC para distribuição dentro do datacenter. No caminho até os suportes, há uma unidade de distribuição de energia (PDU), essencialmente um transformador, que faz a energia cair de 480 V para 208 V ou 120 V, que pode ser usada pelo hardware nos suportes. Em muitas instalações, há conversões adicionais de energia.
Com cada retificação de energia, a conversão e o aumento ou diminuição da energia é desperdiçado, principalmente na forma de calor, que deve ser removido pelo sistema AVAC, necessitando de uma maior capacidade de resfriamento.
“Sempre que você puder ter menos equipamentos, você terá um sistema mais confiável”, diz Reed. “E isso não se relaciona apenas com o sistema de distribuição de energia. Quando se produz menos calor, é necessário menos AVAC, reduzindo também a complexidade desse sistema. O grande aumento na eficiência energética é um enorme bônus”.
Com tudo isso que a DC tem a oferecer, por que não estão todos correndo para adotá-la?
“Um dos grandes obstáculos é que há muita infraestrutura AC disponível”, explica Glinkowski. “Com a DC, nós temos algo grandioso com um potencial notável, mas diferente do que temos construído nos últimos 110 anos. As pessoas estão hesitantes em rapidamente migrar de sua infraestrutura existente e bastante conhecida afastando-se do capital já investido”.
Há outros entraves também.
“Colocar isso em prática requer muitas mudanças para coisas que temos subestimado há muito tempo”, diz Reed. “Isso nos leva a coisas tão simples como receptáculos. Também esperamos que os fabricantes aumentem a produção de servidores e outros equipamentos com fontes de energia DC. Eles já estão se tornando mais rapidamente disponíveis.
“Há também o problema das normas. No mundo da AC, há muitas normas para equipamentos, condutores, segurança, monitoramento, medição e assim por diante. Para a DC, há algumas normas, mas poucas”.
O potencial para melhorias significativas na confiabilidade e eficácia fez com que os profissionais de datacenter ao menos considerassem a alternativa de DC.
Conclusão
A disponibilidade geral de aplicação é mais crítica do que a disponibilidade de cada datacenter individualmente. É por isso que as organizações normalmente têm datacenters redundantes. Enquanto datacenters de Tier 4 são muito bem projetados, desastres naturais e blecautes extensos ainda criam o risco de paralisação. Passar por etapas para melhorar a disponibilidade de cada datacenter garante a disponibilidade geral.
O slogan de uma marca de carros de luxo bem conhecida era: “A busca implacável pela perfeição”. Todo gerente de datacenter pode se identificar com esse sentimento.
Os desafios enfrentados para alcançar tal perfeição são matematicamente evidentes quando consideramos que a diferença entre a disponibilidade da instalação de Tier 1 pior classificada e a instalação de Tier 4 melhor classificada é de ,00324... com dois acréscimos de Tier no meio.
O aumento da disponibilidade de um datacenter requer um gerenciamento firme de cada aspecto da operação. Um equipamento altamente confiável deve ser selecionado e implementado em uma arquitetura que não somente capitalize sobre a confiabilidade do dispositivo nativo, mas aumente-a através de sinergias no sistema.
Ao mesmo tempo em que os datacenters crescem em tamanho e complexidade, se torna essencial confiar em DCIMs de alta funcionalidade para coletar e sintetizar dados e apresentá-los a operadores para guiá-los em direção a uma resposta correta ou à sua simples implementação.
Finalmente, ao considerar uma atualização da tecnologia ou a adição de uma nova função, soluções de DC devem ser consideradas ao invés de distribuição de energia de AC. Os benefícios são evidentes e os obstáculos técnicos estão rapidamente desmoronando.
Através desses e de outros esforços, os gerentes de datacenters podem ter um progresso significativo na sua busca por uma disponibilidade perfeita.
ABB Data Centers
www.abb.com/datacenters