O custo da indisponibilidade dos data centers e o fator humano
Os erros humanos são responsáveis por 24% das causas de indisponibilidade dos data centers, perdendo apenas para as falhas em UPS, com 25% do total, em 2016.
José Roberto da Silva e Luís V. R. Dória, da Top Tier Infrastructure
A escalada da dependência de tecnologias no dia a dia das empresas e das pessoas leva a uma crescente necessidade de disponibilidade dos data centers que abrigam equipamentos e sistemas para a comunicação e transmissão de dados e voz. Nesse cenário, a resiliência dos ambientes de missão crítica se torna fundamental.
Entende-se por missão crítica qualquer elemento do sistema (componentes, equipamentos, pessoal, processos, procedimentos, software, etc.), essencial para a operação dos negócios ou para uma organização. Falhas ou interrupções de elementos de missão crítica trarão um sério impacto nas operações de negócios de uma organização e podem até mesmo causar turbulência social e catástrofes.
Portanto, é essencial para uma organização, evitar falhas de missão crítica. O objetivo de um data center é evitar a interrupção de atividade (ou ”outage”), os seus efeitos e custos decorrentes.
Mas quanto custa a inatividade do meu ambiente? Os fatores de contribuição de custo afetam os data centers e organizações de forma distinta, pois dependem do seu tamanho, segmento de mercado e do horário e duração da ocorrência, mas são sempre muito relevantes, podendo significar até a extinção de uma organização. Estudos realizados pelo instituto independente de pesquisas Ponemon Institute LLC, com 63 data centers e amostras representativas de organizações de diferentes setores mercado, que experimentaram pelo menos uma interrupção não planejada, total ou parcial, do data center, apontam que o custo médio de uma interrupção aumentou de forma constante de US$ 500 mil, em 2010, para mais de US$ 700, em janeiro de 2016.
Mantida a curva de crescimento das três primeiras pesquisas, podemos considerar que as perdas passarão de US$ 1 milhão daqui a quatro anos. O custo máximo de interrupção nos ambientes pesquisados já atingiam a cifra de US$ 2,5 milhões em 2016.
É certo que os custos aumentarão. E o que pode ser feito para reduzir a velocidade desse crescimento? Primeiro, precisamos entender a raiz dos problemas que levam ao outage do data center. Eles são classificados em dois grandes grupos: as falhas de equipamentos e os erros humanos. É importante ressaltar que uma indisponibilidade causada por desastres naturais ou agentes externos (sabotagem, terrorismo e cibercrime) somente afetará o negócio em si se não houver um plano de BC/DR – Business Continuity/Distarer Recovery, o que é classificado como “erro humano” nesta metodologia de análise de causa raiz. Um erro de projeto ou de execução também recebe a mesma classificação.
A evolução tecnológica dos componentes de equipamentos e os projetos redundantes reduziram a parcela de “falha de equipamento” como causa de outage de data center e, por consequência, os erros humanos aumentaram, alcançando a 24% das causas – perdendo apenas para as falhas em UPS, com 25% do total, em 2016.
Assim, as organizações líderes de diferentes segmentos de mercado, data centers corporativos ou provedores de serviços têm dado foco em atuar nas falhas atribuídas a erros humanos e na maturidade dos processos que envolvem as várias áreas de operação e manutenção desses ambientes de missão crítica, fator que hoje, diferencia a disponibilidade e eficácia dos data centers.
Esta tarefa não é simples, já que que envolve diferentes áreas das organizações e afeta dezenas de processos como preparação e respostas a emergências, análise de causa raiz, respostas pós-evento, processos de operação e manutenção e treinamento e capacitação de equipes. Também devem ser incluídas nesta lista gestão de manutenção em facilities; gestão de mudanças, riscos e impactos no data center, seleção e gestão de fornecedores de facilities, gestão do site, operação, eficiência e coordenação do site, preparação para auditorias e certificações de um data center.