Respostas pós-eventos: Falhas e quase falhas em data centers
O foco deste artigo são os eventos relacionados a facilities de data center. É fundamental estabelecer práticas de respostas pós-eventos para evitar a indisponibilidade do ambiente.
José Roberto da Silva e Luís V. R. Dória, diretores da Top Tier Infrastructure
É certo que quando ocorre uma interrupção nos serviços do data center todas as ações serão tomadas no sentido de restabelecer a operação no menor tempo possível. Os processos e procedimentos devem estar vigentes, comunicados, acessíveis e treinados para garantir que ações coordenadas sejam tomadas (exemplos: EOPs, CMP e BC/DR, entre outros).
O foco deste artigo são os eventos relacionados a facilities de data center, porém as equipes de operação e manutenção de facilities também participarão ativamente nos eventos relacionados a TI, telecomunicações, ciberataques e outros eventos externos que afetem a disponibilidade do data center.
Como diretriz básica após um evento de indisponibilidade do data center, deve-se, pela ordem, restaurar os serviços com segurança, preservar as informações para a realização de RCA – Root Cause Analysis (análise de causa raiz), prevenir futuras interrupções de causa semelhante em todos os data centers da organização e relatar com precisão todos os eventos de falha ou quase falha para o perfeito entendimento dos gestores e para justificar investimentos em sistemas mais resilientes e na capacitação de profissionais.
Após uma interrupção, há uma urgência por parte de todo pessoal envolvido para corrigir discrepâncias e “voltar ao normal” o mais rápido possível. É importante, no entanto, documentar fatos e condições que cercam a interrupção para facilitar a RCA. É igualmente importante que ações adequadas e racionais sejam tomadas durante o processo de reinicialização.
Interrupções podem ser alongadas ou agravadas por tentativas frenéticas para reiniciar equipamentos ou sistemas, entretanto muitas interrupções de carga crítica podem ser atenuadas ou evitadas por ações de restauração rápidas por parte do pessoal habilitado do data center, especialmete com uso de procedimentos formais, se disponíveis, sem colocar as cargas críticas em um risco maior.
Para evitar a repetição de um evento, é fundamental identificar e classificar adequadamente a ocorrência; entender as causas ou os fatores de contribuição; avaliar o impacto nas operações de TI; elaborar relatório detalhado; e planejar ações de melhorias ou inovações de processos e procedimentos.
Os eventos são classificados em interrupções não programadas, ou outages, onde há indisponibilidade da carga crítica; e em quase falhas, ou eventos salvos que, quer por característica de projeto (ex: redundância) ou por ação da equipe de operação e manutenção, não redundaram em indisponibilidade de TI.
Na sequência de um evento é necessário iniciar o processo de relatório com os dados coletados a partir das 24 horas anteriores. Todos os logs de equipamentos e ações detalhadas das equipes envolvidas devem ser relatados para o entendimento do evento e determinação da causa raiz ou dos fatores de contribuição.
Conhecer como cada evento afeta ou tem potencial de afetar a carga crítica ajuda a elaborar um plano de ações com intuito de evitar a repetição do evento e até determinar o fim de vida útil de equipamentos ou mudanças de tecnologia ou ainda de fornecedor.
É bastante natural que as organizações concentrem esforços no entendimento de um outage e que não gastem tempo na análise dos eventos salvos, que também podem revelar vícios de projeto, falhas de sistemas e erros em procedimentos, às vezes, encobertos por redundâncias das instalações.
Em decorrência das análises de eventos, deve-se criar um processo de lições aprendidas para determinar aprimoramentos em treinamentos e processos e alimentar uma base de conhecimento para que os demais data centers da organização revejam suas operações e eliminem potenciais riscos de indisponibilidade dentro de um programa de zero downtime.