Dados não estruturados: Você sabe lidar com esse tesouro em ascensão?
Paulo de Godoy, country manager da Pure Storage no Brasil
Esta década será um grande marco para os dados não estruturados, ou seja, os dados modernos que não possuem padrões ou alinhamentos, como os que vemos geralmente em redes sociais, com enorme volume de textos, áudios e stickers. Esse marco é baseado em dados do Gartner, que revelou que as taxas de crescimento de dados não estruturados atingiram 30% ao ano, o que significa que em volume total eles quase quadruplicarão até 2027.
Esse crescimento é um desafio, já que esses dados são criados em vários tamanhos e podem ser armazenados como arquivos (files) ou objetos, com necessidades de desempenho de armazenamento cada vez mais exigentes. Isso resultou no surgimento de uma categoria específica para fornecer esse tipo de armazenamento de forma rápida e unificada, que vem se tornando uma tendência entre as empresas.
O que impulsiona essa tendência?
O pano de fundo é o crescimento dos dados não estruturados, que podem incluir grandes quantidades de arquivos ou objetos muito pequenos – geralmente bilhões deles. Eles também podem vir como um número reduzido de arquivos ou objetos muito maiores, como vídeos ou imagens de alta definição – ou uma combinação dos dois. As análises de fluxos de trabalho modernos, por exemplo, podem precisar acessar uma ampla variedade de tipos de dados de diferentes tamanhos.
Alto desempenho é a chave
Outro fator importante do armazenamento rápido de arquivos e objetos é o desempenho para acessar os dados não estruturados. Vimos uma explosão em análises e machine learning, impulsionada pela necessidade de extrair valor de enormes quantidades de dados brutos.
Enquanto isso, as imagens digitais seguem em rápido crescimento, como PACS (sistemas de arquivamento e comunicação de imagens) no setor de saúde. Um exemplo prático é a Paige, empresa pioneira em uso de machine learning para diagnóstico de câncer, e requer capacidade de armazenamento em escala de petabytes com acesso rápido e alto rendimento para reconhecimento de máquina em milhões de imagens em amostras de tecidos de pacientes.
Além disso, o backup e a proteção de dados também podem produzir imenso volume de arquivos e objetos e de vários tamanhos. Até mesmo para o backup agora são necessárias velocidades de restauração muito superiores para ajudar a efetividade da recuperação dos dados no caso de um ataque de ransomware.
Qual é a diferença do armazenamento de objetos?
Por décadas, o armazenamento de arquivos foi uma opção predominante, com soluções NAS de expansão aumentando a capacidade e o desempenho para suportar dados não estruturados. Agora, o surgimento do armazenamento de objetos é uma inovação e está se tornando cada vez mais importante e adotado, impulsionado pela Web e pela ascensão da nuvem.
Arquivos e objetos podem conter os mesmos tipos de conteúdo. Mas, enquanto os sistemas de arquivos usam um sistema hierárquico baseado em diretório, os de objetos usam uma estrutura ‘plana’ com os dados atribuídos a um identificador individual e metadados que podem ser usados para contextualizar esses objetos.
Historicamente, o objeto é conhecido como um tipo de armazenamento com menor desempenho e formou uma categoria separada de produto. Isso está mudando conforme as empresas precisam cada vez mais analisar grandes quantidades de dados não estruturados que podem estar em formato de objeto ou arquivo.
Além disso, à medida que as aplicações e situações evoluem, as empresas precisam de uma plataforma capaz de oferecer suporte a ambos os métodos de acesso e garantir a proteção do investimento durante e após essa transição. Todos esses fatores levaram ao surgimento de soluções de alto desempenho que combinam acesso aos dois.
Entenda os benefícios
Ao contrário dos tradicionais dados estruturados – como um banco de dados que suporta um sistema ERP – que tendem a ser estáticos, os não estruturados podem abranger muitos locais e métodos de acesso durante seu ciclo de vida.
Os produtos emergentes de armazenamento rápido de arquivos e objetos suportam NFS – sistema de arquivos distribuídos e protocolo SBM – Server Message Block, que são compatíveis com a maneira como muitas aplicações corporativas existentes são escritas.
Além disso, as soluções rápidas também podem lidar com dados não estruturados em formatos de acesso a objetos que são o resultado de suas origens na nuvem, como o Amazon S3. Esse tipo de armazenamento também é ideal para nuvens híbridas, com dados não estruturados que podem fazer a transição entre on-premise e na nuvem.
O que preciso levar em conta?
Em primeiro lugar, a capacidade. A plataforma precisa ser dimensionada de acordo com as necessidades, que para muitas empresas podem ser petabytes. Como os dados não estruturados podem crescer rapidamente, dimensionar a solução também precisa ser fácil e não envolver configurações de rede complexas ou tarefas manuais para balanceamento de dados.
Em segundo lugar, o acesso ao armazenamento de arquivos e objetos, oferecendo os principais protocolos como NFS e SMB para arquivos e S3 para acesso aos objetos.
Em terceiro lugar, deve ser construído para acesso rápido e alto rendimento. A baixa latência – principalmente para operações de acesso de leitura e metadados – é necessária para liberar o potencial de IA e ML, bem como de muitas estruturas de análise modernas. O armazenamento totalmente em flash oferece esse acesso rápido graças à sua natureza de estado sólido.
Velocidade é sempre um diferencial
Seja para analisar conjuntos de dados muito grandes ou para realizar uma operação de restauração em massa após um ataque de ransomware, os dados não estruturados podem exigir um desempenho de acesso muito alto. A baixa latência precisa ser combinada com alta taxa de transferência. Para análise de dados, isso significa velocidades medidas em dezenas de gigabytes por segundo. Quando se trata de restaurar sistemas após uma interrupção ou ataque de ransomware, as empresas precisam de uma taxa de transferência próxima a 300 TB por hora, para limitar o tempo de inatividade e os danos financeiros e de reputação da marca.
Além disso, o alto desempenho tanto do ponto de vista da latência quanto da taxa de transferência deve ser fornecido pela plataforma de forma automática e sem ajustes. O mundo dos dados não estruturados e da análise moderna está evoluindo tão rápido que é difícil prever quais ferramentas, formato de arquivo, tamanho do conjunto de dados ou métodos de acesso serão necessários amanhã. Qualquer solução de storage que exija configuração ou ajuste manual para garantir desempenho para um determinado caso, se tornará obstáculo para a inovação e atrasará os projetos.
O mundo do armazenamento de dados está realmente embarcando em uma era de prosperidade. O crescimento explosivo das análises modernas, machine learning, inteligência de vídeo e imagem, além dos ataques de ransomware, exigirá soluções criadas para grandes volumes de dados não estruturados, com níveis de desempenho e flexibilidade em termos de métodos de acesso.
As plataformas rápidas de armazenamento de arquivos e objetos são a resposta para os desafios de hoje e do futuro, e são projetadas para dar suporte às empresas à medida que buscam extrair valor dos dados não estruturados.
.
Paulo de Godoy tem 20 anos de experiência no mercado de TI, com foco em vendas de soluções para empresas de armazenamento, segurança, integração e interconectividade. O executivo ocupou cargos de liderança em empresas de destaque no setor tecnológico, como Hitachi, IBM e NetApp. Paulo iniciou as atividades na Pure Storage como gerente de vendas em 2014, e em 2016 assumiu a gerência geral da companhia no Brasil.