Criando uma área de big data na sua empresa – Parte 2: Juntando os dados
Thoran Rodrigues, BigData Corp
Na última edição, mostramos como montar uma equipe para trabalhar com análise de dados, indicando, passo a passo, o que a sua empresa precisa e quais os perfis dos profissionais para trabalhar no setor. Com a equipe estruturada, é hora de organizar os dados.
Este é um dos trabalhos mais complexos, pois, ao longo do tempo, as empresas vão acumulando soluções isoladas de CRM – ferramenta de gestão de relacionamento com o cliente, BI – Business Intelligence, entre outras. Muitas vezes esses sistemas não se comunicam, ou seja, não há interoperabilidade entre os diferentes silos. Essa etapa pode envolver o trabalho de um fornecedor externo para viabilizar as correções e enriquecer o seu banco de dados.
A primeira providência é mapear as informações de que a equipe precisa e onde elas estão armazenadas. Mas não basta juntar as informações. É fundamental “limpar os dados”, para que as decisões sejam tomadas em cima de uma base segura.
O melhor modo de enfrentar esse desafio é adotar o conceito de Data Lake, o “lago de dados”, que consiste em criar um repositório para armazenar um grande e variado volume de dados, estruturados e não estruturados. O Data Lake é uma evolução do conceito de Data Warehouse, depósito para armazenamento de dados digitais tratados, padronizados e higienizados.
Como impulsionar o negócio
Como o Data Lake consegue abrigar um elevado número de dados brutos, de diferentes categorias, e a equipe pode ir jogando nesse “lago” as informações de que vai precisar para analisar um problema específico. Ao mesmo tempo, é possível trazer para esse repositório outras informações, que vão sendo captadas, mesmo que não tenham utilidade imediata.
Para ilustrar com um exemplo prático, vamos considerar um projeto sobre o churn rate de um cliente. O primeiro passo é buscar as informações no CRM e transportar para o Data Lake. No entanto, há dados sobre aquele cliente também no sistema de faturamento. Mesmo que a análise não necessite dessa informação de faturamento, é interessante inseri-la no Data Lake, de modo a ir construindo um repositório robusto.
Após montar o Data Lake com as informações disponíveis dentro da empresa, é o momento de identificar as informações relevantes para o negócio, que devem ser buscadas fora. Nesta etapa, é possível agregar um fornecedor externo, que possa alavancar o processo, ajudando o seu time a organizar as informações. A vantagem dessa estratégia é obter um olhar de fora, uma visão que complemente o que já vinha sendo construído internamente.
Mídia social é fonte de informação externa?
Quando falamos em buscar informação externa à empresa, é comum vir a ideia de pesquisas em mídias sociais. Embora tenham sua relevância, esses canais não são indicados como fontes para um estudo macroeconômico de cenários futuros – principalmente porque as opiniões disseminadas nas redes são reflexos de situações e sentimentos momentâneos.
Existem muitas informações públicas, abertas e de acesso gratuito que podem atender com segurança essas lacunas para as quais se buscam dados. Alguns exemplos: Portal Brasileiro de Dados Abertos; Portal da Transparência; IBGE; e órgãos não governamentais, como o Comitê Gestor da Internet. Nessas fontes de pesquisa é possível encontrar estatísticas, séries históricas e, muitas vezes, até uma base já estruturada para ser importada para o seu Data Lake.
Minha recomendação é para que se recorra o máximo possível a diferentes fontes. Uma única fonte pode não dar conta da demanda completamente. Mas cada fonte pode trazer dados que suprem um aspecto do problema. E, diante de um amplo arcabouço de dados, aumentam as chances de se fazer uma análise mais assertiva.
Formado em engenharia de computação, mestre em informática e com um MBA em gestão de negócios pela PUC-RJ, Thoran Rodrigues tem 15 anos de experiência no mercado de tecnologia. Já trabalhou em laboratórios de pesquisa e empresas de diversos tipos e portes. Em 2013, fundou a BigDataCorp., uma empresa especializada em projetos de big data e na automação de processos de informação.