Criando uma área de big data na sua empresa – Parte 3: Experimentos e testes
Thoran Rodrigues, BigData Corp
Se em sua empresa você já montou uma equipe para trabalhar com análise de dados e já organizou os dados estruturados e não estruturados em um data lake, chegou a hora de partir para a última fase, a da experimentação. Uma das etapas fundamentais do trabalho com dados, a experimentação é determinante para o sucesso, ou o fracasso, do que está sendo analisado, seja a criação de um novo produto, a indicação de uma tendência de mercado, o lançamento de um serviço ou a validação de uma campanha.
Assim como qualquer experimento científico, o trabalho com dados deve envolver não apenas a formulação de hipóteses com base nas informações disponíveis em modelos estatísticos, ou obtidas por machine learning, mas também a validação desses modelos na vida real. Por isso, para trabalhar com dados de forma orientada, as empresas precisam estar prontas para testar e validar as correlações e as previsões reveladas pelos dados coletados.
Comprovando uma hipótese
A primeira coisa a se ter em mente é que todo método científico é baseado em uma hipótese. Portanto, quando falamos em ciência de dados, deve-se definir uma hipótese, que será testada na teoria, ou em um experimento, e será validada ou não.
Em tecnologia, assim como no marketing digital, é bastante usual o conceito do teste AB, que trabalha elementos aleatórios com duas variantes, ou seja, a apresentação de modelos diferentes para dois grupos e a comparação do resultado. Vamos tomar como exemplo uma campanha de apresentação de um novo modelo de veículo que mostrou, em um primeiro momento, que carros exibidos em uma imagem com fundo amarelo venderiam mais do que outros, com fundos com outra cor. A primeira conclusão a ser tirada dessa informação poderia ser que o melhor a fazer seria padronizar todas as fotos adotando o fundo amarelo.
Essa tomada de decisão, no entanto, poderia estar equivocada. Porque é preciso analisar todo o contexto e entender se outras condições contribuíram para impactar o comportamento dos consumidores. Será que houve influência do dia da semana em que o anúncio foi apresentado? Junto com as fotografias, a campanha oferecia algum cupom de desconto? Ou seja, todas as variáveis precisam ser testadas separadamente, jamais colocando mais de uma hipótese em uma mesma experimentação.
Quando o teste dá errado, o que fazer?
Perguntar-se ‘o que posso fazer diferente, para dar certo’ é uma postura relevante no processo. É importante saber também que o fato de ter dado errado na primeira vez não significa que não vai dar certo no futuro. Um exemplo clássico é o da tradução por computador. Há 15 anos, essa funcionalidade era um sonho; há 10, funcionava de modo bastante precário; hoje, está tão aprimorada que é amplamente usada até em tarefas profissionais. Conceitualmente, não mudou nada. Apenas foram desenvolvidas novas técnicas de coleta e processamento de informações que possibilitaram refinar o resultado.
Lembre-se ainda de que um processo científico é orientado mais pelo fracasso do que pelo sucesso. É comum que uma hipótese funcione no modelo controlado, mas não obtenha bom resultado quando utilizada por um público externo. Nesse caso, o melhor a fazer é voltar ao início do processo e tentar identificar as falhas. Faltou alguma informação? Deixou-se de considerar alguma variável? A conclusão foi fraca?
Muitos profissionais da área de ciência de dados têm dificuldade em aceitar que hipóteses dão errado com certa frequência. As empresas precisam entender que ciência não é adivinhação de dados e que a história da ciência nos mostra que nenhuma verdade é absoluta.
Saber apresentar os resultados para quem vai colocar o projeto em produção é outra etapa importante. Comece por detalhar os métodos utilizados ou os raciocínios que levaram àquela conclusão. Tenha em mente que comprovar significa confirmar, evidenciar, demonstrar algo. E a comprovação científica é o ato de (com)provar através de experimentos diretos ou indiretos a veracidade de alguma hipótese. Boa sorte!
Formado em engenharia de computação, mestre em informática e com um MBA em gestão de negócios pela PUC-RJ, Thoran Rodrigues tem 15 anos de experiência no mercado de tecnologia. Já trabalhou em laboratórios de pesquisa e empresas de diversos tipos e portes. Em 2013, fundou a BigDataCorp., uma empresa especializada em projetos de big data e na automação de processos de informação.