Criando uma área de análise de dados na sua empresa parte 4 – Tangibilizando resultados

Thoran Rodrigues, BigData Corp

Feito o teste, deu tudo certo. Agora, como transformar o projeto de data science em realidade? Primeiro, é preciso entender que, quando o assunto é ciência de dados, não basta definir, planejar e experimentar. Existem mais dois passos fundamentais: o primeiro é apresentar os resultados para os stakeholders, que devem aprovar os objetivos propostos; o segundo é implantar, em um ambiente produtivo, o modelo, o algoritmo, a lógica ou a análise desenvolvida.

Pode parecer simples, mas nem sempre é fácil transmitir a conclusão da experimentação com sucesso, induzindo o board ou aos acionistas a comprar a ideia. Sem uma comunicação eficaz, um projeto pode ser descartado ou subvalorizado. Assim, uma boa apresentação precisa mostrar as respostas dos testes, mas também apontar a relação custo-benefício do projeto. Ou seja, a análise de resultado não pode considerar apenas os fatores diretamente relacionados ao modelo, mas deve levar em conta também a geração de valor.

Uma dica é usar métricas relevantes para quem vai tomar a decisão. Por exemplo: quando um teste mostra que determinado projeto irá melhorar o resultado financeiro em 50%, porém, reduzirá as vendas em 30%, esta informação não deve ser destacada na apresentação, caso quem tome a decisão seja uma pessoa da área de vendas, que tenderia a avaliar o resultado de forma negativa.

Outro ponto importante é conhecer as regras, ou regulações, implícitas em um projeto de data science. Algumas verticais do mercado, como o sistema financeiro, têm regulações a ser respeitadas. Um exemplo é o Acordo de Basileia (tratado para regular o funcionamento dos bancos e instituições financeiras), que define uma metodologia comum de avaliação de risco de crédito para as operações financeiras. Portanto, um projeto envolvendo análise de crédito precisa adotar técnicas de modelagem que respeitem as regras do tratado.

Simples ou sofisticado

Ao implantar o modelo, o algoritmo, a lógica ou a análise desenvolvida em um ambiente produtivo, tem-se a oportunidade de avaliar os resultados à luz do contexto. Às vezes, um projeto com modelo mais simples pode trazer uma relação custo-benefício melhor do que um experimento mais sofisticado.

Aqui também é crítico saber apresentar os resultados para a tomada de decisão. É importante deixar clara a complexidade do problema abordado; se for o caso, indagar se há possibilidade de simplificação; e sempre lembrar que um projeto em caráter de experimentação pode não dar certo.

Um caso bastante conhecido foi o concurso realizado pela Netflix, em 2009, quando a empresa lançou o desafio para a construção de um algoritmo que melhorasse em 10% seu sistema de recomendação de filmes. Participaram da competição mais de 51 mil pessoas de 186 países, que concorreram a um prêmio de US$ 1 milhão. O projeto vencedor levou o dinheiro, mas nunca foi colocado em produção porque a implementação seria muito cara em termos de engenharia. O processamento era lento e, ao final, iria parecer ao usuário que o sistema “travava”. A conclusão da empresa foi de que não valia a pena o investimento.

Outro exemplo foi o de um site de empregos que desenvolveu dois modelos de recomendação de vagas: um em árvore de decisão, outro de redes neurais. O melhor resultado foi o de rede neural, que apresentou um percentual de acerto superior ao modelo em árvore de decisão. Porém, o custo operacional era tão alto que a opção foi pelo mais simples.

Como mostram os dois cases, nem sempre o resultado mais sofisticado é a melhor opção. Daí a importância de uma validação em um ambiente produtivo, nessa etapa final.

Thoran Rodrigues

Formado em engenharia de computação, mestre em informática e com um MBA em gestão de negócios pela PUC-RJ, Thoran Rodrigues tem 15 anos de experiência no mercado de tecnologia. Já trabalhou em laboratórios de pesquisa e empresas de diversos tipos e portes. Em 2013, fundou a BigDataCorp., uma empresa especializada em projetos de big data e na automação de processos de informação.