Quem monitora os cientistas de dados?
Thoran Rodrigues, BigDataCorp
Uma das tarefas de um cientista de dados é garimpar e lapidar as informações mais apropriadas e significativas para resolver um problema. Tais soluções envolvem, obrigatoriamente, a segurança dos dados que são processados. Mas, será que essa premissa é confiável? Quem garante (ou fiscaliza para) que a ciência de dados está sendo usada de forma íntegra, e não, por exemplo, a serviço da prática de fraudes?
Uma das melhores formas de se projetar no campo da ciência de dados tem sido a participação em comunidades abertas de ciência de dados. Um dos principais sites para isso é o Kaggle (www.kaggle.com), plataforma que reúne profissionais, amadores e entusiastas aos quais são apresentados problemas, normalmente patrocinados por empresas privadas. Além de ganhar prêmios em dinheiro, os melhores colocados conquistam reputação como líderes da área. No entanto, nem todos os competidores merecem reconhecimento: cada vez mais surgem denúncias de falcatruas cometidas pelas equipes.
No início de 2020, a comunidade de ciência de dados foi abalada pelo escândalo de trapaça em um concurso da Kaggle. O desafio era criar um site de animais de estimação para adoção. A equipe vencedora foi, posteriormente, desclassificada por obter e ocultar de forma fraudulenta os dados do conjunto de testes. A competição pedia aos concorrentes que desenvolvessem algoritmos para prever a taxa de adoção de animais com base nas listagens do PetFinder.my, um site da Malásia.
O objetivo era ajudar a descobrir o que torna o perfil on-line de um animal de estimação atraente para os interessados no pet. O algoritmo da BestPetting, a equipe que obteve o primeiro lugar, parecia prever quase perfeitamente a taxa de adoção para o conjunto de testes. Nove meses após o encerramento da competição, um adolescente bastante observador desconfiou que os resultados eram bons demais para serem verdadeiros. Ele descobriu que a equipe “vencedora” obteve os dados de teste provavelmente copiando dados do Kaggle ou da própria PetFinder.my, depois codificou e decodificou esses dados em seu algoritmo para ofuscar sua vantagem ilícita.
Também este ano, um caso alarmante envolvendo milhares de pessoas foi revelado pela pesquisadora de segurança Jamila Kaya. Ela descobriu que mais de 500 extensões para o navegador Google Chrome estavam enganando anunciantes em relação a downloads de anúncios publicitários que nunca eram exibidos. Em vez disso, os usuários eram redirecionados para sites maliciosos. Quando informado, o Google realizou uma varredura em toda a Chrome Web Store e identificou uma grande operação de malware.
Especialistas defendem que universidades, instituições de pesquisa e agências de fomento invistam em ações coordenadas para lidar com essas questões, a fim de não colocar em risco a integridade da ciência como um todo. Na França, já existe uma iniciativa desse tipo: o maior órgão público de pesquisa científica do país e uma das mais importantes instituições de pesquisa do mundo, o CNRS – Centro Nacional de Pesquisa Científica, montou, em 2017, um escritório especialmente dedicado a promover boas práticas científicas em universidades e instituições de pesquisa.
Como todos os profissionais, os cientistas de dados não são máquinas infalíveis, nem acima de qualquer suspeita. Podem, sim, usar o seu conhecimento para fins escusos. Em um mundo onde dependemos cada vez mais do trabalho dos cientistas de dados no nosso dia a dia, é da maior importância estarmos alertas e nos perguntarmos se podemos ou não confiar cegamente nos resultados, refletindo sobre a origem da informação, como ela foi trabalhada e quais os interesses de quem está divulgando os dados.
Formado em engenharia de computação, mestre em informática e com um MBA em gestão de negócios pela PUC-RJ, Thoran Rodrigues tem 15 anos de experiência no mercado de tecnologia. Já trabalhou em laboratórios de pesquisa e empresas de diversos tipos e portes. Em 2013, fundou a BigDataCorp., uma empresa especializada em projetos de big data e na automação de processos de informação.