Data science, machine learning e estatística: Cada termo no seu lugar
Thoran Rodrigues, BigData Corp
Na era dos zettabytes, a profusão de novas tecnologias gera uma quantidade enorme de terminologias, muitas das quais entram na moda – as chamadas buzzwords, na linguagem da internet. As palavras em inglês, incorporadas ao português e adotadas por técnicos e especialistas, se espalham pela rede e facilmente nos adaptamos à “nova linguagem”. Porém, uma questão da maior relevância é a importância de usar as novas expressões corretamente, evitando a armadilha de nos perdermos no redemoinho do vocabulário constantemente renovado. Focamos aqui em três termos bastante em alta e muitas vezes usados, erroneamente, como se fossem sinônimos: data science, machine learning e estatística.
Vamos começar pela base da pirâmide, onde estão a estatística e a matemática, duas áreas do conhecimento imprescindíveis para a inteligência artificial (IA). A estatística é um conjunto de métodos e teorias usadas para analisar e modelar dados. Ela não se preocupa em capturar e armazenar informação, por exemplo, mas sim com métodos, organização, resumo, apresentação e interpretação dos dados. Também tira conclusões sobre as características das fontes de onde as informações foram coletadas.
Em um patamar acima, vem o conceito de machine learning (ML ou aprendizado de máquina), como um subcampo da ciência da computação, que evoluiu do estudo de reconhecimento de padrões e da teoria da aprendizagem computacional da IA. A tecnologia usa algoritmos capazes de aprender com dados, fazer previsões e tomar decisões, superando as limitações da programação tradicional baseada em instruções estatísticas.
Estatística e machine learning, portanto, estão correlacionados, mas não são iguais. É possível afirmar que as abordagens estatísticas e matemáticas evoluíram a ponto de permitir o uso em machine learning. Para deixar mais claro: o ML trabalha com algoritmos e estatísticas para desenvolver programas que podem usar a sua própria experiência para melhorar processos industriais e profissionais e também o cotidiano das pessoas.
Empresas como Amazon e Facebook usam algoritmos de ML para criar suas recomendações, selecionar e guiar assuntos. O Google usa algoritmos de ML para buscas, análise de e-mails, recomendações de respostas no Allo etc.
E qual é a relação da data sciene, a ciência de dados, com a estatística?
Recorrendo a uma imagem ilustrativa, a ciência de dados seria o sistema solar; e a estatística, um planeta. A ciência de dados utiliza a estatística, mas muito mais do que isso: envolve toda a cadeia do trabalho com dados para gerar informações, conhecimento e, finalmente, valor, por meio de métodos e técnicas que vão da engenharia de dados aos algoritmos mais avançados da inteligência artificial.
A ciência de dados compreende o uso de diversas tecnologias, modelos e metodologias para capturar, armazenar e processar informações, gerando valor a um negócio, de acordo com a definição de Alessandra Montini, professora de métodos quantitativos e informática na FEA – Faculdade de Economia, Administração e Contabilidade da USP e coordenadora do Laboratório de Análise de Dados (Labdata) da FIA – Fundação Instituto de Administração.
Alessandra explica que o mundo está se tornando cada vez mais data driven. Ou seja, orientado por dados. De modo que não é mais possível tomar a decisão correta sem analisar esse volume gigantesco de informações disponíveis. Aí entram as máquinas, que não fazem isso tudo sozinhas. São as pessoas que definem diretrizes, estabelecem critérios e podem manusear as soluções tecnológicas. E, claro, sabem como transformar toda essa informação em conteúdo útil, em ação e em resultado.
Formado em engenharia de computação, mestre em informática e com um MBA em gestão de negócios pela PUC-RJ, Thoran Rodrigues tem 15 anos de experiência no mercado de tecnologia. Já trabalhou em laboratórios de pesquisa e empresas de diversos tipos e portes. Em 2013, fundou a BigDataCorp., uma empresa especializada em projetos de big data e na automação de processos de informação.