A importância da Estatística para a Ciência de Dados

A Ciência de Dados é uma disciplina cujas bases residem na informática, na ciência da computação, na matemática, na pesquisa e nas ciências aplicadas. Apesar de esta definição ser bem consolidada, muitas pessoas parecem acreditar que a parte “científica” das Ciências de Dados se destina exclusivamente ao desenvolvimento de algoritmos novos para tratar dados, e que quando estes algoritmos chegam a um ambiente industrial, a habilidade de programação é suficiente para extrair deles todo seu poder prático. Esta visão é equivocada porque, por exemplo, alguns algoritmos dependem da adoção de premissas sobre a estrutura dos dados para que sejam aplicáveis; a regressão linear, por exemplo, parte do pressuposto de que há uma relação linear entre as variáveis pra começo de conversa. A própria Ciência de Dados busca tratar de conjuntos de dados extensos (Big Data), e quando temos muitos dados disponíveis, este tamanho pode deixar qualquer profissional sobrecarregado. Por isso, antes de sair aplicando modelos de machine learning em um conjunto de dados, é preciso conhecer a “matéria-prima” com que se está trabalhando, através de características que nos servem de resumo sobre sua natureza. A área de conhecimento que nos informa sobre estas características é a Estatística.

A Estatística proporciona os meios e as ferramentas para encontrar estrutura em dados, e assim fornecer insights sobre as informações mais profundas ali escondidas. Medidas estatísticas como média, mediana, moda, desvio padrão e distribuição servem para descrever de uma forma generalizada o comportamento das variáveis de trabalho, assim como identificar anomalias. Se os modelos de machine learning são as ferramentas que os cientistas de dados operam, a Estatística é o conhecimento sobre como e porquê essas ferramentas funcionam, que permite escolher as ferramentas mais adequadas, e tirar o melhor proveito delas.

Tem um ditado atribuído a Josh Wills, ex-funcionário do Google e do Cloudera e atualmente presidente de Engenharia de Dados do Slack:

Um cientista de dados é um programador melhor do que qualquer estatístico
e um estatístico melhor do que qualquer programador.

Nas próximas sessões, vamos apresentar como algumas ferramentas estatísticas se relacionam com as tarefas mais comuns realizadas em Ciência de Dados.

Exploração de dados

A boa Ciência de Dados começa com uma boa exploração dos dados. Nesta etapa, o cientista tem a oportunidade de desenvolver uma intuição sobre os dados com que está trabalhando, seja isoladamente, seja em relações simples entre as variáveis. A exploração de dados ganha uma nova dimensão na época de big data, já que, quanto maior o número de amostras (ou instâncias, no caso), mais certeza se tem sobre as características da população inteira. A maior contribuição da estatística aqui é a noção de distribuição. Conseguir atribuir uma distribuição conhecida a um conjunto de dados permite escolher os métodos estatísticos mais adequados para solucionar o problema, além de fornecer os parâmetros distribucionais que constituem conhecimento a priori importante para tomar as decisões analíticas subsequentes.

Análise estatística

Compreende encontrar padrões e tendências em dados. Encontrar estrutura em dados é a tarefa essencial que permite depois fazer predições. Os principais métodos de análise estatística e sua relação com a Ciência de Dados são descritos a seguir.

Teste de hipóteses

Muitas das perguntas que surgem de problemas dirigidos por dados podem ser traduzidas em hipóteses. Por exemplo: Amanhã vai chover? Qual desses produtos vende mais? Qual desses tratamentos médicos é melhor? As hipóteses são o link natural entre a teoria destes fenômenos e a Estatística. Testar uma hipótese pode nos fornecer insights poderosos sobre fenômenos e a inter-relação entre os agentes envolvidos, mas sua validade depende de um domínio estatístico compatível. Apesar de o teste de hipóteses ser bastante usado na indústria para dirigir ações de negócios, sua aplicação indiscriminada, sem rigor científico, pode conduzir a conclusões erradas que se revelarão decisões de mercado frustradas.

Classificação

Uma das tarefas básicas de machine learning, os métodos de classificação servem para encontrar subpopulações de dados, seja em problemas sem conhecimento a priori sobre estas subpopulações (classificação não-supervisionada), seja em problemas onde as subpopulações são conhecidas mas não suas características delineadoras (classificação supervisionada). Nestes casos, o domínio estatístico é importante porque um número grande de instâncias de dados, ou de características que descrevem esses dados, como acontece com big data, pode levar ao consumo elevado de recursos computacionais e a problemas numéricos. O bom cientista de dados deve saber como contornar estes entraves, seja na utilização de algoritmos com menor complexidade computacional, seja no reexame dos métodos tradicionais agora aplicados para big data.

Regressão

Outra tarefa básica de machine learning, os métodos de regressão nos ajudam a encontrar relações entre as características que descrevem cada instância de dado quando a variável alvo é medida. Diferentes abordagens devem ser utilizadas em função da distribuição que se assume para os dados de trabalho. Por exemplo, se os dados forem normalmente distribuídos, a regressão linear pode ser aplicada, mas se seguirem uma distribuição exponencial, regressões generalizadas são mais adequadas. Além da escolha do método, os mesmos empecilhos que surgem nos problemas de classificação em big data podem afligir os casos de regressão. O cientista de dados deve saber como reduzir adequadamente o número de instâncias, ou como selecionar as características mais relevantes que descrevem estas instâncias, sem comprometer o desempenho do modelo.

Análise de série temporal

Esta análise procura estabelecer a estrutura temporal de dados que têm essa natureza. Prever o comportamento de eventos futuros é um grande desafio para o cientista de dados, com importantes implicações práticas. Aqui, conhecimento estatístico pode ser essencial para desenvolver um modelo de machine learning eficiente. Uma variável que tenha comportamento periódico, por exemplo – como é o caso da flutuação de temperatura ao longo do dia -, pode servir para definir a janela de tempo que o modelo deve considerar quando estiver sendo ajustado.

Validação de modelos

Nos casos onde mais de um modelo é aplicável para a resolução de um problema, suas performances devem ser comparadas através de testes estatísticos. Neste caso, não só é necessário saber qual teste aplicar em cada situação, mas também como interpretá-los.

Mesmo um único modelo deve ser validado para levar em conta que, por mais amplo que seja o banco de dados, ele está usando apenas uma amostragem da população total. Aqui é importante o conceito de validação cruzada, cuja fundamentação também deriva do conhecimento estatístico sobre população e amostragem. Os métodos de validação cruzada, por sua vez, são dependes de características estatísticas das variáveis, já que estas influenciam a capacidade de generalização do modelo escolhido.

Visualização

Se imagens valem mais do que mil palavras, o mesmo pode ser dito sobre números e tabelas. Visualizar os dados é fundamental para desenvolver um senso intuitivo sobre sua natureza, que guia nossas decisões sobre como abordá-los matematicamente. Isso é especialmente verdadeiro em big data, onde o volume de dados extrapola nossa capacidade analítica meramente numérica. A visualização é importante tanto na fase exploratória dos dados, quanto na interpretação dos resultados. Histogramas e boxplots são formas rápidas de entender a característica das variáveis de estudo e reconhecer dados anômalos. Problemas multidimensionais podem ser analisados visualmente usando técnicas de redução de dimensionalidade, que ainda são capazes de incorporar as relações entre as variáveis para indicar padrões e tendências. São muitas as técnicas voltadas à visualização, mas sem o devido conhecimento estatístico, o cientista de dados não saberá sua aplicabilidade e como extrair informações a partir destas poderosas ferramentas.


Neste artigo, nós elencamos os principais fatores que fazem da Estatística tão importante quanto a Computação para a Ciência de Dados. Sem um bom conhecimento estatístico, o cientista de dados é como um soldado cego com um arsenal poderoso. O domínio estatístico torna seu trabalho mais direcionado, eficiente e robusto, e permite uma utilização mais ativa dos modelos de machine learning já estabelecidos, uma vez que ele tem o conhecimento necessário para investigar as bases teóricas que fundamentam esses modelos, e propor e testar melhorias.