Mineração de Dados com o RapidMiner

O RapidMiner é uma ferramenta comercial para análise de dados que utiliza aprendizagem de máquina, podendo ser considerada uma alternativa para a ferramenta Weka, que é uma das mais utilizadas no mundo. Ele é desenvolvido pela empresa de mesmo nome, que tem como principal missão acelerar o processo de criação de análises preditivas e torná-las fáceis para serem aplicadas em cenários práticos de negócios. Em outras palavras, o RapidMiner é uma plataforma única que possibilita transformar dados em ativos estratégicos.

A plataforma é composta por três produtos principais: RapidMiner Studio, RapidMiner Server e RapidMiner Radoop. Segundo a empresa, a interação entre esses três módulos acelera a construção de um workflow completo, desde a preparação dos dados até a implantação. Agora vou abordar um pouco sobre cada uma dessas ferramentas.

O RapidMiner Studio é um ambiente visual de programação para construir rapidamente modelos para fazer previsões. A vantagem desta ferramenta sobre outras é que ela possui recursos para construir workflows de forma visual, o que garante maior rapidez para a construção de projetos de análise de dados. Outros recursos interessantes são: conexão direta à bases de dados, exploradores de dados com gráficos e ferramentas específicas para realizar a limpeza nos dados. Esse último item é particularmente útil, pois em bases de dados transacionais os dados em geral podem apresentar inconsistências que podem afetar o desempenho dos algoritmos de aprendizagem de máquina. Portanto, a ferramenta apresenta recursos para realizar o pré-processamento e preparação dos dados para serem feitas análises. Para ter uma melhor visão do ambiente visual e um exemplo do que pode ser feito, assista o vídeo introdutório abaixo que mostra uma visão geral sobre todo o processo da ferramenta (em inglês).

Neste exemplo, o objetivo é mostrar em poucos segundos se existe algo em comum com os 349 passageiros do Titanic que sobreviveram ao acidente. Para isso, no vídeo é mostrada uma base de dados com mais de 900 registros que correspondem aos passageiros, bem como vários dados sobre cada um deles, como por exemplo: idade, gênero, tamanho da família, preço pago pela passagem e a classe da cabine que o passageiro estava viajando. Como trata-se de um problema de classificação, além desses atributos é também necessária a informação se cada um deles sobreviveu ou não, sendo considerado o atributo meta ou objetivo. Você pôde observar no vídeo que com apenas alguns cliques é construída uma árvore de decisão, chegando-se a conclusão de que existem fatores em comum entre os sobreviventes! Neste cenário, se a pessoa fosse do sexo feminino, tivesse uma família pequena e tivesse pago um alto valor de passagem teria muito mais chances de ser resgatada!

Além da classificação, é possível aplicar também as seguintes técnicas de aprendizagem de máquina: regressão, agrupamento e associação. E para saber um pouco mais sobre cada uma delas, você pode acessar o seguinte link https://iaexpert.academy/ebook-aprendizagem-maquina-site/ e baixar um e-book gratuito no qual eu descrevo cada uma delas!

A segunda ferramenta é o RapidMiner Server, que é utilizado para compartilhar, reusar e operacionalizar modelos e resultados que foram construídos no RapidMiner Studio. Possui recursos como agendamentos, triggers, controle de versão, execução em servidor, acesso remoto à processos e integração com ferramentas de Business Intelligence. Como você pôde perceber, essa opção de produto é mais avançado e geralmente utilizado por empresas maiores que possuem um grande volume de dados.

Por fim, o RapidMiner Radoop é voltado para análises de Big Data, e novamente, o diferencial da ferramenta é possibilitar uma forma visual fácil para a construção dos projetos, permitindo também a integração com scripts feitos em SparkR, PySpark, Pig e HiveQ. Por fim, existem várias extensões ou plugins para complementar a ferramenta, como funções para mineração de dados da web, mineração de textos, integração com o Weka e também com as linguagens Python e R.

Algumas empresas que você provavelmente conhece que fazem uso desta ferramenta incluem: BMW, SalesForce, Domino’s Pizza, GE e Cisco. O RapidMiner possui uma versão gratuita que pode ser utilizada com bases de dados de até dez mil registros, enquanto que as versões pagas do Studio podem chegar até U$ 10.000 e da versão Server até U$ 60.000 anuais! Como você pôde perceber, essa ferramenta é mais indicada para empresas de porte maior e que possuem muitos dados e uma grande demanda por análise, para que assim o investimento possa compensar.