Data Science e aprendizado supervisionado: como realizar análises preditivas para o seu negócio.

A utilização de dados, para a tomada de decisões, não é uma novidade no mundo dos negócios. Usamos esse recurso para avaliar o desempenho e projetar estratégias, de modo que produtos e serviços tenham sucesso. O que mudou recentemente foi o fato de acelerarmos a forma e a velocidade como as análises preditivas são feitas. 

O que são análises preditivas

Trata-se de uma série de técnicas, com base em cálculos estatísticos, como de regressão linear, entre outros modelos, que existem antes da utilização das tecnologias que temos à disposição hoje. A junção dessas fórmulas, com linguagens de programação, bibliotecas de inteligência de dados e teorias computacionais importantes, levou-nos  a outro patamar, pois é possível a utilização do aprendizado de máquina e mineração de dados, para analisar, de modo mais eficiente, dados históricos e realizar previsões de eventos futuros.

Hoje, você pode captar os dados de acessos do seu site e jogá-los em um dashboard no Google Data Studio, por exemplo. Ao realizar a análise desses números, certamente você encontrará padrões, tendências, sazonalidades e muito mais. Aliás, essa ferramenta é ótima para isso. Mas como eu faço para ir além?

Na verdade, quando olhamos para os números do passado, é como se olhássemos para o retrovisor. É lógico que esses números podem nos dizer sobre os padrões do nosso negócio – e as análises preditivas partem disso – e sobre as decisões que precisamos tomar. Contudo, uma previsão matemática, com base em nossa realidade, também é importante. 

Python e R para ciência de dados

Hoje é comum, na comunidade de Data Science, os profissionais falarem muito sobre duas grandes ferramentas para a realização de previsões: o Python e o R. Duas linguagens de programação poderosas, com recursos excelentes para a construção de modelos e obtenção de tendências. 

Eu, particularmente, uso muito o Python, por dois motivos: eu já conhecia e estudava a linguagem; e também sempre achei que seria mais fácil integrar as aplicações de dados com outras aplicações, uma vez que cresce, cada vez mais, o número de pessoas que programam em Python no Brasil. Não há demérito nenhum para o R, só uma questão de gosto e opinião inclusive, eu frequentemente uso o R para alguns comparativos.

Com frequência, eu uso algumas bibliotecas que fornecem apoio para matemática, ciência, estatística e engenharia, como: Matplotlib, IPython, NumPy, SimPy, Pandas, Scikit-learn e Beautiful Soup. O Matplotlib, por exemplo, é uma excelente biblioteca, com diversos recursos e funções prontas, que ajuda na criação de variados tipos de gráficos. Assim, depois de cálculos e comparativos, é muito simples visualizar os dados em histogramas, gráficos de dispersão, entre outros.

Previsões para visitas em sites

Em modelos temporais, – dias, meses e anos – um recurso que eu utilizo muito são os modelos treinados com ARIMA – biblioteca pmdarima. Nesse caso, o modelo é ajustado aos dados da série temporal para entender seus dados e prever pontos futuros em sua série. Por meio desse modelo, é possível prever pontos em uma série temporal e fazer ajustes em sua estratégia. A imagem a seguir mostra um modelo treinado, com base nesse recurso.

Com ele, é possível prever o número de sessões futuras, com base na série histórica.

A grande sacada aqui não é a previsão, mas sim a revisão. Treinar uma máquina por intermédio de modelos e suas previsões. Pense que você precisa construir um sistema de feedback para avaliar a eficiência das previsões, de modo que a inteligência possa melhorar o modelo. 

O sistema deve ser baseado em três princípios: captação de dados, análise preditiva, e aprendizado supervisionado; um trabalho de classificação dos dados, em que serão analisados e categorizados, para que exista o aprendizado.

Todo negócio tem suas particularidades. É importante considerar suas ocorrências – sazonais, aleatórias, etc – em seus estudos. Um modelo que avalie só a série temporal, com seus padrões, mas sem recorrer a outros dados, pode incorrer em grandes erros. O que eu quero dizer aqui? Que ao analisar uma variável, entender a correlação de outras e quais os eventos que podem influenciar as mudanças, é necessário realizar um treinamento do sistema para considerar eventualidades e características do recorte que está sendo analisado.

Ao partir para uma lógica, em que você capta os dados, analisa e prevê, as chances, de algumas decisões se transformarem em sucesso no futuro, aumentam, pois ao olhar para os números, você não toma mais decisões baseadas em intuições, mas sim em fatos e em modelos consolidados de análises.

Show CommentsClose Comments

Leave a comment

dez + 19 =