O que é Data Science e quais as linguagens mais utilizadas

O Data Science (ciência de dados em português), é um dos termos mais popularizados nos últimos anos. Em uma época onde os dados são ativos valiosos para a tomada de decisão, será cada vez mais comum ouvir falar essa palavra. Nesse artigo vou tratar sobre o que é, quais as linguagens e ferramentas disponíveis.


O que é Data Science?

Filatro (2020, p. 14) define ciência de dados como uma disciplina que fornece princípios, metodologias e orientações a partir dos dados. O objetivo é extrair conhecimento de grandes volumes de dados. O grande desafio é compreender comportamentos, por meio da análise deles, possibilitando uma melhor tomada de decisão.

o ciclo do conhecimento para data science

A pirâmide que mostra o caminho até o conhecimento.

Para que boas decisões sejam tomadas, é necessário que os dados sigam um ciclo. Primeiro temos eles em estado bruto, impuros, com muitos ruídos. São extraídos, carregados e transformados (ETL). Depois são analisados, com o objetivo de observar fatos e padrões. No topo da pirâmide, é realizada uma compreensão da informação, com um estado de esclarecimento e domínio. O conhecimento precisa ter consistência, ser confiável, relevante, estar dentro de um contexto e disponível.

Fawcett e Foster (2016), complementam, que data science é um conjunto de princípios fundamentais, que norteiam a extração de conhecimento a partir de dados. Para isso é necessário ter acesso a eles de maneira ampla e sofisticada, principalmente no caso de quantidades massivas, onde podem ser exigidas novas tecnologias e computadores com grande capacidade de processamento.

Sharda (et al, 2019) comenta que uma das características que dominam o cientista de dados, é a curiosidade, o desejo de ir além do problema. Insisto muito nisso em treinamentos, pois a capacidade analítica é um requisito indispensável para obtenção do conhecimento através dos dados.

Dessa forma, algumas linguagens podem colaborar para as atividades do cientista de dados, fornecendo a capacidade de automatizar e construir modelos para o seu trabalho.


Linguagens mais comuns em Data Science

Existem algumas linguagens e ferramentas  que são frequentemente mencionadas quando se trata de Data Science, como: RPythonPower BIMongo DBSQLTableau, entre outros. Basta olhar alguns dos conhecimentos exigidos em vagas para analistas dessa área e perceberá que muitas delas possuem esses termos nas descrições.

Alguns como Python e R são linguagens de programação. Outros como PowerBI e Tableau são softwares que ajudam na visualização de dados. Nesse artigo vou me concentrar nas linguagens, já que elas são como “canivetes suíços”, para o cientista de dados.

A intenção não é criticar ou elogiar, é mostrar os pontos positivos de cada uma delas. Eu mesmo uso as duas. Para determinadas tarefas tenho modelos em Python, em outras situações o R me atende muito bem. Tudo depende do que você precisa e quando.


Python

O Python é uma das linguagens de programação mais utilizadas no mundo em virtude da sua facilidade de uso e de aprendizado (O’GRADY, 2020), sendo assim, pode ser tentador para algumas empresas escolherem essa linguagem.

São frequentemente adotadas em alguns times de desenvolvimento, em virtude da sua anatomia e facilidade de utilização, uma vez que ela possui o conceito do Zen of Python (SILVA, 2020, p. 96) que visa algumas práticas importantes no seu código. Tem foco na legibilidade e redução de custo de manutenção.

Possui algumas bibliotecas como: Matplotlib, IPython, NumPy, SimPy, Pandas, Scikit-learn e Beautiful Soup. Elas fornecem apoio para matemática, ciência, estatística e engenharia.

Quando uso o Python para algumas tarefas, utilizo o Google Colab. Uma excelente ferramenta para trabalhar, principalmente pela facilidade de integração com o Google Drive e outros recursos.

Trabalhando com Python para fazer a classificação de dados com o algoritmo Naive Bayes.

Portanto, muitos profissionais que adotam essa linguagem como padrão para pesquisas de Data Science, o fazem pela facilidade na hora de integrar seus modelos com aplicações já existentes na mesma linguagem.


R

Ela ajuda muito na coleta, normalização e exploração de dados. Igualmente ao Python, possui diversos pacotes que podem ser utilizados pelo analista, facilitando o seu trabalho. Pode ser usada para modelos de previsão de dados, machine learning, análise exploratória, decomposição de dados entre outras aplicações.

Seus comandos são muito simples, com alguns recursos já prontos, para o que o analista precisa. Já no Python, mesmo com suas bibliotecas, pode ser necessário construir algumas coisas. A impressão é que como se trata de uma linguagem já pensada para estatística, possui algumas vantagens, pois exige menos código para essas aplicações, portanto, é mais fácil no trabalho com fórmulas complexas.

Tem algumas interfaces boas, que podem facilitar o trabalho como o RStudio e o Jupyter Notebooks.

gráfico com linha de previsão feito em R

Gráfico com linha de previsão, gerado no RStudio.

Dessa forma, para realizar aplicações estatísticas, previsões e outras análises, eu acabo usando mais o R.


Conclusão

Com a quantidade massiva de dados gerado pelas empresas, muitas vezes não estruturados, ter boas ferramentas e linguagens que ajudem o analista a executar o seu trabalho eficientemente, pode ser valioso para obter informações e conhecimento.

Muitas vezes as decisões não passam só por uma simples análise de toda a história que você contou através dos dados. O que acontece é que em muitos casos elas retratam o que já aconteceu, então, as previsões tornam-se importantes para você poder pensar em cenários. É aí que entram o Python e o R, com os seus poderosos recursos, que apoiam previsões, cenários e acontecimentos.

Independente da linguagem ou ferramenta que o analista vai escolher para trabalhar, é importante sempre ter em mente o que é necessário para solucionar o problema ou hipótese envolvida. Trata-se de uma simples apresentação de dados? Talvez o Google Data Studio pode ajudá-lo. É uma análise de dados de diversas fontes? O PowerBI pode cumprir muito bem essa tarefa. Precisa fazer uma mineração de dados e posteriormente a classificação de informações? MongoDB e Python serão ótimos recursos. Existe a necessidade de realizar previsões financeiras de um determinado mercado, para os próximos dois anos? O R possui bibliotecas que certamente possibilitam essas análises com base em modelos estatísticos.

Se o objetivo principal da ciência de dados é produzir conhecimento a partir de grandes volumes de dados, certamente será necessária a sinergia entre pessoas, processos e tecnologias.


Referências

Bussiness Intelligence e análise de dados para gestão do negócio. Ramesh Sharda, Dursun Delen, Efraim Turban. Quarta Ed. Porto Alegre: Bookman, 2019.

Data Science da Educação. Filatro, Andrea C. Editora Saraiva, 2020.

Data Science para Negócios. Foster Provost, Tom Fawcett. Rio de Janeiro: Alta Books, 2016. 

Python: História e ascendência. SILVA, D. M. Programar: revista portuguesa de programação, ed 59, p. 96-98. Fev, 2018. Disponível em: https://www.revista-programar.info/static/downloads/download.php?t=site&e=59.

The RedMonk Programming Language Rankings: January 2020. O’GRADY, S. Fev, 2020. Disponível em: https://redmonk.com/sogrady/2020/02/28/language-rankings-1-20/.

Mostrar comentáriosFechar comentários

Deixar um comentário

treze − sete =