Python para ciência de dados em 5 passos
Vamos dar uma olhada rápida nos conhecimentos básicos do uso do Python voltado para Big Data e Ciência de Dados, e as bibliotecas mais utilizadas.
Passo 1: O básico
Não precisa conhecer o Python como se fosse seu melhor amigo por exemplo, mas para entrar nesse mundo é preciso certos conhecimentos básicos:
- Listas em Python
- Compreensões
- Tuplas
- Dicionários e compreensão de dicionários
- Loops em Python
Passo 2: Seu computador está preparado?
Eu sempre sugiro o Anaconda para quem está iniciando os estudos nesse ramo, ele tem tudo o que precisamos para começar a estudar e é uma distribuição open source para as linguagens de programação Python e R. Nele você pode encontrar aplicações como Jupyter notebook, Spyder, Orange (para a execução de mineração de dados) e até o RStudio. Mas se você quiser utilizar outra ferramentas como o VSCode, fique a vontade, ele é cheio de extensões que também são extremamente úteis, mas tão úteis que você também pode versionar o próprio código dentro da ferramenta>
Passo 3: REGEX
Expressões regulares são extremamente úteis na hora de limpar os dados, é onde começa o processo de encontrar e corrigir aqueles dados corrompidos ou imprecisos de um conjunto de tabelas, registros ou banco de dados. Podemos identificar partes incompletas, partes erradas, imprecisas ou irrelevantes dos dados e logo em seguida fazer as substituições, modificações e excluir dados “sujos”.
Passo 4: Bibliotecas
Existem várias bibliotecas que podem ser utilizadas na ciência de dados, as bibliotecas nada mais são que um conjunto de funções e objetos pré existentes que você pode importar para o seus código, isso nos ajuda muito a economizar tempo e um pouco de esforço.
- NumPy: Facilitadora do cálculo numérico, criadora de arrays, mãe de outras bibliotecas (Obs: não esqueças de aprender matrizes com NumPy).
- Pandas: É uma filha do NumPy, é uma mão na roda quando o assunto é estrutura de dados e análise exploratória. Dona de um recurso indispensável chamado Data Frame, que gera uma estrutura de dados bidimensional com colunas de tipos diferentes, e é a biblioteca mais utilizada na área.
- SciPy: Fornecedora das ferramentas necessárias para a computação científica e técnica, dona dos módulos para otimização, álgebra linear, integração, polarização, funções especiais, processamento de sinal e imagem, solucionadora de ODE e mais uma miscelânea de tarefas.
- Matplotlib: Que graças a uma bênção de um Deus maior não é MatLab. É uma biblioteca muito poderosa e flexível de plotagem e visualização. É um pouquinho complicada, se tiver muitas dificuldades com ela, pule para Seaborn.
- Scikit-learn: é a biblioteca do tão aclamado machine learning, ela tem algoritmos e módulos para pré processamento, validação cruzada. Seus algoritmos são capazes de lidar com regressão, árvore de decisão, modelagem de conjunto de algoritmos de aprendizado não supervisionado como clustering.
- Seaborn: Filha do Matplotlib, facilitadora da visualização de dados comuns, mais agradável e de alto nível.
Passo 5: Envolva-se
Como qualquer coisa que você queira aprender, você deve se envolver com ela, você deve construir algo nela, não crie problemas difíceis, comece com problemas disponíveis na internet e desenvolva as suas habilidades e com o tempo crie teus próprios desafios, defina-os, modele-os e solucione-os.
Bônus: Matemática
Talvez não seja um bônus tão “delicioso” assim. Lidar com ciência de dados, de um modo geral (até a inteligência artificial) requer um pouco de conhecimentos matemáticos, aprenda um pouco de matemática conforme os itens abaixo.
- Cálculo
- Álgebra linear
- Estatística descritiva
- Estatística inferencial
Trouxe aqui para vocês um roteiro para quem quiser iniciar na área de ciência de dados, não tenha pressa nenhuma, existe chances de ficar preso no caminho, e toda vez que você ficar preso irá encontrar um caminho por conta própria. Frequente as comunidades, a comunidade do Python no Brasil é uma das mais fortes que já vi! E não esqueça: pense pequeno, comece pequeno e cresça rápido.