Transformando dados de treino de forma preguiçosa
Pré-processar suas variáveis de entrada é uma etapa essencial em Machine Learning e geralmente melhora a precisão do modelo que você cria. Nos últimos exercícios, os dados do Spotify foram pré-processados para você, mas é importante que você saiba fazer isso sozinho.
Neste exercício, você vai usar o objeto StandardScaler(), que transforma as colunas de um array para que tenham média zero e desvio padrão igual a um.
O Dask DataFrame com músicas do Spotify está disponível no seu ambiente como dask_df. Ele contém tanto os escores de popularidade (alvo) quanto as variáveis de entrada que você usou para prever esses escores.
Este exercício faz parte do curso
Programação Paralela com Dask em Python
Instruções do exercício
- Importe a classe
StandardScaler()dedask_ml.preprocessing. - Selecione a coluna
'popularity'do DataFrame e atribua à variávely. - Crie um objeto
StandardScalere ajuste-o aos dadosX. - Use o scaler para transformar
X.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)