Transformando dados de treino de forma preguiçosa

Pré-processar suas variáveis de entrada é uma etapa essencial em Machine Learning e geralmente melhora a precisão do modelo que você cria. Nos últimos exercícios, os dados do Spotify foram pré-processados para você, mas é importante que você saiba fazer isso sozinho.

Neste exercício, você vai usar o objeto StandardScaler(), que transforma as colunas de um array para que tenham média zero e desvio padrão igual a um.

O Dask DataFrame com músicas do Spotify está disponível no seu ambiente como dask_df. Ele contém tanto os escores de popularidade (alvo) quanto as variáveis de entrada que você usou para prever esses escores.

Este exercicio faz parte do curso

Programação Paralela com Dask em Python

Ver curso

Instruções do exercicio

Importe a classe StandardScaler() de dask_ml.preprocessing.
Selecione a coluna 'popularity' do DataFrame e atribua à variável y.
Crie um objeto StandardScaler e ajuste-o aos dados X.
Use o scaler para transformar X.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the StandardScaler class
from ____ import ____

X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]

# Select the target variable
y = ____

# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)

# Transform X
X = scaler.____
print(X)

Editar e Executar Código