Centralização e escalonamento para regressão
Agora que você já viu as vantagens de fazer o escalonamento dos dados, deve usar um pipeline para pré-processar as variáveis independentes de music_df e criar um modelo de regressão lasso para prever o volume (loudness) de uma música.
X_train, X_test, y_train e y_test já foram criados a partir do conjunto de dados music_df, em que a variável dependente é "loudness" e as variáveis independentes são todas as outras colunas do conjunto de dados. Lasso e Pipeline também foram importados para você.
Observe que "genre" foi convertido em uma variável independente binária em que 1 indica uma música de rock e 0 representa outros gêneros.
Este exercício faz parte do curso
Aprendizado Supervisionado com o scikit-learn
Instruções do exercício
- Importe
StandardScaler. - Crie as etapas para o objeto de pipeline, um objeto
StandardScalerchamado"scaler"e um modelo lasso chamado"lasso"comalphaigual a0.5. - Instancie um pipeline com etapas para o escalonamento e a criação de um modelo de regressão lasso.
- Calcule o valor de R-quadrado com os dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import StandardScaler
____
# Create pipeline steps
steps = [("____", ____()),
("____", ____(alpha=____))]
# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)
# Calculate and print R-squared
print(____.____(____, ____))