Transformar los datos de entrenamiento de forma perezosa
Preprocesar tus variables de entrada es un paso fundamental en Machine Learning y suele mejorar la precisión del modelo que crees. En los últimos ejercicios, ya tenías los datos de Spotify preprocesados, pero es importante que sepas cómo hacerlo tú mismo.
En este ejercicio, usarás el objeto StandardScaler(), que transforma las columnas de un array para que tengan media cero y desviación estándar uno.
El DataFrame de Dask con canciones de Spotify está disponible en tu entorno como dask_df. Contiene tanto los valores objetivo de popularidad como las variables de entrada que usaste para predecir esos valores.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Importa la clase
StandardScaler()dedask_ml.preprocessing. - Selecciona la columna
'popularity'del DataFrame y asígnala a la variabley. - Crea un objeto
StandardScalery ajústalo a los datosX. - Usa el escalador para transformar
X.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)