Trainingsdaten lazy transformieren
Die Vorverarbeitung deiner Eingabevariablen ist ein entscheidender Schritt im Machine Learning und verbessert oft die Genauigkeit des Modells. In den letzten Übungen wurden die Spotify-Daten für dich vorverarbeitet, aber es ist wichtig, dass du weißt, wie du das selbst machst.
In dieser Übung verwendest du das StandardScaler()-Objekt, das die Spalten eines Arrays so transformiert, dass sie einen Mittelwert von null und eine Standardabweichung von eins haben.
Das Dask-DataFrame mit Spotify-Songs steht dir in deiner Umgebung als dask_df zur Verfügung. Es enthält sowohl die Zielvariable mit den Popularitätswerten als auch die Eingabevariablen, die du zur Vorhersage dieser Werte verwendet hast.
Diese Übung ist Teil des Kurses
Parallele Programmierung mit Dask in Python
Anleitung zur Übung
- Importiere die Klasse
StandardScaler()ausdask_ml.preprocessing. - Wähle die Spalte
'popularity'aus dem DataFrame und weise sie der Variableyzu. - Erstelle ein
StandardScaler-Objekt und passe es an dieX-Daten an. - Verwende den Scaler, um
Xzu transformieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)