Trainingsdaten lazy transformieren

Die Vorverarbeitung deiner Eingabevariablen ist ein entscheidender Schritt im Machine Learning und verbessert oft die Genauigkeit des Modells. In den letzten Übungen wurden die Spotify-Daten für dich vorverarbeitet, aber es ist wichtig, dass du weißt, wie du das selbst machst.

In dieser Übung verwendest du das StandardScaler()-Objekt, das die Spalten eines Arrays so transformiert, dass sie einen Mittelwert von null und eine Standardabweichung von eins haben.

Das Dask-DataFrame mit Spotify-Songs steht dir in deiner Umgebung als dask_df zur Verfügung. Es enthält sowohl die Zielvariable mit den Popularitätswerten als auch die Eingabevariablen, die du zur Vorhersage dieser Werte verwendet hast.

Diese Übung ist Teil des Kurses

<Kurs>Parallele Programmierung mit Dask in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Klasse StandardScaler() aus dask_ml.preprocessing.
Wähle die Spalte 'popularity' aus dem DataFrame und weise sie der Variable y zu.
Erstelle ein StandardScaler-Objekt und passe es an die X-Daten an.
Verwende den Scaler, um X zu transformieren.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the StandardScaler class
from ____ import ____

X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]

# Select the target variable
y = ____

# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)

# Transform X
X = scaler.____
print(X)

Code bearbeiten und ausführen