Trainingsdaten lazy transformieren
Die Vorverarbeitung deiner Eingabevariablen ist ein entscheidender Schritt im Machine Learning und verbessert oft die Genauigkeit des Modells. In den letzten Übungen wurden die Spotify-Daten für dich vorverarbeitet, aber es ist wichtig, dass du weißt, wie du das selbst machst.
In dieser Übung verwendest du das StandardScaler()-Objekt, das die Spalten eines Arrays so transformiert, dass sie einen Mittelwert von null und eine Standardabweichung von eins haben.
Das Dask-DataFrame mit Spotify-Songs steht dir in deiner Umgebung als dask_df zur Verfügung. Es enthält sowohl die Zielvariable mit den Popularitätswerten als auch die Eingabevariablen, die du zur Vorhersage dieser Werte verwendet hast.
Diese Übung ist Teil des Kurses
<Kurs>Parallele Programmierung mit Dask in Python</Kurs>Übungsanweisungen
- Importiere die Klasse
StandardScaler()ausdask_ml.preprocessing. - Wähle die Spalte
'popularity'aus dem DataFrame und weise sie der Variableyzu. - Erstelle ein
StandardScaler-Objekt und passe es an dieX-Daten an. - Verwende den Scaler, um
Xzu transformieren.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)