Merkmale für die Standardisierung identifizieren
In dieser Übung untersuchst du die Varianz der Spalten im UFO-Datensatz, um zu bestimmen, welche Merkmale standardisiert werden sollten. Nachdem du dir die Varianzen der Spalten seconds und minutes angesehen hast, wirst du feststellen, dass die Varianz der Spalte seconds extrem hoch ist. Da seconds und minutes miteinander zusammenhängen (ein Thema, das wir bei der Merkmalsauswahl fürs Modellieren angehen), lass uns die Spalte seconds logarithmisch normalisieren.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Berechne die Varianz in den Spalten
secondsundminutesund sieh dir die Ergebnisse genau an. - Führe eine logarithmische Normalisierung auf der Spalte
secondsdurch und wandle sie in eine neue Spalte namensseconds_logum. - Gib die Varianz der Spalte
seconds_logaus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)