Merkmale für die Standardisierung identifizieren
In dieser Übung untersuchst du die Varianz der Spalten im UFO-Datensatz, um zu bestimmen, welche Merkmale standardisiert werden sollten. Nachdem du dir die Varianzen der Spalten seconds und minutes angesehen hast, wirst du feststellen, dass die Varianz der Spalte seconds extrem hoch ist. Da seconds und minutes miteinander zusammenhängen (ein Thema, das wir bei der Merkmalsauswahl fürs Modellieren angehen), lass uns die Spalte seconds logarithmisch normalisieren.
Diese Übung ist Teil des Kurses
<Kurs>Vorverarbeitung für Machine Learning in Python</Kurs>Übungsanweisungen
- Berechne die Varianz in den Spalten
secondsundminutesund sieh dir die Ergebnisse genau an. - Führe eine logarithmische Normalisierung auf der Spalte
secondsdurch und wandle sie in eine neue Spalte namensseconds_logum. - Gib die Varianz der Spalte
seconds_logaus.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)