LoslegenKostenlos loslegen

Merkmale für die Standardisierung identifizieren

In dieser Übung untersuchst du die Varianz der Spalten im UFO-Datensatz, um zu bestimmen, welche Merkmale standardisiert werden sollten. Nachdem du dir die Varianzen der Spalten seconds und minutes angesehen hast, wirst du feststellen, dass die Varianz der Spalte seconds extrem hoch ist. Da seconds und minutes miteinander zusammenhängen (ein Thema, das wir bei der Merkmalsauswahl fürs Modellieren angehen), lass uns die Spalte seconds logarithmisch normalisieren.

Diese Übung ist Teil des Kurses

Vorverarbeitung für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Berechne die Varianz in den Spalten seconds und minutes und sieh dir die Ergebnisse genau an.
  • Führe eine logarithmische Normalisierung auf der Spalte seconds durch und wandle sie in eine neue Spalte namens seconds_log um.
  • Gib die Varianz der Spalte seconds_log aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Check the variance of the seconds and minutes columns
print(____)

# Log normalize the seconds column
ufo["seconds_log"] = ____

# Print out the variance of just the seconds_log column
print(____)
Code bearbeiten und ausführen