LoslegenKostenlos loslegen

Log-Normalisierung

Standardisierung ist wichtig, damit alle Features vergleichbar sind. Eine gängige Methode dafür ist die Log-Normalisierung. Du prüfst die Varianz ausgewählter Features und berechnest die mediane Varianz über alle Features. Die Features sind die numerischen Spalten, außer der Spalte click, banner_pos, device_type sowie den Spalten search_engine_type, product_type, advertiser_type aus der letzten Lektion, da es sich dabei eigentlich um kategoriale Spalten handelt. Danach wendest du die Log-Normalisierung auf jene Spalten an, deren Varianz über der medianen Varianz liegt, und prüfst die Ergebnisse.

Das pandas-Modul ist in deinem Workspace als pd verfügbar und der Beispiel-DataFrame ist als df geladen.

Diese Übung ist Teil des Kurses

CTR-Vorhersage mit Machine Learning in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Select numeric columns and print variance
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
               'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
median = new_df.____.____
print(median)
Code bearbeiten und ausführen