Log-Normalisierung
Standardisierung ist wichtig, damit alle Features vergleichbar sind. Eine gängige Methode dafür ist die Log-Normalisierung. Du prüfst die Varianz ausgewählter Features und berechnest die mediane Varianz über alle Features. Die Features sind die numerischen Spalten, außer der Spalte click, banner_pos, device_type sowie den Spalten search_engine_type, product_type, advertiser_type aus der letzten Lektion, da es sich dabei eigentlich um kategoriale Spalten handelt. Danach wendest du die Log-Normalisierung auf jene Spalten an, deren Varianz über der medianen Varianz liegt, und prüfst die Ergebnisse.
Das pandas-Modul ist in deinem Workspace als pd verfügbar und der Beispiel-DataFrame ist als df geladen.
Diese Übung ist Teil des Kurses
CTR-Vorhersage mit Machine Learning in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Select numeric columns and print variance
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
median = new_df.____.____
print(median)