Aan de slagGa gratis aan de slag

Log-normalisatie

Standaardiseren is belangrijk om ervoor te zorgen dat alle features vergelijkbaar zijn. Log-normalisatie is een veelgebruikte methode van standaardisatie. Je gaat de variantie van geselecteerde features controleren en de algehele mediaanvariantie tussen features berekenen. De features zijn de numerieke kolommen, behalve de kolom click, banner_pos, device_type, en de kolommen search_engine_type, product_type, advertiser_type uit de vorige les, omdat dit eigenlijk categorische kolommen zijn. Daarna pas je log-normalisatie toe op de kolommen met een variantie hoger dan de mediaanvariantie en controleer je de resultaten.

De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Select numeric columns and print variance
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
               'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
median = new_df.____.____
print(median)
Code bewerken en uitvoeren