Normalizzazione logaritmica
La standardizzazione è importante per rendere tutte le feature confrontabili. La normalizzazione logaritmica è un metodo comune di standardizzazione. Controllerai la varianza di alcune feature e calcolerai la varianza mediana complessiva tra le feature. Le feature saranno quelle numeriche, escluse le colonne click, banner_pos, device_type e le colonne search_engine_type, product_type, advertiser_type dalla lezione precedente, perché in realtà sono colonne categoriche. Poi applicherai la normalizzazione logaritmica alle colonne con varianza superiore alla varianza mediana e verificherai i risultati.
Il modulo pandas è disponibile come pd nel tuo workspace e il DataFrame di esempio è caricato come df.
Questo esercizio fa parte del corso
Prevedere il CTR con il Machine Learning in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Select numeric columns and print variance
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
median = new_df.____.____
print(median)