Standaardschaling

Standaardschaling zet numerieke features om zodat ze een gemiddelde van 0 en een variantie van 1 hebben. In deze oefening voer je standaardschaling uit met StandardScaler() uit sklearn. Eerst selecteer je alleen de relevante kolommen waarop je de schaling toepast, door numerieke kolommen te filteren gecombineerd met wat kennis van de kolommen. Deze filtering is al voorzien en gebeurt met reguliere expressies, waarmee je gedeeltelijke string-matches kunt maken. Daarna gebruik je fit_transform() om de relevante kolommen te transformeren.

De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df. Daarnaast is de kolom hour al omgezet naar een datetime, en StandardScaler uit sklearn.preprocessing is beschikbaar.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Oefeninstructies

Selecteer de numerieke kolommen en filter de gegeven filter_cols met .select_dtypes().
Pas standaardschaling toe op de relevante kolommen door eerst een StandardScaler() te maken en vervolgens .fit_transform() te gebruiken.
Print de variantie van de nieuw getransformeerde kolommen met .var().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Get non-categorical columns, with a filter
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
               'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
num_cols = new_df.____

# Transform columns using StandardScaler
scaler = ____()
df[num_cols] = scaler.____(df[____])

# Print mean and variance of transformed columns
print(df[num_cols].mean())
print(df[num_cols].____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

De kans is groot dat je op deze pagina bent omdat je op een link hebt geklikt. In dit hoofdstuk leer je waarom click-through rates (CTR) essentieel zijn voor gerichte advertenties, hoe je basisbewerkingen op DataFrames uitvoert en hoe je machine learning-modellen kunt gebruiken om CTR te voorspellen.

Exercise 1: Introductie tot click-through rates Exercise 2: Eerste stappen Exercise 3: Verkenning van features Exercise 4: Eerste evaluatie van de data Exercise 5: Overzicht van machine learning-modellen Exercise 6: Logistische regressie voor borstkanker Exercise 7: Logistische regressie voor afbeeldingen Exercise 8: Een tweede speelgoedmodel Exercise 9: CTR-voorspelling met beslissingsbomen Exercise 10: Modelimplementatie Exercise 11: Een eerste CTR-model Exercise 12: Verder kijken dan alleen accuracy

Dit hoofdstuk legt de basis voor exploratieve data-analyse (EDA). Met voorbeelddata gebruik je de pandas-bibliotheek om naar kolommen en datatypen te kijken, missende waarden te verkennen en hashing te gebruiken om feature engineering uit te voeren op categorische features. Dit alles is belangrijk bij het verkennen van features voor nauwkeurigere CTR-voorspelling.

Exercise 1: Exploratieve data-analyse Exercise 2: Een eerste blik Exercise 3: Controleren op ontbrekende waarden Exercise 4: Verdelingen per CTR Exercise 5: Feature engineering Exercise 6: Datum-tijdkolommen analyseren Exercise 7: Categorische variabelen omzetten Exercise 8: Nieuwe features maken Exercise 9: Features standaardiseren Exercise 10: Log-normalisatie Exercise 11: Standaardisatie begrijpen Exercise 12: Standaardschaling

Huidige oefening

Tijd om de diepte in te gaan. Ontdek hoe je maatstaven voor modelprestaties, zoals precision en recall, kunt gebruiken om praktijkvragen te beantwoorden, zoals het evalueren van de ROI op advertentie-uitgaven. Je leert ook manieren om die evaluatiemetrics te verbeteren, zoals ensemblemethoden en hyperparametertuning.

Exercise 1: Toepassingen van metriekevaluatie Exercise 2: Vier categorieën uitkomsten Exercise 3: Vier categorieën evalueren Exercise 4: ROI op advertentiebesteding Exercise 5: Modelevaluatie Exercise 6: Precisie en recall Exercise 7: Baseline Exercise 8: Classificatiemodellen vergelijken Exercise 9: Modellen afstemmen Exercise 10: Regularisatie Exercise 11: Cross-validation Exercise 12: Modelselectie Exercise 13: Ensembles en hyperparametertuning Exercise 14: Begrijpen van hyperparameter tuning Exercise 15: Random forests Exercise 16: Grid search

Je campagne-CTR kan de winst sterk beïnvloeden. In dit hoofdstuk leer je hoe deep learning dat risico kan verkleinen. Je richt je op multi-layer perceptron (MLP) en neurale netwerkmodellen, en leert hoe je hiermee de complexe relatie tussen variabelen vastlegt om CTR nauwkeuriger te voorspellen. Tot slot verken je hoe je de basis van hyperparametertuning en regularisatie toepast op classificatiemodellen.

Exercise 1: Introductie tot deep learning Exercise 2: MLP's begrijpen Exercise 3: Startmodel Exercise 4: MLP's voor CTR Exercise 5: Hyperparametertuning in deep learning Exercise 6: Hyperparametertuning in MLP's Exercise 7: Variëren van hyperparameters Exercise 8: MLP Grid Search Exercise 9: Modelbeoordeling Exercise 10: F-beta-score Exercise 11: Lage precision en hoge AUC Exercise 12: Precision, ROI en AUC Exercise 13: Modelbeoordeling en -vergelijking Exercise 14: Voorbereiding modelvergelijking Exercise 15: Precisie en ROI evalueren Exercise 16: Totale score Exercise 17: Afsluitende video