Neue Features erstellen
Feature Engineering umfasst auch das tatsächliche Erstellen neuer Features. Das ist wichtig, weil sich das Modell für eine genaue Vorhersage auf solche Features stützt. In dieser Übung prüfst du die Eigenschaften von drei Spalten, die als ganze Zahlen im Datensatz erscheinen, aber kategoriale Werte repräsentieren: search_engine_type, product_type und advertiser_type. Du erstellst Zähl-Features für diese 3 Spalten sowie für device_id und site_id. Diese Zähl-Features geben die Anzahl der Klicks pro Ausprägung dieser Spalten an und werden später für Vorhersagen verwendet.
Das pandas-Modul ist als pd in deinem Workspace verfügbar und der Beispiel-DataFrame ist als df geladen.
Diese Übung ist Teil des Kurses
CTR-Vorhersage mit Machine Learning in Python
Anleitung zur Übung
- Gib die Gesamtanzahl der Werte und die Anzahl der eindeutigen Werte für jedes Feature in der Liste
feature_listaus. - Erstelle neue Features aus den Features in
new_feature_list, indem du mit.transform()die Anzahl der Klicks pro Feature zählst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Get counts of total and unique values for given features
feature_list = ["search_engine_type", "product_type", "advertiser_type"]
for feature in feature_list:
print(df[feature].____)
print(df[feature].____)
# Define new features as counts
new_feature_list = ['device_id', 'site_id'] + feature_list
for new_feature in new_feature_list:
df[new_feature + '_count'] = df.____(
new_feature)['click'].____("count")
print(df.head(5))