Een eerste blik
Met de volledige Avazu-gegevensset ga je nieuwe features verkennen door naar de datatypes van kolommen te kijken. De nieuwe data bevat categorische kolommen zoals site_id, app_id, device_id, enzovoort. Dit zijn allemaal verschillende identifiers voor respectievelijk een site, app en gebruiker. Om te beginnen identificeer en print je de numerieke en categorische kolommen.
Voorbeelddata in DataFrame-vorm is geladen als df. pandas als pd is ook beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Print de kolommen van
dfmet.columns. - Print de bijbehorende datatypes van
dfmet.dtypes. - Selecteer de subset van
dfmet numerieke kolommen (doorinclude = ['int', 'float']te gebruiken) en print die kolommen. - Selecteer de subset van
dfmet categorische kolommen (doorinclude = ['object']te gebruiken) en print die kolommen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print columns
print(df.____)
# Print data types of columns
print(df.____)
# Select and print numeric columns
numeric_df = df.____(include=['____', 'float'])
print(numeric_df.____)
# Select and print categorical columns
categorical_df = df.____(include=['____'])
print(categorical_df.____)