Numerieke en categorische kolommen scheiden
In de vorige oefening heb je de kenmerken van de gegevensset verkend en ben je klaar voor wat data-preprocessing. Je gaat nu de categorische en numerieke variabelen scheiden in de telco_raw DataFrame met een aangepaste drempel voor het aantal unieke waarden (categorisch vs. numeriek). De module pandas is al voor je geladen als pd.
De ruwe telecom-churngegevens telco_raw zijn voor je geladen als een pandas DataFrame. Je kunt de gegevensset verkennen in de console om ermee vertrouwd te raken.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Sla de kolomnamen
customerIDenChurnop. - Wijs aan
categoricalde kolomnamen toe die minder dan 5 unieke waarden hebben. - Verwijder
targetuit de lijst. - Wijs aan
numericalalle kolomnamen toe die niet incustid,targetencategoricalstaan.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]