Aan de slagGa gratis aan de slag

Numerieke en categorische kolommen scheiden

In de vorige oefening heb je de kenmerken van de gegevensset verkend en ben je klaar voor wat data-preprocessing. Je gaat nu de categorische en numerieke variabelen scheiden in de telco_raw DataFrame met een aangepaste drempel voor het aantal unieke waarden (categorisch vs. numeriek). De module pandas is al voor je geladen als pd.

De ruwe telecom-churngegevens telco_raw zijn voor je geladen als een pandas DataFrame. Je kunt de gegevensset verkennen in de console om ermee vertrouwd te raken.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Cursus bekijken

Oefeninstructies

  • Sla de kolomnamen customerID en Churn op.
  • Wijs aan categorical de kolomnamen toe die minder dan 5 unieke waarden hebben.
  • Verwijder target uit de lijst.
  • Wijs aan numerical alle kolomnamen toe die niet in custid, target en categorical staan.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Store customerID and Churn column names
custid = ['___']
target = ['___']

# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()

# Remove target from the list of categorical variables
categorical.remove(___[0])

# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]
Code bewerken en uitvoeren