Churnpercentage verkennen en data splitsen
Voortbouwend op het overzicht uit Hoofdstuk 1 ga je in deze les dieper in op de datavoorbereiding die nodig is om Machine Learning te gebruiken voor churnvoorspelling. Je verkent de churnverdeling en splitst de data in training en test voordat je gaat modelleren. In deze stap leer je hoe het churnpercentage is verdeeld en bereid je de data voor zodat je een model kunt bouwen op de trainingsset en de prestaties kunt meten op niet-gebruikte testdata.
De telecomgegevensset is ingeladen als een pandas DataFrame met de naam telcom. De doelvariabele staat in de kolom Churn.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Print de unieke waarden in de kolom
Churn. - Bereken de verhouding (ratio) van elke churn-groep.
- Importeer de functie om data te splitsen in train en test.
- Splits de data in 75% train en 25% test.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the unique Churn values
print(___(telcom['Churn']))
# Calculate the ratio size of each churn group
telcom.___(['Churn']).size() / telcom.shape[0] * 100
# Import the function for splitting data to train and test
from sklearn.model_selection import ___
# Split the data into train and test
train, test = ___(telcom, test_size = .25)