Churnpercentage verkennen en data splitsen

Voortbouwend op het overzicht uit Hoofdstuk 1 ga je in deze les dieper in op de datavoorbereiding die nodig is om Machine Learning te gebruiken voor churnvoorspelling. Je verkent de churnverdeling en splitst de data in training en test voordat je gaat modelleren. In deze stap leer je hoe het churnpercentage is verdeeld en bereid je de data voor zodat je een model kunt bouwen op de trainingsset en de prestaties kunt meten op niet-gebruikte testdata.

De telecomgegevensset is ingeladen als een pandas DataFrame met de naam telcom. De doelvariabele staat in de kolom Churn.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Bekijk cursus

Oefeninstructies

Print de unieke waarden in de kolom Churn.
Bereken de verhouding (ratio) van elke churn-groep.
Importeer de functie om data te splitsen in train en test.
Splits de data in 75% train en 25% test.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print the unique Churn values
print(___(telcom['Churn']))

# Calculate the ratio size of each churn group
telcom.___(['Churn']).size() / telcom.shape[0] * 100

# Import the function for splitting data to train and test
from sklearn.model_selection import ___

# Split the data into train and test
train, test = ___(telcom, test_size = .25)

Code bewerken en uitvoeren