Samenvattende statistieken voor beide klassen
Bekijk de volgende .groupby()-code:
# Groepeer op x en bereken de standaarddeviatie
df.groupby(['x']).std()
Hier wordt een DataFrame df gegroepeerd op de kolom 'x', en vervolgens wordt de standaarddeviatie berekend over alle kolommen van df voor elke waarde van 'x'. De .groupby()-methode is enorm handig als je specifieke kolommen van je gegevensset wilt onderzoeken. Je gaat hier de kolom 'Churn' verder verkennen om te zien of er verschillen zijn tussen churners en niet-churners. Een subset van het telco-DataFrame, bestaande uit de kolommen 'Churn', 'CustServ_Calls' en 'Vmail_Message', is beschikbaar in je werkruimte.
Heb je een opfrisser nodig over hoe .groupby() werkt? Kijk dan terug naar de vereiste cursus Manipulating DataFrames with pandas.
Deze oefening maakt deel uit van de cursus
Marketinganalyse: klantverloop voorspellen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Group telco by 'Churn' and compute the mean
print(telco.____(['____']).____())