RFM-gegevens preprocessen
We hebben de gegevensset met RFM-waarden die je eerder hebt berekend geladen als datamart_rfm. Omdat de variabelen scheef verdeeld zijn en op verschillende schalen staan, ga je ze nu recht trekken en normaliseren.
De bibliotheek pandas is geladen als pd, en numpy als np. Neem even de tijd om datamart_rfm in de console te verkennen.
Deze oefening maakt deel uit van de cursus
Klantsegmentatie in Python
Oefeninstructies
- Pas een logtransformatie toe om de scheefheid uit
datamart_rfmte halen en sla dit op alsdatamart_log. - Initialiseer een
StandardScaler()-instantie alsscaleren fit deze op dedatamart_log-gegevens. - Transformeer de
datadoor te schalen en te centreren metscaler. - Maak een pandas DataFrame van 'datamart_normalized' door de index en kolomnamen toe te voegen vanuit
datamart_rfm.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Unskew the data
datamart_log = np.____(____)
# Initialize a standard scaler and fit it
scaler = ____()
scaler.____(____)
# Scale and center the data
datamart_normalized = ____.____(____)
# Create a pandas DataFrame
datamart_normalized = pd.____(data=____, index=____.index, columns=____.columns)