RFM-gegevens preprocessen

We hebben de gegevensset met RFM-waarden die je eerder hebt berekend geladen als datamart_rfm. Omdat de variabelen scheef verdeeld zijn en op verschillende schalen staan, ga je ze nu recht trekken en normaliseren.

De bibliotheek pandas is geladen als pd, en numpy als np. Neem even de tijd om datamart_rfm in de console te verkennen.

Deze oefening maakt deel uit van de cursus

Klantsegmentatie in Python

Bekijk cursus

Oefeninstructies

Pas een logtransformatie toe om de scheefheid uit datamart_rfm te halen en sla dit op als datamart_log.
Initialiseer een StandardScaler()-instantie als scaler en fit deze op de datamart_log-gegevens.
Transformeer de data door te schalen en te centreren met scaler.
Maak een pandas DataFrame van 'datamart_normalized' door de index en kolomnamen toe te voegen vanuit datamart_rfm.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Unskew the data
datamart_log = np.____(____)

# Initialize a standard scaler and fit it
scaler = ____()
scaler.____(____)

# Scale and center the data
datamart_normalized = ____.____(____)

# Create a pandas DataFrame
datamart_normalized = pd.____(data=____, index=____.index, columns=____.columns)

Code bewerken en uitvoeren