Créer des variables
Vous avez désormais tout ce qu’il faut pour construire les variables de récence, de fréquence, de valeur monétaire et d’autres caractéristiques au niveau client pour votre modèle de régression. Le feature engineering est l’étape la plus importante du processus de Machine Learning. Dans cet exercice, vous allez créer cinq variables au niveau client que vous utiliserez ensuite pour prédire les transactions du mois prochain. Ces variables capturent des schémas de comportement client très prédictifs.
Les bibliothèques pandas et numpy ont été chargées en tant que pd et np respectivement. Le jeu de données online_X a été importé pour vous. L’objet datetime NOW, représentant la date de référence que vous utiliserez pour calculer la récence, a été créé pour vous.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Calculez la récence en soustrayant la date actuelle de la dernière
InvoiceDate. - Calculez la fréquence en comptant le nombre unique de factures.
- Calculez la valeur monétaire en additionnant toutes les dépenses.
- Calculez la quantité moyenne et la quantité totale.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define the snapshot date
NOW = dt.datetime(2011,11,1)
# Calculate recency by subtracting current date from the latest InvoiceDate
features = online_X.___('CustomerID').agg({
'InvoiceDate': lambda x: (NOW - x.max()).days,
# Calculate frequency by counting unique number of invoices
'InvoiceNo': pd.Series.___,
# Calculate monetary value by summing all spend values
'TotalSum': np.___,
# Calculate average and total quantity
'Quantity': ['___', 'sum']}).reset_index()
# Rename the columns
features.columns = ['CustomerID', 'recency', 'frequency', 'monetary', 'quantity_avg', 'quantity_total']