Créer des variables

Vous avez désormais tout ce qu’il faut pour construire les variables de récence, de fréquence, de valeur monétaire et d’autres caractéristiques au niveau client pour votre modèle de régression. Le feature engineering est l’étape la plus importante du processus de Machine Learning. Dans cet exercice, vous allez créer cinq variables au niveau client que vous utiliserez ensuite pour prédire les transactions du mois prochain. Ces variables capturent des schémas de comportement client très prédictifs.

Les bibliothèques pandas et numpy ont été chargées en tant que pd et np respectivement. Le jeu de données online_X a été importé pour vous. L’objet datetime NOW, représentant la date de référence que vous utiliserez pour calculer la récence, a été créé pour vous.

Cet exercice fait partie du cours

<cours>Machine Learning pour le marketing en Python</cours>

Voir le cours

Instructions de l’exercice

Calculez la récence en soustrayant la date actuelle de la dernière InvoiceDate.
Calculez la fréquence en comptant le nombre unique de factures.
Calculez la valeur monétaire en additionnant toutes les dépenses.
Calculez la quantité moyenne et la quantité totale.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define the snapshot date
NOW = dt.datetime(2011,11,1)

# Calculate recency by subtracting current date from the latest InvoiceDate
features = online_X.___('CustomerID').agg({
  'InvoiceDate': lambda x: (NOW - x.max()).days,
  # Calculate frequency by counting unique number of invoices
  'InvoiceNo': pd.Series.___,
  # Calculate monetary value by summing all spend values
  'TotalSum': np.___,
  # Calculate average and total quantity
  'Quantity': ['___', 'sum']}).reset_index()

# Rename the columns
features.columns = ['CustomerID', 'recency', 'frequency', 'monetary', 'quantity_avg', 'quantity_total']

Modifier et exécuter le code