Optimalité de la frontière support–confiance
Vous retournez voir la fondatrice avec le nuage de points produit dans l’exercice précédent et lui demandez si elle souhaite que vous utilisiez l’élagage pour retrouver la frontière support–confiance. Vous lui parlez du résultat de Bayardo-Agrawal, mais elle reste sceptique et vous demande si vous pouvez le démontrer sur un exemple.
En vous rappelant que les nuages de points peuvent dimensionner la taille des points selon une troisième métrique, vous décidez d’utiliser cela pour démontrer l’optimalité de la frontière support–confiance. Vous le montrerez en faisant varier la taille des points avec la métrique lift, l’une de celles auxquelles le résultat de Bayardo-Agrawal s’applique. Les données encodées en one-hot ont été importées pour vous et sont disponibles sous onehot. De plus, apriori() et association_rules() ont été importées et pandas est disponible sous pd.
Cet exercice fait partie du cours
Analyse des paniers d’achat en Python
Instructions
- Appliquez l’algorithme Apriori au DataFrame
onehot. - Calculez les règles d’association en utilisant la métrique
supportet un seuil minimal de 0.0. - Complétez l’expression du nuage de points afin que la taille des points soit ajustée par
lift.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import seaborn under its standard alias
import seaborn as sns
# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = ____(____, min_support = 0.0075,
use_colnames = True, max_len = 2)
# Generate association rules without performing additional pruning
rules = ____(frequent_itemsets, metric = "support",
min_threshold = ____)
# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "confidence",
size = "____", data = rules)
plt.show()