CommencerCommencer gratuitement

Optimalité de la frontière support–confiance

Vous retournez voir la fondatrice avec le nuage de points produit dans l’exercice précédent et lui demandez si elle souhaite que vous utilisiez l’élagage pour retrouver la frontière support–confiance. Vous lui parlez du résultat de Bayardo-Agrawal, mais elle reste sceptique et vous demande si vous pouvez le démontrer sur un exemple.

En vous rappelant que les nuages de points peuvent dimensionner la taille des points selon une troisième métrique, vous décidez d’utiliser cela pour démontrer l’optimalité de la frontière support–confiance. Vous le montrerez en faisant varier la taille des points avec la métrique lift, l’une de celles auxquelles le résultat de Bayardo-Agrawal s’applique. Les données encodées en one-hot ont été importées pour vous et sont disponibles sous onehot. De plus, apriori() et association_rules() ont été importées et pandas est disponible sous pd.

Cet exercice fait partie du cours

Analyse des paniers d’achat en Python

Afficher le cours

Instructions

  • Appliquez l’algorithme Apriori au DataFrame onehot.
  • Calculez les règles d’association en utilisant la métrique support et un seuil minimal de 0.0.
  • Complétez l’expression du nuage de points afin que la taille des points soit ajustée par lift.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import seaborn under its standard alias
import seaborn as sns

# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = ____(____, min_support = 0.0075, 
                         use_colnames = True, max_len = 2)

# Generate association rules without performing additional pruning
rules = ____(frequent_itemsets, metric = "support", 
                          min_threshold = ____)

# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "confidence", 
                size = "____", data = rules)
plt.show()
Modifier et exécuter le code