Choisir un seuil de support
La responsable de la boutique de cadeaux en ligne examine les résultats que vous avez fournis à l’exercice précédent et vous félicite pour votre travail. Elle soulève toutefois un point : tous les itemsets que vous avez identifiés ne contiennent qu’un seul article. Elle demande s’il serait possible d’utiliser une règle moins restrictive et de générer davantage d’itemsets, y compris éventuellement ceux comprenant plusieurs articles.
Après avoir accepté, vous réfléchissez à ce qui pourrait expliquer l’absence d’itemsets de plus d’un article. Ce n’est pas le paramètre max_len, puisqu’il était fixé à trois. Vous en déduisez que cela vient du support et décidez de tester deux valeurs différentes, en vérifiant à chaque fois combien d’itemsets supplémentaires sont générés. Notez que pandas est disponible sous pd et que les données encodées en one-hot sont disponibles sous onehot.
Cet exercice fait partie du cours
Analyse des paniers d’achat en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import apriori from mlxtend
from mlxtend.____ import ____
# Compute frequent itemsets using a support of 0.003 and length of 3
frequent_itemsets_1 = apriori(onehot, min_support = ____,
max_len = ____, use_colnames = True)
# Compute frequent itemsets using a support of 0.001 and length of 3
frequent_itemsets_2 = apriori(onehot, min_support = ____,
____, use_colnames = True)
# Print the number of freqeuent itemsets
print(len(frequent_itemsets_1), len(frequent_itemsets_2))