Élagage avec des nuages de points
Après avoir examiné votre proposition pour le service de streaming centré sur Batman dans l’exercice précédent, la fondatrice se rend compte que son idée initiale était peut-être trop restrictive. Plutôt que de se concentrer sur des titres précis, elle vous demande d’analyser les tendances générales dans les règles d’association, puis d’effectuer l’élagage en conséquence. Votre objectif est d’identifier un grand ensemble d’associations solides.
Heureusement, vous venez d’apprendre à générer des nuages de points. Vous décidez de commencer par représenter le support et la confiance, car, selon de nombreux indicateurs courants, toutes les règles optimales se situent sur la frontière confiance–support. Les données encodées en one-hot ont été importées pour vous et sont disponibles sous onehot. De plus, apriori() et association_rules() ont été importées et pandas est disponible sous pd.
Cet exercice fait partie du cours
Analyse des paniers d’achat en Python
Instructions
- Générez un grand nombre d’itemsets de 2 éléments en fixant le support minimal à 0,0075 et la longueur maximale à 2.
- Complétez l’appel à
association_rules()de manière à éviter tout filtrage supplémentaire. - Complétez l’instruction pour générer le nuage de points en définissant la variable
ysurconfidence.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import seaborn under its standard alias
import seaborn as sns
# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = apriori(onehot, min_support = ___,
use_colnames = True, max_len = ____)
# Generate association rules without performing additional pruning
rules = association_rules(____, metric = 'support',
min_threshold = ____)
# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "____", data = ____)
plt.show()