Optimaliteit van de support-confidencegrens
Je gaat terug naar de oprichter met de scatterplot uit de vorige oefening en vraagt of ze wil dat je pruning gebruikt om de support-confidencegrens te reconstrueren. Je vertelt haar over het Bayardo-Agrawal-resultaat, maar ze is sceptisch en vraagt of je dit met een voorbeeld kunt laten zien.
Omdat scatterplots de puntgrootte kunnen schalen op basis van een derde metric, besluit je dat te gebruiken om de optimaliteit van de support-confidencegrens te demonstreren. Je laat dit zien door de puntgrootte te schalen met de lift-metric, een van de metrics waarop Bayardo-Agrawal van toepassing is. De one-hot-gecodeerde gegevens zijn voor je geïmporteerd als onehot. Daarnaast zijn apriori() en association_rules() geïmporteerd en is pandas beschikbaar als pd.
Deze oefening maakt deel uit van de cursus
Market Basket Analysis in Python
Oefeninstructies
- Pas het Apriori-algoritme toe op de DataFrame
onehot. - Bereken de associatieregels met de metric
supporten een minimumdrempel van 0,0. - Maak de expressie voor de scatterplot af zodat de puntgrootte wordt geschaald door
lift.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import seaborn under its standard alias
import seaborn as sns
# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = ____(____, min_support = 0.0075,
use_colnames = True, max_len = 2)
# Generate association rules without performing additional pruning
rules = ____(frequent_itemsets, metric = "support",
min_threshold = ____)
# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "confidence",
size = "____", data = rules)
plt.show()