Aan de slagGa gratis aan de slag

Optimaliteit van de support-confidencegrens

Je gaat terug naar de oprichter met de scatterplot uit de vorige oefening en vraagt of ze wil dat je pruning gebruikt om de support-confidencegrens te reconstrueren. Je vertelt haar over het Bayardo-Agrawal-resultaat, maar ze is sceptisch en vraagt of je dit met een voorbeeld kunt laten zien.

Omdat scatterplots de puntgrootte kunnen schalen op basis van een derde metric, besluit je dat te gebruiken om de optimaliteit van de support-confidencegrens te demonstreren. Je laat dit zien door de puntgrootte te schalen met de lift-metric, een van de metrics waarop Bayardo-Agrawal van toepassing is. De one-hot-gecodeerde gegevens zijn voor je geïmporteerd als onehot. Daarnaast zijn apriori() en association_rules() geïmporteerd en is pandas beschikbaar als pd.

Deze oefening maakt deel uit van de cursus

Market Basket Analysis in Python

Cursus bekijken

Oefeninstructies

  • Pas het Apriori-algoritme toe op de DataFrame onehot.
  • Bereken de associatieregels met de metric support en een minimumdrempel van 0,0.
  • Maak de expressie voor de scatterplot af zodat de puntgrootte wordt geschaald door lift.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import seaborn under its standard alias
import seaborn as sns

# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = ____(____, min_support = 0.0075, 
                         use_colnames = True, max_len = 2)

# Generate association rules without performing additional pruning
rules = ____(frequent_itemsets, metric = "support", 
                          min_threshold = ____)

# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "confidence", 
                size = "____", data = rules)
plt.show()
Code bewerken en uitvoeren