Prunen met scatterplots
Na het bekijken van je voorstel voor de Batman-gebaseerde streamingdienst uit de vorige oefening, realiseert de oprichter zich dat haar eerste plan te beperkt was. In plaats van te focussen op begintitels vraagt ze je om je te richten op algemene patronen in de associatieregels en daar vervolgens op te prunen. Je doel is om een grote set sterke associaties te vinden.
Gelukkig heb je net geleerd hoe je scatterplots maakt. Je besluit te beginnen met het plotten van support en confidence, omdat alle optimale regels volgens veel gangbare maten op de confidence-supportrand liggen. De one-hot-gecodeerde data is voor je geïmporteerd als onehot. Daarnaast zijn apriori() en association_rules() geïmporteerd en is pandas beschikbaar als pd.
Deze oefening maakt deel uit van de cursus
Market Basket Analysis in Python
Oefeninstructies
- Genereer een groot aantal itemsets met 2 items door de minimumsupport op 0,0075 te zetten en de maximale lengte op 2.
- Maak de aanroep van
association_rules()af op een manier die extra filtering voorkomt. - Maak de aanroep af om de scatterplot te genereren en stel de
y-variabele in opconfidence.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import seaborn under its standard alias
import seaborn as sns
# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = apriori(onehot, min_support = ___,
use_colnames = True, max_len = ____)
# Generate association rules without performing additional pruning
rules = association_rules(____, metric = 'support',
min_threshold = ____)
# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "____", data = ____)
plt.show()