Frequent itemsets identificeren met Apriori
De aggregatie-oefening die je voor de online retailer deed, was nuttig. Die gaf een startpunt om te begrijpen welke categorieën items vaak in transacties voorkomen. De retailer wil nu de individuele items zelf verkennen om te zien welke vaak voorkomen.
In deze oefening pas je het Apriori-algoritme toe op de online retail-gegevensset zonder eerst te aggregeren. Je doel is om de itemsets te snoeien met een minimale waarde voor support en een maximale drempel voor het aantal items. Let op: pandas is geïmporteerd als pd en de one-hot-gecodeerde data is beschikbaar als onehot.
Deze oefening maakt deel uit van de cursus
Market Basket Analysis in Python
Oefeninstructies
- Geef
onehotdoor aan het Apriori-algoritme. - Stel de minimale support in op 0,006.
- Stel de maximale lengte van de itemset in op 3.
- Print een preview van de eerste vijf itemsets.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import apriori from mlxtend
from mlxtend.frequent_patterns import apriori
# Compute frequent itemsets using the Apriori algorithm
frequent_itemsets = apriori(____,
____ = ____,
max_len = ____,
use_colnames = True)
# Print a preview of the frequent itemsets
print(____.head())