Frequent itemsets identificeren met Apriori

De aggregatie-oefening die je voor de online retailer deed, was nuttig. Die gaf een startpunt om te begrijpen welke categorieën items vaak in transacties voorkomen. De retailer wil nu de individuele items zelf verkennen om te zien welke vaak voorkomen.

In deze oefening pas je het Apriori-algoritme toe op de online retail-gegevensset zonder eerst te aggregeren. Je doel is om de itemsets te snoeien met een minimale waarde voor support en een maximale drempel voor het aantal items. Let op: pandas is geïmporteerd als pd en de one-hot-gecodeerde data is beschikbaar als onehot.

Deze oefening maakt deel uit van de cursus

Market Basket Analysis in Python

Oefeninstructies

Geef onehot door aan het Apriori-algoritme.
Stel de minimale support in op 0,006.
Stel de maximale lengte van de itemset in op 3.
Print een preview van de eerste vijf itemsets.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import apriori from mlxtend
from mlxtend.frequent_patterns import apriori

# Compute frequent itemsets using the Apriori algorithm
frequent_itemsets = apriori(____, 
                            ____ = ____, 
                            max_len = ____, 
                            use_colnames = True)

# Print a preview of the frequent itemsets
print(____.head())

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Market Basket Analysis in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

In dit hoofdstuk leer je de basis van Market Basket Analysis: associatieregels, metriek en pruning. Daarna pas je deze concepten toe om een kleine supermarkt te helpen zijn promoties en productplaatsing te verbeteren.

Exercise 1: Wat is market basket analysis?Exercise 2: De basis van market basket analysis Exercise 3: Cross-selling van producten Exercise 4: Associatieregels identificeren Exercise 5: Meerdere antecedenten en consequenten Exercise 6: Data voorbereiden voor market-basketanalyse Exercise 7: Associatieregels genereren Exercise 8: De eenvoudigste maatstaf Exercise 9: One-hot encoden van transactiegegevens Exercise 10: De support-metriek berekenen

Associatieregels vertellen ons dat twee of meer items met elkaar samenhangen. Metriek helpt ons om het nut van die relaties te kwantificeren. In dit hoofdstuk pas je zes metriek toe om associatieregels te evalueren: support, confidence, lift, conviction, leverage en Zhang's metric. Vervolgens gebruik je associatieregels en metriek om een bibliotheek en een e-booksverkoper te assisteren.

Exercise 1: Confidence en lift Exercise 2: Boeken aanbevelen met support Exercise 3: Support verfijnen met confidence Exercise 4: Verder verfijnen met lift Exercise 5: Leverage en conviction Exercise 6: Lift versus leverage Exercise 7: Conviction berekenen Exercise 8: Conviction berekenen met een functie Exercise 9: Ebooks promoten met conviction Exercise 10: Associatie en dissociatie Exercise 11: Associatie en dissociatie berekenen Exercise 12: Zhang's metriek definiëren Exercise 13: Zhang's metric toepassen Exercise 14: Geavanceerde regels Exercise 15: Filteren met support en conviction Exercise 16: Meerdere metrieken gebruiken om boeken kruislinks te promoten

Het kernprobleem van Market Basket Analysis is bepalen hoe je enorme aantallen klantbeslissingen omzet in een klein aantal bruikbare regels. Dit proces begint meestal met het Apriori-algoritme en omvat extra strategieën zoals pruning en aggregatie. In dit hoofdstuk leer je hoe je deze methoden gebruikt en pas je ze uiteindelijk toe in oefeningen waarin je een retailer helpt bij het kiezen van een fysieke winkelindeling en het uitvoeren van product-crosspromoties.

Exercise 1: Aggregatie Exercise 2: Aggregatie uitvoeren Exercise 3: Een aggregatiefunctie definiëren Exercise 4: Het Apriori-algoritme Exercise 5: Pruning en Apriori Exercise 6: Frequent itemsets identificeren met Apriori

Huidige oefening

Exercise 7: Een supportdrempel selecteren Exercise 8: Basisresultaten van Apriori snoeien Exercise 9: Associatieregels genereren Exercise 10: Prunen met lift Exercise 11: Prunen met confidence Exercise 12: Geavanceerd snoeien van Apriori-resultaten Exercise 13: Aggregatie en filteren Exercise 14: Zhangs regel toepassen Exercise 15: Geavanceerd filteren met meerdere metrieken

In dit laatste hoofdstuk leer je hoe visualisaties worden gebruikt om het pruningproces te sturen en de eindresultaten samen te vatten, die doorgaans de vorm hebben van itemsets of regels. Je beheerst de drie meest bruikbare visualisaties — heatmaps, scatterplots en parallelle coördinatenplots — en past ze toe om een streamingdienst te ondersteunen.

Exercise 1: Heatmaps Exercise 2: Itemset-support visualiseren Exercise 3: Heatmaps met lift Exercise 4: Heatmaps interpreteren Exercise 5: Spreidingsdiagrammen Exercise 6: Prunen met scatterplots Exercise 7: Optimaliteit van de support-confidencegrens Exercise 8: Parallel coordinates-plot Exercise 9: Regels visualiseren met parallelle coördinaten Exercise 10: Een parallelle-coördinatenplot verfijnen Exercise 11: Gefeliciteerd!