Itemset-support visualiseren

Een content-streamingstart-up heeft je benaderd voor advies. Om licentiekosten laag te houden, willen ze een compacte catalogus samenstellen met films die allemaal dezelfde doelgroep aanspreken. Hun aanbod is kleiner dan dat van de grote spelers, maar ze kunnen wel een lage abonnementsprijs bieden.

Je besluit voor dit project de MovieLens-gegevens en een heatmap te gebruiken. Met een simpele, op support gebaseerde heatmap kun je titels vinden die vaak samen met andere titels voorkomen. De one-hot-encoded gegevens staan in de DataFrame onehot. Daarnaast is pandas beschikbaar als pd, seaborn als sns, en zijn apriori() en association_rules() al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Market Basket Analysis in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute frequent itemsets using a minimum support of 0.07
frequent_itemsets = apriori(onehot, min_support = ____, 
                            use_colnames = True, max_len = 2)

# Compute the association rules
rules = association_rules(____, metric = 'support', 
                          min_threshold = 0.0)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Market Basket Analysis in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

In dit hoofdstuk leer je de basis van Market Basket Analysis: associatieregels, metriek en pruning. Daarna pas je deze concepten toe om een kleine supermarkt te helpen zijn promoties en productplaatsing te verbeteren.

Exercise 1: Wat is market basket analysis?Exercise 2: De basis van market basket analysis Exercise 3: Cross-selling van producten Exercise 4: Associatieregels identificeren Exercise 5: Meerdere antecedenten en consequenten Exercise 6: Data voorbereiden voor market-basketanalyse Exercise 7: Associatieregels genereren Exercise 8: De eenvoudigste maatstaf Exercise 9: One-hot encoden van transactiegegevens Exercise 10: De support-metriek berekenen

Associatieregels vertellen ons dat twee of meer items met elkaar samenhangen. Metriek helpt ons om het nut van die relaties te kwantificeren. In dit hoofdstuk pas je zes metriek toe om associatieregels te evalueren: support, confidence, lift, conviction, leverage en Zhang's metric. Vervolgens gebruik je associatieregels en metriek om een bibliotheek en een e-booksverkoper te assisteren.

Exercise 1: Confidence en lift Exercise 2: Boeken aanbevelen met support Exercise 3: Support verfijnen met confidence Exercise 4: Verder verfijnen met lift Exercise 5: Leverage en conviction Exercise 6: Lift versus leverage Exercise 7: Conviction berekenen Exercise 8: Conviction berekenen met een functie Exercise 9: Ebooks promoten met conviction Exercise 10: Associatie en dissociatie Exercise 11: Associatie en dissociatie berekenen Exercise 12: Zhang's metriek definiëren Exercise 13: Zhang's metric toepassen Exercise 14: Geavanceerde regels Exercise 15: Filteren met support en conviction Exercise 16: Meerdere metrieken gebruiken om boeken kruislinks te promoten

Het kernprobleem van Market Basket Analysis is bepalen hoe je enorme aantallen klantbeslissingen omzet in een klein aantal bruikbare regels. Dit proces begint meestal met het Apriori-algoritme en omvat extra strategieën zoals pruning en aggregatie. In dit hoofdstuk leer je hoe je deze methoden gebruikt en pas je ze uiteindelijk toe in oefeningen waarin je een retailer helpt bij het kiezen van een fysieke winkelindeling en het uitvoeren van product-crosspromoties.

Exercise 1: Aggregatie Exercise 2: Aggregatie uitvoeren Exercise 3: Een aggregatiefunctie definiëren Exercise 4: Het Apriori-algoritme Exercise 5: Pruning en Apriori Exercise 6: Frequent itemsets identificeren met Apriori Exercise 7: Een supportdrempel selecteren Exercise 8: Basisresultaten van Apriori snoeien Exercise 9: Associatieregels genereren Exercise 10: Prunen met lift Exercise 11: Prunen met confidence Exercise 12: Geavanceerd snoeien van Apriori-resultaten Exercise 13: Aggregatie en filteren Exercise 14: Zhangs regel toepassen Exercise 15: Geavanceerd filteren met meerdere metrieken

In dit laatste hoofdstuk leer je hoe visualisaties worden gebruikt om het pruningproces te sturen en de eindresultaten samen te vatten, die doorgaans de vorm hebben van itemsets of regels. Je beheerst de drie meest bruikbare visualisaties — heatmaps, scatterplots en parallelle coördinatenplots — en past ze toe om een streamingdienst te ondersteunen.

Exercise 1: Heatmaps Exercise 2: Itemset-support visualiseren

Huidige oefening

Exercise 3: Heatmaps met lift Exercise 4: Heatmaps interpreteren Exercise 5: Spreidingsdiagrammen Exercise 6: Prunen met scatterplots Exercise 7: Optimaliteit van de support-confidencegrens Exercise 8: Parallel coordinates-plot Exercise 9: Regels visualiseren met parallelle coördinaten Exercise 10: Een parallelle-coördinatenplot verfijnen Exercise 11: Gefeliciteerd!