Aggregatie uitvoeren
Na een paar kleine adviesklussen voor een bibliotheek en een e-bookverkoper heb je eindelijk je eerste grote market-basket-analyseproject binnen: een online cadeauwinkel met hebbedingen adviseren over cross-promoties. Omdat de retailer niet eerder een data scientist heeft ingehuurd, wil het dat je begint met het verkennen van de transactiedata. Je bent gevraagd om aggregatie uit te voeren voor alle signs in de gegevensset en ook de support voor deze categorie te berekenen. Merk op dat pandas al voor je is geïmporteerd als pd. Daarnaast zijn de gegevens in one-hot-encoded formaat geïmporteerd als onehot.
Deze oefening maakt deel uit van de cursus
Market Basket Analysis in Python
Oefeninstructies
- Selecteer de subset van de kolommen van de DataFrame die de string
signbevat. - Print de support voor
signs.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select the column headers for sign items
sign_headers = [i for i in onehot.columns if i.lower().find('sign')>=0]
# Select columns of sign items using sign_headers
sign_columns = onehot[____]
# Perform aggregation of sign items into sign category
signs = sign_columns.sum(axis = 1) >= 1.0
# Print support for signs
print('Share of Signs: %.2f' % ____.mean())