Data voorbereiden voor market-basketanalyse
In deze course kom je data meestal in twee formaten tegen: een pandas DataFrame of een lijst-van-lijsten. DataFrames worden gemaakt door een csv-bestand te importeren met pandas. Ze bestaan uit één kolom met data, waarbij elk element een string is met items uit een transactie, gescheiden door komma’s, zoals in de onderstaande tabel.
In deze oefening ga je data laden uit een csv-bestand en klaarmaken voor gebruik als lijst-van-lijsten. Het pad naar de supermarktgegevens is al gedefinieerd en beschikbaar als groceries_path.
| Transaction |
|---|
| 'milk,bread,biscuit' |
| 'bread,milk,biscuit,cereal' |
| … |
| 'tea,milk,coffee,cereal' |
Deze oefening maakt deel uit van de cursus
Market Basket Analysis in Python
Oefeninstructies
- Importeer het pakket
pandasmet de aliaspd. - Gebruik pandas om het csv-bestand in te lezen op het pad dat is opgegeven door
groceries_path. - Selecteer de kolom
Transactionuit de DataFrame en splits elke string met door komma’s gescheiden items in een lijst. - Zet de DataFrame met transacties om naar een lijst-van-lijsten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import pandas under the alias pd
import ____ as pd
# Load transactions from pandas
groceries = pd.____(groceries_path)
# Split transaction strings into lists
transactions = groceries['____'].apply(lambda t: t.split(','))
# Convert DataFrame column into list of strings
transactions = list(____)
# Print the list of transactions
print(transactions)