Menyiapkan data untuk market basket analysis
Sepanjang kursus ini, Anda umumnya akan menemui data dalam dua format: DataFrame pandas atau list berisi list. Objek DataFrame akan dibuat dengan mengimpor file csv menggunakan pandas. DataFrame tersebut akan terdiri dari satu kolom data, di mana setiap elemennya berisi string item dalam satu transaksi yang dipisahkan dengan koma, seperti pada tabel di bawah.
Dalam latihan ini, Anda akan berlatih memuat data dari file csv dan menyiapkannya untuk digunakan sebagai list berisi list. Perhatikan bahwa path ke himpunan data toko kelontong telah didefinisikan dan tersedia untuk Anda sebagai groceries_path.
| Transaction |
|---|
| 'milk,bread,biscuit' |
| 'bread,milk,biscuit,cereal' |
| … |
| 'tea,milk,coffee,cereal' |
Latihan ini adalah bagian dari kursus
Analisis Market Basket dengan Python
Petunjuk latihan
- Impor paket
pandasdengan aliaspd. - Gunakan pandas untuk membaca file csv pada path yang ditentukan oleh
groceries_path. - Pilih kolom
Transactiondari DataFrame dan pecah setiap string berisi item yang dipisahkan koma menjadi sebuah list. - Konversi DataFrame berisi transaksi menjadi list berisi list.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import pandas under the alias pd
import ____ as pd
# Load transactions from pandas
groceries = pd.____(groceries_path)
# Split transaction strings into lists
transactions = groceries['____'].apply(lambda t: t.split(','))
# Convert DataFrame column into list of strings
transactions = list(____)
# Print the list of transactions
print(transactions)