Meninjau data
Himpunan data salesData telah dimuat di ruang kerja. Data ini berisi informasi pelanggan untuk bulan satu hingga tiga. Hanya penjualan bulan empat yang disertakan. Tabel berikut memberikan deskripsi beberapa variabel yang maknanya kurang jelas.
| Variable | Description |
|---|---|
| id | nomor identifikasi pelanggan |
| mostFreqStore | toko tempat seseorang paling sering berbelanja |
| mostFreqCat | kategori yang paling sering dibeli seseorang |
| nCats | jumlah kategori yang berbeda |
| preferredBrand | merek yang paling sering dibeli seseorang |
| nBrands | jumlah merek yang berbeda |
Paket readr, dplyr, corrplot, dan ggplot2 telah dipasang dan dimuat.
Latihan ini adalah bagian dari kursus
Machine Learning untuk Analitik Pemasaran dengan R
Petunjuk latihan
- Gunakan perintah struktur
str()untuk mendapatkan gambaran umum atas data. - Sekarang visualisasikan korelasi variabel penjelas kontinu untuk tiga bulan terakhir dengan variabel penjualan bulan ini. Gunakan fungsi
cor()dancorrplot()serta operator pipe. Perhatikan bahwa variabel yang benar telah dipilih untuk Anda. - Selain itu, buat boxplot yang menampilkan sebaran
salesThisMonbergantung pada level dari variabel kategorikalpreferredBrand. Hal yang sama sudah dilakukan untuk variabel dependen kategorikalmostFreqStore.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Structure of dataset
str(___, give.attr = FALSE)
# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
select(-id) %>%
___
___
# Frequent stores
ggplot(salesData) +
geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))
# Preferred brand
ggplot(___) +
geom_boxplot(aes(x = ___, y = ___))