MulaiMulai sekarang secara gratis

Meninjau data

Himpunan data salesData telah dimuat di ruang kerja. Data ini berisi informasi pelanggan untuk bulan satu hingga tiga. Hanya penjualan bulan empat yang disertakan. Tabel berikut memberikan deskripsi beberapa variabel yang maknanya kurang jelas.

Variable Description
id nomor identifikasi pelanggan
mostFreqStore toko tempat seseorang paling sering berbelanja
mostFreqCat kategori yang paling sering dibeli seseorang
nCats jumlah kategori yang berbeda
preferredBrand merek yang paling sering dibeli seseorang
nBrands jumlah merek yang berbeda

Paket readr, dplyr, corrplot, dan ggplot2 telah dipasang dan dimuat.

Latihan ini adalah bagian dari kursus

Machine Learning untuk Analitik Pemasaran dengan R

Lihat Kursus

Petunjuk latihan

  • Gunakan perintah struktur str() untuk mendapatkan gambaran umum atas data.
  • Sekarang visualisasikan korelasi variabel penjelas kontinu untuk tiga bulan terakhir dengan variabel penjualan bulan ini. Gunakan fungsi cor() dan corrplot() serta operator pipe. Perhatikan bahwa variabel yang benar telah dipilih untuk Anda.
  • Selain itu, buat boxplot yang menampilkan sebaran salesThisMon bergantung pada level dari variabel kategorikal preferredBrand. Hal yang sama sudah dilakukan untuk variabel dependen kategorikal mostFreqStore.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))
Edit dan Jalankan Kode