Varians yang dijelaskan
Dalam latihan ini, Anda akan membuat scree plot yang menampilkan proporsi varians yang dijelaskan seiring bertambahnya jumlah komponen utama. Data dari PCA harus disiapkan untuk plot ini, karena tidak ada fungsi bawaan di R yang dapat membuatnya langsung dari model PCA.
Saat meninjau plot ini, tanyakan pada diri Anda apakah ada “siku” pada jumlah varians yang dijelaskan yang dapat membantu Anda memilih jumlah komponen utama yang alami. Jika tidak ada siku yang jelas, seperti yang umum pada himpunan data dunia nyata, pertimbangkan cara lain untuk menentukan berapa banyak komponen utama yang perlu dipertahankan berdasarkan scree plot.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
Variabel yang Anda buat sebelumnya, wisc.data, diagnosis, dan wisc.pr, masih tersedia.
- Hitung varians tiap komponen utama dengan menguadratkan komponen
sdevdariwisc.pr. Simpan hasilnya sebagai objek bernamapr.var. - Hitung varians yang dijelaskan oleh tiap komponen utama dengan membaginya dengan total varians yang dijelaskan oleh semua komponen utama. Simpan ke variabel bernama
pve. - Buat plot varians yang dijelaskan untuk tiap komponen utama.
- Dengan fungsi
cumsum(), buat plot proporsi kumulatif varians yang dijelaskan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set up 1 x 2 plotting grid
par(mfrow = c(1, 2))
# Calculate variability of each component
# Variance explained by each principal component: pve
# Plot variance explained for each principal component
plot(___, xlab = "Principal Component",
ylab = "Proportion of Variance Explained",
ylim = c(0, 1), type = "b")
# Plot cumulative proportion of variance explained
plot(___, xlab = "Principal Component",
ylab = "Cumulative Proportion of Variance Explained",
ylim = c(0, 1), type = "b")