Menyiapkan data
Berbeda dengan bab-bab sebelumnya, di mana kami telah menyiapkan data untuk Anda untuk pembelajaran tanpa pengawasan (unsupervised), tujuan bab ini adalah memandu Anda melalui alur kerja yang lebih realistis dan lengkap.
Ingat dari video bahwa langkah pertama adalah mengunduh dan menyiapkan data.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
- Gunakan fungsi
read.csv()untuk mengunduh file CSV (comma-separated values) yang berisi data dari URL yang disediakan. Simpan hasilnya kewisc.df. - Gunakan
as.matrix()untuk mengonversi fitur data (pada kolom 3 hingga 32) menjadi sebuah matriks. Simpan ke variabel bernamawisc.data. - Tetapkan nama baris
wisc.datamenggunakan nilai yang saat ini terdapat pada kolomiddariwisc.df. Meskipun tidak sepenuhnya wajib, ini akan membantu Anda melacak berbagai observasi sepanjang proses pemodelan. - Terakhir, buat sebuah vektor bernama
diagnosisyang bernilai1jika diagnosis ganas ("M") dan0selain itu. Perhatikan bahwa R mengonversiTRUEmenjadi 1 danFALSEmenjadi 0.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)