Menyiapkan data
Berbeda dengan bab-bab sebelumnya, di mana kami telah menyiapkan data untuk Anda untuk pembelajaran tanpa pengawasan (unsupervised), tujuan bab ini adalah memandu Anda melalui alur kerja yang lebih realistis dan lengkap.
Ingat dari video bahwa langkah pertama adalah mengunduh dan menyiapkan data.
Latihan ini merupakan bagian dari kursus
Unsupervised Learning di R
Instruksi latihan
- Gunakan fungsi
read.csv()untuk mengunduh file CSV (comma-separated values) yang berisi data dari URL yang disediakan. Simpan hasilnya kewisc.df. - Gunakan
as.matrix()untuk mengonversi fitur data (pada kolom 3 hingga 32) menjadi sebuah matriks. Simpan ke variabel bernamawisc.data. - Tetapkan nama baris
wisc.datamenggunakan nilai yang saat ini terdapat pada kolomiddariwisc.df. Meskipun tidak sepenuhnya wajib, ini akan membantu Anda melacak berbagai observasi sepanjang proses pemodelan. - Terakhir, buat sebuah vektor bernama
diagnosisyang bernilai1jika diagnosis ganas ("M") dan0selain itu. Perhatikan bahwa R mengonversiTRUEmenjadi 1 danFALSEmenjadi 0.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)