MulaiMulai sekarang secara gratis

Menyiapkan data

Berbeda dengan bab-bab sebelumnya, di mana kami telah menyiapkan data untuk Anda untuk pembelajaran tanpa pengawasan (unsupervised), tujuan bab ini adalah memandu Anda melalui alur kerja yang lebih realistis dan lengkap.

Ingat dari video bahwa langkah pertama adalah mengunduh dan menyiapkan data.

Latihan ini adalah bagian dari kursus

Unsupervised Learning di R

Lihat Kursus

Petunjuk latihan

  • Gunakan fungsi read.csv() untuk mengunduh file CSV (comma-separated values) yang berisi data dari URL yang disediakan. Simpan hasilnya ke wisc.df.
  • Gunakan as.matrix() untuk mengonversi fitur data (pada kolom 3 hingga 32) menjadi sebuah matriks. Simpan ke variabel bernama wisc.data.
  • Tetapkan nama baris wisc.data menggunakan nilai yang saat ini terdapat pada kolom id dari wisc.df. Meskipun tidak sepenuhnya wajib, ini akan membantu Anda melacak berbagai observasi sepanjang proses pemodelan.
  • Terakhir, buat sebuah vektor bernama diagnosis yang bernilai 1 jika diagnosis ganas ("M") dan 0 selain itu. Perhatikan bahwa R mengonversi TRUE menjadi 1 dan FALSE menjadi 0.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)
Edit dan Jalankan Kode