MulaiMulai sekarang secara gratis

Mengevaluasi pengelompokan biji-bijian

Pada latihan sebelumnya, Anda melihat dari plot inersia bahwa 3 adalah jumlah klaster yang baik untuk data biji-bijian. Faktanya, sampel biji-bijian berasal dari campuran 3 varietas berbeda: "Kama", "Rosa", dan "Canadian". Pada latihan ini, kelompokkan sampel biji-bijian menjadi tiga klaster, lalu bandingkan klaster tersebut dengan varietas biji-bijian menggunakan tabulasi silang.

Anda memiliki array samples berisi sampel biji-bijian, dan sebuah daftar varieties yang memberikan varietas biji-bijian untuk setiap sampel. Pandas (pd) dan KMeans telah diimpor untuk Anda.

Latihan ini adalah bagian dari kursus

Unsupervised Learning in Python

Lihat Kursus

Petunjuk latihan

  • Buat model KMeans bernama model dengan 3 klaster.
  • Gunakan metode .fit_predict() dari model untuk melatihnya pada samples dan memperoleh label klaster. Menggunakan .fit_predict() sama dengan menggunakan .fit() diikuti .predict().
  • Buat DataFrame df dengan dua kolom bernama 'labels' dan 'varieties', menggunakan labels dan varieties masing-masing sebagai nilai kolom. Ini telah disiapkan untuk Anda.
  • Gunakan fungsi pd.crosstab() pada df['labels'] dan df['varieties'] untuk menghitung berapa kali setiap varietas biji-bijian bertepatan dengan setiap label klaster. Simpan hasilnya ke ct.
  • Tekan Kirim untuk melihat tabulasi silang!

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a KMeans model with 3 clusters: model
model = ____

# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)
Edit dan Jalankan Kode