Mengevaluasi pengelompokan biji-bijian

Pada latihan sebelumnya, Anda melihat dari plot inersia bahwa 3 adalah jumlah klaster yang baik untuk data biji-bijian. Faktanya, sampel biji-bijian berasal dari campuran 3 varietas berbeda: "Kama", "Rosa", dan "Canadian". Pada latihan ini, kelompokkan sampel biji-bijian menjadi tiga klaster, lalu bandingkan klaster tersebut dengan varietas biji-bijian menggunakan tabulasi silang.

Anda memiliki array samples berisi sampel biji-bijian, dan sebuah daftar varieties yang memberikan varietas biji-bijian untuk setiap sampel. Pandas (pd) dan KMeans telah diimpor untuk Anda.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

Instruksi latihan

Buat model KMeans bernama model dengan 3 klaster.
Gunakan metode .fit_predict() dari model untuk melatihnya pada samples dan memperoleh label klaster. Menggunakan .fit_predict() sama dengan menggunakan .fit() diikuti .predict().
Buat DataFrame df dengan dua kolom bernama 'labels' dan 'varieties', menggunakan labels dan varieties masing-masing sebagai nilai kolom. Ini telah disiapkan untuk Anda.
Gunakan fungsi pd.crosstab() pada df['labels'] dan df['varieties'] untuk menghitung berapa kali setiap varietas biji-bijian bertepatan dengan setiap label klaster. Simpan hasilnya ke ct.
Tekan Kirim untuk melihat tabulasi silang!

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a KMeans model with 3 clusters: model
model = ____

# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari cara menemukan kelompok (atau "klaster") yang mendasari dalam sebuah himpunan data. Pada akhir bab ini, Anda akan mengelompokkan perusahaan menggunakan harga pasar sahamnya, dan membedakan berbagai spesies dengan mengelompokkan pengukuran mereka.

Exercise 1: Unsupervised Learning Exercise 2: Ada berapa klaster?Exercise 3: Melakukan klasterisasi titik 2D Exercise 4: Periksa klastering Anda Exercise 5: Mengevaluasi sebuah pengelompokan Exercise 6: Berapa banyak klaster untuk biji-bijian?Exercise 7: Mengevaluasi pengelompokan biji-bijian

Latihan Saat Ini

Exercise 8: Mentransformasi fitur untuk pengelompokan yang lebih baik Exercise 9: Menskalakan data ikan untuk klastering Exercise 10: Mengelompokkan data ikan Exercise 11: Mengelompokkan saham menggunakan KMeans Exercise 12: Saham mana yang bergerak bersama?

Pada bab ini, Anda akan mempelajari dua teknik unsupervised learning untuk visualisasi data: hierarchical clustering dan t-SNE. Hierarchical clustering menggabungkan sampel data menjadi klaster yang makin besar, menghasilkan visualisasi pohon dari hierarki klaster yang terbentuk. t-SNE memetakan sampel data ke ruang 2D sehingga kedekatan antar sampel dapat divisualisasikan.

Exercise 1: Memvisualisasikan hierarki Exercise 2: Berapa banyak penggabungan?Exercise 3: Hierarchical clustering pada data biji-bijian Exercise 4: Hierarki saham Exercise 5: Label klaster dalam hierarchical clustering Exercise 6: Klaster mana yang paling dekat?Exercise 7: Linkage berbeda, hierarchical clustering berbeda!Exercise 8: Pengelompokan menengah Exercise 9: Mengekstrak label klaster Exercise 10: t-SNE untuk peta 2 dimensi Exercise 11: Visualisasi t-SNE pada himpunan data biji-bijian Exercise 12: Peta t-SNE pasar saham

Reduksi dimensi merangkum sebuah himpunan data menggunakan pola yang sering muncul. Pada bab ini, Anda akan mempelajari teknik reduksi dimensi paling mendasar, "Principal Component Analysis" ("PCA"). PCA sering digunakan sebelum supervised learning untuk meningkatkan kinerja dan generalisasi model. PCA juga bermanfaat untuk unsupervised learning. Misalnya, Anda akan menggunakan varian PCA yang memungkinkan Anda mengelompokkan artikel Wikipedia berdasarkan isinya!

Exercise 1: Memvisualisasikan transformasi PCA Exercise 2: Data berkorelasi di alam Exercise 3: Menghilangkan korelasi pengukuran biji dengan PCA Exercise 4: Komponen utama Exercise 5: Dimensi intrinsik Exercise 6: Komponen utama pertama Exercise 7: Varians dari fitur PCA Exercise 8: Dimensi intrinsik dari data ikan Exercise 9: Reduksi dimensi dengan PCA Exercise 10: Reduksi dimensi pada pengukuran ikan Exercise 11: Array frekuensi kata tf-idf Exercise 12: Pengelompokan Wikipedia bagian I Exercise 13: Mengelompokkan Wikipedia bagian II

Pada bab ini, Anda akan mempelajari teknik reduksi dimensi bernama "Non-negative matrix factorization" ("NMF") yang mengekspresikan sampel sebagai kombinasi bagian-bagian yang dapat diinterpretasikan. Misalnya, teknik ini mengekspresikan dokumen sebagai kombinasi topik, dan gambar sebagai pola visual yang sering muncul. Anda juga akan belajar menggunakan NMF untuk membangun sistem rekomendasi yang dapat menemukan artikel serupa untuk dibaca, atau artis musik yang sesuai dengan riwayat mendengarkan Anda!

Exercise 1: Non-negative matrix factorization (NMF)Exercise 2: Data non-negatif Exercise 3: Penerapan NMF pada artikel Wikipedia Exercise 4: Fitur NMF dari artikel Wikipedia Exercise 5: NMF merekonstruksi sampel Exercise 6: NMF mempelajari komponen yang dapat ditafsirkan Exercise 7: NMF mempelajari topik dokumen Exercise 8: Jelajahi himpunan data digit LED Exercise 9: NMF mempelajari bagian-bagian dari citra Exercise 10: PCA tidak mempelajari bagian-bagian Exercise 11: Membangun sistem rekomendasi menggunakan NMF Exercise 12: Artikel mana yang mirip dengan 'Cristiano Ronaldo'?Exercise 13: Rekomendasikan artis musik bagian I Exercise 14: Rekomendasikan artis musik bagian II Exercise 15: Penutup