Dampak seed pada klaster yang berbeda

Anda telah melihat dampak seed pada himpunan data yang tidak memiliki kelompok klaster yang terdefinisi dengan baik. Dalam latihan ini, Anda akan menelusuri apakah seed memengaruhi klaster pada data Comic Con, yang klasternya terdefinisi dengan baik.

Data disimpan dalam pandas DataFrame, comic_con. x_scaled dan y_scaled adalah nama kolom untuk koordinat X dan Y yang telah distandardisasi dari orang-orang pada waktu tertentu.

Latihan ini merupakan bagian dari kursus

Analisis Klaster di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import random class
____

# Initialize seed
random.____(____)

# Run kmeans clustering
cluster_centers, distortion = kmeans(comic_con[['x_scaled', 'y_scaled']], 2)
comic_con['cluster_labels'], distortion_list = vq(comic_con[['x_scaled', 'y_scaled']], cluster_centers)

# Plot the scatterplot
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Analisis Klaster di Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Sebelum siap mengklasifikasikan artikel berita, Anda perlu memahami dasar-dasar clustering. Bab ini memperkenalkan Anda pada kelas algoritma machine learning yang disebut unsupervised learning dan kemudian memperkenalkan Anda pada clustering, salah satu algoritma unsupervised yang populer. Anda akan mempelajari dua teknik clustering yang populer—hierarchical clustering dan k-means clustering. Bab ini diakhiri dengan langkah-langkah prapemrosesan dasar sebelum Anda mulai melakukan clustering pada data.

Exercise 1: Unsupervised learning: dasar-dasar Exercise 2: Unsupervised learning dalam dunia nyata Exercise 3: Penampakan Pokémon Exercise 4: Dasar-dasar analisis klaster Exercise 5: Penampakan Pokémon: hierarchical clustering Exercise 6: Penampakan Pokémon: klastering k-means Exercise 7: Persiapan data untuk analisis klaster Exercise 8: Menormalkan data list dasar Exercise 9: Visualisasikan data yang dinormalisasi Exercise 10: Normalisasi bilangan kecil Exercise 11: FIFA 18: Normalisasi data

Bab ini berfokus pada algoritma clustering yang populer—hierarchical clustering—beserta implementasinya di SciPy. Selain membahas prosedur untuk melakukan hierarchical clustering, bab ini membantu Anda menjawab pertanyaan penting—berapa banyak klaster yang ada dalam data Anda? Bab ini diakhiri dengan pembahasan keterbatasan hierarchical clustering serta pertimbangan saat menggunakannya.

Exercise 1: Dasar-dasar hierarchical clustering Exercise 2: Hierarchical clustering: metode ward Exercise 3: Hierarchical clustering: metode single Exercise 4: Hierarchical clustering: metode complete Exercise 5: Visualisasikan klaster Exercise 6: Visualisasikan klaster dengan matplotlib Exercise 7: Visualisasikan klaster dengan seaborn Exercise 8: Berapa banyak klaster?Exercise 9: Buat dendrogram Exercise 10: Berapa banyak klaster pada data comic con?Exercise 11: Keterbatasan hierarchical clustering Exercise 12: Mengukur waktu eksekusi hierarchical clustering Exercise 13: FIFA 18: mengeksplorasi pemain bertahan

Bab ini memperkenalkan algoritma clustering yang berbeda—k-means clustering—beserta implementasinya di SciPy. K-means clustering mengatasi kelemahan terbesar dari hierarchical clustering yang dibahas pada bab sebelumnya. Karena dendrogram khusus untuk hierarchical clustering, bab ini membahas satu metode untuk menentukan jumlah klaster sebelum menjalankan k-means clustering. Bab ini diakhiri dengan pembahasan keterbatasan k-means clustering serta pertimbangan saat menggunakan algoritma ini.

Exercise 1: Dasar-dasar pengelompokan k-means Exercise 2: K-means clustering: latihan pertama Exercise 3: Waktu eksekusi k-means clustering Exercise 4: Berapa banyak klaster?Exercise 5: Metode elbow pada klaster yang berbeda jelas Exercise 6: Metode elbow pada data seragam Exercise 7: Keterbatasan pengelompokan k-means Exercise 8: Dampak seed pada klaster yang berbeda

Latihan Saat Ini

Exercise 9: Pola pengelompokan seragam Exercise 10: FIFA 18: kembali ke defender

Sekarang Anda telah mengenal dua teknik clustering yang paling populer, bab ini membantu Anda menerapkan pengetahuan tersebut pada masalah dunia nyata. Bab ini terlebih dahulu membahas proses menemukan warna dominan dalam sebuah gambar, sebelum berlanjut ke masalah yang dibahas pada pengantar—clustering artikel berita. Bab ini diakhiri dengan pembahasan clustering dengan banyak variabel, yang membuat seluruh data sulit untuk divisualisasikan.

Exercise 1: Warna dominan pada gambar Exercise 2: Ekstrak nilai RGB dari gambar Exercise 3: Berapa banyak warna dominan?Exercise 4: Tampilkan warna dominan Exercise 5: Pengelompokan dokumen Exercise 6: TF-IDF untuk alur film Exercise 7: Term teratas dalam cluster film Exercise 8: Clustering dengan banyak fitur Exercise 9: Clustering dengan banyak fitur Exercise 10: Pemeriksaan dasar pada klaster Exercise 11: FIFA 18: apa yang membuat pemain komplet?Exercise 12: Sampai jumpa!