Menskalakan data ikan untuk klastering

Anda diberikan sebuah array samples yang berisi pengukuran ikan. Setiap baris mewakili satu ikan. Pengukuran seperti berat dalam gram, panjang dalam sentimeter, dan persentase rasio tinggi terhadap panjang memiliki skala yang sangat berbeda. Agar dapat mengelompokkan data ini secara efektif, Anda perlu melakukan standardisasi fitur-fitur tersebut terlebih dahulu. Pada latihan ini, Anda akan membangun sebuah pipeline untuk menstandarkan dan mengklasterkan data.

Data pengukuran ikan ini bersumber dari Journal of Statistics Education.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

Instruksi latihan

Impor:
- make_pipeline dari sklearn.pipeline.
- StandardScaler dari sklearn.preprocessing.
- KMeans dari sklearn.cluster.
Buat instans StandardScaler bernama scaler.
Buat instans KMeans dengan 4 klaster bernama kmeans.
Buat pipeline bernama pipeline yang merangkai scaler dan kmeans. Untuk melakukannya, cukup berikan keduanya sebagai argumen ke make_pipeline().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create scaler: scaler
scaler = ____

# Create KMeans instance: kmeans
kmeans = ____

# Create pipeline: pipeline
pipeline = ____

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari cara menemukan kelompok (atau "klaster") yang mendasari dalam sebuah himpunan data. Pada akhir bab ini, Anda akan mengelompokkan perusahaan menggunakan harga pasar sahamnya, dan membedakan berbagai spesies dengan mengelompokkan pengukuran mereka.

Exercise 1: Unsupervised Learning Exercise 2: Ada berapa klaster?Exercise 3: Melakukan klasterisasi titik 2D Exercise 4: Periksa klastering Anda Exercise 5: Mengevaluasi sebuah pengelompokan Exercise 6: Berapa banyak klaster untuk biji-bijian?Exercise 7: Mengevaluasi pengelompokan biji-bijian Exercise 8: Mentransformasi fitur untuk pengelompokan yang lebih baik Exercise 9: Menskalakan data ikan untuk klastering

Latihan Saat Ini

Exercise 10: Mengelompokkan data ikan Exercise 11: Mengelompokkan saham menggunakan KMeans Exercise 12: Saham mana yang bergerak bersama?

Pada bab ini, Anda akan mempelajari dua teknik unsupervised learning untuk visualisasi data: hierarchical clustering dan t-SNE. Hierarchical clustering menggabungkan sampel data menjadi klaster yang makin besar, menghasilkan visualisasi pohon dari hierarki klaster yang terbentuk. t-SNE memetakan sampel data ke ruang 2D sehingga kedekatan antar sampel dapat divisualisasikan.

Exercise 1: Memvisualisasikan hierarki Exercise 2: Berapa banyak penggabungan?Exercise 3: Hierarchical clustering pada data biji-bijian Exercise 4: Hierarki saham Exercise 5: Label klaster dalam hierarchical clustering Exercise 6: Klaster mana yang paling dekat?Exercise 7: Linkage berbeda, hierarchical clustering berbeda!Exercise 8: Pengelompokan menengah Exercise 9: Mengekstrak label klaster Exercise 10: t-SNE untuk peta 2 dimensi Exercise 11: Visualisasi t-SNE pada himpunan data biji-bijian Exercise 12: Peta t-SNE pasar saham

Reduksi dimensi merangkum sebuah himpunan data menggunakan pola yang sering muncul. Pada bab ini, Anda akan mempelajari teknik reduksi dimensi paling mendasar, "Principal Component Analysis" ("PCA"). PCA sering digunakan sebelum supervised learning untuk meningkatkan kinerja dan generalisasi model. PCA juga bermanfaat untuk unsupervised learning. Misalnya, Anda akan menggunakan varian PCA yang memungkinkan Anda mengelompokkan artikel Wikipedia berdasarkan isinya!

Exercise 1: Memvisualisasikan transformasi PCA Exercise 2: Data berkorelasi di alam Exercise 3: Menghilangkan korelasi pengukuran biji dengan PCA Exercise 4: Komponen utama Exercise 5: Dimensi intrinsik Exercise 6: Komponen utama pertama Exercise 7: Varians dari fitur PCA Exercise 8: Dimensi intrinsik dari data ikan Exercise 9: Reduksi dimensi dengan PCA Exercise 10: Reduksi dimensi pada pengukuran ikan Exercise 11: Array frekuensi kata tf-idf Exercise 12: Pengelompokan Wikipedia bagian I Exercise 13: Mengelompokkan Wikipedia bagian II

Pada bab ini, Anda akan mempelajari teknik reduksi dimensi bernama "Non-negative matrix factorization" ("NMF") yang mengekspresikan sampel sebagai kombinasi bagian-bagian yang dapat diinterpretasikan. Misalnya, teknik ini mengekspresikan dokumen sebagai kombinasi topik, dan gambar sebagai pola visual yang sering muncul. Anda juga akan belajar menggunakan NMF untuk membangun sistem rekomendasi yang dapat menemukan artikel serupa untuk dibaca, atau artis musik yang sesuai dengan riwayat mendengarkan Anda!

Exercise 1: Non-negative matrix factorization (NMF)Exercise 2: Data non-negatif Exercise 3: Penerapan NMF pada artikel Wikipedia Exercise 4: Fitur NMF dari artikel Wikipedia Exercise 5: NMF merekonstruksi sampel Exercise 6: NMF mempelajari komponen yang dapat ditafsirkan Exercise 7: NMF mempelajari topik dokumen Exercise 8: Jelajahi himpunan data digit LED Exercise 9: NMF mempelajari bagian-bagian dari citra Exercise 10: PCA tidak mempelajari bagian-bagian Exercise 11: Membangun sistem rekomendasi menggunakan NMF Exercise 12: Artikel mana yang mirip dengan 'Cristiano Ronaldo'?Exercise 13: Rekomendasikan artis musik bagian I Exercise 14: Rekomendasikan artis musik bagian II Exercise 15: Penutup