MulaiMulai sekarang secara gratis

Menghasilkan himpunan data untuk klasifikasi

Menemukan himpunan data nyata yang memenuhi semua kombinasi kriteria yang diinginkan bisa rumit dan, jika dikumpulkan, berpotensi menimbulkan masalah privasi. Sebagai solusi, Anda dapat menggunakan generator himpunan data untuk memberikan perkiraan yang baik terhadap himpunan data dunia nyata.

Dalam latihan ini, Anda akan membuat himpunan data besar untuk masalah klasifikasi dengan 3 kelas. Untuk memudahkan visualisasi data yang dihasilkan sebagai sebaran (scatter plot), sebuah fungsi kustom telah disediakan yaitu plot_data_points().

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Impor fungsi yang sesuai dari sklearn.datasets untuk menghasilkan himpunan data klasifikasi.
  • Hasilkan 5000 sampel dengan 4 fitur, 1 klaster per kelas, 3 kelas, dan pemisahan kelas sebesar 2.
  • Cetak bentuk (shape) dari data yang dihasilkan.
  • Lihat sebaran (scatter plot) hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the function for generating classification datasets
from sklearn.datasets import ____

# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____

# Inspect the generated data shape
print(____)

# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)
Edit dan Jalankan Kode