Menghasilkan himpunan data untuk klasifikasi
Menemukan himpunan data nyata yang memenuhi semua kombinasi kriteria yang diinginkan bisa rumit dan, jika dikumpulkan, berpotensi menimbulkan masalah privasi. Sebagai solusi, Anda dapat menggunakan generator himpunan data untuk memberikan perkiraan yang baik terhadap himpunan data dunia nyata.
Dalam latihan ini, Anda akan membuat himpunan data besar untuk masalah klasifikasi dengan 3 kelas. Untuk memudahkan visualisasi data yang dihasilkan sebagai sebaran (scatter plot), sebuah fungsi kustom telah disediakan yaitu plot_data_points().
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Impor fungsi yang sesuai dari
sklearn.datasetsuntuk menghasilkan himpunan data klasifikasi. - Hasilkan
5000sampel dengan4fitur,1klaster per kelas,3kelas, dan pemisahan kelas sebesar2. - Cetak bentuk (shape) dari data yang dihasilkan.
- Lihat sebaran (scatter plot) hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)