MulaiMulai sekarang secara gratis

Himpunan data sintetis yang konsisten

Salah satu skenario penggunaan data sintetis oleh perusahaan adalah untuk melatih model artificial intelligence dan machine learning. Data dunia nyata terkadang mahal untuk dikumpulkan, atau sulit didapat. Ketika data pelatihan sangat tidak seimbang (misalnya, lebih dari 90% instance termasuk dalam satu kelas), pembuatan data sintetis dapat membantu membangun model machine learning yang akurat.

Dalam latihan ini, Anda akan membuat himpunan data penilaian aplikasi seluler menggunakan Faker.

DataFrame awal dimuat sebagai ratings dengan dua kolom: rating dan gender. Generator Faker() sudah diinisialisasi untuk Anda sebagai fake_data.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female" 
                   else ____
                   for x in ratings['gender']] 
Edit dan Jalankan Kode