Himpunan data sintetis yang konsisten
Salah satu skenario penggunaan data sintetis oleh perusahaan adalah untuk melatih model artificial intelligence dan machine learning. Data dunia nyata terkadang mahal untuk dikumpulkan, atau sulit didapat. Ketika data pelatihan sangat tidak seimbang (misalnya, lebih dari 90% instance termasuk dalam satu kelas), pembuatan data sintetis dapat membantu membangun model machine learning yang akurat.
Dalam latihan ini, Anda akan membuat himpunan data penilaian aplikasi seluler menggunakan Faker.
DataFrame awal dimuat sebagai ratings dengan dua kolom: rating dan gender. Generator Faker() sudah diinisialisasi untuk Anda sebagai fake_data.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]