Himpunan data dengan distribusi probabilistik yang sama
Tujuan data sintetis adalah membuat himpunan data yang sedekat mungkin dengan data nyata, tanpa membahayakan informasi pribadi yang penting. Misalnya, sebuah tim di Deloitte Consulting menghasilkan 80% data pelatihan untuk sebuah model machine learning dengan menyintesis data. Akurasi model yang dihasilkan serupa dengan model yang dilatih pada data asli.
Dalam latihan ini, Anda akan menghasilkan himpunan data sintetis dari nol menggunakan Faker yang mengikuti distribusi probabilistik yang dimuat sebagai p.
Generator Faker bernama fake_data sudah diinisialisasi dan numpy telah diimpor sebagai np.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)