1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Seturi de date cu aceeași distribuție probabilistică

Scopul datelor sintetice este de a crea un set de date cât mai realist posibil, fără a pune în pericol informații personale importante. De exemplu, o echipă de la Deloitte Consulting a generat 80% din datele de antrenament pentru un model de machine learning prin sintetizarea datelor. Acuratețea modelului rezultat a fost similară cu cea a unui model antrenat pe date reale.

În acest exercițiu, vei genera un set de date sintetic de la zero folosind Faker, care urmează o distribuție probabilistică încărcată ca p.

Generatorul Faker fake_data a fost deja inițializat, iar numpy este importat ca np.

Instrucțiuni 1/2

undefined XP
    1
    2
  • Generează o listă cu 5 orașe aleatorii ca cities, pentru a le înlocui pe cele originale, folosind o listă comprehensivă.