1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Set de date sintetic consistent

Un scenariu în care companiile folosesc date sintetice este antrenarea modelelor de inteligență artificială și de învățare automată. Datele din lumea reală sunt uneori costisitoare de colectat sau pur și simplu greu de obținut. Atunci când datele de antrenament sunt puternic dezechilibrate (de exemplu, mai mult de 90% din instanțe aparțin unei singure clase), generarea de date sintetice poate contribui la construirea unor modele de învățare automată mai precise.

În acest exercițiu, vei genera un set de date cu evaluări ale unei aplicații mobile folosind Faker.

DataFrame-ul inițial este încărcat ca ratings și conține două coloane: rating și gender. Un generator Faker() a fost deja inițializat pentru tine ca fake_data.

Instrucțiuni 1/3

undefined XP
    1
    2
    3
  • Creează o coloană name în DataFrame-ul ratings, care să conțină nume unice corespunzătoare coloanei gender.