1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Zbiory danych z takim samym rozkładem prawdopodobieństwa

Celem danych syntetycznych jest stworzenie zbioru danych, który jest możliwie jak najbardziej realistyczny, a jednocześnie nie narusza ważnych informacji osobistych. Na przykład zespół w Deloitte Consulting wygenerował 80% danych treningowych dla modelu uczenia maszynowego, syntetyzując dane. Dokładność wynikowego modelu była zbliżona do modelu wytrenowanego na prawdziwych danych.

W tym ćwiczeniu wygenerujesz syntetyczny zbiór danych od podstaw, używając Faker, który będzie następował za rozkładem prawdopodobieństwa załadowanym jako p.

Generator Faker o nazwie fake_data został już zainicjalizowany, a numpy jest zaimportowany jako np.

Instrukcje 1/2

undefined XP
    1
    2
  • Wygeneruj listę 5 losowych miast jako cities, aby zastąpić oryginalne, używając wyrażenia listowego.