1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Spójny syntetyczny zbiór danych

Jednym z zastosowań danych syntetycznych w firmach jest trenowanie modeli sztucznej inteligencji i uczenia maszynowego. Dane rzeczywiste bywają kosztowne w zbieraniu lub po prostu trudno dostępne. Gdy dane treningowe są silnie niezbalansowane (np. ponad 90% przypadków należy do jednej klasy), generowanie danych syntetycznych może pomóc w budowaniu dokładnych modeli uczenia maszynowego.

W tym ćwiczeniu wygenerujesz zbiór danych z ocenami aplikacji mobilnej przy użyciu biblioteki Faker.

Początkowy obiekt DataFrame jest wczytany jako ratings i zawiera dwie kolumny: rating oraz gender. Generator Faker() został już zainicjalizowany jako fake_data.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Utwórz kolumnę name w obiekcie DataFrame ratings, zawierającą unikalne imiona i nazwiska odpowiadające wartościom w kolumnie gender.