BaşlayınÜcretsiz Başlayın

Aynı olasılık dağılımından örnekleme

ABD Nüfus Sayımı gibi birçok kurum, özel vatandaşlar hakkında topladıkları verilerin örneklerini kamuya açıklar. Bu veri kümeleri önce çeşitli tekniklerle anonimleştirilir ve ardından hesaplamalara imkân vermek için %1 ila %5’lik çok küçük bir kısım yayımlanır. Örnekleme, verinin istatistiksel özelliklerini korumasıyla bilinir; böylece insanlar altta yatan popülasyonu inceleyip anlayabilir.

Bu egzersizde, IBM İK veri kümesinin department sütununu, orijinal veri kümesinin dağılımlarından örnekleme yaparak anonimleştireceksin.

Veri kümesi hr olarak yüklendi.

Bu egzersiz

Python ile Veri Gizliliği ve Anonimleştirme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • department sütunundaki her bir benzersiz değerin göreli sıklıklarını elde et.
  • Olasılıkları counts içinden çıkar ve distributions adlı bir değişkende sakla.
  • Daha önce hesaplanan olasılık dağılımlarından örnekle. Örneklemenin boyutu, hr veri kümesinin boyutuyla aynı olmalı.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Kodu Düzenle ve Çalıştır