Aynı olasılık dağılımından örnekleme
ABD Nüfus Sayımı gibi birçok kurum, özel vatandaşlar hakkında topladıkları verilerin örneklerini kamuya açıklar. Bu veri kümeleri önce çeşitli tekniklerle anonimleştirilir ve ardından hesaplamalara imkân vermek için %1 ila %5’lik çok küçük bir kısım yayımlanır. Örnekleme, verinin istatistiksel özelliklerini korumasıyla bilinir; böylece insanlar altta yatan popülasyonu inceleyip anlayabilir.
Bu egzersizde, IBM İK veri kümesinin department sütununu, orijinal veri kümesinin dağılımlarından örnekleme yaparak anonimleştireceksin.
Veri kümesi hr olarak yüklendi.
Bu egzersiz
Python ile Veri Gizliliği ve Anonimleştirme
kursunun bir parçasıdırEgzersiz talimatları
departmentsütunundaki her bir benzersiz değerin göreli sıklıklarını elde et.- Olasılıkları
countsiçinden çıkar vedistributionsadlı bir değişkende sakla. - Daha önce hesaplanan olasılık dağılımlarından örnekle. Örneklemenin boyutu,
hrveri kümesinin boyutuyla aynı olmalı.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())