Aynı olasılık dağılımından örnekleme

ABD Nüfus Sayımı gibi birçok kurum, özel vatandaşlar hakkında topladıkları verilerin örneklerini kamuya açıklar. Bu veri kümeleri önce çeşitli tekniklerle anonimleştirilir ve ardından hesaplamalara imkân vermek için %1 ila %5’lik çok küçük bir kısım yayımlanır. Örnekleme, verinin istatistiksel özelliklerini korumasıyla bilinir; böylece insanlar altta yatan popülasyonu inceleyip anlayabilir.

Bu egzersizde, IBM İK veri kümesinin department sütununu, orijinal veri kümesinin dağılımlarından örnekleme yaparak anonimleştireceksin.

Veri kümesi hr olarak yüklendi.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

Kursa Göz Atın

Egzersiz talimatları

department sütunundaki her bir benzersiz değerin göreli sıklıklarını elde et.
Olasılıkları counts içinden çıkar ve distributions adlı bir değişkende sakla.
Daha önce hesaplanan olasılık dağılımlarından örnekle. Örneklemenin boyutu, hr veri kümesinin boyutuyla aynı olmalı.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

AvançadoNível de habilidade

4.9+

Kursa Ücretsiz Başla

Veri bastırma, maskeleme, sentetik veri üretimi ve genelleştirme gibi anonimleştirme tekniklerini uygulamaya hazır ol. Bu bölümde, hassas ve hassas olmayan kişisel olarak tanımlanabilir bilgiler (PII), yarı tanımlayıcılar (quasi-identifier) ve GDPR’ın temelleri arasında nasıl ayrım yapacağını öğreneceksin. Ayrıca, bu en iyi uygulamalara uyulmadığında nelerin ters gidebileceğine dair gerçek hayattan örneklerle karşılaşacaksın.

Exercise 1: Özel olan nedir ve neden önemseriz?Exercise 2: Gizlilik güçtür Exercise 3: Hassas mı, hassas olmayan mı?Exercise 4: Hassas özniteliklerin bastırılması Exercise 5: Faker ile veri maskeleme ve veri üretimi Exercise 6: Hassas PII’yi maskeleme Exercise 7: faker ile isimleri kaldırma Exercise 8: Veri genelleştirme ile anonimleştirme Exercise 9: Genelleştirme ile kimlik tespit riskini azaltma Exercise 10: Veri toplulaştırma ve veri genelleştirme Exercise 11: Beyaz Saray maaşlarında üst ve alt kodlama

Sütunların olasılık dağılımını izleyen veri kümelerinden örnekleme yaparak veriyi nasıl anonimleştireceğini keşfet. Ardından, bağlama veya yeniden tanımlama saldırılarını önlemek için k-anonymity gizlilik modelini nasıl uygulayacağını ve kategorik değişkenlerde veri genelleştirmesi yapmak için hiyerarşileri nasıl kullanacağını öğreneceksin.

Exercise 1: Kategorik verileri anonimleştirme Exercise 2: Veri dağılımını keşfet Exercise 3: Aynı olasılık dağılımından örnekleme

Geçerli egzersiz

Exercise 4: Sürekli verileri anonimleştirme Exercise 5: Farklı dağılımlar Exercise 6: En iyi sürekli dağılımdan örnekleme Exercise 7: K-anonimliğe giriş Exercise 8: Gizlilik öznitelikleri Exercise 9: Aralıklara genelleme Exercise 10: Hiyerarşiler kullanarak veriyi genelleştirme Exercise 11: Kategorik veriler için hiyerarşileri kullanma Exercise 12: Bir veri kümesini k-anonimleştirme

Apple, Google ve Uber gibi büyük teknoloji şirketlerinin kullandığı diferansiyel gizlilik hakkında bilgi edin. Bu bölümde, özel histogramlar üreterek ve veride özel ortalamalar hesaplayarak veri keşfi yapacaksın. Ayrıca, işletmelerin verilerinin faydasını artırmasına olanak tanıyan diferansiyel gizlilikli Machine Learning modelleri oluşturacaksın.

Exercise 1: Diferansiyel gizliliğe giriş Exercise 2: Epsilon (ϵ): sihirli sayı Exercise 3: Diferansiyel gizlilikle histogramlar Exercise 4: Gizlilik bütçeleri Exercise 5: Gizlilik bütçelerini kullanma Exercise 6: Hiç bütçe kalmadığında Exercise 7: Gizlilik bütçesi muhasebecisiyle veriyi keşfetme Exercise 8: Farklılaştırılmış gizliliğe sahip Machine Learning modelleri Exercise 9: Farklılaştırılmış gizliliğe sahip bir sınıflandırıcı oluştur Exercise 10: Maaş tahmini Exercise 11: Farklılaştırmalı gizliliğe sahip kümeleme modelleri Exercise 12: Veriyi ön işleme Exercise 13: Müşterileri segmentlere ayırma

Bu son bölümde, çok sütunlu büyük veri kümelerini anonimleştirmek için temel bileşen analizi (PCA) gibi boyut indirgeme yöntemlerini nasıl uygulayacağını öğreneceksin. Ardından, gerçekçi ve tutarlı veri kümeleri üretmek için Faker’ı ve normal dağılımı izleyen sentetik veri kümeleri oluşturmak için scikit-learn’ü kullanacaksın. Son olarak, birden fazla tekniği birleştirerek veri kümelerini güvenle kamuya açarken bu kursta öğrendiklerinin tümünü bir araya getireceksin.

Exercise 1: Anonimleştirme için PCA Exercise 2: Yüksek boyutlu verilerin anonimleştirilmesi Exercise 3: PCA ile veri maskeleme Exercise 4: Faker ile gerçekçi veri kümeleri oluşturma Exercise 5: Tutarlı sentetik veri kümesi Exercise 6: Aynı olasılıksal dağılıma sahip veri kümeleri Exercise 7: scikit-learn kullanarak sentetik veri kümeleri oluşturma Exercise 8: Sınıflandırma için veri kümeleri oluşturma Exercise 9: Kümeleme için veri kümeleri oluşturma Exercise 10: Veri kümelerini güvenle kamuya aç Exercise 11: Bir veri kümesini keşfetme ve takma adlandırma Exercise 12: Verilerin güvenli yayımlanması için çalışan verilerini hazırlama Exercise 13: Harika iş!