Kümeleme için veri kümeleri oluşturma

Sentetik veriler tamamen yasal olup dünya genelindeki gizlilik yasa ve düzenlemelerinin tüm gerekliliklerini karşılar. Ham veriye gizlilik odaklı geçerli bir alternatiftir. make_blobs() fonksiyonu, Gauss (veya normal) dağılıma sahip veri noktaları üretmek için kullanılabilir.

Bu egzersizde 15000 örnekten oluşan bir veri kümesi oluşturacaksın.

numpy zaten np olarak içe aktarıldı ve bu egzersiz için özel plot_data_points() fonksiyonu tekrar sağlandı.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

Kursa Göz Atın

Egzersiz talimatları

Kümeleme veri setleri üretmek için datasets modülünden ilgili fonksiyonu içe aktar.
2 özellik, 2 merkez ve 3 küme standart sapması ile 15000 örnekten oluşan bir veri kümesi üret.
Ortaya çıkan üretilmiş verinin şeklini yazdır.
Ortaya çıkan veri noktalarını iki boyutlu bir saçılım grafiğinde incele.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

AvançadoNível de habilidade

4.9+

Kursa Ücretsiz Başla

Veri bastırma, maskeleme, sentetik veri üretimi ve genelleştirme gibi anonimleştirme tekniklerini uygulamaya hazır ol. Bu bölümde, hassas ve hassas olmayan kişisel olarak tanımlanabilir bilgiler (PII), yarı tanımlayıcılar (quasi-identifier) ve GDPR’ın temelleri arasında nasıl ayrım yapacağını öğreneceksin. Ayrıca, bu en iyi uygulamalara uyulmadığında nelerin ters gidebileceğine dair gerçek hayattan örneklerle karşılaşacaksın.

Exercise 1: Özel olan nedir ve neden önemseriz?Exercise 2: Gizlilik güçtür Exercise 3: Hassas mı, hassas olmayan mı?Exercise 4: Hassas özniteliklerin bastırılması Exercise 5: Faker ile veri maskeleme ve veri üretimi Exercise 6: Hassas PII’yi maskeleme Exercise 7: faker ile isimleri kaldırma Exercise 8: Veri genelleştirme ile anonimleştirme Exercise 9: Genelleştirme ile kimlik tespit riskini azaltma Exercise 10: Veri toplulaştırma ve veri genelleştirme Exercise 11: Beyaz Saray maaşlarında üst ve alt kodlama

Sütunların olasılık dağılımını izleyen veri kümelerinden örnekleme yaparak veriyi nasıl anonimleştireceğini keşfet. Ardından, bağlama veya yeniden tanımlama saldırılarını önlemek için k-anonymity gizlilik modelini nasıl uygulayacağını ve kategorik değişkenlerde veri genelleştirmesi yapmak için hiyerarşileri nasıl kullanacağını öğreneceksin.

Exercise 1: Kategorik verileri anonimleştirme Exercise 2: Veri dağılımını keşfet Exercise 3: Aynı olasılık dağılımından örnekleme Exercise 4: Sürekli verileri anonimleştirme Exercise 5: Farklı dağılımlar Exercise 6: En iyi sürekli dağılımdan örnekleme Exercise 7: K-anonimliğe giriş Exercise 8: Gizlilik öznitelikleri Exercise 9: Aralıklara genelleme Exercise 10: Hiyerarşiler kullanarak veriyi genelleştirme Exercise 11: Kategorik veriler için hiyerarşileri kullanma Exercise 12: Bir veri kümesini k-anonimleştirme

Apple, Google ve Uber gibi büyük teknoloji şirketlerinin kullandığı diferansiyel gizlilik hakkında bilgi edin. Bu bölümde, özel histogramlar üreterek ve veride özel ortalamalar hesaplayarak veri keşfi yapacaksın. Ayrıca, işletmelerin verilerinin faydasını artırmasına olanak tanıyan diferansiyel gizlilikli Machine Learning modelleri oluşturacaksın.

Exercise 1: Diferansiyel gizliliğe giriş Exercise 2: Epsilon (ϵ): sihirli sayı Exercise 3: Diferansiyel gizlilikle histogramlar Exercise 4: Gizlilik bütçeleri Exercise 5: Gizlilik bütçelerini kullanma Exercise 6: Hiç bütçe kalmadığında Exercise 7: Gizlilik bütçesi muhasebecisiyle veriyi keşfetme Exercise 8: Farklılaştırılmış gizliliğe sahip Machine Learning modelleri Exercise 9: Farklılaştırılmış gizliliğe sahip bir sınıflandırıcı oluştur Exercise 10: Maaş tahmini Exercise 11: Farklılaştırmalı gizliliğe sahip kümeleme modelleri Exercise 12: Veriyi ön işleme Exercise 13: Müşterileri segmentlere ayırma

Bu son bölümde, çok sütunlu büyük veri kümelerini anonimleştirmek için temel bileşen analizi (PCA) gibi boyut indirgeme yöntemlerini nasıl uygulayacağını öğreneceksin. Ardından, gerçekçi ve tutarlı veri kümeleri üretmek için Faker’ı ve normal dağılımı izleyen sentetik veri kümeleri oluşturmak için scikit-learn’ü kullanacaksın. Son olarak, birden fazla tekniği birleştirerek veri kümelerini güvenle kamuya açarken bu kursta öğrendiklerinin tümünü bir araya getireceksin.

Exercise 1: Anonimleştirme için PCA Exercise 2: Yüksek boyutlu verilerin anonimleştirilmesi Exercise 3: PCA ile veri maskeleme Exercise 4: Faker ile gerçekçi veri kümeleri oluşturma Exercise 5: Tutarlı sentetik veri kümesi Exercise 6: Aynı olasılıksal dağılıma sahip veri kümeleri Exercise 7: scikit-learn kullanarak sentetik veri kümeleri oluşturma Exercise 8: Sınıflandırma için veri kümeleri oluşturma Exercise 9: Kümeleme için veri kümeleri oluşturma

Geçerli egzersiz

Exercise 10: Veri kümelerini güvenle kamuya aç Exercise 11: Bir veri kümesini keşfetme ve takma adlandırma Exercise 12: Verilerin güvenli yayımlanması için çalışan verilerini hazırlama Exercise 13: Harika iş!