İstatistiksel aykırı değer kaldırma

Verilerinin en üst N%’lik kısmını kaldırmak, çok uç noktaların elenmesi için kullanışlıdır; ancak veriler doğru olsa bile her zaman aynı oranda nokta kaldırma dezavantajına sahiptir. Yaygın bir alternatif yaklaşım, ortalamadan üç standart sapmadan daha uzakta kalan verileri kaldırmaktır. Bunu, ilgili sütunun ortalamasını ve standart sapmasını hesaplayıp alt ve üst sınırları bulduktan sonra bu sınırları DataFrame’e bir maske olarak uygulayarak gerçekleştirebilirsin. Bu yöntem, gerçekten geri kalanından farklı olan verilerin kaldırılmasını sağlar ve veriler birbirine yakınsa daha az nokta kaldırır.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

so_numeric_df içindeki ConvertedSalary sütununun standart sapmasını ve ortalamasını hesapla.
Üst ve alt sınırları, ortalamanın her iki yönde üç standart sapma uzağı olacak şekilde hesapla.
so_numeric_df DataFrame’ini budayarak, ConvertedSalary değeri lower ve upper sınırları içinde olan tüm satırları koru.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Find the mean and standard dev
std = so_numeric_df['ConvertedSalary'].____
mean = so_numeric_df['ConvertedSalary'].____

# Calculate the cutoff
cut_off = std * 3
lower, upper = mean - cut_off, ____

# Trim the outliers
trimmed_df = so_numeric_df[(so_numeric_df['ConvertedSalary'] < ____) \ 
                           & (so_numeric_df['ConvertedSalary'] > ____)]

# The trimmed box plot
trimmed_df[['ConvertedSalary']].boxplot()
plt.show()

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, özellik mühendisliğinin ne olduğunu ve bunu gerçek dünya verilerine nasıl uygulamaya başlayacağını keşfedeceksin. Bir anket yanıt veri kümesini yükleyip inceleyecek ve görselleştireceksin; bunu yaparken altta yatan veri tiplerini ve bunların özelliklerini nasıl tasarlaman gerektiğini neden etkilediğini öğreneceksin. pandas paketini kullanarak hem kategorik hem de sürekli sütunlardan yeni özellikler oluşturacaksın.

Exercise 1: Neden özellik üretiyoruz?Exercise 2: Verini tanı Exercise 3: Belirli veri tiplerini seçme Exercise 4: Kategorik özelliklerle çalışmak Exercise 5: One-hot encoding ve kukla değişkenler Exercise 6: Nadir kategorilerle başa çıkma Exercise 7: Sayısal değişkenler Exercise 8: Sütunları ikili değerlere dönüştürme Exercise 9: Değerleri bölmelere ayırma (binning)

Bu bölüm, dağınık ve eksik verilerin gerçekliğiyle seni tanıştırıyor. Verinde eksik değerlerin nerede olduğunu bulmayı ve onlarla nasıl başa çıkacağına dair birden çok yaklaşımı keşfetmeyi öğreneceksin. Ayrıca veri küpendeki istenmeyen karakterlerle başa çıkmak için dize (string) işleme tekniklerini kullanacaksın.

Exercise 1: Eksik değerler neden var?Exercise 2: Verim ne kadar seyrek?Exercise 3: Eksik değerleri bulma Exercise 4: Eksik değerlerle başa çıkma (I)Exercise 5: Liste bazlı silme Exercise 6: Eksik değerleri sabitlerle değiştirme Exercise 7: Eksik değerlerle başa çıkma (II)Exercise 8: Sürekli eksik değerleri doldurma Exercise 9: Tahmine dayalı modellerde değer atama (imputation)Exercise 10: Diğer veri sorunlarını ele alma Exercise 11: Başıboş karakterlerle başa çıkma (I)Exercise 12: Başıboş karakterlerle başa çıkma (II)Exercise 13: Metot zincirleme

Bu bölümde, verinin altta yatan dağılımını ve bunun Machine Learning sürecini etkileyip etkilemeyeceğini analiz etmeye odaklanacaksın. Çarpık dağılımlarla ve aykırı değerlerin analizini olumsuz etkileyebileceği durumlarla nasıl başa çıkacağını öğreneceksin.

Exercise 1: Veri dağılımları Exercise 2: Verilerin nasıl görünüyor? (I)Exercise 3: Verilerin nasıl görünüyor? (II)Exercise 4: Verilerini ne zaman dönüştürmek zorunda değilsin?Exercise 5: Ölçekleme ve dönüşümler Exercise 6: Normalizasyon Exercise 7: Standardizasyon Exercise 8: Log dönüşümü Exercise 9: Normalleştirmeyi ne zaman kullanabilirsin?Exercise 10: Aykırı değerleri kaldırma Exercise 11: Yüzdeye dayalı aykırı değer kaldırma Exercise 12: İstatistiksel aykırı değer kaldırma

Geçerli egzersiz

Exercise 13: Yeni veriyi ölçekleme ve dönüştürme Exercise 14: Eğitim ve test dönüşümleri (I)Exercise 15: Eğitim ve test dönüşümleri (II)

Son olarak, bu bölümde yapılandırılmamış metin verileriyle çalışacak ve bir metin derlemesinden sütun türünde özellikler üretmenin yollarını anlayacaksın. Farklı yaklaşımların metinden ne kadar bağlam çıkarıldığını nasıl etkileyebileceğini ve çok fazla özellik oluşturmadan bağlam ihtiyacını nasıl dengeleyeceğini karşılaştıracaksın.

Exercise 1: Metni kodlama Exercise 2: Metnini temizleme Exercise 3: Yüksek düzey metin özellikleri Exercise 4: Kelime sayımları Exercise 5: Kelimeleri sayma (I)Exercise 6: Kelimeleri sayma (II)Exercise 7: Özelliklerini sınırlama Exercise 8: Metinden DataFrame'e Exercise 9: Terim sıklığı - ters belge sıklığı Exercise 10: Tf-idf Exercise 11: Tf-idf değerlerini inceleme Exercise 12: Görülmemiş veriyi dönüştürme Exercise 13: N-gramlar Exercise 14: Daha uzun n-gram'lar kullanma Exercise 15: En yaygın sözcükleri bulma Exercise 16: Kapanış