En yaygın sözcükleri bulma

Özelliklerini oluşturduktan sonra, beklediğin gibi olup olmadıklarını görmek için onları incelemen her zaman tavsiye edilir. Bu sayede hataları erkenden yakalayabilir ve belki de hangi ek özellik mühendisliğine ihtiyaç duyacağını belirleyebilirsin.

Son egzersizde eğittiğin vektörleştirici (cv) ve sözcük sayılarından oluşan seyrek dizi (cv_trigram) çalışma alanında hazır.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

Özelliklerin (sözcük sayımları) bir DataFrame'ini oluştur.
Sözcük geçiş sayımlarını ekle ve en sık görülen ilk 5 sözcüğü yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a DataFrame of the features
cv_tri_df = ____(____, 
                 columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')

# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, özellik mühendisliğinin ne olduğunu ve bunu gerçek dünya verilerine nasıl uygulamaya başlayacağını keşfedeceksin. Bir anket yanıt veri kümesini yükleyip inceleyecek ve görselleştireceksin; bunu yaparken altta yatan veri tiplerini ve bunların özelliklerini nasıl tasarlaman gerektiğini neden etkilediğini öğreneceksin. pandas paketini kullanarak hem kategorik hem de sürekli sütunlardan yeni özellikler oluşturacaksın.

Exercise 1: Neden özellik üretiyoruz?Exercise 2: Verini tanı Exercise 3: Belirli veri tiplerini seçme Exercise 4: Kategorik özelliklerle çalışmak Exercise 5: One-hot encoding ve kukla değişkenler Exercise 6: Nadir kategorilerle başa çıkma Exercise 7: Sayısal değişkenler Exercise 8: Sütunları ikili değerlere dönüştürme Exercise 9: Değerleri bölmelere ayırma (binning)

Bu bölüm, dağınık ve eksik verilerin gerçekliğiyle seni tanıştırıyor. Verinde eksik değerlerin nerede olduğunu bulmayı ve onlarla nasıl başa çıkacağına dair birden çok yaklaşımı keşfetmeyi öğreneceksin. Ayrıca veri küpendeki istenmeyen karakterlerle başa çıkmak için dize (string) işleme tekniklerini kullanacaksın.

Exercise 1: Eksik değerler neden var?Exercise 2: Verim ne kadar seyrek?Exercise 3: Eksik değerleri bulma Exercise 4: Eksik değerlerle başa çıkma (I)Exercise 5: Liste bazlı silme Exercise 6: Eksik değerleri sabitlerle değiştirme Exercise 7: Eksik değerlerle başa çıkma (II)Exercise 8: Sürekli eksik değerleri doldurma Exercise 9: Tahmine dayalı modellerde değer atama (imputation)Exercise 10: Diğer veri sorunlarını ele alma Exercise 11: Başıboş karakterlerle başa çıkma (I)Exercise 12: Başıboş karakterlerle başa çıkma (II)Exercise 13: Metot zincirleme

Bu bölümde, verinin altta yatan dağılımını ve bunun Machine Learning sürecini etkileyip etkilemeyeceğini analiz etmeye odaklanacaksın. Çarpık dağılımlarla ve aykırı değerlerin analizini olumsuz etkileyebileceği durumlarla nasıl başa çıkacağını öğreneceksin.

Exercise 1: Veri dağılımları Exercise 2: Verilerin nasıl görünüyor? (I)Exercise 3: Verilerin nasıl görünüyor? (II)Exercise 4: Verilerini ne zaman dönüştürmek zorunda değilsin?Exercise 5: Ölçekleme ve dönüşümler Exercise 6: Normalizasyon Exercise 7: Standardizasyon Exercise 8: Log dönüşümü Exercise 9: Normalleştirmeyi ne zaman kullanabilirsin?Exercise 10: Aykırı değerleri kaldırma Exercise 11: Yüzdeye dayalı aykırı değer kaldırma Exercise 12: İstatistiksel aykırı değer kaldırma Exercise 13: Yeni veriyi ölçekleme ve dönüştürme Exercise 14: Eğitim ve test dönüşümleri (I)Exercise 15: Eğitim ve test dönüşümleri (II)

Son olarak, bu bölümde yapılandırılmamış metin verileriyle çalışacak ve bir metin derlemesinden sütun türünde özellikler üretmenin yollarını anlayacaksın. Farklı yaklaşımların metinden ne kadar bağlam çıkarıldığını nasıl etkileyebileceğini ve çok fazla özellik oluşturmadan bağlam ihtiyacını nasıl dengeleyeceğini karşılaştıracaksın.

Exercise 1: Metni kodlama Exercise 2: Metnini temizleme Exercise 3: Yüksek düzey metin özellikleri Exercise 4: Kelime sayımları Exercise 5: Kelimeleri sayma (I)Exercise 6: Kelimeleri sayma (II)Exercise 7: Özelliklerini sınırlama Exercise 8: Metinden DataFrame'e Exercise 9: Terim sıklığı - ters belge sıklığı Exercise 10: Tf-idf Exercise 11: Tf-idf değerlerini inceleme Exercise 12: Görülmemiş veriyi dönüştürme Exercise 13: N-gramlar Exercise 14: Daha uzun n-gram'lar kullanma Exercise 15: En yaygın sözcükleri bulma

Geçerli egzersiz

Exercise 16: Kapanış