Görülmemiş veriyi dönüştürme

Metinden vektörler oluştururken, bir Machine Learning modelini eğitmeden önce yaptığın tüm dönüşümleri, yeni ve görülmemiş (test) veriye de uygulaman gerekir. Bunu yapmak için önceki bölümdeki aynı yaklaşımı izle: vektörleştiriciyi yalnızca eğitim verisi üzerinde fit et ve test verisine uygula.

Bu egzersiz için speech_df DataFrame'i ikiye bölündü:

train_speech_df: İlk 45 konuşmadan oluşan eğitim kümesi.
test_speech_df: Kalan konuşmalardan oluşan test kümesi.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

TfidfVectorizer'ı başlat.
Vektörleştiriciyi fit et ve text_clean sütununa uygula.
Aynı vektörleştiriciyi test verisinin text_clean sütununa uygula.
Test kümesinden elde edilen bu yeni özelliklerin bir DataFrame'ini oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, özellik mühendisliğinin ne olduğunu ve bunu gerçek dünya verilerine nasıl uygulamaya başlayacağını keşfedeceksin. Bir anket yanıt veri kümesini yükleyip inceleyecek ve görselleştireceksin; bunu yaparken altta yatan veri tiplerini ve bunların özelliklerini nasıl tasarlaman gerektiğini neden etkilediğini öğreneceksin. pandas paketini kullanarak hem kategorik hem de sürekli sütunlardan yeni özellikler oluşturacaksın.

Exercise 1: Neden özellik üretiyoruz?Exercise 2: Verini tanı Exercise 3: Belirli veri tiplerini seçme Exercise 4: Kategorik özelliklerle çalışmak Exercise 5: One-hot encoding ve kukla değişkenler Exercise 6: Nadir kategorilerle başa çıkma Exercise 7: Sayısal değişkenler Exercise 8: Sütunları ikili değerlere dönüştürme Exercise 9: Değerleri bölmelere ayırma (binning)

Bu bölüm, dağınık ve eksik verilerin gerçekliğiyle seni tanıştırıyor. Verinde eksik değerlerin nerede olduğunu bulmayı ve onlarla nasıl başa çıkacağına dair birden çok yaklaşımı keşfetmeyi öğreneceksin. Ayrıca veri küpendeki istenmeyen karakterlerle başa çıkmak için dize (string) işleme tekniklerini kullanacaksın.

Exercise 1: Eksik değerler neden var?Exercise 2: Verim ne kadar seyrek?Exercise 3: Eksik değerleri bulma Exercise 4: Eksik değerlerle başa çıkma (I)Exercise 5: Liste bazlı silme Exercise 6: Eksik değerleri sabitlerle değiştirme Exercise 7: Eksik değerlerle başa çıkma (II)Exercise 8: Sürekli eksik değerleri doldurma Exercise 9: Tahmine dayalı modellerde değer atama (imputation)Exercise 10: Diğer veri sorunlarını ele alma Exercise 11: Başıboş karakterlerle başa çıkma (I)Exercise 12: Başıboş karakterlerle başa çıkma (II)Exercise 13: Metot zincirleme

Bu bölümde, verinin altta yatan dağılımını ve bunun Machine Learning sürecini etkileyip etkilemeyeceğini analiz etmeye odaklanacaksın. Çarpık dağılımlarla ve aykırı değerlerin analizini olumsuz etkileyebileceği durumlarla nasıl başa çıkacağını öğreneceksin.

Exercise 1: Veri dağılımları Exercise 2: Verilerin nasıl görünüyor? (I)Exercise 3: Verilerin nasıl görünüyor? (II)Exercise 4: Verilerini ne zaman dönüştürmek zorunda değilsin?Exercise 5: Ölçekleme ve dönüşümler Exercise 6: Normalizasyon Exercise 7: Standardizasyon Exercise 8: Log dönüşümü Exercise 9: Normalleştirmeyi ne zaman kullanabilirsin?Exercise 10: Aykırı değerleri kaldırma Exercise 11: Yüzdeye dayalı aykırı değer kaldırma Exercise 12: İstatistiksel aykırı değer kaldırma Exercise 13: Yeni veriyi ölçekleme ve dönüştürme Exercise 14: Eğitim ve test dönüşümleri (I)Exercise 15: Eğitim ve test dönüşümleri (II)

Son olarak, bu bölümde yapılandırılmamış metin verileriyle çalışacak ve bir metin derlemesinden sütun türünde özellikler üretmenin yollarını anlayacaksın. Farklı yaklaşımların metinden ne kadar bağlam çıkarıldığını nasıl etkileyebileceğini ve çok fazla özellik oluşturmadan bağlam ihtiyacını nasıl dengeleyeceğini karşılaştıracaksın.

Exercise 1: Metni kodlama Exercise 2: Metnini temizleme Exercise 3: Yüksek düzey metin özellikleri Exercise 4: Kelime sayımları Exercise 5: Kelimeleri sayma (I)Exercise 6: Kelimeleri sayma (II)Exercise 7: Özelliklerini sınırlama Exercise 8: Metinden DataFrame'e Exercise 9: Terim sıklığı - ters belge sıklığı Exercise 10: Tf-idf Exercise 11: Tf-idf değerlerini inceleme Exercise 12: Görülmemiş veriyi dönüştürme

Geçerli egzersiz

Exercise 13: N-gramlar Exercise 14: Daha uzun n-gram'lar kullanma Exercise 15: En yaygın sözcükleri bulma Exercise 16: Kapanış