Tf-idf

Kelimelerin geçiş sayıları modeller kurmak için faydalı olsa da, çok sık geçen kelimeler sonuçları istenmeyen şekilde bozabilir. Bu yaygın kelimelerin modeli baskılamasını sınırlamak için bir tür normalizasyon kullanılabilir. Bu derste videoda bahsedildiği gibi Term frequency-inverse document frequency (Tf-idf) kullanacaksın. Tf-idf, yaygın kelimelerin değerini azaltırken, çok fazla belgede geçmeyen kelimelerin ağırlığını artırma etkisine sahiptir.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

sklearn.feature_extraction.text içinden TfidfVectorizer'ı içe aktar.
Özellik sayısını 100 ile sınırlandırıp İngilizce durak (stop) kelimeleri kaldırarak TfidfVectorizer'ı oluştur.
Vektörleştiriciyi text_clean sütununda tek adımda eğitip uygula.
Kelimelerin ağırlıklarını ve öznitelik adlarını sütun adı olarak içeren tv_df adlı bir DataFrame oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import TfidfVectorizer
____

# Instantiate TfidfVectorizer
tv = ____

# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])

# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____, 
                     columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, özellik mühendisliğinin ne olduğunu ve bunu gerçek dünya verilerine nasıl uygulamaya başlayacağını keşfedeceksin. Bir anket yanıt veri kümesini yükleyip inceleyecek ve görselleştireceksin; bunu yaparken altta yatan veri tiplerini ve bunların özelliklerini nasıl tasarlaman gerektiğini neden etkilediğini öğreneceksin. pandas paketini kullanarak hem kategorik hem de sürekli sütunlardan yeni özellikler oluşturacaksın.

Exercise 1: Neden özellik üretiyoruz?Exercise 2: Verini tanı Exercise 3: Belirli veri tiplerini seçme Exercise 4: Kategorik özelliklerle çalışmak Exercise 5: One-hot encoding ve kukla değişkenler Exercise 6: Nadir kategorilerle başa çıkma Exercise 7: Sayısal değişkenler Exercise 8: Sütunları ikili değerlere dönüştürme Exercise 9: Değerleri bölmelere ayırma (binning)

Bu bölüm, dağınık ve eksik verilerin gerçekliğiyle seni tanıştırıyor. Verinde eksik değerlerin nerede olduğunu bulmayı ve onlarla nasıl başa çıkacağına dair birden çok yaklaşımı keşfetmeyi öğreneceksin. Ayrıca veri küpendeki istenmeyen karakterlerle başa çıkmak için dize (string) işleme tekniklerini kullanacaksın.

Exercise 1: Eksik değerler neden var?Exercise 2: Verim ne kadar seyrek?Exercise 3: Eksik değerleri bulma Exercise 4: Eksik değerlerle başa çıkma (I)Exercise 5: Liste bazlı silme Exercise 6: Eksik değerleri sabitlerle değiştirme Exercise 7: Eksik değerlerle başa çıkma (II)Exercise 8: Sürekli eksik değerleri doldurma Exercise 9: Tahmine dayalı modellerde değer atama (imputation)Exercise 10: Diğer veri sorunlarını ele alma Exercise 11: Başıboş karakterlerle başa çıkma (I)Exercise 12: Başıboş karakterlerle başa çıkma (II)Exercise 13: Metot zincirleme

Bu bölümde, verinin altta yatan dağılımını ve bunun Machine Learning sürecini etkileyip etkilemeyeceğini analiz etmeye odaklanacaksın. Çarpık dağılımlarla ve aykırı değerlerin analizini olumsuz etkileyebileceği durumlarla nasıl başa çıkacağını öğreneceksin.

Exercise 1: Veri dağılımları Exercise 2: Verilerin nasıl görünüyor? (I)Exercise 3: Verilerin nasıl görünüyor? (II)Exercise 4: Verilerini ne zaman dönüştürmek zorunda değilsin?Exercise 5: Ölçekleme ve dönüşümler Exercise 6: Normalizasyon Exercise 7: Standardizasyon Exercise 8: Log dönüşümü Exercise 9: Normalleştirmeyi ne zaman kullanabilirsin?Exercise 10: Aykırı değerleri kaldırma Exercise 11: Yüzdeye dayalı aykırı değer kaldırma Exercise 12: İstatistiksel aykırı değer kaldırma Exercise 13: Yeni veriyi ölçekleme ve dönüştürme Exercise 14: Eğitim ve test dönüşümleri (I)Exercise 15: Eğitim ve test dönüşümleri (II)

Son olarak, bu bölümde yapılandırılmamış metin verileriyle çalışacak ve bir metin derlemesinden sütun türünde özellikler üretmenin yollarını anlayacaksın. Farklı yaklaşımların metinden ne kadar bağlam çıkarıldığını nasıl etkileyebileceğini ve çok fazla özellik oluşturmadan bağlam ihtiyacını nasıl dengeleyeceğini karşılaştıracaksın.

Exercise 1: Metni kodlama Exercise 2: Metnini temizleme Exercise 3: Yüksek düzey metin özellikleri Exercise 4: Kelime sayımları Exercise 5: Kelimeleri sayma (I)Exercise 6: Kelimeleri sayma (II)Exercise 7: Özelliklerini sınırlama Exercise 8: Metinden DataFrame'e Exercise 9: Terim sıklığı - ters belge sıklığı Exercise 10: Tf-idf

Geçerli egzersiz

Exercise 11: Tf-idf değerlerini inceleme Exercise 12: Görülmemiş veriyi dönüştürme Exercise 13: N-gramlar Exercise 14: Daha uzun n-gram'lar kullanma Exercise 15: En yaygın sözcükleri bulma Exercise 16: Kapanış