BaşlayınÜcretsiz Başlayın

Özelliklerini sınırlama

Gördüğün gibi, CountVectorizer varsayılan ayarlarıyla, derlemindeki her bir kelime için bir özellik oluşturur. Bu, analitik değeri çok düşük olanları da içerecek şekilde fazlasıyla fazla özellik yaratabilir.

Bu amaçla, CountVectorizer özelliği azaltmak için ayarlayabileceğin parametrelere sahiptir:

  • min_df : Yalnızca, belgelerin bu yüzdesinden fazlasında geçen kelimeleri kullan. Bu, metinler arasında genellenmeyecek aykırı kelimeleri kaldırmak için kullanılabilir.
  • max_df : Yalnızca, belgelerin bu yüzdesinden azında geçen kelimeleri kullan. Bu, "and" veya "the" gibi her derlemde değersiz şekilde çok sık geçen kelimeleri elemek için yararlıdır.

Bu egzersiz

Python ile Machine Learning için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • CountVectorizer içindeki özellik sayısını sınırlamak için bir kelimenin görünebileceği minimum belge oranını %20, maksimumu ise %80 olarak ayarla.
  • Vektörleştiriciyi text_clean sütununa tek adımda fit edip uygula.
  • Bu dönüştürülmüş (seyrek) diziyi sayımları içeren bir numpy dizisine çevir.
  • Yeni, azaltılmış dizinin boyutlarını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# Specify arguements to limit the number of features generated
cv = ____

# Fit, transform, and convert into array
cv_transformed = ____(speech_df['text_clean'])
cv_array = ____

# Print the array shape
print(____)
Kodu Düzenle ve Çalıştır