Özelliklerini sınırlama
Gördüğün gibi, CountVectorizer varsayılan ayarlarıyla, derlemindeki her bir kelime için bir özellik oluşturur. Bu, analitik değeri çok düşük olanları da içerecek şekilde fazlasıyla fazla özellik yaratabilir.
Bu amaçla, CountVectorizer özelliği azaltmak için ayarlayabileceğin parametrelere sahiptir:
min_df: Yalnızca, belgelerin bu yüzdesinden fazlasında geçen kelimeleri kullan. Bu, metinler arasında genellenmeyecek aykırı kelimeleri kaldırmak için kullanılabilir.max_df: Yalnızca, belgelerin bu yüzdesinden azında geçen kelimeleri kullan. Bu, "and" veya "the" gibi her derlemde değersiz şekilde çok sık geçen kelimeleri elemek için yararlıdır.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
- CountVectorizer içindeki özellik sayısını sınırlamak için bir kelimenin görünebileceği minimum belge oranını %20, maksimumu ise %80 olarak ayarla.
- Vektörleştiriciyi
text_cleansütununa tek adımda fit edip uygula. - Bu dönüştürülmüş (seyrek) diziyi sayımları içeren bir numpy dizisine çevir.
- Yeni, azaltılmış dizinin boyutlarını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
# Specify arguements to limit the number of features generated
cv = ____
# Fit, transform, and convert into array
cv_transformed = ____(speech_df['text_clean'])
cv_array = ____
# Print the array shape
print(____)