Menggunakan n-gram yang lebih panjang
Sejauh ini Anda telah membuat fitur berdasarkan kata-kata individual di setiap teks. Ini bisa sangat kuat saat digunakan dalam model Machine Learning, tetapi Anda mungkin khawatir bahwa dengan melihat kata secara terpisah, banyak konteks yang terabaikan. Untuk mengatasinya saat membuat model, Anda dapat menggunakan n-gram, yaitu urutan n kata yang dikelompokkan bersama. Misalnya:
- bigram: Urutan dua kata berurutan
- trigram: Urutan tiga kata berurutan
Ini dapat dibuat secara otomatis dalam himpunan data Anda dengan menentukan argumen ngram_range sebagai tuple (n1, n2) di mana semua n-gram dalam rentang n1 hingga n2 disertakan.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Impor
CountVectorizerdarisklearn.feature_extraction.text. - Buat instance
CountVectorizerdengan hanya mempertimbangkan trigram. - Fit vektorisasi dan terapkan pada kolom
text_cleandalam satu langkah. - Cetak nama-nama fitur yang dihasilkan oleh vektorisasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Instantiate a trigram vectorizer
cv_trigram_vec = CountVectorizer(max_features=100,
stop_words='english',
____)
# Fit and apply trigram vectorizer
cv_trigram = ____(speech_df['text_clean'])
# Print the trigram features
print(cv_trigram_vec.____)