Tentukan pola token
Dalam latihan ini, Anda akan bekerja dengan kolom text dari himpunan data tweets. Tugas Anda adalah melakukan vektorisasi pada kolom bertipe objek menggunakan CountVectorizer. Anda akan menerapkan berbagai pola token pada vectorizer. Ingat bahwa dengan menentukan pola token, Anda dapat menyaring karakter tertentu.
CountVectorizer telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))