TfIdf pada data sentimen maskapai di Twitter
Sekarang Anda akan membangun fitur menggunakan metode TfIdf. Anda akan tetap menggunakan himpunan data tweets.
Pada latihan ini, Anda akan memanfaatkan yang telah dipelajari di pelajaran sebelumnya: menghapus stop words, menggunakan pola token, dan menentukan n-gram.
Keluaran akhir berupa sebuah DataFrame, dengan kolom-kolom yang dibuat menggunakan TfidfVectorizer(). DataFrame seperti ini dapat langsung diberikan ke model pembelajaran terawasi, yang akan kita bahas di bab berikutnya.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor paket yang diperlukan untuk membangun TfidfVectorizer dan
ENGLISH_STOP_WORDS. - Bangun sebuah vektorisasi TfIdf dari kolom
textpada himpunan datatweets, dengan menentukan uni- dan bi-gram sebagai pilihan n-gram, token yang hanya mencakup karakter alfanumerik menggunakan pola token yang diberikan, serta stop words yang sesuai denganENGLISH_STOP_WORDS. - Transformasikan vektorisasi tersebut, dengan menentukan kolom yang sama seperti yang Anda fit.
- Tentukan nama kolom dalam fungsi
DataFrame().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())