Beberapa kolom teks
Dalam latihan ini, Anda akan melanjutkan bekerja dengan data Twitter maskapai. Himpunan data tweets telah diimpor untuk Anda.
Dalam beberapa situasi, Anda mungkin memiliki lebih dari satu kolom teks dalam sebuah himpunan data dan Anda mungkin ingin membuat representasi numerik untuk setiap kolom teks tersebut. Di sini, selain kolom text yang berisi isi tweet, ada kolom teks kedua bernama negativereason. Kolom ini berisi alasan pelanggan memberikan ulasan negatif.
Tugas Anda adalah membangun representasi BOW untuk kedua kolom dan menetapkan stop words yang diperlukan.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor paket vectorizer dan daftar default stop words bahasa Inggris.
- Perbarui daftar default stop words bahasa Inggris dan buat himpunan
my_stop_words. - Tetapkan argumen stop words pada vectorizer pertama ke himpunan yang telah diperbarui, dan pada vectorizer kedua ke himpunan default stop words bahasa Inggris.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())