Beberapa kolom teks
Dalam latihan ini, Anda akan melanjutkan bekerja dengan data Twitter maskapai. Himpunan data tweets telah diimpor untuk Anda.
Dalam beberapa situasi, Anda mungkin memiliki lebih dari satu kolom teks dalam sebuah himpunan data dan Anda mungkin ingin membuat representasi numerik untuk setiap kolom teks tersebut. Di sini, selain kolom text yang berisi isi tweet, ada kolom teks kedua bernama negativereason. Kolom ini berisi alasan pelanggan memberikan ulasan negatif.
Tugas Anda adalah membangun representasi BOW untuk kedua kolom dan menetapkan stop words yang diperlukan.
Latihan ini merupakan bagian dari kursus
Analisis Sentimen dengan Python
Instruksi latihan
- Impor paket vectorizer dan daftar default stop words bahasa Inggris.
- Perbarui daftar default stop words bahasa Inggris dan buat himpunan
my_stop_words. - Tetapkan argumen stop words pada vectorizer pertama ke himpunan yang telah diperbarui, dan pada vectorizer kedua ke himpunan default stop words bahasa Inggris.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())