Sentimen maskapai dengan stop words
Anda diberikan sebuah himpunan data bernama tweets yang berisi ulasan dan sentimen pelanggan tentang maskapai penerbangan. Himpunan data ini memiliki dua kolom: airline_sentiment dan text di mana sentimen dapat berupa positif, negatif, atau netral, dan text adalah teks tweet.
Dalam latihan ini, Anda akan membuat representasi BOW dengan mempertimbangkan stop words. Ingat bahwa stop words tidak informatif dan mungkin ingin Anda hapus. Hal ini akan menghasilkan kosakata yang lebih kecil dan pada akhirnya lebih sedikit fitur. Perlu diingat bahwa kita dapat memperkaya daftar stop words bawaan dengan kata-kata yang spesifik untuk konteks kita.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor daftar stop words bahasa Inggris bawaan.
- Perbarui daftar stop words bawaan dengan daftar yang diberikan
['airline', 'airlines', '@']untuk membuatmy_stop_words. - Tentukan argumen stop words pada vectorizer.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____
# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])
# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)
# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())