Sentimen maskapai dengan stop words

Anda diberikan sebuah himpunan data bernama tweets yang berisi ulasan dan sentimen pelanggan tentang maskapai penerbangan. Himpunan data ini memiliki dua kolom: airline_sentiment dan text di mana sentimen dapat berupa positif, negatif, atau netral, dan text adalah teks tweet.

Dalam latihan ini, Anda akan membuat representasi BOW dengan mempertimbangkan stop words. Ingat bahwa stop words tidak informatif dan mungkin ingin Anda hapus. Hal ini akan menghasilkan kosakata yang lebih kecil dan pada akhirnya lebih sedikit fitur. Perlu diingat bahwa kita dapat memperkaya daftar stop words bawaan dengan kata-kata yang spesifik untuk konteks kita.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Impor daftar stop words bahasa Inggris bawaan.
Perbarui daftar stop words bawaan dengan daftar yang diberikan ['airline', 'airlines', '@'] untuk membuat my_stop_words.
Tentukan argumen stop words pada vectorizer.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____

# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])

# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)

# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Edit dan Jalankan Kode