Ukuran kosakata ulasan film
Dalam latihan ini, Anda akan berlatih berbagai cara membatasi ukuran kosakata menggunakan sampel himpunan data ulasan movies. Kolom pertama adalah review yang bertipe object, dan kolom kedua adalah label, yaitu 0 untuk ulasan negatif dan 1 untuk ulasan positif.
Tiga metode yang akan Anda gunakan akan mengubah kolom teks menjadi kolom numerik baru, yang merekam jumlah kemunculan suatu kata atau frasa di setiap ulasan. Setiap metode pada akhirnya akan menghasilkan jumlah fitur baru yang berbeda.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())