Tfidf dan BOW pada data yang sama
Pada latihan ini, Anda akan mentransformasikan kolom review dari reviews produk Amazon dengan menggunakan bag-of-words dan transformasi tfidf.
Bangun kedua vectorizer, dengan hanya menentukan jumlah maksimum fitur sama dengan 100. Buat DataFrame setelah transformasi dan cetak 5 baris teratas dari masing-masing.
Berhati-hatilah saat menentukan jumlah maksimum fitur dalam kosakata. Ukuran kosakata yang besar dapat menyebabkan sesi Anda terputus.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor vectorizer BOW dan Tfidf.
- Bangun dan fit vectorizer BOW dan Tfidf dari kolom
reviewdan batasi jumlah fitur yang dibuat hingga 100. - Buat DataFrame dari representasi vektor yang telah ditransformasikan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())