MulaiMulai sekarang secara gratis

Tfidf dan BOW pada data yang sama

Pada latihan ini, Anda akan mentransformasikan kolom review dari reviews produk Amazon dengan menggunakan bag-of-words dan transformasi tfidf.

Bangun kedua vectorizer, dengan hanya menentukan jumlah maksimum fitur sama dengan 100. Buat DataFrame setelah transformasi dan cetak 5 baris teratas dari masing-masing.

Berhati-hatilah saat menentukan jumlah maksimum fitur dalam kosakata. Ukuran kosakata yang besar dapat menyebabkan sesi Anda terputus.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Petunjuk latihan

  • Impor vectorizer BOW dan Tfidf.
  • Bangun dan fit vectorizer BOW dan Tfidf dari kolom review dan batasi jumlah fitur yang dibuat hingga 100.
  • Buat DataFrame dari representasi vektor yang telah ditransformasikan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Edit dan Jalankan Kode