MulaiMulai sekarang secara gratis

Tf-idf

Walaupun jumlah kemunculan kata dapat berguna untuk membangun model, kata yang muncul sangat sering dapat menggeser hasil secara tidak diinginkan. Untuk membatasi dominasi kata-kata umum tersebut, dapat digunakan suatu bentuk normalisasi. Dalam pelajaran ini Anda akan menggunakan Term frequency-inverse document frequency (Tf-idf) seperti yang dibahas dalam video. Tf-idf berdampak mengurangi nilai kata-kata umum, sekaligus meningkatkan bobot kata-kata yang tidak sering muncul di banyak dokumen.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Impor TfidfVectorizer dari sklearn.feature_extraction.text.
  • Instansiasikan TfidfVectorizer dengan membatasi jumlah fitur hingga 100 dan menghapus stop words bahasa Inggris.
  • Latih dan terapkan vektorisasi pada kolom text_clean dalam satu langkah.
  • Buat DataFrame tv_df yang berisi bobot kata serta gunakan nama fitur sebagai nama kolom.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import TfidfVectorizer
____

# Instantiate TfidfVectorizer
tv = ____

# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])

# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____, 
                     columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())
Edit dan Jalankan Kode