MulaiMulai sekarang secara gratis

Mentransformasi data yang belum pernah dilihat

Saat membuat vektor dari teks, setiap transformasi yang Anda lakukan sebelum melatih model Machine Learning juga perlu Anda terapkan pada data baru yang belum pernah dilihat (data uji). Untuk mencapainya, ikuti pendekatan yang sama seperti pada bab sebelumnya: lakukan fit vectorizer hanya pada data pelatihan, dan terapkan pada data uji.

Untuk latihan ini, DataFrame speech_df telah dibagi menjadi dua:

  • train_speech_df: Himpunan pelatihan yang terdiri atas 45 pidato pertama.
  • test_speech_df: Himpunan uji yang terdiri atas sisa pidato.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Instansiasi TfidfVectorizer.
  • Lakukan fit pada vectorizer dan terapkan pada kolom text_clean.
  • Terapkan vectorizer yang sama pada kolom text_clean dari data uji.
  • Buat sebuah DataFrame berisi fitur baru ini dari himpunan uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Edit dan Jalankan Kode