Mentransformasi data yang belum pernah dilihat
Saat membuat vektor dari teks, setiap transformasi yang Anda lakukan sebelum melatih model Machine Learning juga perlu Anda terapkan pada data baru yang belum pernah dilihat (data uji). Untuk mencapainya, ikuti pendekatan yang sama seperti pada bab sebelumnya: lakukan fit vectorizer hanya pada data pelatihan, dan terapkan pada data uji.
Untuk latihan ini, DataFrame speech_df telah dibagi menjadi dua:
train_speech_df: Himpunan pelatihan yang terdiri atas 45 pidato pertama.test_speech_df: Himpunan uji yang terdiri atas sisa pidato.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Instansiasi
TfidfVectorizer. - Lakukan fit pada vectorizer dan terapkan pada kolom
text_clean. - Terapkan vectorizer yang sama pada kolom
text_cleandari data uji. - Buat sebuah DataFrame berisi fitur baru ini dari himpunan uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())