Mentransformasi data yang belum pernah dilihat
Saat membuat vektor dari teks, setiap transformasi yang Anda lakukan sebelum melatih model Machine Learning juga perlu Anda terapkan pada data baru yang belum pernah dilihat (data uji). Untuk mencapainya, ikuti pendekatan yang sama seperti pada bab sebelumnya: lakukan fit vectorizer hanya pada data pelatihan, dan terapkan pada data uji.
Untuk latihan ini, DataFrame speech_df telah dibagi menjadi dua:
train_speech_df: Himpunan pelatihan yang terdiri atas 45 pidato pertama.test_speech_df: Himpunan uji yang terdiri atas sisa pidato.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Instruksi latihan
- Instansiasi
TfidfVectorizer. - Lakukan fit pada vectorizer dan terapkan pada kolom
text_clean. - Terapkan vectorizer yang sama pada kolom
text_cleandari data uji. - Buat sebuah DataFrame berisi fitur baru ini dari himpunan uji.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())