Tf-idf
Walaupun jumlah kemunculan kata dapat berguna untuk membangun model, kata yang muncul sangat sering dapat menggeser hasil secara tidak diinginkan. Untuk membatasi dominasi kata-kata umum tersebut, dapat digunakan suatu bentuk normalisasi. Dalam pelajaran ini Anda akan menggunakan Term frequency-inverse document frequency (Tf-idf) seperti yang dibahas dalam video. Tf-idf berdampak mengurangi nilai kata-kata umum, sekaligus meningkatkan bobot kata-kata yang tidak sering muncul di banyak dokumen.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Impor
TfidfVectorizerdarisklearn.feature_extraction.text. - Instansiasikan
TfidfVectorizerdengan membatasi jumlah fitur hingga 100 dan menghapus stop words bahasa Inggris. - Latih dan terapkan vektorisasi pada kolom
text_cleandalam satu langkah. - Buat DataFrame
tv_dfyang berisi bobot kata serta gunakan nama fitur sebagai nama kolom.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import TfidfVectorizer
____
# Instantiate TfidfVectorizer
tv = ____
# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])
# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())