Teks menjadi DataFrame
Sekarang setelah Anda membuat fitur berbasis hitungan dalam sebuah array, Anda perlu memformat ulang agar dapat digabungkan dengan himpunan data lainnya. Ini dapat dilakukan dengan mengonversi array tersebut menjadi pandas DataFrame, dengan nama fitur yang Anda temukan sebelumnya sebagai nama kolom, lalu menggabungkannya dengan DataFrame asli.
Numpy array (cv_array) dan vectorizer (cv) yang Anda fit pada latihan sebelumnya tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Buat DataFrame
cv_dfyang berisicv_arraysebagai nilai dan nama fitur sebagai nama kolom. - Tambahkan prefiks
Counts_pada nama kolom agar mudah diidentifikasi. - Gabungkan DataFrame ini (
cv_df) dengan DataFrame asli (speech_df) secara kolom (column-wise).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a DataFrame with these features
cv_df = pd.DataFrame(____,
columns=____).____('Counts_')
# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())