Fitur teks tingkat tinggi
Setelah teks dibersihkan dan dinormalisasi, Anda dapat mulai membuat fitur dari data tersebut. Informasi paling mendasar yang dapat dihitung dari teks bebas adalah ukurannya, seperti panjang dan jumlah katanya. Pada latihan ini (dan sepanjang bab ini), Anda akan berfokus pada kolom teks yang telah dibersihkan/ditransformasikan (text_clean) yang Anda buat pada latihan sebelumnya.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Catat panjang karakter dari setiap pidato pada kolom
char_count. - Catat jumlah kata dari setiap pidato pada kolom
word_count. - Catat rata-rata panjang kata dari setiap pidato pada kolom
avg_word_length.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])